CN109816009B - 基于图卷积的多标签图像分类方法、装置及设备 - Google Patents
基于图卷积的多标签图像分类方法、装置及设备 Download PDFInfo
- Publication number
- CN109816009B CN109816009B CN201910051706.3A CN201910051706A CN109816009B CN 109816009 B CN109816009 B CN 109816009B CN 201910051706 A CN201910051706 A CN 201910051706A CN 109816009 B CN109816009 B CN 109816009B
- Authority
- CN
- China
- Prior art keywords
- label
- image
- matrix
- graph convolution
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 90
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 238000003475 lamination Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种基于图卷积的多标签图像分类方法、装置及设备,涉及智能识别技术领域,该方法包括:获取待分类的图像;对待分类的图像进行特征提取,得到图像特征信息;将图像特征信息输入预先训练的多标签分类器;多标签分类器是由图卷积网络进行多标签关系建模,并学习得到的包括多标签关系信息的分类器;根据多标签分类器输出的至少一个标签分数,确定待分类图像对应的标签。本发明实施例提供的多标签图像分类方法、装置及设备可以提高图像分类精度。
Description
技术领域
本发明涉及智能识别技术领域,尤其是涉及一种基于图卷积的多标签图像分类方法、装置及设备。
背景技术
由于在自然场景下,图像总是包含了多个标签,因此多标签的图像分类问题相比单标签更具有实际意义,多标签的图像分类(Multi-label image classification)的目的是为了把图像中所有物体都预测出来。由于图像包含多个标签,分类的结果组合数目相比单标签是指数级别的增长,相比于单标签图像分类问题来说,多标签图像分类问题难度更大、精度更低。
现有方法包括使用图(Graph)来建模标签之间的关系,以此来人为的给最后预测的结果加上约束,以便减少分类结果的数目。由于这种方法非常取决于人的先验知识和所建图的好坏,具有很大的局限性。由于深度学习(Deep Learning)的快速发展,人们现在开始利用深度学习的方法来解决多标签图像分类问题。目前使用深度学习来解决多标签分类问题主要分为两类:1.基于图模型的方法,主要使用循环神经网络(Recurrent NeuralNetwork,RNN)来建模图,非常依赖于输入标签的顺序,且由于RNN长度限制导致不灵活;2.基于注意力(Attention)机制,只建模了局部图片标签的关系而非全局关系。
发明内容
有鉴于此,本发明的目的在于提供一种基于图卷积的多标签图像分类方法、装置及设备,可以提高分类精度。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种基于图卷积的多标签图像分类方法,包括:获取待分类的图像;对所述待分类的图像进行特征提取,得到图像特征信息;将所述图像特征信息输入预先训练的多标签分类器;所述多标签分类器是由图卷积网络进行多标签关系建模,并训练得到的包括多标签关系信息的分类器;根据所述多标签分类器输出的至少一个标签分数,确定所述待分类图像对应的标签。
进一步,所述多标签分类器的训练过程包括:将每个标签表示为一个词嵌入向量,并将所述词嵌入向量和邻接矩阵输入图卷积网络,确定所述图卷积网络每层卷积层的映射函数;所述映射函数的输入为前一卷积层的特征描述子和所述邻接矩阵,输出为后一卷积层的特征描述子;其中所述邻接矩阵通过以下步骤确定:统计训练集中标签两两之间同时出现的次数,以及标签的总数量;根据所述次数和所述总数量确定所述训练集的概率矩阵;将所述概率矩阵作为所述邻接矩阵。
进一步,所述方法还包括:将所述概率矩阵转换成二值矩阵,并将所述转换成二值矩阵通过重新分配权重策略转换为重新分配权重之后的关系矩阵;将所述重新分配权重之后的关系矩阵作为邻接矩阵。
进一步,所述图像特征信息为所述待分类的图像对应的图像描述子;所述根据所述多标签分类器输出的至少一个标签分数的步骤,包括:将所述多标签分类器的输出矩阵与所述图像描述子做点积,得到至少一个标签分数。
进一步,所述图卷积网络包括的映射函数如下:
Hl+1=f(Hl,A)
其中,特征描述子Hl和邻接矩阵A作为输入,特征描述子Hl+1作为输出,l表示卷积层的层数。
进一步,所述图卷积网络包括的映射函数如下:
进一步,所述图卷积网络包括依次连接的多个图卷积网络层。
第二方面,本发明实施例提供了一种基于图卷积的多标签图像分类装置,包括:获取模块,用于获取待分类的图像;特征提取模块,用于对所述待分类的图像进行特征提取,得到图像特征信息;输入模块,用于将所述图像特征信息输入预先训练的多标签分类器;所述多标签分类器是由图卷积网络进行多标签关系建模,并训练得到的包括多标签关系信息的分类器;标签确定模块,用于根据所述多标签分类器输出的至少一个标签分数,确定所述待分类图像对应的标签。
第三方面,本发明实施例提供了一种处理设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种具有处理器可执行的程序代码的计算机可读介质,所述程序代码使所述处理器执行第一方面任一项所述的方法的步骤。
本发明实施例提供的基于图卷积的多标签图像分类方法、装置及设备,利用图卷积网络来建立标签之间的关系,并把标签间的关系映射到分类器中,得到包含关系信息的分类器,其中建模了全局关系,通过该分类器进行图像分类可以提高图像分类精度。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种电子设备的结构示意图;
图2示出了本发明实施例所提供的一种基于图卷积的多标签图像分类方法的流程图;
图3示出了本发明实施例所提供的一种图像提取及分类网络的结构示意图;
图4示出了本发明实施例所提供的一种基于图卷积的多标签图像分类装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有利用深度学习的方法来解决多标签图像分类问题的两种主要思路:基于图模型的方法主要使用RNN来建模图,非常依赖于输入标签的顺序,且由于RNN长度的限制,不灵活;基于注意力机制的方法虽然没有上述缺点,但是这种方法只建模了局部图片标签的关系而非全局关系。
针对多标签图像分类问题,发明人发现标签之间并不是独立的,它们具有一定的关系。比如一张图片中,如果出现了滑板,那么就会有极大概率会出现人;而如果一张图片中出现了黑夜,那么基本不会出现太阳。所以部分标签同时出现在图片中的概率比较大,而部分标签基本上不会在一张图片中同时出现,对于这些不会同时出现的标签组合,可以不用去考虑,这样就可以减少预测标签的组合数,最终提高分类精度。
受上述启发,发明人提出了一种基于图卷积网络(Graph ConvolutionalNetwork,GCN)的多标签图像分类网络。以下通过本发明的实施例进行详细介绍。
首先,参照图1来描述用于实现本发明实施例的基于图卷积的多标签图像分类方法的示例电子设备100。
如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理设备102、一个或多个存储装置104。可选地,图1所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理设备102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储装置104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
示例性地,用于实现根据本发明实施例的基于图卷积的多标签图像分类方法的示例电子设备中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
示例性地,用于实现根据本发明实施例的基于图卷积的多标签图像分类方法的示例电子设备可以被实现为诸如智能手机、平板电脑、智能手表、计算机等智能终端。
根据本发明实施例,提供了一种基于图卷积的多标签图像分类方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是本发明实施例提供的一种基于图卷积的多标签图像分类方法的流程图,该方法包括如下步骤:
步骤S202,获取待分类的图像。
步骤S204,对待分类的图像进行特征提取,得到图像特征信息。进行特征提取可以采用现有的神经网络,本实施例对此不作限定。
步骤S206,将图像特征信息输入预先训练的多标签分类器。
其中,多标签分类器是由图卷积网络进行多标签关系建模,并训练得到的包括多标签关系信息的分类器。在本实施例中,利用图卷积网络来建立标签之间的关系,从而把这种关系映射到分类器中,最终训练得到包含关系信息的分类器,从而提高分类精度。
上述训练得到的多标签分类器,相比现有方法具有很多优点,相较基于图模型的方法,本实施例并没有使用循环神经网络,因此并不依赖于标签的顺序,也不受RNN长度的限制。相较基于注意力机制的方法,本实施例是直接建模标签的关系,因此建模了全局关系。
步骤S208,根据多标签分类器输出的至少一个标签分数,确定待分类图像对应的标签。
本发明实施例提供的上述多标签图像分类方法,利用图卷积网络来建立标签之间的关系,并把标签间的关系映射到分类器中,得到包含关系信息的分类器,其中建模了全局关系,通过该分类器进行图像分类可以提高图像分类精度。
上述多标签分类器的训练过程包括:将每个标签表示为一个词嵌入向量,并将词嵌入向量和邻接矩阵输入图卷积网络,确定图卷积网络每层卷积层的映射函数。该映射函数的输入为前一个卷积层的特征描述子和邻接矩阵,输出为与该卷积层相邻的后一个卷积层的特征描述子。其中,每个词嵌入向量(word embedding)作为一个节点,每个节点对应一个标签。如果有C个标签,则有C个节点作为输入,如果每个词嵌入向量的维度为d,那么词嵌入向量组成的矩阵维度为C*d。在本实施例中使用两层图卷积构成图卷积网络,每一层的输出维度是d->1024->D。图卷积网络的输出是分类器,每个标签节点对应一个分类器。例如某个节点输入的是person对应的词嵌入向量,那么对应输出的就是person这个标签的分类器,分类器的维度为D。最终得到包括多个标签的分类器W,W是一个C*D的矩阵,
其中图卷积网络的邻接矩阵通过以下步骤确定:统计训练集中两两标签同时出现的次数以及标签的总数量;根据次数和总数量确定训练集的概率矩阵;将概率矩阵作为多标签分类器的邻接矩阵。
上述确定图卷积网络的邻接矩阵的步骤还包括:将概率矩阵转换成二值矩阵,并将转换成二值矩阵通过重新分配权重策略转换为重新分配权重之后的关系矩阵;将重新分配权重之后的关系矩阵作为多标签分类器的邻接矩阵。
在得到分类器后,可以将分类器对应的矩阵与图像描述子做点积,得到至少一个标签分数。具体可以利用分类器和图像对应的图像描述子作点积得到最终标签的分数如下:
参见图3所示的图像提取及分类网络的结构示意图,其由两个模块组成,分别是特征提取模块和基于图卷积网络的标签关系建模模块。
(1)特征提取模块
如图3所示,例如输入的图像大小为448*448,经过一个卷积神经网络后得到图像的特征表示信息,然后在经过全局最大池化(global max pooling)操作得到特征描述子X。在本实施例中使用ResNet-101作为特征提取网络,故X的大小是2048维。具体公式如下:
X为图像的特征描述子,fcnn表示卷积神经网络,θcnn为其参数,D=2048。
(2)基于图卷积网络的标签关系建模模块
利用图卷积网络来建模标签之间的关系,学习出带有关系信息的分类器,以此来达到提高精度的目的。卷积神经网络无法处理非欧式结构的数据,但是又希望在这样的数据结构上有效地提取空间特征来进行机器学习,所以图卷积网络就成为合适的使用工具。
图卷积网络的作用就是让每个节点的信息通过图结构传播到其他节点上去,从而使得其他节点能从邻接节点上学习到有用的信息。图卷积训练的目的是利用数据集学习一个函数f,这个函数以特征描述子Hl和邻接矩阵A作为输入,输出另一组特征描述子Hl+1,l表示卷积层的层数。数学形式表示如下:Hl+1=f(Hl,A)
以下介绍基于图卷积来建模标签的关系的过程。首先标签之间的关系可以很清楚的用图结构来描述,例如天空和白云之间有关系,那么天空节点和白云节点就会有一条边。如果能建立图结构,那么就能利用图卷积网络来把关系映射到分类器中,从而提高最终效果。本实施例中将标签之间的关系用条件概率来描述,例如P(Lj|Li)表示的是标签Li出现时,标签Lj出现的概率,由于条件概率没有对称性,所以P(Lj|Li)≠P(Li|Lj),例如人出现时滑板出现的概率和滑板出现时人出现的概率显然是不相同的。
然后建立图的邻接矩阵,在训练集中统计了标签两两之间出现的次数,得到一个C*C的矩阵M,C是标签的总数量。Mij表示标签Li和标签Lj同时出现的数量。使用矩阵M就能得到条件概率矩阵P,如下:Pi=Mi/NiPij即为P(Lj|Li),Ni表示标签Li在训练集中出现的数量。
但是,直接使用概率矩阵作为图的邻接矩阵有两个缺点,由于标签服从长尾分布(long-tail distribution),所以这个矩阵必定存在很多噪声,且上述条件概率矩阵是从训练集中统计出来的,所以并不一定和测试集相符合,因此可以把条件概率矩阵转换成二值矩阵:
其中τ为阈值,A为二值相关矩阵。
直接使用二值矩阵会产生过平滑(over-smoothing)问题,原因是节点过多的吸收了邻接节点的信息导致自身节点的信息被冲淡,因此可以使用重新分配权重策略:
A’为重新分配权重之后的关系矩阵,p代表邻接节点的比例。
经过上述步骤之后就得到了需要的邻接矩阵,也可称为关系矩阵,进而利用图卷积网络来学习分类器。具体步骤如下:
首先,将词嵌入向量(word embedding)作为输入,每个词嵌入向量作为一个节点,每个节点对应一个标签。如果总共包括C个标签,则得到C个节点作为输入,如果每个词嵌入向量的维度为d,那么词嵌入向量组成的矩阵维度为C*d。
然后,使用两层图卷积构成图卷积网络,每一层的输出维度是d->1024->D。每个标签节点对应一个分类器。某个节点输入的是person这个词嵌入向量,那么对应输出的就是person这个标签的分类器,分类器的维度为D(D=2048)。
本实施例通过建模标签之间的关系,有效的解决标签组合过多的问题。
对应前述实施例中所提供的基于图卷积的多标签图像分类方法,本发明实施例提供了一种基于图卷积的多标签图像分类装置,参见图4所示的一种基于图卷积的多标签图像分类装置的结构框图,该装置包括:
获取模块402,用于获取待分类的图像;
特征提取模块404,用于对待分类的图像进行特征提取,得到图像特征信息;
输入模块406,用于将图像特征信息输入预先训练的多标签分类器;多标签分类器是由图卷积网络进行多标签关系建模,并训练得到的包括多标签关系信息的分类器;
标签确定模块408,用于根据多标签分类器输出的至少一个标签分数,确定待分类图像对应的标签。
本发明实施例提供的上述多标签图像分类装置,利用图卷积网络来建立标签之间的关系,并把标签间的关系映射到分类器中,得到包含关系信息的分类器,其中建模了全局关系,通过该分类器进行图像分类可以提高图像分类精度。
在一种实施方式中,多标签分类器的训练过程包括:将每个标签表示为一个词嵌入向量,并将词嵌入向量和邻接矩阵输入图卷积网络,确定图卷积网络每层卷积层的映射函数;映射函数的输入为前一卷积层的特征描述子和邻接矩阵,输出为后一卷积层的特征描述子;其中邻接矩阵通过以下步骤确定:统计训练集中标签两两之间同时出现的次数以及标签的总数量;根据次数和总数量确定训练集的概率矩阵;将概率矩阵作为邻接矩阵。
在另一种实施方式中,上述装置还包括转换模块,用于:将概率矩阵转换成二值矩阵,并将转换成二值矩阵通过重新分配权重策略转换为重新分配权重之后的关系矩阵;将重新分配权重之后的关系矩阵作为邻接矩阵。
在另一种实施方式中,图像特征信息为待分类的图像对应的图像描述子;标签确定模块还用于:将多标签分类器的输出矩阵与图像描述子做点积,得到至少一个标签分数。
在另一种实施方式中,图卷积网络包括的映射函数f如下:
Hl+1=f(Hl,A)
其中,特征描述子Hl和邻接矩阵A作为输入,另一组特征描述子Hl+1作为输出,l表示卷积层的层数。
在另一种实施方式中,图卷积网络包括的映射函数f如下:
在另一种实施方式中,图卷积网络包括依次连接的多个图卷积网络层。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种设备,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
进一步,本实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述前述方法实施例所提供的方法的步骤。
本发明实施例所提供的基于图卷积的多标签图像分类方法、装置及设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中提供的方法,具体实现可参见方法实施例,在此不再赘述。
本实施例还提供了一种计算机程序,该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行前面方法实施例中提供的方法,并且用于实现根据本发明实施例的装置中的相应模块。具体实现可参见方法实施例,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
本申请的各个装置实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。例如,本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本申请的上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于图卷积的多标签图像分类方法,其特征在于,包括:
获取待分类的图像;
对所述待分类的图像进行特征提取,得到图像特征信息;所述图像特征信息为所述待分类的图像对应的图像描述子;
将所述图像特征信息输入预先训练的多标签分类器;所述多标签分类器是由图卷积网络进行多标签关系建模,并训练得到的包括多标签关系信息的分类器;
将所述多标签分类器的输出矩阵与所述图像描述子做点积,得到至少一个标签分数,确定所述待分类图像对应的标签;
所述多标签分类器的训练过程包括:
将每个标签表示为一个词嵌入向量,并将所述词嵌入向量和邻接矩阵输入图卷积网络,确定所述图卷积网络每层卷积层的映射函数;所述映射函数的输入为前一卷积层的特征描述子和所述邻接矩阵,输出为后一卷积层的特征描述子;
其中所述邻接矩阵通过以下步骤确定:
统计训练集中标签两两之间同时出现的次数,以及标签的总数量;
根据所述次数和所述总数量确定所述训练集的概率矩阵;
将所述概率矩阵转换成二值矩阵,并将所述二值矩阵通过分配权重策略转换为分配权重之后的关系矩阵;
将所述分配权重之后的关系矩阵作为所述邻接矩阵。
4.根据权利要求1所述的方法,其特征在于,所述图卷积网络包括依次连接的多个图卷积网络层。
5.一种基于图卷积的多标签图像分类装置,其特征在于,包括:
获取模块,用于获取待分类的图像;
特征提取模块,用于对所述待分类的图像进行特征提取,得到图像特征信息;所述图像特征信息为所述待分类的图像对应的图像描述子;
输入模块,用于将所述图像特征信息输入预先训练的多标签分类器;所述多标签分类器是由图卷积网络进行多标签关系建模,并训练得到的包括多标签关系信息的分类器;标签确定模块,用于将所述多标签分类器的输出矩阵与所述图像描述子做点积,得到至少一个标签分数,确定所述待分类图像对应的标签;
分类器训练模块,用于将每个标签表示为一个词嵌入向量,并将所述词嵌入向量和邻接矩阵输入图卷积网络,确定所述图卷积网络每层卷积层的映射函数;所述映射函数的输入为前一卷积层的特征描述子和所述邻接矩阵,输出为后一卷积层的特征描述子;
其中所述邻接矩阵通过以下步骤确定:统计训练集中标签两两之间同时出现的次数,以及标签的总数量;根据所述次数和所述总数量确定所述训练集的概率矩阵;将所述概率矩阵转换成二值矩阵,并将所述二值矩阵通过分配权重策略转换为分配权重之后的关系矩阵;将所述分配权重之后的关系矩阵作为所述邻接矩阵。
6.一种处理设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4中任一项所述的方法的步骤。
7.一种具有处理器可执行的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至4中任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051706.3A CN109816009B (zh) | 2019-01-18 | 2019-01-18 | 基于图卷积的多标签图像分类方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051706.3A CN109816009B (zh) | 2019-01-18 | 2019-01-18 | 基于图卷积的多标签图像分类方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109816009A CN109816009A (zh) | 2019-05-28 |
CN109816009B true CN109816009B (zh) | 2021-08-10 |
Family
ID=66604712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910051706.3A Active CN109816009B (zh) | 2019-01-18 | 2019-01-18 | 基于图卷积的多标签图像分类方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109816009B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363282B (zh) * | 2019-06-06 | 2021-10-26 | 中国科学院信息工程研究所 | 一种基于图卷积网络的网络节点标签主动学习方法和系统 |
CN110276406B (zh) * | 2019-06-26 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 表情分类方法、装置、计算机设备及存储介质 |
CN110795558B (zh) * | 2019-09-03 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 标签获取方法和装置、存储介质及电子装置 |
CN110705425B (zh) * | 2019-09-25 | 2022-06-28 | 广州西思数字科技有限公司 | 一种基于图卷积网络的舌象多标签分类方法 |
CN110705629A (zh) * | 2019-09-27 | 2020-01-17 | 北京市商汤科技开发有限公司 | 数据处理方法及相关装置 |
CN110704650B (zh) * | 2019-09-29 | 2023-04-25 | 携程计算机技术(上海)有限公司 | Ota图片标签的识别方法、电子设备和介质 |
CN110852367B (zh) * | 2019-11-05 | 2023-10-31 | 上海联影智能医疗科技有限公司 | 图像分类方法、计算机设备和存储介质 |
CN110807495B (zh) * | 2019-11-08 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 多标签分类方法、装置、电子设备及存储介质 |
CN111126465B (zh) * | 2019-12-14 | 2023-01-24 | 中国科学院深圳先进技术研究院 | 节点分类方法、装置、终端设备及计算机可读存储介质 |
CN111291618B (zh) * | 2020-01-13 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 标注方法、装置、服务器和存储介质 |
CN111291643B (zh) * | 2020-01-20 | 2023-08-22 | 北京百度网讯科技有限公司 | 视频的多标签分类方法、装置、电子设备与存储介质 |
CN113283432A (zh) * | 2020-02-20 | 2021-08-20 | 阿里巴巴集团控股有限公司 | 图像识别、文字排序方法及设备 |
CN111523578B (zh) * | 2020-04-13 | 2021-07-23 | 推想医疗科技股份有限公司 | 图像分类方法及装置、神经网络模型的训练方法及装置 |
CN111476315B (zh) * | 2020-04-27 | 2023-05-05 | 中国科学院合肥物质科学研究院 | 一种基于统计相关性与图卷积技术的图像多标签识别方法 |
CN111694954B (zh) * | 2020-04-28 | 2023-12-08 | 北京旷视科技有限公司 | 图像分类方法、装置和电子设备 |
CN111639696B (zh) * | 2020-05-26 | 2023-08-01 | 北京邮电大学 | 一种用户分类方法及装置 |
CN111626251A (zh) * | 2020-06-02 | 2020-09-04 | Oppo广东移动通信有限公司 | 一种视频分类方法、视频分类装置及电子设备 |
CN113822316B (zh) * | 2020-06-18 | 2024-01-12 | 香港科技大学 | 一种在交互式在线题库中预测学生表现的方法及设备 |
CN111582409B (zh) * | 2020-06-29 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 图像标签分类网络的训练方法、图像标签分类方法及设备 |
CN112070079B (zh) * | 2020-07-24 | 2022-07-05 | 华南理工大学 | 基于特征图重赋权的x光违禁品包裹检测方法及装置 |
CN112069841B (zh) * | 2020-07-24 | 2022-07-05 | 华南理工大学 | X光违禁品包裹跟踪方法及装置 |
CN112115995B (zh) * | 2020-09-11 | 2023-04-07 | 北京邮电大学 | 一种基于半监督学习的图像多标签分类方法 |
CN112131420B (zh) * | 2020-09-11 | 2024-04-16 | 中山大学 | 一种基于图卷积神经网络的眼底图像分类方法及装置 |
CN112487207A (zh) * | 2020-12-09 | 2021-03-12 | Oppo广东移动通信有限公司 | 图像的多标签分类方法、装置、计算机设备及存储介质 |
CN112749737A (zh) * | 2020-12-30 | 2021-05-04 | 北京知因智慧科技有限公司 | 图像分类方法及装置、电子设备、存储介质 |
CN112786160A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于图神经网络的多图片输入的多标签胃镜图片分类方法 |
CN112906720B (zh) * | 2021-03-19 | 2022-03-22 | 河北工业大学 | 基于图注意力网络的多标签图像识别方法 |
CN113378965B (zh) * | 2021-06-25 | 2022-09-02 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
CN113627466B (zh) * | 2021-06-30 | 2023-06-13 | 北京三快在线科技有限公司 | 图像标签识别方法、装置、电子设备及可读存储介质 |
CN113807412B (zh) * | 2021-08-30 | 2023-09-26 | 广州大学 | 一种多标签图像分类方法、装置、设备及存储介质 |
CN113627447B (zh) * | 2021-10-13 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 标签识别方法、装置、计算机设备、存储介质及程序产品 |
CN113806547B (zh) * | 2021-10-15 | 2023-08-11 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
CN117392470B (zh) * | 2023-12-11 | 2024-03-01 | 安徽中医药大学 | 基于知识图谱的眼底图像多标签分类模型生成方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927394B (zh) * | 2014-05-04 | 2017-06-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
CN108171707A (zh) * | 2018-01-23 | 2018-06-15 | 武汉精测电子集团股份有限公司 | 一种基于深度学习的Mura缺陷等级评判方法及装置 |
CN108875827B (zh) * | 2018-06-15 | 2022-04-12 | 拓元(广州)智慧科技有限公司 | 一种细粒度图像分类的方法及系统 |
-
2019
- 2019-01-18 CN CN201910051706.3A patent/CN109816009B/zh active Active
Non-Patent Citations (3)
Title |
---|
"Graph Convolutional Networks for Classification with a Structured Label Space";Meihao Chen等;《arXiv》;20180222;参见第2-5节 * |
Meihao Chen等."Graph Convolutional Networks for Classification with a Structured Label Space".《arXiv》.2018, * |
SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS;Thomas N.Kipf等;《ICLR 2017》;20171231;参见第2、3节、图1 * |
Also Published As
Publication number | Publication date |
---|---|
CN109816009A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816009B (zh) | 基于图卷积的多标签图像分类方法、装置及设备 | |
CN109583501B (zh) | 图片分类、分类识别模型的生成方法、装置、设备及介质 | |
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN109086873B (zh) | 递归神经网络的训练方法、识别方法、装置及处理设备 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN109886330B (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
CN110990631A (zh) | 视频筛选方法、装置、电子设备和存储介质 | |
CN109359214A (zh) | 基于神经网络的视频描述生成方法、存储介质及终端设备 | |
CN111488985A (zh) | 深度神经网络模型压缩训练方法、装置、设备、介质 | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
CN111105017A (zh) | 神经网络量化方法、装置及电子设备 | |
CN110414593B (zh) | 图像处理方法及装置、处理器、电子设备及存储介质 | |
CN113298096A (zh) | 训练零样本分类模型的方法、系统、电子设备及存储介质 | |
Sun et al. | Image steganalysis based on convolutional neural network and feature selection | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN111898544A (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN113849679A (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN113792876B (zh) | 骨干网络的生成方法、装置、设备以及存储介质 | |
CN113435531B (zh) | 零样本图像分类方法、系统、电子设备及存储介质 | |
CN112668675B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN111753729B (zh) | 一种假脸检测方法、装置、电子设备及存储介质 | |
CN111126177B (zh) | 人数统计的方法及装置 | |
CN111582284A (zh) | 用于图像识别的隐私保护方法、装置和电子设备 | |
CN109583512B (zh) | 图像处理方法、装置及系统 | |
CN114580731A (zh) | 人群计数预测方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |