CN112308115A - 一种多标签图像深度学习分类方法及设备 - Google Patents

一种多标签图像深度学习分类方法及设备 Download PDF

Info

Publication number
CN112308115A
CN112308115A CN202011022191.3A CN202011022191A CN112308115A CN 112308115 A CN112308115 A CN 112308115A CN 202011022191 A CN202011022191 A CN 202011022191A CN 112308115 A CN112308115 A CN 112308115A
Authority
CN
China
Prior art keywords
label
tag
mapping
group
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011022191.3A
Other languages
English (en)
Other versions
CN112308115B (zh
Inventor
张辉宜
张进
黄�俊
屈喜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN202011022191.3A priority Critical patent/CN112308115B/zh
Publication of CN112308115A publication Critical patent/CN112308115A/zh
Application granted granted Critical
Publication of CN112308115B publication Critical patent/CN112308115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及机器学习领域的多标签学习技术,涉及一种多标签图像深度学习分类方法及设备,包含以下步骤:获得标签关系图;根据标签关系图获得所有类别标签的映射和所有标签组的映射;构建深度卷积神经网络并进行图像通用特征提取;选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;得到最终的标签相关语义特征与最终的标签组的相关语义特征;标签预测。本申请实现有效利用标签关系,学习更加丰富的图像通用特征和标签关系特征,更好的进行多标签分类任务。

Description

一种多标签图像深度学习分类方法及设备
技术领域
本发明涉及机器学习领域的多标签学习技术,涉及针对深度多标签学习中的图嵌入学习及分类技术,特别涉及一种多标签图像深度学习分类方法及设备。
背景技术
在大数据时代,多标签图像越来越复杂,多标签图像的复杂不仅仅体现在图像中标签个数的增多,也体现在不同的标签在多标签图像中的分布也越来越复杂。为了解决多标签图像的分类问题除了可以利用图像自身的特征如轮廓,形状,颜色等进行标签分类,也可以结合多标签学习中的标签之间存在的相互关系对标签关系进行建模。
目前的多标签图像深度学习主要采用卷积神经网络对图像中的通用特征进行提取学习,这些通用特征包括了图像中物体的轮廓,颜色,形状等。同时针对多标签图像中标签与标签之间的低阶或高阶关系进行建模学习到标签关系特征,最终将这两部分特征进行融合得到最终最具有判别力的特征,利用最终结合的特征就可以建立分类器得到多个标签在图像中的概率分布。
其中提取图像通用特征的卷积神经网络部分采用的一般都是AlexNet,VGG,ResNet,其中ResNet因为其强大的特征提取能力在目前的多标签深度学习框架中占据主流地位,在ResNet的众多版本中权衡了性能和计算资源,计算速度等因素主要采用101层的ResNet-101。目前主流的方法采用的一般是ResNet-101最终某一层的特征,没有高效地利用不同特征层获取更加丰富的语义信息。本方法虽然采用 ResNet-101作为图像通用特征提取器,但在实际应用时本方法可以与任意主流卷积神经网络结合具有很好的可拓展性。
对于多标签图像中的标签关系学习标签关系特征的提取目前主流的方法是采用递归神经网络或者是图神经网络进行标签关系的建模和学习,递归神经网络可以很好地处理序列化的数据,利用递归神经网络可以学习到特定序列中标签之间的相互关系来帮助进行多标签分类。图神经网络对标签关系建模是目前新兴的标签关系提取方法,图神经网络例如图卷积神经网络可以用来处理非欧几里得数据的特征提取问题。利用图神经网络来进行标签关系提取一般分为三步:第一步,建立标签关系图,一般采用标签在多标签图像中的共现关系作为关系图的建立依据,每一种类别的标签都是一个节点,节点之间连接的边即代表标签之间的共现关系。第二步,得到标签节点本身的表示,标签节点自身也要对自己的语义信息进行表达,一般采用词嵌入的模型将标签自身的语义信息转化为向量。第三步,将标签共现关系图和含有标签语义的词嵌入输入进图神经网络学习到包含共现关系和语义信息的特征。虽然这些方法都利用到了标签之间存在的相似性但是没有考虑到更加高阶的标签相似性。同时也没有对标签按照自身属性进行分组对标签关系进行进一步的约束。
综上所述多标签图像深度学习分类由深度学习方法中的卷积神经网络作为特征提取器,利用不同的卷积神经网络模型和同一卷积神经网络的不同层的特征都会影响最终的分类结果,目前对于同一卷积神经网络模型的不同层的特征的整合缺乏有效的方法。对标签关系特征的提取虽然方法不同但是都没有充分考虑到多阶的标签相似性。因此如何更加高效的利用卷积神经网络进行通用特征提取和如何针对标签节点多阶相似性关系进行建模学习对提升多标签图像深度学习模型的性能来说尤为关键。
发明内容
本发明提供一种多标签图像深度学习分类方法及设备,实现有效利用标签关系,学习更加丰富的图像通用特征和标签关系特征,更好的进行多标签分类任务。
为实现上述技术目的,本申请采取的技术方案为,一种多标签图像深度学习分类方法,包含以下步骤:
获取训练数据的图像文件和标签,获得标签关系图;
根据标签关系图获得所有类别标签的映射和所有标签组的映射;
构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取;
选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;
对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;
根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征;
将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况;
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值。
作为本申请改进的技术方案,获取训练数据的图像文件和标签,获得标签关系图,包括:
获取训练数据的图像文件和训练数据中的标签,得到标签集合 V={y1,......yi...,yq},
其中,yi表示第i个类别标签,
yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数;
得到训练样本的标签矩阵Y∈{0,1}n×q
其中,n为正整数,表示样本个数;
其中Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数。
对标签的共现关系建立图G=(V,E),
其中,V表示为类别标签集合,即V={y1,......yi…,yq};
E表示边集,即E={e1,e2,...,em},em表示两两标签节点之间连接的边,m表示边的条数;
将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1};
Aij=1表示第i个类别标签yi和第j个类别标签yj在边集E中存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中有共现关系;
Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
作为本申请改进的技术方案,根据标签关系图获得所有类别标签的映射和所有标签组的映射,包括:
O1表示的是两个标签节点映射表示
Figure BDA0002701017330000041
Figure BDA0002701017330000042
之间的一阶相似性约束:
Figure BDA0002701017330000043
其中,vi表示在边集E中的任意的一条边上的标签yi
vj表示标签yi的所在边上的另一个标签yj
Figure BDA0002701017330000044
为vi对应标签节点映射表示;
Figure BDA0002701017330000045
为vj对应标签节点映射表示;
其中,i,j∈{1,2,…,q};
O2表示的是两个标签节点映射表示
Figure BDA0002701017330000046
Figure BDA0002701017330000047
以共同邻居为媒介计算的二阶相似性约束:
Figure BDA0002701017330000048
其中,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10};
vi∈V表示类别标签集合中第i个标签节点;
Δij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数,Ci为依据标签节点vi生成的上下文节点集,vi生成的上下文节点表达的是标签节点viξ跳之内的邻居节点,ξ的取值域为{5,10};
O3表示的是两个标签节点映射表示
Figure BDA0002701017330000051
Figure BDA0002701017330000052
之间的高阶相似性约束,
Figure BDA0002701017330000053
其中,β为权衡参数取值域为{0.1,1,5,10};
Figure BDA0002701017330000054
为高斯分布;
Figure BDA0002701017330000055
为第k个标签组的标签组映射k∈{1,...K},K为标签组个数取值域为{5,7,9};
πik表示第i个标签之间和标签组k之间的从属关系,取值范围为[0,1];
Figure BDA0002701017330000056
为第k个组的协方差矩阵,
Figure BDA0002701017330000057
表示实数域,de的取值域为{128,256,512};
通过优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到q个类别标签的映射
Figure BDA0002701017330000058
和K个标签组的映射表示
Figure BDA0002701017330000059
其中,
Figure BDA00027010173300000510
的维度为
Figure BDA00027010173300000511
Figure BDA00027010173300000512
的维度为
Figure BDA00027010173300000513
Figure BDA00027010173300000514
表示实数域。
针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10};每个节点经过随机行走采样经过的次数为γ,γ的取值域为{5,10};
通过Deepwalk初始化标签节点映射
Figure BDA00027010173300000515
和上下文映射
Figure BDA00027010173300000516
根据
Figure BDA00027010173300000517
更新πik,其中,Nk表示采样路径中所有标签节点和标签组k之间路径的总和;
根据
Figure BDA00027010173300000518
Figure BDA00027010173300000519
更新
Figure BDA00027010173300000520
k,其中,γik表示的是第i个标签和标签组k之间的路径;
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数:
Figure BDA0002701017330000061
通过最小化损失函数求解出所有类别标签的映射
Figure BDA0002701017330000062
上下文映射
Figure BDA0002701017330000063
标签组分配
Figure BDA0002701017330000064
Π内任意第i行k列元素为πik,πik的取值决定了第i个标签和第k 个标签组之间的从属关系;
每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在Π中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1到q之间的正整数,k为1到K之间的正整数,
Figure BDA0002701017330000065
表示实数域,所有标签组的映射
Figure BDA0002701017330000066
所有标签组的协方差矩阵Ξ
Figure BDA0002701017330000067
作为本申请改进的技术方案,构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取,包括:
输入多标签图像样本t,并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选;
输入样本t在每个阶层输出的特征图为
Figure BDA0002701017330000068
其中,
Figure BDA0002701017330000069
表示实数域;
W为选取的特征图的宽度,取值域为{7,14,28,56};
H为选取的特征图的长度,取值域为{7,14,28,56};
D为选取的特征图的通道数,取值域为{256,512,1024,2048};
s为当前所提取的阶层编号,s的取值域为{1,2,3,4}。
作为本申请改进的技术方案,选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度,包括:
提取ResNet-101中选取的阶层的特征图Fs,通过映射矩阵
Figure BDA0002701017330000071
对Fs进行映射,
Figure BDA0002701017330000072
表示实数域,D为选取的特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度,de与标签、标签组的映射表示
Figure BDA0002701017330000073
Figure BDA0002701017330000074
的维度
Figure BDA0002701017330000075
中的de一致。
作为本申请改进的技术方案,对选取的的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分,包括:
通过w,h确定选取的特征图Fs中像素点的位置,w表示在选取的特征图中的水平方向位置,取值域为{0,1,…,W};h表示在选取的特征图中的垂直方向位置,取值域 {0,1,…,H}:
任意第i个标签在当前选取的特征图Fs上像素点中的相合性评分
Figure BDA0002701017330000076
Figure BDA0002701017330000077
任意k个标签组在当前选取的特征图Fs上像素点中的相合性评分
Figure BDA0002701017330000078
其中,C表示相合性评分计算函数;
fs,(w,h)表示选取的特征图Fs在坐标位置w,h上的特征向量,维度为
Figure BDA0002701017330000079
Figure BDA00027010173300000710
表示实数域;
Figure BDA00027010173300000711
表示第i个标签映射,i的取值域为{1,2,…,q};
Figure BDA00027010173300000712
表示第k个标签组映射,k的取值域为{1,2,…,K};
当前像素点中第i个标签在特征图Fs上的归一化评分
Figure BDA00027010173300000713
Figure BDA00027010173300000714
当前像素点中第k个标签组在特征图Fs上的归一化评分
Figure BDA00027010173300000715
Figure BDA0002701017330000081
其中,x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W}; y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
作为本申请改进的技术方案,根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征,包括:
在选取的特征图Fs上计算得到的整合的第i个标签特征
Figure BDA0002701017330000082
第i个标签整合的特征
Figure BDA0002701017330000083
维度为
Figure BDA0002701017330000084
并进一步得到在选取的特征图Fs上所有标签节点的整合标签特征
Figure BDA0002701017330000085
在选取的多层特征图上计算标签i的整合标签特征
Figure BDA0002701017330000086
取均值计算得到标签i的最终相关语义特征
Figure BDA0002701017330000087
和所有标签节点的最终相关语义特征
Figure BDA0002701017330000088
其中,
Figure BDA0002701017330000089
Figure BDA00027010173300000810
表示实数域;
Figure BDA00027010173300000811
在选取的特征图Fs上计算得到的整合的第k组标签特征
Figure BDA00027010173300000812
第k组标签整合的特征
Figure BDA00027010173300000813
维度为
Figure BDA00027010173300000814
并进一步得到在选取的特征图Fs上所有标签组的整合标签组特征
Figure BDA00027010173300000815
在选取的多层特征图上计算标签组k的整合标签特征
Figure BDA00027010173300000816
取均值计算得到标签组k的最终相关语义特征
Figure BDA00027010173300000817
和所有标签组的最终相关语义特征
Figure BDA00027010173300000818
其中,
Figure BDA00027010173300000819
Figure BDA00027010173300000820
表示实数域;
Figure BDA00027010173300000821
其中,s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
作为本申请改进的技术方案,将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况,包括:
根据标签与标签组对应关系Π,配对最终第i个标签的相关语义特征
Figure BDA00027010173300000822
和第i个标签所属于的第k标签组的最终相关语义特征
Figure BDA0002701017330000091
Figure BDA0002701017330000092
维度均为
Figure BDA0002701017330000093
Figure BDA0002701017330000094
表示实数域;
通过拼接
Figure BDA0002701017330000095
Figure BDA0002701017330000096
得到用于标签i分类的特征F′i,F′i的维度为
Figure BDA0002701017330000097
Figure BDA0002701017330000098
表示实数域;
将F′i输入一个全连接层,全连接层的输入为F′i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个概率
Figure BDA0002701017330000099
该概率
Figure BDA00027010173300000910
是标签i在样本t中出现的概率,该标签i在样本t中出现的概率
Figure BDA00027010173300000911
在(0,1)之间;
通过设置一个阈值z判断标签i是否存在于样本t中,
Figure BDA00027010173300000912
则认为标签i在样本t中有出现,
Figure BDA00027010173300000913
则认为标签i在样本t中没有出现,z的取值域为{0.5}。
作为本申请改进的技术方案,标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值,包括:
计算选取的特征图Fs上所有标签节点的整合标签特征
Figure BDA00027010173300000914
与所有标签组的整合标签组特征
Figure BDA00027010173300000915
得到标签节点i的最终标签语义特征
Figure BDA00027010173300000916
和标签节点i所属的标签组k标签组k的最终标签组语义特征
Figure BDA00027010173300000917
根据标签与标签组对应关系Π配对将最终第i个标签的相关语义特征
Figure BDA00027010173300000918
与其对应的第i个标签所属于的第k标签组的最终相关语义特征
Figure BDA00027010173300000919
拼接得到最终第i个标签分类特征F′i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果;
对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量
Figure BDA00027010173300000920
本发明的目的之二在于提供执行发明目的之—一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现前述多标签图像深度学习方法。
有益效果
传统多标签深度学习算法通常采用除全连接层外最终一层卷积神经网络提取到的特征作为图像通用特征,没有考虑在卷积神经网络中不同层存在着含有不同语义特征的特征图。这些特征图同样可以用来进行分类,此外相比较之前方法本方法可以建立多阶的标签相似关系特征。本方法最终建立了一个统一模型对标签关系特征和图像通用特征进行学习,使两种特征相互促进,最终得到更加具有判别力的整合特征,从而有效的指导多标签图像分类任务,且本方法可以与主流卷积神经网络结合具有很好的可拓展性。
附图说明
图1一种多标签图像深度学习分类方法示意图。
具体实施方式
为使本发明实施例的目的和技术方案更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种多标签图像深度学习分类方法,包括如下步骤:
S1、获取训练数据,并根据训练数据类别获得标签关系图。具体是获取训练数据的图像文件和标签,获得标签关系图。
S2、根据标签关系图获得所有类别标签的映射和所有标签组的映射。
S3、构建深度卷积神经网络进行图像通用特征提取。制定从卷积神经网络中抽取指定特征图的策略。
S4、选取的卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度。
S5、对选取的特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分。
S6、根据图像中每个位置的标签和标签组归一化评分得到选取的特征图上整合的标签,标签组特征,通过在多层选取的层的特征图上计算整合的标签特征与标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征。
S7、将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况;
S8、标签预测,给定测试样本t,将测试样本t带入S1-S7得到样本t中所有标签的预测值。
具体的,一种多标签图像深度学习分类方法,
建立数据集中标类别之间的关系:
假定数据集合有q个类别标签,获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,......yi...,yq}和训练样本的标签矩阵Y∈{0,1}n×q,yi表示第i个类别标签,yq表示第q个类别标签,n表示样本个数,q表示总的标签个数;
其中Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数。
对标签的共现关系建立图G=(V,E),V表示类别标签集合,即 V={y1,......yi...,yq},yi表示第i个类别标签,yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数。E表示边集,即E={e1,e2,...,em},em表示两两标签节点之间连接的边,一共有m条边。将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为 {0,1},Aij=1表示标签节点i,j在边集E中存在相互连接的边同时也表示标签节点i,j在多标签数据集中有共现关系,Aij=0表示第i个类别标签yi和第j个类别标签yj在边集E 中不存在相互连接的边同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
模型构建与训练:
(1-1)通过建立数据集中标类别之间的关系建立一张标签类别关系图,并且优化目标函数得到标签组和标签的低维映射。
公式一表示的是两个标签节点映射表示
Figure BDA0002701017330000111
Figure BDA0002701017330000112
之间的一阶相似性约束:
Figure BDA0002701017330000113
其中,vi表示在边集E中的任意的一条边上的标签yi
vj表示标签yi的所在边上的另一个标签yj
Figure BDA0002701017330000114
为vi对应标签节点映射表示;
Figure BDA0002701017330000115
为vj对应标签节点映射表示;
其中,i,j∈{1,2,…,q}。
公式二表示的是两个标签节点映射表示
Figure BDA0002701017330000116
Figure BDA0002701017330000117
以共同邻居为媒介计算的二阶相似性约束,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10},vi∈V表示类别标签集合中第i个标签节点,Δij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数。Ci为依据标签节点vi生成的上下文节点集,此处vi的上下文节点表达的是标签节点viξ跳之内的邻居节点,ξ的取值域为{5,10}。
Figure BDA0002701017330000121
对于两个标签节点映射表示
Figure BDA0002701017330000122
Figure BDA0002701017330000123
高阶相似性如公式三定义,β为权衡参数取值域为{0.1,1,5,10},
Figure BDA0002701017330000124
为高斯分布,
Figure BDA0002701017330000125
为第k个标签组的标签组映射k∈{1,...K},πik表示第i个标签之间和标签组k之间的从属关系取值范围为[0,1],
Figure BDA0002701017330000126
为第k个组的协方差矩阵。K为标签组个数取值域为{5,7,9},
Figure BDA0002701017330000127
表示实数域。通过优化三种相似性约束公式可以得到q个类别标签的映射
Figure BDA0002701017330000128
和K个标签组的映射表示
Figure BDA0002701017330000129
Figure BDA00027010173300001210
Figure BDA00027010173300001211
的维度均为
Figure BDA00027010173300001212
de的取值域为{128,256,512},
Figure BDA00027010173300001213
表示实数域。
Figure BDA00027010173300001214
在图G中针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10},γ为每个节点经过随机行走采样经过的次数,γ的取值域为{5,10}。通过Deepwalk初始化标签节点映射
Figure BDA00027010173300001215
和上下文映射
Figure BDA00027010173300001216
通过公式四至公式六更新πik
Figure BDA00027010173300001217
k。γik表示的是第i个标签和标签组k之间的路径。Nk表示采样路径中所有标签节点和标签组k之间路径的总和。
Figure BDA00027010173300001218
Figure BDA00027010173300001219
Figure BDA00027010173300001220
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数公式七
Figure BDA0002701017330000131
通过最小化损失函数公式七求解出所有类别标签的映射
Figure BDA0002701017330000132
上下文映射
Figure BDA0002701017330000133
标签组分配
Figure BDA0002701017330000134
Π内任意第i行k列元素为πik,πik的取值决定了第i个标签和第k个标签组之间的从属关系。每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在Π中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1 到q之间的正整数,k为1到K之间的正整数,
Figure BDA0002701017330000135
表示实数域,所有标签组的映射
Figure BDA0002701017330000136
所有标签组的协方差矩阵Ξ,
Figure BDA0002701017330000137
(1-2)输入多标签图像样本t并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选。输入样本t在每个阶层输出的特征图为
Figure BDA0002701017330000138
Figure BDA0002701017330000139
表示实数域,其中W为特征图的宽度,H为特征图的长度,D为特征图的通道数,s为当前所提取的阶层编号,s的取值域为{1,2,3,4},W,H的取值域为{7,14,28,56},D的取值域为 {256,512,1024,2048}。
(1-3)提取ResNet-101中选取的阶层的特征图Fs,通过映射矩阵
Figure BDA00027010173300001310
对Fs进行映射,
Figure BDA00027010173300001311
表示实数域,将选取的的特征图Fs映射到标签和标签组映射的维度de。
(1-4)通过w,h确定选取的的特征图中像素点的位置由公式八与公式九计算任意第i个标签在当前选取的的特征图Fs上像素点中的相合性评分
Figure BDA00027010173300001312
和任意第k个标签组在当前选取的的特征图Fs上像素点中的相合性评分
Figure BDA00027010173300001313
w表示在选取出的特征图中的水平位置,取值域为{0,1,…,W},h表示在选取出的特征图中的垂直位置,取值域{0,1,…,H};
C表示相合性评分计算函数,fs,(w,h)表示选取的特征图Fs在坐标位置w,h上的特征向量维度为
Figure BDA0002701017330000141
Figure BDA0002701017330000142
表示实数域。
Figure BDA0002701017330000143
表示第i个标签映射,i的取值域为{1,2,…,q};
Figure BDA0002701017330000144
表示第k个标签组映射,k的取值域为{1,2,…,K}。
通过公式九与公式十一得到当前像素点中第i个标签在选取的特征图Fs上的归一化评分
Figure BDA0002701017330000145
第k标签组在选取的特征图Fs上的归一化评分
Figure BDA0002701017330000146
x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
Figure BDA0002701017330000147
Figure BDA0002701017330000148
Figure BDA0002701017330000149
Figure BDA00027010173300001410
(1-5)通过公式十二得到在选取的的特征图Fs上计算得到的整合的第i个标签特征
Figure BDA00027010173300001411
维度为
Figure BDA00027010173300001412
Figure BDA00027010173300001413
表示实数域。这样可以得到在选取的特征图Fs上所有标签节点的整合标签特征
Figure BDA00027010173300001414
Figure BDA00027010173300001415
通过公式十二得到在选取的的特征图Fs上计算得到的整合的第k组标签特征
Figure BDA00027010173300001416
维度为
Figure BDA00027010173300001417
Figure BDA00027010173300001418
表示实数域这样可以得到在选取的的特征图Fs上所有标签组的整合标签组特征
Figure BDA00027010173300001419
Figure BDA00027010173300001420
Figure BDA00027010173300001421
Figure BDA00027010173300001422
对选取的的每个特征图Fs通过公式八到公式十二计算每个Fs上的整合标签特征
Figure BDA0002701017330000151
与整合标签组特征
Figure BDA0002701017330000152
通过公式十四和公式十五在多层选取特征图上计算整合标签
Figure BDA0002701017330000153
和标签组特征
Figure BDA0002701017330000154
在所有选取层上取均值计算得到标签和标签组的最终相关语义特征
Figure BDA0002701017330000155
s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
(1-6)将最终第i个标签的相关语义特征
Figure BDA0002701017330000156
和通过Π得到的第i个标签所属于的第k标签组的最终相关语义特征
Figure BDA0002701017330000157
找出进行配对。
Figure BDA0002701017330000158
维度均为
Figure BDA0002701017330000159
Figure BDA00027010173300001510
表示实数域。通过拼接二者得到用于标签i分类的特征F′i,F′i的维度为
Figure BDA00027010173300001511
Figure BDA00027010173300001512
表示实数域。将F′i输入一个全连接层,全连接层的输入为F′i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个值在(0,1)之间的标签i在样本t中出现的概率
Figure BDA00027010173300001513
通过设置一个阈值z判断标签i是否存在于样本t中,
Figure BDA00027010173300001514
则认为标签i在样本t中有出现,
Figure BDA00027010173300001515
则认为标签i 在样本t中没有出现。z的取值域为{0.5}。
标签预测:
(2-1)给定测试样本t,t是含有多标签信息的图像数据。
(2-2)通过(1-1)获取所有q个标签的映射和所有K组标签组映射。
(2-3)对于数据集中所有的q个标签经过q次(1-4)和(1-5)的计算得到标签i和标签组k的最终相关语义特征
Figure BDA00027010173300001516
(2-4)通过(1-6)根据标签与标签组对应关系Π配对将最终第i个标签的相关语义特征
Figure BDA00027010173300001517
与其对应的第i个标签所属于的第k标签组的最终相关语义特征
Figure BDA00027010173300001518
拼接得到最终第i个标签分类特征F′i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果,对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量
Figure BDA00027010173300001519
上述方法有效解决学习多层特征中丰富的语义信息,建立标签相似性利用学习标签相似性。
本申请的另一目的还提供一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现前文所述的一种多标签图像深度学习分类方法。
综上,本申请对多标签图像数据中标签关系建模获得多阶相似性关系,并且利用卷积神经网络中多层特征;技术效果是:得到每张多标签图像中的标签分布,提升了分类性能,提高了模型分类的效率,可以用于多标签图像学习。
本申请将多标签图像通用特征学习和标签关系建模提取特征结合;技术效果是:使图像通用特征和标签关系特征结合,共同促进,最终得到有利于提高多标签图像分类性能的统一的端到端可拓展模型。
以上仅为本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (10)

1.一种多标签图像深度学习分类方法,其特征在于,包含以下步骤:
获取训练数据的图像文件和标签,获得标签关系图;
根据标签关系图获得所有类别标签的映射和所有标签组的映射;
构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取;
选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度;
对选取特征图中所有像素点计算标签和标签组在当前像素点位置的相合性评分与归一化评分;
根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征;
将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数函数计算,阈值判断计算得到该标签在样本t中的出现情况;
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值。
2.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,获取训练数据的图像文件和标签,获得标签关系图,包括:
获取训练数据的图像文件和训练数据中的标签,得到标签集合V={y1,......yi...,yq},
其中,yi表示第i个类别标签,
yq表示第q个类别标签,q表示总的类别标签个数;i为1到q之间的正整数;
得到训练样本的标签矩阵Y∈{0,1}n×q
其中,n为正整数,表示样本个数;
其中,Yab表示矩阵Y∈{0,1}n×q中的第a行b列的元素;Yab=1表示第a个样本含有第b个类别标签,否则Yab=0,a为1到n之间的正整数,b为1到q之间的正整数;
对标签的共现关系建立图G=(V,E);
其中,V表示为类别标签集合,即V={y1,......yi...,yq};
E表示边集,即E={e1,e2,...,em},em表示两两标签节点之间连接的边,m表示边的条数;
将图G中所有标签节点的邻接关系建立成一个邻接矩阵A∈{0,1}q×q,根据边集E得到矩阵A中的所有元素Aij,Aij的取值域为{0,1};
Aij=1表示第i个类别标签yi和第j个类别标签yj在边集E中存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中有共现关系;
Aii=0表示第i个类别标签yi和第j个类别标签yj在边集E中不存在相互连接的边,同时也表示第i个类别标签yi和第j个类别标签yj在多标签数据集中没有共现关系。
3.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,根据标签关系图获得所有类别标签的映射和所有标签组的映射,包括:
O1表示的是两个标签节点映射表示
Figure FDA0002701017320000021
Figure FDA0002701017320000022
之间的一阶相似性约束:
Figure FDA0002701017320000023
其中,vi表示在边集E中的任意的一条边上的标签yi
vj表示标签yi的所在边上的另一个标签yj
Figure FDA0002701017320000024
为vi对应标签节点映射表示;
Figure FDA0002701017320000025
为vj对应标签节点映射表示;
其中,i,j∈{1,2,…,q};
O2表示的是两个标签节点映射表示
Figure FDA0002701017320000026
Figure FDA0002701017320000027
以共同邻居为媒介计算的二阶相似性约束:
Figure FDA0002701017320000031
其中,α为上下文嵌入的权衡参数取值域为{0.1,1,5,10};
vi∈V表示类别标签集合V中第i个标签节点;
Δij为衡量标签节点vi生成的上下文节点集vj∈Ci质量的函数,Ci为依据标签节点vi生成的上下文节点集,vi生成的上下文节点表达的是标签节点viξ跳之内的邻居节点,ξ的取值域为{5,10};
O3表示的是两个标签节点映射表示
Figure FDA0002701017320000032
Figure FDA0002701017320000033
之间的高阶相似性约束,
Figure FDA0002701017320000034
其中,β为权衡参数取值域为{0.1,1,5,10};
Figure FDA0002701017320000035
为高斯分布;
Figure FDA0002701017320000036
为第k个标签组的标签组映射k∈{1,...K},K为标签组个数取值域为{5,7,9};
πik表示第i个标签之间和标签组k之间的从属关系,取值范围为[0,1];
Figure FDA0002701017320000037
为第k个组的协方差矩阵,
Figure FDA0002701017320000038
表示实数域,de的取值域为{128,256,512};
通过优化一阶相似性约束、二阶相似性约束以及高阶相似性约束得到q个类别标签的映射
Figure FDA0002701017320000039
和K个标签组的映射表示
Figure FDA00027010173200000310
其中,
Figure FDA00027010173200000311
的维度为
Figure FDA00027010173200000312
Figure FDA00027010173200000313
的维度为
Figure FDA00027010173200000314
Figure FDA00027010173200000315
表示实数域;
针对每一个标签节点vi进行采样,采样路径长度设置为l,l的取值域为{2,5,10};每个节点经过随机行走采样经过的次数为γ,γ的取值域为{5,10};
通过Deepwalk初始化标签节点映射
Figure FDA0002701017320000041
和上下文映射
Figure FDA0002701017320000042
根据
Figure FDA0002701017320000043
更新πik,其中,Nk表示采样路径中所有标签节点和标签组k之间路径的总和;
根据
Figure FDA0002701017320000044
Figure FDA0002701017320000045
更新
Figure FDA0002701017320000046
k,其中,γik表示的是第i个标签和标签组k之间的路径;
根据一阶相似性约束,二阶相似性约束和高阶相似性约束得到最终损失函数:
Figure FDA0002701017320000047
通过最小化损失函数求解出所有类别标签的映射
Figure FDA0002701017320000048
上下文映射
Figure FDA0002701017320000049
标签组分配
Figure FDA00027010173200000410
Π内任意第i行k列元素为πik,πik的取值决定了第i个标签和第k个标签组之间的从属关系;
每个标签有K个标签从属关系值,若πik的取值为标签i在这K个标签从属关系值中的最大值则认为标签i属于标签组k,对于每一个标签都在Π中查找其最大的标签从属关系值就可以得到每个标签所属于的标签组,i为1到q之间的正整数,k为1到K之间的正整数,
Figure FDA00027010173200000411
表示实数域,所有标签组的映射
Figure FDA00027010173200000412
所有标签组的协方差矩阵Ξ,
Figure FDA00027010173200000413
4.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,构建深度卷积神经网络,制定从卷积神经网络中抽取指定特征图的策略,并进行图像通用特征提取,包括:
输入多标签图像样本t,并将t进行裁剪得到长宽为224通道数为3的图像,输入ResNet-101卷积神经网络,ResNet-101是由4个阶层组成,这4个阶层所生成的特征图将作为备选;
输入样本t在每个阶层输出的特征图为
Figure FDA0002701017320000051
其中,
Figure FDA0002701017320000052
表示实数域;
W为特征图的宽度,取值域为{7,14,28,56};
H为特征图的长度,取值域为{7,14,28,56};
D为特征图的通道数,取值域为{256,512,1024,2048};
s为当前所选取的阶层编号,s的取值域为{1,2,3,4}。
5.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,选取卷积神经网络不同层的特征图通过映射函数将其映射到标签和标签组映射的维度,包括:
提取ResNet-101中选取的阶层的特征图Fs,通过映射矩阵
Figure FDA0002701017320000053
对Fs进行映射,
Figure FDA0002701017320000054
表示实数域,D为特征图Fs的通道数;de为将选取的特征图Fs映射到标签和标签组映射的维度,de与标签、标签组的映射表示
Figure FDA0002701017320000055
的维度
Figure FDA0002701017320000056
中的de一致。
6.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,对选取的特征图中所有像素点位置计算标签和标签组在当前位置的相合性评分与归一化评分,包括:
通过w,h确定选取的特征图Fs中像素点的位置,w表示在选取出的特征图中的水平位置,取值域为{0,1,…,W};h表示在选取出的特征图中的垂直位置,取值域{0,1,…,H}:
任意第i个标签在当前选取的特征图Fs上像素点中的相合性评分
Figure FDA0002701017320000057
Figure FDA0002701017320000058
任意k个标签组在当前选取的特征图Fs上像素点中的相合性评分
Figure FDA0002701017320000061
Figure FDA0002701017320000062
其中,C表示相合性评分计算函数;
fs,(w,h)表示选取的特征图Fs在坐标位置w,h上的特征向量,维度为
Figure FDA0002701017320000063
Figure FDA0002701017320000064
表示实数域;
Figure FDA0002701017320000065
表示第i个标签映射,i的取值域为{1,2,…,q};
Figure FDA0002701017320000066
表示第k个标签组映射,k的取值域为{1,2,…,K};
当前像素点中第i个标签在选取的特征图Fs上的归一化评分
Figure FDA0002701017320000067
Figure FDA0002701017320000068
当前像素点中第k个标签组在选取的特征图Fs上的归一化评分
Figure FDA0002701017320000069
Figure FDA00027010173200000610
其中,x表示选取的特征图Fs中的任意像素点位置水平坐标,取值域为{0,1,…,W};
y表示选取的特征图Fs中的任意像素点位置垂直坐标,取值域为{0,1,…,H}。
7.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,根据选取的特征图中每个位置的标签和标签组归一化评分,获得选取的特征图上整合的标签与标签组特征,通过在多层选取的层的特征图上计算整合的标签特征、标签组特征并且取其均值得到最终的标签相关语义特征与最终的标签组的相关语义特征,包括:
在选取的特征图Fs上计算得到的整合的第i个标签特征
Figure FDA00027010173200000611
第i个标签整合的特征
Figure FDA00027010173200000612
维度为
Figure FDA00027010173200000613
并进一步得到在选取的特征图Fs上所有标签节点的整合标签特征
Figure FDA00027010173200000614
在选取的多层特征图上计算标签i的整合标签特征
Figure FDA00027010173200000615
取均值计算得到标签i的最终相关语义特征
Figure FDA00027010173200000616
和所有标签节点的最终相关语义特征
Figure FDA00027010173200000617
其中,
Figure FDA0002701017320000071
Figure FDA0002701017320000072
表示实数域;
Figure FDA0002701017320000073
在选取的特征图Fs上计算得到的整合的第k组标签特征
Figure FDA0002701017320000074
第k组标签整合的特征
Figure FDA0002701017320000075
维度为
Figure FDA0002701017320000076
并进一步得到在选取的特征图Fs上所有标签组的整合标签组特征
Figure FDA0002701017320000077
在选取的多层特征图上计算标签组k的整合标签特征
Figure FDA0002701017320000078
取均值计算得到标签组k的最终相关语义特征
Figure FDA0002701017320000079
和所有标签组的最终相关语义特征
Figure FDA00027010173200000710
其中,
Figure FDA00027010173200000711
Figure FDA00027010173200000712
表示实数域;
Figure FDA00027010173200000713
其中,s为选取的参与计算的阶层个数,取值域为{1,2,3,4}。
8.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,将标签和对应标签组的最终相关语义特征拼接起来得到标签分类特征输入全连接层经过sigmoid激活函数计算,阈值判断计算得到该标签在样本t中的出现情况,包括:
根据标签与标签组对应关系Π配对最终第i个标签的相关语义特征
Figure FDA00027010173200000714
和第i个标签所属于的第k标签组的最终相关语义特征
Figure FDA00027010173200000715
Figure FDA00027010173200000716
维度均为
Figure FDA00027010173200000717
Figure FDA00027010173200000718
表示实数域;
通过拼接
Figure FDA00027010173200000719
Figure FDA00027010173200000720
得到用于标签i分类的特征F′i,F′i的维度为
Figure FDA00027010173200000721
Figure FDA00027010173200000722
表示实数域;
将F′i输入一个全连接层,全连接层的输入为F′i,输出一个实数Q,将Q输入进sigmoid激活函数得到一个概率
Figure FDA00027010173200000723
该概率
Figure FDA00027010173200000724
是标签i在样本t中出现的概率,该标签i在样本t中出现的概率
Figure FDA00027010173200000725
在(0,1)之间;
通过设置一个阈值z判断标签i是否存在于样本t中,
Figure FDA00027010173200000726
则认为标签i在样本t中有出现,
Figure FDA00027010173200000727
则认为标签i在样本t中没有出现,z的取值域为{0.5}。
9.根据权利要求书1所述的一种多标签图像深度学习分类方法,其特征在于,
标签预测,给定测试样本t,将测试样本t带入前述步骤得到样本t中所有标签的预测值,包括:
计算选取的特征图Fs上所有标签节点的整合标签特征
Figure FDA0002701017320000081
与所有标签组的整合标签组特征
Figure FDA0002701017320000082
得到标签节点i的最终标签语义特征Fl i和标签节点i所属的标签组k标签组k的最终标签组语义特征
Figure FDA0002701017320000083
根据标签与标签组对应关系Π配对将最终第i个标签的相关语义特征Fl i与其对应的第i个标签所属于的第k标签组的最终相关语义特征
Figure FDA0002701017320000084
拼接得到最终第i个标签分类特征F′i,并将其输入全连接层经过sigmoid激活函数并进行阈值判断运算,得到最终样本t中第i个标签的分类结果;
对q个类别标签分别带入对第i个标签分类结果的计算方法计算q次可以得到样本t中的类别标签向量
Figure FDA0002701017320000085
10.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的一种多标签图像深度学习分类方法。
CN202011022191.3A 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备 Active CN112308115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011022191.3A CN112308115B (zh) 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011022191.3A CN112308115B (zh) 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备

Publications (2)

Publication Number Publication Date
CN112308115A true CN112308115A (zh) 2021-02-02
CN112308115B CN112308115B (zh) 2023-05-26

Family

ID=74488610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011022191.3A Active CN112308115B (zh) 2020-09-25 2020-09-25 一种多标签图像深度学习分类方法及设备

Country Status (1)

Country Link
CN (1) CN112308115B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113076976A (zh) * 2021-03-17 2021-07-06 中山大学 一种基于局部特征关系探究的小样本图像分类方法
CN113449775A (zh) * 2021-06-04 2021-09-28 广州大学 一种基于类激活映射机制的多标签图像分类方法和系统
CN114299342A (zh) * 2021-12-30 2022-04-08 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法
CN114648635A (zh) * 2022-03-15 2022-06-21 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法
WO2023032345A1 (ja) * 2021-09-02 2023-03-09 富士フイルム株式会社 情報処理装置、方法およびプログラム
CN114299342B (zh) * 2021-12-30 2024-04-26 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874655A (zh) * 2017-01-16 2017-06-20 西北工业大学 基于多标记学习和贝叶斯网络的中医症型分类预测方法
CN107577983A (zh) * 2017-07-11 2018-01-12 中山大学 一种循环发现关注区域识别多标签图像的方法
CN107977677A (zh) * 2017-11-27 2018-05-01 深圳市唯特视科技有限公司 一种应用于大规模城区重建中的多标签像素分类方法
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN109740686A (zh) * 2019-01-09 2019-05-10 中南大学 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
CN111079840A (zh) * 2019-12-17 2020-04-28 太原科技大学 基于卷积神经网络和概念格的图像语义完备标注方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
CN111667158A (zh) * 2020-05-26 2020-09-15 南开大学 一种基于多图神经网络联合学习的工作技能预测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874655A (zh) * 2017-01-16 2017-06-20 西北工业大学 基于多标记学习和贝叶斯网络的中医症型分类预测方法
CN107577983A (zh) * 2017-07-11 2018-01-12 中山大学 一种循环发现关注区域识别多标签图像的方法
CN107977677A (zh) * 2017-11-27 2018-05-01 深圳市唯特视科技有限公司 一种应用于大规模城区重建中的多标签像素分类方法
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法
CN109740686A (zh) * 2019-01-09 2019-05-10 中南大学 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
CN111079840A (zh) * 2019-12-17 2020-04-28 太原科技大学 基于卷积神经网络和概念格的图像语义完备标注方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
CN111667158A (zh) * 2020-05-26 2020-09-15 南开大学 一种基于多图神经网络联合学习的工作技能预测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
MINGYONG LI等: "Deep Semantic Adversarial Hashing Based on Autoencoder for Large-Scale Cross-Modal Retrieval", 《2020 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO WORKSHOPS (ICMEW)》 *
PANPAN ZHU等: "Deep Learning for Multilabel Remote Sensing Image Annotation With Dual-Level Semantic Concepts", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 *
SRIKUMAR RAMALINGAM等: "Exact inference in multi-label CRFs with higher order cliques", 《2008 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
周恒晟: "基于多层次图注意力卷积神经网络的节点分类模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
宋光慧: "基于迁移学习与深度卷积特征的图像标注方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *
金佳佳: "基于深度学习的短文本分类算法研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈智: "基于卷积神经网络的多标签场景分类", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076976A (zh) * 2021-03-17 2021-07-06 中山大学 一种基于局部特征关系探究的小样本图像分类方法
CN113076976B (zh) * 2021-03-17 2023-08-18 中山大学 一种基于局部特征关系探究的小样本图像分类方法
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113449775A (zh) * 2021-06-04 2021-09-28 广州大学 一种基于类激活映射机制的多标签图像分类方法和系统
WO2023032345A1 (ja) * 2021-09-02 2023-03-09 富士フイルム株式会社 情報処理装置、方法およびプログラム
CN114299342A (zh) * 2021-12-30 2022-04-08 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法
CN114299342B (zh) * 2021-12-30 2024-04-26 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法
CN114648635A (zh) * 2022-03-15 2022-06-21 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法

Also Published As

Publication number Publication date
CN112308115B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109918528A (zh) 一种基于语义保护的紧凑的哈希码学习方法
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN107515877A (zh) 敏感主题词集的生成方法和装置
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
Lee et al. Style2vec: Representation learning for fashion items from style sets
Reformat et al. Software quality analysis with the use of computational intelligence
CN112862015A (zh) 一种基于超图神经网络的论文分类方法及系统
CN112949740A (zh) 一种基于多级度量的小样本图像分类方法
CN111860584A (zh) 图分类方法和装置
CN113468291A (zh) 基于专利网络表示学习的专利自动分类方法
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Lonij et al. Open-world visual recognition using knowledge graphs
CN114742564A (zh) 一种融合复杂关系的虚假评论者群体检测方法
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN105913085A (zh) 一种基于张量模式的多源数据分类优化方法及系统
CN105809200A (zh) 一种生物启发式自主抽取图像语义信息的方法及装置
CN111584010A (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN111598580A (zh) 一种基于XGBoost算法的区块链产品检测方法、系统及装置
Zhang et al. Deep learning based human body segmentation for clothing fashion classification
Wang et al. psoResNet: An improved PSO-based residual network search algorithm
CN113076490A (zh) 一种基于混合节点图的涉案微博对象级情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant