CN110084296A - 一种基于特定语义的图表示学习框架及其多标签分类方法 - Google Patents

一种基于特定语义的图表示学习框架及其多标签分类方法 Download PDF

Info

Publication number
CN110084296A
CN110084296A CN201910324960.6A CN201910324960A CN110084296A CN 110084296 A CN110084296 A CN 110084296A CN 201910324960 A CN201910324960 A CN 201910324960A CN 110084296 A CN110084296 A CN 110084296A
Authority
CN
China
Prior art keywords
feature
semantic
image
classification
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910324960.6A
Other languages
English (en)
Other versions
CN110084296B (zh
Inventor
林倞
惠晓璐
陈添水
许慕欣
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910324960.6A priority Critical patent/CN110084296B/zh
Publication of CN110084296A publication Critical patent/CN110084296A/zh
Application granted granted Critical
Publication of CN110084296B publication Critical patent/CN110084296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特定语义的图表示学习框架及其多标签分类方法,该框架包括:语义结耦模块,用于利用卷积神经网络对输入图像提取图像特征,将图像特征与语义特征相结合,并引入注意机制,利用语义特征引导图像特征权重的学习,并作用于图像特征,得到新的特征向量;语义交互模块,用于先通过构建知识图谱统计数据集中类别共存的关联性来构建大型知识图谱,再利用一个门图网络来对知识图谱进行特征表达,迭代的更新知识图谱得到知识图谱的特征表示;知识嵌入表达模块,用于将所述语义交互模块知识表达学习到的特征表示与所述语义结耦模块提取的图像特征学习相结合,以实现多标签分类。

Description

一种基于特定语义的图表示学习框架及其多标签分类方法
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于特定语义的图表示学习框架及其多标签分类方法。
背景技术
图像分类任务在日常生活中经常发生,其是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。
多标签图像分类是计算机视觉中的基本但实际的任务,因为真实世界图像通常包含多个不同的语义对象。目前,它正在受到越来越多的关注,因为它支持基于内容的图像检索和推荐系统中的大量关键应用。除了处理角度,比例,遮挡,照明的复杂变化的挑战,预测多个标签的存在还需要挖掘语义对象区域以及对这些区域之间的关联和交互进行建模,使得多标签图像分类成为未解决的挑战任务。
用于多标签图像分类的当前方法通常采用对象定位技术或借助于视觉注意网络来定位语义对象区域。然而,对象定位技术搜索众多类别不可知和冗余的提议,很难被集成到深度神经网络中用于端到端训练,而视觉注意网络则由于缺乏监督或指导而仅仅粗略地定位对象区域。
目前,虽然RNN(Recurrent Neural Network,循环神经网络)/LSTM(Long ShortTerm Memory Network,长短时记忆网络),进一步模拟语义区域之间的上下文依赖关系并捕获标签依赖关系,然而,RNN/LSTM顺序地模拟区域/标签依赖性,其不能完全利用该属性,因为在每个区域或标签对之间存在直接关联,此外,他们没有明确地模拟统计标签共现,这也是本发明帮助多标签图像分类的关键。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于特定语义的图表示学习框架及其多标签分类方法,通过设计语义结耦模块,利用类别的语义特征指导学习类别相关的特征,并构建一个基于统计标签共存的图形来关联该些特征并通过图形传播机制以促进多标签图像分类。
为达上述目的,本发明提出一种基于特定语义的图表示学习框架,包括:
语义结耦模块,用于利用卷积神经网络对输入图像提取图像特征,将图像特征与语义特征相结合,并引入注意机制,利用语义特征引导图像特征权重的学习,并作用于图像特征,得到新的特征向量;
语义交互模块,用于先通过构建知识图谱统计数据集中类别共存的关联性来构建大型知识图谱,再利用一个门图网络来对知识图谱进行特征表达,迭代的更新知识图谱得到知识图谱的特征表示;
知识嵌入表达模块,用于将所述语义交互模块知识表达学习到的特征表示与所述语义结耦模块提取的图像特征学习相结合,以实现多标签分类。
优选地,所述语义结耦模块进一步包括:
图像特征提取单元,用于利用卷积神经网络对输入图像提取图像特征;
语义特征提取单元,用于利用预训练的GloVe模型提取所采用数据集所有类别的类别语义特征;
特征向量获取单元,用于通过引入语义引导注意机制,利用所述语义特征提取单元获得的类别语义特征来引导学习特征权重,并作用于原图像特征形成新的特征向量。
优选地,所述特征向量获取单元引入语义引导注意机制,其结合了通过所述语义特征提取单元获取的类别语义特征,以指导更多地关注语义感知区域,从而学习对应于该类别的特征向量,表示如下:
其中tanh(·)为双曲正切函数,为可学习参数,⊙为元素点乘,d1和d2分别为联合特征嵌入和输出特征的维度,为图像特征,ds为语义向量的维度。
优选地,对于每个位置(w,h),所述特征向量获取单元首先使用低维双线性池化的方法将相应的图像特征和类别语义特征xc进行融合,然后在所述类别语义特征xc的引导下计算权重系数并对每个位置重复该项操作,再进行正则化,对所有位置执行加权平均合并以获得特征向量fc,所述特征向量获取单元对所有类别重复该过程,获得所有类别相关的特征向量{f0,f1,...,fC-1}。
优选地,所述语义交互模块进一步包括:
知识图谱构建单元,用于统计数据集中类别标签和属性的关联性,构建大型知识图谱;
门图网络构建单元,用于定义一个门图网络以对知识图谱进行特征表达,利用所述知识图谱构建单元获得的数据集节点共存的统计信息初始化门图网络GGNN中类别节点之间的连接值,并利用所述特征向量获取单元得到的特征向量来初始化门图网络GGNN类别节点特征;
迭代更新单元,用于在所述门图网络中迭代地更新每个节点的信息。
优选地,所述知识图谱构建单元根据数据集中类别节点之间的共存性得到类别节点之间共存的共存统计信息,该信息为N×N维矩阵,构成知识图谱。
优选地,迭代过程如下:
对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t=0时, xc为初始的特征向量,Av表示节点v和其相邻节点关系的A的子矩阵,σ和tanh分别是激活函数logistic sigmoid和双曲正切函数,⊙表示向量点乘,WzUz,Wr,Ur为n*n维度的可学习的卷积神经网络的训练参数,整个过程一共迭代T次,最终得到隐藏信息的集合
优选地,所述知识嵌入表达模块将门图网络GGNN的输入特征与最后迭代更新的节点特征进行结合,定义分类器及分类过程的损失函数,输入图片训练样本,并按照前向算法,后向算法和定义的损失函数进行分类网络参数的学习。
优选地,所述知识嵌入表达模块将输入图卷积神经网络的特征与传播后得到的特征进行融合,来引导网络分类,过程如下:
sc=fc(oc)
其中输入特征为门图网络传播后的特征为fo(·)为全连接网络,得到输出特征oc,再将其输入全连接网络fc(·)来计算该图片的分类值。
为达到上述目的,本发明还提供一种基于特定语义的图表示学习框架的多标签分类方法,包括如下步骤:
步骤S1,对输入图像提取图像特征,将图像特征与语义特征相结合,并引入注意机制,用语义特征引导图片特征权重的学习,并作用于图片特征,得到新的特征向量;
步骤S2,先通过构建知识图谱统计数据集中类别共存的关联性来构建大型知识图谱,再利用一个门图网络来对知识图谱进行特征表达,迭代的更新知识图谱得到知识图谱的特征表示;
步骤S3,将步骤S2知识表达学习到的特征表示与步骤S1提取的图像特征学习相结合,以实现多标签分类。
与现有技术相比,本发明一种基于特定语义的图表示学习框架及其多标签分类方法通过设计语义结耦模块,利用类别的语义特征指导学习类别相关的特征,并构建一个基于统计标签共存的图形来关联该些特征并通过图形传播机制以促进多标签图像分类,在PASCAL VOC 2007和2012,Microsoft-COCO和Visual Genome数据集的大量实验证明了本发明提出的框架相对于当前最先进方法的效果有着显著提高。
附图说明
图1为本发明一种基于元对抗学习的多目标域适应迁移方法的步骤流程图;
图2为本发明具体实施例中以两个目标域为例的基于元对抗学习的多目标域适应迁移方法的流程图;
图3为本发明具体实施例步骤S1的细部流程图;
图4为本发明具体实施例步骤S2的细部流程图;
图5为本发明具体实施例中基于特定语义的图表示学习框架的多标签分类过程示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于特定语义的图表示学习框架的结构示意图。如图1所示,本发明一种基于特定语义的图表示学习框架,包括:
语义结耦模块10,用于利用卷积神经网络对输入图像提取图像特征,将图像特征与语义特征相结合,并引入注意机制,用语义特征引导图像特征权重的学习,并作用于图片特征,得到新的特征向量
具体地,语义结耦模块10进一步包括:
图像特征提取单元101,用于利用卷积神经网络对输入图像提取图像特征。
在本发明具体实施例中,利用深度残差网络ResNet101来提取输入图片的特征,具体地,提取的图像特征fI表示为:
fI=fcnn(I)
其中I为输入图像,fcnn(·)为特征提取器,由卷积神经网络ResNet101构成。
语义特征提取单元102,用于利用预训练的GloVe模型提取所采用数据集所有类别的类别语义特征。
在本发明具体实施例中,语义特征提取单元102通过预训练的GloVe模型得到的类别c的单词语义向量,其维度为300维,这里的类别是指所采用的数据集定义的所有类别,如coco数据集定义了person、bicycle等类别,
具体地,类别语义特征xc表示为:
xc=fg(wc)
其中wc是通过预训练的GloVe模型得到的类别c的单词语义向量,fg(.)指的是卷积神经网络。
也就是说,Glove模型可以把一个单词转换成一个语义向量,如输入hand和cat等输出一个300维的向量,两个单词语义越相近,两个向量的余弦距离会越接近,如cat和dog的距离会比cat和car的距离近。由于Glove模型提取类别语义特征为现有技术,在此不予赘述。
特征向量获取单元103,用于通过引入语义引导注意机制,利用语义特征提取单元102获得的类别语义特征来引导学习特征权重,并作用于原图像特征形成新的特征向量。
具体地说,特征向量获取单元103引入一个语义引导注意机制,其结合了通过语义特征提取单元102获取的语义向量,以指导更多地关注语义感知区域。从而学习对应于该类别的特征向量。具体如下:
也就是说,对于每个位置(w,h)(即图片特征上的位置,图片特征是一个三维的向量,纬度是C*W*H,w和h表示在这个向量上W和H对应维度上的位置),特征向量获取单元103首先使用低维双线性池化的方法将相应的图像特征和类别语义特征xc进行融合,其中tanh(·)为双曲正切函数,为可学习参数,⊙为元素点乘,d1和d2分别为联合特征嵌入和输出特征的维度,ds为语义向量的维度;
然后,在类别语义特征xc的引导下计算权重系数
其中,fa为卷积神经网络,对每个位置重复该项操作,再进行正则化:
最后,对所有位置执行加权平均合并以获得特征向量fc
这里fc得到了关于类别c的相关信息。对所有类别重复该过程,获得所有类别相关的特征向量{f0,f1,...,fC-1}。
语义交互模块20,用于先通过构建知识图谱统计数据集中类别共存的关联性来构建大型知识图谱,再利用一个门图网络(Gated Graph Neural Network,GGNN)来对知识图谱进行特征表达,迭代的更新知识图谱得到知识图谱的特征表示。在本发明中,该网络的结构是一种递归神经网络,可以通过迭代更新节点特征来学习任意图结构数据的特征。
具体地,语义交互模块20进一步包括:
知识图谱构建单元201,用于统计数据集中类别标签和属性的关联性,构建大型知识图谱。具体地,知识图谱构建单元201根据数据集中类别节点之间的共存性得到类别节点之间共存的共存统计信息,该信息为N×N维矩阵,构成知识图谱,这里的数据集是指Microsoft coco多分类数据集,可以在网上下载。
门图网络构建单元202,用于定义一个门图网络(Gated Graph Neural Network,GGNN)以对知识图谱进行特征表达,利用知识图谱构建单元201获得的数据集节点共存的统计信息初始化门图网络GGNN中类别节点之间的连接值,并利用特征向量获取单元103得到的特征向量来初始化门图网络GGNN类别节点特征。在本发明具体实施例中,该门图网络GGNN的结构是一种递归神经网络,其可以通过迭代更新节点特征来学习任意图结构数据的特征,迭代的更新知识图谱得到知识图谱的特征表示。
迭代更新单元203,用于在图网络中迭代地更新每个节点的信息。
具体地说,在传播过程中,输入的是一个图其中V表示节点的集合,A表示节点之间关系的邻接矩阵,对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t=0时,其中xc为初始的特征向量。整个迭代过程如下:
其中,Av表示节点v和其相邻节点关系的A的子矩阵,σ和tanh分别是激活函数logistic sigmoid和双曲正切函数,⊙表示向量点乘,WzUz,Wr,Ur均为n*n维度的可学习的卷积神经网络的训练参数,n取决于变量维度。整个过程一共迭代T次,最终得到隐藏信息的集合
知识嵌入表达模块30,用于将语义交互模块20知识表达学习到的特征表示与语义结耦模块10提取的图像特征学习相结合,以进行多标签分类。具体地,知识嵌入表达模块30将GGNN知识表达学习到的特征与之前语义结耦模块10提取的特征进行结合,即将门图网络GGNN的输入特征与最后迭代更新的节点特征进行结合,定义分类器及分类过程的损失函数,输入图片训练样本,并按照前向算法,后向算法和定义的损失函数进行分类网络参数的学习。
具体地,将输入图卷积神经网络的特征与传播后得到的特征进行融合,来引导网络分类。过程如下:
sc=fc(oc)
其中输入特征为门图网络传播后的特征为fo(·)为全连接网络,得到输出特征oc,再将其输入全连接网络fc(·)来计算该图片的分类值。
图2为本发明一种基于特定语义的图表示学习框架的多标签分类方法的步骤流程图。如图2所示,本发明一种基于特定语义的图表示学习框架的多标签分类方法,包括如下步骤:
步骤S1,对输入图像提取图像特征,将图像特征与语义特征相结合,并引入注意机制,用语义特征引导图片特征权重的学习,并作用于图片特征,得到新的特征向量。
具体地,如图3所示,步骤S1进一步包括:
步骤S100,利用卷积神经网络对输入图像提取图像特征。
在本发明具体实施例中,利用深度残差网络ResNet101来提取输入图片的特征,具体地,提取的图像特征fI表示为:
fI=fcnn(I)
其中I为输入图像,fcnn(·)为特征提取器,由卷积神经网络ResNet101构成。
步骤S101,利用预训练的GloVe模型提取类别语义特征。
在本发明具体实施例中,通过预训练的GloVe模型得到的类别c的单词语义向量,其维度为300维,具体地,类别语义特征xc表示为:
xc=fg(wc)
其中wc是通过预训练的GloVe模型得到的类别c的单词语义向量。
步骤S102,通过引入语义引导注意机制,利用步骤S101获得的类别语义特征来引导学习特征权重,并作用于原图像特征形成新的特征向量。
具体地说,于步骤S102中,引入一个语义引导注意机制,其结合了通过步骤S101获取的语义向量,以指导更多地关注语义感知区域。从而学习对应于该类别的特征向量。具体如下:
也就是说,对于每个位置(w,h),首先使用低维双线性池化的方法将相应的图像特征和类别语义特征xc进行融合,其中tanh(·)为双曲正切函数,为可学习参数,⊙为元素点乘,d1和d2分别为联合特征嵌入和输出特征的维度;
然后,在类别语义特征xc的引导下计算权重系数
其中,fa为卷积神经网络,对每个位置重复该项操作,再进行正则化:
最后,对所有位置执行加权平均合并以获得特征向量fc
这里fc得到了关于类别c的相关信息。对所有类别重复该过程,获得所有类别相关的特征向量{f0,f1,...,fC-1}。
步骤S2,先通过构建知识图谱统计数据集中类别共存的关联性来构建大型知识图谱,再利用一个门图网络(Gated Graph Neural Network,GGNN)来对知识图谱进行特征表达,迭代的更新知识图谱得到知识图谱的特征表示。在本发明中,该网络的结构是一种递归神经网络,可以通过迭代更新节点特征来学习任意图结构数据的特征。
具体地,如图4所示,步骤S2进一步包括:
步骤S200,统计数据集中类别标签和属性的关联性,构建大型知识图谱。具体地,于步骤S200中,根据数据集中类别节点之间的共存性得到类别节点之间共存的共存统计信息,该信息为N×N维矩阵,构成知识图谱。
步骤S201,定义一个门图网络(Gated Graph Neural Network,GGNN)以对知识图谱进行特征表达,利用步骤S200获得的数据集节点共存的统计信息初始化门图网络GGNN中类别节点之间的连接值,并利用步骤S102得到的特征向量来初始化门图网络GGNN类别节点特征。在本发明具体实施例中,该门图网络GGNN的结构是一种递归神经网络,其可以通过迭代更新节点特征来学习任意图结构数据的特征,迭代的更新知识图谱得到知识图谱的特征表示。
步骤S202,在门图网络GGNN中迭代地更新每个节点的信息。
具体地说,在传播过程中,输入的是一个图其中V表示节点的集合,A表示节点之间关系的邻接矩阵,对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t=0时,其中xc为初始的特征向量。整个迭代过程如下:
其中,Av表示节点v和其相邻节点关系的A的子矩阵,σ和tanh分别是激活函数logistic sigmoid和双曲正切函数,⊙表示向量点乘,整个过程一共迭代T次,最终得到隐藏信息的集合
步骤S3,将步骤S2知识表达学习到的特征表示与步骤S1提取的图像特征学习相结合,以进行多标签分类。具体地,于步骤S3中,将GGNN知识表达学习到的特征与步骤S1提取的特征进行结合,即将门图网络GGNN的输入特征与最后迭代更新的节点特征进行结合,定义分类器及分类过程的损失函数,输入图片训练样本,并按照前向算法,后向算法和定义的损失函数进行分类网络参数的学习。
具体地,将输入图卷积神经网络的特征与传播后得到的特征进行融合,来引导网络分类,过程表示如下:
sc=fc(oc)
其中输入特征为门图网络传播后的特征为fo(·)为全连接网络,得到输出特征oc,再将其输入全连接网络fc(·)来计算该图片的分类值。
图5为本发明具体实施例中基于特定语义的图表示学习框架的多标签分类过程示意图。如图5所示,本实施例中,该基于特定语义的图表示学习框架的多标签分类过程如下:
1)CNN提取图像特征,具体表示如下:
fI=fcnn(I)
其中I为输入图像,fcnn(·)为特征提取器,由卷积神经网络构成,具体地,利用ResNet101来提取输入图像的特征。
2)CNN提取语义特征,具体表示如下:
xc=fg(wc)
其中wc是通过预训练的GloVe模型得到的类别c的单词语义向量,维度为300维。
3)语义引导注意机制:
引入一个语义引导注意机制,其结合语义向量,以指导更多地关注语义感知区域,从而学习对应于该类别的特征向量:
更具体地说,对于每个位置(w,h),首先使用低维双线性池化的方法将相应的图像特征和xc进行融合,其中tanh(·)为双曲正切函数,为可学习参数,⊙为元素点乘。d1和d2分别为联合特征嵌入和输出特征的维度;
然后在xc的引导下计算权重系数
其中,fa是一个卷积神经网络,然后对每个位置重复该项操作,再进行正则化:
最后,对所有位置执行加权平均合并以获得特征向量:
fc得到了关于类别c的相关信息,对所有类别重复该过程,并获得所有类别相关的特征向量{f0,f1,...,fC-1}。
4)知识图谱构建:
首先根据数据集中类别节点之间的共存性来得到一个类别节点之间共存的共存统计信息。该信息为N×N维矩阵,构成一个知识图谱。
5)定义GGNN网络结构:该网络的结构是一种递归神经网络,可以通过迭代更新节点特征来学习任意图结构数据的特征。
6)GGNN知识表达学习过程如下:
将3)得到的类别特征来作为门图网络中类别节点的值,将4)中统计矩阵作为类别节点之间的连接值,然后在网络中迭代更新类别节点的值。
具体地,在传播过程中,输入的是一个图其中V是表示节点的集合,A是表示节点之间关系的邻接矩阵。对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t=0时,其中xc为初始的特征向量。
整个迭代过程如下:
其中,Av是表示节点v和其相邻节点关系的A的子矩阵。σ和tanh分别是激活函数logistic sigmoid和双曲正切函数,⊙表示向量点乘。整个过程一共迭代T次,最终得到隐藏信息的集合
7)知识嵌入表达过程:
将GGNN知识表达学习到的特征与之前提取的特征进行结合;并定义分类器及分类过程的损失函数,输入图片训练样本,按照前向算法,后向算法和定义的损失函数进行分类网络参数的学习。
与现有技术相比,本发明具有如下优点:
第一,本发明制定了一个特定语义的图表表示学习框架,可以更好地学习特定语义的功能并探索它们之间的交互,以帮助多标签图像识别。
第二,本发明引入了语义结耦模块,它结合了类别语义来指导学习类别相关的功能。
第三,通过在各种基准测试中进行了实验,包括PASCAL VOC 2007和2012,Microsoft-COCO以及具有更大规模类别的Visual Genome,证明了本发明的框架显示出明显的性能改进。
综上所述,本发明一种基于特定语义的图表示学习框架及其多标签分类方法通过设计语义结耦模块,利用类别的语义特征指导学习类别相关的特征,并构建一个基于统计标签共存的图形来关联该些特征并通过图形传播机制以促进多标签图像分类,在PASCALVOC 2007和2012,Microsoft-COCO和Visual Genome数据集的大量实验证明了本发明提出的框架相对于当前最先进方法的效果有着显著提高。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种基于特定语义的图表示学习框架,包括:
语义结耦模块,用于利用卷积神经网络对输入图像提取图像特征,将图像特征与语义特征相结合,并引入注意机制,利用语义特征引导图像特征权重的学习,并作用于图像特征,得到新的特征向量;
语义交互模块,用于先通过构建知识图谱统计数据集中类别共存的关联性来构建大型知识图谱,再利用一个门图网络来对知识图谱进行特征表达,迭代的更新知识图谱得到知识图谱的特征表示;
知识嵌入表达模块,用于将所述语义交互模块知识表达学习到的特征表示与所述语义结耦模块提取的图像特征学习相结合,以实现多标签分类。
2.如权利要求1所述的一种基于特定语义的图表示学习框架,其特征在于,所述语义结耦模块进一步包括:
图像特征提取单元,用于利用卷积神经网络对输入图像提取图像特征;
语义特征提取单元,用于利用预训练的GloVe模型提取所采用数据集所有类别的类别语义特征;
特征向量获取单元,用于通过引入语义引导注意机制,利用所述语义特征提取单元获得的类别语义特征来引导学习特征权重,并作用于原图像特征形成新的特征向量。
3.如权利要求2所述的一种基于特定语义的图表示学习框架,其特征在于,所述特征向量获取单元引入语义引导注意机制,其结合了通过所述语义特征提取单元获取的类别语义特征,以指导更多地关注语义感知区域,从而学习对应于该类别的特征向量,表示如下:
其中tanh(·)为双曲正切函数,为可学习参数,⊙为元素点乘,d1和d2分别为联合特征嵌入和输出特征的维度,为图像特征,ds为语义向量的维度。
4.如权利要求3所述的一种基于特定语义的图表示学习框架,其特征在于:对于每个位置(w,h),所述特征向量获取单元首先使用低维双线性池化的方法将相应的图像特征和类别语义特征xc进行融合,然后在所述类别语义特征xc的引导下计算权重系数并对每个位置重复该项操作,再进行正则化,对所有位置执行加权平均合并以获得特征向量fc,所述特征向量获取单元对所有类别重复该过程,获得所有类别相关的特征向量{f0,f1,...,fC-1}。
5.如权利要求4所述的一种基于特定语义的图表示学习框架,其特征在于,所述语义交互模块进一步包括:
知识图谱构建单元,用于统计数据集中类别标签和属性的关联性,构建大型知识图谱;
门图网络构建单元,用于定义一个门图网络以对知识图谱进行特征表达,利用所述知识图谱构建单元获得的数据集节点共存的统计信息初始化门图网络GGNN中类别节点之间的连接值,并利用所述特征向量获取单元得到的特征向量来初始化门图网络GGNN类别节点特征;
迭代更新单元,用于在所述门图网络中迭代地更新每个节点的信息。
6.如权利要求5所述的一种基于特定语义的图表示学习框架,其特征在于:所述知识图谱构建单元根据数据集中类别节点之间的共存性得到类别节点之间共存的共存统计信息,该信息为N×N维矩阵,构成知识图谱。
7.如权利要求5所述的一种基于特定语义的图表示学习框架,其特征在于,迭代过程如下:
对于每个节点v∈V,在迭代次数t都有一个隐藏信息当t=0时, xc为初始的特征向量,Av表示节点v和其相邻节点关系的A的子矩阵,σ和tanh分别是激活函数和双曲正切函数,⊙表示向量点乘,WzUz,Wr,Ur为n*n维度的可学习的卷积神经网络的训练参数,整个过程一共迭代T次,最终得到隐藏信息的集合
8.如权利要求5所述的一种基于特定语义的图表示学习框架,其特征在于:所述知识嵌入表达模块将门图网络GGNN的输入特征与最后迭代更新的节点特征进行结合,定义分类器及分类过程的损失函数,输入图片训练样本,并按照前向算法,后向算法和定义的损失函数进行分类网络参数的学习。
9.如权利要求8所述的一种基于特定语义的图表示学习框架,其特征在于:所述知识嵌入表达模块将输入图卷积神经网络的特征与传播后得到的特征进行融合,来引导网络分类,过程如下:
sc=fc(oc)
其中输入特征为门图网络传播后的特征为fo(·)为全连接网络,得到输出特征oc,再将其输入全连接网络fc(·)来计算该图片的分类值。
10.一种基于特定语义的图表示学习框架的多标签分类方法,包括如下步骤:
步骤S1,对输入图像提取图像特征,将图像特征与语义特征相结合,并引入注意机制,用语义特征引导图片特征权重的学习,并作用于图片特征,得到新的特征向量;
步骤S2,先通过构建知识图谱统计数据集中类别共存的关联性来构建大型知识图谱,再利用一个门图网络来对知识图谱进行特征表达,迭代的更新知识图谱得到知识图谱的特征表示;
步骤S3,将步骤S2知识表达学习到的特征表示与步骤S1提取的图像特征学习相结合,以实现多标签分类。
CN201910324960.6A 2019-04-22 2019-04-22 一种基于特定语义的图表示学习框架及其多标签分类方法 Active CN110084296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910324960.6A CN110084296B (zh) 2019-04-22 2019-04-22 一种基于特定语义的图表示学习框架及其多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910324960.6A CN110084296B (zh) 2019-04-22 2019-04-22 一种基于特定语义的图表示学习框架及其多标签分类方法

Publications (2)

Publication Number Publication Date
CN110084296A true CN110084296A (zh) 2019-08-02
CN110084296B CN110084296B (zh) 2023-07-21

Family

ID=67416007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910324960.6A Active CN110084296B (zh) 2019-04-22 2019-04-22 一种基于特定语义的图表示学习框架及其多标签分类方法

Country Status (1)

Country Link
CN (1) CN110084296B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110704650A (zh) * 2019-09-29 2020-01-17 携程计算机技术(上海)有限公司 Ota图片标签的识别方法、电子设备和介质
CN110705613A (zh) * 2019-09-19 2020-01-17 创新奇智(青岛)科技有限公司 物体分类方法
CN110889386A (zh) * 2019-12-02 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于结构特征学习的手指静脉识别方法
CN111080551A (zh) * 2019-12-13 2020-04-28 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111159419A (zh) * 2019-12-09 2020-05-15 浙江师范大学 基于图卷积的知识追踪数据处理方法、系统和存储介质
CN111161213A (zh) * 2019-12-09 2020-05-15 浙江大学 一种基于知识图谱的工业产品缺陷图像分类方法
CN111222000A (zh) * 2019-12-31 2020-06-02 中国地质大学(武汉) 一种基于图卷积神经网络的图像分类方法及系统
CN111340197A (zh) * 2020-03-11 2020-06-26 湖南莱博赛医用机器人有限公司 一种神经网络系统的构建方法、系统及相关装置
CN111476291A (zh) * 2020-04-03 2020-07-31 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111523589A (zh) * 2020-04-21 2020-08-11 华北电力大学(保定) 一种基于栓母对知识图谱的螺栓缺陷分类方法
CN111626196A (zh) * 2020-05-27 2020-09-04 成都颜禾曦科技有限公司 基于知识图谱的典型牛科动物身体结构智能分析方法
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN111931859A (zh) * 2020-08-28 2020-11-13 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN111950708A (zh) * 2020-08-11 2020-11-17 华中师范大学 一种发现大学生日常生活习惯的神经网络结构与方法
CN112016601A (zh) * 2020-08-17 2020-12-01 华东师范大学 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN112183299A (zh) * 2020-09-23 2021-01-05 成都佳华物链云科技有限公司 行人属性预测方法、装置、电子设备及存储介质
CN112308115A (zh) * 2020-09-25 2021-02-02 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112487207A (zh) * 2020-12-09 2021-03-12 Oppo广东移动通信有限公司 图像的多标签分类方法、装置、计算机设备及存储介质
CN112785350A (zh) * 2021-02-24 2021-05-11 深圳市慧择时代科技有限公司 一种产品向量确定方法及装置
CN112861941A (zh) * 2021-01-26 2021-05-28 中山大学 一种多标签图像分类方法、装置、设备和存储介质
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113095349A (zh) * 2020-01-09 2021-07-09 北京沃东天骏信息技术有限公司 一种图像识别方法和装置
CN113378965A (zh) * 2021-06-25 2021-09-10 齐鲁工业大学 一种基于dcgan和gcn的多标签图像识别方法及系统
CN113496442A (zh) * 2020-03-19 2021-10-12 荷盛崧钜智财顾问股份有限公司 图表征产生系统,图表征产生方法与其图表征智能模块
CN113535972A (zh) * 2021-06-07 2021-10-22 吉林大学 一种融合上下文语义的知识图谱链路预测模型、方法及装置
CN114299342A (zh) * 2021-12-30 2022-04-08 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法
EP3994661A4 (en) * 2020-02-24 2023-08-02 Thales Canada Inc. SEMANTIC OBJECT DETECTION METHOD WITH A KNOWLEDGE GRAPH

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160240087A1 (en) * 2015-02-12 2016-08-18 Aerobotic Innovations, LLC System and method of preventing and remedying restricted area intrusions by unmanned aerial vehicles
US20170076610A1 (en) * 2015-03-31 2017-03-16 SZ DJI Technology Co., Ltd Open platform for flight restricted region
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN108765383A (zh) * 2018-03-22 2018-11-06 山西大学 基于深度迁移学习的视频描述方法
CN108875827A (zh) * 2018-06-15 2018-11-23 广州深域信息科技有限公司 一种细粒度图像分类的方法及系统
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109559799A (zh) * 2018-10-12 2019-04-02 华南理工大学 医学图像语义描述方法、描述模型的构建方法及该模型

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160240087A1 (en) * 2015-02-12 2016-08-18 Aerobotic Innovations, LLC System and method of preventing and remedying restricted area intrusions by unmanned aerial vehicles
US20170076610A1 (en) * 2015-03-31 2017-03-16 SZ DJI Technology Co., Ltd Open platform for flight restricted region
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN108765383A (zh) * 2018-03-22 2018-11-06 山西大学 基于深度迁移学习的视频描述方法
CN108875827A (zh) * 2018-06-15 2018-11-23 广州深域信息科技有限公司 一种细粒度图像分类的方法及系统
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109559799A (zh) * 2018-10-12 2019-04-02 华南理工大学 医学图像语义描述方法、描述模型的构建方法及该模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANG MIN 等: "Mapping Knowledge from the Perspective of Image Retrieval Technical Analysis", 《 2015 SEVENTH INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION》 *
张璐: "基于对抗学习的跨模态检索方法研究进展", 《现代计算机》 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705613A (zh) * 2019-09-19 2020-01-17 创新奇智(青岛)科技有限公司 物体分类方法
CN110704650B (zh) * 2019-09-29 2023-04-25 携程计算机技术(上海)有限公司 Ota图片标签的识别方法、电子设备和介质
CN110704650A (zh) * 2019-09-29 2020-01-17 携程计算机技术(上海)有限公司 Ota图片标签的识别方法、电子设备和介质
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110889386A (zh) * 2019-12-02 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于结构特征学习的手指静脉识别方法
CN111159419A (zh) * 2019-12-09 2020-05-15 浙江师范大学 基于图卷积的知识追踪数据处理方法、系统和存储介质
CN111161213A (zh) * 2019-12-09 2020-05-15 浙江大学 一种基于知识图谱的工业产品缺陷图像分类方法
CN111161213B (zh) * 2019-12-09 2022-03-11 浙江大学 一种基于知识图谱的工业产品缺陷图像分类方法
CN111159419B (zh) * 2019-12-09 2021-05-25 浙江师范大学 基于图卷积的知识追踪数据处理方法、系统和存储介质
CN111080551A (zh) * 2019-12-13 2020-04-28 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111080551B (zh) * 2019-12-13 2023-05-05 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111222000A (zh) * 2019-12-31 2020-06-02 中国地质大学(武汉) 一种基于图卷积神经网络的图像分类方法及系统
CN111222000B (zh) * 2019-12-31 2023-05-26 中国地质大学(武汉) 一种基于图卷积神经网络的图像分类方法及系统
CN113095349A (zh) * 2020-01-09 2021-07-09 北京沃东天骏信息技术有限公司 一种图像识别方法和装置
EP3994661A4 (en) * 2020-02-24 2023-08-02 Thales Canada Inc. SEMANTIC OBJECT DETECTION METHOD WITH A KNOWLEDGE GRAPH
CN111340197A (zh) * 2020-03-11 2020-06-26 湖南莱博赛医用机器人有限公司 一种神经网络系统的构建方法、系统及相关装置
CN113496442A (zh) * 2020-03-19 2021-10-12 荷盛崧钜智财顾问股份有限公司 图表征产生系统,图表征产生方法与其图表征智能模块
CN111476291B (zh) * 2020-04-03 2023-07-25 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111476291A (zh) * 2020-04-03 2020-07-31 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111523589A (zh) * 2020-04-21 2020-08-11 华北电力大学(保定) 一种基于栓母对知识图谱的螺栓缺陷分类方法
CN111523589B (zh) * 2020-04-21 2023-05-23 华北电力大学(保定) 一种基于栓母对知识图谱的螺栓缺陷分类方法
CN111626196A (zh) * 2020-05-27 2020-09-04 成都颜禾曦科技有限公司 基于知识图谱的典型牛科动物身体结构智能分析方法
CN111626196B (zh) * 2020-05-27 2023-05-16 西南石油大学 基于知识图谱的典型牛科动物身体结构智能分析方法
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN111723779B (zh) * 2020-07-20 2023-05-02 浙江大学 一种基于深度学习的中文手语识别系统
CN111950708B (zh) * 2020-08-11 2023-10-03 华中师范大学 一种发现大学生日常生活习惯的神经网络结构与方法
CN111950708A (zh) * 2020-08-11 2020-11-17 华中师范大学 一种发现大学生日常生活习惯的神经网络结构与方法
CN112016601B (zh) * 2020-08-17 2022-08-05 华东师范大学 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN112016601A (zh) * 2020-08-17 2020-12-01 华东师范大学 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN111931859A (zh) * 2020-08-28 2020-11-13 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN111931859B (zh) * 2020-08-28 2023-10-24 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112183299B (zh) * 2020-09-23 2024-02-09 成都佳华物链云科技有限公司 行人属性预测方法、装置、电子设备及存储介质
CN112183299A (zh) * 2020-09-23 2021-01-05 成都佳华物链云科技有限公司 行人属性预测方法、装置、电子设备及存储介质
CN112308115B (zh) * 2020-09-25 2023-05-26 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112308115A (zh) * 2020-09-25 2021-02-02 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112487207A (zh) * 2020-12-09 2021-03-12 Oppo广东移动通信有限公司 图像的多标签分类方法、装置、计算机设备及存储介质
WO2022121485A1 (zh) * 2020-12-09 2022-06-16 Oppo广东移动通信有限公司 图像的多标签分类方法、装置、计算机设备及存储介质
CN112861941A (zh) * 2021-01-26 2021-05-28 中山大学 一种多标签图像分类方法、装置、设备和存储介质
CN112785350B (zh) * 2021-02-24 2023-09-19 深圳市慧择时代科技有限公司 一种产品向量确定方法及装置
CN112785350A (zh) * 2021-02-24 2021-05-11 深圳市慧择时代科技有限公司 一种产品向量确定方法及装置
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113535972A (zh) * 2021-06-07 2021-10-22 吉林大学 一种融合上下文语义的知识图谱链路预测模型、方法及装置
CN113535972B (zh) * 2021-06-07 2022-08-23 吉林大学 一种融合上下文语义的知识图谱链路预测模型方法及装置
CN113378965A (zh) * 2021-06-25 2021-09-10 齐鲁工业大学 一种基于dcgan和gcn的多标签图像识别方法及系统
CN113378965B (zh) * 2021-06-25 2022-09-02 齐鲁工业大学 一种基于dcgan和gcn的多标签图像识别方法及系统
CN114299342A (zh) * 2021-12-30 2022-04-08 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法
CN114299342B (zh) * 2021-12-30 2024-04-26 安徽工业大学 一种基于深度学习的多标记图片分类中未知标记分类方法

Also Published As

Publication number Publication date
CN110084296B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN110084296A (zh) 一种基于特定语义的图表示学习框架及其多标签分类方法
Yan Computational methods for deep learning
CN108229444B (zh) 一种基于整体和局部深度特征融合的行人再识别方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN108875827A (zh) 一种细粒度图像分类的方法及系统
Nie et al. Hierarchical contextual refinement networks for human pose estimation
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN109934261A (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN109284406A (zh) 基于差异循环神经网络的意图识别方法
CN113688634B (zh) 一种细粒度情感分析方法
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
CN111414845B (zh) 基于空间-时间图推理网络的多形态语句视频定位方法
Schwalbe Concept embedding analysis: A review
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及系统
Park et al. Attribute and-or grammar for joint parsing of human attributes, part and pose
CN113127737A (zh) 融合注意力机制的个性化搜索方法和搜索系统
Yan Computational methods for deep learning: theory, algorithms, and implementations
CN104766051B (zh) 基于结构化的特征图的人体行为识别方法
Astolfi et al. Syntactic pattern recognition in computer vision: A systematic review
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
Khatun et al. A systematic review on the chronological development of bangla sign language recognition systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant