CN112488241A - 一种基于多粒度融合网络的零样本图片识别方法 - Google Patents

一种基于多粒度融合网络的零样本图片识别方法 Download PDF

Info

Publication number
CN112488241A
CN112488241A CN202011501887.4A CN202011501887A CN112488241A CN 112488241 A CN112488241 A CN 112488241A CN 202011501887 A CN202011501887 A CN 202011501887A CN 112488241 A CN112488241 A CN 112488241A
Authority
CN
China
Prior art keywords
node
matrix
granularity
network
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011501887.4A
Other languages
English (en)
Other versions
CN112488241B (zh
Inventor
杨阳
位纪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202011501887.4A priority Critical patent/CN112488241B/zh
Publication of CN112488241A publication Critical patent/CN112488241A/zh
Application granted granted Critical
Publication of CN112488241B publication Critical patent/CN112488241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多粒度融合网络的零样本图片识别方法,利用类别的语义信息作为指导,抑制噪音,增强语义,修正已有知识图谱中的误差,构建出新的知识图谱,从而得到新的邻接矩阵,获取了更为精确的类别之间的关系,其次,针对深层图卷积网络易过平滑,浅层图卷积网络表达能力不够的难题,为更好地利用知识图谱迁移知识,设计一个多粒度融合网络,它能捕获多粒度的特征信息来生成分类器,将多种粒度的特征融合到一起,可以高效的在类别之间进行知识迁移,大幅提升图片分类效果。

Description

一种基于多粒度融合网络的零样本图片识别方法
技术领域
本发明属于图片识别技术领域,更为具体地讲,涉及一种基于多粒度融合网络的零样本图片识别方法。
背景技术
传统的深度学习方法依赖于大规模的高质量标注数据集且训练得到的模型只能识别参与训练的类。然而,在实际中数据的收集和标注是极其费时费力,新类别每天都在产生,当有新类别出现时,需要重新标注数据并重新训练模型,且这些新类别难以收集到足够的数据用以训练。
零样本图片识别的目标是训练一个网络,使其不仅能识别可见类图片,同时能识别不可见类别图片。零样本图片识别依赖于零样本图片学习,现有的零样本学习图片方法可以分类三类。基于嵌入的方法、基于生成式的方法以及基于分类器的方法。
基于嵌入的方法将类的语义信息和视觉信息映射到一个公共的嵌入空间内,通过在可见类上训练一个映射函数,并在不可见类之间共享映射函数,从而在嵌入空间内实现零样本图片分类。然而,基于嵌入的方法不能准确的在嵌入空间内捕捉到类别之间的关系,导致最后的分类效果较差。
基于生成式的方法利用可见类别训练一个基于GAN或VAE的生成模型来依据类别信息生成视觉图片,然后利用不可见类别的信息来合成视觉图片,从而将零样本分类问题转化为普通的分类问题。基于生成式的方法通过合成大量的不可见类图片来解决零样本问题,然而,合成的视觉图片缺少一些细粒度的特征,使用这些合成的图片训练的分类器在实际中的表现较差。
基于分类器的方法是零样本学习的一个新趋势,它利用知识图谱来在类别之间迁移知识,并利用可见类的分类器来合成不可见类的视觉分类器。然而现有的基于分类器的方法利用提取的静态知识图谱和深层图卷积网络来合成不可见类的视觉分类器。首先静态的知识图谱固化了类别之间的关系,且知识图谱本身存在大量的噪声,限制了模型的最终效果;其次,深层图卷积网络容易遭受过平滑问题,会导致最后生成的分类器无区分度。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多粒度融合网络的零样本图片识别方法,抑制噪声,增强语义,以获取更为精确的类别之间的关系,同时捕获多粒度的特征信息并融合,以高效地在类别之间进行知识迁移,实现图片的分类效果的提高。
为实现上述发明目的,本发明基于多粒度融合网络的零样本图片识别方法,其特征在于,包括以下步骤:
(1)、语义指导下进行知识图谱构建
1.1)、从词网络(WordNet)中提取名词表,以及名词之间的树状关系;
1.2)、依据树状关系构建一个基础的知识图谱,其中,基础知识图谱的每个节点为一个名词,表示一个类别,节点之间的边表示类别之间的关系,将此知识图谱的邻接矩阵记为A;
1.3)、用预训练的词转向量模型生成每个名词的词向量;
1.4)、计算词向量之间的相似度;
1.5)、噪音抑制:
对于基础知识图谱中任一节点(名词)i,获取节点i与其相连的节点h的词向量相似度sih,如果词向量相似度sih小于阈值α,则删除节点i与节点h之间的边,否则保留节点i与节点h之间的边;
1.6)、语义增强:
对于基础知识图谱中任一节点(名词)i,获取与节点i的词向量相似度最大的K个节点,对于词向量相似度最大的K个节点中的一个节点j,如果其与节点i的词向量相似度sij大于阈值β,则连接节点i与节点j,形成一条边;
1.7)、计算新的邻接矩阵
基础知识图谱经过噪声抑制,语义增强后,得到新的知识图谱,根据新构的知识图谱,计算出新的邻接矩阵B;
(2)、构建多粒度融合网络
所构建的多粒度融合网络包含两个模块:多粒度模块和融合模块,其中:
多粒度模块包含三个不同维度的图卷积网络分支,在第一个图卷积网络分支中,将图卷积网络的隐层维度设为512维来捕获粗粒度的特征信息,在第二个图卷积网络分支中,将图卷积网络的隐层维度设置为1024维,以捕获中等粒度的特征信息,在第三个图卷积网络分支中,将图卷积网络的隐层维度设置为为2048,用于捕获细粒度的特征信息,将第s个图卷积网络分支的输出为一个特征矩阵,用Hs表示,则:
Figure BDA0002843725520000031
其中:
Figure BDA0002843725520000032
其中,xi为名词i的词向量,词向量为d维的行向量;
其中,Ws为第s个图卷积网络分支的参数矩阵,参数矩阵W1大小为d×512、参数矩阵W2大小为d×1024、参数矩阵W3大小为d×2048;
其中,
Figure BDA0002843725520000033
为邻接矩阵B的正则化版本;
融合模块包含三个维度为g(隐层维度为g)的图卷积网络分支,将第g个图卷积网络分支的输出为一个特征矩阵,用Hs′表示,则:
Figure BDA0002843725520000034
其中,Wg′为第g个图卷积网络分支的参数矩阵,参数矩阵W1′大小为512×g、参数矩阵W2′大小为1024×g、参数矩阵W3′大小为2048×g;
然后对特征矩阵Hj′进行融合:
Figure BDA0002843725520000035
其中,
Figure BDA0002843725520000036
表示哈达玛积,+表示相同位置的矩阵元素相加;
最后,对融合后的特征矩阵Z3用一图卷积网络进行处理,得到分类器矩阵C:
C=σ(BZ3W″)(4)
其中,图卷积网络的参数矩阵W″大小为g×g;
分类器矩阵C可表示为:
Figure BDA0002843725520000041
即分类器矩阵C的每一行ci代表一个类的视觉分类器向量。
(3)、构建损失函数,训练多粒度融合网络
构建损失函数L:
Figure BDA0002843725520000042
其中,M是所有类别中可见类的数量,MSE(·||·)表示求两个向量的均方误差,c′m为可见类中类别m的词向量x′m经过多粒度融合网络得到的类别m的视觉分类器向量,
Figure BDA0002843725520000043
为可见类中类别m的真实视觉分类器向量;
通过端到端的方式,依据随机梯度下降算法更新多粒度融合网络参数矩阵集合极小化损失函数L来训练多粒度融合网络;
(4)、零样本图片分类
4.1)、将所有N个(名词)类别的词向量输入到训练好的多粒度融合网络中,得到每个类别的视觉分类器向量ci,i=1,2,…N;
4.2)、用真实分类器向量对应的训练好的CNN(卷积神经网络)提取未知类别图片的视觉特征向量;
4.3)、将未知类别图片的视觉特征向量与步骤4.1)的每个类别的视觉分类器向量ci,i=1,2,…N计算内积值;
4.4)、依据内积值大小,从大到小排列,内积值最大的分类器向量对应的类别就是图片的类别。
本发明的目的是这样实现的。
本发明基于多粒度融合网络的零样本图片识别方法,利用类别的语义信息作为指导,抑制噪音,增强语义,修正已有知识图谱中的误差,构建出新的知识图谱,从而得到新的邻接矩阵,获取了更为精确的类别之间的关系,其次,针对深层图卷积网络易过平滑,浅层图卷积网络表达能力不够的难题,为更好地利用知识图谱迁移知识,设计一个多粒度融合网络,它能捕获多粒度的特征信息来生成分类器,将多种粒度的特征融合到一起,可以高效的在类别之间进行知识迁移,大幅提升图片分类效果。
附图说明
图1是本发明基于多粒度融合网络的零样本图片识别方法一种具体实施方式流程图;
图2是本发明中噪音抑制、语义增强示意图;
图3是本发明中多粒度融合网络结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于多粒度融合网络的零样本图片识别方法一种具体实施方式流程图。
如图1所示,本发明基于多粒度融合网络的零样本图片识别方法包括以下步骤:
步骤S1:语义指导下进行知识图谱构建
为了更准确的建模类别之间的关系,消除现有方法中存在的噪声,本发明创新性地将语义信息引入知识图谱构建过程,用以指导知识图谱构建。
具体而言,先从WordNet派生出一个基础的知识图谱,该基础知识图谱包含可见类和不可见类的概念以及有误差的连接关系。然后利用语义信息作为指导修正基础知识图谱中的关系。本发明利用类名的词向量作为语义信息指导修正基础知识图谱,主要包括两个步骤:
噪音抑制:
在WordNet中存在一些名词并不与现实中的任何类别对应,与这些类别相连的边可视作噪音。此外,有一些关系非常微弱的类别之间有边连接,这些边也被视作噪音。现有方法直接从WordNet派生出一个知识图谱,会内在的继承这种噪音,从而影响后续的识别任务。在本发明中,首先从WordNet派生出一个基础的知识图谱,然后利用类级的语义信息作为一个指导来去除这些噪音。具体的,设定一个阈值α,如果任意两个相连的节点之间的相似度小于该阈值α,则认为它们之间的关系较弱,它们之间的边为噪音,并在知识图谱中删除该边。
语义增强:
由于WordNet的中误差的存在,会有一些关系很强的类别之间没有边连接。本发明利用类级信息最为指导来修正基础知识图谱。本发明基于以下事实,即类别关系较近的类,它们的语义信息在嵌入空间内也相互靠近。本发明设定两个阈值,一个近邻阈值K、一个相似度阈值β。对于基础知识图片中的每一个节点,如果它与具其最相似的K个节点的距离大于阈值β,则认为它们之间具有较强的关系,并在它们之间添加边。
具体如图2所示,图2中,每个字符代表一个类别,左侧图代表其他类别与类别a的距离远近;右侧上面的图表示已有方法构建的知识图谱(基础知识图谱),其中边表示类别之间的关系,有边连接的表示类别之间关系比较亲近;右侧下图表示本发明构建方法,对已有的知识图谱(基础知识图谱)进行修改,删除关系较弱(类别a、c的词向量相似度小于阈值α)的类别之间的边(删除边ac),同时在关系较强Z类别a、e的词向量相似度大于阈值β)的类别之间添加边(添加边ae)。
通过噪音抑制和语义增强两个步骤,本发明进一步修正基础知识图谱中的误差,获取到更为精准的类别之间的关系,更有利于提升后续图谱识别任务的准确性。
具体而言,语义指导下进行知识图谱构建包括以下步骤:
步骤S1.1:从词网络(WordNet)中提取名词表,以及名词之间的树状关系。
步骤S1.2:依据树状关系构建一个基础的知识图谱,其中,基础知识图谱的每个节点为一个名词,表示一个类别,节点之间的边表示类别之间的关系,将此知识图谱的邻接矩阵记为A。
步骤S1.3:用预训练的词转向量模型生成每个名词的词向量。在本实施例中,词转向量模型为GloVe模型。
步骤S1.4:计算词向量之间的相似度。
步骤S1.5:噪音抑制:
对于基础知识图谱中任一节点(名词)i,获取节点i与其相连的节点h的词向量相似度sih,如果词向量相似度sih小于阈值α,则删除节点i与节点h之间的边,否则保留节点i与节点h之间的边。
步骤S1.6:语义增强:
对于基础知识图谱中任一节点(名词)i,获取与节点i的词向量相似度最大的k个节点,对于词向量相似度最大的k个节点中的一个节点j,如果其与节点i的词向量相似度sij大于阈值β,则连接节点i与节点j,形成一条边。
步骤S1.7:计算新的邻接矩阵
基础知识图谱经过噪声抑制,语义增强后,得到新的知识图谱,根据新构的知识图谱,计算出新的邻接矩阵B。
步骤S2:构建多粒度融合网络
图卷积网络最早被用于弱监督实体分类,为保持本发明完整性,在此对其进行一个简单介绍。
图卷积网络是一个良好的层级扩展规则,给定一个邻接矩阵A以及每个节点的第l层特征矩阵Hl,图卷积网络的层级扩增规则可以表示为:
Figure BDA0002843725520000071
其中,
Figure BDA0002843725520000072
是邻接矩阵A的正则化版本,Hl+1为变换后第l+1层的特征矩阵,W为参数矩阵,σ(·)为非线性激活函数。
为了合理利用知识图谱在类别之间迁移知识,如图3所示,本发明构建了一个多粒度融合网络。所构建的多粒度融合网络包含两个模块:多粒度模块和融合模块,其中:
由于图卷积网络执行的是一种拉普拉斯平滑操作,深层的图卷积网络可能会遭遇过平滑问题,而浅层的图卷积网络不能有效的捕获到类别的判别信息。为此本发明设计一个多分支的结构来捕获多种粒度的特征信息,进一步提高模型的性能。具体而言,多粒度模块包含三个不同维度的图卷积网络分支,在第一个图卷积网络分支中,将图卷积网络的隐层维度设为512维来捕获粗粒度的特征信息,在第二个图卷积网络分支中,将图卷积网络的隐层维度设置为1024维,以捕获中等粒度的特征信息,在第三个图卷积网络分支中,将图卷积网络的隐层维度设置为为2048,用于捕获细粒度的特征信息,将第s个图卷积网络分支的输出为一个特征矩阵,用Hs表示,则:
Figure BDA0002843725520000073
其中:
Figure BDA0002843725520000081
其中,xi为名词i的词向量,词向量为d维的行向量;
其中,Wj为第j个图卷积网络分支的参数矩阵,参数矩阵W1大小为d×512、参数矩阵W2大小为d×1024、参数矩阵W3大小为d×2048;
其中,
Figure BDA0002843725520000084
为邻接矩阵B的正则化版本。
在本实施例中,词向量为d=300维的行向量,经过多粒度模块后,变成了维度分别为512、1024以及2048的行向量。即特征矩阵H1的大小为N×512,特征矩阵H2的大小为N×1024,特征矩阵H3的大小为N×2048。
在本发明中,设计双线性融合方法来融合不同粒度的特征信息。双线性融合通过哈达玛积来融合两个向量以产生比单个向量更丰富的信息。给定两个特征向量x和y,双线性融合模块被定义为:
zi=xTWiy+bi
其中,Wi为映射矩阵,zi是融合后的向量。受矩阵分解技巧的启发,Wi可以分解为两个低秩矩阵,上述公式可以被重写为:
Figure BDA0002843725520000082
Ui和Vi可看做两个映射矩阵,可用图卷积网络代替。
具体而言,融合模块包含三个维度为g(隐层维度为g)的图卷积网络分支,将第g个图卷积网络分支的输出为一个特征矩阵,用H′s表示,则:
Figure BDA0002843725520000083
其中,W′g为第g个图卷积网络分支的参数矩阵,参数矩阵W′1大小为512×g、参数矩阵W′2大小为1024×g、参数矩阵W′3大小为2048×g。
输出的特征矩阵H′1、H′2、H′3的大小均为N×g。
然后对特征矩阵H′s进行融合:
Figure BDA0002843725520000091
其中,
Figure BDA0002843725520000092
表示哈达玛积,+表示相同位置的矩阵元素相加;
最后,对融合后的特征矩阵Z3用一图卷积网络进行处理,得到分类器矩阵C:
C=σ(BZ3W″) (4)
其中,图卷积网络的参数矩阵W″大小为g×g;
分类器矩阵C可表示为:
Figure BDA0002843725520000093
即分类器矩阵C的每一行ci代表一个类的视觉分类器向量。
步骤S3:构建损失函数,训练多粒度融合网络
构建损失函数L:
Figure BDA0002843725520000094
其中,M是所有类别中可见类的数量,MSE(·||·)表示求两个向量的均方误差,c′m为可见类中类别m的词向量x′m经过多粒度融合网络得到的类别m的视觉分类器向量,
Figure BDA0002843725520000095
为可见类中类别m的真实视觉分类器向量;
通过端到端的方式,依据随机梯度下降算法更新多粒度融合网络参数矩阵集合极小化损失函数L来训练多粒度融合网络;
步骤S4:零样本图片分类
步骤S4.1:获取每个类别的视觉分类器向量
将所有N个(名词)类别的词向量输入到训练好的多粒度融合网络中,得到每个类别的视觉分类器向量ci,i=1,2,…N;
步骤S4.2:提取未知类别图片的视觉特征向量
用真实分类器向量对应的训练好的CNN(卷积神经网络)提取未知类别图片的视觉特征向量;
步骤S4.3:计算内积值
将未知类别图片的视觉特征向量x与步骤4.1)的每个类别的视觉分类器向量ci,i=1,2,…N计算内积值pi
Figure BDA0002843725520000102
步骤S4.4:依据内积值得到图片类别
将内积值pi作为分类预测分数,依据内积值pi大小,从大到小排列,内积值最大的分类器向量对应的类别就是图片的类别。
测试
为了验证本发明的有效性,在当前最大的零样本识别数据集ImageNet-21K数据集上对本发明进行测试。ImageNet-21K数据集总共包含21841个类别,我们在其中1000个类别训练模型,并在其与20841类上测试模型。我们采用Hit@k指标来评估我们的模型.Hit@k表示返回的前k个结果中有正确结果的图片所占的比例,是零样本学习领域最广的评价指标。我们将ImageNet-21K数据集分为三个子集,2-hops,3-hops以及All。并在标准零样本设定以及通用零样本设定下分别进行实验。标准零样本设定是指在只在不可见类别上进行测试,即分类时候选类别只有不可见类。通用零样本设定是指分类时候选类别既有可见类别也有不可见类别,这种设定更接近实际情况。
Figure BDA0002843725520000101
Figure BDA0002843725520000111
表1
Figure BDA0002843725520000112
Figure BDA0002843725520000121
表2
从表1、2中可以看出,本发明均优于现有的方法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于多粒度融合网络的零样本图片识别方法,其特征在于,包括以下步骤:
(1)、语义指导下进行知识图谱构建
1.1)、从词网络(WordNet)中提取名词表,以及名词之间的树状关系;
1.2)、依据树状关系构建一个基础的知识图谱,其中,基础知识图谱的每个节点为一个名词,表示一个类别,节点之间的边表示类别之间的关系,将此知识图谱的邻接矩阵记为A;
1.3)、用预训练的词转向量模型生成每个名词的词向量;
1.4)、计算词向量之间的相似度;
1.5)、噪音抑制:
对于基础知识图谱中任一节点(名词)i,获取节点i与其相连的节点h的词向量相似度sih,如果词向量相似度sih小于阈值α,则删除节点i与节点h之间的边,否则保留节点i与节点h之间的边;
1.6)、语义增强:
对于基础知识图谱中任一节点(名词)i,获取与节点i的词向量相似度最大的K个节点,对于词向量相似度最大的K个节点中的一个节点j,如果其与节点i的词向量相似度sij大于阈值β,则连接节点i与节点j,形成一条边;
1.7)、计算新的邻接矩阵
基础知识图谱经过噪声抑制,语义增强后,得到新的知识图谱,根据新构的知识图谱,计算出新的邻接矩阵B;
(2)、构建多粒度融合网络
所构建的多粒度融合网络包含两个模块:多粒度模块和融合模块,其中:
多粒度模块包含三个不同维度的图卷积网络分支,在第一个图卷积网络分支中,将图卷积网络的隐层维度设为512维来捕获粗粒度的特征信息,在第二个图卷积网络分支中,将图卷积网络的隐层维度设置为1024维,以捕获中等粒度的特征信息,在第三个图卷积网络分支中,将图卷积网络的隐层维度设置为为2048,用于捕获细粒度的特征信息,将第s个图卷积网络分支的输出为一个特征矩阵,用Hs表示,则:
Figure FDA0002843725510000021
其中:
Figure FDA0002843725510000022
其中,xi为名词i的词向量,词向量为d维的行向量;
其中,Ws为第s个图卷积网络分支的参数矩阵,参数矩阵W1大小为d×512、参数矩阵W2大小为d×1024、参数矩阵W3大小为d×2048;
其中,
Figure FDA0002843725510000023
为邻接矩阵B的正则化版本;
融合模块包含三个维度为g(隐层维度为g)的图卷积网络分支,将第g个图卷积网络分支的输出为一个特征矩阵,用H′s表示,则:
Figure FDA0002843725510000024
其中,W′g为第g个图卷积网络分支的参数矩阵,参数矩阵W1′大小为512×g、参数矩阵W′2大小为1024×g、参数矩阵W′3大小为2048×g;
然后对特征矩阵H′s进行融合:
Figure FDA0002843725510000025
其中,
Figure FDA0002843725510000027
表示哈达玛积,+表示相同位置的矩阵元素相加;
最后,对融合后的特征矩阵Z3用一图卷积网络进行处理,得到分类器矩阵C:
C=σ(BZ3W″) (4)
其中,图卷积网络的参数矩阵W″大小为g×g;
分类器矩阵C可表示为:
Figure FDA0002843725510000026
即分类器矩阵C的每一行ci代表一个类的视觉分类器向量。
(3)、构建损失函数,训练多粒度融合网络
构建损失函数L:
Figure FDA0002843725510000031
其中,M是所有类别中可见类的数量,MSE(·||·)表示求两个向量的均方误差,c′m为可见类中类别m的词向量x′m经过多粒度融合网络得到的类别m的视觉分类器向量,
Figure FDA0002843725510000032
为可见类中类别m的真实视觉分类器向量;
通过端到端的方式,依据随机梯度下降算法更新多粒度融合网络参数矩阵集合极小化损失函数L来训练多粒度融合网络;
(4)、零样本图片分类
4.1)、将所有N个(名词)类别的词向量输入到训练好的多粒度融合网络中,得到每个类别的视觉分类器向量ci,i=1,2,…N;
4.2)、用真实分类器向量对应的训练好的CNN(卷积神经网络)提取未知类别图片的视觉特征向量;
4.3)、将未知类别图片的视觉特征向量与步骤4.1)的每个类别的视觉分类器向量ci,i=1,2,…N计算内积值;
4.4)、依据内积值大小,从大到小排列,内积值最大的分类器向量对应的类别就是图片的类别。
CN202011501887.4A 2020-12-18 2020-12-18 一种基于多粒度融合网络的零样本图片识别方法 Active CN112488241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011501887.4A CN112488241B (zh) 2020-12-18 2020-12-18 一种基于多粒度融合网络的零样本图片识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011501887.4A CN112488241B (zh) 2020-12-18 2020-12-18 一种基于多粒度融合网络的零样本图片识别方法

Publications (2)

Publication Number Publication Date
CN112488241A true CN112488241A (zh) 2021-03-12
CN112488241B CN112488241B (zh) 2022-04-19

Family

ID=74914779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011501887.4A Active CN112488241B (zh) 2020-12-18 2020-12-18 一种基于多粒度融合网络的零样本图片识别方法

Country Status (1)

Country Link
CN (1) CN112488241B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111786A (zh) * 2021-04-15 2021-07-13 西安电子科技大学 基于小样本训练图卷积网络的水下目标识别方法
CN113516156A (zh) * 2021-04-13 2021-10-19 浙江工业大学 一种基于多源信息融合的细粒度图像分类方法
CN113822183A (zh) * 2021-09-08 2021-12-21 北京科技大学 基于au-emo关联与图神经网络的零样本表情识别方法及系统
CN113920379A (zh) * 2021-11-09 2022-01-11 北京工业大学 一种基于知识辅助的零样本图像分类方法
CN114240891A (zh) * 2021-12-17 2022-03-25 重庆大学 融合知识图谱和图卷积神经网络的焊点质量识别方法
CN115081468A (zh) * 2021-03-15 2022-09-20 天津大学 一种基于知识迁移的多任务卷积神经网络故障诊断方法
CN115858725A (zh) * 2022-11-22 2023-03-28 广西壮族自治区通信产业服务有限公司技术服务分公司 一种基于无监督式图神经网络的文本噪声筛选方法及系统
WO2024036690A1 (zh) * 2022-08-15 2024-02-22 福建天甫电子材料有限公司 用于剥膜液生产的自动配料系统及其配料方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330480A (zh) * 2017-07-03 2017-11-07 贵州大学 手写字符计算机识别方法
CN109215053A (zh) * 2018-10-16 2019-01-15 西安建筑科技大学 一种无人机航拍视频中含暂停状态的运动车辆检测方法
CN109919177A (zh) * 2019-01-23 2019-06-21 西北工业大学 基于层次化深度网络的特征选择方法
CN109919106A (zh) * 2019-03-11 2019-06-21 同济大学 渐进式目标精细识别与描述方法
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
WO2019171416A1 (ja) * 2018-03-05 2019-09-12 日本電気株式会社 画像分類システム、画像分類方法および画像分類プログラム
CN111126218A (zh) * 2019-12-12 2020-05-08 北京工业大学 一种基于零样本学习的人体行为识别方法
CN111522968A (zh) * 2020-06-22 2020-08-11 中国银行股份有限公司 知识图谱融合方法及装置
US20200302340A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330480A (zh) * 2017-07-03 2017-11-07 贵州大学 手写字符计算机识别方法
WO2019171416A1 (ja) * 2018-03-05 2019-09-12 日本電気株式会社 画像分類システム、画像分類方法および画像分類プログラム
CN109215053A (zh) * 2018-10-16 2019-01-15 西安建筑科技大学 一种无人机航拍视频中含暂停状态的运动车辆检测方法
CN109919177A (zh) * 2019-01-23 2019-06-21 西北工业大学 基于层次化深度网络的特征选择方法
CN109919106A (zh) * 2019-03-11 2019-06-21 同济大学 渐进式目标精细识别与描述方法
US20200302340A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
CN111126218A (zh) * 2019-12-12 2020-05-08 北京工业大学 一种基于零样本学习的人体行为识别方法
CN111522968A (zh) * 2020-06-22 2020-08-11 中国银行股份有限公司 知识图谱融合方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIWEI WEI .ETC: "Universal Weighting Metric Learning for Cross-Modal Matching", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
ZEYNEP AKATA .ETC: "Label-Embedding for Image Classification", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081468A (zh) * 2021-03-15 2022-09-20 天津大学 一种基于知识迁移的多任务卷积神经网络故障诊断方法
CN113516156A (zh) * 2021-04-13 2021-10-19 浙江工业大学 一种基于多源信息融合的细粒度图像分类方法
CN113111786A (zh) * 2021-04-15 2021-07-13 西安电子科技大学 基于小样本训练图卷积网络的水下目标识别方法
CN113111786B (zh) * 2021-04-15 2024-02-09 西安电子科技大学 基于小样本训练图卷积网络的水下目标识别方法
CN113822183A (zh) * 2021-09-08 2021-12-21 北京科技大学 基于au-emo关联与图神经网络的零样本表情识别方法及系统
CN113822183B (zh) * 2021-09-08 2024-02-27 北京科技大学 基于au-emo关联与图神经网络的零样本表情识别方法及系统
CN113920379A (zh) * 2021-11-09 2022-01-11 北京工业大学 一种基于知识辅助的零样本图像分类方法
CN113920379B (zh) * 2021-11-09 2024-05-28 北京工业大学 一种基于知识辅助的零样本图像分类方法
CN114240891A (zh) * 2021-12-17 2022-03-25 重庆大学 融合知识图谱和图卷积神经网络的焊点质量识别方法
CN114240891B (zh) * 2021-12-17 2023-07-18 重庆大学 融合知识图谱和图卷积神经网络的焊点质量识别方法
WO2024036690A1 (zh) * 2022-08-15 2024-02-22 福建天甫电子材料有限公司 用于剥膜液生产的自动配料系统及其配料方法
CN115858725A (zh) * 2022-11-22 2023-03-28 广西壮族自治区通信产业服务有限公司技术服务分公司 一种基于无监督式图神经网络的文本噪声筛选方法及系统

Also Published As

Publication number Publication date
CN112488241B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN112488241B (zh) 一种基于多粒度融合网络的零样本图片识别方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
Tu et al. RGBT salient object detection: A large-scale dataset and benchmark
Chen et al. High-quality R-CNN object detection using multi-path detection calibration network
CN106570464B (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN111598183B (zh) 一种多特征融合图像描述方法
Pistilli et al. Learning robust graph-convolutional representations for point cloud denoising
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN112905894B (zh) 一种基于增强图学习的协同过滤推荐方法
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN113869105A (zh) 一种人体行为识别方法
Wang et al. KTN: Knowledge transfer network for learning multiperson 2D-3D correspondences
CN112364747A (zh) 一种有限样本下的目标检测方法
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
Kurdthongmee et al. A framework to estimate the key point within an object based on a deep learning object detection
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
Lonij et al. Open-world visual recognition using knowledge graphs
CN117854155A (zh) 一种人体骨骼动作识别方法及系统
Li et al. GIN: Generative invariant shape prior for amodal instance segmentation
Wang et al. Predicting diverse future frames with local transformation-guided masking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant