CN111104973B

CN111104973B - 一种基于知识注意力的细粒度图像分类方法

Info

Publication number: CN111104973B
Application number: CN201911244570.4A
Authority: CN
Inventors: 魏卿; 张小旺; 王克文; 冯志勇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2022-02-15
Anticipated expiration: 2039-12-06
Also published as: CN111104973A

Abstract

本发明公开一种基于知识注意力的细粒度图像分类方法，包括特征过滤网络、知识引导模块和知识决策模块；特征过滤网络用于将输入的原始图片信息经过深度卷积神经网络模型得到若干特征图，将各个特征图在各自像素点位置进行纵向最大值操作，得到一张包含每个最大像素值的特征图(注意力特征图)用以表示当前图像重要点的集合，根据当前注意力特征图与原始图片比较得到注意力特征图所在位置及颜色信息；知识引导模块通过实体嵌入向量及视觉特征学习转换权重W，以此进行知识引导；知识决策模块用于对知识库三元组信息进行类之间的相似度计算，通过设置阈值的方式作为类的指标，并通过softmax进行概率输出并作为偏移量加入到图像分类上。

Description

一种基于知识注意力的细粒度图像分类方法

技术领域

本发明涉及细粒度图片分类和深度学习领域，具体涉及一种在利用外部数据的条件下，利用知识信息来辅助卷积神经网络图像分类方法。

背景技术

细粒度图像识别是计算机视觉领域中的一个重要问题，细粒度图像识别是识别物体子类的关系，由于细粒度图像识别对于类内数据具有较大的方差，对类间数据具有较小的方差，这导致在识别细粒度图像上提升了很大难度和挑战。细粒度图像识别是典型的分类问题，其任务是预估一个从实值特征向量x∈Rⁿ到预测目标T(回归：T＝R，分类：T＝(+,-))的映射函数y:Rⁿ→T。在监督学习中，假设有数据集D＝{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),...,(x⁽ⁿ⁾,y⁽ⁿ⁾)}，其中x⁽ⁱ⁾为特征向量，y⁽ⁱ⁾为预测目标，n表示样本个数。本发明处理的问题为：x是图片的特征向量，和其他图片的特征相比，具有极大的相似性，只有较小局部区域具有差异，我们的目的就是识别出这个辨别性差异性的区域，主要提取该区域特征来进行细粒度图片分类。

本发明最相似的现有技术实现方案：

细粒度图像识别为了挖掘潜在的辨别性特征，工作大致分为以下三类：(1)定位分类子网络进行细粒度图像识别，(2)端到端的特征编码进行细粒度图像识别，(3)用外部信息进行细粒度图像识别。用定位分类子网络进行细粒度识别，为了缓解类内变化比较大的问题，核心目的是捕捉细粒度对象具有辨别性的语义部分，然后再建立和这些语义部分相关的中级表征用于最后的分类。具体而言，先定位这些关键部位，设计出定位子网络。之后再连接一个用于识别的分类子网络。这两个子网络合作组成的框架就是第一个类别，也就是用定位分类子网络进行细粒度识别。这一类别的早期工作依赖于额外的密集部位注释来定位目标的语义关键部位，例如头部、躯干。他们中的一些学习了基于部位的检测器，还有一些利用分割方法来定位部位。然后，这些方法将多个部位特征当做整个图像的表征，并将其馈送到接下来的分类字网络中进行最终的识别。因此，这些方法也称为基于部位的识别方法。最近的趋势是，只需要使用图像标签就可以准确定位这些部位。他们共同的思路是先找到相对应的部位，然后再比较他们的外观。具体而言，通过捕获细粒度类别中共享的语义部位，比如头部和躯干，同时还希望发现这些部位表征之间的微小差别。像注意力机制和多阶段策略这种方法可以对集成的定位分类子网络进行复杂的联合训练。用端到端的特征编码进行细粒度识别的方法，这一类是通过开发用于细粒度识别的强大深度模型来直接学习更具辨别力的表征。这类工作中最具代表性的方法是双线性CNN，它用来自两个深度CNN池化后的特征的外积来表征图像，从而对卷积激活的高阶统计量进行编码，以增强中级学习能力。由于其模型容量较高，双线性CNN在细粒度识别中实现了优良的性能。利用外部信息进行细粒度识别的方法主要包括对额外的数据例如文本，知识库等信息用不同的嵌入方法生成语义空间向量，与视觉向量相融合的方式来辅助细粒度分类。

现有技术的缺点：

第一类方法需要大量的手工标注信息，这样密集部位注释是劳动密集型工作，限制了细粒度应用在现实世界中的可扩展性和实用性。第二类端到端的方式因双线性特征的维度极高，因此它无法在现实世界中应用，尤其是大规模应用。第三类的利用外部信息的主要问题是如何有效和可解释的融合方式是此类问题的关键缺点。

发明内容

本发明的目的是为了克服现有技术中的不足，考虑了细粒度辨别性特征的定位及外部信息知识的核心作用，提供一种基于知识注意力的细粒度图像分类模型。通过一种“FilterNet”的特征过滤方法来捕获辨别性视觉特征，通过一种基于知识引导的特征变换策略对过滤的特征进行语义信息修正，还通过一个基于知识决策的方法辅助细粒度图像分类主要利用无监督定位视觉辨别性特征和知识语义信息结合的方式进行细粒度分类。本发明设计的知识引导在FilterNet的基础上，能够充分地发挥知识库起到的基本属性特征，将辅助图片的知识信息加入到分类过程中，并且基于图片属性的知识三元组通过属性对的相似性关系计算比例作为分类概率偏移量辅助决策。

本发明的目的是通过以下技术方案实现的：

一种基于知识注意力的细粒度图像分类方法，包括特征过滤网络、知识引导模块和知识决策模块；

特征过滤网络用于将输入的原始图片信息经过深度卷积神经网络模型得到若干特征图，将各个特征图在各自像素点位置进行纵向最大值操作，得到一张包含每个最大像素值的特征图，即注意力特征图，用以表示当前图像重要点的集合，根据当前注意力特征图与原始图片比较得到注意力特征图所在位置及颜色信息；

知识引导模块通过特征过滤网络得到的位置及颜色两种信息并从开源知识库中找到经过嵌入训练过的对应实体嵌入向量，通过上述实体嵌入向量及经过特征过滤网络卷积得到的视觉特征学习转换权重W，以此进行知识引导；

知识决策模块用于对知识库三元组信息进行类之间的相似度计算，通过设置阈值的方式作为类的指标，并通过softmax进行概率输出并作为偏移量加入到图像分类上。

进一步的，每一个三元组信息包括<h，r，t>即实体和关系。

进一步的，所述开源知识库为DBpedia或FreeBase。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.本发明涉及的网络模型结构主要有：1)一种特征过滤网络，可将卷积神经网络提取的模糊数据清除掉，保留高响应特征；2)一种知识引导模块，可用来对视觉信息进行知识语义转换；3)一种知识决策模块，利用知识库信息计算类别相似度并对分类其偏移量作用。本发明在公开数据集CUB-200-2011上的实验评估表明，本发明方法优于11种先进的细粒度图像分类方法，分别对有标注模型和无标注以及利用外部数据的三类模型进行比较，本发明的结果取得了最好的效果，并验证了可有效使用知识信息辅助深度学习模型。

2.本发明针对知识驱动的细粒度图像分类问题，利用视觉的辨别性特征和多模态知识特征提出一种基于知识注意力特征聚合模型，基于知识引导决策和多项损失函数级联的结构使细粒度图像识别更加精准。从本发明的实验结果来看，针对公开的标准数据集CUB-200-2011，我们的方法比现有实现技术更好，如PS-CNN，PA-CNN，SPDA-CNN，AGAL-CNN，Part R-CNN，CVL，Mask-CNN，DVAN，B-CNN，PDFS，OPAM。同时，本发明提出的知识引导和决策方法比现有的结合知识模型CVL更好。

附图说明

图1是本发明设计知识注意力实现细粒度图像识别的模型框架图。

图2是本发明提出的FilterNet特征过滤结构图。

图3是本发明提出的KAFA模型实现的细粒度特征可视化图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明针对细粒度图像的分类识别，利用知识信息的完整性与结构性和视觉信息特征结合提出一个基于知识注意力特征聚合模型KAFA，主要包括知识引导KnowledgeConduction，知识决策Knowledge Decision和特征过滤网络FilterNet。

1、FilterNet

FilterNet是通过深度卷积神经网络模型先进行卷积和池化运算，生成图片的视觉特征信息。FilterNet的操作是对生成的特征图特征信息进行过滤处理，具体是每张特征图的像素值在纵向取最大值，也就是说N张特征图，在每一个特征图每一个点位置沿纵轴取最大值，得到一张包含所有特征图每个点的最大值点特征图，这个特征图就可以表示当前图片的极值信息，生成的特征图称之为注意力特征图。得到注意力特征图之后，需要对它进行过滤操作，并不是所有点都是最受注意力的，因此迭代计算当前特征图的均值，并将小于均值的点归零，直到达到注意力面积阈值。结果就是得到原始图片中的一个小区域，这个小区域就是当前图片的注意力信息区域。之后，同样对图片进行卷积池化操作，得到图像的物体主体区域，通过注意力信息区域和物体主体区域的位置比较，本发明将注意力信息区域在物体主体区域的边缘位置定义为头部，其他为躯干。这是因为经过实验发现注意力信息区域绝大多数出现在头部区域，因此本发明如此定义。其算法执行流程可以梳理为以下过程。

算法1：FilterNet

输入：训练集图片X和标签Y

输出：特征图信息

2、Knowledge Conduction

Knowledge Conduction是基于FilterNet的知识驱动模块。其利用注意力特征图的位置信息和经过嵌入训练的开源知识库信息进行转换操作，对视觉特征进行微幅度修改。首先对知识库三元组信息进行向量化，本发明使用TransR方法进行嵌入，每一个三元组信息包括<h，r，t>即实体和关系。TransR将实体映射到关系的向量空间中，转换函数是

这样就得到了经过TransR的实体向量。再根据FilterNet得到的位置信息找到对应的实体向量，通过此实体向量和注意力特征图学习转换参数W，转换公式为：FM′＝FM+α*W*FM。因此得到经过知识引导过的视觉语义向量。整个算法流程如下：

算法2：KAFA模型流程

输入：训练集图片X标签Y和属性集合A

输出：分类结果

3、Knowledge Decision

Knowledge-Decision是通过知识库信息进行类属性相似度计算作为类间距离，并以此距离作为辅助分类依据。知识库三元组<h，r，t>是每个类的属性集合分别代表头实体，关系和尾实体，例如<黑足信天翁，前额的颜色，白色>。每张图片对应若干条属性信息，通过把每个类里面所有图片的属性进行计数，得到这个类属性的数量排名并选取前K个属性作为这个类的属性。接下来通过计算类与类之间的属性相似性阈值作为判别类的依据。通过公式来计算相似性数值：KD_i＝|A_i∩A_j|²/(|A_i∪A_j|*|A_i|)，得到一个n维的矩阵，其中对角线元素为0，自己和自己的相似性暂定为0，矩阵为：

M_n*n[i]：＝(m_i1,…,m_ii-1,0,m_ii+1,…,m_in)

公式中M为大小是n*n的相似矩阵，n是类别的个数，i为遍历每个类的变量。得到相似矩阵M之后，纵向求平均作为生成的n维偏移向量。本发明针对普通的图片分类方法增加了修改，使用两层softmax来对分类进行改进。首先本发明对标准数据集CUB-200-2011进行标签划分，在原有的200分类细粒度基础上，对子类进行合并得到71个父类粗粒度，例如原有类别为红褐色蜂鸟，红宝石喉蜂鸟和安娜蜂鸟，这些作为子类，其共有的父类为蜂鸟。本发明通过计算同一个父类下的类间相似性和非同父类间的相似性。通过最大最小距离算法，本发明选取同父类下最小的相似性和非同类的最大相似性作为阈值。在测试集时，通过两个阈值得到相近的K个类别信息，并排名。对着N*K维向量取平均，以此得到的N维向量作为偏移向量。

本发明的实验环境和实验结果分析如下：

数据集：本发明在一个公开标准测试集下评测模型的预测能力：CUB-200-2011。

CUB-200-2011：包含11788张图片，200分类，训练集数据5994张图片，测试集5794张图片。其中还包括详细的部位标注信息：15个部位定位点，312个属性和物体的位置定位框。

本发明按照标准数据集的要求对其中的5794张图片进行分类。交叉熵损失作为指标，也包括本发明设计的级联交叉熵损失。本发明将与其他11种先进的深度学习模型作比较：PS-CNN，PA-CNN，SPDA-CNN，AGAL-CNN，Part R-CNN，CVL，Mask-CNN，DVAN，B-CNN，PDFS，OPAM。

实验环境：Python 3.5，PyTorch 0.4

参数设置：损失函数为交叉熵损失；计算梯度更新优化器为SGD；初始化学习率设为0.007动态递减到0.00015。每次参与训练数据的批量大小为64；为了避免过拟合，网络中加入Dropout正则化技术；加入了早停机制，如果模型在验证集的表现越来越差，则停止训练。模型训练的基模型使用的是ResNet-50.

模型表现能力比较

表1

从表1中明显可以看出，1)本发明涉及的KAFA的分类性能表现最佳。具体来说，KAFA比不利用外部信息的最好模型OPAM提高了1.0％，并且要比使用标注信息的最好模型AGAL提高了1.3％。通过上述实验结果可以看出知识和视觉特征的有机结合对分类模型表现能力的影响。KAFA模型在不利用外部信息的前提下，实现了对物体的关键部位提取特征的功能同时借助知识的作用更加提升分类性能。

KAFA模型包括Knowledge Conduction、Knowledge Decision、FilterNet部分。对KAFA模型内部的实验效果进行3个实验：

第一个实验是探索不使用知识信息，仅使用视觉特征分类的各组成部分效果，实验结果如表2所示：

表2

从表2中可以看出视觉流中的全局层效果较低，其是因为在进行图片分类是考虑了大部分的没有处理的背景信息，导致训练结果不准确，而局部层是对物体进行突出判定并提取指定区域的视觉特征，这一过程减少了部分冗余信息，而加入了特征过滤网络也就是经过FilterNet过滤的视觉信息，是分类的结果更加准确。最后本发明探索多损失相加共同作用于图像分类，实验表明综合多损失信息对图像分类有积极帮助。

第二个实验是探索使用知识决策信息对分类的影响，实验结果如表3所示：

表3

组成部分	准确率
		特征过滤网络+局部层	84.3％
特征过滤网络+局部层+决策	84.8％
		全局层特征过滤网络+局部层+决策	86.1％

从表3中可以看出相比于没有添加知识决策模块，在分类性能上略有不足，知识引导模块的加入，使得局部图像特征的表现增强，也就是知识的相似信息能帮助图像的分类识别。并且综合全局层和局部层，实验结果得到有效的增强。

第三个实验是探索使用全知识决策和知识引导过程对图像分类的综合影响，实验结果如表4所示：

表4

组成部分	准确率
		全局层+决策	83.5％
特征过滤网络+局部层+决策	84.8％
		全局层+特征过滤网络+局部层决策	86.1％
特征过滤网络+局部层	84.3％
		全局层+特征过滤网络+局部层决策引导	86.8％
全局层决策+特征过滤网络+局部层	85.7％
		全局层决策+特征过滤网络+局部层引导	85.9％
全局层+特征过滤网络+局部层决策	86.1％

从表4中明显可以看出，1)知识信息的加入使图像分类的性能得到增强。2)知识决策和知识引导模块从两个角度使知识的作用在分类中更充分表现。知识引导模块在实验性能上有略微的提升，其主要是因为原始过滤的图像特征和知识信息融合之后，语义空间得到了适当修正，使得对图像的表示能力增强，因此在进行分类时表现更佳。

本发明考虑了多模态特征信息，利用知识外部数据来辅助视觉图像分类，并且通过实验验证了整体模型，Knowledge Conduction和Knowledge Decision模块的设计较其他引入知识的方法在分类性能上得到了提升。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于知识注意力的细粒度图像分类方法，其特征在于，包括特征过滤网络、知识引导模块和知识决策模块；

特征过滤网络用于将输入的原始图片信息经过深度卷积神经网络模型得到若干特征图，将各个特征图在各自像素点位置进行纵向最大值操作，得到一张包含每个最大像素值的特征图，即注意力特征图，用以表示当前图像重要点的集合，对当前注意力特征图进行过滤操作得到注意力信息区域，对原始图片进行卷积池化操作得到物体主体区域，对注意力信息区域和物体主体区域进行位置比较得到注意力特征图信息，包括位置及颜色信息；

知识决策模块用于对知识库三元组信息进行类之间的相似度计算，通过计算类与类之间的属性相似性阈值作为判别类的依据；通过最大最小距离算法，选取同父类下最小的相似性和非同类的最大相似性作为阈值；得到相近的K个类别信息，并排名；对N*K维向量取平均，得到N维向量作为分类概率偏移量；将分类概率偏移量与softmax输出结果叠加完成对图像的分类。

2.根据权利要求1所述一种基于知识注意力的细粒度图像分类方法，其特征在于，每一个三元组信息包括<h，r，t>即实体和关系。

3.根据权利要求1所述一种基于知识注意力的细粒度图像分类方法，其特征在于，所述开源知识库为DBpedia或FreeBase。