CN111881957B

CN111881957B - 基于信息导向注意力网络的图像识别方法、系统及装置

Info

Publication number: CN111881957B
Application number: CN202010683490.5A
Authority: CN
Inventors: 谭铁牛; 王威; 陈文弢; 司晨阳; 崔萌萌; 廖志军
Original assignee: State Grid Jiangxi Electric Power Co ltd; Institute of Automation of Chinese Academy of Science
Current assignee: State Grid Jiangxi Electric Power Co ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-09-23
Anticipated expiration: 2040-07-15
Also published as: CN111881957A

Abstract

本发明属于领域，具体涉及了一种基于信息导向注意力网络的图像识别方法，旨在解决的问题。本发明包括：获取输入图像，通过信息导向的注意力网络计算输入图像的特征向量，计算特征向量和信息导向的注意力网络中的原型表征之间的距离，选取特征向量距离最近的类别得到图像的分类结果。本发明解决了现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷，通过将标注数据和未标注数据组织在一起并对他们之间的关系进行建模，可以抽取更具代表性的特征，解决了现有图像识别技术所用人工神经网络需要大量有标注的训练数据才能满足使用性能需求的缺陷。

Description

基于信息导向注意力网络的图像识别方法、系统及装置

技术领域

本发明属于计算机视觉和图像识别领域，具体涉及了一种基于信息导向注意力网络的图像识别方法、系统及装置。

背景技术

在大数据的推动下，深度学习技术在计算机视觉、自然语言处理等领域都有了突飞猛进的发展，然而，在自动驾驶等较难获取大量标注数据的领域，严重依赖数据规模的特点阻碍了深度学习在低数据任务上的应用。众所周知，人类是可以通过简单的举例说明快速学习新概念的，受这一事实的启发，现在的研究者们更多的关注小样本学习技术的发展。

我们提出了基于半监督学习的技术方案，可以充分利用未标注数据来进行小样本学习，通过图结构将标注数据和未标注数据组织在一起并对他们之间的关系进行建模，形成了信息导向注意力网络(Message-guided Attention Network,MAN)。基于学习到的关系，可以抽取更具代表性的特征，并借助于注意力机制促进图节点之间的信息传输，最后，通过计算预测对象和关系网络信息表征之间的欧氏距离进行分类。在miniImageNet和tieredImageNet数据集上的实验结果表明，MAN网络性能超过其他基于半监督学习的小样本学习方法。

发明内容

为了解决现有技术中的上述问题，即现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷的问题，本发明提供了一种基于信息导向注意力网络的图像识别方法，所述图像识别方法包括：

步骤S10，获取输入图像；

步骤S20，通过预训练好的信息导向注意力网络，计算所述输入图像的第一特征向量；

步骤S30，计算所述第一特征向量和预训练好的信息导向注意力网络中第k类别的第一原型表征之间的距离d，当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时，所述输入图像归属于第k类别；

其中，所述信息导向注意力网络通过半监督小样本学习方式训练。

进一步地，所述信息导向注意力网络，其构建和训练方法为：

步骤B10，获取训练图像集，所述训练图像集包括有标注数据集S、无标注数据集R和查询集Q；

步骤B20，基于所述有标注数据集S和无标注数据集R，计算第二原型表征并构建原型网络；

步骤B30，基于所述查询集Q，计算与所述第二原型表征对应的第二特征向量；

步骤B40，计算所述第二特征向量在对应的第二原型表征的概率分布；

步骤B50，通过随机梯度下降法反复迭代调整学习参数f_Φ使全局损失函数达到最小值，得到预训练好的信息导向注意力网络。

进一步地，步骤B20包括：

步骤B201，基于所述有标注数据集S和无标注数据集R，通过第一卷积神经网络CNN1获取第三特征向量v：{v_i,v_j……}；

步骤B202，基于所述第三特征向量，构建第一关系矩阵W：

其中，W_ij表示v_i和v_j属于同一个类别的概率；d(v_i，v)＝f_ψ(|v_i-v_j|)，f_ψ为输出维度为1的第一多层感知机，σ为尺度参数；

步骤B203，通过K近邻算法保留第一关系矩阵W每一行的h个最大值，其余元素置0；

步骤B204，基于所述第一关系矩阵W，通过拉普拉斯算法获得归一化矩阵

其中，D为对角矩阵，其第n行的对角元素为所述第一关系矩阵W第n行元素的和；

步骤B205，基于所述有标注数据集S，通过第二卷积神经网络CNN2获取每一张图像的第四特征向量x：{x₁₁，……，x_ij，……}，对节点i处的第四特征向量{x_ij}取平均值获得节点t处的全局特征

步骤B206，将所述全局特征

与所述归一化矩阵

对应位置的元素

相乘，获得节点t处的信息表征

其中，N(t)为节点t处相邻节点的集合；

步骤B207，基于节点t处的第四特征向量x_tj和所述节点t处的信息表征

通过线性相加的方法，计算空间位置j处的语义相关性得分α_tj，节点t处的相关性得分α_t：{α_tj}为：

其中，

和W^att为三个变换矩阵，f_θ为第二多层感知机；

步骤B208，基于所述相关性得分α_tj，筛选所述第四特征向量{x_tj}，获得筛选后的全局特征

为：

步骤B209，将节点t处的全局特征

替换为所述筛选后全局特征

并将所述筛选后的全局

与所述归一化矩阵

对应位置的元素

相乘，获得筛选后的信息表征

步骤B210，基于所述全局特征

信息表征

筛选后的全局特征

和筛选后的信息表征

通过原型网络学习函数f_Φ分别计算类别k的第二原型表征；

所述第二原型表征的通用表达为：

其中，所述(x_i，y_i)中x_i指在支撑集中的第i个图像，y_i为第i个图像的标签；

根据所述通用表达，计算第二原型表征：

基于所述第二原型表征构建所述原型网络。

进一步地，步骤B30包括：

通过步骤B201-B210的方法计算所述查询集Q的第二特征向量，所述第二特征向量包括查询图像全局特征

查询图像信息表征

筛选后查询图像全局特征

和筛选后查询图像信息表征

进一步地，所述概率分布为：

其中，x^*表示样本集，y^*为样本序号，f_Φ为学习函数，d表示距离。

进一步地，所述全局损失函数为：

其中，J(x^*)＝-logp_Φ(y^*＝k|x^*)为交叉熵损失函数，β表示各个表征的权重系数。

进一步地，所述第一原型表征为

本发明的另一方面，提出了一种基于信息导向注意力网络的图像识别系统，所述识别系统包括图像获取模块100、特征提取模块200和归类模块300；

所述图像获取模块100，用于获取输入图像；

所述特征提取模块200，用于通过预训练好的信息导向注意力网络，计算所述输入图像的第一特征向量；

所述归类模块300，用于计算所述第一特征向量和预训练好的信息导向注意力网络中第h类别的第一原型表征之间的距离d，当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时，所述输入图像归属于第k类别；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。

本发明的有益效果：

(1)本发明基于信息导向注意力网络的图像识别方法，通过小样本和半监督式训练基于信息导向地注意力网络解决了现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷。

(2)本发明基于信息导向注意力网络的图像识别方法，通过将标注数据和未标注数据组织在一起并对他们之间的关系进行建模，可以抽取更具代表性的特征，解决了现有图像识别技术所用人工神经网络需要大量有标注的训练数据才能满足使用性能需求的缺陷。

(3)本发明基于信息导向注意力网络的图像识别方法，解决了现有技术中通过小样本学习得到的图像识别网络识别效果不佳，辨识度低的问题，提高了图像识别的准确性，更好地提取图像的特征。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于信息导向注意力网络的图像识别方法的流程示意图；

图2是本发明基于信息导向注意力网络的图像识别方法实施例中信息导向注意力网络(MAN)模型示意图；

图3是本发明基于信息导向注意力网络的图像识别方法注意力机制的可视化结果示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于信息导向注意力网络的图像识别方法，本方法包括：

步骤S10，获取输入图像；

步骤S30，计算所述第一特征向量和预训练好的信息导向注意力网络中第k类别的第一原型表征之间的距离d，当所述距离d小于预设的第一阈值时，所述输入图像归属于第k类别；

Few-shot learning:小样本学习的目标是在只有少量标注数据的基础上，训练一个用以识别未见过类别的分类器。few-shot的训练集Ctrain中包含了很多的类别，每个类别中有多个样本。在训练阶段，会从训练集N个类别每类抽取K个样本

作为支撑集(support set)，构建一个meta-task；再从训练集N个类别剩余数据中每类抽取T个的样本作为模型的查询集queryset，

即要求模型从N*K个数据中学会如何区分这N个类别，这样的任务被称为N-way K-shot问题。由于支撑集缺乏足够多的标注数据，训练一个能准确预测未知类别的模型是非常困难的，我们也采用半监督学习的方式利用未标注的数据来解决低数据任务。

半监督小样本学习训练集中包含了标注数据S和未标注数据R，半监督小样本学习的目的就是充分利用未标注数据R来对query set中的图片类别进行预测。

为了更清晰地对本发明的一种基于信息导向注意力网络的图像识别方法，如图1本发明基于信息导向注意力网络的图像识别方法的流程示意图所示，包括步骤S10-步骤S30；

步骤S10，获取输入图像；

所述信息导向注意力网络，其构建和训练方法为：

原型网络是一个同类样本相距很近、不同类别相距较远一个矢量空间，每个类别的原型代表为这个类别样本特征的均值，样本分类问题被视为计算样本和每个类别原型表征的问题。

原型网络学习函数

通过公式(1)计算每个类别的原型表征：

从预测集取出样本x*，建立距离计算函数d，原型网络通过计算x*和各类别原型表征的距离分布判断类别归属，并通过最小化损失函数J优化函数f的参数

最小化损失函数J如公式(2)和(3)所示：

J(x^*)＝-logp_Φ(y^*＝k|x^*) (3)

原型网络的设计目的就是学习一个有效的函数

可以对类别进行准确的原型表征，并且确保在未知样本出现时，能与同类别的原型表征之间距离最小。

在本实施例中，将所述有标注数据集S和无标注数据集R作为支撑集(supportset)。

在本实施例中，如图2本发明基于信息导向注意力网络的图像识别方法实施例中信息导向注意力网络(MAN)模型示意图所示，步骤B20包括步骤B201-步骤B210；

步骤B201，基于所述有标注数据集S和无标注数据集R，通过第一卷积神经网络CNN1获取第三特征向量v：{v_i，v_j……}；

步骤B202，基于所述第三特征向量，构建第一关系矩阵W如公式(4)所示：

其中，W_ij表示v_i和v_j属于同一个类别的概率；d(v_i，v)＝f_ψ(|v_i-v_j|)，f_ψ为输出维度为1的第一多层感知机，σ为尺度参数；通过矩阵W来构建图形结构

本实施例中，基于所述矩阵W来构建图形结构，表征标注数据及S和未标注数据集R之间的关系。

步骤B203，通过K近邻算法保留第一关系矩阵W每一行的h个最大值，其余元素置0；可以使W构建的图形结构更加紧凑。

如公式(5)所示：

如公式(6)所示：

步骤B206，将所述全局特征

与所述归一化矩阵

对应位置的元素

相乘，获得节点t处的信息表征

如公式(7)所示：

其中，N(t)为节点t处相邻节点的集合；

经过图形结构信息传递，包含了有标注数据集S和无标注数据集R的信息表征，可以看作t节点的第四特征向量{x_ij}做基于注意力的类别相关性表征。

通过线性相加的方法，计算空间位置j处的语义相关性得分α_tj，节点t处的相关性得分α_t：{α_tj}如公式(8)所示：

其中，

和W^att为三个变换矩阵，f_θ为第二多层感知机；

如公式(9)所示：

步骤B209，将节点t处的全局特征

替换为所述筛选后全局特征

并将所述筛选后的全局

与所述归一化矩阵

对应位置的元素

相乘，获得筛选后的信息表征

如公式(10)所示：

步骤B210，基于所述全局特征

信息表征

筛选后的全局特征

和筛选后的信息表征

通过原型网络学习函数f_Φ分别计算类别k的第二原型表征；

所述第二原型表征的通用表达如公式(11)所示：

根据所述通用表达，计算第二原型表征如公式(12)-(15)所示：

基于所述第二原型表征构建所述原型网络。

在一些优选的实施方式中，步骤B30包括：

查询图像信息表征

筛选后查询图像全局特征

和筛选后查询图像信息表征

其中，第一、第二特征向量包含了图像的全局特征、信息表征、筛选后的全局特征和筛选后的信息表征，而第三、第四特征向量仅包含了训练图像集中图片的特征。

在一些优选的实施方式中，概率分布如公式(16)所示：

所述全局损失函数如公式(17)所示：

步骤S30，计算所述第一特征向量和预训练好的信息导向注意力网络中各类别的第一原型表征之间的距离d，当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时，所述输入图像归属于第k类别；

其中，所述信息导向注意力网络通过半监督小样本学习方式训练。在一些优选的实施方式中，所述第一原型表征为

接下来，借助实验结果来验证本发明的有效性。实验在两个个标准的公开数据库上进行，第一个为miniImageNet包括ILSVRC-12的100个类别、每个类别600张图片，我们采用64个类别作为训练集，16个类别作为交叉验证集、20个类别作为测试集。

tieredImageNet包括ILSVRC-12的608个类别、每个类别1281张图片，根据ImageNet数据集语义等级的划分，这些累呗又被分为34个更宽泛的类别，每个类别包括10～30个子类别，我们用20个类别作为训练集，6个类别作为交叉验证集、8个类别作为测试集。

对于支撑集N-way K-shot的采样方式，我们首先在训练集Ctrain中选取N个类别，从有标注数据S中每一类采用K张图片，再从未标注数据R中每一类采用M张图片。并且，我们从训练集Ctrain剩余类别中选取H个类别、每个类别M张图片作为干扰数据。这样一共有MN+MH张未标注图片。对于查询集，也是从N个类别中选择固定数量的图片。测试时候，从测试集Ctest选取图片的方式和以上保持一致。在本次实验中，对于5-way 1-shot(H＝5，K＝1)和5-way 5-shot(H＝5，K＝5)学习方式，均采用训练阶段H＝5、M＝5，测试阶段H＝5，M＝20。

表1展示了在miniImageNet数据集上，是否加入干扰数据对算法性能的影响，和其他算法相比，MAN在多种情况下均展现了优越性。表2展示了MAN算法在tieredImageNet的性能表现，两个数据集上和其他算法的对比说明我们信息导向注意力网络可以有效的提取语义信息、形成更准确的原型网络。

表1在miniImageNet数据库5-way 1/5-shot分类结果

表格2在tieredImageNet数据库5-way 1/5-shot分类结果

表格3在miniImageNet数据库5-way 1/5-shot消融实验结果(SS：半监督，MA：信息导引注意力机制，UE：非共享CNN编码器，MR：信息表征)

表3展示了全监督原型网络(supervised)、全监督与弱注意力网络(Supervised+softattention)、半监督信息导向注意力网络(SS+MA)、采用不同CNN编码器的半监督信息导向注意力网络(SS+MA+UE)以及该网络加入信息表征模块的表现(SS+MA+UE+MR)，以上消融实验证明每一模块的有效性。

图3本发明基于信息导向注意力网络的图像识别方法注意力机制的可视化结果示意图展示了通过本发明提出的图像识别方法可精确识别出各种类别的图像。

本发明第二实施例的一种基于信息导向注意力网络的图像识别系统，其特征在于，所述识别系统包括图像获取模块100、特征提取模块200和归类模块300；

所述图像获取模块100，用于获取输入图像；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的一种基于信息导向注意力网络的图像识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。