CN115272716A

CN115272716A - 一种提取整合图像内部与图像之间特征关系的方法和装置

Info

Publication number: CN115272716A
Application number: CN202210667653.XA
Authority: CN
Inventors: 李俊
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2021-06-11
Filing date: 2022-06-13
Publication date: 2022-11-01

Abstract

本发明公开了一种提取整合图像内部与图像之间特征关系的方法及装置。该方法包括如下步骤：使用内部关系网络表征图像内部的特征关系，使用交叉关系网络表征图像之间的特征关系；其中，将内部关系网络划分为空间关系模块和通道关系模块；将图像序列分别输入空间关系模块、通道关系模块和交叉关系网络；在空间关系模块、通道关系模块和交叉关系网络中，图像序列依次经过压缩层、基于注意力的关系模块层和恢复层的处理之后，进入批量规范化层以加速卷积神经网络的收敛速度；使用卷积融合函数，将空间关系模块、通道关系模块和交叉关系网络的输出融合在一起，作为输出结果。利用本发明，可以增强卷积神经网络在抽象视觉推理任务中的推理能力。

Description

一种提取整合图像内部与图像之间特征关系的方法和装置

技术领域

本发明涉及一种提取整合图像内部与图像之间特征关系的方法，同时也涉及采用该方法的装置，属于计算机视觉技术领域。

背景技术

近年来，抽象视觉推理作为人类智能的关键组成部分，在计算机视觉技术领域中得到了广泛的研究。目前，一个非常有效的人类视觉推理能力测试已经开发出来，被称为瑞文测试(Raven Progressive Matrices，简写为RPM)。瑞文测试直接位于人类智能中心，是对抽象和结构推理能力的判断，并且描述了高级智能的定义特征，即流体智能。为了突破当前视觉推理能力的极限，UCLA的朱松纯团队还基于瑞文测试构建了关系和类比视觉推理数据集RAVEN。

随着各种卷积神经网络(CNN)的出现，人们试图测量机器的横向思维和流体智能。卷积神经网络的最新进展显示了抽象视觉推理的优良性能。为了发展机器的抽象化视觉感知能力，有两个基础问题需要解决：一是图像的识别表示，二是图像内部规律的发现。尽管现有的关系网络(Relation Networks，简写为RN)建模方法已经显著提高了抽象视觉推理的性能，但是当前的关系网络建模仅关注于各种图像的外部交叉关系。由于缺乏内部关系建模，神经网络无法准确地提取图像特征表示。同时，基于关系网络的建模方法仅考虑了任意两个图像的简单线性关系，而忽略了高阶非线性关系。作为一种潜在的解决方案，图神经网络(GNN)的特点在于可以有效建模非欧几里得数据结构的关系。此外，神经网络在非线性关系建模方面的出色表现，也广泛应用于最近的计算机视觉任务。但是，由于缺少有效的关系建模，视觉推理过程产生了极大的性能损失。

上海科技大学的Shipeng Yan等人在论文《A dual attention network withsemantic embedding for few-shot learning(用于小样本学习的语义嵌入的双重注意力网络)(刊载于Proc.AAAI Conf.Artif.Intell.，vol.33，pp.9079–9086.2019年7月)中，提出了一种新的元学习方法，用于基于两个简单的注意力机制的少数照片分类：一个是空间注意力来定位相关的物体区域，另一个是任务注意力来选择类似的训练数据进行标签预测。该论文通过一个双重注意力网络实现上述方法，并设计了一个语义感知的元学习损失以端到端的方式训练元学习者网络。

发明内容

本发明所要解决的首要技术问题在于提供一种提取整合图像内部与图像之间特征关系的方法。

本发明所要解决的另一技术问题在于一种提取整合图像内部与图像之间特征关系的装置。

为了实现上述目的，本发明采用下述的技术方案：

根据本发明实施例提供的第一方面，提供一种提取整合图像内部与图像之间特征关系的方法，包括如下步骤：

使用内部关系网络表征图像内部的特征关系，使用交叉关系网络表征图像之间的特征关系；其中，将所述内部关系网络划分为空间关系模块和通道关系模块；

将图像序列分别输入所述空间关系模块、所述通道关系模块和所述交叉关系网络；在所述空间关系模块、所述通道关系模块和所述交叉关系网络中，所述图像序列依次经过压缩层、基于注意力的关系模块层和恢复层的处理之后，进入批量规范化层以加速卷积神经网络的收敛速度；

使用卷积融合函数，将所述空间关系模块、所述通道关系模块和所述交叉关系网络的输出融合在一起，作为输出结果。

其中较优地，所述空间关系模块中，将每个图像视为构建图形的节点，根据任意两个节点的视觉相似度构建图神经网络，完成行/列像素关系的建模。

其中较优地，所述通道关系模块中，将每个通道视为构建图形的节点。

其中较优地，将所有输入图像压缩为一个，然后使用嵌入了全局信息的特征图来学习节点的特征相似度；利用所述特征相似度，可以通过图神经网络更新节点。

其中较优地，所述压缩层由通道维数压缩函数实现。

其中较优地，所述恢复层由通道维数恢复函数实现。

其中较优地，所述基于注意力的关系模块层通过如下函数实现：

其中，w_i是一个可学习的参数，用于增强节点

的自权重，N_i是

的相邻节点，

作为边，作为

和

的连接关系，

是可学习的参数矩阵，用来降低计算复杂度与提高

的学习能力。

其中较优地，所述卷积融合函数是使用1*1的2D卷积的融合函数。

其中较优地，所述方法构建的内部和交叉关系网络模型嵌入到卷积神经网络中，用于完成视觉推理融合的部分。

根据本发明实施例提供的第二方面，提供一种提取整合图像内部与图像之间特征关系的，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行以下操作：

与现有技术相比较，本发明所提供的方法通过构建ICRN模型，使用内部关系网络来增强图像内部的像素级对象关系建模能力，以增强对图像中符号的认知能力；同时使用交叉关系网络建立不同图像之间的关系来寻找其中的规律，从而增强规则推理建模能力。该ICRN模型可以嵌入到常见的卷积神经网络中，以增强卷积神经网络在抽象视觉推理任务中的推理能力。

附图说明

图1为本发明提供的提取整合图像内部与图像之间特征关系的方法的逻辑框架图；

图2为本发明提供的提取整合图像内部与图像之间特征关系的方法的数据流向图；

图3为本发明提供的提取整合图像内部与图像之间特征关系的装置结构图；

图4为ICRN模型在RAVEN数据集的所有类别上，平均融合和卷积融合的效果比较图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

前已述及，卷积神经网络的最新进展显示了抽象视觉推理的优良性能。但是，由于缺少有效的关系建模，视觉推理有很大的性能损失。为了解决上述问题，本发明首先提供一种提取整合图像内部与图像之间特征关系的方法。该方法构建了一种内部和交叉关系网络(Intra and CrossRelation Network，简写为ICRN)模型，其中使用内部关系网络来增强图像内部的像素级对象关系建模能力，以增强对图像中符号的认知能力；同时使用交叉关系网络建立不同图像之间的关系来寻找其中的规律，从而增强规则推理建模能力。

下面结合图1所示的逻辑架构图，对该方法展开详细具体的说明。

在本发明的一个实施例中，我们考虑图像中的每一行/列/通道的关系，将图像作为节点，建立合适并且适应性广的图像内部关系。每个图像的内容和可选择的面板(Panels)作为节点来学习推理内部关系。

对于输入X(为了不失一般性，此处将X重写为X^l)，我们首先得到图的节点

其中d，K和l分别表示每个节点的维数，节点数和图神经网络的第l层。如图1和图2所示，图像序列穿过卷积神经网络的各个层并获得特征图。设X＝R^N*C*H*W，其中，N、C、H和W分别代表图像数量、通道数目与空间维度的长和宽。我们对非本地对象关系进行建模，并分别通过内部关系网络和交叉关系网络学习推理规则。

内部关系网络包括空间关系模块和通道关系模块。其中，空间关系模块用于根据任意两个节点的视觉相似度构建图神经网络，完成行/列像素关系的建模。通道关系模块与空间关系模块类似，将每个通道视为构建图形的节点。相应地，我们将X重写为面向空间关系模块的X^IS＝R^N*C*H*W和面向通道关系模块的X^IC＝R^N*C*H*W。

为了利用不同图像的全局信息并减少计算复杂度，我们将所有输入图像压缩为一个。然后，我们使用嵌入了全局信息的特征图来学习节点的特征相似度，这反映了节点之间的连接

使用这种特征相似度，我们可以通过图神经网络更新节点。

参见图2所示的数据流向图，空间关系模块有两种类型的输入，名为行与列。我们用X^IS来统一表示两种输入，相应的公式定义如下：

其中，

作为空间关系模块的输入，f^IS是维度压缩函数，同时压缩通道维度和G^IS的可学习参数矩阵，

作为f^IS的输出，之后我们使用G^IS是空间关系建模。Y^IS＝R^N*C*H*W表示空间关系模块的输出结果。需要注意的是，由于在空间关系中的建模考虑行关系与列关系的区别，Y^IS可以被细分为两部分

对于通道关系模块，我们重写X作为X^C＝R^N*C*H*W。Y^IC＝R^N*C*H*W表示通道关系模块的输出结果。相应的公式定义如下：

其中，X^IC∈R^N*C*HW和

分别是f^IC的输入和输出。可以将图像N的数量压缩为1，并且可以通过1*1卷积变换来实现。h^IC是相应的扩展函数，用于将图像数量恢复为N。

在人类进行抽象的视觉推理时，会在不同的输入图像之间考虑相关性和差异来探索规则。受人的性格启发，我们使用图神经网络建立这些输入图像之间的交叉关系网络。类似于内部关系网络，我们将每个图像视为构建图形的节点。

在交叉关系网络中，输入X^C∈R^N*C*H*W(为简单起见，我们将X重写为X^C并忽略了重塑操作)，我们首先将通道C压缩为1以降低计算复杂度并学习参数化边缘矩阵A^C。然后使用此矩阵更新图节点以建立不同图像的关系并恢复通道尺寸。相应的公式可以写为：

其中，f^C和h^C是通道维数压缩函数和通道维数恢复函数，用于减少计算量并增加网络深度以增强特征建模能力。

是通道压缩特征图，用于计算边缘矩阵A^C。G^C是交叉关系建模函数，可以使用公式

进行实现。

参见图1，相应的边缘矩阵A^IC可以通过下式计算：

需要说明的是，在图2所示的数据流向图中，f函数和h函数分别作为卷积神经网络的压缩层和恢复层，用于减少计算量并增加网络深度以增强特征建模能力。它们在卷积神经网络中的具体实现是本领域技术人员普遍掌握的常规技术手段，在此就不赘述了。

为了同时建模内部关系和交叉关系并获得最佳的抽象视觉推理性能，我们将内部关系网络和交叉关系网络融合在一起，形成图1所示的内部和交叉关系网络模型(简写为ICRN模型)。其中，Y是内部关系网络和交叉关系网络的输出的融合。

通常，我们可以使用平均值函数来加权内部关系和交叉关系。但是，简单的平均函数无法反映全局推理和局部推理之间的相互影响，因此我们使用卷积融合函数θ自适应地融合这些不同的推理子模块。特别是，我们沿着通道维度将内部关系特征和交叉关系特征串联在一起。因此，相应的计算公式如下：

其中，Y是空间关系模块、通道关系模块和交叉关系网络的输出的融合结果，也是本发明所述方法的输出结果；[]表示拼接函数，θ是使用1*1的2D卷积的融合函数，

和

是空间建模的行部分与列部分。Y^IS、Y^IC和Y^C分别是空间关系模块、通道关系模块和交叉关系网络的输出，其中Y^C＝R^N*C*H*W。

如图2所示，在每一个空间关系模块、通道关系模块和交叉关系网络的计算过程中，都需要经过基于注意力的关系模块层(Attention based Relation Module，简写为ARM)层的数据处理。其中，基于注意力的关系模块层用于建立不同输入图像，图像中的不同区域以及同一图像的不同通道之间的关系，具体实现过程如下：

其中w_i是一个可学习的参数，用于增强节点

的自权重，N_i是

的相邻节点，

作为边，作为

和

的连接关系，

是可学习的参数矩阵，它可以用来降低计算复杂度与提高

的学习能力。G^IC是通道关系建模函数，可以使用公式

实现。

实际上，对于我们的问题，节点

附近的节点数是固定的(我们假定固定值为K-1)。因此，我们可以将上述公式重写为矩阵公式，并定义基于注意力的关系建模函数G，如下所示：

其中,A＝{a_ij|i，j∈{1，2，……，K}j}，

W＝{w_i∈R|i∈{1，2，3，……，K}}和

是两个可学习参数矩阵，只含有1和0两个值作为矩阵元素。

需要说明的是，本发明的一个实施例中，在获得空间关系模块、通道关系模块和交叉关系网络的输出Y^IS、Y^IC和Y^C之前，它们还分别经过ReLu(线性整流)函数和Sigmoid函数的处理，同时增加了批量规范化(BN)层来加速卷积神经网络的收敛速度。这是本领域普通技术人员普遍掌握的常规技术手段，在此就不具体说明了。

在上述提取整合图像内部与图像之间特征关系的方法的基础上，本发明进一步提供一种提取整合图像内部与图像之间特征关系的装置。如图3所示，该装置包括处理器32和存储器31，还可以根据实际需要进一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口。其中，存储器、通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口均与该处理器32连接。其中，存储器31可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等，处理器可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。其它通信组件、传感器组件、电源组件、多媒体组件等均可以采用现有电子设备中的通用部件实现，在此就不具体说明了。

另一方面，在上述装置中，所述处理器32读取所述存储器31中的计算机程序，用于执行以下操作：。

需要说明的是，本发明所提供的提取整合图像内部与图像之间特征关系的方法和装置，可以嵌入到常见的卷积神经网络中以增强抽象视觉推理任务中的推理能力。其中，将所得到的输出结果Y插入原卷积神经网络的其余部分，以完成抽象的视觉推理融合的部分。

下面，通过具体的实验数据证明本发明所实现的优越性能。

我们在三个流行的公共数据集Raven、I-RAVEN和PGM上评估本发明的技术方案。

RAVEN：关系和类比视觉评估(Raven)是Raven主要的渐进式矩阵(RPM)数据集之一。它由1，120，000张图像和70，000RPM问题组成，属于7种不同的图形配置。我们还将数据集分为三部分，并将训练，验证和测试划分设置为6：2：2，对于我们的实验，我们使用RAVEN-10000，每个图形配置有10，000个问题。

I-RAVEN：数据集修复了RAVEN中8个多项选择题面板中的偏差问题。换句话说，原RAVEN存在无需考虑上下文图像，只需浏览答案集即可找到正确的答案的问题。I-RAVEN数据集使用树结构设计生成过程，改正了RAVEN中存在的问题。训练，验证和测试拆分与原始RAVEN数据集相同。

PGM程序生成的矩阵数据集(PGM)是瑞文测试的另一个非常重要的数据集。整个数据集包括多个训练类别数据，我们仅使用neutral类别，其中包含142万个样本，包括120万个训练集问题，20，000个验证集问题和200，000个测试集问题。

我们首先介绍与Raven数据集上的最新方法的性能比较。表1为RAVEN数据集上的抽象视觉推理性能比较表。其中，Acc表示测试准确度的平均准确度，其他列表示每个类别的相应测试准确度。2_2G、3_3G、L-R、U-D、O-IC和O-IG分别代表2_2网格、3_3网格、Left-Right、Up-Down、Out-In Center、和Out-In Grid。

表1

如表1所示，可以看到我们提出的ICRN模型与常规LSTM方法，基于卷积神经网络的方法(例如ResNet18)，对比学习方法CoPINet等相比，获得了改进的推理准确性。与经典关系建模方法WReN相比，我们提出的ICRN模型在抽象视觉推理的性能上有了显著提高。

此外，如表1中的详细比较所示，我们提出的ICRN模型除“Left-Right”，“Up-Down”和“Out-In Center”类别外，每个类别的平均准确性提高了近2％，平均准确性提高了2.64％。其对原始模型的准确性很高。对于“2_2网格”和“3_3网格”，我们的ICRN-CoPINet(即ICRN嵌入CoPINet中)模型与原始CoPINet相比分别显著提高了3.00％和3.55％。同时，结果表明关系建模对于“2_2网格”和“3_3网格”更有效。

嵌入我们提出的ICRN模型的LSTM和ResNet18可以大大提高推理性能。特别是，对于“Left-Right”和“Out-In Center”，ICRN-ResNet18与原始模型相比已实现了4.61％和3.32％的性能提升。这进一步证明了我们提出的ICRN模型在平衡RAVEN数据集上的有效性。

表2

表2为PGM数据集上的抽象视觉推理性能比较表。如表2所示，与其他最新方法相比，我们提出的ICRN-CoPINet模型在PGM数据集上获得了明显的性能改进。具体而言，与基本神经网络模型(例如CNN+MLP，LSTM，ResNet50和Wild-ResNet)相比，我们提出的ICRN-CoPINet模型可以取得显著改善。此外，从表2可以看出，与CoPINet模型相比，嵌入我们的SCRN模型可以实现最佳的抽象视觉推理性能。

表3

此外，我们也在I-RAVEN数据集上评估了我们提出的ICRN模型，如表3所示。表3为I-RAVEN数据集上的抽象视觉推理性能比较表，其中Acc表示测试准确度的平均准确度，其他列表示每个类别的相应测试准确度。

为了进一步证明我们提出的ICRN模型的有效性，我们将该ICRN模型嵌入到基本神经网络模型(例如CNN+MLP，LSTM，ResNet50和Wild-ResNet)中。结合表1至表3可以看出，无论是对于LSTM模型还是WReN模型，嵌入我们提出的ICRN模型均可以显著提高性能。此外，借助内部关系建模能力，我们提出的ICRN模型可以为已经具有一定关系建模能力的LSTM模型实现更大的性能改进。

如图4所示，与平均融合(AvgFusion)相比，ICRN模型的卷积融合(ConvFusion)可以在RAVEN数据集的所有类别上实现更好的性能。“Center”，“Left-Right”，“Up-Down”，“Out-In Center”和“Out-In Grid”可以通过卷积融合显著提高性能，而“2_2网格”和“3_3网格”获得的改进相对较小。值得注意的是，与平均融合相比，卷积融合可以实现8.08％的平均准确度提升。总之，由于自适应特征图融合能力，卷积融合可以显著提高。因此，我们采用卷积融合作为优选的融合方法。

上面对本发明所提供的提取整合图像内部与图像之间特征关系的方法和装置进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。