CN111709275B

CN111709275B - 一种用于Affordance推理的深度网络构建方法

Info

Publication number: CN111709275B
Application number: CN202010350248.6A
Authority: CN
Inventors: 王立春; 信建佳; 王少帆; 李敬华; 孔德慧; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2024-02-06
Anticipated expiration: 2040-04-28
Also published as: CN111709275A

Abstract

公开一种用于Affordance推理的深度网络构建方法，其能够描述物体间影响的不对称性，考虑不同邻居节点的差异性影响的问题，更好地刻画场景上下文中物体之间的关系。该方法包括两个部分：视觉特征提取部分和Affordance推理部分；Affordance推理部分采用门控图注意力网络(Gated Graph Attention Neural Network,GGANN)，以图结构作为上下文的载体，基于对象级别的上下文信息构建双向图，对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示，图节点之间建立双向边，并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。

Description

一种用于Affordance推理的深度网络构建方法

技术领域

本发明涉及计算机视觉和模式识别的技术领域，尤其涉及一种用于Affordance推理的深度网络构建方法。

背景技术

Affordance描述在具体环境中允许代理(agent)与该环境中的物体进行的交互，或交互过程中体现出的物体在该环境中具有的功能。交互动作的发出者称为主体，动作的承接者称为客体，通常代理是主体，环境中的物体是客体。具体的Affordance推理包括两个角度：主体的角度，即代理的角度推理该环境允许代理进行哪些动作交互；客体的角度，即环境中物体的角度推理物体在该环境中能够完成哪些任务。

从代理的角度研究具体的Affordance需要考虑场景上下文。例如考虑椅子的Affordance“是否允许坐”，即代理是否可以坐在环境中的某个椅子上？如果该椅子已经有人坐在上面或者椅子上放有物体(例如背包)时，则不能坐在该椅子上，即代理是否被允许与场景中的物体—椅子交互需要考虑场景中其他物体(例如人、背包等)与椅子的关系。其他物体与当前待交互物体的关系对当前的交互影响不同：当背包A放在椅子上时，因为椅子被背包A占用，所以背包A与椅子的关系对当前交互有影响，导致该椅子不能被坐；当背包B放在椅子旁边时，因为椅子没有被背包B占用，背包B与椅子的关系对当前交互没有影响，该椅子是否能被坐需要进一步考虑其他因素。

从客体的角度研究Affordance时，同样需要考虑场景上下文。例如从场景中选择一个杯子盛酒，而这个场景中恰好只有茶杯而没有酒杯。由于当前场景中没有最恰当的可以完成任务的物体—酒杯，那么就需要考虑场景中功能与酒杯类似的其他物体，茶杯的功能是盛茶水，这与酒杯盛酒的功能最相似，所以可以选择用茶杯来盛酒。

此外，上下文中一对物体间的相互影响是不对称的，例如第一个例子中“背包A放在椅子上”的背包和椅子，背包A对椅子的影响和椅子对背包A的影响是不同的。椅子不能被坐的原因是背包A在椅子上，所以背包A对椅子的Affordance“是否允许坐”有影响；但同一场景下椅子对背包A的Affordance“是否允许提”没有影响。

目前基于计算机视觉研究Affordance推理的方法通常使用深度网络对环境中的物体提取视觉特征，然后通过门控图网络(Gated Graph Neural Network，GGNN)模型对环境内物体进行空间上下文建模。具体地，利用图节点表示环境中的物体，利用节点之间的边表示物体之间的关系。

已有的基于门控图网络进行Affordance推理的研究工作对于空间上下文中物体之间的相互影响考虑不足，表现为使用单向边连接图节点，没有考虑到物体间影响的不对称性；邻居节点信息聚合的过程中平等对待各邻居节点，没有考虑不同邻居节点的差异性影响。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种用于Affordance推理的深度网络构建方法，其能够描述物体间影响的不对称性，考虑不同邻居节点的差异性影响的问题，更好地刻画场景上下文中物体之间的关系。

本发明的技术方案是：这种用于Affordance推理的深度网络构建方法，包括两个部分：视觉特征提取部分和Affordance推理部分；Affordance推理部分采用门控图注意力网络结构，以图结构作为上下文的载体，基于对象级别的上下文信息构建双向图，对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示，图节点之间建立双向边，并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。

本发明的Affordance推理部分采用门控图注意力网络结构，环境上下文建模采用双向图，其中的双向边用于描述物体之间的不对称影响，引入图注意力机制更新图中边的权值以描述不同邻居节点间的差异性影响，因此能够描述物体间影响的不对称性，考虑不同邻居节点的差异性影响的问题，更好地刻画场景上下文中物体之间的关系。

附图说明

图1是根据本发明的用于Affordance推理的深度网络构建方法的一个具体实施例的流程图。

图2是根据本发明的用于Affordance推理的深度网络构建方法视觉特征提取部分用到的卷积核示意图。

图3是根据本发明的用于Affordance推理的深度网络构建方法的图注意力系数计算示意图。

具体实施方式

本发明提出的用于Affordance推理的深度网络构建方法建立在以下理论基础之上：代理在具体环境中执行某项动作或者使用该环境下的物体去完成某项任务时，需要考虑物体的状态以及环境中各物体之间的影响，这些信息被称作上下文信息。

这种用于Affordance推理的深度网络构建方法包括两个部分：视觉特征提取部分和Affordance推理部分；Affordance推理部分采用门控图注意力网络结构，以图结构作为上下文的载体，基于对象级别的上下文信息构建双向图，对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示，图节点之间建立双向边，并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。

更进一步地，基于图注意力机制更新边的权值使得节点有偏重地获取邻居节点的信息。

已有的对环境中的物体提取视觉特征的深度网络通常采用标准卷积核，计算量和参数量过大，影响推理效率。优选地，视觉特征提取部分采用HetConv-ResNet结构，其中卷积计算使用异构卷积核，以解决网络计算量和参数量大的问题。针对传统模型计算量和参数量大的问题，本发明在提取视觉特征的深度网络模块采用异构卷积核以减少计算量和参数量，在保证Affordance推理准确率的前提下，减小模型对于计算能力和存储空间的需求。

优选地，Affordance推理部分为GGANN，在COCO-Tasks和ADE-Affordance数据集上对深度网络进行训练和测试。

COCO-Tasks数据集标注了物体允许的交互(物体的功能，例如舒服地乘坐)，可用于测试从物体角度推理Affordance的任务。COCO-Tasks数据集基于COCO数据集定义了14个常见的任务，包含40000张标注的图像，其中30229张图像用于训练，9495张图像用于测试。

ADE-Affordance数据集标注了代理与环境交互的可行性(物体的功能是否被允许使用，例如“坐”这个动作在该环境下能否能够执行)，可用于测试从代理角度推理Affordance的任务。ADE-Affordance数据集是在ADE20k数据集(包括候机室、银行大厅、卧室等场景)的基础上标注物体相关的交互“坐”、“跑”、“抓握”三个动作能否被执行，具体标注是“被允许的”、“被禁止的”、“异常的”。数据集中8000张图像用于训练，1000张图像用于测试。

本发明具体技术细节如下：

1.LAR-Net

依据本发明提出的深度网络构建方法实现了一种轻量化Affordance网络：LAR-Net(Lightweight Affordance Reasoning Network,LAR-Net)，其整体框架如图1所示。对于给定的一张图像，LAR-Net推理Affordance需要经过三个步骤：物体特征提取，上下文特征聚合和Affordance分类。

具体步骤如下：给定一张包含Q个物体的图像，通过异构残差网络(HeterogeneousConvolution Residual Network，HetConv-ResNet)对图像中标注的Q个包围框分别提取各个物体的视觉特征；将针对第i个物体提取的视觉特征φ(o_i)和该物体所属类别进行特征融合作为门控图注意力网络(Gated Graph Attention Neural Network，GGANN)节点i的初始向量表示/>其中i∈S，其中S表示图节点的集合；GGANN用双向图对全局上下文信息进行建模，通过图注意力机制学习边的权重α_ij，其中i∈S,j∈S；经过T轮迭代获得节点i的向量表示/>最后将/>和/>进行连接后输入两个连续的全连接层，预测第i个物体的Affordance。

下面对本发明中具体的技术创新点进行介绍。

1.1 HetConv-ResNet提取物体特征

为减少特征提取阶段的计算量和该阶段模型的参数量，利用异构卷积核代替残差网络(ResNet)中3×3大小的标准卷积核。图2(a)表示N个标准卷积核，每个卷积层接受M个特征图作为输入，共输出N个特征图，其中每个卷积模板的大小为K×K。假设输入和输出的每个特征图的大小分别为D_in×D_in和D_out×D_out，则每个卷积层计算的次数为：

D_out×D_out×M×N×K×K。图2(b)表示N个异构卷积核。设P表示异构卷积核的参数，则每个异构卷积核有个卷积模板的大小保持K×K，剩余的/>个卷积模板的大小为1×1，则使用异构卷积核时每个卷积层的计算量为：

所以异构卷积核的计算量相当于标准卷积核计算量的模型压缩的程度受参数P的控制。

1.2 GGANN聚合上下文特征

GGANN中，节点i和节点j之间有两条边连接，注意力系数α_ij是节点j到节点i的边的权值，表示节点j对节点i的影响；注意力系数α_ji是节点i到节点j的边的权值，表示节点i对节点j的影响。

GGANN中图节点的初始向量表示如式(1)：

其中表示物体i的类别信息，通过独热编码的形式表示；φ(o_i)表示HetConv-ResNet提取的物体i的特征；W_c和W_φ分别表示不同的系数矩阵，是模型端到端学习的参数；⊙表示逐元素相乘，g(·)表示ReLU激活函数。

当GGANN进行迭代时，每一轮迭代中节点的更新需要依赖该节点的邻居节点，对邻居节点信息进行聚合的计算如式(2)：

其中表示通过邻居节点计算得到的聚合信息；α_ij表示节点i的邻居节点j对节点i的注意力系数；/>是节点j在第(t-1)次迭代后的向量表示；b_p表示网络偏置；N_i表示节点i的邻居节点集合；图注意力系数α_ij的计算如式(3)：

其中，“‖”表示将两个向量连接成一个向量的操作；W_a和W_F是模型端到端学习的参数；与/>分别是节点i和节点j在第(t-1)次迭代后的向量表示；LeakyReLU是激活函数；分母的目的是对α_ij归一化。图注意力系数α_ij的计算过程如图3所示。

获得节点i的聚合信息后，每个图节点通过GRU门控机

制进行传播，传播过程的计算如式(4)：

其中W_z,W_r,W_h,U_z,U_r,U_h,b_z,b_r,b_h为模型端到端学习的参数；⊙表示逐元素相乘；σ(·)为sigmoid激活函数；是节点i在第(t-1)次迭代后的向量表示。

经过T步迭代后获得节点i的向量表示

1.3全连接层分类

将与节点的初始状态向量表示/>进行串联，并通过两层全连接层W_out计算输出向量/>如式(5)：

其中，“‖”表示将两个向量连接成一个向量的操作；g(·)表示ReLU激活函数；W_out是模型端到端学习的参数。

通过softmax计算节点i的Affordance如式(6)：

如果是在测试阶段基于式(6)计算得到那么/>即是节点i描述的物体的Affordance。

如果是在训练阶段基于式(6)计算得到那么基于/>和训练数据标注的groundtruth计算网络的交叉熵loss，并反向传播交叉熵loss对模型参数进行更新。

本发明在COCO-Tasks和ADE-Affordance数据集上对提出的轻量化Affordance推理网络LAR-Net进行测试。

表1给出了LAR-Net在COCO-Tasks数据集上与其他方法关于14个不同Affordance推理任务准确性的比较。AR-Net是不进行轻量化时的模型设置，效果最好。进行了模型轻量化后的LAR-Net，效果次之，达到了轻量化的效果并且比其他方法效果好。表2给出了LAR-Net、GGNN和与GGNN(HetConv)在COCO-Tasks数据集上参数量和计算量的比较，LAR-Net的计算量和参数量明显低于采用标准卷积核提取视觉特征来建立上下文的GGNN，与

GGNN(HetConv)的计算量和参数量相当。

表3给出了LAR-Net在ADE-Affordance数据集上与其他方法关于推理三个动作Affordance合理性的比较，LAR-Net在取得更好效果的同时计算量和参数量更少。表4给出了LAR-Net、Spatial-GGNN和与Spatial-GGNN(HetConv)在ADE-Affordance数据集上参数量和计算量比较，LAR-Net的计算量和参数量明显低于Spatial-GGNN，与Spatial-GGNN(HetConv)的计算量和参数量相当。

表5给出了在COCO-Tasks数据集上设置不同异构卷积核参数P值时，LAR-Net的准确率以及计算量和参数量的变化情况。随着参数P的增大，可以获得更轻量化的模型，但准确率也会随之降低。

表1

表2

模型	计算量	参数量	计算量减少(％)	参数量减少(％)
					GGNN	7.582G	45.002M	-	-
GGNN(HetConv)	5.427G	31.365M	30.9	30.3
					LAR-Net	5.427G	31.365M	30.9	30.3

表3

表4

方法	计算量	参数量	计算量减少(％)	参数量减少(％)
					Spatial-GGNN	4.133G	26.634M	-	-
Spatial-GGNN(HetConv)	2.951G	19.403M	28.6	27.2
					LAR-Net	2.951G	19.403M	28.6	27.2

表5

方法	平均准确率(％)	计算量	参数量	计算量减少(％)	参数量减少(％)
						GGNN	0.771	7.852G	45.002M	-	-
LAR-Net(P＝4)	0.772	5.427G	31.365M	30.9	30.3
						LAR-Net(P＝8)	0.766	4.950G	28.697M	37.5	36.2
LAR-Net(P＝16)	0.764	4.712G	27.363M	40.5	39.2
						LAR-Net(P＝32)	0.762	4.593G	26.696M	42.0	40.7

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种用于Affordance推理的深度网络构建方法，其特征在于：该方法包括两个部分：视觉特征提取部分和Affordance推理部分；

Affordance推理部分采用门控图注意力网络结构，以图结构作为上下文的载体，基于对象级别的上下文信息构建双向图，对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示，图节点之间建立双向边，并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响；

节点i和节点j之间有两条边连接，注意力系数α_ij是节点j到节点i的边的权值，表示节点j对节点i的影响；注意力系数α_ji是节点i到节点j的边的权值，表示节点i对节点j的影响；

GGANN中图节点的初始向量表示为公式(1)：

其中表示物体i的类别信息，通过独热编码的形式表示；φ(o_i)表示HetConv-ResNet提取的物体i的特征；W_c和W_φ分别表示不同的系数矩阵，是模型端到端学习的参数；⊙表示逐元素相乘，g(·)表示ReLU激活函数；

当GGANN进行迭代时，每一轮迭代中节点的更新需要依赖该节点的邻居节点，对邻居节点信息进行聚合的计算为公式(2)：

其中表示通过邻居节点计算得到的聚合信息；α_ij表示节点i的邻居节点j对节点i的注意力系数；/>是节点j在第(t-1)次迭代后的向量表示；b_p表示网络偏置；N_i表示节点i的邻居节点集合；图注意力系数α_ij的计算为公式(3)：

其中，“‖”表示将两个向量连接成一个向量的操作；W_a和W_F是模型端到端学习的参数；与/>分别是节点i和节点j在第(t-1)次迭代后的向量表示；LeakyReLU是激活函数；分母的目的是对α_ij归一化；

获得节点i的聚合信息后，每个图节点通过GRU门控机制进行传播，传播过程的计算为公式(4)：

其中W_z,W_r,W_h,U_z,U_r,U_h,b_z,b_r,b_h为模型端到端学习的参数；⊙表示逐元素相乘；σ(·)为sigmoid激活函数；是节点i在第(t-1)次迭代后的向量表示；

经过T步迭代后获得节点i的向量表示

将与节点的初始状态向量表示/>进行串联，并通过两层全连接层W_out计算输出向量为公式(5)：

其中，“‖”表示将两个向量连接成一个向量的操作；g(·)表示ReLU激活函数；W_out是模型端到端学习的参数；

通过softmax计算节点i的为公式(6)：

如果是在测试阶段基于公式(6)得到那么/>是节点i描述的物体的Affordance；

如果是在训练阶段基于公式(6)得到基于/>和训练数据标注的groundtruth计算网络的交叉熵loss，并反向传播交叉熵loss对模型参数进行更新。

2.根据权利要求1所述的用于Affordance推理的深度网络构建方法，其特征在于：节点间通过双向边连接，且基于图注意力机制更新边的权值使得节点能够有偏重地获取邻居节点的信息。

3.根据权利要求2所述的用于Affordance推理的深度网络构建方法，其特征在于：视觉特征提取部分采用异构残差网络结构HetConv-ResNet，其中使用异构卷积核，以解决网络计算量和参数量大的问题。

4.根据权利要求3所述的用于Affordance推理的深度网络构建方法，其特征在于：在COCO-Tasks和ADE-Affordance数据集上对深度网络进行训练和测试。

5.根据权利要求4所述的用于Affordance推理的深度网络构建方法，其特征在于：对于给定一张包含Q个物体的图像，该构建方法包括以下步骤：

(1)物体特征提取,通过HetConv-ResNet对图像中标注的Q个包围框分别提取各个物体的视觉特征；

(2)上下文特征聚合,将针对第i个物体提取的视觉特征φ(o_i)和该物体所属类别进行特征融合作为门控图注意力网络GGANN节点i的初始向量表示/>i∈S，其中S表示图节点的集合；

GGANN用双向图对全局上下文信息进行建模，通过图注意力机制学习边的权重α_ij，其中i∈S,j∈S；经过T轮迭代获得节点i的向量表示

(3)Affordance分类，将和/>进行连接后输入两个连续的全连接层，预测第i个物体的Affordance。

6.根据权利要求5所述的用于Affordance推理的深度网络构建方法，其特征在于：所述步骤(1)中，利用异构卷积核代替残差网络中标准的3×3大小的卷积核，每个卷积层接受M个特征图作为输入，共输出N个特征图，其中每个卷积模板的大小为K×K；输入和输出的每个特征图的大小分别为D_in×D_in和D_out×D_out，则每个卷积层计算的次数为：D_out×D_out×M×N×K×K；设P表示异构卷积核的参数，则每个异构卷积核有个卷积模板的大小保持K×K，剩余的/>个卷积模板的大小为1×1，则使用异构卷积核时每个卷积层的计算量为：

异构卷积核的计算量相当于标准卷积核计算量的模型压缩的程度受参数P的控制。