CN108388923A

CN108388923A - 一种基于对象检测器和递归神经网络的统一图解析网络

Info

Publication number: CN108388923A
Application number: CN201810189768.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2018-08-10

Abstract

本发明中提出的一种基于对象检测器和递归神经网络的统一图解析网络，其主要内容包括：解析图的组成、动态图生成网络、多任务训练、级联推理，其过程为，先利用一个对象检测器检测图像中的对象，接着通过图推断预测顶点之间边的存在，并使用一个动态图生成网络在线构造二向图，并从相邻的边聚合信息，然后通过端到端的方式对网络进行训练，最后处理生成的关系信息，以进一步生成知识句。本发明解决了以往输入到输出路径过长导致错误累积、图表中的语境丢失等问题，同时能够充分处理图像中的信息，优化完成后，还可以用于解决问题回答等基于语言的问题。

Description

一种基于对象检测器和递归神经网络的统一图解析网络

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于对象检测器和递归神经网络的统一图解析网络。

背景技术

在十年之内，在经典视觉问题上的表现，如图像分类、对象检测和分割，由于使用了深度学习框架得到很大程度的进步。鉴于深度学习对于这种低级视觉问题的巨大成功，下一步可能是理解图像，生成语义，比如对象之间的关系等。图像理解可以用于电视电话、电视会议等需要传输图像的应用中，在基于理解基础上的压缩可以大大减少需传输的图像数据。对航空遥感和卫星遥感图片的分析和理解，可用于对地质、矿产、森林、水利、海洋、农业等资源的调查和研究，进行自然灾害的预测和预报、环境的污染监测、气象分析，以及军事目标的识别。利用图像理解可以自动识别信件、包裹等的邮编、地址等信息，从而进行自动分检和归类。然而目前对于图像理解及语义生成的方法有几个限制：第一，将分离的方法连接起来导致从输入到输出要经过一个长的传输管道，这可能导致累积的错误，并丢失图表中的语境；第二，更重要的是，一般的循环神经网络(RNN)不能完全处理图形结构的信息。

本发明提出了一种基于对象检测器和递归神经网络的统一图解析网络，首先利用一个对象检测器检测图像中的对象，接着通过图推断预测顶点之间边的存在，并使用一个动态图生成网络在线构造二向图，并从相邻的边聚合信息，然后通过端到端的方式对网络进行训练，最后处理生成的关系信息，以进一步生成知识句。本发明解决了以往输入到输出路径过长导致错误累积、图表中的语境丢失等问题，同时能够充分处理图像中的信息，优化完成后，还可以用于解决问题回答等基于语言的问题。

发明内容

针对现有的技术在图像理解上容易出错或丢失语境而且不能完全处理图像信息的问题，本发明提出了一种基于对象检测器和递归神经网络的统一图解析网络，首先利用一个对象检测器检测图像中的对象，接着通过图推断预测顶点之间边的存在，并使用一个动态图生成网络在线构造二向图，并从相邻的边聚合信息，然后通过端到端的方式对网络进行训练，最后处理生成的关系信息，以进一步生成知识句。

为解决上述问题，本发明提供一种基于对象检测器和递归神经网络的统一图解析网络，其主要内容包括：

(一)解析图的组成；

(二)动态图生成网络；

(三)多任务训练；

(四)级联推理。

其中，所述的所述的解析图的组成，是使用大对象(独立物体)、文本、箭头和箭尾来定义物体。

其中，所述的动态图生成网络，通过图推断来预测一对顶点之间的边的存在，从而对图中对象的关系匹配进行了预测，图的节点和边分别与对象和对象之间的关系相对应，因此，关系图用一个双向图来描述：

G＝(V，E) (1)

其中V＝X∪Y表示成对互斥的顶点集合和而E表示的是图上连接x∈χ和的边；然后使用以门控循环单元(GRU)作为基础模型的动态图生成网络(DGGN)方法从相邻的边聚合消息，同时为了传递相邻边的信息，DGGN采用一个可以在线构建图形结构的动态规划方案。

进一步地，所述的双向图，其构造过程为复制被检测到的对象O为O_x和并假设这两个集合是不相交的，然后预测在节点O_x和之间是否存在边，其中节点之间的连接由它们的空间关系和对象检测器提供的每个对象类的置信度评分决定；没有使用来自ROI池的卷积特性，而是为对象O_x定义一个特性其中包括位置(xmin、ymin、xmax、ymax)、中心点(x中心值、y中心值)、宽度、高度和置信度评分，因此，物体O_x和之间的关系可以用局部特性描述，而特征向量f^(l)作为一个RNN层的输入，同时为了防止序列中局部特性的顺序影响性能，每次迭代之前随机地调整特性的顺序；此外，为了提取图的布局和所有对象的空间信息，一个全局特性f^(g)被用作RNN的输入，其中全局特性是由第一个分支中主干神经网络的conv-7层(256×1×1)的卷积特性和一个图的二进制掩码特性(128×1)所构成的，且为了匹配conv-7和隐藏单元的维度，在最后一步中使用了一个全连接层，而对于掩码特性，将的维度二进制掩码映射传输到一个4层的卷积网并且最大池化以匹配隐藏单元的维度，其中n_h和n_w分别代表图像的高度和宽度，n_c则代表物体种类的数目。

进一步地，所述的DGGN方法，结合了图论中的邻接矩阵，它主要用于通过图形的已知结构来传播信息，然而，由于邻接矩阵是未知的，因此引入一个动态内存组件来估计这个邻接矩阵，它包含节点之间的连接信息，并且将二维的邻接矩阵扩展到三维存储器；动态邻接张量内存(DATM)定义为邻接矩阵的连接和对应的隐藏单元H，其中邻接矩阵A表示在有向图中n个节点之间的连接状态，邻接矩阵中的每个单元只表示对应的节点对是否有一个指向的弧，隐藏单元H的元素h(i，j)是GRU的m维隐藏向量，它与节点O_i和O_j之间的连接有关；最后，执行张量D的检索和更新步骤，以聚集来自邻边的信息，同时构建图形。

进一步地，所述的张量D的检索步骤，过程为获取以前的隐藏状态它收集着通过相邻边传播的信息，同时用两节点之间存在边的概率来加权O_i和O_j的邻接向量，形式上，为输入矢量提取一个合适的隐藏单元表示与节点i和j的连接，如下所述：

其中，a_k，i表示矩阵A的(i，j)元素，是储存在张量H的(i，j)位置的隐藏单元，概率a_i，j作为聚集消息的权重，意味着更可靠的相邻边应该给出更可信的信息；最后在传输到GRU层之前，添加全局特性f^(g)来反映图表的全局形状。

进一步地，所述的张量D的更新步骤，其过程为使用一个m+1长度的向量来更新单元D_ij，它将输出a_t和GRU单元的隐藏状态h_t连接起来：

a_t＝σ(W_lh_t+b_t) (7)

D_i，j＝[a_t，h_t] (8)

其中σ(·)是一个s形函数，为了获得隐藏状态向量和分别被用作标准GRU的前隐状态和输入向量，更新门z_t在GRU单元中有一个作用是调整之前的信息的输入，二进制输出a_t在全连接层后获得。

其中，所述的多任务训练，其过程是统一图解析网络(UDPnet)是通过端到端方式进行训练的，因为UDPnet由两个分支组成(基于单次检测器的对象检测和DGGN的图形生成)，本质上，这是一个多任务学习问题，因此，每个分支的不同损失被合并到总体损失L中，如下所列：

L＝αL_c+βL_l+γL_r (9)

总体损失是分类损失L_c，对象检测分支的位置回归损失L_l，以及图生成网络的关系分类损失L_r的加权和；正如在原始的单次检测器(SSD)中定义的那样，分类损失L_c是对多个类的信任度的损失函数，而位置回归损失L_l则是预测框和参考框之间的平滑的L1损失，关联分类损失L_r是两个相邻或不相邻的类之间的损失函数；为了更快的收敛，首先预先训练对象检测分支，然后用整体损失对这两个分支进行微调。

进一步地，所述的训练对象检测分支，其特征在于，制定了一套策略来匹配候选项对和参考标签，首先，假设对象检测分支检测到n个对象，那么就生成n²对关系候选项，对于每个关系候选来说，两个集合的交集是均等的，每个集合都在一个被检测到的对象和最近的参考标签之间计算过；然后每一个参考关系都与最好的重叠关系候选相匹配，考虑到不同图中检测到的对象数量的不平衡，从每个训练图中抽取相同数量的关系候选对象。

其中，所述的级联推理，其过程是首先检测到图表中的对象，然后应用交并比(IoU)阈值为0.45的非最大抑制(NMS)在分数高于0.01的候选项集合上，与训练不同的是，使用被检测到的所有候选项集合来为下一个分支生成候选配对，接着将图形生成分支应用于所有关系候选对象，以推断彼此之间的关系；最后，可以得到一个由相邻的置信度评分高于0.1的节点组成的图；在图推断之后，可以处理生成的关系信息，以进一步生成知识句，这可以作为问题回答模型的输入。

附图说明

图1是本发明一种基于对象检测器和递归神经网络的统一图解析网络的系统流程图。

图2是本发明一种基于对象检测器和递归神经网络的统一图解析网络的DGGN和一般GRU的对比图。

图3是本发明一种基于对象检测器和递归神经网络的统一图解析网络的DGGN的检索和更新。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于对象检测器和递归神经网络的统一图解析网络的系统流程图。主要包括解析图的组成，动态图生成网络，多任务训练，级联推理。

解析图的组成时使用大对象(独立物体)、文本、箭头和箭尾来定义物体。

多任务训练的过程具体地说是统一图解析网络(UDPnet)是通过端到端方式进行训练，因为UDPnet由两个分支组成(基于单次检测器的对象检测和DGGN的图形生成)，本质上，这是一个多任务学习问题，因此，每个分支的不同损失被合并到总体损失L中，如下所列：

L＝αL_c+βL_l+γL_r (1)

训练对象检测分支时制定了一套策略来匹配候选项对和参考标签，首先，假设对象检测分支检测到n个对象，那么就生成n²对关系候选项，对于每个关系候选来说，两个集合的交集是均等的，每个集合都在一个被检测到的对象和最近的参考标签之间计算过；然后每一个参考关系都与最好的重叠关系候选相匹配，考虑到不同图中检测到的对象数量的不平衡，从每个训练图中抽取相同数量的关系候选对象。

级联推理首先检测到图表中的对象，然后应用交并比(IoU)阈值为0.45的非最大抑制(NMS)在分数高于0.01的候选项集合上，与训练不同的是，使用被检测到的所有候选项集合来为下一个分支生成候选配对，接着将图形生成分支应用于所有关系候选对象，以推断彼此之间的关系；最后，可以得到一个由相邻的置信度评分高于0.1的节点组成的图；在图推断之后，可以处理生成的关系信息，以进一步生成知识句，这可以作为问题回答模型的输入。

动态图生成网络DGGN通过图推断来预测一对顶点之间的边的存在，从而对图中对象的关系匹配进行了预测，图的节点和边分别与对象和对象之间的关系相对应，因此，关系图用一个双向图来描述：

G＝(V，E) (2)

其中V＝X∪Y表示成对互斥的顶点集合和而E表示的是图上连接x∈x和的边；然后使用以门控循环单元(GRU)作为基础模型的动态图生成网络(DGGN)方法从相邻的边聚合消息，同时为了传递相邻边的信息，DGGN采用一个可以在线构建图形结构的动态规划方案。

构造双向图时先复制被检测到的对象O为O_x和并假设这两个集合是不相交的，然后预测在节点O_x和之间是否存在边，其中节点之间的连接由它们的空间关系和对象检测器提供的每个对象类的置信度评分决定；没有使用来自ROI池的卷积特性，而是为对象O_x定义一个特性其中包括位置(xmin、ymin、xmax、ymax)、中心点(x中心值、y中心值)、宽度、高度和置信度评分，因此，物体O_x和之间的关系可以用局部特性描述，而特征向量f^(l)作为一个RNN层的输入，同时为了防止序列中局部特性的顺序影响性能，每次迭代之前随机地调整特性的顺序；此外，为了提取图的布局和所有对象的空间信息，一个全局特性f^(g)被用作RNN的输入，其中全局特性是由第一个分支中主干神经网络的conv-7层(256×1×1)的卷积特性和一个图的二进制掩码特性(128×1)所构成的，且为了匹配conv-7和隐藏单元的维度，在最后一步中使用了一个全连接层，而对于掩码特性，将的维度二进制掩码映射传输到一个4层的卷积网并且最大池化以匹配隐藏单元的维度，其中n_h和n_w分别代表图像的高度和宽度，n_c则代表物体种类的数目。

DGGN方法结合了图论中的邻接矩阵，它主要用于通过图形的已知结构来传播信息，然而，由于邻接矩阵是未知的，因此引入一个动态内存组件来估计这个邻接矩阵，它包含节点之间的连接信息，并且将二维的邻接矩阵扩展到三维存储器；动态邻接张量内存(DATM) 定义为邻接矩阵的连接和对应的隐藏单元H，其中邻接矩阵A表示在有向图中n个节点之间的连接状态，邻接矩阵中的每个单元只表示对应的节点对是否有一个指向的弧，隐藏单元H的元素h(i，j)是GRU的m维隐藏向量，它与节点O_i和O_j之间的连接有关；最后，执行张量D的检索和更新步骤，以聚集来自邻边的信息，同时构建图形。

检索时先获取以前的隐藏状态它收集着通过相邻边传播的信息，同时用两节点之间存在边的概率来加权O_i和O_j的邻接向量，形式上，为输入矢量提取一个合适的隐藏单元表示与节点i和j的连接，如下所述：

更新时使用一个m+1长度的向量来更新单元D_ij，它将输出a_t和GRU单元的隐藏状态h_t连接起来：

a_t＝σ(W_lh_t+b_t) (8)

D_i，j＝[a_t，h_t] (9)

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于对象检测器和递归神经网络的统一图解析网络，其特征在于，主要包括解析图的组成(一)；动态图生成网络(二)；多任务训练(三)；级联推理(四)。

2.基于权利要求书1所述的解析图的组成(一)，其特征在于，使用大对象(独立物体)、文本、箭头和箭尾来定义物体。

3.基于权利要求书1所述的动态图生成网络(二)，其特征在于，通过图推断来预测一对顶点之间的边的存在，从而对图中对象的关系匹配进行了预测，图的节点和边分别与对象和对象之间的关系相对应，因此，关系图用一个双向图来描述：

H＝(V，E) (1)

其中V＝X∪Y表示成对互斥的顶点集合和而E表示的是图上连接和的边；然后使用以门控循环单元(GRU)作为基础模型的动态图生成网络(DGGN)方法从相邻的边聚合消息，同时为了传递相邻边的信息，DGGN采用一个可以在线构建图形结构的动态规划方案。

4.基于权利要求书3所述的双向图，其特征在于，构造过程为复制被检测到的对象O为O_x和并假设这两个集合是不相交的，然后预测在节点O_x和之间是否存在边，其中节点之间的连接由它们的空间关系和对象检测器提供的每个对象类的置信度评分决定；没有使用来自ROI池的卷积特性，而是为对象Ox定义一个特性其中包括位置(xmin、ymin、xmax、ymax)、中心点(x中心值、y中心值)、宽度、高度和置信度评分，因此，物体O_x和之间的关系可以用局部特性描述，而特征向量f^(l)作为一个RNN层的输入，同时为了防止序列中局部特性的顺序影响性能，每次迭代之前随机地调整特性的顺序；此外，为了提取图的布局和所有对象的空间信息，一个全局特性f^(g)被用作RNN的输入，其中全局特性是由第一个分支中主干神经网络的conv-7层(256×1×1)的卷积特性和一个图的二进制掩码特性(128×1)所构成的，且为了匹配conv-7和隐藏单元的维度，在最后一步中使用了一个全连接层，而对于掩码特性，将的维度二进制掩码映射传输到一个4层的卷积网并且最大池化以匹配隐藏单元的维度，其中n_h和n_w分别代表图像的高度和宽度，n_c则代表物体种类的数目。

5.基于权利要求书3所述的DGGN方法，其特征在于，结合了图论中的邻接矩阵，它主要用于通过图形的已知结构来传播信息，然而，由于邻接矩阵是未知的，因此引入一个动态内存组件来估计这个邻接矩阵，它包含节点之间的连接信息，并且将二维的邻接矩阵扩展到三维存储器；动态邻接张量内存(DATM)定义为邻接矩阵的连接和对应的隐藏单元H，其中邻接矩阵A表示在有向图中n个节点之间的连接状态，邻接矩阵中的每个单元只表示对应的节点对是否有一个指向的弧，隐藏单元H的元素h(i，j)是GRU的m维隐藏向量，它与节点O_i和O_j之间的连接有关；最后，执行张量D的检索和更新步骤，以聚集来自邻边的信息，同时构建图形。

6.基于权利要求书5所述的张量D的检索步骤，其特征在于，获取以前的隐藏状态它收集着通过相邻边传播的信息，同时用两节点之间存在边的概率来加权O_i和O_j的邻接向量，形式上，为输入矢量提取一个合适的隐藏单元表示与节点i和j的连接，如下所述：

7.基于权利要求书5所述的张量D的更新步骤，其特征在于，使用一个m+1长度的向量来更新单元D_ij，它将输出a_t和GRU单元的隐藏状态h_t连接起来：

a_t＝σ(W_lh_t+b_t) (7)

D_i，j＝[a_t，h_t] (8)

8.基于权利要求书1所述的多任务训练(三)，其特征在于，统一图解析网络(UDPnet)是通过端到端方式进行训练的，因为UDPnet由两个分支组成(基于单次检测器的对象检测和DGGN的图形生成)，本质上，这是一个多任务学习问题，因此，每个分支的不同损失被合并到总体损失L中，如下所列：

L＝αL_c+βL_l+γL_r (9)

9.基于权利要求书8所述的训练对象检测分支，其特征在于，制定了一套策略来匹配候选项对和参考标签，首先，假设对象检测分支检测到n个对象，那么就生成n²对关系候选项，对于每个关系候选来说，两个集合的交集是均等的，每个集合都在一个被检测到的对象和最近的参考标签之间计算过；然后每一个参考关系都与最好的重叠关系候选相匹配，考虑到不同图中检测到的对象数量的不平衡，从每个训练图中抽取相同数量的关系候选对象。

10.基于权利要求书1所述的级联推理(四)，其特征在于，首先检测到图表中的对象，然后应用交并比(IoU)阈值为0.45的非最大抑制(NMS)在分数高于0.01的候选项集合上，与训练不同的是，使用被检测到的所有候选项集合来为下一个分支生成候选配对，接着将图形生成分支应用于所有关系候选对象，以推断彼此之间的关系；最后，可以得到一个由相邻的置信度评分高于0.1的节点组成的图；在图推断之后，可以处理生成的关系信息，以进一步生成知识句，这可以作为问题回答模型的输入。