CN108269275A

CN108269275A - 一种基于非局部神经网络的非局部建模方法

Info

Publication number: CN108269275A
Application number: CN201810155187.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-02-23
Filing date: 2018-02-23
Publication date: 2018-07-10

Abstract

本发明中提出的一种基于非局部神经网络的非局部建模方法，其主要内容包括：非局部神经网络，非局部块，其过程为，在非局部均值操作之后，在深度神经网络中定义一个通用的非局部操作，非局部操作基于不同位置之间的关系计算响应，它能支持可变大小的输入，并在输出中保持相应的大小，可以与卷积或递归层一起使用，也可以被添加到深层神经网络的早期部分，通过非局部操作能够结合非局部和局部信息，建立一个更加丰富的层次结构。本发明中非局部运算直接通过计算任意两个位置之间的交互来获取长时记忆，无需其间的距离，非局部运算效率很高，能够维持可变输入的大小，并且能很方便地与其他运算相组合。

Description

一种基于非局部神经网络的非局部建模方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于非局部神经网络的非局部建模方法。

背景技术

随着计算机技术和多媒体技术的迅猛发展，视频与图像的数量急剧增长，面对海量的视频和图像数据，人们希望能够从中搜索出有用的信息，找出自己感兴趣的视频或图像。这就必须要对视频或图像进行分类整理，使人们在搜索时可以根据一定的分类进行查询，提高搜索效率。远距离依赖(LRD)是空间或时间序列数据分析中可能出现的一种现象，它与两点之间统计相关性的衰减率随着时间间隔的增加或点之间的空间距离的增加有关。捕获远距离依赖在深度神经网络中是至关重要的。卷积和循环网络操作都是常用的处理局部领域的基础模块，通常用它们来解决捕获远距离依赖问题。一般说来，重复局部操作会存在一些局限性：如计算效率低下、优化困难；且会产生多跳依赖建模，例如，当消息需要在远距离位置之间来回传送时，这将是一个具有一定挑战性的问题。

本发明提出了一种基于非局部神经网络的非局部建模方法，在非局部均值操作之后，在深度神经网络中定义一个通用的非局部操作，非局部操作基于不同位置之间的关系计算响应，它能支持可变大小的输入，并在输出中保持相应的大小，可以与卷积或递归层一起使用，也可以被添加到深层神经网络的早期部分，通过非局部操作能够结合非局部和局部信息，建立一个更加丰富的层次结构。本发明中非局部运算直接通过计算任意两个位置之间的交互来获取长时记忆，无需其间的距离，非局部运算效率很高，能够维持可变输入的大小，并且能很方便地与其他运算相组合。

发明内容

针对计算效率低下等问题，本发明的目的在于提供一种基于非局部神经网络的非局部建模方法，在非局部均值操作之后，在深度神经网络中定义一个通用的非局部操作，非局部操作基于不同位置之间的关系计算响应，它能支持可变大小的输入，并在输出中保持相应的大小，可以与卷积或递归层一起使用，也可以被添加到深层神经网络的早期部分，通过非局部操作能够结合非局部和局部信息，建立一个更加丰富的层次结构。

为解决上述问题，本发明提供一种基于非局部神经网络的非局部建模方法，其主要内容包括：

(一)非局部神经网络；

(二)非局部块。

其中，所述的非局部神经网络，在非局部均值操作之后，在深度神经网络中定义一个通用的非局部操作：

其中，i是输出位置(空间、时间或时空)的索引，其响应将被计算，j是列举的所有可能位置的索引；x是输入信号(通常是图像、序列或视频的特征)，y是与x大小相同的输出信号；配对函数f计算i和所有j之间的标量(用于表示关系，如亲和度)；一元函数g计算位置j处的输入信号表示；响应通过因子正则化；

公式(1)中的非局部行为是由于在操作中考虑了所有位置作为比较，卷积操作将局部邻域中的加权输入相加(例如，在一维的核大小为3的情况下，i-1≤j≤i+1)，并且时间i处的递归操作通常只基于当前和最新的时间步长(例如，j＝i或i-1)。

进一步地，所述的非局部操作，非局部操作也不同于全连接(fc)层；公式(1)基于不同位置之间的关系计算响应，而fc使用学习权重；即x_j和x_i之间的关系不是fc中输入数据的函数，与非局部层不同；此外，公式(1)支持可变大小的输入，并在输出中保持相应的大小；相反，fc层需要固定大小的输入/输出，并且失去位置对应关系(例如，从位置i的x_i到y_i)；

非局部操作是一个灵活的构建块，可以与卷积/递归层一起使用；它可以被添加到深层神经网络的早期部分，而不像通常fc层只能在最后使用；因此，通过非局部操作能够结合非局部和局部信息，建立一个更加丰富的层次结构。

进一步地，所述的配对函数，配对函数f的选择包括高斯版本、嵌入式高斯版本、点积和级联。

进一步地，所述的高斯版本，遵循非局部均值和双边滤波器，f选择是高斯函数；

其中，是点积相似性；归一化因子被设置为

进一步地，所述的嵌入式高斯版本，高斯函数的简单扩展是计算嵌入空间中的相似性，即：

其中，θ(x_i)＝W_θx_i和φ(x_j)＝W_φx_j是两个嵌入；

如上所述，设置

自注意力模块是嵌入式高斯版本中的非局部操作的特例；对于给定的i，成为沿维度j的Softmax计算，因此有自注意力形式

进一步地，所述的点积，f可以定义为点积相似度：

f(x_i,x_j)＝θ(x_i)^Tφ(x_j) (4)

将归一化因子设置为其中，由于N简化了梯度计算，因此N表示x中位置的数量；正则化之后使输入具有可变的大小；

点积与嵌入式高斯版本的主要区别在于Softmax的存在，它起着激活函数的作用。

进一步地，所述的级联，关系网络中的配对函数使用连接进行视觉推理；连接形式的f表示如下：

其中，[·,·]表示连接，而w_f是将连接向量投影到标量的权向量；如上所述，设在这种情况下，在f中采用修正线性单元(ReLU)。

其中，所述的非局部块，将公式(1)中的非局部操作包装到一个非局部块中，该块可以并入许多现有的体系结构中；将一个非全局块定义为：

z_i＝W_zy_i+x_i (6)

其中，y_i在公式(1)中给出，+x_i表示一个剩余连接；剩余连接允许将一个新的非局部块插入到任何预先训练的模型中，而不会破坏它的初始行为(例如，如果W_z被初始化为零)；公式(2)、(3)或(4)中的配对计算可以简单地通过矩阵乘法来完成。

进一步地，所述的计算，设置W_g,W_θ和W_φ是x中通道数量的一半；这遵循了瓶颈设计，将块的计算减少了大约一半；公式(6)中的权重矩阵W_z计算y_i上的位置嵌入，将信道数量与x的信道数量相匹配；

子采样可以用来进一步减少计算；公式(1)改为：其中是x的二次采样版本(例如，通过合并)；在空间域中执行此操作，这可以减少配对计算量的四分之一；子采样不会改变非局部行为，但只会使计算更稀疏；可以通过在最大池化层之后添加φ和g来执行此操作。

附图说明

图1是本发明一种基于非局部神经网络的非局部建模方法的系统框架图。

图2是本发明一种基于非局部神经网络的非局部建模方法的非局部操作。

图3是本发明一种基于非局部神经网络的非局部建模方法的非局部块。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于非局部神经网络的非局部建模方法的系统框架图。主要包括非局部神经网络和非局部块。

非局部神经网络，在非局部均值操作之后，在深度神经网络中定义一个通用的非局部操作：

配对函数f的选择包括高斯版本、嵌入式高斯版本、点积和级联。

高斯版本，遵循非局部均值和双边滤波器，f选择是高斯函数；

其中，是点积相似性；归一化因子被设置为

嵌入式高斯版本，高斯函数的简单扩展是计算嵌入空间中的相似性，即：

其中，θ(x_i)＝W_θx_i和φ(x_j)＝W_φx_j是两个嵌入；如上所述，设置

点积，f可以定义为点积相似度：

f(x_i,x_j)＝θ(x_i)^Tφ(x_j) (4)

级联，关系网络中的配对函数使用连接进行视觉推理；连接形式的f表示如下：

图2是本发明一种基于非局部神经网络的非局部建模方法的非局部操作。非局部操作也不同于全连接(fc)层；公式(1)基于不同位置之间的关系计算响应，而fc使用学习权重；即x_j和x_i之间的关系不是fc中输入数据的函数，与非局部层不同；此外，公式(1)支持可变大小的输入，并在输出中保持相应的大小；相反，fc层需要固定大小的输入/输出，并且失去位置对应关系(例如，从位置i的x_i到y_i)；

图3是本发明一种基于非局部神经网络的非局部建模方法的非局部块。将公式(1)中的非局部操作包装到一个非局部块中，该块可以并入许多现有的体系结构中；将一个非全局块定义为：

z_i＝W_zy_i+x_i (6)

设置W_g,W_θ和W_φ是x中通道数量的一半；这遵循了瓶颈设计，将块的计算减少了大约一半；公式(6)中的权重矩阵W_z计算y_i上的位置嵌入，将信道数量与x的信道数量相匹配；

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于非局部神经网络的非局部建模方法，其特征在于，主要包括非局部神经网络(一)；非局部块(二)。

2.基于权利要求书1所述的非局部神经网络(一)，其特征在于，在非局部均值操作之后，在深度神经网络中定义一个通用的非局部操作：

3.基于权利要求书2所述的非局部操作，其特征在于，非局部操作也不同于全连接(fc)层；公式(1)基于不同位置之间的关系计算响应，而fc使用学习权重；即x_j和x_i之间的关系不是fc中输入数据的函数，与非局部层不同；此外，公式(1)支持可变大小的输入，并在输出中保持相应的大小；相反，fc层需要固定大小的输入/输出，并且失去位置对应关系(例如，从位置i的x_i到y_i)；

4.基于权利要求书2所述的配对函数，其特征在于，配对函数f的选择包括高斯版本、嵌入式高斯版本、点积和级联。

5.基于权利要求书4所述的高斯版本，其特征在于，遵循非局部均值和双边滤波器，f选择是高斯函数；

其中，是点积相似性；归一化因子被设置为

6.基于权利要求书4所述的嵌入式高斯版本，其特征在于，高斯函数的简单扩展是计算嵌入空间中的相似性，即：

7.基于权利要求书4所述的点积，其特征在于，f可以定义为点积相似度：

f(x_i,x_j)＝θ(x_i)^Tφ(x_j) (4)

8.基于权利要求书4所述的级联，其特征在于，关系网络中的配对函数使用连接进行视觉推理；连接形式的f表示如下：

9.基于权利要求书1所述的非局部块(二)，其特征在于，将公式(1)中的非局部操作包装到一个非局部块中，该块可以并入许多现有的体系结构中；将一个非全局块定义为：

z_i＝W_zy_i+x_i (6)

10.基于权利要求书9所述的计算，其特征在于，设置W_g,W_θ和W_φ是x中通道数量的一半；这遵循了瓶颈设计，将块的计算减少了大约一半；公式(6)中的权重矩阵W_z计算y_i上的位置嵌入，将信道数量与x的信道数量相匹配；