CN113065650A

CN113065650A - 一种长期记忆学习的多通道神经网方法

Info

Publication number: CN113065650A
Application number: CN202110361125.7A
Authority: CN
Inventors: 胡建芳; 李世顺
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-02
Anticipated expiration: 2041-04-02
Also published as: CN113065650B

Abstract

本发明公开了一种长期记忆学习的多通道神经网方法，通过FPN提取已观察的过去帧的图像特征，并依次经过基于ConvLSTM的实例分割预测网络、Mask R‑CNN head得到实例分割预测结果。本发明挖掘了各层级间的金字塔特征之间存在的内在联系，利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模，模型中用ConvLSTM来捕捉对应的金字塔特征层级内部的时空联系，通过增加ConvLSTM之间的路径连接使得不同层级间可以相互传递语义信息，克服了现有技术根据观察到的过去帧中提取金字塔特征的过程中每个层级的金字塔特征都是独立预测的缺陷，进而提高特征预测的准确度。

Description

一种长期记忆学习的多通道神经网方法

技术领域

本发明属于人工智能、计算机视觉和实例分割预测的技术领域，具体涉及一种长期记忆学习的多通道神经网方法。

背景技术

实例分割是指对给定图像或视频中出现的所有感兴趣的物体进行实例级别的语义分割，相比于仅区分每个像素类别的语义分割难度更大。实例分割既要区分不同物体的类别，同时要区分同一类别的不同物体。近年来实例分割问题得到了广泛的关注和研究，其中基于深度学习的方法取得了显著的成功。现有的方法大多数都是通过学习空间语义信息的特征表示实现对于图像中物体的实例分割。例如Dai J.等人提出利用图像像素与实例之间的相对位置关系产生实例级别的分割候选对象。He K.等人在Faster R-CNN中增加一个新的分支用于预测对象的掩模，与已有的物体边界框检测和分类分支共同实现实例分割。Liu Y.等人提出通过自下而上的路径聚合来增强空间维度的层间语义信息。

上述方法大多是针对事后实例分割任务，即其中待分割的图像是已经获取到的，但是在现实生活中，人们往往希望在获取到相应的图像之前就得到未来的实例分割预测结果，例如在自动驾驶中实例分割预测是预测汽车在未来是否会与其他物体发生碰撞的基础技术，在这些类似的任务中实例分割预测比事后实例分割显得更加重要。现有的工作主要是基于深度学习模型的卷积神经网络(CNN)和递归神经网络(rCNN)预测未来帧。例如，Ranzato M.等人使用递归卷积神经网络(rCNN)预测未来帧，以此捕获更多的空间语义信息。Oh J.等人使用CNN和RNN构建了编码-转换-解码的网络结构，直接生成未来视频帧中的像素值。而在语义分割预测和实例分割预测上，Luc P.等人根据观察到的过去视频帧中提取的sofmax操作后的激活值来预测未来帧的sofmax操作后的激活值，进而生成未来视频的语义分割预测结果。Luc P.等人更进一步地提出了一个更有挑战性的预测视频中未来的实例分割结果的任务，并设计了特征分辨率保持不变的CNN模型F2F预测未来帧的金字塔特征来解决该问题。

上述方法主要是对空间和时间两个维度的表现变化进行建模，最新的方法由LucP.等人提出，他们的方法根据观察到的过去帧中提取的金字塔特征来预测未来帧的金字塔特征，然而其中各个层级的金字塔特征都是独立预测的，使得不同金字塔层级特征之间的内在联系被忽略，而实际上金字塔特征之间存在着紧密的内在联系，不同层的特征有着不同的分辨率和感受野，这使得不同层的特征描述了同一图像的不同方面。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种长期记忆学习的多通道神经网方法，利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模，并可以与Mask R-CNN(mask region convolutional neural network)head和特征金字塔网络(feature pyramid network，以下简称FPN)特征提取器联合优化，组成端到端的联合学习系统，实现实例分割预测。

为了达到上述目的，本发明采用以下技术方案：

本发明提供了一种长期记忆学习的多通道神经网方法，包括下述步骤：

S1、利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征；

S2、特征预测，将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络，得到未来帧的多层金字塔特征的预测结果；所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM，每层ConvLSTM包括x个单元，每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息，不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息；

S3、将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。

作为优选的技术方案，所述利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征具体为：

将已观察到的过去T帧的RGB图像经过特征金字塔网络，得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。

作为优选的技术方案，所述未来帧的多层金字塔特征的预测结果具体为：

F_T+ΔT＝Θ(F₁，F₂，...，F_T)；

其中，映射Θ的输入是从过去观察到的帧中提取出来的多层金字塔特征，F_t表示从第t帧中提取的共计L层的金字塔特征

表示从第t帧中提取出的第l层金字塔特征，映射Θ的输出是未来帧的多层金字塔特征的预测结果。

作为优选的技术方案，对于每个ConvLSTM的单元，其内部结构如下式：

其中*是卷积运算，⊙表示点乘，

和

分别是t时刻的输入门、遗忘门和输出门，

是控制输入-状态转换的卷积核，

是控制输出-状态转换的卷积核，其中c是通道数，k表示内核大小的超参数，

是相应的偏置项，

是模型在t时刻输出的预测特征，σ表示sigmoid操作，

由

和

计算得到的计算细胞状态

时作为

的权重，

是第l层第t个ConvLSTM单元的细胞状态，

是从第t帧中提取出的第l层金字塔特征。

作为优选的技术方案，所述路径连接法具体为：

其中，W^v，l是控制从ConvLSTM-v到ConvLSTM-l的信息传递的模型参数，

表示对

使用了采样操作，使得

的分辨率与

的分辨率一致，A^v，l是基于自注意力机制设计的响应图。

作为优选的技术方案，所述

指的是第l层第t个ConvLSTM单元的细胞状态输入，具体为：

计算第l层第t个ConvLSTM单元的细胞状态输入时，在第l层第t-1个ConvLSTM单元的细胞状态输出的基础上，采用注意力机制引入了第l-1层第t-1个ConvLSTM单元的细胞状态和第l+1层第t-1个ConvLSTM单元的细胞状态的有用信息。

作为优选的技术方案，其损失函数具体为：

L＝L_p+λL_MaskR-CNN，

其中，L_MaskR-CNN由分类损失、边界框定位损失和分割损失组成；λ为该项损失对应的权重参数。

作为优选的技术方案，所述L_p由如下公式定义：

其中n_l是

的元素数，

为根据过去的t帧预测得到的第t+1帧的金字塔特征，

是从对应视频帧中提取的真实特征。

本发明还提供了一种长期记忆学习的多通道神经网系统，包括特征提取模块、特征预测模块和输出模块；

所述特征提取模块利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征；

所述特征预测模块将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络，得到未来帧的多层金字塔特征的预测结果；所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM，每层ConvLSTM包括x个单元，每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息，不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息；

所述输出模块将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中得到实例分割预测结果。

本发明还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现所述的一种长期记忆学习的多通道神经网方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明挖掘了各层级间的金字塔特征之间存在的内在联系，利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模，模型中用ConvLSTM来捕捉对应的金字塔特征层级内部的时空联系，通过增加ConvLSTM之间的路径连接使得不同层级间可以相互传递语义信息，克服了现有技术根据观察到的过去帧中提取金字塔特征的过程中每个层级的金字塔特征都是独立预测的缺陷，进而提高特征预测的准确度。

附图说明

图1是本发明实施例的基于ConvLSTM的实例分割预测模型的结构示意图；

图2是本发明实施例的实例分割预测模型中的基本单元的结构示意图；

图3是本发明实施例的长期记忆学习的多通道神经网系统的结构示意图；

图4是本发明实施例的存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本发明提供了一种长期记忆学习的多通道神经网方法，包括以下步骤

S1、利用FPN提取已观察的过去帧的RGB图像的多层金字塔特征；

更为具体的，步骤S1中，所述利用FPN提取已观察的过去帧的RGB图像的特征具体为：

将已观察到的过去T帧的RGB图像经过FPN，得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。以图1中的模型框架为例，每张已观察到的图像经过FPN，生成4层不同分辨率的金字塔特征。

S2、特征预测，将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络(以下简称ConvLSTM)的实例分割预测网络，得到未来帧的多层金字塔特征的预测结果；所述基于ConvLSTM的实例分割预测网络包括L层的ConvLSTM，每层ConvLSTM包括x个单元；

更为具体的，步骤S2中，特征预测部分本发明设计了一个基于ConvLSTM的实例分割预测网络来预测未来的特征，模型框架如图1中间的基于ConvLSTM的实例分割预测网络所示。预测得到的未来帧的多层金字塔特征的预测结果为：

F_T+ΔT＝Θ(F₁，F₂，...，F_T)； (1)

表示从第t帧中提取出的第l层金字塔特征。不同金字塔层级的特征从不同的方面描述了观察到的视频帧。一般情况下来自较高金字塔层级的特征具有较小的分辨率和较大的感受野。映射Θ的输出是对未来帧的多层金字塔特征的预测结果。

更为具体的，步骤S2中，利用ConvLSTM来建模金字塔特征同一层级内部的时空关系，

对于某个层级内的特征，我们采用一个ConvLSTM来捕获该层内部的时空语义信息，因此对于整个模型来说一共由L个ConvLSTM组成。对第l层的金字塔特征进行预测的ConvLSTM每个单元内部结构如图2框中内部结构所示，如下式：

其中*是卷积运算，⊙表示点乘，

和

分别是t时刻的输入门、遗忘门和输出门，

是控制输入-状态转换的卷积核，

是相应的偏置项。

是模型在t时刻输出的预测特征，σ表示sigmoid操作。

由

和

计算得到的计算细胞状态

时作为

的权重，

是第l层第t个ConvLSTM单元的细胞状态，

是从第t帧中提取出的第l层金字塔特征。在本发明中采用的ConvLSTM是分辨率保持的神经网络。

更为具体的，步骤S2中，在不同层级间也引入路径连接以捕捉层间时空语义信息。

对于不同层的ConvLSTM，本发明引入路径连接来传递不同金字塔层级的特征间的语义信息，如图1中的基于ConvLSTM的实例分割预测网络所示，位于同一水平线上的单元连接表示同一层级的ConvLSTM的层级内连接，位于不同水平线上的单元连接表示不同层间的语义信息传递，分为从高分辨率向低分辨率传递和低分辨率向高分辨率传递两个方向。对于第l层ConvLSTM中的单元，它接受来自其他单元的信息，例如第l层的ConvLSTM中的第t个单元，它接受的信息包括t时刻第l层的特征

和前一个时刻的输出

以及相邻层上一时刻的细胞状态

信息传递的路径连接可用公式表示如下：

其中W^v，l是控制从ConvLSTM-v到ConvLSTM-/的信息传递的模型参数，约束v＝l+1或v＝l-1表明信息传递只在相邻层级间进行。高层级的特征往往具有较小的分辨率和较大的感受野，而低层特征具有较大的分辨率和较小的感受野，两者的互补可以更加充分地利用层间语义信息。

表示对

使用了采样操作，使得

的分辨率与

的分辨率一致。当v＞l时使用了上采样操作(双线性插值)，当v＜l时使用了下采样操作(最大值池化)。A^v，l是基于自注意力机制设计的响应图，以此选择性地从ConvLSTM-v传递一些有用的可以增强ConvLSTM-l的信息。

指的是第l层第t个ConvLSTM单元的细胞状态输入，其计算方式如公式所示，也是所述路径连接法的创新之处。路径连接法的创新之处在于原始的ConvLSTM第l层第t个ConvLSTM单元的细胞状态输入即为第l层第t-1个ConvLSTM单元的细胞状态输出

这样就只存在同一层ConvLSTM不同时刻之间的联系，即同一层级金字塔特征内部的时空语义信息。此处本发明在计算第l层第t个ConvLSTM单元的细胞状态输入时，在第l层第t-1个ConvLSTM单元的细胞状态输出的基础上，采用注意力机制引入了第l-1层第t-1个ConvLSTM单元的细胞状态和第l+1层第t-1个ConvLSTM单元的细胞状态的有用信息，以此打通了不同层级之间ConvLSTM之间的关联关系。其他的变量

和

与公式(2)相同。

综上，特征预测部分的ConvLSTM的基本单元结构如图2所示，特征预测由层内信息传递(公式(2))和层间信息传递(公式(3))两部分组成，输入为从过去观察到的帧中提取出来的金字塔特征，输出为对未来帧的金字塔特征的预测结果。

S3、将步骤2中生成的对未来帧的金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。

特别的，在本实施例的训练中，目标为最小化损失函数：

L＝L_p+λL_MaskR-CNN， (4)

其中，L_MaskR-CNN由分类损失、边界框定位损失和分割损失组成，定义与He K.等人给出的损失函数一致，λ为该项损失对应的权重参数。L_p可以由如下公式表示：

其中n_l是

的元素数，

为根据过去的t帧预测得到的第t+1帧的金字塔特征，

是从对应视频帧中提取的真实特征。

如图3所示，在另一个实施例中，提供了一种长期记忆学习的多通道神经网系统，包括特征提取模块、特征预测模块和输出模块；

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，该系统是应用于上述实施例的长期记忆学习的多通道神经网方法。

如图4所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现上述实施例的长期记忆学习的多通道神经网方法，具体为：

S2、特征预测，多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络，得到未来帧的多层金字塔特征的预测结果；所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM，每层ConvLSTM包括x个单元，每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息，不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息；

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种长期记忆学习的多通道神经网方法，其特征在于，包括下述步骤：

利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征；

特征预测，将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络，得到未来帧的多层金字塔特征的预测结果；所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM，每层ConvLSTM包括x个单元，每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息，不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息；

将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。

2.根据权利要求1所述的一种长期记忆学习的多通道神经网方法，其特征在于，所述利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征具体为：

3.根据权利要求1所述的一种长期记忆学习的多通道神经网方法，其特征在于，所述未来帧的多层金字塔特征的预测结果具体为：

F_T+ΔT＝Θ(F₁，F₂，...，F_T)；