CN113065650A - 一种长期记忆学习的多通道神经网方法 - Google Patents

一种长期记忆学习的多通道神经网方法 Download PDF

Info

Publication number
CN113065650A
CN113065650A CN202110361125.7A CN202110361125A CN113065650A CN 113065650 A CN113065650 A CN 113065650A CN 202110361125 A CN202110361125 A CN 202110361125A CN 113065650 A CN113065650 A CN 113065650A
Authority
CN
China
Prior art keywords
pyramid
convlstm
layer
term memory
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110361125.7A
Other languages
English (en)
Other versions
CN113065650B (zh
Inventor
胡建芳
李世顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110361125.7A priority Critical patent/CN113065650B/zh
Publication of CN113065650A publication Critical patent/CN113065650A/zh
Application granted granted Critical
Publication of CN113065650B publication Critical patent/CN113065650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种长期记忆学习的多通道神经网方法,通过FPN提取已观察的过去帧的图像特征,并依次经过基于ConvLSTM的实例分割预测网络、Mask R‑CNN head得到实例分割预测结果。本发明挖掘了各层级间的金字塔特征之间存在的内在联系,利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模,模型中用ConvLSTM来捕捉对应的金字塔特征层级内部的时空联系,通过增加ConvLSTM之间的路径连接使得不同层级间可以相互传递语义信息,克服了现有技术根据观察到的过去帧中提取金字塔特征的过程中每个层级的金字塔特征都是独立预测的缺陷,进而提高特征预测的准确度。

Description

一种长期记忆学习的多通道神经网方法
技术领域
本发明属于人工智能、计算机视觉和实例分割预测的技术领域,具体涉及一种长期记忆学习的多通道神经网方法。
背景技术
实例分割是指对给定图像或视频中出现的所有感兴趣的物体进行实例级别的语义分割,相比于仅区分每个像素类别的语义分割难度更大。实例分割既要区分不同物体的类别,同时要区分同一类别的不同物体。近年来实例分割问题得到了广泛的关注和研究,其中基于深度学习的方法取得了显著的成功。现有的方法大多数都是通过学习空间语义信息的特征表示实现对于图像中物体的实例分割。例如Dai J.等人提出利用图像像素与实例之间的相对位置关系产生实例级别的分割候选对象。He K.等人在Faster R-CNN中增加一个新的分支用于预测对象的掩模,与已有的物体边界框检测和分类分支共同实现实例分割。Liu Y.等人提出通过自下而上的路径聚合来增强空间维度的层间语义信息。
上述方法大多是针对事后实例分割任务,即其中待分割的图像是已经获取到的,但是在现实生活中,人们往往希望在获取到相应的图像之前就得到未来的实例分割预测结果,例如在自动驾驶中实例分割预测是预测汽车在未来是否会与其他物体发生碰撞的基础技术,在这些类似的任务中实例分割预测比事后实例分割显得更加重要。现有的工作主要是基于深度学习模型的卷积神经网络(CNN)和递归神经网络(rCNN)预测未来帧。例如,Ranzato M.等人使用递归卷积神经网络(rCNN)预测未来帧,以此捕获更多的空间语义信息。Oh J.等人使用CNN和RNN构建了编码-转换-解码的网络结构,直接生成未来视频帧中的像素值。而在语义分割预测和实例分割预测上,Luc P.等人根据观察到的过去视频帧中提取的sofmax操作后的激活值来预测未来帧的sofmax操作后的激活值,进而生成未来视频的语义分割预测结果。Luc P.等人更进一步地提出了一个更有挑战性的预测视频中未来的实例分割结果的任务,并设计了特征分辨率保持不变的CNN模型F2F预测未来帧的金字塔特征来解决该问题。
上述方法主要是对空间和时间两个维度的表现变化进行建模,最新的方法由LucP.等人提出,他们的方法根据观察到的过去帧中提取的金字塔特征来预测未来帧的金字塔特征,然而其中各个层级的金字塔特征都是独立预测的,使得不同金字塔层级特征之间的内在联系被忽略,而实际上金字塔特征之间存在着紧密的内在联系,不同层的特征有着不同的分辨率和感受野,这使得不同层的特征描述了同一图像的不同方面。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种长期记忆学习的多通道神经网方法,利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模,并可以与Mask R-CNN(mask region convolutional neural network)head和特征金字塔网络(feature pyramid network,以下简称FPN)特征提取器联合优化,组成端到端的联合学习系统,实现实例分割预测。
为了达到上述目的,本发明采用以下技术方案:
本发明提供了一种长期记忆学习的多通道神经网方法,包括下述步骤:
S1、利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
S2、特征预测,将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
S3、将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
作为优选的技术方案,所述利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征具体为:
将已观察到的过去T帧的RGB图像经过特征金字塔网络,得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。
作为优选的技术方案,所述未来帧的多层金字塔特征的预测结果具体为:
FT+ΔT=Θ(F1,F2,...,FT);
其中,映射Θ的输入是从过去观察到的帧中提取出来的多层金字塔特征,Ft表示从第t帧中提取的共计L层的金字塔特征
Figure BDA0003005583020000021
Figure BDA0003005583020000022
表示从第t帧中提取出的第l层金字塔特征,映射Θ的输出是未来帧的多层金字塔特征的预测结果。
作为优选的技术方案,对于每个ConvLSTM的单元,其内部结构如下式:
Figure BDA0003005583020000023
Figure BDA0003005583020000024
Figure BDA0003005583020000025
Figure BDA0003005583020000031
Figure BDA0003005583020000032
Figure BDA0003005583020000033
其中*是卷积运算,⊙表示点乘,
Figure BDA0003005583020000034
Figure BDA0003005583020000035
分别是t时刻的输入门、遗忘门和输出门,
Figure BDA0003005583020000036
是控制输入-状态转换的卷积核,
Figure BDA0003005583020000037
是控制输出-状态转换的卷积核,其中c是通道数,k表示内核大小的超参数,
Figure BDA0003005583020000038
是相应的偏置项,
Figure BDA0003005583020000039
是模型在t时刻输出的预测特征,σ表示sigmoid操作,
Figure BDA00030055830200000310
Figure BDA00030055830200000311
Figure BDA00030055830200000312
计算得到的计算细胞状态
Figure BDA00030055830200000313
时作为
Figure BDA00030055830200000314
的权重,
Figure BDA00030055830200000315
是第l层第t个ConvLSTM单元的细胞状态,
Figure BDA00030055830200000316
是从第t帧中提取出的第l层金字塔特征。
作为优选的技术方案,所述路径连接法具体为:
Figure BDA00030055830200000317
Figure BDA00030055830200000318
Figure BDA00030055830200000319
其中,Wv,l是控制从ConvLSTM-v到ConvLSTM-l的信息传递的模型参数,
Figure BDA00030055830200000320
表示对
Figure BDA00030055830200000321
使用了采样操作,使得
Figure BDA00030055830200000322
的分辨率与
Figure BDA00030055830200000323
的分辨率一致,Av,l是基于自注意力机制设计的响应图。
作为优选的技术方案,所述
Figure BDA00030055830200000324
指的是第l层第t个ConvLSTM单元的细胞状态输入,具体为:
计算第l层第t个ConvLSTM单元的细胞状态输入时,在第l层第t-1个ConvLSTM单元的细胞状态输出的基础上,采用注意力机制引入了第l-1层第t-1个ConvLSTM单元的细胞状态和第l+1层第t-1个ConvLSTM单元的细胞状态的有用信息。
作为优选的技术方案,其损失函数具体为:
L=Lp+λLMaskR-CNN
其中,LMaskR-CNN由分类损失、边界框定位损失和分割损失组成;λ为该项损失对应的权重参数。
作为优选的技术方案,所述Lp由如下公式定义:
Figure BDA00030055830200000325
其中nl
Figure BDA00030055830200000326
的元素数,
Figure BDA00030055830200000327
为根据过去的t帧预测得到的第t+1帧的金字塔特征,
Figure BDA00030055830200000328
是从对应视频帧中提取的真实特征。
本发明还提供了一种长期记忆学习的多通道神经网系统,包括特征提取模块、特征预测模块和输出模块;
所述特征提取模块利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
所述特征预测模块将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
所述输出模块将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中得到实例分割预测结果。
本发明还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现所述的一种长期记忆学习的多通道神经网方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明挖掘了各层级间的金字塔特征之间存在的内在联系,利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模,模型中用ConvLSTM来捕捉对应的金字塔特征层级内部的时空联系,通过增加ConvLSTM之间的路径连接使得不同层级间可以相互传递语义信息,克服了现有技术根据观察到的过去帧中提取金字塔特征的过程中每个层级的金字塔特征都是独立预测的缺陷,进而提高特征预测的准确度。
附图说明
图1是本发明实施例的基于ConvLSTM的实例分割预测模型的结构示意图;
图2是本发明实施例的实例分割预测模型中的基本单元的结构示意图;
图3是本发明实施例的长期记忆学习的多通道神经网系统的结构示意图;
图4是本发明实施例的存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本发明提供了一种长期记忆学习的多通道神经网方法,包括以下步骤
S1、利用FPN提取已观察的过去帧的RGB图像的多层金字塔特征;
更为具体的,步骤S1中,所述利用FPN提取已观察的过去帧的RGB图像的特征具体为:
将已观察到的过去T帧的RGB图像经过FPN,得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。以图1中的模型框架为例,每张已观察到的图像经过FPN,生成4层不同分辨率的金字塔特征。
S2、特征预测,将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络(以下简称ConvLSTM)的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于ConvLSTM的实例分割预测网络包括L层的ConvLSTM,每层ConvLSTM包括x个单元;
更为具体的,步骤S2中,特征预测部分本发明设计了一个基于ConvLSTM的实例分割预测网络来预测未来的特征,模型框架如图1中间的基于ConvLSTM的实例分割预测网络所示。预测得到的未来帧的多层金字塔特征的预测结果为:
FT+ΔT=Θ(F1,F2,...,FT); (1)
其中,映射Θ的输入是从过去观察到的帧中提取出来的多层金字塔特征,Ft表示从第t帧中提取的共计L层的金字塔特征
Figure BDA0003005583020000051
Figure BDA0003005583020000052
表示从第t帧中提取出的第l层金字塔特征。不同金字塔层级的特征从不同的方面描述了观察到的视频帧。一般情况下来自较高金字塔层级的特征具有较小的分辨率和较大的感受野。映射Θ的输出是对未来帧的多层金字塔特征的预测结果。
更为具体的,步骤S2中,利用ConvLSTM来建模金字塔特征同一层级内部的时空关系,
对于某个层级内的特征,我们采用一个ConvLSTM来捕获该层内部的时空语义信息,因此对于整个模型来说一共由L个ConvLSTM组成。对第l层的金字塔特征进行预测的ConvLSTM每个单元内部结构如图2框中内部结构所示,如下式:
Figure BDA0003005583020000053
Figure BDA0003005583020000054
Figure BDA0003005583020000055
Figure BDA0003005583020000056
Figure BDA0003005583020000057
Figure BDA0003005583020000061
其中*是卷积运算,⊙表示点乘,
Figure BDA0003005583020000062
Figure BDA0003005583020000063
分别是t时刻的输入门、遗忘门和输出门,
Figure BDA0003005583020000064
是控制输入-状态转换的卷积核,
Figure BDA0003005583020000065
是控制输出-状态转换的卷积核,其中c是通道数,k表示内核大小的超参数,
Figure BDA0003005583020000066
是相应的偏置项。
Figure BDA0003005583020000067
是模型在t时刻输出的预测特征,σ表示sigmoid操作。
Figure BDA0003005583020000068
Figure BDA0003005583020000069
Figure BDA00030055830200000610
计算得到的计算细胞状态
Figure BDA00030055830200000611
时作为
Figure BDA00030055830200000612
的权重,
Figure BDA00030055830200000613
是第l层第t个ConvLSTM单元的细胞状态,
Figure BDA00030055830200000614
是从第t帧中提取出的第l层金字塔特征。在本发明中采用的ConvLSTM是分辨率保持的神经网络。
更为具体的,步骤S2中,在不同层级间也引入路径连接以捕捉层间时空语义信息。
对于不同层的ConvLSTM,本发明引入路径连接来传递不同金字塔层级的特征间的语义信息,如图1中的基于ConvLSTM的实例分割预测网络所示,位于同一水平线上的单元连接表示同一层级的ConvLSTM的层级内连接,位于不同水平线上的单元连接表示不同层间的语义信息传递,分为从高分辨率向低分辨率传递和低分辨率向高分辨率传递两个方向。对于第l层ConvLSTM中的单元,它接受来自其他单元的信息,例如第l层的ConvLSTM中的第t个单元,它接受的信息包括t时刻第l层的特征
Figure BDA00030055830200000615
和前一个时刻的输出
Figure BDA00030055830200000616
以及相邻层上一时刻的细胞状态
Figure BDA00030055830200000617
信息传递的路径连接可用公式表示如下:
Figure BDA00030055830200000618
Figure BDA00030055830200000619
Figure BDA00030055830200000620
其中Wv,l是控制从ConvLSTM-v到ConvLSTM-/的信息传递的模型参数,约束v=l+1或v=l-1表明信息传递只在相邻层级间进行。高层级的特征往往具有较小的分辨率和较大的感受野,而低层特征具有较大的分辨率和较小的感受野,两者的互补可以更加充分地利用层间语义信息。
Figure BDA00030055830200000621
表示对
Figure BDA00030055830200000622
使用了采样操作,使得
Figure BDA00030055830200000623
的分辨率与
Figure BDA00030055830200000624
的分辨率一致。当v>l时使用了上采样操作(双线性插值),当v<l时使用了下采样操作(最大值池化)。Av,l是基于自注意力机制设计的响应图,以此选择性地从ConvLSTM-v传递一些有用的可以增强ConvLSTM-l的信息。
Figure BDA00030055830200000625
指的是第l层第t个ConvLSTM单元的细胞状态输入,其计算方式如公式所示,也是所述路径连接法的创新之处。路径连接法的创新之处在于原始的ConvLSTM第l层第t个ConvLSTM单元的细胞状态输入即为第l层第t-1个ConvLSTM单元的细胞状态输出
Figure BDA00030055830200000626
这样就只存在同一层ConvLSTM不同时刻之间的联系,即同一层级金字塔特征内部的时空语义信息。此处本发明在计算第l层第t个ConvLSTM单元的细胞状态输入时,在第l层第t-1个ConvLSTM单元的细胞状态输出的基础上,采用注意力机制引入了第l-1层第t-1个ConvLSTM单元的细胞状态和第l+1层第t-1个ConvLSTM单元的细胞状态的有用信息,以此打通了不同层级之间ConvLSTM之间的关联关系。其他的变量
Figure BDA0003005583020000071
Figure BDA0003005583020000072
Figure BDA0003005583020000073
与公式(2)相同。
综上,特征预测部分的ConvLSTM的基本单元结构如图2所示,特征预测由层内信息传递(公式(2))和层间信息传递(公式(3))两部分组成,输入为从过去观察到的帧中提取出来的金字塔特征,输出为对未来帧的金字塔特征的预测结果。
S3、将步骤2中生成的对未来帧的金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
特别的,在本实施例的训练中,目标为最小化损失函数:
L=Lp+λLMaskR-CNN, (4)
其中,LMaskR-CNN由分类损失、边界框定位损失和分割损失组成,定义与He K.等人给出的损失函数一致,λ为该项损失对应的权重参数。Lp可以由如下公式表示:
Figure BDA0003005583020000074
其中nl
Figure BDA0003005583020000075
的元素数,
Figure BDA0003005583020000076
为根据过去的t帧预测得到的第t+1帧的金字塔特征,
Figure BDA0003005583020000077
是从对应视频帧中提取的真实特征。
如图3所示,在另一个实施例中,提供了一种长期记忆学习的多通道神经网系统,包括特征提取模块、特征预测模块和输出模块;
所述特征提取模块利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
所述特征预测模块将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
所述输出模块将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中得到实例分割预测结果。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,该系统是应用于上述实施例的长期记忆学习的多通道神经网方法。
如图4所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现上述实施例的长期记忆学习的多通道神经网方法,具体为:
S1、利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
S2、特征预测,多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
S3、将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种长期记忆学习的多通道神经网方法,其特征在于,包括下述步骤:
利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
特征预测,将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
2.根据权利要求1所述的一种长期记忆学习的多通道神经网方法,其特征在于,所述利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征具体为:
将已观察到的过去T帧的RGB图像经过特征金字塔网络,得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。
3.根据权利要求1所述的一种长期记忆学习的多通道神经网方法,其特征在于,所述未来帧的多层金字塔特征的预测结果具体为:
FT+ΔT=Θ(F1,F2,...,FT);
其中,映射Θ的输入是从过去观察到的帧中提取出来的多层金字塔特征,Ft表示从第t帧中提取的共计L层的金字塔特征
Figure FDA0003005583010000011
Figure FDA0003005583010000012
表示从第t帧中提取出的第l层金字塔特征,映射Θ的输出是未来帧的多层金字塔特征的预测结果。
4.根据权利要求1所述的一种长期记忆学习的多通道神经网方法,其特征在于,对于每个ConvLSTM的单元,其内部结构如下式:
Figure FDA0003005583010000013
Figure FDA0003005583010000014
Figure FDA0003005583010000015
Figure FDA0003005583010000016
Figure FDA0003005583010000017
Figure FDA0003005583010000018
其中*是卷积运算,⊙表示点乘,
Figure FDA0003005583010000019
Figure FDA00030055830100000110
分别是t时刻的输入门、遗忘门和输出门,
Figure FDA00030055830100000111
是控制输入-状态转换的卷积核,
Figure FDA00030055830100000112
是控制输出-状态转换的卷积核,其中c是通道数,k表示内核大小的超参数,
Figure FDA00030055830100000113
是相应的偏置项,
Figure FDA00030055830100000114
是模型在t时刻输出的预测特征,σ表示sigmoid操作,
Figure FDA00030055830100000115
Figure FDA00030055830100000116
Figure FDA00030055830100000117
计算得到的计算细胞状态
Figure FDA00030055830100000118
时作为
Figure FDA00030055830100000119
的权重,
Figure FDA00030055830100000120
是第l层第t个ConvLSTM单元的细胞状态,
Figure FDA00030055830100000212
是从第t帧中提取出的第l层金字塔特征。
5.根据权利要求1所述的一种长期记忆学习的多通道神经网方法,其特征在于,所述路径连接法具体为:
Figure FDA0003005583010000021
Figure FDA0003005583010000022
Figure FDA0003005583010000023
其中,Wv,l是控制从ConvLSTM-v到ConvLSTM-l的信息传递的模型参数,
Figure FDA0003005583010000024
表示对
Figure FDA0003005583010000025
使用了采样操作,使得
Figure FDA0003005583010000026
的分辨率与
Figure FDA0003005583010000027
的分辨率一致,Av,l是基于自注意力机制设计的响应图。
6.根据权利要求5所述的一种长期记忆学习的多通道神经网方法,其特征在于,所述
Figure FDA00030055830100000213
指的是第l层第t个ConvLSTM单元的细胞状态输入,具体为:
计算第l层第t个ConvLSTM单元的细胞状态输入时,在第l层第t-1个ConvLSTM单元的细胞状态输出的基础上,采用注意力机制引入第l-1层第t-1个ConvLSTM单元的细胞状态和第l+1层第t-1个ConvLSTM单元的细胞状态的有用信息。
7.根据权利要求1所述的一种长期记忆学习的多通道神经网方法,其特征在于,其损失函数具体为:
L=Lp+λLMaskR-CNN
其中,LMaskR-CNN由分类损失、边界框定位损失和分割损失组成;λ为该项损失对应的权重参数。
8.根据权利要求7所述的一种长期记忆学习的多通道神经网方法,其特征在于,所述Lp由如下公式定义:
Figure FDA0003005583010000028
其中nl
Figure FDA0003005583010000029
的元素数,
Figure FDA00030055830100000210
为根据过去的t帧预测得到的第t+1帧的金字塔特征,
Figure FDA00030055830100000211
是从对应视频帧中提取的真实特征。
9.一种长期记忆学习的多通道神经网系统,其特征在于,应用于权利要求1-8中任一项所述的一种长期记忆学习的多通道神经网方法,包括特征提取模块、特征预测模块和输出模块;
所述特征提取模块利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
所述特征预测模块将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
所述输出模块将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中得到实例分割预测结果。
10.一种存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-8任一项所述的一种长期记忆学习的多通道神经网方法。
CN202110361125.7A 2021-04-02 2021-04-02 一种基于长期记忆学习的多通道神经网络实例分隔方法 Active CN113065650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110361125.7A CN113065650B (zh) 2021-04-02 2021-04-02 一种基于长期记忆学习的多通道神经网络实例分隔方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110361125.7A CN113065650B (zh) 2021-04-02 2021-04-02 一种基于长期记忆学习的多通道神经网络实例分隔方法

Publications (2)

Publication Number Publication Date
CN113065650A true CN113065650A (zh) 2021-07-02
CN113065650B CN113065650B (zh) 2023-11-17

Family

ID=76565476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110361125.7A Active CN113065650B (zh) 2021-04-02 2021-04-02 一种基于长期记忆学习的多通道神经网络实例分隔方法

Country Status (1)

Country Link
CN (1) CN113065650B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932013A (zh) * 2023-09-15 2023-10-24 广州市桂勤器械设备工程有限公司 基于人工智能的医用气体设备运行系统更新方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388879A (zh) * 2018-03-15 2018-08-10 斑马网络技术有限公司 目标的检测方法、装置和存储介质
US20190156210A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Machine-Learning Models Based on Non-local Neural Networks
JP2019124539A (ja) * 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110222595A (zh) * 2019-05-20 2019-09-10 中国科学院大学 一种基于时空卷积神经网络的视频目标分割方法
CN110610210A (zh) * 2019-09-18 2019-12-24 电子科技大学 一种多目标检测方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
CN111539458A (zh) * 2020-04-02 2020-08-14 咪咕文化科技有限公司 特征图处理方法、装置、电子设备及存储介质
CN112016476A (zh) * 2020-08-31 2020-12-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN112215128A (zh) * 2020-10-09 2021-01-12 武汉理工大学 融合fcos的r-cnn城市道路环境识别方法及装置
US20210026355A1 (en) * 2019-07-25 2021-01-28 Nvidia Corporation Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications
CN112395977A (zh) * 2020-11-17 2021-02-23 南京林业大学 基于身体轮廓和腿部关节骨架的哺乳动物姿态识别方法
CN112528904A (zh) * 2020-12-18 2021-03-19 中山艾尚智同信息科技有限公司 一种用于砂石颗粒物粒径检测系统的图像分割方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
US20190156210A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Machine-Learning Models Based on Non-local Neural Networks
JP2019124539A (ja) * 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
CN108388879A (zh) * 2018-03-15 2018-08-10 斑马网络技术有限公司 目标的检测方法、装置和存储介质
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110222595A (zh) * 2019-05-20 2019-09-10 中国科学院大学 一种基于时空卷积神经网络的视频目标分割方法
US20210026355A1 (en) * 2019-07-25 2021-01-28 Nvidia Corporation Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications
CN110610210A (zh) * 2019-09-18 2019-12-24 电子科技大学 一种多目标检测方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111539458A (zh) * 2020-04-02 2020-08-14 咪咕文化科技有限公司 特征图处理方法、装置、电子设备及存储介质
CN112016476A (zh) * 2020-08-31 2020-12-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN112215128A (zh) * 2020-10-09 2021-01-12 武汉理工大学 融合fcos的r-cnn城市道路环境识别方法及装置
CN112395977A (zh) * 2020-11-17 2021-02-23 南京林业大学 基于身体轮廓和腿部关节骨架的哺乳动物姿态识别方法
CN112528904A (zh) * 2020-12-18 2021-03-19 中山艾尚智同信息科技有限公司 一种用于砂石颗粒物粒径检测系统的图像分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HONGMEISONG: "Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection", 《ECCV2018,HTTPS://OPENACCESS.THECVF.COM/CONTENT_ECCV_2018/PAPERS/HONGMEI_SONG_PSEUDO_PYRAMID_DEEPER_ECCV_2018_PAPER.PDF》 *
HONGMEISONG: "Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection", 《ECCV2018,HTTPS://OPENACCESS.THECVF.COM/CONTENT_ECCV_2018/PAPERS/HONGMEI_SONG_PSEUDO_PYRAMID_DEEPER_ECCV_2018_PAPER.PDF》, 30 December 2018 (2018-12-30), pages 1 - 17 *
肖雨晴 等: "目标检测算法在交通场景中应用综述", 《计算机工程与应用》 *
肖雨晴 等: "目标检测算法在交通场景中应用综述", 《计算机工程与应用》, vol. 57, no. 6, 15 March 2021 (2021-03-15), pages 30 - 41 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932013A (zh) * 2023-09-15 2023-10-24 广州市桂勤器械设备工程有限公司 基于人工智能的医用气体设备运行系统更新方法及系统
CN116932013B (zh) * 2023-09-15 2023-11-21 广州市桂勤器械设备工程有限公司 基于人工智能的医用气体设备运行系统更新方法及系统

Also Published As

Publication number Publication date
CN113065650B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
Li et al. Neuromorphic data augmentation for training spiking neural networks
AU2019451948B2 (en) Real-time video ultra resolution
CN111275713B (zh) 一种基于对抗自集成网络的跨域语义分割方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN113011562B (zh) 一种模型训练方法及装置
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
US20180285689A1 (en) Rgb-d scene labeling with multimodal recurrent neural networks
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
JP2022510622A (ja) 画像処理モデルの訓練方法、画像処理方法、ネットワーク機器、及び記憶媒体
Fang et al. Survey on the application of deep reinforcement learning in image processing
CN115393687A (zh) 一种基于双伪标签优化学习的rgb图像半监督目标检测方法
US12100169B2 (en) Sparse optical flow estimation
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
KR102357000B1 (ko) 인공 신경망 기반의 비정제 동영상에서의 행동 인식 방법 및 장치
CN113128360A (zh) 基于深度学习的司机驾驶行为检测与识别方法
Jung et al. Goal-directed behavior under variational predictive coding: Dynamic organization of visual attention and working memory
McIntosh et al. Recurrent segmentation for variable computational budgets
CN117237756A (zh) 一种训练目标分割模型的方法、目标分割方法及相关装置
Dahirou et al. Motion Detection and Object Detection: Yolo (You Only Look Once)
CN111242870A (zh) 一种基于深度学习知识蒸馏技术的低光图像增强方法
CN113065650B (zh) 一种基于长期记忆学习的多通道神经网络实例分隔方法
CN112907621B (zh) 一种基于差分和语义信息融合的运动目标提取方法
CN116597144A (zh) 一种基于事件相机的图像语义分割方法
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant