CN113065650A - 一种长期记忆学习的多通道神经网方法 - Google Patents
一种长期记忆学习的多通道神经网方法 Download PDFInfo
- Publication number
- CN113065650A CN113065650A CN202110361125.7A CN202110361125A CN113065650A CN 113065650 A CN113065650 A CN 113065650A CN 202110361125 A CN202110361125 A CN 202110361125A CN 113065650 A CN113065650 A CN 113065650A
- Authority
- CN
- China
- Prior art keywords
- pyramid
- convlstm
- layer
- term memory
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 230000007787 long-term memory Effects 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000001413 cellular effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 65
- 238000010586 diagram Methods 0.000 description 4
- 239000011229 interlayer Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种长期记忆学习的多通道神经网方法,通过FPN提取已观察的过去帧的图像特征,并依次经过基于ConvLSTM的实例分割预测网络、Mask R‑CNN head得到实例分割预测结果。本发明挖掘了各层级间的金字塔特征之间存在的内在联系,利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模,模型中用ConvLSTM来捕捉对应的金字塔特征层级内部的时空联系,通过增加ConvLSTM之间的路径连接使得不同层级间可以相互传递语义信息,克服了现有技术根据观察到的过去帧中提取金字塔特征的过程中每个层级的金字塔特征都是独立预测的缺陷,进而提高特征预测的准确度。
Description
技术领域
本发明属于人工智能、计算机视觉和实例分割预测的技术领域,具体涉及一种长期记忆学习的多通道神经网方法。
背景技术
实例分割是指对给定图像或视频中出现的所有感兴趣的物体进行实例级别的语义分割,相比于仅区分每个像素类别的语义分割难度更大。实例分割既要区分不同物体的类别,同时要区分同一类别的不同物体。近年来实例分割问题得到了广泛的关注和研究,其中基于深度学习的方法取得了显著的成功。现有的方法大多数都是通过学习空间语义信息的特征表示实现对于图像中物体的实例分割。例如Dai J.等人提出利用图像像素与实例之间的相对位置关系产生实例级别的分割候选对象。He K.等人在Faster R-CNN中增加一个新的分支用于预测对象的掩模,与已有的物体边界框检测和分类分支共同实现实例分割。Liu Y.等人提出通过自下而上的路径聚合来增强空间维度的层间语义信息。
上述方法大多是针对事后实例分割任务,即其中待分割的图像是已经获取到的,但是在现实生活中,人们往往希望在获取到相应的图像之前就得到未来的实例分割预测结果,例如在自动驾驶中实例分割预测是预测汽车在未来是否会与其他物体发生碰撞的基础技术,在这些类似的任务中实例分割预测比事后实例分割显得更加重要。现有的工作主要是基于深度学习模型的卷积神经网络(CNN)和递归神经网络(rCNN)预测未来帧。例如,Ranzato M.等人使用递归卷积神经网络(rCNN)预测未来帧,以此捕获更多的空间语义信息。Oh J.等人使用CNN和RNN构建了编码-转换-解码的网络结构,直接生成未来视频帧中的像素值。而在语义分割预测和实例分割预测上,Luc P.等人根据观察到的过去视频帧中提取的sofmax操作后的激活值来预测未来帧的sofmax操作后的激活值,进而生成未来视频的语义分割预测结果。Luc P.等人更进一步地提出了一个更有挑战性的预测视频中未来的实例分割结果的任务,并设计了特征分辨率保持不变的CNN模型F2F预测未来帧的金字塔特征来解决该问题。
上述方法主要是对空间和时间两个维度的表现变化进行建模,最新的方法由LucP.等人提出,他们的方法根据观察到的过去帧中提取的金字塔特征来预测未来帧的金字塔特征,然而其中各个层级的金字塔特征都是独立预测的,使得不同金字塔层级特征之间的内在联系被忽略,而实际上金字塔特征之间存在着紧密的内在联系,不同层的特征有着不同的分辨率和感受野,这使得不同层的特征描述了同一图像的不同方面。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种长期记忆学习的多通道神经网方法,利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模,并可以与Mask R-CNN(mask region convolutional neural network)head和特征金字塔网络(feature pyramid network,以下简称FPN)特征提取器联合优化,组成端到端的联合学习系统,实现实例分割预测。
为了达到上述目的,本发明采用以下技术方案:
本发明提供了一种长期记忆学习的多通道神经网方法,包括下述步骤:
S1、利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
S2、特征预测,将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
S3、将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
作为优选的技术方案,所述利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征具体为:
将已观察到的过去T帧的RGB图像经过特征金字塔网络,得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。
作为优选的技术方案,所述未来帧的多层金字塔特征的预测结果具体为:
FT+ΔT=Θ(F1,F2,...,FT);
作为优选的技术方案,对于每个ConvLSTM的单元,其内部结构如下式:
其中*是卷积运算,⊙表示点乘,和分别是t时刻的输入门、遗忘门和输出门,是控制输入-状态转换的卷积核,是控制输出-状态转换的卷积核,其中c是通道数,k表示内核大小的超参数,是相应的偏置项,是模型在t时刻输出的预测特征,σ表示sigmoid操作,由和计算得到的计算细胞状态时作为的权重,是第l层第t个ConvLSTM单元的细胞状态,是从第t帧中提取出的第l层金字塔特征。
作为优选的技术方案,所述路径连接法具体为:
计算第l层第t个ConvLSTM单元的细胞状态输入时,在第l层第t-1个ConvLSTM单元的细胞状态输出的基础上,采用注意力机制引入了第l-1层第t-1个ConvLSTM单元的细胞状态和第l+1层第t-1个ConvLSTM单元的细胞状态的有用信息。
作为优选的技术方案,其损失函数具体为:
L=Lp+λLMaskR-CNN,
其中,LMaskR-CNN由分类损失、边界框定位损失和分割损失组成;λ为该项损失对应的权重参数。
作为优选的技术方案,所述Lp由如下公式定义:
本发明还提供了一种长期记忆学习的多通道神经网系统,包括特征提取模块、特征预测模块和输出模块;
所述特征提取模块利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
所述特征预测模块将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
所述输出模块将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中得到实例分割预测结果。
本发明还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现所述的一种长期记忆学习的多通道神经网方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明挖掘了各层级间的金字塔特征之间存在的内在联系,利用包含时空语义信息的金字塔特征对视频中的表现变化进行建模,模型中用ConvLSTM来捕捉对应的金字塔特征层级内部的时空联系,通过增加ConvLSTM之间的路径连接使得不同层级间可以相互传递语义信息,克服了现有技术根据观察到的过去帧中提取金字塔特征的过程中每个层级的金字塔特征都是独立预测的缺陷,进而提高特征预测的准确度。
附图说明
图1是本发明实施例的基于ConvLSTM的实例分割预测模型的结构示意图;
图2是本发明实施例的实例分割预测模型中的基本单元的结构示意图;
图3是本发明实施例的长期记忆学习的多通道神经网系统的结构示意图;
图4是本发明实施例的存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本发明提供了一种长期记忆学习的多通道神经网方法,包括以下步骤
S1、利用FPN提取已观察的过去帧的RGB图像的多层金字塔特征;
更为具体的,步骤S1中,所述利用FPN提取已观察的过去帧的RGB图像的特征具体为:
将已观察到的过去T帧的RGB图像经过FPN,得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。以图1中的模型框架为例,每张已观察到的图像经过FPN,生成4层不同分辨率的金字塔特征。
S2、特征预测,将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络(以下简称ConvLSTM)的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于ConvLSTM的实例分割预测网络包括L层的ConvLSTM,每层ConvLSTM包括x个单元;
更为具体的,步骤S2中,特征预测部分本发明设计了一个基于ConvLSTM的实例分割预测网络来预测未来的特征,模型框架如图1中间的基于ConvLSTM的实例分割预测网络所示。预测得到的未来帧的多层金字塔特征的预测结果为:
FT+ΔT=Θ(F1,F2,...,FT); (1)
其中,映射Θ的输入是从过去观察到的帧中提取出来的多层金字塔特征,Ft表示从第t帧中提取的共计L层的金字塔特征 表示从第t帧中提取出的第l层金字塔特征。不同金字塔层级的特征从不同的方面描述了观察到的视频帧。一般情况下来自较高金字塔层级的特征具有较小的分辨率和较大的感受野。映射Θ的输出是对未来帧的多层金字塔特征的预测结果。
更为具体的,步骤S2中,利用ConvLSTM来建模金字塔特征同一层级内部的时空关系,
对于某个层级内的特征,我们采用一个ConvLSTM来捕获该层内部的时空语义信息,因此对于整个模型来说一共由L个ConvLSTM组成。对第l层的金字塔特征进行预测的ConvLSTM每个单元内部结构如图2框中内部结构所示,如下式:
其中*是卷积运算,⊙表示点乘,和分别是t时刻的输入门、遗忘门和输出门,是控制输入-状态转换的卷积核,是控制输出-状态转换的卷积核,其中c是通道数,k表示内核大小的超参数,是相应的偏置项。是模型在t时刻输出的预测特征,σ表示sigmoid操作。由和计算得到的计算细胞状态时作为的权重,是第l层第t个ConvLSTM单元的细胞状态,是从第t帧中提取出的第l层金字塔特征。在本发明中采用的ConvLSTM是分辨率保持的神经网络。
更为具体的,步骤S2中,在不同层级间也引入路径连接以捕捉层间时空语义信息。
对于不同层的ConvLSTM,本发明引入路径连接来传递不同金字塔层级的特征间的语义信息,如图1中的基于ConvLSTM的实例分割预测网络所示,位于同一水平线上的单元连接表示同一层级的ConvLSTM的层级内连接,位于不同水平线上的单元连接表示不同层间的语义信息传递,分为从高分辨率向低分辨率传递和低分辨率向高分辨率传递两个方向。对于第l层ConvLSTM中的单元,它接受来自其他单元的信息,例如第l层的ConvLSTM中的第t个单元,它接受的信息包括t时刻第l层的特征和前一个时刻的输出以及相邻层上一时刻的细胞状态信息传递的路径连接可用公式表示如下:
其中Wv,l是控制从ConvLSTM-v到ConvLSTM-/的信息传递的模型参数,约束v=l+1或v=l-1表明信息传递只在相邻层级间进行。高层级的特征往往具有较小的分辨率和较大的感受野,而低层特征具有较大的分辨率和较小的感受野,两者的互补可以更加充分地利用层间语义信息。表示对使用了采样操作,使得的分辨率与的分辨率一致。当v>l时使用了上采样操作(双线性插值),当v<l时使用了下采样操作(最大值池化)。Av,l是基于自注意力机制设计的响应图,以此选择性地从ConvLSTM-v传递一些有用的可以增强ConvLSTM-l的信息。指的是第l层第t个ConvLSTM单元的细胞状态输入,其计算方式如公式所示,也是所述路径连接法的创新之处。路径连接法的创新之处在于原始的ConvLSTM第l层第t个ConvLSTM单元的细胞状态输入即为第l层第t-1个ConvLSTM单元的细胞状态输出这样就只存在同一层ConvLSTM不同时刻之间的联系,即同一层级金字塔特征内部的时空语义信息。此处本发明在计算第l层第t个ConvLSTM单元的细胞状态输入时,在第l层第t-1个ConvLSTM单元的细胞状态输出的基础上,采用注意力机制引入了第l-1层第t-1个ConvLSTM单元的细胞状态和第l+1层第t-1个ConvLSTM单元的细胞状态的有用信息,以此打通了不同层级之间ConvLSTM之间的关联关系。其他的变量 和与公式(2)相同。
综上,特征预测部分的ConvLSTM的基本单元结构如图2所示,特征预测由层内信息传递(公式(2))和层间信息传递(公式(3))两部分组成,输入为从过去观察到的帧中提取出来的金字塔特征,输出为对未来帧的金字塔特征的预测结果。
S3、将步骤2中生成的对未来帧的金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
特别的,在本实施例的训练中,目标为最小化损失函数:
L=Lp+λLMaskR-CNN, (4)
其中,LMaskR-CNN由分类损失、边界框定位损失和分割损失组成,定义与He K.等人给出的损失函数一致,λ为该项损失对应的权重参数。Lp可以由如下公式表示:
如图3所示,在另一个实施例中,提供了一种长期记忆学习的多通道神经网系统,包括特征提取模块、特征预测模块和输出模块;
所述特征提取模块利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
所述特征预测模块将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
所述输出模块将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中得到实例分割预测结果。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,该系统是应用于上述实施例的长期记忆学习的多通道神经网方法。
如图4所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现上述实施例的长期记忆学习的多通道神经网方法,具体为:
S1、利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
S2、特征预测,多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
S3、将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种长期记忆学习的多通道神经网方法,其特征在于,包括下述步骤:
利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
特征预测,将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中即得实例分割预测结果。
2.根据权利要求1所述的一种长期记忆学习的多通道神经网方法,其特征在于,所述利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征具体为:
将已观察到的过去T帧的RGB图像经过特征金字塔网络,得到所述T帧的RGB图像分别对应的L层不同分辨率的多层金字塔特征。
7.根据权利要求1所述的一种长期记忆学习的多通道神经网方法,其特征在于,其损失函数具体为:
L=Lp+λLMaskR-CNN,
其中,LMaskR-CNN由分类损失、边界框定位损失和分割损失组成;λ为该项损失对应的权重参数。
9.一种长期记忆学习的多通道神经网系统,其特征在于,应用于权利要求1-8中任一项所述的一种长期记忆学习的多通道神经网方法,包括特征提取模块、特征预测模块和输出模块;
所述特征提取模块利用特征金字塔网络提取已观察的过去帧的RGB图像的多层金字塔特征;
所述特征预测模块将过去帧的RGB图像的多层金字塔特征经过基于卷积长短期记忆网络的实例分割预测网络,得到未来帧的多层金字塔特征的预测结果;所述基于卷积长短期记忆网络的实例分割预测网络包括L层的卷积长短期记忆网络ConvLSTM,每层ConvLSTM包括x个单元,每一层ConvLSTM用于表征同一层级金字塔特征内部的时空语义信息,不同ConvLSTM层级通过路径连接法捕捉层间时空语义信息;
所述输出模块将未来帧的多层金字塔特征的预测结果输入到Mask R-CNN head中得到实例分割预测结果。
10.一种存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-8任一项所述的一种长期记忆学习的多通道神经网方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361125.7A CN113065650B (zh) | 2021-04-02 | 2021-04-02 | 一种基于长期记忆学习的多通道神经网络实例分隔方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361125.7A CN113065650B (zh) | 2021-04-02 | 2021-04-02 | 一种基于长期记忆学习的多通道神经网络实例分隔方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065650A true CN113065650A (zh) | 2021-07-02 |
CN113065650B CN113065650B (zh) | 2023-11-17 |
Family
ID=76565476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110361125.7A Active CN113065650B (zh) | 2021-04-02 | 2021-04-02 | 一种基于长期记忆学习的多通道神经网络实例分隔方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065650B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932013A (zh) * | 2023-09-15 | 2023-10-24 | 广州市桂勤器械设备工程有限公司 | 基于人工智能的医用气体设备运行系统更新方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388879A (zh) * | 2018-03-15 | 2018-08-10 | 斑马网络技术有限公司 | 目标的检测方法、装置和存储介质 |
US20190156210A1 (en) * | 2017-11-17 | 2019-05-23 | Facebook, Inc. | Machine-Learning Models Based on Non-local Neural Networks |
JP2019124539A (ja) * | 2018-01-15 | 2019-07-25 | キヤノン株式会社 | 情報処理装置及びその制御方法及びプログラム |
CN110119709A (zh) * | 2019-05-11 | 2019-08-13 | 东南大学 | 一种基于时空特性的驾驶员行为识别方法 |
CN110222595A (zh) * | 2019-05-20 | 2019-09-10 | 中国科学院大学 | 一种基于时空卷积神经网络的视频目标分割方法 |
CN110610210A (zh) * | 2019-09-18 | 2019-12-24 | 电子科技大学 | 一种多目标检测方法 |
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
US10713794B1 (en) * | 2017-03-16 | 2020-07-14 | Facebook, Inc. | Method and system for using machine-learning for object instance segmentation |
CN111539458A (zh) * | 2020-04-02 | 2020-08-14 | 咪咕文化科技有限公司 | 特征图处理方法、装置、电子设备及存储介质 |
CN112016476A (zh) * | 2020-08-31 | 2020-12-01 | 山东大学 | 由目标检测引导的复杂交通视觉显著性预测方法及系统 |
CN112215128A (zh) * | 2020-10-09 | 2021-01-12 | 武汉理工大学 | 融合fcos的r-cnn城市道路环境识别方法及装置 |
US20210026355A1 (en) * | 2019-07-25 | 2021-01-28 | Nvidia Corporation | Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications |
CN112395977A (zh) * | 2020-11-17 | 2021-02-23 | 南京林业大学 | 基于身体轮廓和腿部关节骨架的哺乳动物姿态识别方法 |
CN112528904A (zh) * | 2020-12-18 | 2021-03-19 | 中山艾尚智同信息科技有限公司 | 一种用于砂石颗粒物粒径检测系统的图像分割方法 |
-
2021
- 2021-04-02 CN CN202110361125.7A patent/CN113065650B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10713794B1 (en) * | 2017-03-16 | 2020-07-14 | Facebook, Inc. | Method and system for using machine-learning for object instance segmentation |
US20190156210A1 (en) * | 2017-11-17 | 2019-05-23 | Facebook, Inc. | Machine-Learning Models Based on Non-local Neural Networks |
JP2019124539A (ja) * | 2018-01-15 | 2019-07-25 | キヤノン株式会社 | 情報処理装置及びその制御方法及びプログラム |
CN108388879A (zh) * | 2018-03-15 | 2018-08-10 | 斑马网络技术有限公司 | 目标的检测方法、装置和存储介质 |
CN110119709A (zh) * | 2019-05-11 | 2019-08-13 | 东南大学 | 一种基于时空特性的驾驶员行为识别方法 |
CN110222595A (zh) * | 2019-05-20 | 2019-09-10 | 中国科学院大学 | 一种基于时空卷积神经网络的视频目标分割方法 |
US20210026355A1 (en) * | 2019-07-25 | 2021-01-28 | Nvidia Corporation | Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications |
CN110610210A (zh) * | 2019-09-18 | 2019-12-24 | 电子科技大学 | 一种多目标检测方法 |
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
CN111539458A (zh) * | 2020-04-02 | 2020-08-14 | 咪咕文化科技有限公司 | 特征图处理方法、装置、电子设备及存储介质 |
CN112016476A (zh) * | 2020-08-31 | 2020-12-01 | 山东大学 | 由目标检测引导的复杂交通视觉显著性预测方法及系统 |
CN112215128A (zh) * | 2020-10-09 | 2021-01-12 | 武汉理工大学 | 融合fcos的r-cnn城市道路环境识别方法及装置 |
CN112395977A (zh) * | 2020-11-17 | 2021-02-23 | 南京林业大学 | 基于身体轮廓和腿部关节骨架的哺乳动物姿态识别方法 |
CN112528904A (zh) * | 2020-12-18 | 2021-03-19 | 中山艾尚智同信息科技有限公司 | 一种用于砂石颗粒物粒径检测系统的图像分割方法 |
Non-Patent Citations (4)
Title |
---|
HONGMEISONG: "Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection", 《ECCV2018,HTTPS://OPENACCESS.THECVF.COM/CONTENT_ECCV_2018/PAPERS/HONGMEI_SONG_PSEUDO_PYRAMID_DEEPER_ECCV_2018_PAPER.PDF》 * |
HONGMEISONG: "Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection", 《ECCV2018,HTTPS://OPENACCESS.THECVF.COM/CONTENT_ECCV_2018/PAPERS/HONGMEI_SONG_PSEUDO_PYRAMID_DEEPER_ECCV_2018_PAPER.PDF》, 30 December 2018 (2018-12-30), pages 1 - 17 * |
肖雨晴 等: "目标检测算法在交通场景中应用综述", 《计算机工程与应用》 * |
肖雨晴 等: "目标检测算法在交通场景中应用综述", 《计算机工程与应用》, vol. 57, no. 6, 15 March 2021 (2021-03-15), pages 30 - 41 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932013A (zh) * | 2023-09-15 | 2023-10-24 | 广州市桂勤器械设备工程有限公司 | 基于人工智能的医用气体设备运行系统更新方法及系统 |
CN116932013B (zh) * | 2023-09-15 | 2023-11-21 | 广州市桂勤器械设备工程有限公司 | 基于人工智能的医用气体设备运行系统更新方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113065650B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Neuromorphic data augmentation for training spiking neural networks | |
AU2019451948B2 (en) | Real-time video ultra resolution | |
CN111275713B (zh) | 一种基于对抗自集成网络的跨域语义分割方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN113011562B (zh) | 一种模型训练方法及装置 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
US20180285689A1 (en) | Rgb-d scene labeling with multimodal recurrent neural networks | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
JP2022510622A (ja) | 画像処理モデルの訓練方法、画像処理方法、ネットワーク機器、及び記憶媒体 | |
Fang et al. | Survey on the application of deep reinforcement learning in image processing | |
CN115393687A (zh) | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 | |
US12100169B2 (en) | Sparse optical flow estimation | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
KR102357000B1 (ko) | 인공 신경망 기반의 비정제 동영상에서의 행동 인식 방법 및 장치 | |
CN113128360A (zh) | 基于深度学习的司机驾驶行为检测与识别方法 | |
Jung et al. | Goal-directed behavior under variational predictive coding: Dynamic organization of visual attention and working memory | |
McIntosh et al. | Recurrent segmentation for variable computational budgets | |
CN117237756A (zh) | 一种训练目标分割模型的方法、目标分割方法及相关装置 | |
Dahirou et al. | Motion Detection and Object Detection: Yolo (You Only Look Once) | |
CN111242870A (zh) | 一种基于深度学习知识蒸馏技术的低光图像增强方法 | |
CN113065650B (zh) | 一种基于长期记忆学习的多通道神经网络实例分隔方法 | |
CN112907621B (zh) | 一种基于差分和语义信息融合的运动目标提取方法 | |
CN116597144A (zh) | 一种基于事件相机的图像语义分割方法 | |
CN110942463A (zh) | 一种基于生成对抗网络的视频目标分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |