CN109191498B - 基于动态记忆和运动感知的目标检测方法及系统 - Google Patents

基于动态记忆和运动感知的目标检测方法及系统 Download PDF

Info

Publication number
CN109191498B
CN109191498B CN201811028891.6A CN201811028891A CN109191498B CN 109191498 B CN109191498 B CN 109191498B CN 201811028891 A CN201811028891 A CN 201811028891A CN 109191498 B CN109191498 B CN 109191498B
Authority
CN
China
Prior art keywords
feature map
dynamic memory
frame image
target
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811028891.6A
Other languages
English (en)
Other versions
CN109191498A (zh
Inventor
廖胜才
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201811028891.6A priority Critical patent/CN109191498B/zh
Publication of CN109191498A publication Critical patent/CN109191498A/zh
Application granted granted Critical
Publication of CN109191498B publication Critical patent/CN109191498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior

Abstract

本发明属于计算机视觉技术领域,具体涉及一种基于动态记忆和运动感知的目标检测方法及装置,旨在解决因视频虚检而引起的目标检测准确率较低的问题。该方法包括:利用神经网络获取目标视频中当前帧图像对应的特征图,并且获取目标候选框;根据分辨率最大的特征图和前一帧图像对应的动态记忆特征图,获取当前帧图像对应的动态记忆特征图;根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图,获取当前帧的运动特征图;将分辨率最大的特征图与当前帧图像的运动特征图进行特征融合得到融合特征图;根据融合特征图获取每个目标候选框的融合特征;利用该融合特征进行目标检测。基于上述方法可以得到更为鲁棒和稳定的目标检测结果。

Description

基于动态记忆和运动感知的目标检测方法及系统
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于动态记忆和运动感知的目标检测方法及系统。
背景技术
目标检测的任务是找出图像或视频中感兴趣的物体,同时检测出它们的位置和大小,是计算机视觉领域的核心问题之一。随着卷积神经网络的应用和发展,基于单帧图像的目标检测已经取得了很大的进步,但是基于视频的目标检测还存在一定的特征困难,比如运动模糊、视频散焦等问题。
目前,主要有两种方式来抑制视频目标检测中的视频虚检情况。第一种方式是利用检测器对视频中每帧图像单独进行检测,然后利用启发式算法对每帧检测结果进行后处理,得到整个视频序列的检测结果,然而这种方式并不能提升单帧图像的检测效果,并且在单帧图像检测结果不理想时,视频检测效果也不理想。第二种方式是采用融合相邻视频帧特征图的方式来增强当前帧的特征图,并且利用增强的特征图进行检测。然而这种方式需要额外的网络架构如光流网络、递归神经网络,因此大大提升了计算负担,难以满足在真实场景下的应用。此外,这些额外的网络架构需要有监督地进行学习,不能显式地构建运动信息。
相应地,本领域需要一种新的目标检测方法及系统来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了解决因视频虚检而引起的目标检测准确率较低的问题,本发明的一方面,提供了一种基于动态记忆和运动感知的目标检测方法,包括:
利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图,并且获取每个所述特征图对应的目标候选框;
根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图;
根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图,获取所述当前帧图像的运动特征图;
将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图;
根据所述融合特征图获取每个所述目标候选框的融合特征;
利用所述神经网络并且根据预设的目标类别与所述融合特征,预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。
进一步地,本发明提供的一个优选技术方案为
在“所述分辨率最大的特征图和预先获取的前一帧对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图”的步骤之前,所述方法还包括:
按照下式所示的方法对所述分辨率最大的特征图进行增强处理:
Figure GDA0002660432470000021
其中,所述cn、cn+1分别表示所述神经网络中第n层、第n+1层卷积层,所述φn、φn+1分别表示所述cn、cn+1对应的特征图,所述
Figure GDA0002660432470000031
是所述φn增强后的特征图,所述dn+1表示与所述cn连接的反卷积层,所述
Figure GDA0002660432470000032
表示逐元素求和操作。
进一步地,本发明提供的一个优选技术方案为:
“根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图”的步骤包括:
按照下式所示的方法获取所述当前帧对应的动态记忆特征图:
Mk=(1-β)φk+βMk-1
其中,所述Mk和Mk-1分别是第k和k-1帧对应的动态记忆特征图,所述φk是第k帧图像对应的所述特定卷积层对应的特征图,所述β是预设的动量系数。
进一步地,本发明提供的一个优选技术方案为:
根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图,获取所述当前帧图像的运动特征图”的步骤包括:
按下式所示的方法计算当前帧图像的运动特征图:
Figure GDA0002660432470000033
其中,所述
Figure GDA0002660432470000034
是所述目标视频中第k帧图像对应的运动特征图,所述Mk是所述目标视频中第k帧图像对应的动态记忆特征图,所述φk是所述目标视频中第k帧图像对应的所述分辨率最大的特征图并且所述Mk与所述φk的分辨率大小一致,所述diff(Mkk)表示将所述Mk中的每个元素与所述φk中对应位置的元素求差值。
进一步地,本发明提供的一个优选技术方案为:
“将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图”的步骤包括:
基于所述分辨率最大的特征图与所述运动特征图,并且按照下式所示的方法得到融合特征图:
Figure GDA0002660432470000041
其中,所述ηk是所述目标视频中第k帧图像对应的融合特征图,“Concat()”表示特征串联操作,所述“Conv()”表示用于特征压缩的卷积层。
本发明的另一方面,还提供了一种基于动态记忆和运动感知的目标检测系统,包括:
特征图获取模块,配置为利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图,并且获取每个所述特征图对应的目标候选框;
动态记忆特征图获取模块,配置为根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图;
运动特征图获取模块,配置为根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图,获取所述当前帧图像的运动特征图;
融合特征图获取模块,配置将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图;
融合特征获取模块,配置为根据所述融合特征图获取每个所述目标候选框的融合特征;
目标检测模块,配置为利用所述神经网络并且根据预设的目标类别与所述融合特征,预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。
进一步地,本发明提供的一个优选技术方案为:
所述系统还包括特征图增强处理模块,所述特征图增强处理模块配置为按照下式所示的方法对所述分辨率最大的特征图进行增强处理:
Figure GDA0002660432470000051
其中,所述cn、cn+1分别表示所述神经网络中第n层、第n+1层卷积层,所述φn、φn+1分别表示所述cn、cn+1对应的特征图,所述
Figure GDA0002660432470000052
是所述φn增强后的特征图,所述dn+1表示与所述cn连接的反卷积层,所述
Figure GDA0002660432470000053
表示逐元素求和操作。
进一步地,本发明提供了一个优选技术方案为:
所述动态记忆特征图获取模块进一步配置为按照下式所示的方法获取所述当前帧对应的动态记忆特征图:
Mk=(1-β)φk+βMk-1
其中,所述Mk和Mk-1分别是第k和k-1帧对应的动态记忆特征图,所述φk是第k帧图像对应的所述分辨率最大的特征图,所述β是预设的动量系数。
进一步地,本发明提供了一个优选技术方案为:
所述运动特征图获取模块进一步配置为按下式所示的方法计算当前帧图像的运动特征图:
Figure GDA0002660432470000061
其中,所述
Figure GDA0002660432470000062
是所述目标视频中第k帧图像对应的运动特征图,所述Mk是所述目标视频中第k帧图像对应的动态记忆特征图,所述φk是所述目标视频中第k帧图像对应的所述分辨率最大的特征图并且所述Mk与所述φk的分辨率大小一致,所述diff(Mkk)表示将所述Mk中的每个元素与所述φk中对应位置的元素求差值。
进一步地,本发明提供了一个优选技术方案为:
所述融合特征图获取模块进一步配置为执行如下操作:
基于所述分辨率最大的特征图与所述运动特征图,并且按照下式所示的方法得到融合特征图:
Figure GDA0002660432470000063
其中,所述ηk是所述目标视频中第k帧图像对应的融合特征图,所述“Concat()”表示特征串联操作,所述“Conv()”表示用于特征压缩的卷积层。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
本发明的基于动态记忆和运动感知的目标检测方法主要包括如下步骤:利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图,并且获取每个特征图对应的目标候选框;根据分辨率最大的特征图和预先获取的前一帧图像对应的目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图;根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图,获取当前帧图像的运动特征图;将分辨率最大的特征图与运动特征图进行特征融合得到融合特征图;根据融合特征图获取每个目标候选框的融合特征;利用神经网络并且根据预设的目标类别与所述融合特征,预测相应目标候选框对应的目标类别以及目标候选框在当前帧图像中对应的位置信息。基于上述方法能够解决视频质量下降(如运动模糊、视频散焦等)情况下的鲁棒检测问题。
进一步地,本发明方法中通过动态记忆特征图对目标的运动信息进行建模,基于该运动信息的目标检测能够有效抑制真实场景下的视频虚检的问题。再者,本发明中动态记忆特征图的算法计算速度快、内存消耗少、运用灵活,可以嵌入到当前绝大多数的目标检测网络框架,实现端到端地训练和测试,大大减低了训练和测试的难度。
进一步地,本发明方法中利用特定卷积层对应的特征图与运动特征图的融合特征进行目标检测,即在卷积层输出的特征图基础上引入运动信息,可以更好地指导卷积层的特征学习,信息利用更加充分,检测结果更加可靠。
附图说明
图1是本发明实施例中一种基于动态记忆和运动感知的目标检测方法主要步骤示意图;
图2是本发明实施例中一种基于动态记忆和运动感知的目标检测方法流程示意图;
图3是本发明实施例中动态记忆特征图更新流程示意图;
图4是本发明实施例中不同特征图的可视化示意图;
图5是本发明实施例中一种分离-转换-融合模块的网络架构示意图;
图6本发明实施例中一种基于动态记忆和运动感知的目标检测系统主要结构示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在视频序列中隐含着大量的时间上下文信息,如果能够深入挖掘这一信息,将会对视频运动目标检测带来很大的帮助,卷积神经网络中往往包含着大量的卷积层和池化层,并且卷积层输出的特征图已经构建了图像中的空间上下文信息,然而视频序列中的时间上下文信息却无法得到充分挖掘,本发明通过运动特征图对运动信息建模,从而更好挖掘视频序列中的时间上下文信息,以此提高目标检测的准确率。下面结合附图,对本发明的基于动态记忆和运动感知的目标检测方法进行说明。
参阅附图1,附图1示例性示出了本发明实施例中基于动态记忆和运动感知的目标检测方法的主要步骤,如图1所示,本实施例中的基于动态记忆和运动感知的目标检测方法可以包括下述步骤:
步骤S101:利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图,并且获取每个特征图对应的目标候选框。
具体地,利用预先构建的神经网络,并且按照公式(1)所示的方法计算当前帧图像对应的不同分辨率的特征图:
φn=fnn-1)=fn(fn-1(…f1(I))) (1)
其中,I是当前帧图像,“fn()”表示神经网络中第n个卷积层,φn是卷积神经网络中第n个卷积层提取的特征图。这些特征图随着网络深度的不断下采样,分辨率逐渐降低但判别了逐渐加强。
“获取每个所述特征图对应的目标候选框”的步骤包括:获取每个特征图上预先设定的目标初始框;计算每个特征图上每个目标初始框的分类得分和位置回归值;选取分类得分大于等于预设的得分阈值并且利用位置回归值微调后的目标初始框作为相应特征图的目标候选框。需要说明的是,分类得分值是目标初始框内是否包含目标的置信度分数,位置回归值即位置回归预测的目标真实位置与目标初始框之间的偏差,微调的目的是将预测的偏差加载到目标初始框的位置上,得到更加接近真实位置的目标候选框。本实施例中,可以在获取的不同分辨率的特征图上铺设不同尺度大小的目标初始框,并且按照公式(2)所示的方法生成目标候选框:
P=F(pnn,Bn),pn-1n-1,Bn-1),…pn-mn-m,Bn-m)) (2)
其中,n>m>0,Bn是神经网络中第n个卷积层上预定义的目标初始框,φn是卷积神经网络中第n个卷积层提取的特征图,“F()”表示利用非极大值抑制法对目标初始框进性后处理操作,即选取分类得分大于等于预设的得分阈值并且利用位置回归值微调后的目标初始框作为相应特征图的目标候选框,“pn()”表示基于第n个卷积层上预设的目标初始框Bn和第n个卷积层提取的特征图φn计算分类得分值和位置回归值,并且pnn,Bn)={clsnn,Bn),regrnn,Bn)},其中“clsn()”用于计算第n个卷积层对应的预测目标初始框的分类得分值,“regrn()”用于计算第n个卷积层对应的预测目标初始框的位置回归值。
参阅附图2,图2示例性示出了本实施例中基于动态记忆和运动感知的目标检测方法的主要流程,如图2所示,本实施例中的神经网络是基于RestNet-50构建,并且是在ImageNet上预训练好的一个神经网络模型。该神经网络首先对当前帧图像进行特征图提取并获取目标候选框;利用当前帧图像对应的分辨率最大的特征图以移动平均的方式更新动态记忆特征图,随着视频序列帧数的不断增加,视频帧图像中的场景信息逐渐保留下来;根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图,并且通过差值的方式获取当前帧图像的运动特征图;将当前帧图像的运动特征和分辨率最大的特征图在通道维上串联起来就得到了融合了运动信息和外观信息的融合特征,利用该融合特征进行目标检测,可以更好地去除虚检,得到更为鲁棒和稳定的视频运动目标检测结果。
步骤S102:根据分辨率最大的特征图和预先获取的前一帧图像对应的目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图。
继续参阅附图2,在上述步骤S102之前,还可以包括对分辨率最大的特征图进行增强处理的步骤,本实施例中,选用第3层卷积层、第4层卷积层并采用侧边连接反卷积层的方式进行特征增强处理,更进一步地,可以按照公式(3)所示方法对分辨率最大的特征图进行增强处理:
Figure GDA0002660432470000101
其中,cn、cn+1分别表示神经网络中第n层、第n+1层卷积层,φn、φn+1分别表示cn、cn+1对应的特征图,
Figure GDA0002660432470000111
是φn增强后的特征图,dn+1表示与cn侧边连接的反卷积层,
Figure GDA0002660432470000112
表示逐元素求和操作。在本实施中分辨率最大的特征图是第3层卷积层提取的特征图,所以n=3,并且基于相同的方法本实施例还对第4层卷积层提取的特征图进行了增强处理用于生成目标候选框。
此外,本实施例中上述神经网络还在第5层卷积层后顺次连接了一层步长为2的第6层卷积层,该卷积层用于检测尺度较大的目标。所以,最终用于生成目标候选框的特征图为
Figure GDA0002660432470000113
分辨率分别较输入图像降低了8、16、32、64倍,每个卷积层的通道数为256。
进一步地,根据当前帧对应的动态记忆特征图和特定卷积层对应的特征图,并且按照公式(4)所示的方法获取当前帧对应的动态记忆特征图:
Mk=(1-β)φk+βMk-1 (4)
其中,Mk和Mk-1分别是第k和k-1帧对应的动态记忆特征图,φk是第k帧图像对应的分辨率最大的特征图,β是预设的动量系数。
继续参阅附图2,如图2所示该神经网中包括一个动态记忆模型,该动态记忆模型可以根据当前帧图像的特征图进行自适应更新并输出当前帧图像的动态记忆特征图,更为具体地,该动态记忆模型是利用当前帧图像的特征图并且利用移动平均法进行更新。本实施例中,分辨率最大的特征图为第3层卷积层提取的特征图,即可以选用的
Figure GDA0002660432470000114
作为分辨率最大的特征图,因为底层的
Figure GDA0002660432470000121
不仅具有较大的分辨率而且也融合了高层特征图的语义信息。
参阅附图3,图3示例性示出了动态记忆特征图更新的主要流程,其中,“MFM”动态记忆模型,如图3所示,动态记忆模型利用前一帧图像的动态记忆特征图和当前帧的特征图生成当前帧的动态记忆特征图,并且利用当前帧的动态记忆特征图和当前帧的特征图进行融合,获得运动特征图。如此随着视频序列帧数的不断增加,视频帧图像中的场景信息逐渐保留下来,可以更好地去除虚检,得到更为鲁棒和稳定的视频运动目标检测结果。
步骤S103:根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图,获取当前帧图像的运动特征图。
具体地,按公式(5)所示的方法计算当前帧图像的运动特征图:
Figure GDA0002660432470000122
其中,
Figure GDA0002660432470000123
是所述目标视频中第k帧图像对应的运动特征图,Mk是所述目标视频中第k帧图像对应的动态记忆特征图,φk是目标视频中第k帧图像对应的分辨率最大的特征图并且Mk与φk的分辨率大小一致,diff(Mkk)表示将Mk中的每个元素与φk中对应位置的元素求差值。
步骤S104:将分辨率最大的特征图与运动特征图进行特征融合得到融合特征图。
具体地,基于分辨率最大的特征图与运动特征图,并且按照公式(6)所示的方法得到融合特征图:
Figure GDA0002660432470000131
其中,ηk是目标视频中第k帧图像对应的融合特征图,“Concat()”表示特征串联操作,“Conv()”表示用于特征压缩的卷积层。本实施例中,Mk和φk是通道维度上进行特征串联,“Conv()”为一个1×1的卷积层(维度为256),该卷积层用于在通道维度上对Mk和φk进行融合并将融合后的特征维度压缩至256,所以Mk、ηk以及φk的分辨率大小一致。
参阅附图4,图4示例性示出了不同特征图的可视化示例,如图4所示,左数第1列为神经网络的输入视频帧,左数第2列为对应于第1列视频帧的前一帧视频的动态记忆特征图,左数第3列为对应于第1列视频帧的分辨率最大的特征图,左数第4类是对应于第1列视频帧的动态记忆特征图,左数第5列为对应于第1列视频帧的融合特征。
步骤S105:根据融合特征图获取每个目标候选框的融合特征。
具体地,将目标候选框投影至融合特征图的对应位置;
对该对应位置的融合特征图进行切分并将切分后的融合特征图划分为多个网格;
对每个网格进行最大池化操作,获得目标候选框的融合特征。
本实施中,是将目标候选框投影到融合特征图ηk的对应位置上,将对应位置上切分出来的特征图划分为7×7的网格,对每个网格做最大池化操作,得到目标候选框的融合特征,该融合特征的维度为256。
步骤S106:利用神经网络并且根据预设的目标类别与融合特征,预测相应目标候选框对应的目标类别以及目标候选框在当前帧图像中对应的位置信息。
具体地,利用上述神经网络进一步地对目标候选框的融合特征进行分类和回归,上述神经网络的包括用于对目标候选框的融合特征进行分类和回归的检测网络,该检测网络可以基于现有的任一检测网络构建,如Faster R-CNN、SSD、YOLO等,该神经网络按照公式(7)所示的方法对目标候选框的融合特征进行分类和回归:
D=H(ROIPool(ηk,P)) (7)
其中,“ROIPool()”表示感兴趣区域的池化操作,“H()”表示上述神经网络中的检测网络。D是最终检测的结果,即目标候选框对应的目标类别以及目标候选框在当前帧图像中对应的位置信息。
参阅附图5,图5示例性示出了一种分离-转换-融合模块的网络架构。检测网络包含两个部分,第一部分由ResNext中的两个分离-转换-融合模块(Split-Transform-MergeSTM)组成,其输出分别是512和1024通道,图5示出的是输出为512通道的分离-转换-融合模块。分离-转换-融合模块是一个轻量级的网络架构,该模块可以用于对每个目标候选框的融合特征进一步演化同时保留特征的空间分辨率,以利于下一步的目标分类和位置回归。分离-转换-融合模块能够保留目标候选框的特征图的空间分布,这对于小目标的检测极为重要的。第二部分包括一个平均池化层和两层全连接层,平均池化层将7×7×1024的特征图缩放至1×1×1024,并且分别输送至两层全连接层,其中一层全连接层用于预测目标候选框的分类得分值,另一层用于预测目标候选的位置回归值。
为了进一步体现本发明的优势,使用DETRAC的公开测试视频对本发明进行算法测试。DETRAC数据集是监控场景下采集的视频车辆检测数据集,其中标注了大量具有挑战性的车辆,诸如尺度极小(小于20像素)的车辆以及被严重遮挡的车辆等,图像大小为540x960像素,共有84000张图像(60段视频)用于训练,56000张(40段视频)用于测试。本实施例将训练集中的39段视频用于训练,21段视频用于测试。测试采用DETRAC的官方测试协议,评估标准为IoU阈值为0.7情况下的平均正确率(mean average precision,mAP)。
参阅表1,表1为在基础神经网络上添加不同动态记忆模型的检测性能对比表。其中,“Base CNN”表示不同的基础神经网络,“Memory”表示添加的不同的动态记忆模型,“None”表示不不添加任何的动态记忆模型,“ConvLATM”表示常规的卷积长短时记忆模型,“MFM”表示本发明中的动态记忆模型,“#Parameters1”表示添加的动态记忆模型的参数量,“mAP”表示平均真确率,“Improvement1”表示与常规的卷积长短时记忆模型相比检测性能的提升率。
表1.在基础神经网络上添加不同动态记忆模型的检测性能对比表。
Figure GDA0002660432470000151
从表1可以看出,与常规的ConvLSTM相比,本发明中的动态记忆模型具有更少的参数,却有着更为显著的性能提升,检测精度高,内存消耗少,并且选用不同的基础CNN网络架构(ResNet-50和MobileNet)下的检测性能均是提升的。
参阅表2,表2为使用不同基础神经网络下的检测性能对比,其中,“Base CNN”表示不同的基础神经网络,“Memory”表示添加的不同的动态记忆模型,“#Parameters2”表示整个网络框架的参数量,“Time”表示单帧图像的测试时间,“mAP”表示平均真确率,“Improvement2”表示与不添加动态记忆模型相比检测性能的提升率,“None”表示不不添加任何的动态记忆模型,“MFM”表示本发明中的动态记忆模型。
表2.使用不同基础神经网络下的检测性能对比表。
Figure GDA0002660432470000161
从表2可以看出,在不同的基础神经网络架构下,本发明方法中的动态记忆模型均能带来检测精度的提升,并且对于特征表征能力较弱的网络的提升更为明显,例如以表征能力较强的ResNet-50作为基础CNN网络时,精度提升为1.08%,但是对于表征能力较弱的SequeezeNet和MobileNet,精度分别提升了12.90%和13.93%,表明本发明方法中的动态记忆模型能够充分利用视频中的时间上下文,弥补图像质量较差导致使用外观特征难以更好地表征目标的不足,而且仅仅在原有检测器的基础上增加了0.13M的模型参数量,较原有检测器的模型参数量近乎可以忽略不计,增加的单帧图像处理耗时也很低,以上所述充分展示了本发明具有处理速度快、占用内存小等优点,在实际应用中有非常好的可用性。
进一步地,基于上述目标检测方法的实施例,本发明还提供了一种基于动态记忆和运动感知的目标检测系统实施例。
参阅附图6,图6示例性出了一种基于动态记忆和运动感知的目标检测系统的主要结构,如图6所示,本发明实施例提供的一种基于动态记忆和运动感知的目标检测系统可以包括:
特征图获取模块21,配置为利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图,并且获取每个所述特征图对应的目标候选框;
动态记忆特征图获取模块22,配置为根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图;
运动特征图获取模块23,配置为根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图,获取所述当前帧图像的运动特征图;
融合特征图获取模块24,配置将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图;
融合特征获取模块25,配置为根据所述融合特征图获取每个所述目标候选框的融合特征;
目标检测模块26,配置为利用所述神经网络并且根据预设的目标类别与所述融合特征,预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。
进一步地,特征图获取模块21进一步配置为执行如下操作:
获取所述每个特征图上预先设定的目标初始框;
计算所述每个特征图上每个所述目标初始框的分类得分和位置回归值;
选取所述分类得分大于等于预设的得分阈值并且利用所述位置回归值微调后的目标初始框作为相应特征图的目标候选框。
进一步地,该系统还包括特征图增强处理模块,特征图增强处理模块配置为按照公式(3)所示的方法对所述分辨率最大的特征图进行增强处理。
进一步地,动态记忆特征图获取模块22进一步配置为按照公式(4)所示的方法获取当前帧对应的动态记忆特征图。
进一步地,运动特征图获取模块23进一步配置为按照公式(5)所示的方法计算当前帧图像的运动特征图。
进一步地,融合特征图获取模块24进一步配置为执行如下操作:
基于分辨率最大的特征图与运动特征图,并且按照公式(6)所示的方法得到融合特征图。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤及系统,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于动态记忆和运动感知的目标检测方法,其特征在于包括:
利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图,并且获取每个所述特征图对应的目标候选框;
根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图;
根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图,获取所述当前帧图像的运动特征图;
将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图;
根据所述融合特征图获取每个所述目标候选框的融合特征;
利用所述神经网络并且根据预设的目标类别与所述融合特征,预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。
2.根据权利要求1所述的基于动态记忆和运动感知的目标检测方法,其特征在于,在“根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图”的步骤之前,所述方法还包括:
按照下式所示的方法对所述分辨率最大的特征图进行增强处理:
Figure FDA0002660432460000011
其中,所述cn、cn+1分别表示所述神经网络中第n层、第n+1层卷积层,所述φn、φn+1分别表示所述cn、cn+1对应的特征图,所述
Figure FDA0002660432460000012
是所述φn增强后的特征图,所述dn+1表示与所述cn连接的反卷积层,所述
Figure FDA0002660432460000021
表示逐元素求和操作。
3.根据权利要求2所述的基于动态记忆和运动感知的目标检测方法,其特征在于,“根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图”的步骤包括:
按照下式所示的方法获取所述当前帧对应的动态记忆特征图:
Mk=(1-β)φk+βMk-1
其中,所述Mk和Mk-1分别是第k和k-1帧对应的动态记忆特征图,所述φk是第k帧图像对应的所述分辨率最大的特征图,所述β是预设的动量系数。
4.根据权利要求3所述的基于动态记忆和运动感知的目标检测方法,其特征在于,“根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图,获取所述当前帧图像的运动特征图”的步骤包括:
按下式所示的方法计算当前帧图像的运动特征图:
Figure FDA0002660432460000022
其中,所述
Figure FDA0002660432460000023
是所述目标视频中第k帧图像对应的运动特征图,所述Mk是所述目标视频中第k帧图像对应的动态记忆特征图,所述φk是所述目标视频中第k帧图像对应的所述分辨率最大的特征图并且所述Mk与所述φk的分辨率大小一致,所述diff(Mkk)表示将所述Mk中的每个元素与所述φk中对应位置的元素求差值。
5.根据权利要求4所述的基于动态记忆和运动感知的目标检测方法,其特征在于,“将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图”的步骤包括:
基于所述分辨率最大的特征图与所述运动特征图,并且按照下式所示的方法得到融合特征图:
Figure FDA0002660432460000031
其中,所述ηk是所述目标视频中第k帧图像对应的融合特征图,所述“Concat()”表示特征串联操作,所述“Conv()”表示用于特征压缩的卷积层。
6.一种基于动态记忆和运动感知的目标检测系统,其特征在于包括:
特征图获取模块,配置为利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图,并且获取每个所述特征图对应的目标候选框;
动态记忆特征图获取模块,配置为根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图,获取当前帧对应的动态记忆特征图;
运动特征图获取模块,配置为根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图,获取所述当前帧图像的运动特征图;
融合特征图获取模块,配置将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图;
融合特征获取模块,配置为根据所述融合特征图获取每个所述目标候选框的融合特征;
目标检测模块,配置为利用所述神经网络并且根据预设的目标类别与所述融合特征,预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。
7.根据权利要求6所述的基于动态记忆和运动感知的目标检测系统,其特征在于,所述系统还包括特征图增强处理模块,所述特征图增强处理模块配置为按照下式所示的方法对所述分辨率最大的特征图进行增强处理:
Figure FDA0002660432460000041
其中,所述cn、cn+1分别表示所述神经网络中第n层、第n+1层卷积层,所述φn、φn+1分别表示所述cn、cn+1对应的特征图,所述
Figure FDA0002660432460000042
是所述φn增强后的特征图,所述dn+1表示与所述cn连接的反卷积层,所述
Figure FDA0002660432460000043
表示逐元素求和操作。
8.根据权利要求7所述的基于动态记忆和运动感知的目标检测系统,其特征在于,所述动态记忆特征图获取模块进一步配置为按照下式所示的方法获取所述当前帧对应的动态记忆特征图:
Mk=(1-β)φk+βMk-1
其中,所述Mk和Mk-1分别是第k和k-1帧对应的动态记忆特征图,所述φk是第k帧图像对应的所述分辨率最大的特征图,所述β是预设的动量系数。
9.根据权利要求8所述的基于动态记忆和运动感知的目标检测系统,其特征在于,所述运动特征图获取模块进一步配置为按下式所示的方法计算当前帧图像的运动特征图:
Figure FDA0002660432460000051
其中,所述
Figure FDA0002660432460000052
是所述目标视频中第k帧图像对应的运动特征图,所述Mk是所述目标视频中第k帧图像对应的动态记忆特征图,所述φk是所述目标视频中第k帧图像对应的所述分辨率最大的特征图并且所述Mk与所述φk的分辨率大小一致,所述diff(Mkk)表示将所述Mk中的每个元素与所述φk中对应位置的元素求差值。
10.根据权利要求9所述的基于动态记忆和运动感知的目标检测系统,其特征在于,所述融合特征图获取模块进一步配置为执行如下操作:
基于所述分辨率最大的特征图与所述运动特征图,并且按照下式所示的方法得到融合特征图:
Figure FDA0002660432460000053
其中,所述ηk是所述目标视频中第k帧图像对应的融合特征,所述“Concat()”表示特征串联操作,所述“Conv()”表示用于特征压缩的卷积层。
CN201811028891.6A 2018-09-05 2018-09-05 基于动态记忆和运动感知的目标检测方法及系统 Active CN109191498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811028891.6A CN109191498B (zh) 2018-09-05 2018-09-05 基于动态记忆和运动感知的目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811028891.6A CN109191498B (zh) 2018-09-05 2018-09-05 基于动态记忆和运动感知的目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN109191498A CN109191498A (zh) 2019-01-11
CN109191498B true CN109191498B (zh) 2021-04-02

Family

ID=64914649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811028891.6A Active CN109191498B (zh) 2018-09-05 2018-09-05 基于动态记忆和运动感知的目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN109191498B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298227B (zh) * 2019-04-17 2021-03-30 南京航空航天大学 一种基于深度学习的无人机航拍图像中的车辆检测方法
CN110210429B (zh) * 2019-06-06 2022-11-29 山东大学 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN112199978A (zh) * 2019-07-08 2021-01-08 北京地平线机器人技术研发有限公司 视频物体检测方法和装置、存储介质和电子设备
CN111339863B (zh) * 2020-02-17 2022-12-20 上海交通大学 一种基于物体导向外部记忆模块的视频物体检测模型
CN111339364B (zh) * 2020-02-28 2023-09-29 网易(杭州)网络有限公司 视频分类方法、介质、装置和计算设备
CN114463686B (zh) * 2022-04-11 2022-06-17 西南交通大学 基于复杂背景下的移动目标检测方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719979A (zh) * 2009-11-27 2010-06-02 北京航空航天大学 基于时域定区间记忆补偿的视频对象分割方法
CN103186903A (zh) * 2013-04-22 2013-07-03 苏州科技学院 一种基于pid的运动目标检测跟踪系统
CN107045649A (zh) * 2014-07-21 2017-08-15 徐志强 具有短期记忆和长期记忆的模拟神经网络
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719979A (zh) * 2009-11-27 2010-06-02 北京航空航天大学 基于时域定区间记忆补偿的视频对象分割方法
CN103186903A (zh) * 2013-04-22 2013-07-03 苏州科技学院 一种基于pid的运动目标检测跟踪系统
CN107045649A (zh) * 2014-07-21 2017-08-15 徐志强 具有短期记忆和长期记忆的模拟神经网络
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法

Also Published As

Publication number Publication date
CN109191498A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109191498B (zh) 基于动态记忆和运动感知的目标检测方法及系统
AU2017324923B2 (en) Predicting depth from image data using a statistical model
JP5045371B2 (ja) 動画像の各画素の前景背景分類装置、方法及びプログラム
US9179092B2 (en) System and method producing high definition video from low definition video
CN111461319B (zh) 可适应用户要求的基于cnn的对象检测方法及装置
CN110163213B (zh) 基于视差图和多尺度深度网络模型的遥感图像分割方法
CN109903315B (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN110176024B (zh) 在视频中对目标进行检测的方法、装置、设备和存储介质
CN110705431B (zh) 基于深度c3d特征的视频显著性区域检测方法及系统
KR102391853B1 (ko) 영상 정보 처리 시스템 및 방법
Kryjak et al. Real-time implementation of foreground object detection from a moving camera using the vibe algorithm
CN115063704A (zh) 一种立体特征融合语义分割的无人机监测目标分类方法
CN114723756A (zh) 基于双监督网络的低分时序遥感目标检测方法及装置
Dehnavi et al. Cost and power efficient FPGA based stereo vision system using directional graph transform
CN114169425A (zh) 训练目标跟踪模型和目标跟踪的方法和装置
JP2014110020A (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN111931572B (zh) 一种遥感影像的目标检测方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN111339934A (zh) 一种融合图像预处理与深度学习目标检测的人头检测方法
CN116543333A (zh) 电力系统的目标识别方法、训练方法、装置、设备和介质
CN113920254B (zh) 一种基于单目rgb的室内三维重建方法及其系统
CN113514053B (zh) 生成样本图像对的方法、装置和更新高精地图的方法
CN111488476B (zh) 图像推送方法、模型训练方法及对应装置
EP2947626B1 (en) Method and apparatus for generating spanning tree, method and apparatus for stereo matching, method and apparatus for up-sampling, and method and apparatus for generating reference pixel
CN113505834A (zh) 训练检测模型、确定图像更新信息和更新高精地图的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant