CN109191498B

CN109191498B - 基于动态记忆和运动感知的目标检测方法及系统

Info

Publication number: CN109191498B
Application number: CN201811028891.6A
Authority: CN
Inventors: 廖胜才; 刘威
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2021-04-02
Anticipated expiration: 2038-09-05
Also published as: CN109191498A

Abstract

本发明属于计算机视觉技术领域，具体涉及一种基于动态记忆和运动感知的目标检测方法及装置，旨在解决因视频虚检而引起的目标检测准确率较低的问题。该方法包括：利用神经网络获取目标视频中当前帧图像对应的特征图，并且获取目标候选框；根据分辨率最大的特征图和前一帧图像对应的动态记忆特征图，获取当前帧图像对应的动态记忆特征图；根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图，获取当前帧的运动特征图；将分辨率最大的特征图与当前帧图像的运动特征图进行特征融合得到融合特征图；根据融合特征图获取每个目标候选框的融合特征；利用该融合特征进行目标检测。基于上述方法可以得到更为鲁棒和稳定的目标检测结果。

Description

基于动态记忆和运动感知的目标检测方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于动态记忆和运动感知的目标检测方法及系统。

背景技术

目标检测的任务是找出图像或视频中感兴趣的物体，同时检测出它们的位置和大小，是计算机视觉领域的核心问题之一。随着卷积神经网络的应用和发展，基于单帧图像的目标检测已经取得了很大的进步，但是基于视频的目标检测还存在一定的特征困难，比如运动模糊、视频散焦等问题。

目前，主要有两种方式来抑制视频目标检测中的视频虚检情况。第一种方式是利用检测器对视频中每帧图像单独进行检测，然后利用启发式算法对每帧检测结果进行后处理，得到整个视频序列的检测结果，然而这种方式并不能提升单帧图像的检测效果，并且在单帧图像检测结果不理想时，视频检测效果也不理想。第二种方式是采用融合相邻视频帧特征图的方式来增强当前帧的特征图，并且利用增强的特征图进行检测。然而这种方式需要额外的网络架构如光流网络、递归神经网络，因此大大提升了计算负担，难以满足在真实场景下的应用。此外，这些额外的网络架构需要有监督地进行学习，不能显式地构建运动信息。

相应地，本领域需要一种新的目标检测方法及系统来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决因视频虚检而引起的目标检测准确率较低的问题，本发明的一方面，提供了一种基于动态记忆和运动感知的目标检测方法，包括：

利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图，并且获取每个所述特征图对应的目标候选框；

根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图；

根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图，获取所述当前帧图像的运动特征图；

将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图；

根据所述融合特征图获取每个所述目标候选框的融合特征；

利用所述神经网络并且根据预设的目标类别与所述融合特征，预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。

进一步地，本发明提供的一个优选技术方案为

在“所述分辨率最大的特征图和预先获取的前一帧对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图”的步骤之前，所述方法还包括：

按照下式所示的方法对所述分辨率最大的特征图进行增强处理：

其中，所述c_n、c_n+1分别表示所述神经网络中第n层、第n+1层卷积层，所述φ_n、φ_n+1分别表示所述c_n、c_n+1对应的特征图，所述

是所述φ_n增强后的特征图，所述d_n+1表示与所述c_n连接的反卷积层，所述

表示逐元素求和操作。

进一步地，本发明提供的一个优选技术方案为：

“根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图”的步骤包括：

按照下式所示的方法获取所述当前帧对应的动态记忆特征图：

M^k＝(1-β)φ^k+βM^k-1

其中，所述M^k和M^k-1分别是第k和k-1帧对应的动态记忆特征图，所述φ^k是第k帧图像对应的所述特定卷积层对应的特征图，所述β是预设的动量系数。

进一步地，本发明提供的一个优选技术方案为：

根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图，获取所述当前帧图像的运动特征图”的步骤包括：

按下式所示的方法计算当前帧图像的运动特征图：

其中，所述

是所述目标视频中第k帧图像对应的运动特征图，所述M^k是所述目标视频中第k帧图像对应的动态记忆特征图，所述φ^k是所述目标视频中第k帧图像对应的所述分辨率最大的特征图并且所述M^k与所述φ^k的分辨率大小一致，所述diff(M^k,φ^k)表示将所述M^k中的每个元素与所述φ^k中对应位置的元素求差值。

进一步地，本发明提供的一个优选技术方案为：

“将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图”的步骤包括：

基于所述分辨率最大的特征图与所述运动特征图，并且按照下式所示的方法得到融合特征图：

其中，所述η^k是所述目标视频中第k帧图像对应的融合特征图，“Concat()”表示特征串联操作，所述“Conv()”表示用于特征压缩的卷积层。

本发明的另一方面，还提供了一种基于动态记忆和运动感知的目标检测系统，包括：

特征图获取模块，配置为利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图，并且获取每个所述特征图对应的目标候选框；

动态记忆特征图获取模块，配置为根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图；

运动特征图获取模块，配置为根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图，获取所述当前帧图像的运动特征图；

融合特征图获取模块，配置将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图；

融合特征获取模块，配置为根据所述融合特征图获取每个所述目标候选框的融合特征；

目标检测模块，配置为利用所述神经网络并且根据预设的目标类别与所述融合特征，预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。

进一步地，本发明提供的一个优选技术方案为：

所述系统还包括特征图增强处理模块，所述特征图增强处理模块配置为按照下式所示的方法对所述分辨率最大的特征图进行增强处理：

表示逐元素求和操作。

进一步地，本发明提供了一个优选技术方案为：

所述动态记忆特征图获取模块进一步配置为按照下式所示的方法获取所述当前帧对应的动态记忆特征图：

M^k＝(1-β)φ^k+βM^k-1

其中，所述M^k和M^k-1分别是第k和k-1帧对应的动态记忆特征图，所述φ^k是第k帧图像对应的所述分辨率最大的特征图，所述β是预设的动量系数。

进一步地，本发明提供了一个优选技术方案为：

所述运动特征图获取模块进一步配置为按下式所示的方法计算当前帧图像的运动特征图：

其中，所述

进一步地，本发明提供了一个优选技术方案为：

所述融合特征图获取模块进一步配置为执行如下操作：

其中，所述η^k是所述目标视频中第k帧图像对应的融合特征图，所述“Concat()”表示特征串联操作，所述“Conv()”表示用于特征压缩的卷积层。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

本发明的基于动态记忆和运动感知的目标检测方法主要包括如下步骤：利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图，并且获取每个特征图对应的目标候选框；根据分辨率最大的特征图和预先获取的前一帧图像对应的目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图；根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图，获取当前帧图像的运动特征图；将分辨率最大的特征图与运动特征图进行特征融合得到融合特征图；根据融合特征图获取每个目标候选框的融合特征；利用神经网络并且根据预设的目标类别与所述融合特征，预测相应目标候选框对应的目标类别以及目标候选框在当前帧图像中对应的位置信息。基于上述方法能够解决视频质量下降(如运动模糊、视频散焦等)情况下的鲁棒检测问题。

进一步地，本发明方法中通过动态记忆特征图对目标的运动信息进行建模，基于该运动信息的目标检测能够有效抑制真实场景下的视频虚检的问题。再者，本发明中动态记忆特征图的算法计算速度快、内存消耗少、运用灵活，可以嵌入到当前绝大多数的目标检测网络框架，实现端到端地训练和测试，大大减低了训练和测试的难度。

进一步地，本发明方法中利用特定卷积层对应的特征图与运动特征图的融合特征进行目标检测，即在卷积层输出的特征图基础上引入运动信息，可以更好地指导卷积层的特征学习，信息利用更加充分，检测结果更加可靠。

附图说明

图1是本发明实施例中一种基于动态记忆和运动感知的目标检测方法主要步骤示意图；

图2是本发明实施例中一种基于动态记忆和运动感知的目标检测方法流程示意图；

图3是本发明实施例中动态记忆特征图更新流程示意图；

图4是本发明实施例中不同特征图的可视化示意图；

图5是本发明实施例中一种分离-转换-融合模块的网络架构示意图；

图6本发明实施例中一种基于动态记忆和运动感知的目标检测系统主要结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在视频序列中隐含着大量的时间上下文信息，如果能够深入挖掘这一信息，将会对视频运动目标检测带来很大的帮助，卷积神经网络中往往包含着大量的卷积层和池化层，并且卷积层输出的特征图已经构建了图像中的空间上下文信息，然而视频序列中的时间上下文信息却无法得到充分挖掘，本发明通过运动特征图对运动信息建模，从而更好挖掘视频序列中的时间上下文信息，以此提高目标检测的准确率。下面结合附图，对本发明的基于动态记忆和运动感知的目标检测方法进行说明。

参阅附图1，附图1示例性示出了本发明实施例中基于动态记忆和运动感知的目标检测方法的主要步骤，如图1所示，本实施例中的基于动态记忆和运动感知的目标检测方法可以包括下述步骤：

步骤S101：利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图，并且获取每个特征图对应的目标候选框。

具体地，利用预先构建的神经网络，并且按照公式(1)所示的方法计算当前帧图像对应的不同分辨率的特征图：

φ_n＝f_n(φ_n-1)＝f_n(f_n-1(…f₁(I))) (1)

其中，I是当前帧图像，“f_n()”表示神经网络中第n个卷积层，φ_n是卷积神经网络中第n个卷积层提取的特征图。这些特征图随着网络深度的不断下采样，分辨率逐渐降低但判别了逐渐加强。

“获取每个所述特征图对应的目标候选框”的步骤包括：获取每个特征图上预先设定的目标初始框；计算每个特征图上每个目标初始框的分类得分和位置回归值；选取分类得分大于等于预设的得分阈值并且利用位置回归值微调后的目标初始框作为相应特征图的目标候选框。需要说明的是，分类得分值是目标初始框内是否包含目标的置信度分数，位置回归值即位置回归预测的目标真实位置与目标初始框之间的偏差，微调的目的是将预测的偏差加载到目标初始框的位置上，得到更加接近真实位置的目标候选框。本实施例中，可以在获取的不同分辨率的特征图上铺设不同尺度大小的目标初始框，并且按照公式(2)所示的方法生成目标候选框：

P＝F(p_n(φ_n,B_n),p_n-1(φ_n-1,B_n-1),…p_n-m(φ_n-m,B_n-m)) (2)

其中，n＞m＞0，B_n是神经网络中第n个卷积层上预定义的目标初始框，φ_n是卷积神经网络中第n个卷积层提取的特征图，“F()”表示利用非极大值抑制法对目标初始框进性后处理操作，即选取分类得分大于等于预设的得分阈值并且利用位置回归值微调后的目标初始框作为相应特征图的目标候选框，“p_n()”表示基于第n个卷积层上预设的目标初始框B_n和第n个卷积层提取的特征图φ_n计算分类得分值和位置回归值，并且p_n(φ_n,B_n)＝{cls_n(φ_n,B_n),regr_n(φ_n,B_n)}，其中“cls_n()”用于计算第n个卷积层对应的预测目标初始框的分类得分值，“regr_n()”用于计算第n个卷积层对应的预测目标初始框的位置回归值。

参阅附图2，图2示例性示出了本实施例中基于动态记忆和运动感知的目标检测方法的主要流程，如图2所示，本实施例中的神经网络是基于RestNet-50构建，并且是在ImageNet上预训练好的一个神经网络模型。该神经网络首先对当前帧图像进行特征图提取并获取目标候选框；利用当前帧图像对应的分辨率最大的特征图以移动平均的方式更新动态记忆特征图，随着视频序列帧数的不断增加，视频帧图像中的场景信息逐渐保留下来；根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图，并且通过差值的方式获取当前帧图像的运动特征图；将当前帧图像的运动特征和分辨率最大的特征图在通道维上串联起来就得到了融合了运动信息和外观信息的融合特征，利用该融合特征进行目标检测，可以更好地去除虚检，得到更为鲁棒和稳定的视频运动目标检测结果。

步骤S102：根据分辨率最大的特征图和预先获取的前一帧图像对应的目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图。

继续参阅附图2，在上述步骤S102之前，还可以包括对分辨率最大的特征图进行增强处理的步骤，本实施例中，选用第3层卷积层、第4层卷积层并采用侧边连接反卷积层的方式进行特征增强处理，更进一步地，可以按照公式(3)所示方法对分辨率最大的特征图进行增强处理：

其中，c_n、c_n+1分别表示神经网络中第n层、第n+1层卷积层，φ_n、φ_n+1分别表示c_n、c_n+1对应的特征图，

是φ_n增强后的特征图，d_n+1表示与c_n侧边连接的反卷积层，

表示逐元素求和操作。在本实施中分辨率最大的特征图是第3层卷积层提取的特征图，所以n＝3，并且基于相同的方法本实施例还对第4层卷积层提取的特征图进行了增强处理用于生成目标候选框。

此外，本实施例中上述神经网络还在第5层卷积层后顺次连接了一层步长为2的第6层卷积层，该卷积层用于检测尺度较大的目标。所以，最终用于生成目标候选框的特征图为

分辨率分别较输入图像降低了8、16、32、64倍，每个卷积层的通道数为256。

进一步地，根据当前帧对应的动态记忆特征图和特定卷积层对应的特征图，并且按照公式(4)所示的方法获取当前帧对应的动态记忆特征图：

M^k＝(1-β)φ^k+βM^k-1 (4)

其中，M^k和M^k-1分别是第k和k-1帧对应的动态记忆特征图，φ^k是第k帧图像对应的分辨率最大的特征图，β是预设的动量系数。

继续参阅附图2，如图2所示该神经网中包括一个动态记忆模型，该动态记忆模型可以根据当前帧图像的特征图进行自适应更新并输出当前帧图像的动态记忆特征图，更为具体地，该动态记忆模型是利用当前帧图像的特征图并且利用移动平均法进行更新。本实施例中，分辨率最大的特征图为第3层卷积层提取的特征图，即可以选用的

作为分辨率最大的特征图，因为底层的

不仅具有较大的分辨率而且也融合了高层特征图的语义信息。

参阅附图3，图3示例性示出了动态记忆特征图更新的主要流程，其中，“MFM”动态记忆模型，如图3所示，动态记忆模型利用前一帧图像的动态记忆特征图和当前帧的特征图生成当前帧的动态记忆特征图，并且利用当前帧的动态记忆特征图和当前帧的特征图进行融合，获得运动特征图。如此随着视频序列帧数的不断增加，视频帧图像中的场景信息逐渐保留下来，可以更好地去除虚检，得到更为鲁棒和稳定的视频运动目标检测结果。

步骤S103：根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图，获取当前帧图像的运动特征图。

具体地，按公式(5)所示的方法计算当前帧图像的运动特征图：

其中，

是所述目标视频中第k帧图像对应的运动特征图，M^k是所述目标视频中第k帧图像对应的动态记忆特征图，φ^k是目标视频中第k帧图像对应的分辨率最大的特征图并且M^k与φ^k的分辨率大小一致，diff(M^k,φ^k)表示将M^k中的每个元素与φ^k中对应位置的元素求差值。

步骤S104：将分辨率最大的特征图与运动特征图进行特征融合得到融合特征图。

具体地，基于分辨率最大的特征图与运动特征图，并且按照公式(6)所示的方法得到融合特征图：

其中，η^k是目标视频中第k帧图像对应的融合特征图，“Concat()”表示特征串联操作，“Conv()”表示用于特征压缩的卷积层。本实施例中，M^k和φ^k是通道维度上进行特征串联，“Conv()”为一个1×1的卷积层(维度为256)，该卷积层用于在通道维度上对M^k和φ^k进行融合并将融合后的特征维度压缩至256，所以M^k、η^k以及φ^k的分辨率大小一致。

参阅附图4，图4示例性示出了不同特征图的可视化示例，如图4所示，左数第1列为神经网络的输入视频帧，左数第2列为对应于第1列视频帧的前一帧视频的动态记忆特征图，左数第3列为对应于第1列视频帧的分辨率最大的特征图，左数第4类是对应于第1列视频帧的动态记忆特征图，左数第5列为对应于第1列视频帧的融合特征。

步骤S105：根据融合特征图获取每个目标候选框的融合特征。

具体地，将目标候选框投影至融合特征图的对应位置；

对该对应位置的融合特征图进行切分并将切分后的融合特征图划分为多个网格；

对每个网格进行最大池化操作，获得目标候选框的融合特征。

本实施中，是将目标候选框投影到融合特征图η^k的对应位置上，将对应位置上切分出来的特征图划分为7×7的网格，对每个网格做最大池化操作，得到目标候选框的融合特征，该融合特征的维度为256。

步骤S106：利用神经网络并且根据预设的目标类别与融合特征，预测相应目标候选框对应的目标类别以及目标候选框在当前帧图像中对应的位置信息。

具体地，利用上述神经网络进一步地对目标候选框的融合特征进行分类和回归，上述神经网络的包括用于对目标候选框的融合特征进行分类和回归的检测网络，该检测网络可以基于现有的任一检测网络构建，如Faster R-CNN、SSD、YOLO等，该神经网络按照公式(7)所示的方法对目标候选框的融合特征进行分类和回归：

D＝H(ROIPool(η^k,P)) (7)

其中，“ROIPool()”表示感兴趣区域的池化操作，“H()”表示上述神经网络中的检测网络。D是最终检测的结果，即目标候选框对应的目标类别以及目标候选框在当前帧图像中对应的位置信息。

参阅附图5，图5示例性示出了一种分离-转换-融合模块的网络架构。检测网络包含两个部分，第一部分由ResNext中的两个分离-转换-融合模块(Split-Transform-MergeSTM)组成，其输出分别是512和1024通道，图5示出的是输出为512通道的分离-转换-融合模块。分离-转换-融合模块是一个轻量级的网络架构，该模块可以用于对每个目标候选框的融合特征进一步演化同时保留特征的空间分辨率，以利于下一步的目标分类和位置回归。分离-转换-融合模块能够保留目标候选框的特征图的空间分布，这对于小目标的检测极为重要的。第二部分包括一个平均池化层和两层全连接层，平均池化层将7×7×1024的特征图缩放至1×1×1024，并且分别输送至两层全连接层，其中一层全连接层用于预测目标候选框的分类得分值，另一层用于预测目标候选的位置回归值。

为了进一步体现本发明的优势，使用DETRAC的公开测试视频对本发明进行算法测试。DETRAC数据集是监控场景下采集的视频车辆检测数据集，其中标注了大量具有挑战性的车辆，诸如尺度极小(小于20像素)的车辆以及被严重遮挡的车辆等，图像大小为540x960像素，共有84000张图像(60段视频)用于训练，56000张(40段视频)用于测试。本实施例将训练集中的39段视频用于训练，21段视频用于测试。测试采用DETRAC的官方测试协议，评估标准为IoU阈值为0.7情况下的平均正确率(mean average precision,mAP)。

参阅表1，表1为在基础神经网络上添加不同动态记忆模型的检测性能对比表。其中，“Base CNN”表示不同的基础神经网络，“Memory”表示添加的不同的动态记忆模型，“None”表示不不添加任何的动态记忆模型，“ConvLATM”表示常规的卷积长短时记忆模型，“MFM”表示本发明中的动态记忆模型，“#Parameters1”表示添加的动态记忆模型的参数量，“mAP”表示平均真确率，“Improvement1”表示与常规的卷积长短时记忆模型相比检测性能的提升率。

表1.在基础神经网络上添加不同动态记忆模型的检测性能对比表。

从表1可以看出，与常规的ConvLSTM相比，本发明中的动态记忆模型具有更少的参数，却有着更为显著的性能提升，检测精度高，内存消耗少，并且选用不同的基础CNN网络架构(ResNet-50和MobileNet)下的检测性能均是提升的。

参阅表2，表2为使用不同基础神经网络下的检测性能对比，其中，“Base CNN”表示不同的基础神经网络，“Memory”表示添加的不同的动态记忆模型，“#Parameters2”表示整个网络框架的参数量，“Time”表示单帧图像的测试时间，“mAP”表示平均真确率，“Improvement2”表示与不添加动态记忆模型相比检测性能的提升率，“None”表示不不添加任何的动态记忆模型，“MFM”表示本发明中的动态记忆模型。

表2.使用不同基础神经网络下的检测性能对比表。

从表2可以看出，在不同的基础神经网络架构下，本发明方法中的动态记忆模型均能带来检测精度的提升，并且对于特征表征能力较弱的网络的提升更为明显，例如以表征能力较强的ResNet-50作为基础CNN网络时，精度提升为1.08％，但是对于表征能力较弱的SequeezeNet和MobileNet，精度分别提升了12.90％和13.93％，表明本发明方法中的动态记忆模型能够充分利用视频中的时间上下文，弥补图像质量较差导致使用外观特征难以更好地表征目标的不足，而且仅仅在原有检测器的基础上增加了0.13M的模型参数量，较原有检测器的模型参数量近乎可以忽略不计，增加的单帧图像处理耗时也很低，以上所述充分展示了本发明具有处理速度快、占用内存小等优点，在实际应用中有非常好的可用性。

进一步地，基于上述目标检测方法的实施例，本发明还提供了一种基于动态记忆和运动感知的目标检测系统实施例。

参阅附图6，图6示例性出了一种基于动态记忆和运动感知的目标检测系统的主要结构，如图6所示，本发明实施例提供的一种基于动态记忆和运动感知的目标检测系统可以包括：

特征图获取模块21，配置为利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图，并且获取每个所述特征图对应的目标候选框；

动态记忆特征图获取模块22，配置为根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图；

运动特征图获取模块23，配置为根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图，获取所述当前帧图像的运动特征图；

融合特征图获取模块24，配置将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图；

融合特征获取模块25，配置为根据所述融合特征图获取每个所述目标候选框的融合特征；

目标检测模块26，配置为利用所述神经网络并且根据预设的目标类别与所述融合特征，预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。

进一步地，特征图获取模块21进一步配置为执行如下操作：

获取所述每个特征图上预先设定的目标初始框；

计算所述每个特征图上每个所述目标初始框的分类得分和位置回归值；

选取所述分类得分大于等于预设的得分阈值并且利用所述位置回归值微调后的目标初始框作为相应特征图的目标候选框。

进一步地，该系统还包括特征图增强处理模块，特征图增强处理模块配置为按照公式(3)所示的方法对所述分辨率最大的特征图进行增强处理。

进一步地，动态记忆特征图获取模块22进一步配置为按照公式(4)所示的方法获取当前帧对应的动态记忆特征图。

进一步地，运动特征图获取模块23进一步配置为按照公式(5)所示的方法计算当前帧图像的运动特征图。

进一步地，融合特征图获取模块24进一步配置为执行如下操作：

基于分辨率最大的特征图与运动特征图，并且按照公式(6)所示的方法得到融合特征图。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤及系统，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于动态记忆和运动感知的目标检测方法，其特征在于包括：

根据所述融合特征图获取每个所述目标候选框的融合特征；

2.根据权利要求1所述的基于动态记忆和运动感知的目标检测方法，其特征在于，在“根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图”的步骤之前，所述方法还包括：

表示逐元素求和操作。

3.根据权利要求2所述的基于动态记忆和运动感知的目标检测方法，其特征在于，“根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图”的步骤包括：

M^k＝(1-β)φ^k+βM^k-1

4.根据权利要求3所述的基于动态记忆和运动感知的目标检测方法，其特征在于，“根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图，获取所述当前帧图像的运动特征图”的步骤包括：

按下式所示的方法计算当前帧图像的运动特征图：

其中，所述

5.根据权利要求4所述的基于动态记忆和运动感知的目标检测方法，其特征在于，“将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图”的步骤包括：

6.一种基于动态记忆和运动感知的目标检测系统，其特征在于包括：

7.根据权利要求6所述的基于动态记忆和运动感知的目标检测系统，其特征在于，所述系统还包括特征图增强处理模块，所述特征图增强处理模块配置为按照下式所示的方法对所述分辨率最大的特征图进行增强处理：

表示逐元素求和操作。

8.根据权利要求7所述的基于动态记忆和运动感知的目标检测系统，其特征在于，所述动态记忆特征图获取模块进一步配置为按照下式所示的方法获取所述当前帧对应的动态记忆特征图：

M^k＝(1-β)φ^k+βM^k-1

9.根据权利要求8所述的基于动态记忆和运动感知的目标检测系统，其特征在于，所述运动特征图获取模块进一步配置为按下式所示的方法计算当前帧图像的运动特征图：

其中，所述

10.根据权利要求9所述的基于动态记忆和运动感知的目标检测系统，其特征在于，所述融合特征图获取模块进一步配置为执行如下操作：

其中，所述η^k是所述目标视频中第k帧图像对应的融合特征，所述“Concat()”表示特征串联操作，所述“Conv()”表示用于特征压缩的卷积层。