CN115497028B

CN115497028B - 基于事件驱动的动态隐匿目标检测与识别方法及装置

Info

Publication number: CN115497028B
Application number: CN202211232636.XA
Authority: CN
Inventors: 赵冬晔
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-11-07
Anticipated expiration: 2042-10-10
Also published as: CN115497028A

Abstract

本公开实施例涉及机器人视觉感知技术领域，提供了一种基于事件驱动的动态隐匿目标检测与识别方法及装置，方法包括：将视觉图像序列输入预设的差分型视觉采样模型，捕捉视觉图像序列中的动态目标，得到视觉图像序列对应的频率累积图像；将视觉图像序列及其对应的频率累积图像输入预设的自适应空间特征融合模型，得到多源视觉信息图；基于预设的隐匿目标检测识别模型，根据多源视觉信息图对动态目标中的隐匿目标进行检测与识别，得到隐匿目标对应的目标类别。本公开实施例有效实现了复杂环境中高速运动、隐匿目标的低误警率、多细节化实时检测与识别。

Description

基于事件驱动的动态隐匿目标检测与识别方法及装置

技术领域

本公开涉及机器人视觉感知技术领域，特别涉及一种基于事件驱动的动态隐匿目标检测与识别方法及装置。

背景技术

基于视觉图像的运动目标检测，是指对图像序列中的运动目标进行捕捉、提取和识别，从而通过数据处理与分析，实现对运动目标的行为理解与预测，以完成更高一级的作战任务。

然而，复杂环境中的运动目标检测通常面临诸多难点，如被跟踪目标运动速度过快、目标被障碍物遮挡等等，这些难点不仅直接导致目标的颜色、纹理、结构等细节特征难以捕捉，还增大了信息提取难度，难以获取有效的传感数据。同时，在运动目标所处的环境背景具有动态变化强的特点时，还极易导致目标跟踪过程具有较大的不确定性。

当前，由于无人系统的自主性、智能性、运行稳定性和鲁棒性均较为薄弱，因此，无人系统很难适应城市巷战等复杂、动态的战场环境。此时，如何面向高速运动、隐匿目标的弱特征实现多细节化和自主化检测、识别，成为机器人视觉感知领域亟待解决的难题之一。

发明内容

本公开旨在至少解决现有技术中存在的问题之一，提供一种基于事件驱动的动态隐匿目标检测与识别方法及装置。

本公开的一个方面，提供了一种基于事件驱动的动态隐匿目标检测与识别方法，所述方法包括：

将视觉图像序列输入预设的差分型视觉采样模型，捕捉所述视觉图像序列中的动态目标，得到所述视觉图像序列对应的频率累积图像；

将所述视觉图像序列及其对应的所述频率累积图像输入预设的自适应空间特征融合模型，得到多源视觉信息图；

基于预设的隐匿目标检测识别模型，根据所述多源视觉信息图对所述动态目标中的隐匿目标进行检测与识别，得到所述隐匿目标对应的目标类别。

可选的，所述将视觉图像序列输入预设的差分型视觉采样模型，捕捉所述视觉图像序列中的动态目标，得到所述视觉图像序列对应的频率累积图像，包括：

将所述视觉图像序列输入所述差分型视觉采样模型，得到能够表征所述视觉图像序列中像素变化的脉冲信号，并按频率累积所述脉冲信号，得到所述频率累积图像。

可选的，所述多源视觉信息图表示为下式(1)：

其中，表示所述视觉图像序列中第q张图像的第i行第j列像素，/>表示所述频率累积图像中的第i行第j列像素，/>表示所述多源视觉信息图中第q张图像的第i行第j列像素，/>表示/>对应的权重，/> 表示/>对应的权重，且/>为中间变量且由所述视觉图像序列与对应的1×1卷积核进行卷积计算得到，/>为中间变量且由所述频率累积图像与对应的1×1卷积核进行卷积计算得到；

所述自适应空间特征融合模型的损失函数表示为下式(2)：

其中，L_ASFF表示所述自适应空间特征融合模型的损失函数，Q表示所述视觉图像序列中的图像总数，k_q表示所述视觉图像序列中第q张图像的真实目标类别，表示所述视觉图像序列中第q张图像的预测目标类别且表示为下式(3)：

其中，为/>对应的权重。

可选的，所述预设的隐匿目标检测识别模型包括主干网络、检测网络和识别网络，所述基于预设的隐匿目标检测识别模型，根据所述多源视觉信息图对所述动态目标中的隐匿目标进行检测识别，得到所述隐匿目标对应的目标类别，包括：

利用所述主干网络提取所述多源视觉信息图的图像特征；

基于所述图像特征，利用训练好的所述检测网络对所述隐匿目标进行检测，确定所述隐匿目标对应的目标预选框；

基于所述目标预选框，利用所述识别网络对所述隐匿目标进行识别，确定所述隐匿目标对应的所述目标类别。

可选的，所述训练好的所述检测网络通过以下步骤训练得到：

在训练样本特征图中确定多个真实框和多个默认框，所述真实框和所述默认框均包括正样本框和负样本框，其中，所述正样本框表示包含待检测目标的框体，所述负样本框表示不包含所述待检测目标的框体；

利用所述检测网络，基于所述多个默认框，在所述训练样本特征图中自适应确定预选框，并在所述预选框与所述真实框的匹配度未达到预设值时，通过迭代学习，重新基于所述多个默认框在所述训练样本特征图中自适应确定预选框，使所述预选框向所述真实框逼近，直至所述预选框与所述真实框的匹配度达到所述预设值，得到训练好的所述检测网络。

可选的，所述预选框与所述真实框的匹配度达到所述预设值包括所述检测网络的损失函数收敛，其中，所述检测网络的损失函数表示为下式(4)：

其中，L_CSSD表示所述检测网络的损失函数，N表示与所述真实框相匹配的所述预选框的数量，δ为用于平衡L_loc与L_conf的平衡因子，L_loc表示位置损失并表示为下式(5)，L_conf表示置信损失并表示为下式(6)：

其中，a∈Pos表示第a个与真实框和默认框中的所述正样本框相匹配的预选框，b表示第b个真实框，m∈{c_x，c_y，w，h}表示刻画所述真实框、所述默认框和所述预选框的参数，c_x表示x方向坐标，c_y表示y方向坐标，w表示宽度，h表示高度，表示第a个预选框与第b个真实框关于目标类型r是否相匹配，/>表示光滑化的L1范数，/>表示第a个预选框的位置编码，/>表示第b个真实框相对于默认框的位置编码；

其中，为/>对应的中间变量，/>表示第a个预选框被预测为目标类型r的概率值，a∈Neg表示第a个与真实框和默认框中的所述负样本框相匹配的预选框，/>表示r＝0时/>的值，r＝0表示其对应框体的目标类型为背景。

可选的，所述检测网络采用环形特征金字塔网络结构，包括级联的多个特征提取层和各所述特征提取层分别对应的卷积层组成的特征金字塔网络，以及与所述特征金字塔网络连接形成环形结构的反卷积层和多个池化层，其中：

第一级特征提取层根据输入的所述图像特征输出第一级特征图，并将所述第一级特征图分别输入对应的第一级卷积层和下一级特征提取层，所述第一级卷积层的输出结果与所述反卷积层的输出结果进行融合后，输入第一级池化层，并输出第一级目标检测结果；

最后一级特征提取层根据上一级特征提取层输入的上一级特征图输出最后一级特征图，并将所述最后一级特征图输入对应的最后一级卷积层，所述最后一级卷积层的输出结果与上一级池化层的输出结果进行融合后，输入所述反卷积层，并输出最后一级目标检测结果；

除所述第一级特征提取层和所述最后一级特征提取层外，各中间级特征提取层分别根据上一级特征提取层输入的上一级特征图输出对应级的特征图，并将所述对应级的特征图分别输入对应级的卷积层和下一级特征提取层，各级卷积层的输出结果分别与其上一级池化层的输出结果进行融合后，输入下一级池化层，并输出对应级的目标检测结果；

各级目标检测结果进行融合，输出最终的目标检测结果。

本公开的另一个方面，提供了一种基于事件驱动的动态隐匿目标检测与识别装置，所述装置包括：

捕捉模块，用于将视觉图像序列输入预设的差分型视觉采样模型，捕捉所述视觉图像序列中的动态目标，得到所述视觉图像序列对应的频率累积图像；

融合模块，用于将所述视觉图像序列及其对应的所述频率累积图像输入预设的自适应空间特征融合模型，得到多源视觉信息图；

检测识别模块，用于基于预设的隐匿目标检测识别模型，根据所述多源视觉信息图对所述动态目标中的隐匿目标进行检测与识别，得到所述隐匿目标对应的目标类别。

本公开的另一个方面，提供了一种电子设备，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前文记载的基于事件驱动的动态隐匿目标检测与识别方法。

本公开的另一个方面，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现前文记载的基于事件驱动的动态隐匿目标检测与识别方法。

本公开实施方式相对于现有技术而言，通过首先将视觉图像序列输入预设的差分型视觉采样模型，得到对应的频率累积图像，之后将视觉图像序列及其对应的频率累积图像输入预设的自适应空间特征融合模型，得到多源视觉信息图，并根据多源视觉信息图，利用预设的隐匿目标检测识别模型对动态目标中的隐匿目标进行检测与识别，得到隐匿目标对应的目标类别，有效实现了复杂环境中高速运动、隐匿目标的低误警率、多细节化实时检测与识别。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本公开一实施方式提供的一种基于事件驱动的动态隐匿目标检测与识别方法的流程图；

图2为本公开另一实施方式提供的一种基于事件驱动的动态隐匿目标检测与识别方法的原理框图；

图3为本公开另一实施方式提供的自适应空间特征融合模型的结构示意图；

图4为本公开另一实施方式提供的隐匿目标检测识别模型的结构示意图；

图5为本公开另一实施方式提供的检测网络的结构示意图；

图6为本公开另一实施方式提供的一种基于事件驱动的动态隐匿目标检测与识别装置的结构示意图；

图7为本公开另一实施方式提供的电子设备的结构示意图。

具体实施方式

城市作战逐渐成为现代战争的一种重要作战形式。城市因其高度集中的人口、密集分布的建筑物群、结构复杂的建筑物内部、繁多的地下工程设施等，为无人系统营造了一个复杂、动态、通信受阻、全局态势信息未知的战场环境。因此，如何实现高速运动目标的准确检测成为无人系统应对城市作战的关键问题，这不仅需要实现面向快速运动目标的视觉检测，还需要提高无人系统对于具有弱特征目标的细粒度检测能力。

1、面向快速运动目标的视觉检测

当复杂环境中被跟踪目标具有较高移动速度时，互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor，CMOS)图像传感器、电荷耦合器件(ChargeCoupled Device，CCD)相机、RGBD相机等传统动态有源像素传感器(Active Pixel Sensor，APS)很难清晰地捕捉到高速运动的目标。这是因为，APS是以恒定频率进行拍摄并获取图像的，其存在拍摄延时，进而导致检测滞后现象。此外，APS的动态范围较低，在光线极差或者亮度极高时，传感器能够获取的目标信息有限。APS在复杂环境中执行目标检测任务时常常遇到的这些问题，大大制约了复杂环境中无人系统依赖APS进行动态目标检测的能力。

与APS不同，神经形态视觉传感器突破了APS视觉成相工作原理的束缚，从仿生角度，有效地实现了动态目标的检测。神经形态视觉传感器的研制是建立在神经科学、生理学等领域对生物视网膜结构与功能机理的研究基础上，其强调图像序列的亮度变化，而不是亮度的绝对值。

1991年，《科学美国人》(Scientific American)封面刊登了一只运动的猫，标志了第一款硅视网膜的诞生，其模拟了视网膜上视锥细胞、水平细胞以及双极细胞的生物功能，正式点燃了神经形态视觉传感器这一新兴领域。此后，Culurciello等人设计了一种基于地址事件协议(Address-Event Representation，AER)的积分发放脉冲模型，成功将像素光强编码为频率或脉冲间隔。Delbruck团队以时空异步稀疏的事件(Event)表示像素光强变化，成功研制出动态视觉传感器(Dynamic Vision Sensor，DVS)，正式开启了事件相机这一新型视觉传感器的发展历程。然而，DVS很难捕捉到自然场景的精细纹理图像。为了克服这一不足，Posh等人提出了一种基于异步视觉的图像传感器(Asynchronous Time-based ImageSensor，ATIS)，其通过引入基于事件触发的光强测量电路来重构光强变化处的像素灰度。2013年，Delbruck团队研制出一种名为动态有源像素视觉传感器(Dynamic and ActivePixel Vision Sensor，DAVIS)的双模事件相机，DAVIS在DVS基础上增加了额外独立的传统图像采样电路，有效弥补了DVS在纹理成像方面的缺陷。神经形态视觉传感器的优势在于可以高效捕捉到运动目标，但是其劣势在于不易对被遮挡目标进行细节化描述。

2、面向弱特征目标的视觉检测

深度学习是目前最为常用的一种目标检测技术，其通过搭建深度层级模型，利用海量视觉图像输入进行训练，进而自动提取出有利于目标检测任务的视觉特征，实现复杂环境中对目标的有效检测。相较于光流检测法、特征设计法等传统目标检测技术，基于深度学习的自适应检测方法能够更好地从复杂环境中辨别出弱特征目标。

以区域卷积神经网络(Region-CNN，R-CNN)算法为例，该算法首先在视觉图像上，利用区域生成网络(Region Proposal Network，RPN)生成一系列不同尺度的候选框，通过卷积神经网络从候选框中提取出视觉特征并进行样本分类，将目标检测问题转化为回归问题。虽然R-CNN算法在目标检测领域已经取得了良好的成绩，但是其对目标的细节化描述能力较弱，且很难捕捉到环境中高速运动的目标。

为使本公开实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本公开的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本公开各实施方式中，为了使读者更好地理解本公开而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便，不应对本公开的具体实现方式构成任何限定，各个实施方式在不矛盾的前提下可以相互结合相互引用。

本公开的一个实施方式涉及一种基于事件驱动的动态隐匿目标检测与识别方法，其流程如图1所示，包括：

步骤101，将视觉图像序列输入预设的差分型视觉采样模型，捕捉视觉图像序列中的动态目标，得到视觉图像序列对应的频率累积图像。

具体的，视觉图像序列可以由无人系统采集获得。例如，无人系统可以利用自身携带的相机，在复杂环境中连续拍摄高速运动中的多个目标，从而采集获得视觉图像序列I¹。

一并结合图2，差分型视觉采样模型以视觉图像序列I¹为输入，并以地址事件表示(Address-Event Representation，AER)协议实现脉冲信号的多路异步传输，输出能够刻画视觉图像序列I¹中像素变化的脉冲信号，从而可以利用差分型视觉采样模型捕捉视觉图像序列I¹中的动态目标，并根据差分型视觉采样模型输出的脉冲信号得到视觉图像序列I¹对应的频率累积图像I²。

在这里，AER协议描述为：视觉图像序列中的每个像素是独立的，脉冲信号以事件的形式进行传输，并按事件产生时间的先后顺序异步输出。其中，一个事件可描述为(u，t，p)，u＝(i，j)表示某个像素在图像中的位置信息，t代表脉冲发放时间，p＝{-1，1}为事件极性，p＝-1代表光强的减弱，p＝1代表光强的增强。基于AER协议，差分型视觉采样模型可以对光电压进行对数差分，光强的相对变化会引起电压变化，当电压超过设定阈值θ时，像素产生一个脉冲信号，可表示为因此，脉冲信号可根据光强的增强或减弱细分为正负脉冲。

示例性的，步骤101可以包括：将视觉图像序列输入差分型视觉采样模型，得到能够表征视觉图像序列中像素变化的脉冲信号，并按频率累积脉冲信号，得到频率累积图像。

具体的，本步骤可以将视觉图像序列I¹输入差分型视觉采样模型，得到差分型视觉采样模型输出的能够表征视觉图像序列I¹中像素变化的脉冲信号，按频率累积该脉冲信号，即可得到频率累积图像I²，从而捕获视觉图像序列I¹中的运动目标。

步骤102，将视觉图像序列及其对应的频率累积图像输入预设的自适应空间特征融合模型，得到多源视觉信息图。

具体的，频率累积图像虽然能够捕获视觉图像序列中的高速运动的动态目标，但其忽略了动态目标周边的细粒度特征，而当高速运动的动态目标被周边环境部分遮挡成为隐匿目标时，该周边环境能够为该动态目标的检测提供特征推理信息。因此，一并结合图2，本步骤将视觉图像序列及其对应的频率累积图像输入预设的自适应空间特征融合(Adaptively Spatial Feature Fusion，ASFF)模型，对视觉图像序列以及包括动态目标的频率累积图像进行多源信息自适应融合，从空间维度上突出相似的视觉信息，过滤冲突信息，得到包括多源视觉信息的多源视觉信息图，以在后续步骤中根据多源视觉信息图对动态目标中的隐匿目标进行检测与识别。

步骤103，基于预设的隐匿目标检测识别模型，根据多源视觉信息图对动态目标中的隐匿目标进行检测与识别，得到隐匿目标对应的目标类别。

具体的，一并结合图2，本步骤可以将步骤102得到的多源视觉信息图输入预设的隐匿目标检测识别模型，利用预设的隐匿目标检测识别模型对多源视觉信息图进行细节描述，实现对动态目标中的隐匿目标进行检测与识别，得到隐匿目标对应的目标类别。

示例性的，自适应空间特征融合模型可以以视觉图像序列I¹中的第q张图像I^1→q及视觉图像序列I¹对应的频率累积图像I²为输入，生成多源视觉信息图I^3→q以及I^1→q对应的预测目标类别具体的，一并结合图3，多源视觉信息图可以表示为下式(1)：

其中，表示视觉图像序列中第q张图像的第i行第j列像素。/>为中间变量且由/>与对应的1×1卷积核进行卷积计算得到，卷积核数值可由随机梯度下降(Stochastic Gradient Descent，SGD)算法迭代更新获得。/>表示/>对应的权重，利用归一化指数函数(Softmax函数)对/>进行处理得到，可表示为/> 表示频率累积图像中的第i行第j列像素。/>为中间变量且由/>与对应的1×1卷积核进行卷积计算得到，卷积核数值可由SGD算法迭代更新获得。/>表示/>对应的权重，利用Softmax函数对/>进行处理得到，可表示为/> 与/>满足约束条件表示多源视觉信息图中第q张图像的第i行第j列像素。

自适应空间特征融合模型的损失函数表示为下式(2)：

其中，L_ASFF表示自适应空间特征融合模型的损失函数，Q表示视觉图像序列中的图像总数，k_q表示视觉图像序列中第q张图像的真实目标类别，表示视觉图像序列中第q张图像的预测目标类别且表示为下式(3)：

其中，为/>对应的权重，可以利用SGD算法迭代更新获得。

本实施方式通过ASFF模型可进一步整合视觉图像序列及其由事件驱动生成的脉冲信号构成的频率累积图像，生成多源视觉信息图，从空间维度上突出相似的视觉信息，过滤冲突信息，从而为动态目标特别是动态目标中隐匿目标的检测与识别提供更多的细节特征。

示例性的，如图4所示，预设的隐匿目标检测识别模型可以包括主干网络、检测网络和识别网络，将其构成环形单阶段检测器(Cycle Single Shot Detector，CSSD)，可对多源视觉信息图进行细节描述，从而基于细节实现低误警率的隐匿目标实时检测与识别。主干网络可以采用预训练的密集连接卷积网络(Densely Connected ConvolutionalNetworks，DenseNet)模型，用于提取多源视觉信息图的图像特征，得到对应的特征图，从而提高隐匿目标检测识别模型对隐匿目标检测任务的自适应能力。

检测网络可以采用环形特征金字塔网络结构，包括级联的多个特征提取层和各特征提取层分别对应的卷积层组成的特征金字塔网络，以及与特征金字塔网络连接形成环形结构的反卷积层和多个池化层。其中：第一级特征提取层根据输入的图像特征输出第一级特征图，并将第一级特征图分别输入对应的第一级卷积层和下一级特征提取层，第一级卷积层的输出结果与反卷积层的输出结果进行融合后，输入第一级池化层，并输出第一级目标检测结果。最后一级特征提取层根据上一级特征提取层输入的上一级特征图输出最后一级特征图，并将最后一级特征图输入对应的最后一级卷积层，最后一级卷积层的输出结果与上一级池化层的输出结果进行融合后，输入反卷积层，并输出最后一级目标检测结果。除第一级特征提取层和最后一级特征提取层外，各中间级特征提取层分别根据上一级特征提取层输入的上一级特征图输出对应级的特征图，并将对应级的特征图分别输入对应级的卷积层和下一级特征提取层，各级卷积层的输出结果分别与其上一级池化层的输出结果进行融合后，输入下一级池化层，并输出对应级的目标检测结果。各级目标检测结果进行融合，输出最终的目标检测结果。

需要说明的是，本实施方式并不对各卷积层和各池化层的具体类型进行限制。例如，如图5所示，各卷积层的类型可以均为1*1卷积，各池化层的类型可以均为2*2池化采样。

具体的，如图5所示，检测网络可以是由反卷积层、4个特征提取层、4个卷积层和3个池化层组成的环形特征金字塔网络结构。其中，4个特征提取层分别输出特征图1、特征图2、特征图3、特征图4。各特征提取层可以在输入的特征图的基础上，通过反向梯度下降学习方法输出对应的特征图。特征图1经1*1卷积作用后与反卷积层的输出结果进行融合，得到特征图1对应的融合结果，该融合结果输入2*2池化采样层，并输出对应的目标检测结果。特征图2经1*1卷积作用后与特征图1对应的2*2池化采样层的输出结果进行融合，得到特征图2对应的融合结果，该融合结果输入2*2池化采样层，并输出对应的目标检测结果。特征图3经1*1卷积作用后与特征图2对应的2*2池化采样层的输出结果进行融合，得到特征图3对应的融合结果，该融合结果输入2*2池化采样层，并输出对应的目标检测结果。特征图4经1*1卷积作用后与特征图3对应的2*2池化采样层的输出结果进行融合，得到特征图2对应的融合结果，该融合结果输入反卷积层，并输出对应的目标检测结果。特征图1、特征图2、特征图3、特征图4对应的目标检测结果进行融合后，得到最终的目标检测结果。

本实施方式通过采用环形特征金字塔网络结构构建检测网络，可以将检测网络用于根据多源视觉信息图的图像特征，确定隐匿目标对应的目标预选框，实现目标预选框与深度网络中各层级所表达特征信息的整合，并在目标检测中融合高级语义信息，从而实现根据主干网络输出的特征图对隐匿目标进行检测。

示例性的，训练好的检测网络通过以下步骤训练得到：

在训练样本特征图中确定多个真实框和多个默认框，真实框和默认框均包括正样本框和负样本框，其中，正样本框表示包含待检测目标的框体，负样本框表示不包含待检测目标的框体；

利用检测网络，基于多个默认框，在训练样本特征图中自适应确定预选框，并在预选框与真实框的匹配度未达到预设值时，通过迭代学习，重新基于多个默认框在训练样本特征图中自适应确定预选框，使预选框向真实框逼近，直至预选框与真实框的匹配度达到预设值，得到训练好的检测网络。

具体的，由于负样本框表示不包含待检测目标的框体，因此，负样本框对应的目标类型为背景。默认框可以根据训练数据集中的对象位置类聚出来，用于为预选框的计算做参考。基于默认框这个参考，算法生成的预选框仅需在默认框的基础上进行“精修或微调(fine-tuning)”即可，从而使算法可以更快收敛，训练好的检测网络具有更好的检测效果。

本实施方式通过对检测网络进行训练，可以使检测网络输出的预选框与真实框不断逼近，得到有益于目标检测与识别的有效边框，提高检测网络的目标检测准确度。

示例性的，预选框与真实框的匹配度是否达到预设值可以通过检测网络的损失函数是否收敛来表征。例如，预选框与真实框的匹配度达到预设值可以包括检测网络的损失函数收敛，其中，检测网络的损失函数可以表示为下式(4)：

L_CSSD表示检测网络的损失函数，N表示与真实框相匹配的预选框的数量，δ为用于平衡L_loc与L_conf的平衡因子，L_loc表示位置损失并表示为下式(5)，L_conf表示置信损失并表示为下式(6)。

其中，a∈Pos表示第a个与真实框和默认框中的正样本框相匹配的预选框，b表示第b个真实框，m∈{c_x，c_y，w，h}表示刻画真实框、默认框和预选框的参数，c_x表示x方向坐标，c_y表示y方向坐标，w表示宽度，h表示高度，表示第a个预选框与第b个真实框关于目标类型r是否相匹配，/>表示光滑化/>的L1范数，/>表示第a个预选框的位置编码，/>表示第b个真实框相对于默认框的位置编码。

其中，为/>对应的中间变量，/>表示第a个预选框被预测为目标类型r的概率值，a∈Neg表示第a个与真实框和默认框中的负样本框相匹配的预选框，/>表示r＝0时/>的值，r＝0表示其对应框体的目标类型为背景。

通过利用检测网络的损失函数收敛来表征预选框与真实框的匹配度达到预设值，可以提高检测网络的训练效率。

示例性的，步骤103可以包括：

利用主干网络提取多源视觉信息图的图像特征；基于图像特征，利用训练好的检测网络对隐匿目标进行检测，确定隐匿目标对应的目标预选框；基于目标预选框，利用识别网络对隐匿目标进行识别，确定隐匿目标对应的目标类别。

具体的，一并结合图5，识别网络可以是由若干全连接层组成的目标识别网络，用于根据检测网络的隐匿目标检测结果对隐匿目标的目标类别进行识别。通过利用主干网络提取多源视觉信息图的图像特征，利用检测网络基于图像特征对隐匿目标进行检测，利用识别网络对隐匿目标进行识别，可进一步提高动态目标中隐匿目标的检测识别准确率。

示例性的，预设的自适应空间特征融合模型还可以采用Faster R-CNN等用于目标检测任务的深度卷积网络，并在将多源视觉信息图输入该网络之前，借助数据增强等技术对多源视觉信息图进行处理，以提高Faster R-CNN等深度卷积网络对隐匿目标的实时检测能力。

本公开的另一个实施方式涉及一种基于事件驱动的动态隐匿目标检测与识别装置，如图6所示，包括：

捕捉模块601，用于将视觉图像序列输入预设的差分型视觉采样模型，捕捉视觉图像序列中的动态目标，得到视觉图像序列对应的频率累积图像；

融合模块602，用于将视觉图像序列及其对应的频率累积图像输入预设的自适应空间特征融合模型，得到多源视觉信息图；

检测识别模块603，用于基于预设的隐匿目标检测识别模型，根据多源视觉信息图对动态目标中的隐匿目标进行检测与识别，得到隐匿目标对应的目标类别。

本公开实施方式提供的基于事件驱动的动态隐匿目标检测与识别装置的具体实现方法，可以参见本公开实施方式提供的基于事件驱动的动态隐匿目标检测与识别方法所述，此处不再赘述。

本公开实施方式相对于现有技术而言，首先通过捕捉模块将视觉图像序列输入预设的差分型视觉采样模型，得到对应的频率累积图像，之后通过融合模块将视觉图像序列及其对应的频率累积图像输入预设的自适应空间特征融合模型，得到多源视觉信息图，并通过检测识别模块根据多源视觉信息图，利用预设的隐匿目标检测识别模型对动态目标中的隐匿目标进行检测与识别，得到隐匿目标对应的目标类别，有效实现了复杂环境中高速运动、隐匿目标的低误警率、多细节化实时检测与识别。

本公开的另一个实施方式涉及一种电子设备，如图7所示，包括：

至少一个处理器701；以及，

与至少一个处理器701通信连接的存储器702；其中，

存储器702存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行，以使至少一个处理器701能够执行上述实施方式所述的基于事件驱动的动态隐匿目标检测与识别方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本公开的另一个实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式所述的基于事件驱动的动态隐匿目标检测与识别方法。

即，本领域技术人员可以理解，实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本公开的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本公开的精神和范围。

Claims

1.一种基于事件驱动的动态隐匿目标检测与识别方法，其特征在于，所述方法包括：

基于预设的隐匿目标检测识别模型，根据所述多源视觉信息图对所述动态目标中的隐匿目标进行检测与识别，得到所述隐匿目标对应的目标类别；

所述多源视觉信息图表示为下式(1)：

其中，表示所述视觉图像序列中第q张图像的第i行第j列像素，/>表示所述频率累积图像中的第i行第j列像素，/>表示所述多源视觉信息图中第q张图像的第i行第j列像素，/>表示/>对应的权重，/>表示/>对应的权重，且为中间变量且由所述视觉图像序列与对应的1×1卷积核进行卷积计算得到，/>为中间变量且由所述频率累积图像与对应的1×1卷积核进行卷积计算得到；

所述自适应空间特征融合模型的损失函数表示为下式(2)：

其中，为/>对应的权重。

2.根据权利要求1所述的方法，其特征在于，所述将视觉图像序列输入预设的差分型视觉采样模型，捕捉所述视觉图像序列中的动态目标，得到所述视觉图像序列对应的频率累积图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述预设的隐匿目标检测识别模型包括主干网络、检测网络和识别网络，所述基于预设的隐匿目标检测识别模型，根据所述多源视觉信息图对所述动态目标中的隐匿目标进行检测与识别，得到所述隐匿目标对应的目标类别，包括：

利用所述主干网络提取所述多源视觉信息图的图像特征；

4.根据权利要求3所述的方法，其特征在于，所述训练好的所述检测网络通过以下步骤训练得到：

5.根据权利要求4所述的方法，其特征在于，所述预选框与所述真实框的匹配度达到所述预设值包括所述检测网络的损失函数收敛，其中，所述检测网络的损失函数表示为下式(4)：

其中，a∈Pos表示第a个与真实框和默认框中的所述正样本框相匹配的预选框，b表示第b个真实框，m∈{c_x,c_y,w,h}表示刻画所述真实框、所述默认框和所述预选框的参数，c_x表示x方向坐标，c_y表示y方向坐标，w表示宽度，h表示高度，表示第a个预选框与第b个真实框关于目标类型r是否相匹配，/>表示光滑化/>的L1范数，/>表示第a个预选框的位置编码，/>表示第b个真实框相对于默认框的位置编码；

6.根据权利要求3至5任一项所述的方法，其特征在于，所述检测网络采用环形特征金字塔网络结构，包括级联的多个特征提取层和各所述特征提取层分别对应的卷积层组成的特征金字塔网络，以及与所述特征金字塔网络连接形成环形结构的反卷积层和多个池化层，其中：

各级目标检测结果进行融合，输出最终的目标检测结果。

7.一种基于事件驱动的动态隐匿目标检测与识别装置，其特征在于，所述装置包括：

检测识别模块，用于基于预设的隐匿目标检测识别模型，根据所述多源视觉信息图对所述动态目标中的隐匿目标进行检测与识别，得到所述隐匿目标对应的目标类别；

所述多源视觉信息图表示为下式(1)：

所述自适应空间特征融合模型的损失函数表示为下式(2)：

其中，为/>对应的权重。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的基于事件驱动的动态隐匿目标检测与识别方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于事件驱动的动态隐匿目标检测与识别方法。