CN113449554B

CN113449554B - 一种目标检测识别方法及系统

Info

Publication number: CN113449554B
Application number: CN202010219921.2A
Authority: CN
Inventors: 张和辉; 吴臻志
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2024-03-08
Anticipated expiration: 2040-03-25
Also published as: CN113449554A

Abstract

本发明公开了一种目标检测识别方法，包括：对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，得到待识别的序列图像帧；对所述待识别的序列图像帧进行识别处理，得到识别结果，所述识别结果包括所述高速移动目标的位置信息以及类别标签。本发明基于采集到的高速移动目标的事件流数据，实现对高速移动目标的精准检测和识别。

Description

一种目标检测识别方法及系统

技术领域

本发明涉及目标检测识别技术领域，具体而言，涉及一种目标检测识别方法及系统。

背景技术

近年来，计算机视觉相关系统已经相对成熟，尤其是在目标检测与识别方面，对于静态物体或低速移动物体的检测与识别都已经达到了较高的水平。而对于高速移动目标的检测与识别，例如无人驾驶汽车躲避突然闯入视野的行人、无人机快速避障、工厂高速齿轮故障检测等，依然存在很多困难。

发明内容

为解决上述问题，本发明的目的在于提供一种目标检测识别方法及系统，基于采集到的高速移动目标的事件流数据，实现对高速移动目标的精准检测和识别。

本发明提供了一种目标检测识别方法，包括：对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，得到待识别的序列图像帧；对所述待识别的序列图像帧进行识别处理，得到识别结果，所述识别结果包括所述高速移动目标的位置信息以及类别标签。

作为本发明进一步的改进，对所述待识别的序列图像帧进行识别处理，包括：对所述待识别的序列图像帧进行特征提取，得到第二特征向量；对所述第二特征向量进行多尺度预测处理，得到第三特征向量，根据所述第三特征向量，确定所述识别结果。

作为本发明进一步的改进，对所述第二特征向量进行多尺度预测处理，得到第三特征向量，包括：对所述第二特征向量进行空时卷积处理，得到多个尺寸的三维特征向量；对所述多个尺寸的三维特征向量分别经过整合处理，得到多个尺寸的二维特征向量；对所述多个尺寸的二维特征向量进行两类卷积处理，得到两类多个尺寸的二维特征向量；对一类多个尺寸的二维特征向量进行分类处理，得到类别特征向量；对另一类多个尺寸的二维特征向量进行框预测处理，得到框预测特征向量和框偏置特征向量；对所述类别特征向量、所述框预测特征向量和所述框偏置特征向量进行融合处理，得到第三特征向量。

作为本发明进一步的改进，对所述待识别的序列图像帧进行识别处理通过第二神经网络实现，所述方法还包括：根据样本数据集对所述第二神经网络进行训练。

作为本发明进一步的改进，所述第二神经网络包括：多个基础层和多尺度预测层；每层基础层包括：级联的第一Conv2D层、BN层、ELU层和第二池化层，所述基础层中每一层均使用TimeDistributed包装层；所述多尺度预测层包括：多组级联的第二ConvLIF2D层和第三池化层，与每个所述第二ConvLIF2D层连接的SumLayer层，与所述SumLayer层连接的分类卷积层和锚框卷积层，与所述分类卷积层连接的分类处理层，与所述锚框卷积层连接的框预测处理层，以及与所述分类处理层和所述框预测处理层连接的融合处理层。

作为本发明进一步的改进，所述第三池化层使用TimeDistributed包装层；所述分类卷积层和所述锚框卷积层分别采用多个第二Conv2D层和多个第三Conv2D层，所述第二Conv2D层的个数和所述第三Conv2D层的个数与级联的第二ConvLIF2D层和第三池化层的组数相同；所述分类处理层包括级联的多个第一Reshape层、第一Concatenate层和Activation层，所述第一Reshape层的个数与所述第二Conv2D层的个数相同；所述框预测处理层包括级联的多个第二Reshape层和第二Concatenate层，以及级联的多个Anchor Boxes层、多个第三Reshape层和第三Concatenate层，所述第二Reshape层的个数、所述AnchorBoxes层的个数和所述第二Reshape层的个数与所述第三Conv2D层的个数相同；所述融合处理层包括级联的第四Concatenate层和prediction层。

作为本发明进一步的改进，根据样本数据集对所述第二神经网络进行训练，包括：获取样本数据集；其中，获取样本数据集，包括：对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧；基于所述预处理后的图像帧，构建类别标签数据集；基于所述类别标签数据集，将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，并将序列图像帧的最后一帧图像帧的位置信息以及类别标签作为该序列图像帧的位置信息以及类别标签，完成样本数据集的构建。

作为本发明进一步的改进，对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，包括：将采集的高速移动目标的事件流转换成图像帧；对转换后的图像帧进行裁切和去噪处理。

作为本发明进一步的改进，将采集的高速移动目标的事件流转换成图像帧，包括：基于事件流的y值确定事件流中的事件帧：若事件流中下一个事件的y值比当前事件的y值低，则确定当前事件为当前事件帧的结束帧，并确定下一个事件为下一事件帧的开始帧，依此类推，直至遍历事件流中所有事件的y值；基于事件流中的各事件帧生成图像帧：对每个事件帧中的所有事件，基于每个事件三元组的x和y值，生成图像帧；其中，事件的格式为三元组(x，y，ts)，x、y为事件在该事件帧中的横坐标和纵坐标，ts为该事件发出的时间戳。

作为本发明进一步的改进，基于每个事件三元组的x和y值，生成图像帧，包括：在参考大小的空白图像的(x，y)位置处填充1个像素，当填充完所有事件后，将未被填充的位置均填充0个像素，完成事件流到图像帧的转换。

作为本发明进一步的改进，对转换后的图像帧进行去噪处理，包括：确定图像帧中每个像素点周围的事件数量，并与事件预设阈值进行比较；若像素点周围的事件数量小于所述事件预设阈值，则去除该像素点。

作为本发明进一步的改进，基于所述预处理后的图像帧，构建类别标签数据集，包括：对所述预处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框；对所述边框中的目标进行类别识别，确定所述各目标的类别标签；根据所述图像帧中包含目标的边框以及所述各目标的类别标签，构建类别标签数据集。

作为本发明进一步的改进，所述预处理后的图像帧包括单个目标，将所述处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框，包括：获取图像中所有可能包含目标的轮廓列表；遍历轮廓列表，获取其中像素点最多的两个轮廓；将所述两个轮廓包含像素点的数量差值与预设差值进行比较，确定包含目标的轮廓；对包含目标的轮廓，取每个轮廓中所有像素点的最小x值x_min、最小y值y_min、最大x值x_max和最大y值y_max，以(x_min，y_min)和(x_max，y_max)为基准点画边框，并以该边框的中心为中心，对边框进行固定大小(M，M)的扩展，生成包含目标的边框，其中，M＞x_max，M＞y_max。

作为本发明进一步的改进，将所述两个轮廓包含像素点的数量差值与预设差值进行比较，确定包含目标的轮廓，包括：若所述两个轮廓包含像素点的数量差值小于等于预设差值，则确定所述两个轮廓均为包含目标的轮廓；若所述两个轮廓包含像素点的数量差值大于预设差值，则确定像素点最多的轮廓为包含目标的轮廓。

作为本发明进一步的改进，所述预处理后的图像帧包括N个目标，将处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框，包括：获取图像中所有可能包含目标的轮廓列表；遍历轮廓列表，获取像素点最多的N+1个轮廓；对所述N+1个轮廓，取每个轮廓中所有像素点的最小x值x_min、最小y值y_min、最大x值x_max和最大y值y_max，以(x_min，y_min)和(x_max，y_max)为基准点画边框；将各边框的边长与预设边长值进行比较，确定初步保留的边框；按照斜边长对初步保留的边框进行排序，并检查初步保留的边框中各边框的重合度，得到最终保留的边框；以最终保留的边框的中心为中心，对最终保留的边框进行固定大小(M，M)的扩展，生成包含目标的边框，其中，M＞x_max，M＞y_max。

作为本发明进一步的改进，将各边框的边长与预设边长值进行比较，确定初步保留的边框，包括：若边框的边长大于预设边长值，则保留该边框；若边框的边长小于等于预设边长值，则舍弃该边框。

作为本发明进一步的改进，检查初步保留的边框中各边框的重合度，得到最终保留的边框，包括：若初步保留的边框为N个，则检查其中是否有重合度大于50％的两个边框：若有重合度大于50％的两个边框，则将此图像帧舍弃；若没有重合度大于50％的两个边框，则确定N个边框为最终保留的边框；若初步保留的边框为N+1个，则检查其中两两相交的边框，并随机舍弃重合度最高的两相交边框中的一个边框，确定余下的N个边框为最终保留的边框。

作为本发明进一步的改进，以最终保留的边框的中心为中心，对最终保留的边框进行固定大小(M，M)的扩展之后，还包括：以扩展后的边框的中心为中心，在(p×p)的范围内进行搜索，并以p*p个点为中心分别画大小为(M×M)的边框，计算p*p个边框所包含的事件数量，将包含事件数量最多的边框确定为包含目标的边框。

作为本发明进一步的改进，对所述边框中的目标进行类别识别，确定所述各目标的类别标签，包括：对所述边框中的目标进行时序卷积处理，得到第一时序卷积向量；对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；对所述第一中间特征向量进行全连接处理，得到第二中间特征向量；对所述第二中间特征向量进行分类处理，得到第一特征向量；根据所述第一特征向量，确定所述边框中目标的类别标签。

作为本发明进一步的改进，对所述边框中的目标进行类别识别，确定所述各目标的类别标签通过第一神经网络实现，所述方法还包括：根据训练数据集对所述第一神经网络进行训练。

作为本发明进一步的改进，所述第一神经网络包括：级联的第一ConvLIF2D层、第一池化层、全连接层和Softmax层，其中，所述第一ConvLIF2D层和所述第一池化层按照时间步长T展开计算。

作为本发明进一步的改进，所述第一ConvLIF2D层或所述第二ConvLIF2D层用于：根据所述第一ConvLIF2D层或所述第二ConvLIF2D层t时刻的输入值X^t与权重W经过卷积运算后得到值I^t，与t-1时刻的生物电压值相加后，得到t时刻的膜电位值根据t时刻的膜电位值与发射阈值V_th，确定t时刻的输出值F^t；根据t时刻的输出值F^t确定是否重置膜电位，并根据重置的电压值V_reset确定重置的膜电位值其中，根据重置的膜电位值确定t时刻的生物电压值其中，α和β为Leak激活函数的泄露因子；其中，所述t时刻的输出值F^t作为与所述第一ConvLIF2D层或所述第二ConvLIF2D层级联的下一层的输入，所述t时刻的生物电压值作为计算t+1时刻的膜电位值的输入。

作为本发明进一步的改进，所述根据t时刻的膜电位值和发射阈值V_th，确定时刻t的输出值F^t，包括：若t时刻的膜电位值大于或等于发射阈值V_th，则确定所述t时刻的输出值F^t为1；若t时刻的膜电位值小于发射阈值V_th，则确定所述t时刻的输出值F^t为0。

作为本发明进一步的改进，所述方法还包括：采用NMS算法移除所述识别结果中相似的边框。

本发明还提供了一种目标检测识别系统，采用所述的方法，包括：

预处理模块，其用于将采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，得到待识别的序列图像帧；

检测识别模块，其用于对所述待识别的序列图像帧进行识别处理，得到识别结果，所述识别结果包括所述高速移动目标的位置信息以及类别标签。

作为本发明进一步的改进，对所述待识别的序列图像帧进行识别处理通过第二神经网络实现，所述系统还包括：根据样本数据集对所述第二神经网络进行训练。

作为本发明进一步的改进，对所述边框中的目标进行类别识别，确定所述各目标的类别标签通过第一神经网络实现，所述系统还包括：根据所述训练数据集对所述第一神经网络进行训练。

作为本发明进一步的改进，所述根据t时刻的膜电位值和发射阈值V_th，确定时刻t的输出值F^t，包括：若t时刻的膜电位值太于或等于发射阈值V_th，则确定所述t时刻的输出值F^t为1；若t时刻的膜电位值小于发射阈值V_th，则确定所述t时刻的输出值F^t为0。

作为本发明进一步的改进，所述系统还包括：采用NMS算法移除所述识别结果中相似的边框。

本发明还提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现所述的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现所述的方法。

本发明的有益效果为：基于采集到的高速移动目标的数据，实现对高速移动目标的精准检测和识别，确定高速移动目标的位置信息以及类别标签。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一示例性实施例所述的一种目标检测识别方法的流程示意图；

图2为本公开一示例性实施例所述的对单个目标的识别效果图；

图3为本公开一示例性实施例所述的对多个目标的识别效果图；

图4为本公开一示例性实施例所述的第二神经网络的基础层示意图；

图5为本公开一示例性实施例所述的第二神经网络的多尺度预测层示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明，若本公开实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本公开的描述中，所用术语仅用于说明目的，并非旨在限制本公开的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在，但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件，不代表顺序，且不对这些元件起限定作用。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图，这些和/或其他方面变得显而易见，并且，本领域普通技术人员更容易理解关于本公开所述实施例的说明。附图仅出于说明的目的用来描绘本公开所述实施例。本领域技术人员将很容易地从以下说明中认识到，在不背离本公开所述原理的情况下，可以采用本公开所示结构和方法的替代实施例。

本公开实施例的一种目标检测识别方法，如图1所示，包括：

S1，将采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，并将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，得到待识别的序列图像帧。

S2，对待识别的序列图像帧进行识别处理，得到识别结果，所述识别结果包括所述高速移动目标的位置信息以及类别标签。图2和图3示出了本公开实施例所述的方法对单个目标和多个目标的识别效果图。

其中，事件流数据可以是通过动态视觉传感器(Dynamic Vision Sensor，DVS)相机、事件性相机、仿视网膜相机等各类神经形态相机采集的高速移动状态下的任意目标的数据，本公开对神经形态相机类别、高速移动目标的类别和高速移动目标的数量均不做限制。

为便于理解，下文以使用DVS相机(例如，CeleX5相机)采集在高速旋转状态下，转盘上所粘贴的特定形状图案的数据为例进行说明，其中，采集到的事件流数据可以包括单目标的数据集和多目标的数据集。对于单目标的数据集，分别拍摄了转盘上粘贴有不同单个图形的数据，对于多目标的数据集，拍摄了同时粘贴有多种图形(例如，圆、三角、十字)的数据。应理解，本公开实施例目标检测识别方法可用于对任意单目标和/或多目标进行检测和识别。

在一种可选的实施方式中，将采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，包括：

S11，将采集的高速移动目标的事件流转换成图像帧。

这一步骤是为了便于网络的识别。相机所拍摄的数据是由一条一条的事件组成的，事件的格式为三元组(x，y，ts)，x、y为事件在该事件帧中的横坐标和纵坐标，ts为该事件发出的时间戳。由于相机采集数据为从取景框自上而下扫描获取数据，事件流的y值呈周期性变化，即一帧中的下一个事件的y值一定比当前事件的y值高，下一帧的第一个事件中的y值一定比当前帧的y值低，因此，可以根据事件流的y值确定图像帧。

在一种可选的实施方式中，基于事件流的y值确定事件流中的事件帧：若事件流中下一个事件的y值比当前事件的y值低，则确定当前事件为当前事件帧的结束帧，并确定下一个事件为下一事件帧的开始帧，依此类推，直至遍历事件流中所有事件的y值；基于事件流中的各事件帧生成图像帧：对每个事件帧中的所有事件，基于每个事件三元组的x和y值，生成图像帧。

在另一种可选的实施方式中，在参考大小(例如800x1280)的空白图像的(x，y)位置处填充1个像素，当填充完所有事件后，将未被填充的位置均填充0个像素，完成事件流到图像帧的转换。其中，参考大小的尺寸可以根据待转换的图像帧的尺寸需求来确定，本公开对此不做限制。

S12，对转换的图像帧进行裁切和去噪处理。

由于相机生成的图像大小例如为800x1280，而网络关心的图形的位置一般位于图像中心例如500x500的范围内，因此可以对图像帧进行裁切，例如，以图像中心为中心点，裁切一个500x500的矩形。

由于图像的噪声较多，带有噪声的图像会影响后续轮廓识别的精确性，因此可以进行去噪处理，以提高后续轮廓识别的精确性。在一种可选的实施方式中，可以确定图像帧中每个像素点周围的事件数量，并与事件预设阈值进行比较；若像素点周围的事件数量小于事件预设阈值，则去除该像素点。

在一种可选的实施方式中，对待识别的序列图像帧进行识别处理，包括：对待识别的序列图像帧进行特征提取，得到第二特征向量；对第二特征向量进行多尺度预测处理，得到第三特征向量，根据第三特征向量，确定所述识别结果。

在一种可选的实施方式中，对待识别的序列图像帧进行特征提取，得到第二特征向量，所述特征提取包括至少一次，包括：对待识别的序列图像帧进行卷积处理，得到第一卷积向量；对卷积向量进行标准化处理，得到第三中间特征向量；对第三中间特征向量进行指数线性处理，得到第四中间特征向量；对第四中间特征向量池化处理，得到第五中间特征向量；在进行一次特征提取时，将第五中间特征向量确定为第二特征向量；在进行多次特征提取处理时，将多个一次特征提取所获取的多个第五中间特征向量进行卷积处理，得到第六中间特征向量，并将第六中间特征向量确定为到第二特征向量。可以理解的是，上述确定的第二特征向量是三维特征向量。

在一种可选的实施方式中，对第二特征向量进行多尺度预测处理，得到第三特征向量，包括：对第二特征向量进行空时卷积处理，得到多个尺寸的三维特征向量；对多个尺寸的三维特征向量分别经过整合处理，得到多个尺寸的二维特征向量；对多个尺寸的二维特征向量进行两类卷积处理，得到两类多个尺寸的二维特征向量；对一类多个尺寸的二维特征向量进行分类处理，得到类别特征向量；对另一类多个尺寸的二维特征向量进行框预测处理，得到框预测特征向量和框偏置特征向量；对类别特征向量、框预测特征向量和框偏置特征向量进行融合处理，得到第三特征向量。其中，空时卷积处理可以是指对待处理的数据进行空间域特征提取时也能够传递或学习时间域信息。

在一种可选的实施方式中，上述获取第三特征向量过程可以采用如下方法来实现：对第二特征向量进行时序卷积处理，得到多个第二时序卷积向量；分别对多个第二时序卷积向量进行池化处理，得到多个第七中间特征向量；(对第二特征向量的时序卷积和第二时序卷积向量的池化处理可以理解为前述对第二特征向量的空时卷积处理，多个第七中间特征向量可以理解为前述的多个尺寸的三维特征向量；)分别对多个第七中间特征向量进行整合处理，得到多个第八中间特征向量；(多个第八中间特征向量可以理解为前述的多个尺寸的二维特征向量；)对多个第八中间特征向量分别进行分类卷积处理和锚框卷积处理，得到多个第二卷积向量和多个第三卷积向量；(分类卷积处理和锚框卷积处理可以理解为前述的两类卷积处理，多个第二卷积向量和多个第三卷积向量可以理解为两类多个尺寸的二维特征向量；)分别对多个第二卷积向量进行矩阵变换处理，得到多个第九中间特征向量；将多个第九中间特征向量进行合并处理，得到第十三中间特征向量，并将第十三中间特征向量进行分类处理，得到第十四中间特征向量；(对第二卷积向量的矩阵变换、第九中间特征向量的融合处理及第十三中间特征向量的分类处理可以理解为前述对一类多个尺寸的二维特征向量的分类处理，第十四中间特征向量可以理解为类别特征向量；)分别对多个第三卷积向量进行矩阵变换处理和锚框处理，得到多个第十中间特征向量和多个第十一中间特征向量；将多个第十中间特征向量进行融合处理，得到第十五中间特征向量；(第十五中间特征向量可以理解为框预测特征向量；)分别对多个第十一中间特征向量进行矩阵变换处理，得到多个第十二中间特征向量；将多个第十二中间特征向量进行融合处理，得到第十六中间特征向量；(第十六中间特征向量可以理解为框偏置特征向量；)将第十四中间特征向量、十五中间特征向量和十六中间特征向量进行融合处理，得到第十七中间特征向量；将十七中间特征向量确定为第三特征向量，根据第三特征向量。

其中，时序卷积处理可以是指对特征图进行带时序信息的卷积处理，例如，可以通过带时序信息的卷积层对特征图进行卷积处理。这样，能够联系多张图片，处理图片之间的时序信息。

在一种可选的实施方式中，对待识别的序列图像帧进行识别处理，可以包括：对待识别的序列图像帧进行特征提取，得到第二特征向量；对第二特征向量进行单一尺度预测处理，得到第三特征向量，根据第三特征向量，确定所述识别结果。对第二特征向量进行单一尺度预测处理，得到第三特征向量可以是指对第二特征向量进行一次时序卷积处理，得到第三特征向量。

在一种可选的实施方式中，对待识别的序列图像帧进行识别处理可以通过第二神经网络实现，所述方法还包括：根据样本数据集对第二神经网络进行训练。

在一种可选的实施方式中，第二神经网络包括：多个基础层和多尺度预测层。如图4所示，每层基础层包括：级联的第一Conv2D层、BN层、ELU层和第二池化层，基础层中每一层均使用TimeDistributed包装层。

在一种可选的实施方式中，多尺度预测层包括：多组级联的第二ConvLIF2D层和第三池化层，与每个第二ConvLIF2D层连接的SumLayer层，与SumLayer层连接的分类卷积层和锚框卷积层，与分类卷积层连接的分类处理层，与锚框卷积层连接的框预测处理层，以及与分类处理层和框预测处理层连接的融合处理层。SumLayer层整合第二ConvLIF2D层输出中的所有时间步数据。例如，第二ConvLIF2D层输出的维度是(T，40，40)，那么经过SumLayer层后，维度为(40，40)，这(40，40)的每一个元素都是原先T个元素的平均值。SumLayer层与第二ConvLIF2D层的层数一致。

以对第二特征向量进行4个尺度预测处理为例，如图5所示，多尺度预测层包括4个第二ConvLIF2D层，第二特征向量输入第一个第二ConvLIF2D层进行处理，得到一个尺寸的三维特征向量，该三维特征向量输入与第一个第二ConvLIF2D层连接的SumLayer层以及与第一个第二ConvLIF2D层连接的第三池化层，与第一个第二ConvLIF2D层连接的第三池化层的处理结果输入第二个第二ConvLIF2D层进行处理，如前所述，得到另一个尺寸的三维特征向量，该三维特征向量输入与之连接的SumLayer层以及第三池化层，直至第三个第三池化层的处理结果输入第四个第二ConvLIF2D层进行处理，得到另一个尺寸的三维特征向量，该三维特征向量输入与第四个第二ConvLIF2D层连接的SumLayer层。其中，输入4个SumLayer层的为4个尺寸的三维特征向量，SumLayer层可用于对三维特征向量进行整合处理，得到多个尺寸的二维特征向量。

在一种可选的实施方式中，第三池化层使用TimeDistributed包装层；分类卷积层和锚框卷积层分别采用多个第二Conv2D层和多个第三Conv2D层，第二Conv2D层和第三Conv2D层的个数可以与级联的第二ConvLIF2D层和第三池化层的组数相同。例如图5中所示，级联的第二ConvLIF2D层和第三池化层一共四组，分类卷积层是与四个SumLayer层连接的左边的四个第二Conv2D层，锚框卷积层是与四个SumLayer层连接的右边的四个第二Conv2D层；分类处理层包括级联的多个第一Reshape层、第一Concatenate层和Activation层，第一Reshape层的个数与第二Conv2D层的个数相同；例如图5中所示，分类处理层包括四个第一Reshape层、第一Concatenate层和Activation层；框预测处理层包括级联的多个第二Reshape层和第二Concatenate层，以及级联的多个Anchor Boxes层、多个第三Reshape层和第三Concatenate层，第二Reshape层的个数、Anchor Boxes层的个数和述第二Reshape层的个数均与所述第三Conv2D层的个数相同；例如图5中所示，框预测处理层包括四个第二Reshape层和第二Concatenate层，以及级联的四个Anchor Boxes层、四个第三Reshape层和第三Concatenate层；融合处理层包括级联的第四Concatenate层和prediction层。

在一种可选的实施方式中，当所处理的数据较为简单时，上述对第二特征向量进行多尺度预测处理，得到第三特征向量，包括：通过第二ConvLIF2D层对第二特征向量进行时序卷积处理，得到第二时序卷积向量；通过第三池化层对第二时序卷积向量进行池化处理，得到第七中间特征向量；通过SumLayer层对第七中间特征向量进行整合处理，得到第八中间特征向量；通过第二Conv2D层和第三Conv2D层对第八中间特征向量分别进行分类卷积处理和锚框卷积处理，得到第二卷积向量和第三卷积向量；通过第一Reshape层对第二卷积向量进行矩阵变换处理，得到第九中间特征向量；通过Activation层对第九中间特征向量进行分类处理，得到第十四中间特征向量；通过第二Reshape层和Anchor Boxes层分别对第三卷积向量进行矩阵变换处理和锚框处理，得到第十中间特征向量和第十一中间特征向量；通过第三Reshape层对第十一中间特征向量进行矩阵变换处理，得到第十二中间特征向量；通过第四Concatenate层将第十四中间特征向量、第十中间特征向量和第十二中间特征向量进行融合处理，得到第十七中间特征向量；将第十七中间特征向量确定为第三特征向量，根据第三特征向量。

上述第二神经网络，面对不同的数据，基础层的层数可以不同，越简单的数据需要的基础层越少，通常设置为三层至七层。优选可以设置三层基础层，可以实现较优的效果。同样，预测层的层数在针对不同任务时，所需要的层数也不同，可以由数据中存在的目标大小尺度灵活决定的，例如，可以将尺度预测层设置为三层或者四层。

在一种可选的实施方式中，对待识别的序列图像帧进行特征提取，得到第二特征向量，包括：通过第一Conv2D层对待识别的序列图像帧进行卷积处理，得到第一卷积向量；通过BN层对卷积向量进行标准化处理，得到第三中间特征向量；通过ELU层对第三中间特征向量进行指数线性处理，得到第四中间特征向量；通过第二池化层对第四中间特征向量池化处理，得到第五中间特征向量；在进行一次特征提取时，将第五中间特征向量确定为第二特征向量；在进行多次特征提取处理时，将多个一次特征提取所获取的多个第五中间特征向量进行卷积处理，得到第六中间特征向量，并将第六中间特征向量确定为到第二特征向量。

在一种可选的实施方式中，对第二特征向量进行多尺度预测处理，得到第三特征向量，包括：通过多个第二ConvLIF2D层对第二特征向量进行时序卷积处理，得到多个第二时序卷积向量；通过多个第三池化层分别对多个第二时序卷积向量进行池化处理，得到多个第七中间特征向量；通过多个SumLayer层分别对多个第七中间特征向量进行整合处理，得到多个第八中间特征向量；通过多个第二Conv2D层和多个第三Conv2D层对多个第八中间特征向量分别进行分类卷积处理和锚框卷积处理，得到多个第二卷积向量和多个第三卷积向量；通过多个第一Reshape层分别对多个第二卷积向量进行矩阵变换处理，得到多个第九中间特征向量；通过第一Concatenate层将多个第九中间特征向量进行合并处理，得到第十三中间特征向量，并通过Activation层将第十三中间特征向量进行分类处理，得到第十四中间特征向量；通过多个第二Reshape层和多个Anchor Boxes层分别对多个第三卷积向量进行矩阵变换处理和锚框处理，得到多个第十中间特征向量和多个第十一中间特征向量；通过第二Concatenate层将多个第十中间特征向量进行融合处理，得到第十五中间特征向量；通过多个第三Reshape层分别对多个第十一中间特征向量进行矩阵变换处理，得到多个第十二中间特征向量；通过第三Concatenate层将多个第十二中间特征向量进行融合处理，得到第十六中间特征向量；通过第四Concatenate层将第十四中间特征向量、第十五中间特征向量和第十六中间特征向量进行融合处理，得到第十七中间特征向量；将第十七中间特征向量确定为第三特征向量，根据第三特征向量。

在一种可选的实施方式中，根据样本数据集对第二神经网络进行训练，包括：获取样本数据集；其中，获取样本数据集，包括：

对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧；基于所述预处理后的图像帧，构建类别标签数据集；基于所述类别标签数据集，将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，并将序列图像帧的最后一帧图像帧的位置信息以及类别标签作为该序列图像帧的位置信息以及类别标签，完成样本数据集的构建。

本公开检测识别数据集是基于类别标签数据集建立的，增加前几帧的信息作为前几个时间步辅助识别，关联上下几帧，可以提高检测识别效果。例如需要带有T个时间步的图像帧，则将T帧图像(500，500)合成维度为(T，500，500)的序列图像帧。预处理过程如前述，这里不再详述。在一种可选的实现方式中，样本数据集中的序列图像帧的帧数和待识别的序列图像帧的帧数相同。

在一种可选的实施方式中，基于所述预处理后的图像帧，构建类别标签数据集，包括：对所述预处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框；对所述边框中的目标进行类别识别，确定所述各目标的类别标签；根据所述图像帧中包含目标的边框以及所述各目标的类别标签，构建类别标签数据集。

本公开的方法涉及单目标和多个目标的测识别。

在一种可选的实施方式中，所述预处理后的图像帧包括单个目标，在对图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框时，包括：获取图像中所有可能包含目标的轮廓列表，例如，使用opencv的findContours接口取得图像中所有疑似图形的轮廓列表；遍历轮廓列表，获取其中像素点最多的两个轮廓；将两个轮廓包含像素点的数量差值与预设差值进行比较，确定包含目标的轮廓；对包含目标的轮廓，取每个轮廓中所有像素点的最小x值xmin、最小y值ymin、最大x值xmax和最大y值ymax，以(xmin，ymin)和(xmax，ymax)为基准点画边框，并以该边框的中心为中心，对边框进行固定大小例如(160，160)的扩展，生成包含目标的边框，其中，M＞xmax，M＞ymax。其中，本公开对固定大小的尺寸不做限制。

在一种可选的实施方式中，若两个轮廓包含像素点的数量差值小于预设差值，则确定两个轮廓均为包含目标的轮廓；若两个轮廓包含像素点的数量差值大于预设差值，则确定像素点最多的轮廓为包含目标的轮廓。例如，预设差值可以设定为100。

在一种可选的实施方式中，所述预处理后的图像帧包括N个目标(即多个目标)，在对图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框时，包括：获取图像中所有可能包含目标的轮廓列表，例如，使用opencv的findContours接口取得图像中所有疑似图形的轮廓列表；遍历轮廓列表，获取像素点最多的N+1个轮廓；对N+1个轮廓，取每个轮廓中所有像素点的最小x值xmin、最小y值ymin、最大x值xmax和最大y值ymax，以(xmin，ymin)和(xmax，ymax)为基准点画边框；将各边框的边长与预设边长值进行比较，确定初步保留的边框；按照斜边长对初步保留的边框进行排序，并检查初步保留的边框中各边框的重合度，得到最终保留的边框；以最终保留的边框的中心为中心，对最终保留的边框进行固定大小例如(160，160)的扩展，生成包含目标的边框，其中，M＞xmax，M＞ymax。

在一种可选的实施方式中，若边框的边长大于预设边长值，则保留该边框；若边框的边长小于预设边长值，则舍弃该边框。例如预设边长值可以设定为50。

在一种可选的实施方式中，若初步保留的边框为N个，则检查其中是否有重合度大于50％的两个边框：若有重合度大于50％的两个边框，则将此图像帧舍弃；若没有重合度大于50％的两个边框，则确定N个边框为最终保留的边框；若初步保留的边框为N+1个，则检查其中两两相交的边框，并随机舍弃重合度最高的两相交边框中的一个边框，确定余下的N个边框为最终保留的边框。

在一种可选的实施方式中，还包括：以扩展后的边框的中心为中心，在例如(50x50)的范围内进行搜索，并以250个点为中心分别画大小例如为(160×160)的边框，计算250个边框所包含的事件数量，将包含事件数量最多的边框确定为包含目标的边框。在边框扩展以后，根据数据的特点以扩展后的边框的中心为基准进行小范围的“最优框搜索”，可增强生成边框的准确性。

在一种可选的实施方式中，对所述边框中的目标进行类别识别，确定所述各目标的类别标签，包括：对所述边框中的目标进行时序卷积处理，得到第一时序卷积向量；对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；对所述第一中间特征向量进行全连接处理，得到第二中间特征向量；对所述第二中间特征向量进行分类处理，得到第一特征向量；根据所述第一特征向量，确定所述边框中目标的类别标签。

如前所述，所述预处理后的图像帧包括单个目标或N个目标。当预处理后的图像帧包括N个目标时，可以分别对N个边框中的目标进行类别识别，确定N个目标的类别标签。

在一种可选的实施方式中，对所述边框中的目标进行类别识别，确定所述各目标的类别标签通过第一神经网络实现，所述方法还包括：根据所述训练数据集对第一神经网络进行训练。

在一种可选的实施方式中，第一神经网络包括：级联的第一ConvLIF2D层、第一池化层、全连接层和Softmax层，其中，第一ConvLIF2D层和第一池化层按照时间步长T展开计算。

在一种可选的实施方式中，对所述边框中的目标进行类别识别，确定所述各目标的类别标签，包括：通过第一ConvLIF2D层对所述边框中的目标进行时序卷积处理，得到第一时序卷积向量；通过第一池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；通过全连接层对所述第一中间特征向量进行全连接处理，得到第二中间特征向量；通过Softmax层对所述第二中间特征向量进行分类处理，得到第一特征向量；根据所述第一特征向量，确定所述边框中目标的类别标签。

其中，用于训练第一神经网络的训练数据集可以是人工标记的数据集。例如，单个目标实际上就是前景和背景的分类，在标记类别标签时，可以直接手动标记。将训练数据集输入第一神经网络进行预测，根据预测结果和训练数据集的标记信息确定损失，并根据损失计算梯度，调整第一神经网络参数，当满足训练条件时，例如，网络收敛时，得到训练好的第一神经网络。

在一种可选的实施方式中，第一ConvLIF2D层或第二ConvLIF2D层用于：根据第一ConvLIF2D层或第二ConvLIF2D层t时刻的输入值X^t与权重W经过卷积运算后得到值I^t，与t-1时刻的生物电压值相加后，得到t时刻的膜电位值根据t时刻的膜电位值与发射阈值V_th，确定t时刻的输出值F^t；根据t时刻的输出值F^t确定是否重置膜电位，并根据重置的电压值V_reset确定重置的膜电位值其中，根据重置的膜电位值确定t时刻的生物电压值其中，α和β为Leak激活函数的泄露因子；其中，t时刻的输出值F^t作为与第一ConvLIF2D层或第二ConvLIF2D层级联的下一层的输入，t时刻的生物电压值作为计算t+1时刻的膜电位值的输入。

在一种可选的实施方式中，若t时刻的膜电位值大于或等于发射阈值V_th，则确定t时刻的输出值F^t为1；若t时刻的膜电位值小于发射阈值V_th，则确定t时刻的输出值F^t为0。

在一种可选的实施方式中，根据样本数据集对所述第二神经网络进行训练，方法还包括：

将样本数据集输入第二神经网络，得到预测结果，预测结果包括高速移动目标的位置信息以及类别标签。根据预测结果以及高速目标数据集标签(样本数据通过第一神经网络标记的类别标签以及样本数据通过轮廓识别算法确定的位置信息)计算损失Loss。例如，根据预测结果中的高速移动目标的位置信息以及样本数据通过轮廓识别算法确定的位置信息确定第一损失，根据预测结果中的高速移动目标的类别标签与样本数据通过第一神经网络标记的类别标签确定第二损失，根据第一损失和第二损失之和确定网络整体损失。并根据整体网络损失计算梯度，调整第二神经网络参数，直至满足训练条件，例如，第二神经网络收敛，得到训练好的第二神经网络。

在一种可选的实施方式中，方法还包括：采用NMS算法移除识别结果中相似的边框。这里可以理解为：第二神经网络在预测时，采用NMS(非极大值抑制)算法对第二神经网络输出的识别结果移除相似的预测边框。例如，NMS算法的置信度阈值设置为：0.9，iou阈值设置为0.05，经过非极大值抑制以后，可以去除冗余的边框。

本公开实施例所述的一种目标检测识别系统，采用所述的方法，包括：预处理模块和检测识别模块。

预处理模块，其用于将采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，将时间戳相邻的T个预处理后的图像帧拼接成一个时间步为T的序列图像帧，得到待识别的序列图像帧。

检测识别模块，其用于对待识别的序列图像帧进行识别处理，得到识别结果，识别结果包括高速移动目标的位置信息以及类别标签。

本公开使用DVS相机(例如，CeleX5相机)采集在高速旋转状态下，转盘上所粘贴的特定形状图案的数据，采集到的事件流数据包括单目标的数据集和多目标的数据集。对于单目标的数据集，分别拍摄了转盘上粘贴有不同单个图形的数据，对于多目标的数据集，拍摄了同时粘贴有多种图形(例如，圆、三角、十字)的数据。

在一种可选的实施方式中，将采集的高速移动目标的事件流转换成图像帧，对转换的图像帧进行裁切和去噪处理，得到预处理后的图像帧。

在一种可选的实施方式中，在参考大小(例如800x1280)的空白图像的(x，y)位置处填充1个像素，当填充完所有事件后，将未被填充的位置均填充0个像素，完成事件流到图像帧的转换。

在一种可选的实施方式中，确定图像帧中每个像素点周围的事件数量，并与事件预设阈值进行比较；若像素点周围的事件数量小于事件预设阈值，则去除该像素点。

在一种可选的实施方式中，对第二特征向量进行多尺度预测处理，得到第三特征向量，包括：对第二特征向量进行空时卷积处理，得到多个尺寸的三维特征向量；对多个尺寸的三维特征向量分别经过整合处理，得到多个尺寸的二维特征向量；对多个尺寸的二维特征向量进行两类卷积处理，得到两类多个尺寸的二维特征向量；对一类多个尺寸的二维特征向量进行分类处理，得到类别特征向量；对另一类多个尺寸的二维特征向量进行框预测处理，得到框预测特征向量和框偏置特征向量；对类别特征向量、框预测特征向量和框偏置特征向量进行融合处理，得到第三特征向量。

在一种可选的实施方式中，上述获取第三特征向量过程可以采用如下方法来实现：对第二特征向量进行时序卷积处理，得到多个第二时序卷积向量；分别对多个第二时序卷积向量进行池化处理，得到多个第七中间特征向量；分别对多个第七中间特征向量进行整合处理，得到多个第八中间特征向量；对多个第八中间特征向量分别进行分类卷积处理和锚框卷积处理，得到多个第二卷积向量和多个第三卷积向量；分别对多个第二卷积向量进行矩阵变换处理，得到多个第九中间特征向量；将多个第九中间特征向量进行合并处理，得到第十三中间特征向量，并将第十三中间特征向量进行分类处理，得到第十四中间特征向量；分别对多个第三卷积向量进行矩阵变换处理和锚框处理，得到多个第十中间特征向量和多个第十一中间特征向量；将多个第十中间特征向量进行融合处理，得到第十五中间特征向量；分别对多个第十一中间特征向量进行矩阵变换处理，得到多个第十二中间特征向量；将多个第十二中间特征向量进行融合处理，得到第十六中间特征向量；将第十四中间特征向量、十五中间特征向量和十六中间特征向量进行融合处理，得到第十七中间特征向量；将十七中间特征向量确定为第三特征向量，根据第三特征向量。

在一种可选的实施方式中，对待识别的序列图像帧进行识别处理通过第二神经网络实现，所述系统还包括：根据样本数据集对第二神经网络进行训练。

在一种可选的实施方式中，第二神经网络包括：多个基础层和多尺度预测层。如图4所示，每层基础层包括：级联的第一Conv2D层、BN层、ELU层和第二池化层，基础层中每一层均使用TimeDistributed包装层。如图5所示，多尺度预测层包括：多组级联的第二ConvLIF2D层和第三池化层，与每个第二ConvLIF2D层连接的SumLayer层，与SumLayer层连接的分类卷积层和锚框卷积层，与分类卷积层连接的分类处理层，与锚框卷积层连接的框预测处理层，以及与分类处理层和框预测处理层连接的融合处理层。SumLayer层整合第二ConvLIF2D层输出中的所有时间步数据。

在一种可选的实施方式中，第三池化层使用TimeDistributed包装层；分类卷积层和锚框卷积层分别采用多个第二Conv2D层和多个第三Conv2D层，第二Conv2D层和第三Conv2D层的个数与级联的第二ConvLIF2D层和第三池化层的组数相同；例如图5中所示，级联的第二ConvLIF2D层和第三池化层一共四组，分类卷积层是与四个SumLayer层连接的左边的四个第二Conv2D层，锚框卷积层是与四个SumLayer层连接的右边的四个第二Conv2D层；分类处理层包括级联的多个第一Reshape层、第一Concatenate层和Activation层，第一Reshape层的个数与第二Conv2D层的个数相同；例如图5中所示，分类处理层包括四个第一Reshape层、第一Concatenate层和Activation层；框预测处理层包括级联的多个第二Reshape层和第二Concatenate层，以及级联的多个Anchor Boxes层、多个第三Reshape层和第三Concatenate层，第二Reshape层的个数、Anchor Boxes层的个数和述第二Reshape层的个数均与所述第三Conv2D层的个数相同。

上述第二神经网络，面对不同的数据，基础层的层数可以不同，越简单的数据需要的基础层越少，通常设置为三层至七层。优选可以设置三层基础层，可以实现较优的效果。同样，预测层的层数在针对不同任务时，所需要的层数也不同，这是由数据中存在的目标大小尺度决定的，需定义的尺度数量和层数一致。如果数据的尺度差别不大，可以将尺度预测层设置为三层或者四层，优选四层的效果更好。

在一种可选的实施方式中，根据样本数据集对第二神经网络进行训练，包括：获取样本数据集；其中，获取样本数据集，包括：对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧；基于所述预处理后的图像帧，构建类别标签数据集；基于所述类别标签数据集，将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，并将序列图像帧的最后一帧图像帧的位置信息以及类别标签作为该序列图像帧的位置信息以及类别标签，完成样本数据集的构建。

本公开的系统涉及单目标和多个目标的测识别。

在一种可选的实施方式中，所述预处理后的图像帧包括单个目标，在对图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框时，包括：获取图像中所有可能包含目标的轮廓列表，例如，使用opencv的findContours接口取得图像中所有疑似图形的轮廓列表；遍历轮廓列表，获取其中像素点最多的两个轮廓；将两个轮廓包含像素点的数量差值与预设差值进行比较，确定包含目标的轮廓；对包含目标的轮廓，取每个轮廓中所有像素点的最小x值xmin、最小y值ymin、最大x值xmax和最大y值ymax，以(xmin，ymin)和(xmax，ymax)为基准点画边框，并以该边框的中心为中心，对边框进行固定大小例如(160，160)的扩展，生成包含目标的边框，其中，M＞xmax，M＞ymax。

在一种可选的实施方式中，还包括：以扩展后的边框的中心为中心，在例如(50x50)的范围内进行搜索，并以250个点为中心分别画大小例如为(160×160)的边框，计算250个边框所包含的事件数量，将包含事件数量最多的边框确定为包含目标的边框。在边框扩展以后，根据数据的特点以扩展后的边框的中心为基准进行小范围的“最优框搜索”，可以增强生成边框的准确性。

在一种可选的实施方式中，将包含N个目标的边框以及边框所框住的目标图像进行类别标签分类处理通过第一神经网络实现，所述系统还包括：根据所述训练数据集对第一神经网络进行训练。

在一种可选的实施方式中，通过第一ConvLIF2D层对所述边框中的目标进行时序卷积处理，得到第一时序卷积向量；通过第一池化层对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；通过全连接层对所述第一中间特征向量进行全连接处理，得到第二中间特征向量；通过Softmax层对所述第二中间特征向量进行分类处理，得到第一特征向量；根据所述第一特征向量，确定所述边框中目标的类别标签。

其中，用于训练第一神经网络的训练数据集可以是人工标记的数据集。例如，单个目标实际上就是前景和背景的分类，在标记类别标签时，可以直接手动标记即可。将训练数据集输入第一神经网络进行预测，根据预测结果和训练数据集的标记信息确定损失，并根据损失计算梯度，调整第一神经网络参数，当满足训练条件时，例如，网络收敛时，得到训练好的第一神经网络。

在一种可选的实施方式中，根据样本数据集对所述第二神经网络进行训练，系统还包括：将样本数据集输入第二神经网络，得到预测结果，预测结果包括高速移动目标的位置信息以及类别标签。根据预测结果以及高速目标数据集标签(样本数据通过第一神经网络标记的类别标签以及样本数据通过轮廓识别算法确定的位置信息)计算损失Loss。例如，根据预测结果中的高速移动目标的位置信息以及样本数据通过轮廓识别算法确定的位置信息确定第一损失，根据预测结果中的高速移动目标的类别标签与样本数据通过第一神经网络标记的类别标签确定第二损失，根据第一损失和第二损失之和确定网络整体损失。并根据整体网络损失计算梯度，调整第二神经网络参数，直至满足训练条件，例如，第二神经网络收敛，得到训练好的第二神经网络。

在一种可选的实施方式中，系统还包括：采用NMS算法移除识别结果中相似的边框。这里可以理解为：第二神经网络在预测时，采用NMS(非极大值抑制)算法对第二神经网络输出的识别结果移除相似的预测边框。例如，NMS算法的置信度阈值设置为：0.9，iou阈值设置为0.05，经过非极大值抑制以后，可以去除冗余的边框。

本公开还涉及一种电子设备，包括服务器、终端等。该电子设备包括：至少一个处理器；与至少一个处理器通信连接的存储器；以及与存储介质通信连接的通信组件，所述通信组件在处理器的控制下接收和发送数据；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行以实现上述实施例中的高速目标检测识别方法。

在一种可选的实施方式中，存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述高速目标检测识别方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器中，当被一个或者多个处理器执行时，执行上述任意方法实施例中的高速目标检测识别方法。

上述产品可执行本申请实施例所提供的高速目标检测识别方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的高速目标检测识别方法。

本公开还涉及一种计算机可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的高速目标检测识别方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

此外，本领域普通技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本领域技术人员应理解，尽管已经参考示例性实施例描述了本公开，但是在不脱离本公开的范围的情况下，可进行各种改变并可用等同物替换其元件。另外，在不脱离本公开的实质范围的情况下，可进行许多修改以使特定情况或材料适应本公开的教导。因此，本公开不限于所公开的特定实施例，而是本公开将包括落入所附权利要求范围内的所有实施例。

Claims

1.一种目标检测识别方法，其特征在于，包括：

对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，并将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，得到待识别的序列图像帧；

通过第二神经网络对所述待识别的序列图像帧进行识别处理，得到识别结果，所述识别结果包括所述高速移动目标的位置信息以及类别标签，其中，所述第二神经网络包括：

多个基础层和多尺度预测层；

每层基础层包括：级联的第一Conv2D层、BN层、ELU层和第二池化层，所述基础层中每一层均使用TimeDistributed包装层；

所述多尺度预测层包括：多组级联的第二ConvLIF2D层和第三池化层，与每个所述第二ConvLIF2D层连接的SumLayer层，与所述SumLayer层连接的分类卷积层和锚框卷积层，与所述分类卷积层连接的分类处理层，与所述锚框卷积层连接的框预测处理层，以及与所述分类处理层和所述框预测处理层连接的融合处理层，其中，第二 ConvLIF2D 层用于进行时序卷积处理，SumLayer层用于整合第二 ConvLIF2D 层输出中的所有时间步数据，TimeDistributed包装层用于将基础层中的每一层应用于输入的每个时间步。

2.根据权利要求1所述的方法，其特征在于，对所述待识别的序列图像帧进行识别处理，包括：

对所述待识别的序列图像帧进行特征提取，得到第二特征向量；

对所述第二特征向量进行多尺度预测处理，得到第三特征向量，根据所述第三特征向量，确定所述识别结果。

3.根据权利要求2所述的方法，其特征在于，对所述第二特征向量进行多尺度预测处理，得到第三特征向量，包括：

对所述第二特征向量进行空时卷积处理，得到多个尺寸的三维特征向量；

对所述多个尺寸的三维特征向量分别经过整合处理，得到多个尺寸的二维特征向量；

对所述多个尺寸的二维特征向量进行两类卷积处理，得到两类多个尺寸的二维特征向量；

对一类多个尺寸的二维特征向量进行分类处理，得到类别特征向量；

对另一类多个尺寸的二维特征向量进行框预测处理，得到框预测特征向量和框偏置特征向量；

对所述类别特征向量、所述框预测特征向量和所述框偏置特征向量进行融合处理，得到第三特征向量。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据样本数据集对所述第二神经网络进行训练。

5.根据权利要求1所述的方法，其特征在于，

所述第三池化层使用TimeDistributed包装层；

所述分类卷积层和所述锚框卷积层分别采用多个第二Conv2D层和多个第三Conv2D层，所述第二Conv2D层的个数和所述第三Conv2D层的个数与级联的第二ConvLIF2D层和第三池化层的组数相同；

所述分类处理层包括级联的多个第一Reshape层、第一Concatenate层和Activation层，所述第一Reshape层的个数与所述第二Conv2D层的个数相同；

所述框预测处理层包括级联的多个第二Reshape层和第二Concatenate层，以及级联的多个Anchor Boxes层、多个第三Reshape层和第三Concatenate层，所述第二Reshape层的个数、所述Anchor Boxes层的个数和所述第二Reshape层的个数与所述第三Conv2D层的个数相同；

所述融合处理层包括级联的第四Concatenate层和prediction层。

6.根据权利要求4所述的方法，其特征在于，根据样本数据集对所述第二神经网络进行训练，包括：获取样本数据集；

其中，获取样本数据集，包括：

对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧；

基于所述预处理后的图像帧，构建类别标签数据集；

基于所述类别标签数据集，将时间戳相邻的T个所述预处理后的图像帧拼接成一个时间步为T的序列图像帧，并将序列图像帧的最后一帧图像帧的位置信息以及类别标签作为该序列图像帧的位置信息以及类别标签，完成样本数据集的构建。

7.根据权利要求1或6所述的方法，其特征在于，对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，包括：

将采集的高速移动目标的事件流转换成图像帧；

对转换后的图像帧进行裁切和去噪处理。

8.根据权利要求7所述的方法，其特征在于，将采集的高速移动目标的事件流转换成图像帧，包括：

基于事件流的y值确定事件流中的事件帧：若事件流中下一个事件的y值比当前事件的y值低，则确定当前事件为当前事件帧的结束帧，并确定下一个事件为下一事件帧的开始帧，依此类推，直至遍历事件流中所有事件的y值；

基于事件流中的各事件帧生成图像帧：对每个事件帧中的所有事件，基于每个事件三元组的x和y值，生成图像帧；

其中，事件的格式为三元组（x，y，ts），x、y为事件在该事件帧中的横坐标和纵坐标，ts为该事件发出的时间戳。

9.根据权利要求8所述的方法，其特征在于，基于每个事件三元组的x和y值，生成图像帧，包括：

在参考大小的空白图像的（x，y）位置处填充1个像素，当填充完所有事件后，将未被填充的位置均填充0个像素，完成事件流到图像帧的转换。

10.根据权利要求7所述的方法，其特征在于，对转换后的图像帧进行去噪处理，包括：

确定图像帧中每个像素点周围的事件数量，并与事件预设阈值进行比较；

若像素点周围的事件数量小于所述事件预设阈值，则去除该像素点。

11.根据权利要求6所述的方法，其特征在于，基于所述预处理后的图像帧，构建类别标签数据集，包括：

对所述预处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框；

对所述边框中的目标进行类别识别，确定所述各目标的类别标签；

根据所述图像帧中包含目标的边框以及所述各目标的类别标签，构建类别标签数据集。

12.根据权利要求11所述的方法，其特征在于，所述预处理后的图像帧包括单个目标，将所述处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框，包括：

获取图像中所有可能包含目标的轮廓列表；

遍历轮廓列表，获取其中像素点最多的两个轮廓；

将所述两个轮廓包含像素点的数量差值与预设差值进行比较，确定包含目标的轮廓；

对包含目标的轮廓，取每个轮廓中所有像素点的最小x值x_min、最小y值y_min、最大x值x_max和最大y值y_max，以（x_min，y_min）和（x_max，y_max）为基准点画边框，并以该边框的中心为中心，对边框进行固定大小（M，M）的扩展，生成包含目标的边框，其中，M＞x_max，M＞y_max。

13.根据权利要求12所述的方法，其特征在于，将所述两个轮廓包含像素点的数量差值与预设差值进行比较，确定包含目标的轮廓，包括：

若所述两个轮廓包含像素点的数量差值小于等于预设差值，则确定所述两个轮廓均为包含目标的轮廓；

若所述两个轮廓包含像素点的数量差值大于预设差值，则确定像素点最多的轮廓为包含目标的轮廓。

14.根据权利要求11所述的方法，其特征在于，所述预处理后的图像帧包括N个目标，将处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框，包括：

获取图像中所有可能包含目标的轮廓列表；

遍历轮廓列表，获取像素点最多的N+1个轮廓；

对所述N+1个轮廓，取每个轮廓中所有像素点的最小x值x_min、最小y值y_min、最大x值x_max和最大y值y_max，以（x_min，y_min）和（x_max，y_max）为基准点画边框；

将各边框的边长与预设边长值进行比较，确定初步保留的边框；

按照斜边长对初步保留的边框进行排序，并检查初步保留的边框中各边框的重合度，得到最终保留的边框；

以最终保留的边框的中心为中心，对最终保留的边框进行固定大小（M，M）的扩展，生成包含目标的边框，其中，M＞x_max，M＞y_max。

15.根据权利要求14所述的方法，其特征在于，将各边框的边长与预设边长值进行比较，确定初步保留的边框，包括：

若边框的边长大于预设边长值，则保留该边框；

若边框的边长小于等于预设边长值，则舍弃该边框。

16.根据权利要求14所述的方法，其特征在于，检查初步保留的边框中各边框的重合度，得到最终保留的边框，包括：

若初步保留的边框为N个，则检查其中是否有重合度大于50%的两个边框：若有重合度大于50%的两个边框，则将此图像帧舍弃；若没有重合度大于50%的两个边框，则确定N个边框为最终保留的边框；

若初步保留的边框为N+1个，则检查其中两两相交的边框，并随机舍弃重合度最高的两相交边框中的一个边框，确定余下的N个边框为最终保留的边框。

17.根据权利要求14所述的方法，其特征在于，以最终保留的边框的中心为中心，对最终保留的边框进行固定大小（M，M）的扩展之后，还包括：

以扩展后的边框的中心为中心，在（p×p）的范围内进行搜索，并以p*p个点为中心分别画大小为（M×M）的边框，计算p*p个边框所包含的事件数量，将包含事件数量最多的边框确定为包含目标的边框。

18.根据权利要求11所述的方法，其特征在于，对所述边框中的目标进行类别识别，确定所述各目标的类别标签，包括：

对所述边框中的目标进行时序卷积处理，得到第一时序卷积向量；

对所述第一时序卷积向量进行池化处理，得到第一中间特征向量；

对所述第一中间特征向量进行全连接处理，得到第二中间特征向量；

对所述第二中间特征向量进行分类处理，得到第一特征向量；

根据所述第一特征向量，确定所述边框中目标的类别标签。

19.根据权利要求11所述的方法，其特征在于，对所述边框中的目标进行类别识别，确定所述各目标的类别标签通过第一神经网络实现，所述方法还包括：根据训练数据集对所述第一神经网络进行训练。

20.根据权利要求19所述的方法，其特征在于，所述第一神经网络包括：级联的第一ConvLIF2D层、第一池化层、全连接层和Softmax层，其中，所述第一ConvLIF2D层和所述第一池化层按照时间步长T展开计算，所述第一ConvLIF2D层用于进行时序卷积处理。

21.根据权利要求1所述的方法，其特征在于，所述第二ConvLIF2D层用于：

根据所述第二ConvLIF2D层t时刻的输入值与权重经过卷积运算后得到值，与t-1时刻的生物电压值相加后，得到t时刻的膜电位值；

根据t时刻的膜电位值与发射阈值，确定t时刻的输出值；

根据t时刻的输出值确定是否重置膜电位，并根据重置的电压值确定重置的膜电位值，其中，；

根据重置的膜电位值，确定t时刻的生物电压值，其中，，和为Leak激活函数的泄露因子；

其中，所述t时刻的输出值作为与所述第二ConvLIF2D层级联的下一层的输入，所述t时刻的生物电压值作为计算t+1时刻的膜电位值的输入。

22.根据权利要求20所述的方法，其特征在于，所述第一ConvLIF2D层用于：

根据所述第一ConvLIF2D层t时刻的输入值与权重经过卷积运算后得到值，与t-1时刻的生物电压值相加后，得到t时刻的膜电位值；

根据t时刻的膜电位值与发射阈值，确定t时刻的输出值；

其中，所述t时刻的输出值作为与所述第一ConvLIF2D层级联的下一层的输入，所述t时刻的生物电压值作为计算t+1时刻的膜电位值的输入。

23.根据权利要求21或22所述的方法，其特征在于，所述根据t时刻的膜电位值和发射阈值，确定时刻t的输出值，包括：

若t时刻的膜电位值大于或等于发射阈值，则确定所述t时刻的输出值为1；

若t时刻的膜电位值小于发射阈值，则确定所述t时刻的输出值为0。

24.根据权利要求1所述的方法，其特征在于，所述方法还包括：采用NMS算法移除所述识别结果中相似的边框。

25.一种目标检测识别系统，其特征在于，包括：

检测识别模块，其用于通过第二神经网络对所述待识别的序列图像帧进行识别处理，得到识别结果，所述识别结果包括所述高速移动目标的位置信息以及类别标签，其中，所述第二神经网络包括：

多个基础层和多尺度预测层；

26.根据权利要求25所述的系统，其特征在于，对所述待识别的序列图像帧进行识别处理，包括：

27.根据权利要求26所述的系统，其特征在于，对所述第二特征向量进行多尺度预测处理，得到第三特征向量，包括：

28.根据权利要求25所述的系统，其特征在于，所述系统还包括：根据样本数据集对所述第二神经网络进行训练。

29.根据权利要求25所述的系统，其特征在于，所述第三池化层使用TimeDistributed包装层；

所述融合处理层包括级联的第四Concatenate层和prediction层。

30.根据权利要求28所述的系统，其特征在于，根据样本数据集对所述第二神经网络进行训练，包括：

获取样本数据集；

其中，获取样本数据集，包括：

基于所述预处理后的图像帧，构建类别标签数据集；

31.根据权利要求25或30所述的系统，其特征在于，对采集的高速移动目标的事件流数据进行预处理，得到预处理后的图像帧，包括：

将采集的高速移动目标的事件流转换成图像帧；

对转换后的图像帧进行裁切和去噪处理。

32.根据权利要求31所述的系统，其特征在于，将采集的高速移动目标的事件流转换成图像帧，包括：

基于事件流的y值确定事件流中的事件帧：若事件流中下一个事件的y值比当前事件的y值低，则确定当前事件为当前事件帧的结束帧，并确定下一个事件为下一事件帧的开始帧，依此类推，直至遍历事件流中所有事件的y值；基于事件流中的各事件帧生成图像帧：

对每个事件帧中的所有事件，基于每个事件三元组的x和y值，生成图像帧；

33.根据权利要求32所述的系统，其特征在于，基于每个事件三元组的x和y值，生成图像帧，包括：

34.根据权利要求31所述的系统，其特征在于，对转换后的图像帧进行去噪处理，包括：

35.根据权利要求30所述的系统，其特征在于，基于所述预处理后的图像帧，构建类别标签数据集，包括：

36.根据权利要求35所述的系统，其特征在于，所述预处理后的图像帧包括单个目标，将所述处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框，包括：

获取图像中所有可能包含目标的轮廓列表；

遍历轮廓列表，获取其中像素点最多的两个轮廓；

37.根据权利要求36所述的系统，其特征在于，将所述两个轮廓包含像素点的数量差值与预设差值进行比较，确定包含目标的轮廓，包括：

38.根据权利要求35所述的系统，其特征在于，所述预处理后的图像帧包括N个目标，将处理后的图像帧进行轮廓识别，并基于识别出的轮廓生成包含目标的边框，包括：

获取图像中所有可能包含目标的轮廓列表；遍历轮廓列表，获取像素点最多的N+1个轮廓；

将各边框的边长与预设边长值进行比较，确定初步保留的边框；按照斜边长对初步保留的边框进行排序，并检查初步保留的边框中各边框的重合度，得到最终保留的边框；

39.根据权利要求38所述的系统，其特征在于，将各边框的边长与预设边长值进行比较，确定初步保留的边框，包括：

若边框的边长大于预设边长值，则保留该边框；

若边框的边长小于等于预设边长值，则舍弃该边框。

40.根据权利要求38所述的系统，其特征在于，检查初步保留的边框中各边框的重合度，得到最终保留的边框，包括：

41.根据权利要求38所述的系统，其特征在于，以最终保留的边框的中心为中心，对最终保留的边框进行固定大小（M，M）的扩展之后，还包括：

42.根据权利要求35所述的系统，其特征在于，对所述边框中的目标进行类别识别，确定所述各目标的类别标签，包括：

根据所述第一特征向量，确定所述边框中目标的类别标签。

43.根据权利要求35所述的系统，其特征在于，对所述边框中的目标进行类别识别，确定所述各目标的类别标签通过第一神经网络实现，所述系统还包括：根据所述训练数据集对所述第一神经网络进行训练。

44.根据权利要求43所述的系统，其特征在于，所述第一神经网络包括：级联的第一ConvLIF2D层、第一池化层、全连接层和Softmax层，其中，所述第一ConvLIF2D层和所述第一池化层按照时间步长T展开计算，所述第一ConvLIF2D层用于进行时序卷积处理。

45.根据权利要求25所述的系统，其特征在于，所述第二ConvLIF2D层用于：

根据所述第一ConvLIF2D层或所述第二ConvLIF2D层t时刻的输入值与权重经过卷积运算后得到值，与t-1时刻的生物电压值相加后，得到t时刻的膜电位值；

根据t时刻的膜电位值与发射阈值，确定t时刻的输出值；

其中，所述t时刻的输出值作为与所述第一ConvLIF2D层或所述第二ConvLIF2D层级联的下一层的输入，所述t时刻的生物电压值作为计算t+1时刻的膜电位值的输入。

46.根据权利要求44所述的系统，其特征在于，所述第一ConvLIF2D层用于：

根据t时刻的膜电位值与发射阈值，确定t时刻的输出值；

47.根据权利要求45或46所述的系统，其特征在于，所述根据t时刻的膜电位值和发射阈值，确定时刻t的输出值，包括：

48.根据权利要求25所述的系统，其特征在于，所述系统还包括：采用NMS算法移除所述识别结果中相似的边框。

49.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如权利要求1-24中任一项所述的方法。

50.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现如权利要求1-24中任一项所述的方法。