CN112767711A

CN112767711A - 一种多类别多尺度多目标抓拍方法及系统

Info

Publication number: CN112767711A
Application number: CN202110110947.8A
Authority: CN
Inventors: 姚丹霖; 彭自立; 周海涛; 刘胜
Original assignee: Hunan Meimei Technology Development Co ltd
Current assignee: Hunan Meimei Technology Development Co ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-07
Anticipated expiration: 2041-01-27
Also published as: CN112767711B

Abstract

本发明公开了一种多类别多尺度多目标抓拍方法及系统，属于人工智能与计算机视觉技术领域，包括如下步骤：获取来自杂场景的全景视频处理帧；进行智能实时多类别多尺度多目标检测；进行逐类别在线多目标跟踪；对抓拍去重择优；将抓拍结果传输到服务器或数据中心。实现了在一台前端摄像机上，实现对存在着多个类别、多种尺度、众多目标的视频进行实时检测分析，以及高效地获取到分门别类的、图像质量较高的、低重复冗余的目标对象抓拍结果。

Description

一种多类别多尺度多目标抓拍方法及系统

技术领域

本发明属于人工智能与计算机视觉技术领域，具体是涉及到一种多类别多尺度多目标抓拍方法及系统。

背景技术

传统的人工肉眼安防监控的方式，或者将监控画面回传给服务器的方式已经无法及时“消化”源源不断的海量视频监控数据，智能化的目标抓拍需求越来越迫切。人们采取了一些手段改进传统的安防监控技术：

在专利CN201911235029.7中，公开了一种目标抓拍方法、装置及系统，采用枪机和球机相结合的方式，通过对枪机的第一监控画面与球机的第二监控画面进行目标特征匹配，对球机中匹配成功的至少一个待抓拍目标进行抓拍，降低目标抓拍的重复率。但是，当第一监控画面中的目标较多且各类目标混杂时，需要进行多次特征比对，且涉及球机拍摄参数的转换与机位的调整，抓拍效率并不高，虽然对于简单场景能在一定程度上提高抓拍目标的准确性、降低重复抓拍，但对于复杂场景则容易引起因特征比对等操作时延过长而遗漏抓拍，或因发生特征匹配失误而大量重复抓拍。

在专利CN201911356315.9中，公开了一种基于YOLOv3的视频结构化方法及系统，实现在人、车混行的复杂环境下，对行人、车辆实时检测，它需要通过客户端采集视频流文件，将视频帧传输到服务器，由服务器完成检测任务及目标属性提取，最终再将其返回给客户端。虽然该系统利用Tornado框架或Flask框架构建了从多个客户端发送视频帧到服务器的数据队列，但服务器仍然不可能及时处理庞大规模的数据，面临着在大并发处理情形下系统崩溃的风险，无法有效降低数据传输压力和存储压力。

现有技术的不足在于，目前市面上很多摄像机往往只能进行单一类别甚至是特定单一目标的抓拍，对于行人、机动车、非机动车混行的复杂场景，则需要多个摄像机才能对他们进行同时布控，在行人、机动车、非机动车混行的复杂场景中，无法在一台前端摄像机上，实现对存在着多个类别、多种尺度、众多目标的视频进行实时检测分析，高效地获取到分门别类的、图像质量较高的、低重复冗余的目标对象抓拍结果。以及，由于其检测和跟踪的精准程度并不能尽如人意，容易导致较多的抓拍遗漏或重复冗余抓拍，而且时延较大。

发明内容

本发明要解决的问题是提供一种多类别多尺度多目标抓拍方法及系统，实现在一台前端摄像机上，实现对存在着多个类别、多种尺度、众多目标的视频进行实时检测分析，以及高效地获取到分门别类的、图像质量较高的、低重复冗余的目标对象抓拍结果。

本发明的内容包括：

一种多类别多尺度多目标抓拍方法，包括如下步骤：

S1：获取视频处理帧

S11：利用全景相机拍摄复杂场景获得全景视频流；

S12：利用嵌入式解码芯片对所述的全景视频流进行解码，获得相应的全景视频帧；

S13：对所述的全景视频帧进行丢帧处理，得到视频处理帧；

S14：将所述的视频处理帧复制一份，然后利用嵌入式硬件加速模块将其缩小到480×480像素大小的尺寸，得到视频处理帧副本；

S2：进行智能实时多类别多尺度多目标检测

将所述视频处理帧副本喂入部署在嵌入式开发板的目标检测神经网络，获得所约定类别的各个目标对象在所述视频处理帧副本中的目标检测框；所述的约定类别，包含但不限于自行车、摩托车、小轿车、公交车、卡车、三轮车、行人、车牌和人脸；

所述目标检测框是以矩形框的形式完全包围住所述目标对象，能较好地贴合所述目标对象的边缘、避免过多的背景留白部分；所述目标检测框至少包含如下信息：所述视频处理帧的ID、所述目标对象的类别、目标对象的检测ID、所述目标检测框在所述视频处理帧副本中的左上角坐标(x,y)和所述目标检测框的宽度及高度(w,h)；

S3：进行逐类别在线多目标跟踪

将各个目标对象的目标检测框，逐类别喂入到部署在嵌入式开发板的在线形式的SORT目标跟踪算法，获得所述约定类别的多个目标对象的跟踪结果；

所述跟踪结果以所述目标对象的一组所述目标检测框序列为表示形式，即关联某个类别相同且跟踪ID相同的所述目标对象在前后多个所述视频处理帧中的所述目标检测框区域，组成该所述目标对象从多个前后所述视频处理帧中裁剪出来的小区域图像序列；所述跟踪结果至少包含如下信息：所述视频处理帧的ID、所述目标对象的类别、所述目标对象在所述类别中的跟踪ID、所述目标对象检测框在所述视频处理帧中的左上角坐标(x,y)、所述目标检测框在所述视频处理帧中的宽度及高度(w,h)和所述目标对象检测框是否在该所述视频处理帧的ID所处时刻消失；

S4：进行抓拍去重择优

S41.为所述约定类别的多个目标对象的跟踪结果中的每个跟踪到的目标对象分配一个跟踪计数器，并初始化为0；所述跟踪计数器根据所述目标对象在所述类别中的跟踪ID，记录从多个前后所述视频处理帧中裁剪出来的所述目标对象小图像区域的个数；

S42.根据所述约定类别的多个目标对象的所述跟踪结果和相应所述目标对象的非零跟踪计数器，进行目标对象的去重择优抓拍工作：

若所述目标对象的非零跟踪计数器值为1，则表示所述目标对象从多个前后所述视频处理帧中裁剪出来的小区域图像序列中只有1个图像，即第一次跟踪到该目标对象，需要置为初始的最优抓拍结果；

若所述目标对象的非零跟踪计数器值大于1，则表示该目标对象被多次跟踪到了，需要对该所述目标对象的小区域图像序列的多张图像进行去重处理，按照优选综合评估得分，从所述某目标对象由进入视频帧到截至当前视频处理帧的一组小区域图像序列中挑选一张所述优选综合评估得分最高的小区域图像作为最优抓拍，替换初始的最优抓拍结果；

S43.根据来自所述多目标跟踪算法中所述目标对象检测框消失时刻的所述视频处理帧ID与当前视频帧ID的前后关系，确定消失时刻的所述目标对象的抓拍结果，同时回收所述该目标对象所占用的相关资源，以加速目标跟踪处理以及消失目标对象的确认工作；

S5：将抓拍结果传输到服务器或数据中心

S51.将目标对象的最优抓拍结果进行JPG图像编码，并重组有关最优抓拍信息为JSON或XML文件，将此二者作为多类别多尺度多目标抓拍方法结果；

S52.利用5G等无线网络或有线通信的方式，将所述多类别多尺度多目标抓拍方法结果传输到服务器或数据中心。

进一步地，步骤S2还包括对视频处理帧进行如下处理：

按照所述视频处理帧与所述视频处理帧副本之间的缩放关系，将所述目标检测框还原回所述视频处理帧中；

步骤S3将各个目标对象的目标检测框，逐类别喂入到部署在嵌入式开发板的在线形式的SORT目标跟踪算法，所述类别不含车牌和人脸，以减少不必要的跟踪时耗。

进一步地，步骤S13中所述的丢帧处理是采用如下方式：

在步骤S12获得相应的所有全景视频帧时配置丢帧间隔参数，初始每隔一帧丢一帧，后续则根据上一帧的目标检测、跟踪和优选等处理时延，动态设置丢帧频率：当时延超过120毫秒时每3帧丢弃2帧或每5帧丢弃4帧进行处理，否则保持初始丢帧间隔参数不变。

进一步地，，步骤S13中所述的丢帧处理是采用如下方式：

在步骤S11利用全景相机初始化过程中配置视频帧采样间隔参数，每隔一帧采集一帧，后续则根据上一帧的目标检测、跟踪和优选等处理时延，动态设置全景相机的视频帧采集频率，当时延超过120毫秒时可每3至5帧才取一帧进行处理，否则保持初始视频帧采样间隔参数不变，然后将采集到的全景视频帧交由嵌入式解码芯片进行解码，获得全景视频处理帧。

进一步地，步骤S11中所述的复杂场景是包含有行人、机动车、非机动车混行的场景。

进一步地，步骤S42中所述的“按照优选综合评估得分”是指综合评估包括但不限于最小目标对象的尺寸、有无遮挡、清晰度、视角的正侧程度，具体可表示为：优选综合评估得分＝ω₁×视角的正侧程度+ω₂×清晰度+ω₃×目标对象的尺寸大小+ω₄×遮挡程度+ω₅×其他评估准则，其中ω_i(i＝1,2,3,4,5)分别为相应评估指标的权重系数,由用户根据需要自行指定，且所述权重系数之和应等于1。

进一步地，步骤S2所述的目标检测神经网络是改进的YOLO_V3目标检测算法，改进之处包括两个方面：

一是改进目标检测神经网络模型的设计，将YOLO_V3的主干网络DarkNet53替换为计算量较小的MobileNet_V2；将YOLO_V3特征金字塔结构中的三个尺度的目标检测框输出块压缩至两个尺度；优选地，将所述MobileNet_V2中的深度可分离卷积操作改造为按照特征图各个通道进行常规卷积后再进行常规的1×1点卷积操作，以适用于嵌入式设备的张量协处理器模块；

二是改进深度学习损失函数的设计，基于原始YOLO_V3目标检测算法损失函数，采用完全的IoU(Complete-IoU)来设计损失函数。

进一步地，步骤S2所述的目标检测神经网络采取如下方式进行目标检测：

S1：将一定规模的标注有所述约定类别的目标对象检测框的数据划分为训练集和验证集，无标注的数据则直接成为测试集；

S2：将所述标注数据训练集喂入目标检测神经网络进行训练；在训练过程中，采用在线数据增强的方式：对标注数据以特定的概率进行水平翻转、一定角度内的旋转、多个不同尺度输入、多个目标框裁剪叠加等，扩充训练数据的多样性，有效防止过拟合的发生；对于目标检测神经网络训练过程中的学习率调整方案，采用循环学习率：根据训练周期的长短，学习率由最小逐渐达到设定的最大值，随后递减到最小之后再递增到减半的所指定的最大值，依次循环，从而加速网络收敛，减少训练周期和节省训练时长；

S3：借助训练过程中对标注数据验证集的测试评估，判断模型是否过拟合；当模型未出现明显过拟合迹象，且其损失函数值趋于平稳的情况下，在个人电脑或服务器上，对测试集数据进行网络模型推理测试；

S4：对测试集数据的所述推理测试的精度符合应用的需求，则可进行下一步操作；否则，可能需要扩充标注数据训练集，再次执行S1至S3步骤，重新进行训练或者继续训练，使得网络模型收敛到更低的损失值；

S5：对推理测试精度达标的网络模型进行量化，在量化过程中需要选择几张有代表性的应用场景图片作为量化参考基准图片；

S6：在带有张量协处理器的嵌入式设备上，进行目标检测工程部署，尤其需要将原始YOLO_V3算法的目标检测框输出块压缩至两个尺度，确保相关数据处理正确无误；

S7：在带有张量协处理器的嵌入式设备上，对量化后的目标检测网络模型进行推理测试；

S8：比对目标检测网络模型量化前后的测试差异，若该差异在可接受的范围，则可进行下一步操作；否则，可能需要重新选择量化参考基准图片或分析、对比网络模型量化前后目标检测神经网络每层中的参数差异情况，重新进行量化，即，重新进行上述流程S5至S7步；

S9：通过在嵌入式设备上的推理测试，获得符合精度要求的实时多类别目标检测结果。

进一步地，步骤S3所述SORT(Simple Online and Realtime Tracking)目标跟踪算法，针对不同类别的目标对象移动与变化的不同特点，分类别建立SORT跟踪器，在进行一个类别目标对象的跟踪任务时，屏蔽其他类别的目标对象，以减少跟踪混乱；在不进行目标对象外观特征学习的前提下，根据实测数据设置跟踪参数，以便基于较好的目标检测结果改进目标对象跟踪效果；按照不同目标对象的类别设置跟踪的最小击中次数；具体步骤包括：

S1：为每个目标对象类别初始化一个SORT跟踪器；

S2：将前一帧中的所有目标检测结果分类别喂入相应类别的SORT跟踪器；

S3：利用Kalman滤波器预测目标对象检测框在本帧中的新位置；

S4：利用Hungarian算法对本帧的目标对象检测结果与Kalman滤波器预测的目标对象检测框进行最大匹配，从而实现将前一帧检测到的目标对象与本帧的检测目标对象关联起来。

一种多类别多尺度多目标抓拍系统，包括如下模块：

采集与解码模块，用于获取全景相机采集的视频流和取相应视频处理帧，包括：全景视频流采集单元，用于获取全景相机所采集到的全景视频流数据；视频帧解码单元，利用嵌入式解码芯片对所述全景视频流进行解码，获得相应的全景视频帧，并根据上一帧的处理时延，动态设置丢帧的多少；

抓拍处理模块，用于对所述全景视频帧进行多类别多目标的检测识别和跟踪等基础运算处理，然后进行去重择优的抓拍操作，包括：多类别目标检测单元，用于自动检测出所约定的多个类型的多个目标对象，获得相应的各个目标对象在所述视频处理帧中的目标检测框结果；在线多目标跟踪单元，用于对所述目标检测框结果进行前后帧图像区域的跟踪关联处理，获得各个类别的每个目标对象的从多个前后所述视频处理帧中裁剪出来的小区域图像序列；ReID数据抓拍单元，用于对所述目标对象按照所属目标类别和所述目标对象在所述类别中的跟踪ID，记录其由进入视频帧至截止到当前视频处理帧的所述小区域图像序列的每一个图像；抓拍去重择优单元，用于对所述目标对象由进入视频帧至截止到当前视频处理帧的一组所述小区域图像序列进行去重处理，从中获得每个所述目标对象的一张按照一定优选综合评估规则择优后的最优抓拍图像；

抓拍重组传输模块，用于对所述抓拍处理模块的输出结果进行重组和抓拍图像JPG编码，回传给服务器或数据中心，包括：抓拍结果解析单元，用于对所述在线多目标跟踪单元和所述抓拍去重择优单元的结果进行解析和重组为JSON或XML文件，获得特定格式的符合要求的数据结果；抓拍图片编码单元，用于对所述小区域图像序列中的去重择优抓拍图像或用于制作ReID数据的每个图像进行JPG编码，获得每个所述目标对象的抓拍结果图片；抓拍结果传输单元，用于前端摄像头与服务器或数据中心之间的数据通信，将所述抓拍结果解析单元和所述抓拍图片编码单元的数据传送到服务器或数据中心。

本发明的有益效果：一是本发明的方法及系统从全景相机中获取视频流，通过嵌入式解码芯片获得相应的视频帧并进行适当的丢帧处理，然后利用经过改进并提速的高效深度神经网络目标检测方法和张量协处理器加速推理技术，能够实时地检测出视频处理帧中的约定类别的目标对象，保持较高的目标检出率。二是本发明在多目标跟踪算法中设置了一个跟踪的最小击中次数，且在进行一个类别目标对象的跟踪任务时，屏蔽了其他类别的目标对象，从而对多类别目标检测结果具有一定的容错性，能够有效降低行人、机动车、非机动车混行的复杂场景中的跟踪混乱。根据前后两帧中的目标对象的状态信息(包括目标检测框在视频处理帧中的位置和大小、类别等属性)，利用在线实时多目标跟踪算法，分类别建立起各个目标对象在不同视频处理帧中的关联，获得每个目标对象在相应视频处理帧中所在的区域，可选择对这些区域按照不同目标对象分组保存多张抓拍图像，从而组成每个目标对象的目标再识别ReID粗糙图片序列，对该ReID粗糙图片序列进行简单的人工清洗筛查，即可用于深度学习目标再识别分析训练等研究，或给目标跟踪算法提供目标对象外观特征从而改进跟踪效果。三是按照一定的优选规则，对每个不同的目标对象所在的视频处理帧区域进行去重择优，从而大大减少重复冗余的抓拍数据，因按照择优综合得分从低到高不断替换和更新目标对象的抓拍区域，所以能够获得相对高质量的目标对象抓拍结果。四是由于只将目标对象的关键有效抓拍数据回传至后端服务器，与简单的回传监控视频相比，可大大降低网络传输带宽需求，同时能够有效降低服务器的数据处理压力，便于数据的存储和管理。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1为本发明实施例提供的一种多类别多尺度多目标抓拍方法及系统的流程图；

图2为本发明实施例提供的一种多类别多尺度多目标抓拍系统的结构示意图；

图3为本发明实施例提供的目标抓拍方法中去重择优的处理流程图；

图4为本发明实施例提供的一种智能目标检测神经网络模型的结构示意图；

图5为本发明实施例提供的一种智能目标检测的实施流程图。

具体实施方式

为了进一步公开本发明的技术方案，以下结合附图对本发明的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

本发明提供了一种多类别多尺度多目标抓拍方法，应用于带有张量协处理器的嵌入式设备：使用但不限于使用具有NNIE(Neural Network Inference Engine)的海思嵌入式平台，可提供行人、机动车、非机动车混行的复杂场景下的低时延、高抓拍率和低重复冗余的目标对象分类智能抓拍功能。如图1所示，该多类别多尺度多目标抓拍方法可包括以下步骤：

S1：获取视频处理帧

S11：利用全景相机拍摄复杂场景(包含行人、机动车、非机动车混行的复杂场景)获得全景视频流。

S12：利用嵌入式解码芯片对所述的全景视频流进行解码，获得相应的全景视频帧。

S13：对所述的全景视频帧进行丢帧处理，得到视频处理帧。

丢帧处理可采取如下方式进行，在对全景相机采集的视频流时，利用嵌入式解码芯片进行解码，获得相应的所有全景视频帧，在算法初始化过程中配置丢帧间隔参数：每隔一帧丢一帧，后续则根据上一帧的处理(包括目标检测、跟踪和优选等处理)时延，动态设置丢帧频率：当时延较大(如时延超过120毫秒)时可每3帧丢弃2帧或每5帧丢弃4帧进行处理，否则保持初始丢帧间隔参数不变，参与处理的帧被称为视频处理帧。

对丢帧处理的另外一种方式是在全景相机初始化过程中配置视频帧采样间隔参数：每隔一帧采集一帧，后续则根据上一帧的处理(包括目标检测、跟踪和优选等处理)时延，动态设置全景相机的视频帧采集频率：当时延较大(如时延超过120毫秒)时可每3至5帧才取一帧进行处理，否则保持初始视频帧采样间隔参数不变，然后将采集到的全景视频帧交由嵌入式解码芯片进行解码，获得全景视频处理帧。

S14：将所述的视频处理帧复制一份，然后利用嵌入式硬件加速模块将其缩小到特定的尺寸(如：480×480像素大小)，得到视频处理帧副本。

S2：进行智能实时多类别多尺度多目标检测

S21.将所述视频处理帧副本喂入部署在嵌入式开发板的目标检测神经网络，获得所约定类别(例如，自行车、摩托车、小轿车、公交车、卡车、三轮车、行人、车牌和人脸等类别)的各个目标对象在所述视频处理帧副本中的目标检测框。

目标检测框是以矩形框的形式完全包围住所述目标对象，能较好地贴合所述目标对象的边缘、避免过多的背景留白部分；目标检测框至少包含如下信息：所述视频处理帧的ID、所述目标对象的类别、目标对象的检测ID、所述目标检测框在所述视频处理帧副本中的左上角坐标(x,y)和所述目标检测框的宽度及高度(w,h)。

S22.按照所述视频处理帧与所述视频处理帧副本之间的缩放关系，将所述目标检测框还原回所述视频处理帧中。

S3：进行逐类别在线多目标跟踪

将各个目标对象的目标检测框，逐类别喂入到部署在嵌入式开发板的在线形式的SORT目标跟踪算法，获得所述约定类别的多个目标对象的跟踪结果；本步骤实现了在检测出视频处理帧中各个目标对象后，采用基于检测的在线多目标跟踪方法，将前后多个所述视频处理帧的所述目标检测框根据所述约定的类别(车牌和人脸类别除外，减少不必要的跟踪时耗)，逐类别输入到在线形式的多目标跟踪算法，近实时地获得所述约定类别的多个目标对象的跟踪结果。

所述跟踪结果以所述目标对象的一组所述目标检测框序列为表示形式，即关联某个类别相同且跟踪ID相同的所述目标对象在前后多个所述视频处理帧中的所述目标检测框区域，组成该所述目标对象从多个前后所述视频处理帧中裁剪出来的小区域图像序列；所述跟踪结果至少包含如下信息：所述视频处理帧的ID、所述目标对象的类别、所述目标对象在所述类别中的跟踪ID、所述目标对象检测框在所述视频处理帧中的左上角坐标(x,y)、所述目标检测框在所述视频处理帧中的宽度及高度(w,h)和所述目标对象检测框是否在该所述视频处理帧的ID所处时刻消失。

作为一种替代方案，步骤S2和步骤S3可合二为一，即：采用联合多目标检测和跟踪的共享神经网络特征的智能算法，在满足低时延、高目标检测率和低误检率的条件下，以在线形式获得每个目标对象的跟踪结果。

S4：进行抓拍去重择优

采取的思路是：为约定类别的多个目标对象的跟踪结果中的每个跟踪到的目标对象分配一个跟踪计数器，并初始化为0，所述跟踪计数器根据所述目标对象在所述类别中的跟踪ID，记录从多个所述前后视频处理帧中裁剪出来的所述目标对象小图像区域的个数。然后，根据所述约定类别的多个目标对象的所述跟踪结果和相应所述目标对象的非零跟踪计数器，进行目标对象的去重择优抓拍工作(结合图3)：若所述目标对象的非零跟踪计数器值为1，则表示所述目标对象从多个前后所述视频处理帧中裁剪出来的小区域图像序列中只有1个图像，即第一次跟踪到该目标对象，需要置为初始的最优抓拍结果；若所述目标对象的非零跟踪计数器值大于1，则表示该目标对象被多次跟踪到了，需要对该所述目标对象的小区域图像序列的多张图像进行去重处理，按照一定的优选综合评估(可包括但不限于最小目标对象的尺寸、有无遮挡、清晰度、视角的正侧程度等)得分，从所述某目标对象由进入视频帧到截至当前视频处理帧的一组小区域图像序列中挑选一张所述优选综合评估得分最高的小区域图像作为最优抓拍，替换初始的最优抓拍结果。最后，根据来自所述多目标跟踪算法中所述目标对象检测框消失时刻的所述视频处理帧ID与当前视频帧ID的前后关系，确定消失时刻的所述目标对象的抓拍结果，同时回收所述该目标对象所占用的相关资源，以加速目标跟踪处理以及消失目标对象的确认工作。具体步骤如下：

若所述目标对象的非零跟踪计数器值大于1，则表示该目标对象被多次跟踪到了，需要对该所述目标对象的小区域图像序列的多张图像进行去重处理，按照优选综合评估(可综合评估最小目标对象的尺寸、有无遮挡、清晰度、视角的正侧程度等)得分，从所述某目标对象由进入视频帧到截至当前视频处理帧的一组小区域图像序列中挑选一张所述优选综合评估得分最高的小区域图像作为最优抓拍，替换初始的最优抓拍结果；

S5：将抓拍结果传输到服务器或数据中心

前述步骤S2所述的目标检测神经网络是改进的YOLO_V3目标检测算法，改进之处包括两个方面：一是改进目标检测神经网络模型的设计(图4)，将YOLO_V3的主干网络DarkNet53替换为计算量较小的MobileNet_V2,(使得神经网络的特征表达能力较强的同时，推理效率大大提高)；将YOLO_V3特征金字塔结构中的三个尺度的目标检测框输出块压缩至两个尺度(使得目标检测网络变得更加轻量级)；将YOLO_V3目标检测网络进行进一步改造(例如，将所述MobileNet_V2中的深度可分离卷积操作改造为按照特征图各个通道进行常规卷积后再进行常规的1×1点卷积操作)，以适用于嵌入式设备的张量协处理器模块(利用其专业的神经网络推理加速模块完成本发明的目标检测网络的推理测试，而无需对目标检测网络进行拆解，减少了因嵌入式设备上张量协处理器和中央处理器等硬件设备间来回进行数据交换的不必要耗时，使得在带有张量协处理器但不限于NNIE的海思嵌入式平台上完成一帧视频画面中目标检测功能的时长，由原始的80多毫秒缩短到20毫秒以内)；二是改进深度学习损失函数的设计，基于原始YOLO_V3目标检测算法损失函数，采用完全的IoU(Complete-IoU)来设计损失函数(原始YOLO_V3目标检测算法，采用的是普通的IoU(Intersection over Union)设计损失函数，普通IoU能确定目标检测框的正样本和负样本，以及评估网络预测的目标检测框与真实框之间的差距；而本发明中采用的是完全的IoU(Complete-IoU)来设计损失函数，它不仅关注了目标框与YOLO算法锚框之间的重叠区域和其他的非重叠区域，还考虑了它们之间的距离，此外，还将目标检测框的长宽比也考虑到其中，使得在网络训练过程中，目标检测框的回归变得更加稳定，且收敛得更快。)。改进后的目标检测神经网络，能在带有张量协处理器的嵌入式设备上以55帧每秒左右的帧率提供多类别目标检测结果，处理时延极小且目标检出率较高。多类别目标检测具体实施流程如图5所示：

S4：若对测试集数据的所述推理测试的精度符合应用的需求，则可进行下一步操作；否则，可能需要扩充标注数据训练集，再次执行S1至S3步骤，重新进行训练或者继续训练，使得网络模型收敛到更低的损失值；

当然，本发明的所述目标检测神经网络并不局限于上述对原始YOLO_V3目标检测网络的改进，只要是实时且精准的目标检测网络，均可应用于本发明的实施例子模块。

所述在线多目标跟踪的处理流程可以包括步骤S3所述SORT(Simple Online andRealtime Tracking)目标跟踪算法。SORT目标跟踪算法属于通过对检测结果进行多个目标跟踪的方案，基本满足了实时在线跟踪的需求，考虑到不同类别的目标对象移动与变化的不同特点，分类别建立SORT跟踪器，在进行一个类别目标对象的跟踪任务时，屏蔽其他类别的目标对象，以减少跟踪混乱；在不进行目标对象外观特征学习的前提下，根据实测数据设置跟踪参数，以便基于较好的目标检测结果改进目标对象跟踪效果；按照不同目标对象的类别设置跟踪的最小击中次数；具体步骤包括：

S1：为每个目标对象类别初始化一个SORT跟踪器；

需要解释的是，本发明为了降低重复抓拍率，在确保目标检测结果尽可能可靠的基础上，应重点解决目标对象跟踪中的ID切换问题：在不进行目标对象外观特征学习的前提下，本发明根据实测数据设置较好的跟踪参数，以便基于较好的目标检测结果改进目标对象跟踪效果。此外，为了提升对所述多类别目标检测结果的容错性，从而降低行人、机动车、非机动车混行的复杂场景中的重复冗余抓拍，本发明要求调整好所述SORT多目标跟踪算法中按照不同目标对象的类别设置跟踪的最小击中次数，原因在于，在连续的视频处理帧中，个别视频帧出现某些所述目标对象的检测框与真实目标框偏差突然过大，或目标对象的检测类别突发错误，若未达到所述最小击中次数，则不会导致新增跟踪目标对象，进而不会由此导致错误的重复冗余抓拍。

为了运行上述方法，如图2所示，本发明提供了一种多类别多尺度多目标抓拍系统，包括如下模块：

Claims

1.一种多类别多尺度多目标抓拍方法，其特征是，包括如下步骤：

S1：获取视频处理帧

S11：利用全景相机拍摄复杂场景获得全景视频流；

S13：对所述的全景视频帧进行丢帧处理，得到视频处理帧；

S2：进行智能实时多类别多尺度多目标检测

S3：进行逐类别在线多目标跟踪

S4：进行抓拍去重择优

S5：将抓拍结果传输到服务器或数据中心

2.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S2还包括对视频处理帧进行如下处理：

3.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S13中所述的丢帧处理是采用如下方式：

4.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S13中所述的丢帧处理是采用如下方式：

5.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S11中所述的复杂场景是包含有行人、机动车、非机动车混行的场景。

6.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S42中所述的“按照优选综合评估得分”是指综合评估包括但不限于最小目标对象的尺寸、有无遮挡、清晰度、视角的正侧程度，具体可表示为：优选综合评估得分＝ω₁×视角的正侧程度+ω₂×清晰度+ω₃×目标对象的尺寸大小+ω₄×遮挡程度+ω₅×其他评估准则，其中ω_i(i＝1,2,3,4,5)分别为相应评估指标的权重系数,由用户根据需要自行指定，且所述权重系数之和应等于1。

7.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S2所述的目标检测神经网络是改进的YOLO_V3目标检测算法，改进之处包括两个方面：

8.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S2所述的目标检测神经网络采取如下方式进行目标检测：

9.根据权利要求1所述的多类别多尺度多目标抓拍方法，其特征是，步骤S3所述SORT(Simple Online and Realtime Tracking)目标跟踪算法，针对不同类别的目标对象移动与变化的不同特点，分类别建立SORT跟踪器，在进行一个类别目标对象的跟踪任务时，屏蔽其他类别的目标对象，以减少跟踪混乱；在不进行目标对象外观特征学习的前提下，根据实测数据设置跟踪参数，以便基于较好的目标检测结果改进目标对象跟踪效果；按照不同目标对象的类别设置跟踪的最小击中次数；具体步骤包括：

S1：为每个目标对象类别初始化一个SORT跟踪器；

10.一种多类别多尺度多目标抓拍系统，其特征在于，包括如下模块：