CN115063447A

CN115063447A - 一种基于视频序列的目标动物运动追踪方法及相关设备

Info

Publication number: CN115063447A
Application number: CN202210639984.2A
Authority: CN
Inventors: 吴其洲; 李子圣; 张志慧; 杨凯; 毕效乾; 成书君; 秦超; 沈安杰; 崔扬帆; 周泓宇; 武家荣
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-16

Abstract

本发明公开一种基于视频序列的目标动物运动追踪方法及相关设备，所述方法包括：抽取第一图像和双目摄像头拍摄到的第二图像后，作增强处理得到经过增强后的第三图像，再输入到优化后的YOLOv4‑Tiny模型中得到参数模型，对第二图像进行数据标注得到第一标注文件；将采集拍摄到的第四图像进行预处理后，输入到参数模型中得到检测框；将分别拍摄到的第四图像进行像素点匹配得到第五图像，并和检测框进行匹配，再将匹配成功的第五图像和检测框输入到改进后的Deep SORT算法模型中。通过优化YOLOv4‑Tiny训练模型，以便利用得到的参数模型共同输出目标物体的运动行为信息，实现保证分析精度时轻便化神经网络模型。

Description

一种基于视频序列的目标动物运动追踪方法及相关设备

技术领域

本发明涉及动物研究系统技术领域，特别涉及一种基于视频序列的目标动物运动追踪方法及相关设备。

背景技术

现有的基于视频的旷场动物(旷场实验又称敞箱实验，是评价实验动物在新异环境中自主行为、探究行为与紧张度的一种方法，其中被研究的动物就是旷场动物，主要是小白鼠)行为分析方法通常是通过单摄像头获取图像，然后将其输入到大规模的卷积神经网络中提取外形特征，进行目标检测，并且利用结合了卡尔曼滤波器(卡尔曼滤波器是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法)、匈牙利匹配算法(匈牙利算法其解决的是一个分配问题，在多目标跟踪主要步骤中的计算相似度的，得到了前后两帧的相似度矩阵。匈牙利算法就是通过求解这个相似度矩阵，从而解决前后两帧真正匹配的目标)的SORT方法(SORT(Simple Online and Realtime Tracking)算法：是一个非常简单、有效且实用的多目标跟踪算法)实现动物目标的追踪。虽然相比与传统的粒子滤波、运动目标建模或均值漂移等计算机视觉方法，基于卷积神经网络的方法模型泛化性好、精度高，但由于其采用网络模型(大规模的卷积神经网络)体积大动辄几百MB，往往需要高性能的GPU进行推理运算，导致实时分析时帧率极低。同时，这种通过单摄像头获取视频数据的方法，在多只小白鼠堆积产生遮挡时，几乎无法完成目标追踪的任务。

因此，市场亟需一种能在遮挡条件下继续完成目标追踪任务，同时在保证精度的情况下，模型体积尽可能小、对设备要求低的旷场动物行为分析方法。

因而现有技术还有待改进和提高。

发明内容

本发明的主要目的在于提供一种基于视频序列的目标动物运动追踪方法及相关设备，旨在解决现有技术中在分析旷场动物行为时，神经网络模型体积大，分析精准度低的问题。

为了达到上述目的，本发明采取了以下技术方案：

一种基于视频序列的目标动物运动追踪方法，所述基于视频序列的目标动物运动追踪方法包括以下步骤：

抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像；其中，所述第三图像集中的所有图像为所述第三图像；

对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件；

将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型；

采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度；

将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像；其中，所述左右摄像头分别拍摄到的两张图像均被称为所述第四图像；

将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息。

所述基于视频序列的目标动物运动追踪方法中，所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤之前还包括：

利用单平面棋盘格的摄像头标定方法对所述双目摄像头进行标定，得到内外参数变换矩阵和镜头畸变系数；

利用所述镜头畸变系数对所述双目摄像头进行校正。

所述基于视频序列的目标动物运动追踪方法中，所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤具体包括：

利用经校正后的双目摄像头拍摄目标物体，得到所述第二图像集，并以均匀随机抽样的方式从所述第一图像集和从所述第二图像集中抽取同样张数的所述第一图像和所述第二图像，得到所述第三图像集；

将所述第三图像集中所有第三图像通过平移、旋转和加入噪声的方式，对所述第三图像进行增强处理，得到经过增强后的第三图像。

所述基于视频序列的目标动物运动追踪方法中，所述对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件的步骤具体包括：

对所述第二图像进行分类和画框处理，得到带有目标物体边界的所述第二图像；

利用labelimg软件，将目标物体边界使用矩形框进行标注，得到带有目标物体边界框的第一标注文件。

所述基于视频序列的目标动物运动追踪方法中，所述将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型的步骤具体包括：

将原YOLOv4-Tiny模型的主干特征提取网络用Mobilenetv3结构进行替换后，增加Mobilenetv3结构的层数，并加入反转残差结构，得到优化后的YOLOv4-Tiny模型；

利用优化后的YOLOv4-Tiny模型对经过增强后的第三图像和所述第一标注文件进行训练，得到所述参数模型。

所述基于视频序列的目标动物运动追踪方法中，所述将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像的步骤具体包括：

对同一时刻内左右两个摄像头拍摄到的两张经过预处理后的第四图像进行预处理操作后，根据所述内外参数变换矩阵对两张经过预处理后的第四图像进行像素点匹配；

根据匹配结果计算每个像素的深度，得到所有所述第五图像；其中，所述第五图像为深度图。

所述基于视频序列的目标动物运动追踪方法中，所述将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息的步骤具体包括：

改用ShuffleNetv2网络代替原Deep SORT算法模型中的ReID网络，得到改进后的Deep SORT算法模型；

将所述检测框与所述第五图像中的边界框进行匹配，并利用匹配成功的第五图像和所述检测框创建改进后的Deep SORT算法模型中的追踪器；

初始化Deep SORT算法模型中的卡尔曼滤波器后，利用所述卡尔曼滤波器预测所述目标物体的状态，同时得到预测框，并保存在所述追踪器中；

滤除所述置信度小于或等于预设阈值的所述检测框，并将所述追踪器和经过滤除后的检测框进行阈值匹配和非极大值抑制操作；

将确定态的阈值匹配成功的追踪器进行级联匹配操作，并用级联匹配成功的追踪器更新所述卡尔曼滤波器，以便所述卡尔曼滤波器输出所述目标物体的运动行为信息。

一种基于视频序列的目标动物运动追踪系统，所述基于视频序列的目标动物运动追踪系统包括：

图像处理模块，用于抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像；其中，所述第三图像集中的所有图像为所述第三图像；

数据标注模块，用于对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件；

参数模型构建模块，用于将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型；

训练结果预测模块，用于采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度；

深度图获取模块，用于将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像；其中，所述左右摄像头分别拍摄到的两张图像均被称为所述第四图像；

运动行为信息输出模块，用于将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息。

一种控制器，所述控制器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于视频序列的目标动物运动追踪程序，所述基于视频序列的目标动物运动追踪程序被所述处理器执行时实现如上所述的基于视频序列的目标动物运动追踪方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有基于视频序列的目标动物运动追踪程序，所述基于视频序列的目标动物运动追踪程序被处理器执行时实现如上所述的基于视频序列的目标动物运动追踪方法的步骤。

相较于现有技术，本发明提供的一种基于视频序列的目标动物运动追踪方法及相关设备，所述基于视频序列的目标动物运动追踪方法包括以下步骤：抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像；其中，所述第三图像集中的所有图像为所述第三图像；对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件；将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型；采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度；将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像；其中，所述左右摄像头分别拍摄到的两张图像均被称为所述第四图像；将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息。通过对YOLOv4-Tiny训练模型进行优化，以及将检测框与深度图进行匹配成功后的深度图输入到改进后的Deep SORT算法模型中，实现将神经网络模型轻便化又能保证分析精度。

附图说明

图1为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例的流程图；

图2为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例中步骤S100的流程图；

图3为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例中步骤S100之前的流程图；

图4为本发明较佳实施例中提供的棋盘图；

图5为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例中步骤S200的流程图；

图6为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例中步骤S300的流程图；

图7为本发明较佳实施例中提供的原Yolov4-Tiny模型结构图；

图8为本发明较佳实施例中提供的优化后的Yolov4-Tiny模型结构图；

图9为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例中步骤S400的流程图；

图10为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例中步骤S500的流程图；

图11为本发明提供的基于视频序列的目标动物运动追踪方法的较佳实施例中步骤S600的流程图；

图12为本发明较佳实施例中提供的追踪器的三种状态间关系和转换状态；

图13为本发明较佳实施例中提供的ShuffleNetv2网络结构示意图；

图14为本发明提供的新Deep SORT算法模型输出所述目标物体的运动行为信息的流程图；

图15为本发明较佳实施例中提供的输出代价矩阵C的步骤示意图；

图16为本发明较佳实施例中提供的输出结果B矩阵的步骤示意图；

图17为本发明提供的划分匹配上的集合和未匹配上的集合的过程示意图；

图18为本发明提供的新Deep SORT算法模型的整个工作流程简化图；

图19为本发明提供的基于视频序列的目标动物运动追踪系统的原理框图；

图20为本发明较佳实施例中提供的控制器的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明提供了一种基于视频序列的目标动物运动追踪方法及相关设备。本发明中通过将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型；并将经过预处理后的第四图像输入到所述参数模型中，得到检测框和置信度；以及通过将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，以便输出目标物体的运动行为信息，从而有效地实现了将神经网络模型轻便化又能保证分析精度。

下面通过具体示例性的实施例对基于视频序列的目标动物运动追踪方法设计方案进行描述，需要说明的是，下列实施例只用于对发明的技术方案进行解释说明，并不做具体限定：

请参阅图1，本发明提供的一种基于视频序列的目标动物运动追踪方法，所述基于视频序列的目标动物运动追踪方法包括以下步骤：

S100、抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像；其中，所述第三图像集中的所有图像为所述第三图像。

具体地，对于目标检测来说，可以分成事先准备、模型训练和模型预测三个大的过程，三个过程间彼此独立：其中，事先准备又包括：数据集采集、数据标注与相机标定；而数据集采集过程为：按预定方式抽取网络公开的第一图像集(例如网络公开的图像数据集)中多张第一图像以及经过校正后的双目摄像头拍摄到的第二图像集(训练原始图像集)中多张第二图像，从而得到第三图像集(训练图像集)，选取有针对性的数据用于训练模型，有利于提高训练后模型的精度。其中，所述双目摄像头可以是安装在实验箱顶部。

进一步地，请参阅图2，S100、所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤具体包括：

S110、利用经校正后的双目摄像头拍摄目标物体，得到所述第二图像集，并以均匀随机抽样的方式从所述第一图像集和从所述第二图像集中抽取同样张数的所述第一图像和所述第二图像，得到所述第三图像集；

S120、将所述第三图像集中所有第三图像通过平移、旋转和加入噪声的方式，对所述第三图像进行增强处理，得到经过增强后的第三图像。

其中，数据增强(特指图片数据增强)：深度神经网络是由数据驱动的，在质量可以保证的情况下，数据越大，模型的泛化性能和表现就越好。但是，做数据标注费时费力，往往不容易收集太多。而利用已有的数据，通过翻转等数据处理，可以制造出更多的图片，进而提高网络的精度和泛化能力。例如，可以利用imgaug开源库进行图片数据增强，它能够通过输入图片产生新图片的集合，能够通过不同的策略(对图片进行选择、平移、翻转、加入噪声、缩放、亮度对比度色度饱和度变换等)来改变图片以达到数据增强的目的。

具体地，首先，利用经校正后的双目摄像头拍摄目标物体，得到所述第二图像集(所述第二图像集中的第二图像为训练原始图像，属于一种RGB图像)，然后，通过均匀随机抽样的方式按照预设比例从所述第一图像集(例如网络公开的图像数据集，若当所述目标物体为旷场实验中的小白鼠时，所述第一图像集特指小白鼠旷场实验步态追踪数据集)和从所述第二图像集抽取同样张数的所述第一图像和所述第二图像，得到所述第三图像集，例如采用均匀随机抽样的方式按照8：1：1的比例抽取n张所述第一图像和n张所述第二图像，并对应分为所述第三图像集中的训练集、测试集和验证集，其中，所述数据集用于训练神经网络模型的权重参数，所述测试集和所述验证集用来评估模型性能和调整优化模型；其次，将划分后的所述第三图像，通过平移、旋转、加入噪声等方式，得到经过增强后的第三图像，通过对数据集进行增强，以提高训练后模型的泛化性能，以便适用于不同的实验场景。

其中，对于RGB图像来说，RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)和蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿和蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是运用最广的颜色系统之一。

进一步地，请参阅图3，S100、所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤之前还包括：

S10、利用单平面棋盘格的摄像头标定方法对所述双目摄像头进行标定，得到内外参数变换矩阵和镜头畸变系数；

S20、利用所述镜头畸变系数对所述双目摄像头进行校正。

首先，需要明白为什么需要相机标定？

一个原因是由于每个镜头的在生产和组装过程中的畸变程度各不相同，通过相机标定可以校正这种镜头畸变，生成矫正后的图像-矫正透镜畸变；另一个原因是根据标定后的到的相机参数建立相机成像几何模型，由获得的图像重构出三维场景。具体来说：当用摄像机拍照时，从照片里得到一些空间信息(比如距离和尺寸等)是要利用二维图像得到三维信息；拍照的时候把空间物体信息通过摄像机变成了二维图像，这个过程本来是不可逆的。但如果可以找到一个摄像机的数学模型，就可以从二维图像+模型中逆推得到原来三维信息，而标定操作就是在找这个模型。

那么，在对相机进行标定操作后可以得到：相机的内参矩阵A(dx,dy,r,u,v,f)、外参矩阵[R|T]和畸变系数[k1,k2,k3,～,p1,p2,～]。其中，内参矩阵各元素意义：一个像素的物理尺寸dx和dy，焦距f，图像物理坐标的扭曲因子r，图像原点相对于光心成像点的的纵横偏移量u和v(像素为单位)；外参矩阵：世界坐标系转换到相机坐标系的旋转R和平移T矩阵；畸变系数：包括相机的径向畸变系数k1,k2,k3,～，和相机的切向畸变系数p1,p2,～。

具体地，利用单平面棋盘格的摄像头标定方法对所述双目摄像头进行标定，得到内外参数变换矩阵(包括相机的内参矩阵A(dx,dy,r,u,v,f)和外参矩阵[R|T])和镜头畸变系数[k1,k2,k3,～,p1,p2,～]。

其中，采用棋盘标定法对所述双目摄像头(相机)进行标定，通过在matlab软件上进行，具体的原理及过程如下：棋盘是一块由黑白方块间隔组成的标定板，用它来作为相机标定的标定物(从真实世界映射到数字图像内的对象)。而之所以用棋盘作为标定物是因为相对于复杂的三维物体来说平面棋盘模式更容易处理，但与此同时，二维物体相对于三维物体会缺少一部分信息，于是可以通过多次改变棋盘的方位来捕捉图像，以求获得更丰富的坐标信息。

下面将依次对刚体进行一系列变换，使之从世界坐标系进行仿射变换和投影透射，最终得到像素坐标系下的离散图像点，过程中会逐步引入各参数矩阵。标定图片需要使用标定板在不同位置、不同角度和不同姿态下拍摄，最少需要3张，以10～20张为宜。标定板需要是黑白相间的矩形构成的棋盘图，制作精度要求较高，如图4所示。

标定过程如下：首先，打印一张棋盘格，把它贴在一个平面上，作为标定物；然后，通过调整标定物或摄像机的方向，为标定物拍摄一些不同方向的照片；接着，通过角点提取算法得到棋盘平面和的格点，估算出在理想无畸变的情况下的五个内参和六个外参；再者，应用最小二乘法估算实际存在径向畸变下的畸变系数，最后，利用极大似然法优化估计结果，从而提升估计精度。

然后，利用对所述双目摄像头进行标定后得到的所述镜头畸变系数对所述双目摄像头进行校正，从而可以使用经过校正后的双目摄像头拍摄到的精准的所述第二图像，即得到精度高和质量高的所述第二图像。

进一步地，请继续参阅图1，S200、对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件；其中，带有目标物体边界框的第一标注文件是指包含物体中心位置和物体边界位置的.xml文件。

具体地，为了生成带有目标物体边界框的第一标注文件，需要对经过校正后的双目摄像头拍摄到的所述第二图像进行数据标注处理，其中，数据标注特指目标检测中，对图片数据进行标注，而在目标检测中数据标注指的是通过分类、画框和标注三个步骤，对图片数据进行处理，标记对象的特征，以作为机器学习基础素材的过程。

进一步地，请参阅图5，S200、所述对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件的步骤具体包括：

S210、对所述第二图像进行分类和画框处理，得到带有目标物体边界的所述第二图像；

S220、利用labelimg软件，将目标物体边界使用矩形框进行标注，得到带有目标物体边界框的第一标注文件。其中，矩形框是在数据标注、训练模型和模型预测等操作时，会用一个矩形框将目标框住，而在计算机中，矩形框数据以(x,y,w,h)格式保存，其中，x为目标左上角横坐标，y为目标左上角纵坐标，w为目标宽度，h为目标高度。

具体地，当需要对待检测目标进行目标检测时，首先创造一个数据集文件夹，里面放入有若干张待检测目标的图片(分类处理)，然后用labelimg软件打开文件夹，进行如下操作：首先打开文件，创建矩形框(画框处理)，得到带有目标物体边界的所述第二图像，然后，将物体完全放在框内同时边框尽量贴合目标物体，最后，注明类别(标注处理)并保存，从而得到带有目标物体边界框的第一标注文件。

进一步地，请继续参阅图1，S300、将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型。

其中，Yolo(You Only Look Once)算法是一种基于回归的目标检测算法，Yolo算法的特点是在保证精度的情况下运算速度极快。而Yolov4-Tiny则是第四代Yolo算法Yolov4的精简版，相比于Yolov4，它在精度下降一部分的情况下，模型体积更小且运算速度更快，适用于部署在各种嵌入式设备上。

具体地，从广义上来说，机器学习是一种能够赋予机器学习的能力，以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。其中，机器学习根据训练样本的标记信息未知或已知分为有监督学习、无监督学习、弱监督学习和强化学习。而深度学习属于有监督学习的一部分，所谓有监督学习，通过已有的训练样本去训练得到一个最优模型，以便后面利用所述最优模型进行数据预测和分析；那么将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型，就属于通过已有的训练样本去训练得到一个最优模型的过程，即模型训练的过程，训练过程中主要为了确定YOLOv4-Tiny模型中权重的值，整个训练是端到端的，自动化设备可自动完成。

进一步地，请参阅图6，S300、所述将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型的步骤具体包括：

S310、将原YOLOv4-Tiny模型的主干特征提取网络用Mobilenetv3结构进行替换后，增加Mobilenetv3结构的层数，并加入反转残差结构，得到优化后的YOLOv4-Tiny模型；

S320、利用优化后的YOLOv4-Tiny模型对经过增强后的第三图像和所述第一标注文件进行训练，得到所述参数模型。

具体地，原Yolov4-Tiny网络模型如下，其中包括五个基本组件：

第一、CBL层，由conv卷积层、BN层和Leaky Relu激活函数组成；第二、CSP层，将原输入分成两个分支，分别进行卷积操作使得通道数减半，然后一个分支进行Bottleneck*N操作，然后连接两个分支，使得Bottlenneck CSP的输入与输出是一样的大小，这样是为了让模型学习到更多的特征；第三、池化层，采用最大值池化，降低信息冗余，防止模型过拟合；第四、上、下采样：即利用插值算法，放大或者缩小图像；第五、BackBone主干网络：主要是基本组件CBL层、池化层、CSP层的连接；其中，原Yolov4-Tiny模型结构图如图7所示。

但是，原Yolov4-Tiny网络模型在目标检测的任务上主要存在以下问题：

1.对于小目标识别精度不够高；2.对于密集目标有运动模糊问题。

造成这些问题的主要原因在于Yolov4-Tiny模型对于小目标和密集目标的特征提取不够丰富，针对这个问题，将原Yolov4-Tiny的主干特征提取网络用Mobilenetv3结构进行替换，通过增加Mobilenetv3结构(新主干特征提取网络)的层数的方法增大感受野，即利用YOLOv4-Tiny模型中的多层卷积增大感受野，从而增加对小目标和密集目标的特征提取。因此，YOLOv4-Tiny模型在最终个分类时是依据高阶特征，使用一个大的感受野进行分类。

其中，感受野(Receptive Field)，指的是神经网络中神经元“看到的”输入区域，在卷积神经网络中，特征图(feature map)上某个元素的计算受输入图像上某个区域的影响，这个区域即该元素的感受野。

同时进一步减少模型的实际操作数，并加入了反转残差结构，使得虽然最终Yolov4-Tiny模型的输出虽然还是一样的深度，但是内部可以拓展到高维的特征空间，增加非线性通道的表现力，即Yolov4-Tiny网络在尽量低阶中，任然向高维做了一次张成，从而保证了收敛，进而在能够提取丰富特征的情况下，减小了时间开销；接下来，通过反向传播和批量随机梯度下降法不断更新模型参数权重，直到模型损失达到最低，从而得到优化后的YOLOv4-Tiny模型(最优模型)，与此，其中还引入了H-Swish激活函数，从而实现在保持精度的情况下，有效地避免了量化时造成的精度损失。其中，优化后的Yolov4-Tiny模型结构图如图8所示。然后，利用优化后的YOLOv4-Tiny模型对经过增强后的第三图像和所述第一标注文件进行训练，得到所述参数模型(最优模型)。本发明中通过将原Yolov4-Tiny网络模型进行改进，从而能够得到更加轻便化且快速精准的参数模型，以便利用所述参数模型对待预测图像做出更加精准且快速地预测。

将原YOLOv4-Tiny模型的主干特征提取网络用Mobilenetv3结构进行替换，并增加主干特征提取网络的层数；

增加对小目标和密集目标的特征提取，减少模型的实际操作数，并加入反转残差结构，

进一步地，请继续参阅图1，S400、采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度。

其中，置信度也称为可靠度、置信水平或置信系数，是指在目标检测的预测过程中，会对检测到的物体进行分类，输出一个类别分数的列向量，列向量中包含不同类别的分数，其中某一类别分数越高，代表计算机认为该物体最有可能属于该类，这个分数称为检测置信度，本实施例中表明是所述目标物体的分数就是置信度，例如表明是小鼠的分数，本实例以小鼠作为旷场动物的实施例。

具体地，在通过已有的训练样本去训练得到一个最优模型(所述参数模型)后，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现预测和分类的目的，也就具有了对未知数据进行预测和分类的能力，这里就是将经过预处理后的第四图像输入到所述参数模型后，输出预测结果：所述检测框和置信度，即模型预测的过程。

进一步地，请参阅图9，S400、所述采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度的步骤具体包括：

S410、采集经过校正后的双目摄像头拍摄到的第四图像后，并利用开源的OpenCV库对所述第四图像进行高斯滤波操作，得到经过预处理后的第四图像；

S420、将经过预处理后的第四图像输入到所述参数模型中，得到所述检测框和置信度。

具体地，所述双目摄像头有左、右两个摄像头，一般左侧摄像头清晰度高，右侧摄像头清晰度低，两个摄像头均采集的是RGB数据，对于经过校正后的左右摄像头分别采集到的RGB数据以下称为左侧RGB数据和右侧RGB数据，所述左侧RGB数据和所述右侧RGB数据统称为所述第四图像(待预测图像)，然后，所述左侧RGB数据和所述右侧RGB数据均需要进行数据预处理过程，即：利用开源的OpenCV库(OpenCV是一个基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库)对所述第四图像进行高斯滤波，包括对所述第四图像进行加权平均等，以减小图像中噪声，从而得到经过预处理后的第四图像。

然后，将经过预处理后的第四图像输入到所述参数模型中，得到预测结果，即所述检测框和置信度。

进一步地，请继续参阅图1，S500、将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像；其中，所述左右摄像头分别拍摄到的两张图像均被称为所述第四图像。

具体地，将经过校正后的左右摄像头同一时刻分别拍摄到的两张经过预处理后的第四图像进行像素点匹配操作，计算像素点的深度就可以得到第五图像，以便将所述深度图作为改进后的Deep SORT算法模型中的一个输入参数。其中，所述Deep SORT算法是一种用于多目标追踪的、在SORT算法上改进而来的算法。

进一步地，请参阅图10，S500、所述将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像的步骤具体包括：

S510、对同一时刻内左右两个摄像头拍摄到的两张经过预处理后的第四图像进行预处理操作后，根据所述内外参数变换矩阵对两张经过预处理后的第四图像进行像素点匹配；

S520、根据匹配结果计算每个像素的深度，得到所有所述第五图像；其中，所述第五图像为深度图。

具体地，将所述双目摄像头拍摄到的第四图像(RGB图像)，先进行预处理操作，得到经过预处理后的第四图像，然后，利用所述内参外参矩阵，将左右两个摄像头同一时刻拍摄到的两张经过预处理后的第四图像中的世界坐标系转换为像素坐标系后，再将两张经过预处理和经过坐标转换后的第四图像进行像素点匹配操作，最后根据匹配结果计算每个像素的深度，得到改进后的Deep SORT算法模型中的一个输入参数，即所述第五理图像，也即所述深度图(深度数据)。

进一步地，请继续参阅图1，S600、将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息。

具体地，在根据匹配结果计算每个像素的深度，得到所有所述第五图像(所述深度图)后，将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息，从而实现对所述目标物体的运动行为信息的监测和记录。

进一步地，请参阅图11，S600、所述将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息的步骤具体包括：

S610、改用ShuffleNetv2网络代替原Deep SORT算法模型中的ReID网络，得到改进后的Deep SORT算法模型；

S620、将所述检测框与所述第五图像中的边界框进行匹配，并利用匹配成功的第五图像和所述检测框创建改进后的Deep SORT算法模型中的追踪器；

S630、初始化Deep SORT算法模型中的卡尔曼滤波器后，利用所述卡尔曼滤波器预测所述目标物体的状态，同时得到预测框，并保存在所述追踪器中；

S640、滤除所述置信度小于或等于预设阈值的所述检测框，并将所述追踪器和经过滤除后的检测框进行阈值匹配和非极大值抑制操作；

S650、将确定态的阈值匹配成功的追踪器进行级联匹配操作，并用级联匹配成功的追踪器更新所述卡尔曼滤波器，以便所述卡尔曼滤波器输出所述目标物体的运动行为信息。

其中，为了介绍非极大值抑制，首先引入并交比的概念，交并比(IOU函数用于计算两个边界框交集和并集之比。两个边界框的并集是这个区域，就是属于包含两个边界框区域，而交集就是这个比较小的区域，那么交并比就是交集的大小除以并集面积，所以IOU衡量的是两个边界框重叠地相对大小。而非极大值抑制作用在于：当对目标物体进行检测过程时，可能会对同一个对象检测多次，从而产生许多边界框，但是非极大值抑制这个操作可以确保算法对每个对象只检测一次，而非最大值意味着只输出概率最大的分类结果，虽然抑制很接近，但不是最大的其他预测结果，所以这方法叫做非极大值抑制。

(IOU)阈值匹配的意义在于：对于不同的检测任务，如果待检测目标尺度之间相差不大，即数据集中大多为同一尺度目标时，可以适当降低IOU阈值再进行选取，以对小目标特征实现最大程度的提取。但是在实际应用中，同一场景下的检测不可能只包含单一尺度的目标，存在不同目标尺度跨越相差较大的情况，如果固定IOU阈值进行统一检测筛选，会带来样本不平衡的问题，小目标特征极有可能被严格的IOU阈值舍弃。因此，设置动态IOU阈值作为不同尺度目标检测更具普适性，根据不同的样本数量动态调整，当负样本数量过高时不断提高IOU阈值平衡样本数量，避免了直接设置过高的IOU阈值而造成的漏检，训练出来的模型泛化性更强。

所述卡尔曼滤波器为具有等速运动和线性观测模型的标准卡尔曼滤波器，所述卡尔曼滤波器采用的卡尔曼滤波算法的最核心两个步骤就是预测和更新；其中，预测就是根据目标物体在t-1时刻的状态来预测其在t时刻的状态。

预测主要分为两部分：

在公式(1)中，x为track(追踪器)在t-1时刻的均值，F称为状态转移矩阵，该公式预测t时刻的x'(均值向量)；在公式(2)中，P为track在t-1时刻的协方差，Q为系统的噪声矩阵，代表整个系统的可靠程度，一般初始化为很小的值，该公式预测t时刻的P'(协方差矩阵)。

而更新则是基于t时刻的检测结果(测量值)和根据跟踪轨迹预测目标在t时刻的状态(预测值)，得到一个在t时刻更精确的结果(状态)。

在公式(3)中，z为detection的均值向量(均值向量的计算在initiate()函数中进行)，不包含速度变化值，即z＝[x,y,a,h]，H称为测量矩阵，它将track的均值向量x'映射到检测空间，该公式计算detection和track的均值误差y；测量矩阵H的取值如下:

在公式(4)中，R为检测器的噪声矩阵，它是一个4x4的对角矩阵，对角线上的值分别为中心点两个坐标以及宽高的噪声，以任意值初始化，一般设置宽高的噪声大于中心点的噪声。该公式先将预测t时刻的协方差矩阵P'映射到检测空间，然后再加上噪声矩阵R；在公式(5)中，计算卡尔曼增益K，卡尔曼增益用于估计误差的重要程度；在公式(6)和公式(7)中，计算更新后的均值向量x和协方差矩阵P。

具体地，原有的Deep SORT算法模型中卡尔曼滤波器使用的是一个8维空间量(u,v,r,h,x’,y’,r’,h’)去对追踪目标物体的运动轨迹在某一时刻目标框的中心位置、横纵比、高度、速度信息和观测变量进行描述；但是本申请中加入了所述深度数据得到一个9维空间量(u,v,r,h,z,x’,y’,r’,h’,z’)；其中，(u，v)为追踪器中心位置的横坐标和纵坐标，r为追踪器的宽高比，h为追踪器的高，z为追踪器中心位置的深度信息，(x’,y’,r’,h’)为追踪器在x方向上的运动速度、追踪器在y方向上的运动速度、追踪器的宽高比相对于时间的变化量、追踪器高相对于时间的变化量，z’为追踪器中心位置的深度相对于时间的变化量；

其中，本申请中的所述追踪器为新Deep SORT算法模型中卡尔曼滤波器初始化生成，并通过卡尔曼滤波器更新其运动状态(u,v,r,h,z,x’,y’,r’,h’,z’)和协方差信息，且追踪器则包含了所述目标物体的预测信息(所述预测框等)。

并且追踪器有三个状态分别是确定态/匹配态(confirmed)、非确定态/未匹配态(unconfirmed)/未知态(tentative)和删除状态(deleted)，三种状态间关系和转换状态如图12所示，其中n_init、max_age均为自行设置，n_init通常为3，即前三帧；max_age为设定的最大保存时间，追踪器超过这个时间没有和前面任何一个追踪器匹配上的话，被认为追踪的目标物体已经离开摄像头；图中的匹配包括：追踪器与检测结果的匹配和追踪器与上一次追踪器的匹配。

本申请中改用ShuffleNetv2网络代替原Deep SORT算法模型中的ReID网络，得到改进后的Deep SORT算法模型(新Deep SORT算法模型)，其中，所述ShuffleNetv2网络结构如图13所示，那么利用新Deep SORT算法模型输出所述目标物体的运动行为信息的详细过程如下，如图14所示：

步骤一：将当前目标物体的检测框、检测物体的置信度和检测框中心的深度数据(所述深度图)作为新Deep SORT算法模型的输入；

步骤二：将所述参数模型输出的第i帧次所述检测框与经过像素匹配后的所述第五图像(所述深度数据)中的边界框进行匹配，并利用匹配成功的第五图像和所述检测框创建新Deep SORT算法模型中对应的追踪器(Tracks)，得到所述追踪器的的运动状态(u,v,r,h,z,x’,y’,r’,h’,z’)和协方差信息(包括协方差矩阵P、观测矩阵H、测量状态协方差矩阵R)，并进行初始化，此时追踪器为未知态：tentative；

然后，对所述卡尔曼滤波器的协方差矩阵P、观测矩阵H、测量状态协方差矩阵R和卡尔曼增益矩阵K进行初始化，利用经过初始化后的卡尔曼滤波器预测所述目标物体的状态，同时得到预测框，并保存在所述追踪器中，即所述追踪器则包含所述目标物体的所述预测框等。

其次，根据输入的所述置信度，滤除所述置信度小于或等于预设阈值(例如0.7)的所述检测框，得到置信度大于所述预设阈值且之前没有和任何追踪器匹配的检测结果，以及在连续的n_init帧上(例如前三帧)输入图像的所有置信度大于所述预设阈值的检测结果(所述检测结果包括所述检测框等)；其中，所述检测框为第i帧所述RGB图像输入经过优化后的Yolov4-Tiny网络后输出的第i帧所述RGB图像中检测出的当前目标物体的图像框，包括(x,y,w,h)的信息，反应了当前信息。

步骤三：将第i-1帧通过所述追踪器预测的预测框和第i帧当前的检测结果(所述检测框)一一进行IOU阈值匹配和NMS非极大值抑制，并通过IOU阈值匹配的结果计算其代价矩阵(cost matrix，其计算方式是1-IOU)。

步骤四：将计算出的所有代价矩阵作为匈牙利算法的输入，匈牙利匹配后得到追踪器的线性匹配结果。

所述线性匹配结果包括：

(1)、追踪器与追踪器失配(Unmatched Tracks)：此时的追踪器和前面的追踪器无法匹配成功，如果追踪器为未知态且在连续n_init帧之外则追踪器被删除(即为删除态，因为这个Tracks是未知态了，如果是确定态的话则要连续达到一定的次数(默认30次)才可以删除)；如果追踪器为确认态且连续max_age帧没有匹配上，追踪器进入删除态；

(2)、追踪器与检测结果失配(Unmatched Detections)：即当前检测结果和前面任何一个追踪器都无法对应，则为检测结果初始化一个新的追踪器，重新开始追踪，此时跳转到步骤六；

(3)、追踪器与前面的追踪器匹配成功：说明第i-1帧和第i帧追踪成功，对匹配成功的追踪器计算表观特征，并输入到卡尔曼滤波器更新中，对其进行状态更新，此时跳转到步骤六；

步骤五：重复步骤三和四直到出现确认态(confirmed)的追踪器；

步骤六：卡尔曼滤波器更新：输入为(阈值)匹配成功的、确认态的追踪器和(阈值)未匹配成功的、新分配的追踪器的运动信息和协方差信息，卡尔曼滤波器通过输入更新卡尔曼滤波器的增益矩阵并输出对于追踪器运动信息和协方差信息的预测；

此时，对于(阈值)匹配成功的、确认态的追踪器，进一步地进入级联匹配(之前每次只要追踪器匹配上都会保存检测结果的外观特征和运动信息，默认保存前100帧，利用追踪器的外观特征和运动信息与检测结果进行级联匹配，这么做是因为确认态的追踪器和检测结果进行匹配的可能性更大)，跳转到步骤七；

对于(阈值)未匹配成功的、新分配的追踪器输入到IOU阈值匹配，继续进行IOU阈值匹配，即跳转到步骤三；

步骤七：级联匹配：级联匹配输入为匹配成功的、确认态的追踪器的运动信息、表观特征和协方差信息和检测结果的(x,y,w,h)信息，级联匹配输出有以下三种可能性：

(1)匹配成功的、确认态的追踪器(Tracks匹配)，将其输入到卡尔曼滤波器更新中，更新其对应的追踪器的变量；

(2)与以前任何一个追踪器都不匹配的追踪器(Tracks失配)；

(3)与当前检测结果匹配不上的追踪器(Detections失配)；

对于级联匹配结果(2)和(3)，继续进行IOU阈值匹配，即步骤三；

步骤八：输出匹配成功的、确认态的追踪器的运动信息，即最终所述卡尔曼滤波器输出所述目标物体的运动行为信息。

其中，在Deep SORT算法模型中，对于卡尔曼滤波的结果分为确定态和非确定态，对于确定态的预测结果，才会进行级联匹配。

当一个目标长时间被遮挡之后，卡尔曼滤波预测的不确定性就会大大增加，状态空间内的可观察性就会大大降低。假如此时两个追踪器竞争同一个检测结果的匹配权，往往遮挡时间较长的那条轨迹因为长时间未更新位置信息，追踪预测位置的不确定性更大，即协方差会更大，马氏距离计算时使用了协方差的倒数，因此马氏距离会更小，因此使得检测结果更可能和遮挡时间较长的那条轨迹相关联，这种不理想的效果往往会破坏追踪的持续性。

级联匹配的核心思想就是由小到大对消失时间相同的轨迹进行匹配，这样首先保证了对最近出现的目标赋予最大的优先权，也解决了上面所述的问题。在匹配的最后阶段还对unconfirmed和age＝1的未匹配轨迹和检测目标进行基于IOU的匹配，这可以缓解因为表观突变或者部分遮挡导致的较大变化。当然有好处就有坏处，这样做也有可能导致一些新产生的轨迹被连接到了一些旧的轨迹上，但这种情况较少。

级联匹配的具体流程如下：

在卡尔曼滤波结果中，对于确定态的跟踪框集合记为T，当前目标检测出来的结果集合记为D。

步骤1：将两者T和D内的结果对应的图像送到表观特征提取网络中，然后去计算网络计算出来结果的余弦距离，以此作为代价矩阵(cost-matrix)这里记为C，输出代价矩阵C的步骤示意图如图15所示，其中，代价矩阵C用于存放所有物体跟踪i与物体检测j之间余弦距离的计算结果。

步骤2：计算检测和预测结果的马氏距离，然后根据统计学和实验所得的阈值，去除掉不符合马氏距离和余弦距离阈值的匹配项，输出结果B矩阵，输出结果B矩阵的步骤示意图如图16所示，其中，B矩阵用于存放所有物体跟踪i与物体检测j之间是否关联的判断。

步骤3：根据预测框的更新状态(这里更新状态是指，这个预测框距离上一次被匹配成功的时间)，越新的预测框(也即距离上一次被匹配上的帧数越短的)，越优先根据C的结果进行匈牙利算法进行匹配，最后根据B中的结果去划分匹配上的集合和未匹配上的集合，划分过程示意图如图17所示。

本发明中通过先将匹配成功的第五图像和所述检测框输入到新Deep SORT算法模型的内部卡尔曼滤波器中，对其进行初始化；然后，进行非极大值抑制操作，即去除所述置信度小于0.7的部分，接着，新Deep SORT算法模型将所述卡尔曼滤波器输出的预测框数据(预测框)与当前检测框(所述检测框)之间的位置关系和外观特征信息进行匹配，并根据所述匹配结果判断所述预测框与当前检测框的关联程度，从而完成多目标的跟踪匹配。

那么，新Deep SORT算法模型的整个工作流程简化图如图18所示，具体为：在第i帧中，将待检测的目标物体输入后，提取当前的外观特征信息，以此建立卡尔曼滤波器，在第i+1帧时，通过卡尔曼滤波器预测出检测框数据(预测框)，与当前提取到的的外观特征进行外观匹配，若匹配成功则更新所述卡尔曼滤波器，继续进行第i+1帧的后续检测，否则，重新初始化所述卡尔曼滤波器，同样继续进行第i+1帧的后续检测。

上述流程中已经实现了将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像和所述检测框输入到改进后的Deep SORT算法模型中后，实现输出不同所述目标物体的运动轨迹和时间节点信息，即输出不同所述目标物体的运动行为信息，二者结合，即可进一步地对所述目标物体到的运动速度、不同时段运动量和不同时段运动轨迹进行计算导出。

原Deep SORT算法在物体外观特征提取上使用ReID领域模型进行表观特征提取，在边缘端设备上运行时，会因为边缘端设备算力原因导致帧率降低，而在本申请中将ShuffleNetv2网络代替原Deep SORT算法模型中的ReID领域模型，从而对原Deep SORT算法进行改进得到新Deep SORT算法模型，实现了在尽可能保证精度的情况下，有效地降低运算量；并且，通过将深度信息(所述深度图或深度数据)与二维空间运动信息进行融合，即将检测物体的深度信息同样作为新Deep SORT网络的输入，采用这种方法解决了多目标追踪时目标遮挡导致的追踪丢失问题，通过引入目标动物的深度信息，当两只或多只所述目标物体例如小鼠产生遮挡现象时，改进后的Deep SORT算法会一直保留产生遮挡的小鼠之前的追踪信息，并利用其深度信息的变化量和当前量对目标物体进行匹配，从而有效解决遮挡情况下的目标追踪问题，增加了Deep SORT算法模型的预测准确性。

请参阅图19，本发明提供的一种基于视频序列的目标动物运动追踪系统，所述基于视频序列的目标动物运动追踪系统包括：图像处理模块100、数据标注模块200、参数模型构建模块300、训练结果预测模块400、深度图获取模块500和运动行为信息输出模块600；所述图像处理模块100，用于抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像；其中，所述第三图像集中的所有图像为所述第三图像；所述数据标注模块200，用于对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件；所述参数模型构建模块300，用于将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型；所述训练结果预测模块400，用于采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度；所述深度图获取模块500，用于将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像；其中，所述左右摄像头分别拍摄到的两张图像均被称为所述第四图像；所述运动行为信息输出模块600，用于将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息。

具体地，本发明中通过首先抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理得到经过增强后的第三图像，然后，对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件，其次，将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型；再者，将经过预处理后的第四图像输入到所述参数模型中，得到检测框和置信度；最后，通过将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型中后，实现输出不同所述目标物体的运动轨迹和时间节点信息，即输出不同所述目标物体的运动行为信息，二者结合，即可进一步地对所述目标物体到的运动速度、不同时段运动量和不同时段运动轨迹进行计算导出，从而有效地实现了不仅在保证追踪准确率的情况下使得模型更小、帧率更快，便于部署到各种嵌入式处理器中，即在保证分析精度的基础上将神经网络模型轻便化，还可以在小鼠堆叠产生遮挡的情况下，对目标进行有效的追踪。

更进一步地，本发明还提供一种控制器，如图20所示，所述控制器包括处理器10、存储器20及显示器30。图20仅示出了控制器的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述控制器的内部存储单元，例如控制器的硬盘或内存。所述存储器20在另一些实施例中也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述控制器的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于视频序列的目标动物运动追踪程序40，该基于视频序列的目标动物运动追踪程序40可被处理器10所执行，从而实现本发明中基于视频序列的目标动物运动追踪方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于视频序列的目标动物运动追踪方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述装置的信息以及用于显示可视化的用户界面。所述装置的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中基于视频序列的目标动物运动追踪程序40时实现以下步骤：

其中，所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤之前还包括：

利用所述镜头畸变系数对所述双目摄像头进行校正。

其中，所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤具体包括：

其中，所述对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件的步骤具体包括：

其中，所述将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型的步骤具体包括：

其中，所述采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度的步骤具体包括：

采集经过校正后的双目摄像头拍摄到的第四图像后，并利用开源的OpenCV库对所述第四图像进行高斯滤波操作，得到经过预处理后的第四图像；

将经过预处理后的第四图像输入到所述参数模型中，得到所述检测框和置信度。

其中，所述将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像的步骤具体包括：

其中，所述将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的DeepSORT算法模型预测输出所述目标物体的运动行为信息的步骤具体包括：

进一步地，一种计算机可读存储介质，所述计算机可读存储介质存储有基于视频序列的目标动物运动追踪程序，所述基于视频序列的目标动物运动追踪程序被处理器执行时实现如上所述的基于视频序列的目标动物运动追踪方法的步骤；由于上述对该所述基于视频序列的目标动物运动追踪方法的步骤进行了详细的描述，在此不再赘述。

综上所述，本发明提供的一种基于视频序列的目标动物运动追踪方法及相关设备，所述基于视频序列的目标动物运动追踪方法包括以下步骤：抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像；其中，所述第三图像集中的所有图像为所述第三图像；对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件；将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型；采集经过校正后的双目摄像头拍摄到的第四图像后，对所述第四图像进行预处理操作，得到经过预处理后的第四图像，并输入到所述参数模型中，得到目标物体的检测框和所述目标物体的置信度；将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像；其中，所述左右摄像头分别拍摄到的两张图像均被称为所述第四图像；将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息。通过对YOLOv4-Tiny训练模型进行优化，以及将检测框与深度图进行匹配成功后的深度图输入到改进后的Deep SORT算法模型中，实现将神经网络模型轻便化又能保证分析精度。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于视频序列的目标动物运动追踪方法，其特征在于，所述基于视频序列的目标动物运动追踪方法包括以下步骤：

2.根据权利要求1所述的基于视频序列的目标动物运动追踪方法，其特征在于，所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤之前还包括：

利用所述镜头畸变系数对所述双目摄像头进行校正。

3.根据权利要求1所述的基于视频序列的目标动物运动追踪方法，其特征在于，所述抽取第一图像集中多张第一图像和经过校正后的双目摄像头拍摄到的第二图像集中多张第二图像，将多张第一图像和第二图像组合得到第三图像集，对所述第三图像集中所有第三图像进行增强处理，得到经过增强后的第三图像的步骤具体包括：

4.根据权利要求1所述的基于视频序列的目标动物运动追踪方法，其特征在于，所述对所述第二图像进行数据标注处理，得到带有目标物体边界框的第一标注文件的步骤具体包括：

5.根据权利要求1所述的基于视频序列的目标动物运动追踪方法，其特征在于，所述将经过增强后的第三图像和所述第一标注文件同时输入到经过优化后的YOLOv4-Tiny模型中进行训练，得到参数模型的步骤具体包括：

6.根据权利要求2所述的基于视频序列的目标动物运动追踪方法，其特征在于，所述将经过校正后的双目摄像头的左右摄像头同一时刻拍摄到的两张经过预处理后的第四图像进行像素点匹配操作后，计算像素点的深度得到第五图像的步骤具体包括：

7.根据权利要求1所述的基于视频序列的目标动物运动追踪方法，其特征在于，所述将所述检测框与所述第五图像中的边界框进行匹配，并将匹配成功的第五图像、所述置信度和所述检测框输入到改进后的Deep SORT算法模型中，改进后的Deep SORT算法模型预测输出所述目标物体的运动行为信息的步骤具体包括：

使用ShuffleNetv2网络代替原Deep SORT算法模型中的ReID网络，得到改进后的DeepSORT算法模型；

初始化改进后的Deep SORT算法模型中的卡尔曼滤波器后，利用所述卡尔曼滤波器预测所述目标物体的状态，同时得到预测框，并保存在所述追踪器中；

将确定态的阈值匹配成功的追踪器进行级联匹配操作，并用级联匹配成功的追踪器更新所述卡尔曼滤波器，使得所述卡尔曼滤波器输出所述目标物体的运动行为信息。

8.一种基于视频序列的目标动物运动追踪系统，其特征在于，所述基于视频序列的目标动物运动追踪系统包括：

9.一种控制器，其特征在于，所述控制器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于视频序列的目标动物运动追踪程序，所述基于视频序列的目标动物运动追踪程序被所述处理器执行时实现如权利要求1-8任一项所述的基于视频序列的目标动物运动追踪方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于视频序列的目标动物运动追踪程序，所述基于视频序列的目标动物运动追踪程序被处理器执行时实现如权利要求1-8任一项所述的基于视频序列的目标动物运动追踪方法的步骤。