CN112884742B

CN112884742B - 一种基于多算法融合的多目标实时检测、识别及跟踪方法

Info

Publication number: CN112884742B
Application number: CN202110198824.4A
Authority: CN
Inventors: 杨帆; 王兴; 李凯; 赵志毅; 张学军; 武靖恺; 侯鹏亮; 杨昆
Original assignee: Beijing Zhongke Xunlong Technology Co ltd; Shanxi Shannon Technology Co ltd; Taiyuan University of Science and Technology
Current assignee: Beijing Zhongke Xunlong Technology Co ltd; Shanxi Shannon Technology Co ltd; Taiyuan University of Science and Technology
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2023-08-11
Anticipated expiration: 2041-02-22
Also published as: CN112884742A

Abstract

本发明涉及图像处理技术领域，具体涉及一种基于多算法融合的多目标实时检测、识别及跟踪方法。首先用结合知识蒸馏的方法改进的CenterNet算法模型完成多目标的实时检测；紧接着在CenterNet算法模型中加入基于SENet的残差块，依次进行Squeeze操作、Excitation操作和Reweight操作完成目标识别；然后将Deepsort算法和Centernet算法融合，将多目标实时检测后的帧视频数据调用改进后的Deepsort算法，使用运动特征匹配、表观特征匹配和目标交互特征匹配来确定跟踪目标下一帧的位置，完成多目标跟踪。本发明是端到端可微的，更简单，更快，更精确，实现了速度和精确的较好的权衡。

Description

一种基于多算法融合的多目标实时检测、识别及跟踪方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于多算法融合的多目标实时检测、识别及跟踪方法。

背景技术

随着人工智能领域和深度学习技术的发展，目标检测已经成为人工智能和计算机视觉领域中的一个研究重点和难点。目前，目标检测在各个领域中都有着非常重要的应用，比如人脸识别、交通运输、自动驾驶等领域。目标检测就是识别出图像中感兴趣的区域并预测出目标的具体位置，并且快速、准确地识别出图像中的目标。目标跟踪就是在目标检测的基础上进行的，是在视频图像中的每一幅图像中确定出我们感兴趣的运动目标的位置，并把不同帧中同一目标对应起来。

现有的目标检测算法主要分为两类，one-stage算法和two-stage算法。one-stage算法是端到端的一步到位的算法，获取获选区域和对目标进行分类是同时进行的；two-stage算法是需要先获取候选区域，第二步再进行分类。

One-stage算法的主要代表是YOLO系列和SSD系列，YOLO的网络结构延续了GoogleNet的核心思想，利用卷积层来提取图片特征，利用全连接层来得到最后的检测结果。YOLO将输入图像分成S×S个网格，每个网格负责检测中心落在该网格的物体。YOLO的端到端训练和预测使得其具有较快的检测速度。在YOLO算法中虽然每个网格预测B个边框，但是只预测一组类别概率值，并且最后只选择IOU最高的边框作为输出结果。如果一个网格中包含多个物体，YOLO只能检测一个物体。SSD算法与faster-rcnn相比，该算法没有生成proposal的过程，这就极大提高了检测速度。不同于faster-rcnn使用rpn网络进行检测和边框回归，SSD网络的主要设计思想是特征分层提取，并依此进行边框回归和分类。针对不同大小的目标检测，传统的做法是先将图像转换成不同大小(图像金字塔)，然后分别检测，最后将结果综合起来(NMS非极大值抑制)。而SSD算法则利用不同卷积层的feature map进行综合也能达到同样的效果。One-stage算法相比于two-stage算检测速度有了很大的提升，但是检测精度却有所下降。此外，CenterNet也是one-stage的算法，但不同于YOLO和SSD系列算法，不再采用在图像上将目标用矩形框形式框出，而是构建模型时将目标作为一个点即标边界框的中心点，检测器采用关键点估计来找到中心点，并回归到其他目标属性。

Two-stage算法主要代表是R-CNN系列。R-CNN算法首先采用Selective Search(选择性搜索)方法，将输入图像分割成多个模块，再基于颜色、纹理等相似度对这些模块进行合并，最终得到大约2000个不同大小的候选区域，并将这些区域归一化到固定大小；然后使用卷积神经网络对这些候选区域分别进行特征提取，采用多个SVM对这些提取到的特征进行分类；最后对这些区域进行位置校准。Fast R-CNN能够处理不同输入大小图片，可以任意设定单尺度的ROl Pooling对特征图进行归一化，使用ROI Pooling Layer在特征图上获取对应每个候选框的特征，避免了R-CNN中的对每个候选框串行进行卷积。与其使用固定的算法得到候选区域，不如让网络自己学习自己的候选区域应该是什么。Faster R-CNN采用与Fast R-CNN相同的设计，但是不再使用selective search，它用区域生成网络(RegionProposal Network，RPN)代替了候选区域方法，新的候选区域网络(RPN)在生成ROI时效率更高。Two-stage算法由于要进行大量的计算，检测速度较慢，但检测精度比one-stage算法高。

目前常见的多目标跟踪算法有：帧差法、混合高斯模型和非参数模型法。帧差法对环境有很好的适应性，差分图像受光线变化影响小，检测有效而稳定，但是只能检测相对运动的目标，检测出的目标位置不精确，较大程度依赖差分帧的选择时机和目标的运动速度，背景不能保证完全静止，就会导致目标提取的错误。因此，该方法不能对目标进行精确的检测、跟踪。混合高斯模型比单高斯模型更精确，能够较准确的对目标进行的检测、跟踪。但是参数更新的收敛速度慢，不能够及时反映背景的变化；对全局亮度的变化比较敏感，有时会将整个视频帧作为前景。需要事先假定背景分布模型及需要进行模型参数估计和优化，也不适用于密度分布未知的计算机视觉等应用系统。非参数模型能够较敏感地检测出运动目标，较准确的实现多目标检测、跟踪。但是要建立非参数模型需要先存入N帧图像用来判断像素点和进行背景更新，制约检测速度，较难满足实时性。

发明内容

针对现有技术目标检测、跟踪算法中的环境适应性差，定位不准确、检测速度慢、占用内存大等问题本发明提供了一种基于多算法融合的多目标实时检测、识别及跟踪方法。目的是提出综合性能较好的检测、跟踪融合算法。

为了达到上述目的，本发明采用了下列技术方案：

本发明提供一种基于多算法融合的多目标实时检测、识别及跟踪方法，包括以下步骤：

步骤1，通过改进的CenterNet算法完成多目标实时检测；

结合知识蒸馏的方法对CenterNet算法模型进行改进，选用Hourglass网络作为Centernet算法模型的多目标检测特征提取网络，构建模型时将目标作为一个点——即目标BBox的中心点。检测器采用关键点估计来找到中心点，并回归到目标的位置。

首先在Centernet算法模型原始的特征提取网络Hourglass中进行预训练，收集预训练的特征数据得到训练数据集；将每两个初始的Hourglass网络改为一个，作为studentnet，调整student net网络参数，将Hourglass网络预训练的特征数据输入，同时输入训练数据集以及训练数据集对应的标签，用来提取先验知识，即让student net的模型学习teacher net的模型的泛化能力；后续使用直接将视频帧输入student net提取特征数据即可。本发明是端到端可微的，更简单，更快，更精确，实现了速度和精确的较好的权衡。

步骤2，对步骤1检测到的感兴趣区域进行多目标识别；

在Centernet算法中加入基于SENet的残差块，由SENet残差块首先对步骤1得到的特征图进行Squeeze操作，得到全局特征，然后对全局特征进行Excitation操作，学习各个通道间的关系，也得到不同通道的权重，最后通过Reweight操作乘以原来的特征图得到最终特征，完成目标识别。通过加入SENet的残差块加深了网络，SENet模块让算法可以更加关注信息量大的通道特征，而抑制那些不重要的通道特征，从而可以更好的识别出目标，算法模型的检测精度得到提升。

进一步，所述Squeeze操作就是采用全局平均池化操作对得到的每个特征图进行压缩，使其C个特征图最后变成1*1*C的实数数列，公式如下：

其中，F_sq代表进行squeeze操作，u_c代表c个feature map的集合，H和W分别代表高度和宽度。

所述Excitation操作的目的是完全捕获通道相关性，具体为：先用W₁乘以squeeze操作得到的结果z，就是一个全连接层操作，W₁的维度是C/n×C，这里n是一个缩放参数，因为z的维度是1×1×C，所以W₁z的结果就是1×1×C/n；然后再经过一个ReLU层，输出的维度不变；然后再经过一个全连接层的过程，和W₂相乘，W₂的维度是C×C/n，因此输出的维度就是1×1×C；最后再经过sigmoid函数，得到s，公式如下：

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中F_ex代表excitation操作，δ代表ReLU函数，W₁∈R^C/n×C，W₂∈R^C×C/n。

Reweight操作是将Excitation的输出的权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

步骤3，在步骤1和步骤2的基础上，进行多目标跟踪；

把Deepsort算法和Centernet算法进行了融合，对Deepsort算法模型引入了基于LSTM模型的目标交互匹配对改进，LSTM模型可以记忆与跟踪目标在一定区域范围内目标的交互特征信息，并依据历史信息学习匹配，将多目标实时检测后的帧视频数据调用改进后的Deepsort算法，使用运动特征匹配、表观特征匹配和目标交互特征匹配来确定跟踪目标下一帧的位置，且目标跟踪是基于历史轨迹信息完成跟踪。

进一步，所述目标交互特征匹配具体为：以目标中心位置以及周围矩形领域的其他目标所占的相对位置的映射图作为LSTM模型的输入，计算输出特征x，保存到集合Z，检测计算下一帧framet+1与其类似的相对位置映射区域特征，通过全连接网络计算特征，创建一个集合N保存framet+1所有检测类似映射区域特征，计算framet与类似映射区域所有特征之间的最小余弦距离，并且当两者距离≤特定阈值0.7，表示两者关联，更新保存到集合Z中：

d⁽¹⁾(i,j)＝min{1-r_j ^Nr_i|r_i∈Z_i}

其中，d⁽¹⁾表示目标交互特征匹配，i代表集合Z中最近更新的目标映射区特征，j代表集合N中最近目标映射区特征，r代表特征向量。

所述运动特征匹配是采用马氏距离计算检测框与跟踪框之间的距离，当两者距离≤特定阈值0.7，表示两者相互关联：

其中，d⁽²⁾表示运动特征匹配，d^j表示第j个检测框的位置，y_i表示第i个跟踪器对目标的预测位置，S_i表示检测位置与平均跟踪位置之间的协方差矩阵。

表观特征匹配是对跟踪器i创建一个集合保留跟踪器i过去k次成功跟踪物体检测Bbox对应的k个feature向量集合R，计算第i个物体中的所有feature向量和第j个物体检测之间的最小余弦距离，当两者距离≤特定阈值0.7，表示两者关联：

其中，d⁽³⁾表示表观特征匹配，r代表特征向量。

结合运动特征匹配、表观特征匹配和目标交互特征匹配可得到关联度量总公式为：

c_i，j＝pd⁽¹⁾(i，j)+qd⁽²⁾(i，j)+(1-p-q)d⁽³⁾(i，j)

其中，p和q代表权重参数，0<p，q<1。

与现有技术相比本发明具有以下优点：

1、在多目标实时检测时，本发明采用知识蒸馏的方法对Centernet的模型进行改进，改进后的Centernet模型检测速度有所提升，在保证mAP值的基础上，提高检测速度，可以达到实时检测的效果。

2、在多目标识别，通过加入轻量级的SENet模块加深了网络，让算法模型可以更加关注信息量大的通道特征，而抑制那些不重要的通道特征，只需增加很少的计算量就可以提高识别的精度，从而可以更好的识别出目标。

3、目标检测往往是在图像上将要检测的目标用矩形框形式框出，该框的水平和垂直轴与图像的水平和垂直向平行。大多成功的目标检测器都先穷举出潜在目标位置，然后对该位置进行分类，这种做法浪费时间，低效，还需要额外的后处理。本发明采用不同的方法CenterNet算法，构建模型时将目标作为一个点——即目标BBox的中心点。我们的检测器采用关键点估计来找到中心点，并回归到目标的位置。本发明是端到端可微的，更简单，更快，更精确，实现了速度和精确的较好的权衡。

附图说明

图1为本发明方法中的基于知识蒸馏的目标特征提取网络示意图。

图2为本发明方法中的基于SENet的模块示意图。

图3为本发明方法中的基于SENet的残差模块示意图。

图4为本发明方法中的LSTM模型目标交互特征网络结构图。

具体实施方式

下面结合具体实施方式和附图对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例1

发明提供了一种基于多算法融合的多目标实时检测及跟踪方法，包括：

步骤1，多目标实时检测

通过结合知识蒸馏的方法对CenterNet的模型进行改进，通过在Centernet模型原始的特征提取网络Hourglass中进行预训练，作为teacher net，预训练的特征数据收集得到训练数据集，并且将teacher net预训练的特征数据作为student net的输入，同时输入训练数据集以及训练数据集对应的标签。让student net的模型学习到teacher net的模型的泛化能力。本发明是端到端可微的，更简单，更快，更精确，实现了速度和精确的较好的权衡。如图1基于知识蒸馏目标特征提取网络图所示。

步骤2，多目标识别

在步骤1的基础上我们对所检测到的的感兴趣区域进行识别，在CenterNet网络中引入了基于SENet的残差模块来提高识别的精度。SENet模块通过显式地建模通道之间的相互依赖关系，自适应地重新校准通道的特征响应从而更关注我们感兴趣的通道，以此来提高网络识别的精度。SENet残差块首先对卷积得到的特征图进行Squeeze操作，得到全局特征，然后对全局特征进行Excitation操作，学习各个通道间的关系，也得到不同通道的权重，最后通过Reweight操作乘以原来的特征图得到最终特征，完成目标识别；

Squeeze操作就是在得到C(多个feature map)之后采用全局平均池化操作对其每个feature map进行压缩，使其C个feature map最后变成1*1*C的实数数列。一般CNN中的每个通道学习到的滤波器都对局部感受野进行操作，因此C中每个feature map都无法利用其它feature map的上下文信息，而且网络较低的层次上其感受野尺寸都是很小的，这样情况就会更严重。C(多个feature map)可以被解释为局部描述子的集合，这些描述子的统计信息对于整个图像来说是有表现力的。本发明选择最简单的全局平均池化操作，从而使其具有全局的感受野，使得网络低层也能利用全局信息，将H×W×C的输入转换成1×1×C的输出，公式如下：

接下来就是Excitation操作，该操作目的是完全捕获通道相关性。直接看最后一个等号，前面squeeze得到的结果是z，这里先用W₁乘以z，就是一个全连接层操作，W₁的维度是C/n×C，这个n是一个缩放参数，在本发明中取的是16，这个参数的目的是为了减少channel个数从而降低计算量。又因为z的维度是1×1×C，所以W₁z的结果就是1×1×C/n；然后再经过一个ReLU层，输出的维度不变；然后再和W₂相乘，和W₂相乘也是一个全连接层的过程，W₂的维度是C×C/n，因此输出的维度就是1×1×C；最后再经过sigmoid函数，得到s，公式如下：

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中F_ex代表excitation操作，z是上一步所得到的结果，δ代表ReLU函数，W₁∈R^C ^/n×C，W₂∈R^C×C/n。

最后进行Reweight的操作，我们将Excitation的输出的权重看做是进过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。从而达到更关注我们信息量大的特征来提高识别的精度。

步骤3，多目标跟踪；

在步骤1和步骤2的基础上，本发明把Deepsort算法和Centernet算法进行了融合，并且对Deepsort模型进行改进，引入基于LSTM模型的目标交互匹配对来提高目标跟踪的精度。其中，LSTM模型可以记忆与跟踪目标在一定区域范围内目标的交互特征信息，并依据历史信息学习匹配，LSTM模型目标交互特征网络结构图4所示。Deepsort模型中使用运动特征匹配、表观特征匹配和目标交互特征匹配来确定跟踪目标下一帧的位置，且目标跟踪是基于历史轨迹信息完成跟踪；将多目标实时检测后的帧视频数据调用改进后的Deepsort模型，实现多目标的跟踪。

目标交互特征匹配是目标中心位置以及周围矩形领域的其他目标所占的相对位置的映射图作为LSTM模型的输入，计算输出特征x，保存到集合Z，检测计算下一帧framet+1与其类似的相对位置映射区域特征，通过全连接网络计算特征，创建一个集合N保存framet+1所有检测类似映射区域特征，计算framet与类似映射区域所有特征之间的最小余弦距离，并且当两者距离≤特定阈值(0.7)，表示两者关联，更新保存到集合Z中：

d⁽¹⁾(i,j)＝min{1-r_j ^Nr_i|r_i∈Z_i}

所述运动特征匹配是采用马氏距离计算检测框与跟踪框之间的距离，当两者距离≤特定阈值(0.7)，表示两者相互关联：

所述表观特征匹配是对跟踪器i创建一个集合保留跟踪器i过去k次成功跟踪物体检测Bbox对应的k个feature向量集合R，计算第i个物体中的所有feature向量和第j个物体检测之间的最小余弦距离,当两者距离≤特定阈值(0.7)，表示两者关联：

其中，d⁽³⁾表示表观特征匹配，r代表特征向量。

关联度量总公式：

c_i，j＝pd⁽¹⁾(i，j)+qd⁽²⁾(i，j)+(1-p-q)d⁽³⁾(i，j)

其中，p和q代表权重参数，0＜p，q＜1。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多算法融合的多目标实时检测、识别及跟踪方法，其特征在于，包括以下步骤：

步骤1，通过改进的CenterNet算法完成多目标实时检测；

具体为：结合知识蒸馏的方法对CenterNet算法进行改进，选用Hourglass网络作为Centernet算法的多目标检测特征提取网络，在Hourglass网络中进行预训练，作为teachernet，收集预训练的特征数据得到训练数据集；将每两个初始的Hourglass网络改为一个，作为student net，调整student net网络参数，将Hourglass网络预训练的特征数据输入，同时输入训练数据集以及训练数据集对应的标签，用来提取先验知识，即让studentnet的模型学习teachernet的模型的泛化能力；将视频帧输入studentnet提取特征数据即可完成多目标实时检测；

步骤2，对步骤1检测到的感兴趣区域进行多目标识别；

在Centernet算法中加入基于SENet的残差块，由SENet残差块首先对步骤1得到的特征图进行Squeeze操作，得到全局特征，然后对全局特征进行Excitation操作，学习各个通道间的关系，也得到不同通道的权重，最后通过Reweight操作乘以原来的特征图得到最终特征，完成目标识别；

步骤3，在步骤1和步骤2的基础上，进行多目标跟踪；

把Deepsort算法和Centernet算法进行了融合，对Deepsort算法引入基于LSTM模型的目标交互匹配对进行改进，将多目标实时检测后的帧视频数据调用改进后的Deepsort算法，使用运动特征匹配、表观特征匹配和目标交互特征匹配来确定跟踪目标下一帧的位置，实现多目标的跟踪。

2.根据权利要求1所述的一种基于多算法融合的多目标实时检测、识别及跟踪方法，其特征在于：所述步骤2中Squeeze操作就是采用全局平均池化操作对得到的每个特征图进行压缩，使其C个特征图最后变成1*1*C的实数数列，公式如下：

其中，F_sq代表进行squeeze操作，u_c代表c个featuremap的集合，H和W分别代表高度和宽度。

3.根据权利要求1所述的一种基于多算法融合的多目标实时检测、识别及跟踪方法，其特征在于：所述步骤2中Excitation操作的目的是完全捕获通道相关性，具体为：先用W₁乘以squeeze操作得到的结果z，就是一个全连接层操作，W₁的维度是C/n×C，这里n是一个缩放参数，因为z的维度是1×1×C，所以W₁z的结果就是1×1×C/n；然后再经过一个ReLU层，输出的维度不变；然后再经过一个全连接层的过程，和W₂相乘，W₂的维度是C×C/n，因此输出的维度就是1×1×C；最后再经过sigmoid函数，得到s，公式如下：

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

4.根据权利要求1所述的一种基于多算法融合的多目标实时检测、识别及跟踪方法，其特征在于：所述步骤2中Reweight操作是将Excitation的输出的权重通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

5.根据权利要求1所述的一种基于多算法融合的多目标实时检测、识别及跟踪方法，其特征在于：所述步骤3中目标交互特征匹配具体为：以目标中心位置以及周围矩形领域的其他目标所占的相对位置的映射图作为LSTM模型的输入，计算输出特征x，保存到集合Z，检测计算下一帧frame t+1与其类似的相对位置映射区域特征，通过全连接网络计算特征，创建一个集合N保存frame t+1所有检测类似映射区域特征，计算frame t与类似映射区域所有特征之间的最小余弦距离，并且当两者距离≤特定阈值0.7，表示两者关联，更新保存到集合Z中：

6.根据权利要求1所述的一种基于多算法融合的多目标实时检测、识别及跟踪方法，其特征在于：所述步骤3中运动特征匹配是采用马氏距离计算检测框与跟踪框之间的距离，当两者距离≤特定阈值0.7，表示两者相互关联：

其中，d⁽²⁾表示运动特征匹配，d_j表示第j个检测框的位置，y_i表示第i个跟踪器对目标的预测位置，S_i表示检测位置与平均跟踪位置之间的协方差矩阵。

7.根据权利要求1所述的一种基于多算法融合的多目标实时检测、识别及跟踪方法，其特征在于：所述步骤3中表观特征匹配是对跟踪器i创建一个集合保留跟踪器i过去k次成功跟踪物体检测Bbox对应的k个特征向量集合R，计算第i个跟踪器中的所有特征向量和第j个物体检测之间的最小余弦距离，当两者距离≤特定阈值0.7，表示两者关联：

其中，d⁽³⁾表示表观特征匹配，r代表特征向量。