CN114879891A

CN114879891A - 一种自监督多目标跟踪下的多模态人机互动方法

Info

Publication number: CN114879891A
Application number: CN202210543589.4A
Authority: CN
Inventors: 郭少哲; 崔翛龙; 李永; 高志强
Original assignee: Engineering University of Chinese Peoples Armed Police Force
Current assignee: Engineering University of Chinese Peoples Armed Police Force
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-09
Anticipated expiration: 2042-05-19
Also published as: CN114879891B

Abstract

本发明公开了一种自监督多目标跟踪下的多模态人机互动方法，包括以下步骤：改进目标检测Yolov5，增加了MASK自监督模块。具体的，采用卷积结构的自监督机制MASK模块替换自然语言处理中的transformer模块，Focus和自监督结合的方式，掩码机制的设计使得图像可以自监督训练，在数据增强得同时，使得模型拥有了更好的泛化能力；将基于自监督的Yolov5‑MASK目标检测模型与Deep‑SORT相结合，使其更加适应于实际应用的场所；将改进后的Deep‑SORT多目标跟踪算法模型与语音识别相结合；并在VisDrone2021上进行测试；本发明采用多模态的人机互动，提高目标检测跟踪效果，添加语音识别功能，丰富应用场景。

Description

一种自监督多目标跟踪下的多模态人机互动方法

技术领域

本发明属于目标检测技术领域，涉及目标检测方法，具体涉及一种自监督多目标跟踪下的多模态人机互动方法。

背景技术

随着计算机技术和硬件的不断革新和大数据时代的来临，停滞发展很久的计算机视觉技术在近几年逐渐成为了国内外各大科研院所的研究热门，计算机视觉技术中的目标跟踪算法是一项具有挑战性和应用前景的研究方向。目标跟踪旨在只有目标的初始状态(视频帧)的情况下，可以估计未知视觉目标的轨迹。目标跟踪因其研究的开放性和发展性，具有广泛的类别和应用，包括了自动驾驶汽车、视频监控、人群行为分析和无人机侦察等。目标跟踪按照追踪目标数量不同可以分为单目标跟踪(single object tracking，SOT)和多目标跟踪(multiple object tracking，MOT)。

传统的多目标跟踪算法中一般通过手动定义一些规则进行数据关联，深度学习实现了自动化寻找规则，一系列现代检验框架应运而生。这些新的检验框架相比以前在数据关联上面改动最为频繁和效果最好，因为现在有很多多目标跟踪数据集，这些数据集使得算法可以跳过检验阶段，直接在数据关联阶段比较实际性能。从多目标跟踪方法来看，近年来已经有了一批效果较好的算法，例如Yolov5+Deep-SORT，该算法已经应用于了很多领域，但是还存在一些问题，检测效果并不理想，数据集需求量大。从实际应用来看，单一的模态很难实际利用，例如视频的目标跟踪仅仅从视觉的领域解决问题与现实实际的问题解决存在差距。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种自监督多目标跟踪下的多模态人机互动方法，采用多模态的人机互动，提高目标检测跟踪效果，添加语音识别功能，丰富应用场景。

为了实现上述目的，本发明采用以下技术方案予以实现：

一种自监督多目标跟踪下的多模态人机互动方法，包括以下步骤：

步骤一：从视频中获取帧图像；

步骤二：改进目标检测Yolov5，增加了MASK自监督模块：采用卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分，将视频序列输入的帧图像进行掩码处理；

步骤三：采用Focus-MASK替换原有的Focus，实现Focus切片处理和自监督相结合，Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练；

步骤四：通过基于卷积的Cross-Stage-Partial-Network来增强神经网络提取特征性能，采用改进后的backbone神经网络提取视频序列输入的三层不同深度的特征图；

步骤五：将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合：将Yolov5-MASK输出的三层特征图作为输入，在检测到目标时通过卡尔曼滤波对目标轨迹进行预测，采用Mahalanobis距离作为信息间的度量方法，具体公式为：

式(1)中，d_Mahalanobis为检测目标位置与预测目标位置的Mahalanobis距离，x为检测第i个目标框的位置，μ为预测第i个目标的位置，S为两者之间的协方差矩阵；

并且与深度学习相结合，利用目标的外观特征计算目标间的最小余弦距离，然后利用匈牙利算法进行整体规划；通过融合度量的方法，对相同的目标进行串行的判断，当满足全部条件时判断为同一目标；

步骤六：将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合：对收音设备所收集的语音进行语音转文字，然后运用基于深度学习的命名实体识别技术，对语音中关键字进行提取，将提取后的关键字与多目标跟踪技术相结合，对提取的关键字在后台数据库设定特定的指令，实现语音与视频的人机互动；

步骤七：采用VisDrone2021的目标检测数据集作为训练和评估的数据集。

本发明还具有以下技术特征：

优选的，步骤一中所述的自监督机制MASK模块设计为通用模块Focus-MASK，采用全卷积结构。

优选的，步骤三中所述的Focus-MASK结构，在训练阶段，mask ratio为0.15，对输入图像进行遮挡，并对其切片处理；在测试阶段，mask ratio为0，不进行遮挡，可以真实反映算法的检测效果。

进一步的，步骤三中所述的Focus-MASK结构，采取Mask strategy的策略对于输入图像的W、H，设置相同W、H的遮掩图像，该部分设计遮盖输入图像的方式和区域，最终使遮掩后的图像输出，并且作为图像的首次下采样操作，确保图像信息不丢失的情况下，使维度增加。

优选的，步骤五中所述的目标轨迹预测中，若相同目标连续距离大于预测的d_Mahalanobis时，判定两目标不为同一目标，自动进行ID切换。

进一步的，步骤五中为了加快跟踪速度和适应实际场景，设计最大检测帧数为64。

本发明与现有技术相比，具有如下技术效果：

本发明设计了多模态的解决方法，采用了基于自然语言处理的语音识别控制多目标跟踪切换，在大量数据的支持下，直接用神经网络可以从输入的音频或音频对应的特征直接预测出与之对应的单词，而不需要拆分成声学模型和语言模型。将语音识别模型与多目标跟踪模型相结合实现一种自监督多目标跟踪下的多模态人机互动，丰富了未来多目标跟踪模型的应用前景，解决了模态单一，操作复杂的问题；

本发明采用了自监督的方式改进Yolov5检测器，提高了其在复杂场景中的检测效果，在本专利中将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合，以常见的车和人的目标跟踪为例，默认跟踪为全部目标，当模型识别出检测车辆的关键词语音时，画面中只显示车辆的跟踪结果；当模型识别出检测行人的关键词语音时，画面中只显示行人的跟踪结果。

附图说明

图1为目标跟踪流程；

图2为本发明的Focus-MASK结合自监督机制的简单通用模块；

图3为本发明的YOLOv5-MASK的Backbone结构；

图4为本发明的Focus-MASK的具体结构。

具体实施方式

以下结合实施例对本发明的具体内容做进一步详细解释说明。

如图1至图4所示，本实施例给出一种自监督多目标跟踪下的多模态人机互动方法，包括以下步骤：

步骤一：从视频中获取帧图像；

步骤二：改进目标检测Yolov5，增加了MASK自监督模块：采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分，将视频序列输入的帧图像进行掩码处理；Focus和自监督结合的方式，掩码机制的设计使得图像可以自监督训练，在数据增强得同时，使得模型拥有了更好的泛化能力；将视频序列输入的帧图像进行掩码处理，这种方式提高了模型对于图像中小目标的学习能力，防止了小目标容易过拟合的弊端；

步骤三：采用Focus-MASK替换原有的Focus，实现Focus切片处理和自监督相结合，Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练；采取Maskstrategy的策略对于输入图像的W、H，我设置相同W、H的遮掩图像，该部分设计遮盖输入图像的方式和区域，最终使遮掩后的图像输出，并且作为图像的首次下采样操作，确保图像信息不丢失的情况下，使维度增加；

Focus-MASK结构在训练阶段，mask ratio为0.15，对输入图像进行遮挡，并对其切片处理；在测试阶段，mask ratio为0，不进行遮挡，可以真实反映算法的检测效果；

掩码机制的设计使得图像可以自监督训练，在数据增强得同时，使得模型拥有了更好的泛化能力；

步骤四：通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能，采用改进后的backbone神经网络提取视频序列输入的不同深度的特征；如图三所示，分别输出第4，6，9层的特征图，实现了不同深度的特征提取；在保证检测高精度的同时，也减少了计算量；

步骤五：将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合，使其更加适应于实际应用的场所；

DeepSORT是一个基于深度学习的外观特征模型和运动信息模型相关联的跟踪框架；将Yolov5-MASK输出的三层特征图作为输入，在检测到目标时通过卡尔曼滤波对目标轨迹进行预测，采用Mahalanobis距离作为信息间的度量方法，具体公式为，

若相同目标连续距离大于预测的d_Mahalanobis时，判定两目标不为同一目标，自动进行ID切换；其中，d_Mahalanobis为检测目标位置与预测目标位置的Mahalanobis距离，x为检测第i个目标框的位置，μ为预测第i个目标的位置，S为两者之间的协方差矩阵；

并且与深度学习相结合，利用目标的外观特征计算目标间的最小余弦距离，然后利用匈牙利算法进行整体规划，达到了24FPS以上的跟踪速度；为了加快跟踪速度和适应实际场景，设计最大检测帧数为64；

下表显示了外观特征算法流程，其中f(i)时原始信号，f(u)是离线余弦变换后的信号，N是原始信号的个数，c(U)是补偿系数，Reid代表特征提取算法；

通过融合度量的方法，对外观特征模型和运动信息模型的输出计算相似性，对相同的目标进行串行的判断，当满足全部条件时判断为同一目标；

步骤六：将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合；

对收音设备所收集的语音进行语音转文字，然后运用基于深度学习的命名实体识别技术，对语音中关键字进行提取，例如：车、人、5号目标等，将提取后的关键字与多目标跟踪技术相结合，对提取的关键字在后台数据库设定特定的指令，实现了语音与视频的人机互动。

步骤七：采用VisDrone2021的目标检测数据集作为训练和评估的数据集；

VisDrone2021数据集包换了城市中各种场景，具有10个标注目标；本发明的模型都在训练集上训练，测试集上评估。DeepSORT采用通用的osnet_x1_0作为行人重识别模型的权重，可以突出我们设计的检测器的优越，突出跟踪器的改进点。

将本发明的多模态的自监督多目标跟踪方法布置在马路上监控视像头，可以提高监控者的警报准确率和及时性，具体包括以下步骤：

步骤一：从视频中获取帧图像；

步骤二：改进目标检测Yolov5，增加了MASK自监督模块：采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分，将视频序列输入的帧图像进行掩码处理；

步骤四：通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能，采用改进后的backbone神经网络提取视频序列输入的不同深度的特征；如图三所示，分别输出第4，6，9层的特征图；

步骤五：将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合；

将Yolov5-MASK输出的三层特征图作为输入，通过融合度量的方法，对外观特征模型和运动信息模型的输出计算相似性；

在检测到目标时通过卡尔曼滤波对目标轨迹进行预测，采用了Mahalanobis距离作为一种信息间的度量，当距离过远时，自动进行ID切换。并且与深度学习相结合，利用目标的外观特征计算目标间的最小余弦距离，然后利用匈牙利算法进行整体规划，达到了24FPS以上的跟踪速度。为了加快跟踪速度和适应实际场景，设计最大检测帧数为64。

将本发明的多模态的自监督多目标跟踪方法布置在智能机器人上，可以提高人与智能机器人之间的协同，通过人类的语言控制智能机器人识别和跟踪特定物体，具体包括以下步骤：

步骤一：从视频中获取帧图像；

步骤五：将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合；

Claims

1.一种自监督多目标跟踪下的多模态人机互动方法，其特征在于，包括以下步骤：

步骤一：从视频中获取帧图像；

2.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法，其特征在于，步骤一中所述的自监督机制MASK模块设计为通用模块Focus-MASK，采用全卷积结构。

3.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法，其特征在于，步骤三中所述的Focus-MASK结构，在训练阶段，mask ratio为0.15，对输入图像进行遮挡，并对其切片处理；在测试阶段，mask ratio为0，不进行遮挡，可以真实反映算法的检测效果。

4.如权利要求3所述的自监督多目标跟踪下的多模态人机互动方法，其特征在于，步骤三中所述的Focus-MASK结构，采取Mask strategy的策略对于输入图像的W、H，设置相同W、H的遮掩图像，该部分设计遮盖输入图像的方式和区域，最终使遮掩后的图像输出，并且作为图像的首次下采样操作，确保图像信息不丢失的情况下，使维度增加。

5.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法，其特征在于，步骤五中所述的目标轨迹预测中，若相同目标连续距离大于预测的d_Mahalanobis时，判定两目标不为同一目标，自动进行ID切换。

6.如权利要求5所述的自监督多目标跟踪下的多模态人机互动方法，其特征在于，步骤五中为了加快跟踪速度和适应实际场景，设计最大检测帧数为64。