CN116977935A

CN116977935A - 一种融合语义信息行人流量计数方法

Info

Publication number: CN116977935A
Application number: CN202310974997.XA
Authority: CN
Inventors: 刘宏哲; 孙吉武; 徐成; 徐歆恺; 代松银; 徐冰心; 潘卫国
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-10-31

Abstract

本发明提出一种融合语义信息行人流量计数方法，包括：采集行人流量的数据信息；对所述数据信息进行目标检测，并记录目标检测信息；基于所述目标检测信息，通过RMOT和ByteTrack进行目标跟踪；对目标跟踪结果进行阈值分组，并基于所述目标跟踪结果对目标在当前帧的位置进行预测，获取目标轨道；将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联，基于关联结果进行计数。本发明能在目标检测框获得低置信度时也对其进行轨迹匹配操作，去除掉低置信度检测框中真正的背景信息，并根据准确的跟踪结果进行计数工作。

Description

一种融合语义信息行人流量计数方法

技术领域

本发明属于机器视觉、视频图像处理技术领域，尤其涉及一种融合语义信息行人流量计数方法。

背景技术

行人流量计数系统是一种用于统计行人数量和行人运动轨迹的系统，广泛应用于商场、公共交通、旅游景点等场所。其所需要的技术主要包含视频图像处理技术和深度学习技术。

视频图像处理技术：行人流量计数系统主要通过视频监控摄像头获取行人的图像信息，经过视频图像处理技术对图像进行预处理和分析，从而实现对行人的检测、跟踪和计数等功能。视觉算法中广泛应用的技术包括特征提取、目标检测、目标跟踪、运动估计等。

深度学习技术：为了提高行人检测和跟踪的准确率，行人流量计数系统使用了各种深度学习技术。常用的机器学习算法包括支持向量机、决策树、随机森林等；而深度学习算法则主要使用卷积神经网络(CNN)和循环神经网络(RNN)。这些技术不仅可以提高系统性能，还可以实现更多的功能，如姿态识别、性别识别、年龄识别等。

其中多目标跟踪技术是一个极其关键的环节，该技术根据目标检测后的结果，结合跟踪目标的特征相似度进行级联匹配，为每一个目标分配独有的ID并生成目标轨迹。目标跟踪技术的应用存在诸多难题和挑战。大多传统方法仅对在目标检测中的到高置信度的检测框分配ID，而将置信度低于阈值的检测框丢弃，这可能会导致真正的目标丢失和产生碎片化的轨迹。如何保留低置信度目标检测框恢复真实目标并过滤掉背景检测是当前急需解决的问题。

因此，本发明基于ByteTrack提出了结合所有检测框并融合语义信息进行目标跟踪的行人流量计数方法。

发明内容

为解决上述技术问题，本发明提出一种融合语义信息行人流量计数方法，在目标检测框获得低置信度时也对其进行轨迹匹配操作，去除掉低置信度检测框中真正的背景信息，并根据准确的跟踪结果进行计数工作。

为实现上述目的本发明提出了一种融合语义信息行人流量计数方法，包括：

采集行人流量的数据信息；

对所述数据信息进行目标检测，并记录目标检测信息；

基于所述目标检测信息，通过RMOT和ByteTrack进行目标跟踪；

对目标跟踪结果进行阈值分组，并基于所述目标跟踪结果预测对目标在当前帧的位置进行预测，获取目标轨道；

将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联，基于关联结果进行计数。

可选地，对所述数据信息进行目标检测包括：

对包含目标的图像数据集进行标注；其中，标注内容包括：目标类别、边框位置和目标尺寸；

基于标注后的数据集对YOLOv6模型进行训练；

基于训练后的所述YOLOv6模型，进行目标检测。

可选地，记录所述目标检测信息包括：记录目标位置信息、目标尺寸信息和边界框置信度；

记录所述目标位置信息包括：记录目标的像素坐标、边界框位置和中心点位置；

记录所述目标尺寸信息包括：记录目标的宽度和高度；

记录所述边界框置信度包括：为检测到的每个目标分配一个边界框，并为每个边界框分配一个置信度得分。

可选地，通过RMOT和ByteTrack进行目标跟踪包括：

利用RMOT进行目标跟踪，获取目标的位置和运动状态；在RMOT中使用早期融合模块来整合可变形编码器层之前的视觉和语言特征，给定第i层特征图使用1×1卷积将其通道数减少到d＝128，并将其展平为二维张量/>W_i和H_i分别为第i层特征图的宽和高；并使用全连接层将语言特征投影到/>中，三个独立的全连接层将视觉和语言特征转换为Q、K和V：

其中W是权重，P^V和P^L是视觉和语言特征的位置嵌入；

在K和V上做矩阵积，并使用生成的相似度矩阵对语言特征进行加权，即d为特征维数，然后将原始的视觉特征与语言特征相加，形成融合特征/>

在融合两个模态后使用一堆可变形的编码器层来促进跨模态交互：

其中编码为跨模态嵌入，便于后续解码器的引用预测；

设表示第t-1帧的解码器嵌入，利用自注意前馈网络将其进一步转化为第t帧的轨迹查询，即/>部分N解码器嵌入对应于空目标或退出的目标，因此过滤掉他们并仅保留N个真实嵌入，以根据其类分数生成跟踪查询/>令表示检测查询，该查询是为检测新出现目标而随机初始化；将这两种查询被连接在一起并输入到解码器中以学习目标表示D_t：

其中，输出嵌入次数为N_t，包括跟踪对象和检测对象，得到目标的位置和运动状态；

将目标的位置和运动状态输入所述ByteTrack，使用ByteTrack算法对视频中的目标进行实时跟踪，以获得目标的位置和运动信息。

可选地，对目标跟踪结果进行阈值分组包括：

预设置信度阈值τ；

基于所述边界框置信度对所述数据信息中的每一帧所有的检测框进行划分，检测框的置信度大于等于阈值τ的，将检测框存入到高分检测框D_high中，检测框的置信度小于阈值τ的，将检测框存入低分检测框D_low中。

可选地，对目标在当前帧的位置进行预测包括：

初始化：在跟踪开始时，为目标检测获得的每个目标轨道T初始化卡尔曼滤波器；其中，所述卡尔曼滤波器包括状态向量、状态转移矩阵、观测矩阵、协方差矩阵；其中，所述状态向量表示目标在当前帧的状态，包括位置、速度等信息；所述状态转移矩阵表示目标状态的演化规律；所述观测矩阵表示目标在当前帧的观测值；所述协方差矩阵表示状态向量和观测值的误差协方差；

预测：所述卡尔曼滤波器根据当前帧的所述状态向量和所述状态转移矩阵预测目标在下一帧的状态，并估计预测状态的所述协方差矩阵；

更新：在下一帧中，会观测到目标的位置，观测值用所述观测矩阵表示；卡尔曼滤波器会根据所述观测矩阵和观测值对预测状态进行修正，从而得到状态估计；

循环：在下一帧中，利用更新后的所述状态向量和所述状态转移矩阵对目标在下一帧的状态进行预测，并重复上述步骤直到跟踪结束。

可选地，将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联包括：

在所述高分检测框D_high和所有轨道T之间进行第一次关联，并将不匹配的轨迹保留；

在所述低分检测框D_low和保留的不匹配的轨迹之间进行第二次关联；

基于两次关联结果完成所述轨迹关联。

可选地，在所述高分检测框D_high和所有轨迹T之间进行第一次关联包括：

检测所述高分检测框D_high和轨迹T的预测框之间的IoU；

所述IoU：

其中，area_inter表示预测框与真实框的交集，area_union表示预测框与真实框的并集；

使用匈牙利算法根据所述IoU，完成匹配，将不匹配的检测保留在D_remain中，在T_remain中保留不匹配的轨迹。

可选地，在所述低分检测框D_low和保留的不匹配的轨迹之间进行第二次关联包括：

检测所述低分检测框D_low和保留的不匹配的轨迹的预测框之间的所述IoU；

使用匈牙利算法根据所述IoU，完成匹配，将仍然未匹配到检测框的轨迹保留在T_re-remain中，对于T_re-remain中的每个轨迹，当轨迹存在超过预设帧数时，从轨迹中删除，并删除仍未匹配到轨迹的低分检测框D_low。

与现有技术相比，本发明具有如下优点和技术效果：

1、通过使用RMOT进行强大的跨模态学习，解决了现有引用理解任务中的限制，并提供了多对象和临时状态变化的环境。

2、为解决仅保留高分检测框而导致的不可忽略的真正目标缺失和轨迹碎片化的问题，使用ByteTrack通过关联几乎所有的检测框来进行跟踪，而不是仅仅关联得分高的检测框，利用其与tracklet的相似性来恢复真实目标并过滤掉背景检测框。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的整体流程示意图；

图2为本发明实施例的RMOT的整体架构示意图；

图3为本发明实施例的实验结果展示示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例提供了一种融合语义信息行人流量计数方法，包括以下步骤：

步骤一，安装固定摄像头以实现对目标区域的监控并采集数据信息。

具体的，在需要进行行人流量计数的区域安装好摄像头，比如步行街入口处，摄像头的安装需要保证其监控范围能够完全覆盖所要进行行人流量计数的区域，以便保证能够采集到完整的视频信息，实现对行人数量的准确计数。

步骤二，训练YOLOv6模型以实现目标检测。

具体的，使用YOLOv6算法对数据集进行训练，以实现对目标检测任务的解决。该步骤需要进行以下子步骤：数据准备、模型训练、模型评估、模型应用。

步骤2-1数据准备：首先需要准备包含目标的图像数据集，并对其进行标注。标注通常是指在图像中标记出目标的位置和类别，对于YOLOv6模型，标注通常采用COCO格式，其中包含目标类别、边框位置、目标尺寸等信息。

步骤2-2模型训练：需要使用准备好的数据集对YOLOv6模型进行训练。训练过程通常包括模型初始化、前向传播、反向传播、梯度更新等步骤。在训练过程中，需要选择合适的超参数、损失函数、优化器等，以提高模型的精度和泛化能力，本发明实验的batchsize设置为32，初始学习率设为10^-3，权值衰减为5×10^-4，优化器采用SGD。整体损失函数为：

其中，L_cls为用于分类的加权焦点损失，L₁和广义IoU是损失L_iou用于bounding box回归，λ_iou与λ_L1为正则化参数。训练过程需要在GPU上进行，以提高训练速度和效率。

步骤2-3模型评估：训练完成后，需要对模型的性能进行评估。一般可以用准确度(Accuracy,Acc)、精度(Precision)、召回率(Recall)、平均精度均值(mAP)等。评估可以通过交叉验证、测试集验证等方式进行。评估结果可以用于调整模型参数、改进训练数据等，以提高模型的性能和泛化能力。本发明实验在目标跟踪过程中所用到的主要评估指标为Acc、Precision和Reacll。

步骤2-4模型应用：将训练好的模型应用于下游任务，在本发明中下游任务是多目标跟踪及行人流量计数。

步骤三，记录目标检测信息。

具体的，将目标检测任务的输入图像和输出结果记录下来，以便后续的分析和应用。该步骤要求记录图像的基本信息，以及检测结果的信息，本发明实验所记录信息主要以下几个方面：

1、目标位置信息：记录目标在视频中的精确位置信息，通过记录目标的像素坐标、边界框位置、中心点位置等方式实现；

2、目标尺寸信息：记录目标的尺寸大小，通过记录目标的宽度、高度等实现；

3、边界框置信度：对于检测到的每个目标，为其分配一个边界框(bounding box)，并为每个边界框分配一个置信度得分，这个置信度得分是通过目标检测算法(本发明实验所用的算法为YOLOv6)的输出得到的。

步骤四：通过RMOT和ByteTrack进行目标跟踪。

此步骤将RMOT和ByteTrack融合使用。通过将RMOT和ByteTrack融合使用，可以充分利用它们各自的优点，实现更准确、更高效的目标跟踪。RMOT核心思想是使用语言表达作为语义线索来指导多对象跟踪的预测。它可以解决先前任务只能检测单个文本指向对象的问题，使得任务更加接近真实环境。同时，它还可以处理多目标场景，可以预测任意数量的参考目标在视频中的位置。ByteTrack是基于tracking-by-detection范式的跟踪方法。利用检测框和跟踪轨迹之间的相似性，在保留高分检测结果的同时，从低分检测结果中去除背景，挖掘出真正的物体(遮挡、模糊等困难样本)，从而降低漏检并提高轨迹的连贯性。

先利用RMOT进行目标跟踪，可以得到目标的位置和运动状态等信息。具体来说，RMOT可以通过比较目标与参考点之间的距离和方向来确定目标的位置和运动状态。然后可以将RMOT得到的目标位置和状态信息作为输入，利用ByteTrack进行目标检测和跟踪。通过利用RMOT的到的目标位置和状态信息，可以帮助ByteTrack更快速、更准确地检测和跟踪目标，同时可以不断将新的跟踪结果传递给RMOT进行在线实例化和更新。

具体的，Referring Multi-Object Tracking(RMOT，参考多目标跟踪可以融合语义信息对特定目标进行准确跟踪，其总体框架如附图2所示。ByteTrack算法在跟踪过程中，结合了深度学习和传统的图像处理技术，具有较强的鲁棒性和实时性。

步骤4-1：RMOT中使用早期融合模块来整合可变形编码器层之前的视觉和语言特征，给定第i层特征图使用1×1卷积将其通道数减少到d＝128，并将其展平为二维张量W_i和H_i分别为第i层特征图的宽和高。为保留与视觉特征相同的通道，使用全连接层将语言特征投影到/>中，三个独立的全连接层将视觉和语言特征转换为Q、K和V：

其中W是权重，P^V和P^L是视觉和语言特征的位置嵌入。

步骤4-2：在K和V上做矩阵积，并使用生成的相似度矩阵对语言特征进行加权，即d为特征维数，然后将原始的视觉特征与语言特征相加，形成融合特征/>

步骤4-3：在融合两个模态后使用一堆可变形的编码器层来促进跨模态交互：

其中编码为跨模态嵌入，便于后续解码器的引用预测。

步骤4-4：设表示第t-1帧的解码器嵌入，利用自注意前馈网络(FFN)将其进一步转化为第t帧的轨迹查询，即/>部分N解码器嵌入对应于空目标或退出的目标，因此过滤掉他们并仅保留N个真实嵌入，以根据其类分数生成跟踪查询令/>表示检测查询，该查询是为检测新出现目标而随机初始化。在实践中这两种查询被连接在一起并输入到解码器中以学习目标表示D_t：

其中，输出嵌入次数为N_t，包括跟踪对象和检测对象。

步骤4-5：使用ByteTrack算法对视频中的目标进行实时跟踪，以获得目标的位置和运动信息。根据用户提供视频流作为输入，对视频中的目标进行连续的跟踪，跟踪完成后，用户可以获取目标的位置、大小、运动轨迹等信息，以及对目标进行状态分析和预测。

步骤五：根据检测框置信度是否大于阈值进行分组。

具体的，首先，需要设定一个置信度阈值τ，本发明中将置信度设置为τ＝0.5，根据步骤三中所获得置信度信息对于视频中的每一帧所有的检测框进行划分，即检测框的置信度大于等于阈值τ的，将其存入到高分检测框D_high中，检测框的置信度小于阈值τ的，将该检测框存入低分检测框D_low中。这一步可以帮助我们对目标检测结果进行筛选和分类，从而提高检测的准确性和效率。

步骤六：通过卡尔曼滤波器预测每个轨道T在当前帧的新位置：卡尔曼滤波算法是一种基于状态空间模型的滤波算法，具有较高的预测精度和鲁棒性，可以应用于多种不同的控制和预测问题。使用卡尔曼滤波算法对目标在当前帧的位置进行预测，该步骤的输入包括目标在之前帧的位置和速度信息，以及当前帧的观测数据，卡尔曼滤波器会使用上述信息，对目标在当前帧的位置和速度进行预测，并给出预测值和误差范围。

具体的，通过卡尔曼滤波器预测每个轨道T在当前帧的新位置的过程如下：

1、初始化：在跟踪开始时，为每个目标轨道T初始化卡尔曼滤波器。卡尔曼滤波器包括状态向量、状态转移矩阵、观测矩阵、协方差矩阵等组成部分。其中，状态向量表示目标在当前帧的状态，包括位置、速度等信息；状态转移矩阵表示目标状态的演化规律；观测矩阵表示目标在当前帧的观测值；协方差矩阵表示状态向量和观测值的误差协方差；其中，目标轨道T是由步骤二的目标检测算法得到的，目标检测算法会在视频帧中检测出可能是目标的区域，然后根据这些区域推断出每个目标在当前帧的位置、大小等信息。

2、预测：在跟踪过程中，卡尔曼滤波器会根据状态向量和状态转移矩阵预测目标在下一帧的状态。具体而言，卡尔曼滤波器会根据当前帧的状态向量和状态转移矩阵预测目标在下一帧的状态，并估计预测状态的协方差矩阵；

3、更新：在下一帧中，会观测到目标的位置，这个观测值可以用观测矩阵表示。卡尔曼滤波器会根据观测矩阵和观测值对预测状态进行修正，从而得到更精确的状态估计；

4、循环：在下一帧中，利用更新后的状态向量和状态转移矩阵对目标在下下一帧的状态进行预测，并重复上述步骤直到跟踪结束。

通过卡尔曼滤波器预测每个轨道T在当前帧的新位置可以帮助我们实现目标跟踪。

步骤七：采用匈牙利算法进行匹配，保存并显示跟踪结果：使用匈牙利算法对多个目标的轨迹进行匹配，并将匹配结果保存和显示。该步骤要求输入多个目标的轨迹数据，通过使用匈牙利算法对轨迹进行匹配，得到每个目标的唯一标识符。匈牙利算法是一种基于图论的算法，可以在多个目标之间进行最优匹配，具有较高的匹配精度和效率。匹配完成后，可以将匹配结果保存到数据库等存储介质中，以便后续的分析和应用。同时，通过可视化工具，将跟踪结果进行显示，以便人工检查和验证。

步骤八：将检测框与轨迹进行关联：根据步骤一到七，本发明的关联方法可分为两阶段进行轨迹关联。

步骤8-1：第一次关联在高分检测框D_high和所有轨道T(包括丢失的轨道T_lost)之间执行。可通过检测框D_high和轨迹T的预测框之间的IoU来计算，IoU的计算方式如下：

其中area_inter表示预测框与真实框的交集，area_union表示预测框与真实框的并集。

然后采用步骤七提到的匈牙利算法根据相似度完成匹配，将不匹配的检测保留在D_remain中，在T_remain中保留不匹配的轨迹。

其中，利用匈牙利算法根据相似度完成匹配包括：

在计算了目标检测中两个物体框之间的IoU，并将它们表示为相似度矩阵后，可以将其作为匈牙利算法的输入，以找到最佳的匹配。

匈牙利算法的核心是产生尽可能多的目标与轨迹的匹配对，以下是使用匈牙利算法完成目标检测中物体框匹配的步骤：

(1)将所有物体框按照相似度从高到低排序；

(2)从相似度矩阵中选择相似度最高的物体框，将其与其对应的目标进行匹配；

(3)从矩阵中删除已匹配的目标和物体框，并将其余未匹配的目标和物体框的相似度减去相应的行和列的最小值；

(4)重复(2)和(3)，直到所有物体框都被匹配为止。

最终，匈牙利算法将返回一组匹配的目标检测框。如果存在未匹配的目标或物体框，则可以考虑将它们视为新的目标或物体框，或者将它们忽略不计。

步骤8-2：第二次关联是在低分检测框D_low和步骤8-1之后剩余的轨迹T_remain之间执行的。将仍然未匹配到检测框的轨迹保留在T_re-remain中，对于T_re-remain中的每个轨迹，只有当其存在超过一定帧数(本实施例设定为40帧)时，才从轨迹中删除它。删除仍未匹配到轨迹的低分检测框，因为将其视为背景，不包含任何目标信息。因为低分检测框通常包含严重的遮挡或运动模糊，外观特征不可靠，所以在此步骤中单独使用IoU作为相似度很重要。

步骤8-3：通过计算MOTA和IDF1等值对跟踪结果进行评估，其计算方式如下所示：

其中，FN为False Negative(假负例)，整个视频漏报数量之和；FP为FalsePositive(假正例)，整个视频误报数量之和；IDSW为ID Switch(ID切换总数，误配)，整个视频误配数量之和；GT是Ground Truth物体的数量，整个视频GT数量之和。IDTP、IDFP和IDFN分别为真正ID数、假正ID数和假负ID数。

经过步骤1-8之后，本实例实现了目标跟踪功能。步骤9通过在视频区域中设置计数区域和相应的计数规则，根据每一帧中目标跟踪的结果，以获得行人的运动信息(运动轨迹和方向等)，由此判断行人是否通过计数区域，然后根据判断行人的行进方向在相应的计数栏中将数值进行增加。

步骤九：设置计数区域和计数规则并统计流量情况：

具体的，根据实际情况选择一个合适的区域作为计数区域，本发明实验选择的计数区域是在步行街入口处，且将计数区域设置成长方形。如附图3所示，在视频监控的范围内设定两条范围线。在设置计数区域后，需要进一步设置计数规则。计数规则通常包括进出方向和计数方式等，本实施例的计数规则设置为：如果行人先经过浅色区域再经过白色区域，则将进入(或上行)人数加一，相反则将退出(或下行)人数加一。在设置计数区域和计数规则后，利用上述步骤中提到的图像处理算法对计数区域内的人或车进行检测和跟踪，然后根据计数规则进行流量统计，将结果动态显示在视频的右上角以便实时掌握当前区域的人员流动情况。

本实施例的创新点在于：

通过ByteTrack和融合语义信息进行目标跟踪，以获得准确的跟踪结果便于后续进行行人计数；

将ByteTrack的检测器换成表征能力更强、检测速度更快和AP精度更高的YOLOv6网络；

将用于融合语义信息的神经网络的backbone从ResNet50更改为DenseNet。DenseNet与ResNet的基本思路相同，但它建立了前面所有层与后面层之间的密集连接(dense connection)，通过在通道上连接特征来实现特征重用(feature reuse)。这些特点使得DenseNet可以在参数更少、计算成本更低的情况下实现比ResNet更优秀的性能。

经实验证明，本实施例取得了MOTA值为0.764、IDF1值为0.806的结果，并经过人工计数与系统计数方式对目标视频进行行人流量计数，对比发现本发明取得与人工计数相同的流量结果，证明本发明方法可以取代人工计数方式，提高行人计数效率，以有助于管理人员更加及时地对不同人流情况做出不同的应对状态。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种融合语义信息行人流量计数方法，其特征在于，包括：

采集行人流量的数据信息；

对所述数据信息进行目标检测，并记录目标检测信息；

基于所述目标检测信息，通过RMOT和ByteTrack进行目标跟踪；

对目标跟踪结果进行阈值分组，并基于所述目标跟踪结果对目标在当前帧的位置进行预测，获取目标轨道；

2.根据权利要求1所述的融合语义信息行人流量计数方法，其特征在于，对所述数据信息进行目标检测包括：

基于标注后的数据集对YOLOv6模型进行训练；

基于训练后的所述YOLOv6模型，进行目标检测。

3.根据权利要求1所述的融合语义信息行人流量计数方法，其特征在于，记录所述目标检测信息包括：记录目标位置信息、目标尺寸信息和边界框置信度；

记录所述目标尺寸信息包括：记录目标的宽度和高度；

4.根据权利要求1所述的融合语义信息行人流量计数方法，其特征在于，通过RMOT和ByteTrack进行目标跟踪包括：

利用RMOT进行目标跟踪，获取目标的位置和运动状态；在RMOT中使用早期融合模块来整合可变形编码器层之前的视觉和语言特征，给定第i层特征图使用1×1卷积将其通道数减少到d＝128，并将其展平为二维张量/>W_i和H_i分别为第i层特征图的宽和高；并使用全连接层将语言特征投影到/>中，三个独立的全连接层将视觉和语言特征转换为Q、K和V，其表示如下：

其中W是权重，P^V和P^L是视觉和语言特征的位置嵌入；

其中编码为跨模态嵌入，便于后续解码器的引用预测；

设表示第t-1帧的解码器嵌入，利用自注意前馈网络将其进一步转化为第t帧的轨迹查询，即/>部分N解码器嵌入对应于空目标或退出的目标，因此过滤掉他们并仅保留N个真实嵌入，以根据其类分数生成跟踪查询/>令/>表示检测查询，该查询是为检测新出现目标而随机初始化；将这两种查询被连接在一起并输入到解码器中以学习目标表示D_t：

5.根据权利要求3所述的融合语义信息行人流量计数方法，其特征在于，对目标跟踪结果进行阈值分组包括：

预设置信度阈值τ；

6.根据权利要求1所述的融合语义信息行人流量计数方法，其特征在于，对目标在当前帧的位置进行预测包括：

7.根据权利要求5所述的融合语义信息行人流量计数方法，其特征在于，将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联包括：

基于两次关联结果完成所述轨迹关联。

8.根据权利要求7所述的融合语义信息行人流量计数方法，其特征在于，在所述高分检测框D_high和所有轨道T之间进行第一次关联包括：

检测所述高分检测框D_high和轨迹T的预测框之间的IoU；

所述IoU：

9.根据权利要求8所述的融合语义信息行人流量计数方法，其特征在于，在所述低分检测框D_low和保留的不匹配的轨迹之间进行第二次关联包括：