CN117953015A

CN117953015A - 基于视频超分辨率多行人跟踪方法、系统、设备及介质

Info

Publication number: CN117953015A
Application number: CN202410347796.1A
Authority: CN
Inventors: 卢涛; 吕正; 孙志宏; 张彦铎; 吴梓毅; 王依伊; 殷周锋; 徐爱波
Original assignee: Wuhan Institute of Technology; Hubei University of Arts and Science; Naval University of Engineering PLA
Current assignee: Wuhan Institute of Technology; Hubei University of Arts and Science; Naval University of Engineering PLA
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30

Abstract

本发明公开了基于视频超分辨率多行人跟踪方法、系统、设备及介质，涉及超分辨率领域以及多目标跟踪领域技术领域，方法包括：获取检测区域的视频，对视频进行视频帧插值及超分辨率处理，对每一帧进行目标检测得到检测框，对重叠度满足条件的检测框进行融合；提取检测框的可见区域标签，根据可见区域标签计算当前帧的检测框和前一帧的检测框的特征距离，将特征距离经过匈牙利算法计算得到最终结果，将最终结果整合输出得到行人轨迹。本发明融合了不同视觉任务，能够实现多视觉任务的相互促进，提高了检测与跟踪的性能，解决了多行人跟踪在低质量成像场景下视频帧模糊难以处理、漏检和误检高概率等问题。

Description

基于视频超分辨率多行人跟踪方法、系统、设备及介质

技术领域

本发明涉及超分辨率领域以及多目标跟踪领域技术领域，尤其涉及基于视频超分辨率多行人跟踪方法、系统、设备及介质。

背景技术

多目标跟踪作为计算机视觉领域中层任务，实际研究价值巨大应用前景广泛，如在安防监控、军事、自动驾驶和生命医学等领域。多目标跟踪的任务是输入一段视频，将视频中目标的运动轨迹作为输出，并保持其目标身份。在多目标跟踪中行人跟踪应用场景更加广泛，因此多行人跟踪成为多目标跟踪领域的主流方向。

受成像系统的限制和环境光照等影响，使得多目标跟踪的视频质量差，可能导致目标边缘模糊、颜色失真或者背景噪音，这些因素都使得目标的准确辨识和跟踪变得异常困难，模糊的边缘和失真的颜色可能导致目标的特征提取受到干扰，使算法难以确定目标的精确位置和轨迹。此外，背景噪音可能被错误地识别为目标，引发误检或混淆目标标识，不仅降低了多目标跟踪的准确率，还增加了计算量。因此，提高成像质量以减少噪音和增强目标特征成为至关重要的任务，以确保多目标跟踪系统能够在复杂环境中有效地执行其功能。

视频超分辨率的目的是在根据已有的低分辨率视频序列生成具有真实细节和内容连续的高分辨率视频序列，参考文献：Jiang J J， Cheng H， Li Z Y， Liu X M andWang Z Y. 2023. Deep learning based video-related super-resolution technique：a survey.Journal of Image and Graphics，28（07）：1927-1964，用于提高视频画面的分辨率和质量，它通过利用视频中的空间和时间相关性来增加图像细节和清晰度。得益于深度学习技术的不断发展，视频超分辨率算法通过神经网络在性能上取得了显著进步，充分融合视频时空信息可以快速高效地恢复真实且自然的纹理，大大提高成像质量低的视频质量。主要思想是利用视频中的时间相关性和帧间信息，通过对连续帧之间的空间和时间关系建模，视频超分辨率算法可以根据低分辨率帧之间的共享信息生成高分辨率帧。视频超分辨率技术作为计算机视觉领域的低级任务，有着广泛的应用前景，在卫星遥感侦测、视频监控和医疗影像等方面发挥着关键作用，可以为目标检测、目标跟踪等任务提供技术支持。

近年来，基于检测跟踪框架的多行人跟踪已然成为多行人跟踪主流，参考文献： Zhihong Sun, Jun Chen. A Survey of Multiple Pedestrian Tracking Based on Tracking-by-Detection Framework. IEEE DOI 10.1109/TCSVT.2020.3009717。基于检测跟踪框架的原理是首先对视频每一帧中的行人进行检测，然后提取行人的外观特征进行数据关联并形成最终的运动轨迹。多行人跟踪的性能极大的依赖检测性能，但是在监控场景中，视频成像质量低而且存在频繁遮挡，导致被遮挡的行人检测框容易受到其他冗余信息的干扰，因此，在低质量视频场景下，难以准确地表达目标的身份特征，从而导致跟踪算法产生漏检和误检的问题，无法精确进行数据关联，导致多行人跟踪准确度的降低。因此针对低质量视频场景的行人身份特征表达对于多行人跟踪准确率来说具有十分重要作用。视频超分辨率与多目标跟踪都是对视频序列的研究，两种研究都考虑了时空信息和帧间信息，在一定程度上两者可以相互借鉴，而且通过视频超分辨率对视频流处理后，可以大大提高视频质量，多目标跟踪算法可以更准确地检测和跟踪监控视频中的目标，帮助实现更精确的行为分析和事件检测。

目前多行人跟踪大多都是在解决遮挡问题，参考文献：Liu H, Chang F. A novelmulti-object tracking method based on main-parts model[C]// Proceedings ofthe Chinese Control And Decision Conference. IEEE, 2017: 4569-4573提出一种基于主要部件的多目标跟踪方法，作者认为当行人某个部件被遮挡后，随着时间的推移，如果外观变化较小的部件，作者认为其为主要部件；对于外观变化较大，则认为其被遮挡。而且视频超分辨率技术也没有对特殊场景进行深入探析。参考文献：Yi-Hsin Chen , Yen-YuLin. MoTIF: Learning Motion Trajectories with Local Implicit Neural Functionsfor Continuous Space-Time Video Super-Resolution . In IEEE/CVF Conference onComputer Vision and Pattern Recognition (CVPR), 2023提出使用时空隐式神经函数(STINF)以运动轨迹的形式学习自然场景下像素的前向运动。虽然这些方法在一定程度上都促进了该领域的发展，但没有考虑将不同的计算机视觉任务进行联合，以实现视觉任务相互促进。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供了基于视频超分辨率多行人跟踪方法、系统、设备及介质，具体如下：

1）第一方面，本发明提供一种基于视频超分辨率多行人跟踪方法，具体技术方案如下：

S1，获取针对检测区域的包含至少一个行人的待处理的第一视频，对所述第一视频进行视频帧插值操作，得到第二视频，对所述第二视频进行超分辨率重建操作，得到第三视频；

S2，对所述第三视频中的每一帧图像进行目标检测，得到每一帧图像对应的多个原始检测框；计算当前帧图像中每两个原始检测框之间的重叠度，将该帧图像中满足第一预设条件的重叠度对应的两个原始检测框进行融合，得到该帧图像对应的至少一个处理后检测框；

S3，对该帧图像中的每个处理后检测框进行特征提取，得到每个处理后检测框对应的可见区域标签；

S4，根据当前帧图像中的每个处理后检测框与当前帧图像对应的前一帧图像中的任一处理后检测框组成检测框对，根据所述检测框对对应的可见区域标签对计算所述检测框对的特征距离，将满足第二预设条件的所述特征距离对应的检测框对进行关联，得到一阶段关联结果，根据匈牙利算法对所述一阶段关联结果进行计算得到二阶段关联结果；

S5，根据所述二阶段关联结果，得到行人轨迹。

本发明提供的一种基于视频超分辨率多行人跟踪方法的有益效果如下：

与现有技术相比，本发明融合了不同视觉任务，以实现多视觉任务的相互促进，大大提高了检测与跟踪的性能，设计的检测框融合策略可以减少冗余的检测框，可以消除原始检测结果中误检问题，并提高目标检测的准确性和鲁棒性。利用视频的时序信息进行高质量的视频图像重建，改善视频成像质量，在一定程度上还可以定位行人身份信息，便于实现行人轨迹跟踪，得到高质量视频帧后，检测器的检测框精度大大提高，提取检测框特征对行人进行身份特征表达，接着对行人进行数据关联，通过计算运动、位置和外观，采用匈牙利算法进行数据关联，可以有效地适应外观模型和提升识别准确度。

在上述方案的基础上，本发明还可以做如下改进。

进一步，所述S1具体为：

S101，获取所述第一视频中的每一帧图像，将相邻的两帧图像作为参考帧对，根据前向翘曲算法对所述参考帧对进行计算，得到所有参考帧对对应的目标帧；

S102，将每个目标帧插入到该目标帧对应的参考帧对对应的两帧图像之间，得到所述第二视频；

S103，根据局部隐式神经函数对所述第二视频进行超分辨率重建操作，得到所述第三视频。

采用上述方案的有益效果如下：

以视频超分辨率技术作为预处理，解决了多行人跟踪在低质量成像场景下视频帧模糊难以处理、漏检和误检高概率等问题。设计的特征提取和数据关联，简单有效，使得本发明在实际工程中实现更加容易，提高了工程效率。

进一步，所述S3具体为：

S301，将每个处理后检测框根据第三预设条件分割成N块区域；

S302，根据CNN算法对N块区域中的每块区域进行特征提取，得到每块区域对应的关键点数量；

S303，根据所述关键点数量计算得到每个处理后检测框对应的可见区域标签。

进一步，所述二阶段关联结果包括：

关联成功的检测框对、未关联到当前帧图像中的处理后检测框和未关联到当前帧图像对应的前一帧图像中的处理后检测框。

2）第二方面，本发明还提供一种基于视频超分辨率多行人跟踪系统，具体技术方案如下：

视频模块，用于获取针对检测区域的包含至少一个行人的待处理的第一视频，对所述第一视频进行视频帧插值操作，得到第二视频，对所述第二视频进行超分辨率重建操作，得到第三视频；

检测模块，用于对所述第三视频中的每一帧图像进行目标检测，得到每一帧图像对应的多个原始检测框；计算当前帧图像中每两个原始检测框之间的重叠度，将该帧图像中满足第一预设条件的重叠度对应的两个原始检测框进行融合，得到该帧图像对应的至少一个处理后检测框；

标签模块，用于对该帧图像中的每个处理后检测框进行特征提取，得到每个处理后检测框对应的可见区域标签；

关联模块，用于根据当前帧图像中的每个处理后检测框与当前帧图像对应的前一帧图像中的任一处理后检测框组成检测框对，根据所述检测框对对应的可见区域标签对计算所述检测框对的特征距离，将满足第二预设条件的所述特征距离对应的检测框对进行关联，得到一阶段关联结果，根据匈牙利算法对所述一阶段关联结果进行计算得到二阶段关联结果；

轨迹模块，用于根据所述二阶段关联结果，得到行人轨迹。

在上述方案的基础上，本发明还可以做如下改进。

进一步，所述视频模块具体用于：

获取所述第一视频中的每一帧图像，将相邻的两帧图像作为参考帧对，根据前向翘曲算法对所述参考帧对进行计算，得到所有参考帧对对应的目标帧；

将每个目标帧插入到该目标帧对应的参考帧对对应的两帧图像之间，得到所述第二视频；

根据局部隐式神经函数对所述第二视频进行超分辨率重建操作，得到所述第三视频。

进一步，所述标签模块具体用于：

将每个处理后检测框根据第三预设条件分割成N块区域；

根据CNN算法对N块区域中的每块区域进行特征提取，得到每块区域对应的关键点数量；

根据所述关键点数量计算得到每个处理后检测框对应的可见区域标签。

进一步，所述二阶段关联结果包括：

3）第三方面，本发明还提供一种计算机设备，所述计算机设备包括处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述计算机设备实现如上任一项方法。

4）第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如上任一项方法。

需要说明的是，本发明的第二方面至第四方面的技术方案及对应的可能的实现方式所取得的有益效果，可以参见上述对第一方面及其对应的可能的实现方式的技术效果，此处不再赘述。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例的步骤示意图；

图2为本发明实施例的详细流程图；

图3为本发明实施例的设备示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例的一种基于视频超分辨率多行人跟踪方法，包括如下步骤：

S5，根据所述二阶段关联结果，得到行人轨迹。

如图2，为本实施例的详细流程图。

S1，获取针对检测区域的包含至少一个行人的待处理的第一视频，对所述第一视频进行视频帧插值操作，得到第二视频，对所述第二视频进行超分辨率重建操作，得到第三视频。其中：

检测区域可以是：人行横道、小区门口等。

视频帧插值的操作具体为：

S101，获取所述第一视频中的每一帧图像，将相邻的两帧图像作为参考帧对，根据前向翘曲算法对所述参考帧对进行计算，得到所有参考帧对对应的目标帧。

相邻的两帧图像指的是按照时序或按照视频的时间顺序，相邻两秒分别对应的图像即为相邻图像，需注意，此处并不限定一定是按照秒为周期进行区分，若每一帧图像是以毫秒为单位进行截取，则相邻两个毫秒对应的两个图像即为相邻图像。综上，相邻指的是按照固定顺序且比邻。

参考帧对指的是：相邻的两帧图像。

前向翘曲的原理如下：在前向翘曲算法中，通过预测参考帧对的像素或特征在时间上进展到目标帧，以找到参考帧对中与目标帧中相同位置的特征或像素，从而形成目标帧。换言之，得到目标帧的过程为通过前向翘曲算法对已知参考帧对进行预测。

前向翘曲算法由第一公式确定，第一公式如下：

，

其中，为目标帧中的位置，为参考帧对中的位置，为时间索引，表示当前时刻，表示下一个时刻，为目标帧的时间，为加权距离，为背景加权参数，exp为指数函数，即以自然对数e为底的指数函数，为目标帧中位置的像素或特征值，为参考帧对中位置的像素或特征值，为所有参考特征、的加权和，为对于从到的帧的深度估计的加权和，为双线性核。通过对参考帧对中的位置的像素或特征进行预测，得到目标帧中位置对应的预测像素或预测特征，从而构成目标帧。

S102，将每个目标帧插入到该目标帧对应的参考帧对对应的两帧图像之间，得到所述第二视频。

可以理解的是，该目标帧对应的参考帧对指的是：生成的目标帧和计算目标帧的相邻两帧图像；参考帧对对应的两帧图像，指的是S101中，作为参考帧对的相邻的两帧图像；该目标帧对应的参考帧对对应的两帧图像指的是，将生成的目标帧插入到计算该目标帧的相邻两帧图像之间。

对于每个相邻的参考帧对，进行分析运动信息和颜色变化，得到参考帧对之间的运动模型，根据参考帧对的像素位置进行插值来生成新的中间帧，即目标帧，将生成的目标帧添加到参考帧对，即原始视频序列中。

视频帧插值的目的：通常用于将低帧率的视频（如30帧/秒）转换为高帧率（如60帧/秒）或更高，以改善视频的流畅性和运动细节。

超分辨率重建操作具体为：

局部隐式神经函数原理：学习局部隐式神经函数用于连续图像超分辨率，包括一个空间隐式神经函数和一个时间隐式神经函数。其中，根据空间隐式神经函数可以生成任意给定空间坐标(x, y)的像素特征，根据该像素特征实现超分辨率；根据时间隐式神经函数预测任意时空坐标(x, y, t)的向前运动，将结果像素特征在时间上传播到时间t。

时空局部隐式神经函数由第二公式确定，第二公式如下：

，

其中，为向前运动，表示从位置在时间时的图像帧到时间时的图像帧之间的向前运动，从过去到未来的向前运动，根据空间隐式神经函数可以得到任意给定空间坐标(x, y)的像素特征，本实施例中，预测在空间位置到空间位置的特征，从而得到，进而实现超分辨率；为矢量位移，表示从位置在时间时的图像帧到时间时的图像帧之间的矢量位移，从过去到未来的位置移动，根据时间隐式神经函数可以预测任意时空坐标(x, y, t)的向后运动，本实施例中，预测在时间下到时间的坐标位置的运动，从而得到；为在处的最接近查询坐标，为参考帧对所在的时间位置，为网络参数。

采用超分辨率重建操作的有益效果如下：

公开数据集上的图像质量普扁较差，尤其是在密集场景下，需要对其进行超分辨率重建，根据视频的时序信息进行超分辨率重建后得到高质量的视频帧图片。将低质量视频帧进行超分辨率重建得到包含更多细节且更加清晰的视频帧，如：行人头面部，衣服，四肢等，由此可以大大降低误检漏检的概率。

S2，对所述第三视频中的每一帧图像进行目标检测，得到每一帧图像对应的多个原始检测框；计算当前帧图像中每两个原始检测框之间的重叠度，将该帧图像中满足第一预设条件的重叠度对应的两个原始检测框进行融合，得到该帧图像对应的至少一个处理后检测框。其中：

目标检测中的目标可以是：对行人、头面部或者肢体等进行检测，有利于后续的身份ID匹配。

目标检测通过Yolo算法进行检测。YOLO（You OnyLook 0nce），是一种目标检测算法，目标检测务的目标是找到图像中的所有感兴趣区域，并确定文些区域的的位置和类别概率。Yolo算法为一种现有技术。

原始检测框可以是：行人识别框、头面部识别框或者肢体识别框。且通常每个识别框旁会标注识别概率，由于本方案并未在后续处理中应用该概率，因此不进行赘述。上述识别或检测框的生成方式为现有技术。原始检测框指的是融合前的检测框。

重叠度的原理为：计算两个识别框之间的交并面积，根据计算结果查看识别框是否属于同个行人。例如，对于一个正面行人来说，首先会生成一个行人识别框，一个头面部识别框，头面部识别框会位于行人识别框内，此时认为头面部识别框和行人识别框重合，对于此种情况，则只需要依据一个行人识别框进行后续的计算即可。

重叠度的计算由第三公式确定，第三公式如下：

，

其中，为帧上第个检测框和第个检测框的重叠度，为帧上第个检测框，为帧上第个检测框，为帧上第个检测框和第个检测框的最小包盖面积。

第一预设条件可以是：在本实施例中，重叠度可以设置为0.9，当大于0.9 时，认为当前两个检测框满足融合条件。

融合生成处理后检测框的计算由第四公式确定，第四公式如下：

，

其中，为处理后检测框，为检测框的坐标，为检测框的宽高，为检测框的坐标，为检测框的宽高，为处理后检测框的坐标，为处理后检测框的宽高。

融合的策略可以是：理想情况下，一个行人识别框对应一个头面部识别框，融合之后只会存在一个行人框对应的处理后检测框，当因为某些原因造成的遮挡导致无法进行融合或者重叠度计算的值不满足第一预设条件时，一个行人识别框将作为第二识别框用于后续的计算。

采用本步骤中的操作的有益效果如下：

采用检测框融合的方法，可以将视频帧中相互之间有较高重叠度（超过某一阈值）的检测框进行合并，形成新的更大框作为新的起始检测框，通过这种方式，可以减少冗余的检测框，并提高目标检测的准确性和鲁棒性。

S3，对该帧图像中的每个处理后检测框进行特征提取，得到每个处理后检测框对应的可见区域标签。其中：

S301，将每个处理后检测框根据第三预设条件分割成N块区域。

第三预设条件可以是：按照水平和竖直方向分割，本实施例中，采用平均分割的方式，按照3×3的规则，沿着水平方向和竖直方向等间距的将检测框分割为3×3的规格，此时，N可以是9。

S302，根据CNN算法对N块区域中的每块区域进行特征提取，得到每块区域对应的关键点数量。

CNN算法为：卷积神经网络(ConvolutionalNeuralNetworks，CNN)是一种专门用于图像识别和图像分类的深度学习算法。基本原理是通过卷积层、池化层和全连接层来构建网络，其主要特点是在卷积过程中通过共享权重和局部感知野的方式来提取图像特征，实现了对图像的高效处理由于CNN能够自动从原始数据中学习到特征，因此在计算机视觉领域的许多任务中得到了广泛应用。

本实施例中，使用CNN算法对9块区域进行特征提取，得到9块区域对应的每个区域的关键点数量。

特征提取：

提取的特征为：底层特征包括边缘、纹理等低层次信息，而语义特征则对目标的高级表示进行建模，可以理解为图像中具有语义意义的部分，如目标的形状、轮廓等。本实施例中，提取的特征可以为：左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝盖、右膝盖、左脚踝和右脚踝等。

提取到的结果为：特征图或者向量。本实施例中，提取到的结果为，包含左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝盖、右膝盖、左脚踝和右脚踝等的特征图。

关键点：根据特征可以直接计算每个小区域内的关键点数量、平均关键点密度等。本实施例中，可以简单认为关键为特征图中能代表特征的点，或者是能和特征互相对应的点，如左眼特征图中的左眼为关键点，则计算每个小区域内的特征对应的关键点的数量，为关键点数量。但是本处只是为了便于理解给出的解释，在具体场景中不限于这么理解。

可见区域标签为：该区域属于可见部分还是不可见部分的识别依据，如果该区域属于可见部分，则该区域的可见区域标签的值为1，如果该区域属于不可见部分，则该区域的可见区域标签的值为0。此处的可不可见认为是一个0或1的枚举值，该值以可见区域标签表示。

可见区域标签的计算由第五公式确定，第五公式如下：

，

其中，为第个区域的可见区域标签，表示第个区域是否可见，的值为如果第个区域可见则对应为1，否则为0，代表行人检测框中第个关键点，为处理后检测框分块的总个数，在本实施例中值为9，代表图像的高，为不可见关键点。

为了使最终结果更准确，通常还对关键点进行过滤。例如其中一个处理后检测框里面检测到的行人，包含17个关键点，分别是:左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝盖、右膝盖、左脚踝和右脚踝，则含有17个关键点。

过滤关键点：过滤置信度较低的关键点，比如根据某值过滤掉模糊和错误的关键点，保留有效的关键点。如果某个行人关键点剩余量超过某个值，本实施例中可以设置为5，则认为其是可见且有效的检测框。

有效关键点的过滤由第六公式确定，第六公式如下：

，

其中，为当前帧，为区域可见区域标签，为该处理后检测框中的有效关键点个数。当大于5时，则认为该处理后检测框为可见且有效的检测框。

关键点过滤后，还可以根据该处理后检测框里面所剩的有效关键点，根据边界关键点，利用人体关键点与人体身高比例关系对该处理后检测框进行修正，使最终轨迹结果更加精确。

S4，根据当前帧图像中的每个处理后检测框与当前帧图像对应的前一帧图像中的任一处理后检测框组成检测框对，根据所述检测框对对应的可见区域标签对计算所述检测框对的特征距离，将满足第二预设条件的所述特征距离对应的检测框对进行关联，得到一阶段关联结果，根据匈牙利算法对所述一阶段关联结果进行计算得到二阶段关联结果。其中：

可见区域标签对可以为：检测框对对应的当前帧图像中的检测框对应的可见区域标签和当前帧图像对应的前一帧图像中的检测框对应的可见区域标签，这两者组成可见区域标签对。

特征距离的计算由第六公式确定，第六公式如下：

，

其中，为特征距离，为前一帧图像上某个目标检测框第个分块的可见区域标签，为帧上某个目标检测框第个分块的可见得分，前一帧图像和帧为相邻的两帧图像，如果或为0，则表示对应部分不可见，为1表示对应部分可见，N为检测框分块的总个数，为局部外观特征之间的距离权重，为整体外观特征之间的距离权重。

第二预设条件可以是：特征距离小于0.5，在本实施例中，当小于0.5时，认为当前两个检测框满足关联条件。

匈牙利算法为：一种求解二分图最大权完美匹配问题的有效方法。该算法由E. W.Dijkstra和C. T. Wong在1955年提出，并由H. W. Kuhn在1957年发表。它的时间复杂度为O(n^3)，是解决该问题时间复杂度最小的算法之一。所谓二分图，就是指一个图中的结点可以被分为两个互不相交的子集S和T，而且所有的边都连接S和T中的结点。最大权完美匹配问题，即给定一个带权二分图，找出一个完美匹配集合，使得该匹配集合中所有边的权值之和最大。

本实施例中，匈牙利算法通过不断寻找增广路径和改进匹配来找到最佳的二分匹配，核心思想是在图中搜索交替路径，通过不断调整匹配来达到最优匹配的目标；首先初始化匹配找到增广路径，然后改进匹配继续寻找增广路径，不断到增广路径，然后改进匹配。通过将一阶段关联结果的矩阵输入到匈牙利算法的代码中，调用函数对一阶段关联结果进行计算，得到更加匹配的第二结果。

二阶段关联结果包括：

具体的，在本实施例中，关联成功的检测框对为：前一帧图像和当前帧图像上对应的关联成功的检测框，即某个目标在前一帧图像和当前帧图像上均存在；

未关联到当前帧图像中的处理后检测框为：未匹配到前一帧图像在当前帧图像上的处理后检测框，可以认为前一帧图像上的某个目标在帧后消失并且未出现在当前帧图像上；

未关联到当前帧图像对应的前一帧图像中的处理后检测框为：未匹配到当前帧图像上的前一帧图像上的处理后检测框，可以认为某个目标在当前帧图像上出现，并未出现在前一帧图像上。

S5，根据所述二阶段关联结果，得到行人轨迹。

将二阶段关联结果整合输出得到行人轨迹。

结合二阶段关联结果中的分类，如果某个目标与之前的轨迹匹配，即关联成功的检测框对，则继续保留该轨迹；如果某个目标无法与之前的轨迹匹配，即未关联到当前帧图像中的处理后检测框，则会终止或删除该轨迹；如果出现新的目标无法与已有轨迹匹配，即未关联到当前帧图像对应的前一帧图像中的处理后检测框，则会初始化新的轨迹。

本发明还提供一种基于视频超分辨率多行人跟踪系统，具体技术方案如下：

轨迹模块，用于根据所述二阶段关联结果，得到行人轨迹。

在上述方案的基础上，本发明还可以做如下改进。

进一步，所述视频模块具体用于：

取所述第一视频中的每一帧图像，将相邻的两帧图像作为参考帧对，根据前向翘曲算法对所述参考帧对进行计算，得到所有参考帧对对应的目标帧；

进一步，所述标签模块具体用于：

将每个处理后检测框根据第三预设条件分割成N块区域；

进一步，所述二阶段关联结果包括：

在上述各实施例中，虽然对步骤进行了编号S1、S2等，但只是本发明给出的具体实施例，本领域的技术人员可根据实际情况调整S1、S2等的执行顺序，此也在本发明的保护范围内，可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

需要说明的是，上述实施例提供的一种基于视频超分辨率多行人跟踪系统的有益效果与上述一种基于视频超分辨率多行人跟踪方法的有益效果相同，在此不再赘述。此外，上述实施例提供的系统在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统根据实际情况划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的系统与方法实施例属于同一构思，其具体实现过程详见方法实施例，在此不再赘述。

如图3所示，本发明实施例的一种计算机设备300，计算机设备300包括处理器320，处理器320与存储器310耦合，存储器310中存储有至少一条计算机程序330，至少一条计算机程序330由处理器320加载并执行，以使计算机设备300实现上述任一项方法，具体地：

计算机设备300可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器320（Central Processing Units，CPU）和一个或多个存储器310，其中，该一个或多个存储器310中存储有至少一条计算机程序330，该至少一条计算机程序330由该一个或多个处理器320加载并执行，以使该计算机设备300实现上述实施例提供的一种基于视频超分辨率多行人跟踪方法。当然，该计算机设备300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备300还可以包括其他用于实现设备功能的部件，在此不做赘述。

本发明实施例的一种计算机可读存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使计算机实现上述任一项方法。

可选地，计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种基于视频超分辨率多行人跟踪方法。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”、等是用于区别类似的对象，而代表对特定的顺序或先后次序进行限定。在适当情况下对于类似的对象的使用顺序可以互换，以便这里描述的本申请的实施例能够以除了图示或描述的顺序以外的顺序实施。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品，因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于视频超分辨率多行人跟踪方法，其特征在于，包括：

S5，根据所述二阶段关联结果，得到行人轨迹。

2.根据权利要求1所述的一种基于视频超分辨率多行人跟踪方法，其特征在于，所述S1具体为：

3.根据权利要求1所述的一种基于视频超分辨率多行人跟踪方法，其特征在于，所述S3具体为：

4.根据权利要求1所述的一种基于视频超分辨率多行人跟踪方法，其特征在于，所述二阶段关联结果包括：

5.一种基于视频超分辨率多行人跟踪系统，其特征在于，包括：

轨迹模块，用于根据所述二阶段关联结果，得到行人轨迹。

6.根据权利要求5所述的一种基于视频超分辨率多行人跟踪系统，其特征在于，所述视频模块具体用于：

7.根据权利要求5所述的一种基于视频超分辨率多行人跟踪系统，其特征在于，所述标签模块具体用于：

将每个处理后检测框根据第三预设条件分割成N块区域；

8.根据权利要求5所述的一种基于视频超分辨率多行人跟踪系统，其特征在于，所述二阶段关联结果包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述计算机设备实现如权利要求1至4任一项权利要求所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如权利要求1至4任一项权利要求所述的方法。