CN112970031A

CN112970031A - 用于关联视频中的目标的方法

Info

Publication number: CN112970031A
Application number: CN201880099421.0A
Authority: CN
Inventors: V·格兰查罗夫; S·施韦里松; C·基努蒂亚
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2021-06-15
Also published as: WO2020052737A1; EP3850542A1; US11721106B2; US20220044045A1

Abstract

本发明涉及一种用于关联视频（V）中的目标的计算机实现的方法（300），视频（V）包括连续帧（F_n‑1，F_n），所述方法包括：获得先前帧（F_n‑1）的第一目标建议区域信息，确定当前帧（F_n）的第二目标建议区域信息，其中，第一和第二目标建议区域信息至少指明相应帧的每个目标建议区域的外观度量、空间位置和检测概率，通过至少将先前帧（F_n‑1）的目标建议区域（111，121，131，141）的第一集合关联到当前帧（F_n）的目标建议区域（151，161，171，181）的第二集合来关联视频（V）中的目标，其中，使用基于外观度量、空间位置和检测概率计算的距离度量（D_n,n‑1）来关联目标建议区域。

Description

用于关联视频中的目标的方法

技术领域

本发明涉及一种用于关联视频中的目标的方法。本发明进一步涉及一种执行该方法的计算机。

背景技术

视觉目标检测器（例如以计算机或视频处理器的形式）可用来自动识别和定位可能出现在视频帧中的目标。目标检测器通常提供目标的位置、目标的大小和目标的类型，或者这些项的任何组合。目标的类型可被辨认为目标类，例如车辆、人、动物或者建筑物。自动识别和定位帧中的目标是许多增强现实（AR）和安全应用中的必要步骤。一些现有技术的目标检测器是基于卷积神经网络（CNN）。

一个示例可见于S. Ren、K. He、R. Girshick和J. Sun的“Faster R-CNN: Towards real-time object detection with region proposal networks”（IEEE Trans.Pattern Analysis and Machine Intelligence，2017）。另一示例可见于W. Liu、D.Anguelov、D. Erhan、C. Szegedy、S. Reed、C. Fu和A. Berg的“SSD: Single shot multibox detector”（在Proc. European Conference Computer Vision，2016中）。又一示例可见于J. Redmon和A. Farhadi的“YOLO9000: Better, faster, stronger”（在Proc.IEEE Conf. Computer Vision and Pattern Recognition，2017中）。

此类常规系统的缺点在于：它们可能遭受目标身份或者踪片（tracklet）身份切换。这可能通常发生在两个或更多目标靠近在一起（例如两个足球运动员争夺球）时。这归因于：事实上，此类系统通常单独地在视频中的相继或连续帧的每帧上应用视觉目标检测器，从而忽略了连续帧中目标之间的时间关系；或者事实上，视觉场景从一帧到另一帧缓慢地演变。

使用帧之间共享的信息来改进常规目标检测器的精确度的简单尝试是：在当前帧中应用判定阈值之前，平滑检测概率和所建议的区域坐标。上面提到的平滑检测概率的方法的缺点在于：它具有低精确度，并且可能不够精确。例如，如果目标的检测概率在几帧里跌到低于硬检测概率阈值，尽管事实上跨帧的视觉目标外观在视觉上几乎不变，也仍然可能容易丢失目标。

因此，存在对于改进的方法和计算机的需要。

发明目的

本发明的实施例的目的是要提供减轻或解决上述缺点的解决方案。

发明内容

上述目的通过本文描述的主题来达成。本文描述本发明的进一步有利实现形式。

根据本发明的第一方面，上面提到的目的通过一种用于关联视频中的目标的计算机实现的方法来达成，所述视频包括连续帧，所述方法包括：获得先前帧的第一目标建议区域信息；确定当前帧的第二目标建议区域信息，其中，第一和第二目标建议区域信息至少指明相应帧的每个目标建议区域的外观度量、空间位置和检测概率；通过至少将先前帧的目标建议区域的第一集合关联到当前帧的目标建议区域的第二集合来关联视频中的目标，其中，使用基于外观度量、空间位置和检测概率计算的距离度量来关联目标建议区域。

本公开的此方面的至少一个优点在于：通过使用基于外观度量、空间位置和检测概率计算的距离度量来关联连续帧中的目标，改进了目标检测精确度。

根据本发明的第二方面，上面提到的目的通过配置成执行根据第一方面的方法的计算机来达成。

本发明的范围由权利要求来限定，将这些权利要求通过引用结合到此部分中。通过考虑一个或多个实施例的以下详细描述，本领域技术人员将会得到对本发明的实施例的更完整理解以及对其附加优点的了解。将参考会首先简要描述的图的附页。

附图说明

图1说明根据一个或多个实施例的用于关联视频中的目标的情景。

图2说明用于检测目标的常规方法的示例。

图3示出根据一个或多个实施例的用于关联视频中的目标的方法。

图4说明根据一个或多个实施例的距离度量的计算。

图5A说明根据一个或多个实施例的距离度量。

图5B说明根据一个或多个实施例的目标建议区域的映射。

图6示出根据一个或多个实施例的计算机的细节。

通过考虑一个或多个实施例的以下详细描述，本领域技术人员将会得到对本发明的实施例的更完整理解以及对其附加优点的了解。应当意识到，同样的参考标号用来标识附图中的一个或多个图中说明的同样元件。

具体实施方式

一般来讲，除非清楚地给出和/或从术语所用于的上下文暗示了不同的含义，否则本文使用的所有术语要根据它们在相关技术领域中的普通含义来解释。除非明确地以其它方式声明，否则所有提到的一/一个/该元件、设备、组件、部件、步骤等要被开放式地解释为指所述元件、设备、组件、部件、步骤等的至少一个实例。除非步骤被明确地描述为在另一步骤之后或之前和/或在隐含了步骤必须在另一步骤之后或之前的情况下，否则本文公开的任何方法的步骤不必以公开的确切顺序执行。在任何适当的情况下，本文公开的实施例中的任何实施例的任何特征可能被应用于任何其它实施例。同样，这些实施例中的任何实施例的任何优点可能适用于任何其它实施例，反之亦然。所附实施例的其它目的、特征和优点将从以下描述中显现。

在本公开中，术语“目标建议区域”表示指明建议目标存在于其内的范围的区域。区域可具有任何适合的形式，诸如矩形、椭圆形、圆形或者具有例如位于或接近重心的关联中心坐标的任意形状的多边形。

在一个示例中，从神经网络算法接收目标建议区域，每个目标建议区域包括可能的目标或候选目标。候选目标的大小可由目标建议区域例如以边界框的形式来限定。边界框/目标建议区域可围绕候选目标。目标建议区域的水平和竖直尺寸可以是边界框的宽度和高度。备选地或附加地，所选目标（例如包括目标的每个所选目标建议区域）的大小可由围绕所选目标的边界框来限定，并且目标建议区域坐标可以是边界框的宽度和高度。坐标可以备选地或附加地是边界框的中心的坐标。

在本公开中，术语“检测概率”表示所检测的建议区域包括目标的可能性或概率。

在本公开中，术语“帧”表示帧、视频中的帧、图像或视频帧。换句话说，单独的连续图像当一个接一个地示出时就构成视频。

本文提出的方法对于常规解决方案的上面列出的缺点提供了解决方案。这可通过基于位置、大小、检测概率和（基于目标外观的）相似性度量执行高级数据关联以连接帧n-1到帧n中的目标来达成。

即使目标靠近在一起并且具有相同大小，外观上的差异也有助于区分目标，执行正确的数据关联并且保持踪片ID。可通过计算相继帧中目标建议的颜色直方图来捕获外观，并且当目标它们具有跨帧的相似外观时，外观还用来增加建议区域的检测概率。

所提出的解决方案的优点是至少增加了目标检测器精确度以及踪片ID的稳定性。所提出的算法可作为视觉目标检测器的后处理器实时运行，这允许技术与所有类型的现代检测器一起再使用。

在一个示例中，使用神经网络来识别或检测目标建议区域，神经网络依靠区域建议算法来假定帧内的目标位置。例如，在感兴趣的所有目标共享将它们与背景区分开的共同视觉属性的假设下，设计或训练一种方法，该方法输出帧内可能包含目标的建议区域的集合。这些方法倾向于为每帧计算大量的候选目标/目标建议区域，例如4800个候选目标。候选目标可被表示为矩阵。矩阵的每行可表示一个候选目标，而列指定候选目标的位置和大小。可相对于包围候选目标的目标建议区域或边界框来限定位置和大小。列可限定边界框的高度和宽度，并且位置可以是用于构建边界框的锚点，诸如边界框的中心点或角。还包括列以提供所识别的每个候选目标的目标检测概率或者置信度得分，即，将目标建议区域的内容正确识别为目标的所计算检测概率。矩阵中包含的目标建议区域/候选目标的集合则可简单地被阈值处理以提供检测到的目标的列表。具体地说，将为每个候选目标/目标建议区域提供的检测概率与阈值T进行比较，并且如果其检测概率超过阈值T，则候选目标被检测为目标和/或被添加到目标列表中。然后，可输出检测到的目标的列表。当显示帧时可提供覆盖图，例如以指明来自输出列表的目标中的全部或一些，诸如通过示出边界框的轮廓来指明，或者通过在检测到的目标下方、上方或旁边显示标记、目标身份或踪片身份来指明。

在本公开中，术语“外观度量”表示视觉外观的度量。包括具有相似或同样外观度量的视觉表示/图像像素的两个不同建议区域会被认为是相似的，即，相似外观度量指明视觉相似性。外观度量的一个示例是使用建议区域内包括的帧像素的颜色值计算的颜色直方图，例如，基于建议区域中包括的像素的RGB值计算的直方图。

在本公开中，术语“空间位置”表示所捕获的帧的位置或关于所捕获的帧的位置，例如，帧中包括的像素的行和列。

图1说明根据一个或多个实施例的用于关联视频中的目标的情景。图1说明包括先前帧F_n-1和当前且连续的帧F_n的视频V。要理解，视频V可包括先前帧。

例如由计算机或视频处理器来接收视频或视频片段。可以不同的方式接收视频。例如，视频可作为视频馈送（feed）、例如流播视频馈送来提供。可从实况记录获得并且可以可选地实时获得视频馈送。备选地或附加地，可通过检索先前记录和存储的视频片段来接收视频片段。例如，视频片段可被记录在诸如DVD或蓝光盘之类的存储介质上，或者记录在诸如硬盘驱动器、闪存驱动器、存储棒或存储卡之类的计算机存储器装置上。视频可以是完整的视频，例如电影或节目剧集。备选地，视频可以是来自较长视频的摘录。可作为较长视频的部分来接收视频片段，并且可使用计算机来分割较长视频并且创建较短视频。例如，可由计算机接收来自体育赛事的连续镜头，然后计算机创建对应于体育赛事的精彩场面的较短视频。视频片段甚至可以只是体育赛事中的一段比赛。仅举例来说，在本文中，将视频描述为英式足球比赛中的一段比赛，例如紧接在英式足球比赛中的进球得分之前且包括进球得分的一段比赛。

例如通过从存储器中检索信息来获得先前帧F_n-1的第一目标建议区域信息。第一目标建议区域信息通常可包括目标建议区域111、121、131、141的第一集合。第一目标建议区域信息可进一步包括目标建议区域111、121、131、141中每一个的检测概率。第一目标建议区域信息可进一步包括目标建议区域111、121、131、141中每一个的外观度量。第一目标建议区域信息可进一步包括每个目标建议区域的空间位置，例如目标建议区域的中心坐标。可选地，仅获得具有最高检测概率的数量N个、例如25个目标建议区域的子集。换句话说，选择具有最高检测概率的目标相关的目标建议区域，例如具有最高检测概率的25个目标建议区域。

从图中可以看出，目标建议区域中只有三个区域111、121、131包括实际目标110、120和130。目标建议区域141可被看作“错误检测”。

然后，确定当前帧F_n的第二目标建议区域信息。第二目标建议区域信息通常可包括目标建议区域151、161、171、181的第二集合以及目标建议区域151、161、171、181中每一个的对应空间位置和检测概率。空间位置可例如包括目标建议区域的中心坐标。通常使用神经网络来识别或检测目标建议区域151、161、171、181，神经网络依靠区域建议算法来假定当前帧F_n内的目标位置。在“YOLO9000: Better, faster, stronger”（在Proc. IEEEConf. Computer Vision and Pattern Recognition，2017中）中进一步描述了此类算法的一个示例。然后，确定当前帧F_n的目标建议区域151、161、171、181中每一个的外观度量，并且将外观度量添加至第二目标建议区域信息。外观度量的一个示例是使用建议区域内包括的帧像素的颜色值计算的颜色直方图，例如基于建议区域中包括的像素的RGB值计算的直方图。可选地，仅确定具有最高检测概率的数量N个、例如25个目标建议区域的子集。

从图中可以看出，目标建议区域中只有三个区域151、161、171包括实际目标150、160和170。目标建议区域181可被看作“错误检测”。

通过至少将先前帧F_n-1的目标建议区域111、121、131、141的第一集合关联到当前帧F_n的目标建议区域151、161、171、181的第二集合来关联视频V中的目标。可使用基于外观度量、空间位置和检测概率计算的距离度量来关联目标建议区域。

可进一步通过基于距离度量D_n,n-1的最小距离将先前帧F_n-1的目标建议区域的第一集合映射到当前帧F_n的目标建议区域的第二集合，来执行关联视频中的目标。

可进一步调整当前帧F_n的每个关联的目标建议区域的检测概率。这通常包括增加或偏移每个关联的目标建议区域的检测概率，以便例如在当前帧F_n中的目标的检测概率相对于先前帧F_n-1的检测概率有暂时降低时的情景中，减少在帧之间丢失或遗漏目标的风险。

关联视频中的目标可进一步包括通过确定具有高于阈值T的检测概率的当前帧F_n的关联和/或映射的目标建议区域来检测当前帧F_n的目标。

在一个示例中，先前帧F_n-1中的目标110被关联到当前帧F_n中的目标150，因为组合的距离度量D_n,n-1指明对于目标110相关的目标建议区域111和目标150相关的目标建议区域151，外观度量、空间位置和检测概率最相似。然后，可以确定目标110和目标150表示先前帧F_n-1中以及当前帧F_n中的相同目标。此外，这可涉及向目标110和目标150指配同样的踪片身份，例如，向先前帧F_n-1中的目标110和当前帧F_n中的目标150指配足球运动员的相同名字。可进一步确定目标120相关的目标建议区域121关联到目标160相关的目标建议区域161。可进一步确定目标130相关的目标建议区域131关联到目标170相关的目标建议区域171。可进一步确定目标建议区域141不关联到目标建议区域181。换句话说，组合的距离度量D_n,n-1指明目标建议区域141和目标建议区域181包括或者表示不同的目标。

图2说明用于检测目标的常规方法的示例。在此示例中，接收包括帧F_n-1、F_n的视频。然后，单独地检测每一帧，即在逐帧的基础上操作，并且分析每一帧以检测目标O_n。确定或检测多个目标建议区域连同对应的空间位置和目标检测概率。

通过简单地将每个检测概率与“硬”阈值T进行比较来检测目标O_n。换句话说，具有高于阈值T的目标检测概率的所有目标建议区域被检测为目标。

此方法具有可能在帧之间丢失目标的缺点，例如，在帧F_n-1中检测到该目标，但是在帧F_n中未检测到该目标。另外的缺点是，当目标靠近和/或跨路径时，目标或踪片身份可能被交换。

图3示出根据一个或多个实施例由计算机600执行的用于关联表示视频中的目标的建议区域的方法300。提供了用于关联包括连续帧F_n-1、F_n的视频V中的目标的计算机实现的方法300。所述方法包括：

步骤310：获得先前帧F_n-1的第一目标建议区域信息。第一目标建议区域信息至少指明先前帧F_n-1的每个目标建议区域的外观度量、空间位置和检测概率。第一目标建议区域信息可以例如通过从计算机的存储器615读取来获得。

在实施例中，所述方法包括在接收第一帧时的初始化阶段，包括对视频的第一帧执行步骤320和步骤336以获得第一先前帧F_n-1的第一目标建议区域信息。

步骤320：确定当前帧F_n的第二目标建议区域信息。第二目标建议区域信息至少指明当前帧F_n的每个目标建议区域的对应外观度量、空间位置和检测概率。

结合图1进一步描述确定第二目标建议区域信息。

在一个示例中，对应的外观度量被确定为基于建议区域中包括的像素的RGB值计算的直方图。空间位置被确定为目标建议区域的中心坐标。从神经网络算法获得检测概率。

在本公开中，颜色直方图被用来计算/确定外观度量，并且因此对视觉目标外观建模并且计算跨帧的目标之间的相似性。备选地，能够使用诸如方向梯度直方图（HOG）之类的特征描述器来计算/确定外观度量。

可使用RGB颜色空间来计算/确定目标的外观度量。备选地，可使用如Lab和HSV之类的颜色空间来减少影响直方图的图像强度的影响。

如结合图4进一步描述的，本文使用的外观距离d(c_n,c_n-1)可使用归一化均方根误差来计算，但是备选地，它能够使用直方图交集、巴氏距离或者卡方来计算/确定。

可选步骤325：选择具有最高检测概率的目标。在某些情况下，确定/检测数千个目标建议区域，并且可通过仅考虑具有最高检测概率的来自先前帧F_n-1的数量S_n-1个目标建议区域和来自当前帧F_n的数量S_n个目标建议区域来降低计算复杂度。

帧中目标的最大数量取决于应用。在用于体育视频（例如，足球）的检测器的情况下，它能够被设置为L_M=25。

在一个示例中，提供用于当前帧F_n的大量候选目标/目标建议区域，例如4800个候选目标。然后，将4800个候选目标按照目标检测概率排序，最高目标检测概率优先。然后，选择具有最高目标检测概率的25个候选目标/目标建议区域以用于该方法中的进一步处理，并且忽视其余的候选目标/目标建议区域。

步骤330：通过至少将先前帧F_n-1的目标建议区域111、121、131、141的第一集合关联到当前帧F_n的目标建议区域151、161、171、181的第二集合来关联视频V中的目标。在一个实施例中，使用基于外观度量、空间位置和检测概率计算的距离度量D_n,n-1来关联目标建议区域。

在一个示例中，具有最小距离度量的目标被认为是相同的。结合图1提供关联视频V中的目标的更详细示例。

在实施例中，通过映射目标建议区域，调整每个映射的目标建议区域的检测概率，然后检测具有高于阈值的检测概率的目标，来执行关联视频V中的目标。

通过降低在连续帧之间丢失或遗漏目标的可能性，这具有改进目标检测精确度的优点。

在一个实施例中，关联目标的步骤进一步包括另外的步骤：

可选步骤332：基于距离度量D_n,n-1的最小距离，将先前帧F_n-1的目标建议区域的第一集合映射到当前帧F_n的目标建议区域的第二集合。

这可如结合图5B进一步描述的那样来执行。

可选步骤334：调整当前帧F_n的每个映射的目标建议区域的检测概率。

在一个实施例中，进一步通过如下操作来执行关联视频中的目标：如果对应的外观距离度量低于第二阈值

，则调整当前帧F_n的每个映射的目标建议区域的检测概率。

在一个实施例中，调整检测概率进一步包括将系数确定为：

其中

和

是两个映射的目标建议区域（一个来自帧F_n而一个来自帧F_n-1）的外观度量。α_max和α_min是遗忘因子，

和

是使建议区域有检测概率调整的资格的低概率阈值。

在一个实施例中，调整检测概率进一步包括增加给定目标建议区域的检测概率，例如以防止由于当前帧中检测概率的波动而丢失现有目标。在一个实施例中，如果

，通过将更新的检测概率确定如下来增加检测概率：

其中

和

是两个映射的目标建议区域（一个来自帧n而一个来自帧n-1）的检测概率。

在实施例中，第二阈值

能够被设置成

＝0.1。

在实施例中，其中

并且

。

在实施例中，遗忘因子能够被设置成

并且

。

可选步骤336：通过确定具有高于阈值T的检测概率的当前帧（F_n）的映射的目标建议区域来检测当前帧（F_n）的目标。

在实施例中，检测阈值能够被设置成

。

在一些实施例中，至少只要目标在视频v的帧内，就在身份跟随目标的意义上跟踪目标。

在另外的实施例中，所述方法进一步包括以下步骤：

可选步骤340：将跟踪身份从在先前帧F_n-1中检测到的目标110、120、130传播到在当前帧F_n中检测到的目标150、160、170。

在一个实施例中，先前帧F_n-1的目标建议区域和当前帧F_n的目标建议区域之间的距离度量D_n,n-1被计算为：D_n,n-1=d(X_n,X_n-1)+d(c_n,c_n-1)，其中d(X_n,X_n-1)是组合的空间概率距离度量，并且d(c_n,c_n-1)是外观距离度量。

在一个实施例中，距离度量（D_n,n-1）被计算为组合的空间概率距离度量和外观距离度量的加权总和。结合图4进一步描述计算距离度量。

为了向读者提供对本公开的可能应用的更好理解，下面提出本公开的用例实施例：

初始化（视频序列中的第一帧）：

1）在初始帧中，挑选具有最高概率的L_M个建议区域。

2）通过检测阈值

接受区域建议作为检测到的目标。

3）计算那些目标的RGB颜色直方图c₀。

4）向所有检测到的目标指配跟踪ID。

对于所有相继帧重复：

5）在当前帧（具有索引n）中，挑选具有最高概率的L_M个建议区域。

6）为当前帧中的所选建议计算RGB颜色直方图c_n。

7）计算当前帧n和先前帧F_n-1中所有的所选区域建议之间的距离度量（总共L_M

L_M个距离D_n,n-1），其中距离度量被计算为：D_n,n-1=d(X_n,X_n-1)+d(c_n,c_n-1)，

其中d(c_n,c_n-1)是过去和当前帧中的所选区域建议区域的颜色直方图之间的距离（它是大小为L_M

L_M的矩阵），

类似地，d(X_n,X_n-1)是所选建议区域的检测概率和空间坐标之间的矩阵捕获距离。

8）使用贪婪算法（逐个消除具有最小距离的建议区域对）找出使帧F_n和帧F_n-1中的建议之间的距离最小化的映射，来完成数据关联。

9）如果映射的建议具有低于某个阈值

的直方图距离，则按照如下来修改用于在阈值处理之前更新检测概率的系数（在下一算法步骤中使用）：

其中

和

是两个通过数据关联算法连接的建议区域（一个来自帧F_n而一个来自帧F_n-1）的颜色直方图。

10）增加给定建议区域的检测概率，以防止由于当前帧中检测概率的波动而丢失现有目标，

如果

其中

和

是两个通过数据关联算法连接的建议区域（一个来自帧F_n而一个来自帧F_n-1）的检测概率。

11）下一步骤是接受高于硬阈值

的建议作为检测到的目标，然后对于映射的建议，传播来自先前帧的ID。对于不匹配的建议，指配新的ID。

12）将来自帧F_n的ID、计算的区域建议以及直方图存储在缓冲器中，以用于下一帧F_n+1中。

在上面使用的项X能够由所建议区域的边界框坐标组成，例如，边界框的中心（x,y）、宽度（w）和高度（h）以及此区域的检测概率p。在这种情况下，对于每个建议区域，能够形成5-维向量：

X＝{x,y,w,h,p}

来自相继帧的建议区域之间的总距离（算法步骤7）能够具有不同的权重：

其中

优选地大于

。

图4说明根据一个或多个实施例的距离度量D_n,n-1的计算。图4说明包括先前帧F_n-1和当前且连续的帧F_n的视频V。如结合图1提及的，先前帧F_n-1的第一目标建议区域信息被获得并且通常包括目标建议区域111、121、131、141的第一集合。第一目标建议区域信息可进一步包括目标建议区域111、121、131、141的第一集合的对应检测概率、外观度量和空间位置。然后，确定当前帧F_n的第二目标建议区域信息。第二目标建议区域信息通常包括目标建议区域151、161、171、181的第二集合以及目标建议区域151、161、171、181中每一个的对应空间位置、检测概率和外观度量。

然后，计算目标建议区域111、121、131、141的第一集合中的每个建议区域与目标建议区域151、161、171、181的第二集合中的每个建议区域之间的距离度量D_n,n-1。这通过图4中的箭头来说明。为了图的清楚性，仅示出一个建议区域111与目标建议区域151、161、171、181的集合之间的距离为d_{111_151}、d_{111_161}、d_{111_171}和d_{111_181}。

在一个示例中，距离度量可被计算为先前帧F_n-1和当前帧F_n的检测概率、外观度量和空间位置之间的欧几里得距离或欧几里得度量中任一个的选择的总和。

在一个示例中，距离度量d_{111_151}被计算为

d_{111_151}=空间距离+检测概率距离+外观距离

其中X表示目标建议区域的坐标，p表示目标建议区域的目标检测概率，并且c表示目标建议区域的外观度量。

在一个另外的示例中，距离度量d_{111_151}被加权并且被计算为

在一个实施例中，目标建议区域被形成为具有二维中心坐标（x,y）、宽度w和高度h的矩形，其中空间概率距离度量基于由X=[x,y,w,h,p]形成的向量来计算，其中p是目标建议区域的检测概率。

图5A说明根据一个或多个实施例的距离度量D_n,n-1。参考图4，距离度量可被存储或布置在矩阵数据结构中。在图中可以看出，关于目标建议区域111的距离度量被布置在第一列中，目标建议区域121被布置在第二列中，等等。

图5B说明根据一个或多个实施例的目标建议区域的映射。从图中可以看出，基于d_{121_161}包括第二列中的距离度量的最小距离的事实，先前帧（F_n-1）的目标建议区域121被映射到当前帧（F_n）的建议区域161。换句话说，确定在目标建议区域121中包括的目标120表示与在目标建议区域161中包括的目标160相同的目标。

图6示出根据一个或多个实施例的计算机600的细节。计算机600可采取图像处理设备、一个或多个服务器、一个或多个云或虚拟服务器中的任一项的选择的形式。计算机600可包括处理电路612，处理电路612可选地可通信地耦合到通信接口604以用于有线和/或无线通信。另外，计算机600可进一步包括至少一个可选的天线（图中未示出）。天线可耦合到通信接口604的收发器，并且被配置成在无线通信系统中传送和/或发射和/或接收无线信号。在一个示例中，处理电路612可以是配置成彼此协作的多个处理器和/或处理器模块和/或中央处理单元和/或处理器的选择中的任一项。另外，计算机600可进一步包括存储器615。存储器615可包含处理电路可执行的指令以执行本文描述的方法和/或方法步骤中的任一项。

通信接口604（例如无线收发器和/或有线/无线通信网络适配器）被配置成将数据值或参数作为信号向处理电路612发送和/或从处理电路612接收，向其它外部节点（例如视频流播服务器（图中未示出））发送和/或从其它外部节点接收。在实施例中，通信接口直接在节点之间或者经由通信网络进行通信。

在一个或多个实施例中，计算机600可进一步包括输入装置617，输入装置617被配置成从用户接收输入或指示，并且向处理电路612发送指明用户输入或指示的用户输入信号。

在一个或多个实施例中，计算机600可进一步包括显示器618，显示器618被配置成从处理电路612接收指明诸如文本或图形用户输入目标之类的呈现目标的显示信号，并且将所接收的信号显示为诸如文本或图形用户输入目标之类的目标。

在一个实施例中，显示器618与用户输入装置617集成，并且被配置成从处理电路612接收指明诸如文本或图形用户输入目标之类的呈现目标的显示信号，并且将所接收的信号显示为诸如文本或图形用户输入目标之类的目标，和/或被配置成从用户接收输入或指示，并且将指明用户输入或指示的用户输入信号发送到处理电路612。

在实施例中，处理电路612可通信地耦合到存储器615和/或通信接口604和/或输入装置617和/或显示器618和/或一个或多个传感器（图中未示出）。

在实施例中，通信接口和/或收发器604使用有线和/或无线通信技术进行通信。在实施例中，一个或多个存储器615可包括硬RAM盘驱动器、软盘驱动器、磁带驱动器、光盘驱动器、CD或DVD驱动器（R或RW）或者其它可拆卸或固定媒体驱动器的选择。

在另外的实施例中，计算机600可进一步包括和/或耦合到一个或多个附加传感器（未示出），附加传感器被配置成接收和/或获得和/或测量与计算机或计算机的环境有关的物理属性，并且将指明物理属性的一个或多个传感器信号发送到处理电路612。

要理解，计算机包括执行本文公开的任务、特征、功能和方法所需要的硬件和/或软件的任何适当组合。此外，虽然计算机的组件被描绘为位于较大框内或嵌套在多个框内的单个框，但是在实践中，计算机可包括构成单个所示组件的多个不同物理组件（例如，存储器615可包括多个分离的硬盘驱动器以及多个RAM模块）。

同样，计算机60可由多个物理上分离的组件（这些组件可各自具有其自己的相应组件）组成。

通信接口604还可包括用于不同无线技术（诸如例如GSM、WCDMA、LTE、NR、WiFi或蓝牙无线技术）的各种所示组件的多个集合。这些无线技术可被集成到计算机600内的相同或不同芯片或芯片集以及其它组件中。

处理电路612被配置成执行本文描述为由计算机600提供的任何确定、计算或类似操作（例如，某些获得操作）。处理电路612执行的这些操作可包括通过例如以下操作来处理由处理电路612获得的信息：将所获得的信息转换成其它信息，将所获得的信息或转换后的信息与存储在网络节点中的信息进行比较，和/或基于所获得的信息或转换后的信息执行一个或多个操作，并且作为所述处理的结果进行确定。

处理电路612可包括微处理器、控制器、微控制器、中央处理单元、数字信号处理器、专用集成电路、现场可编程门阵列或者任何其它适当的计算装置、资源中的一个或多个的组合，或者可操作以单独或与其它计算机600组件（如装置可读介质）结合来提供计算机600功能性的编码逻辑和/或软件、硬件的组合。例如，处理电路612可执行存储在装置可读介质615中或处理电路612内的存储器中的指令。此类功能性可包括提供本文所讨论的各种无线特征、功能或益处中的任一项。在一些实施例中，处理电路612可包括片上系统（SOC）。

在一些实施例中，处理电路612可包括射频（RF）收发器电路和基带处理电路中的一个或多个。在一些实施例中，射频（RF）收发器电路和基带处理电路可在分离的芯片（或芯片集）、板或单元（诸如无线电单元和数字单元）上。在备选实施例中，RF收发器电路和基带处理电路的部分或全部可在相同的芯片或芯片集、板或单元上。

在某些实施例中，本文描述为由计算机600提供的功能性中的一些或全部可由执行存储在装置可读介质615或者处理电路612内的存储器上的指令的处理电路612来执行。在备选实施例中，功能性中的一些或全部可例如以硬连线方式由处理电路612提供，而不执行存储在分离或分立装置可读介质上的指令。在那些实施例中的任一个中，无论是否执行存储在装置可读存储介质上的指令，处理电路612都能够被配置成执行所描述的功能性。此类功能性提供的益处不限于处理电路612自身或计算机600的其它组件，而是由计算机600整体和/或由最终用户享有。

装置可读介质615可包括任何形式的易失性或非易失性计算机可读存储器，包括但不限于永久性存储装置、固态存储器、远程安装的存储器、磁介质、光介质、随机存取存储器（RAM）、只读存储器（ROM）、大容量存储介质（例如，硬盘）、可拆卸存储介质（例如，闪存驱动器、致密盘（CD）或数字视盘（DVD））、和/或存储可由处理电路612使用的信息、数据和/或指令的任何其它易失性或非易失性的非暂时性装置可读和/或计算机可执行存储器装置。装置可读介质615可存储任何适当的指令、数据或信息，包括计算机程序、软件、包括逻辑、规则、代码、表等中的一个或多个的应用和/或能够由处理电路612执行并且由计算机600利用的其它指令。装置可读介质QQ180可用于存储处理电路612进行的任何计算和/或经由接口604接收的任何数据。在一些实施例中，处理电路612和装置可读介质615可被认为是集成的。

在计算机600和其它节点之间的信令和/或数据的有线或无线通信中使用接口604。接口604可包括通过有线连接例如向计算机600发送数据和从计算机600接收数据的（一个或多个）端口/（一个或多个）端子。接口604还包括无线电前端电路，无线电前端电路可耦合到天线，或者在某些实施例中可以是天线的一部分。无线电前端电路可包括滤波器和放大器。无线电前端电路可连接到天线和/或处理电路612。

计算机600的示例包括但不限于智能电话、移动电话、蜂窝电话、基于IP的语音（VoIP）电话、无线本地环路电话、台式计算机、个人数字助理（PDA）、无线相机、游戏控制台或装置、音乐存储装置、重放设备、可穿戴终端装置、无线端点、移动台、平板、膝上型计算机、膝上嵌入式设备（LEE）、膝上安装式设备（LME）、智能装置、无线客户端设备（CPE）、车载无线终端装置等。

通信接口604可涵盖有线和/或无线网络，诸如局域网（LAN）、广域网（WAN）、计算机网络、无线网络、电信网络、另一类似网络或者这些网络的任何组合。通信接口可被配置成包括接收器和传送器接口，所述接口用于按照一个或多个通信协议（诸如以太网、TCP/IP、SONET、ATM、光、电等等）通过通信网络与一个或多个其它装置进行通信。传送器和接收器接口可共享电路组件、软件或固件，或者备选地可被分开实现。

在一个实施例中，提供一种计算机，所述计算机被配置成执行本文描述的方法步骤中的任一个。

在一个实施例中，提供一种计算机程序，所述计算机程序包括计算机可执行指令，用于当在计算机中包括的处理单元上执行计算机可执行指令时，使该计算机执行本文描述的方法步骤中的任一个。

在一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有实施于其中的上述计算机程序。

在一个实施例中，提供载体，所述载体包含上述计算机程序。载体可以是电子信号、光信号、无线电信号或计算机可读存储介质中的任一个。

最后，应该理解，本发明不限于上面描述的实施例，而是还涉及并且结合在所附独立权利要求的范围内的所有实施例。

Claims

1.一种计算机实现的方法（300），用于关联表示视频（V）中的目标的建议区域，所述视频（V）包括连续帧（F_n-1，F_n），所述方法包括：

获得先前帧（F_n-1）的第一目标建议区域信息，

确定当前帧（F_n）的第二目标建议区域信息，其中，第一和第二目标建议区域信息至少指明相应帧的每个目标建议区域的外观度量、空间位置和检测概率，

通过至少将所述先前帧（F_n-1）的目标建议区域（111，121，131，141）的第一集合关联到所述当前帧（F_n）的目标建议区域（151，161，171，181）的第二集合来关联所述视频（V）中的目标，其中，使用基于所述外观度量、所述空间位置和所述检测概率计算的距离度量（D_n,n-1）来关联所述目标建议区域。

2.根据权利要求1所述的方法，其中，关联所述视频中的目标进一步包括：

基于所述距离度量（D_n,n-1）的最小距离将所述先前帧（F_n-1）的目标建议区域的第一集合映射到所述当前帧（F_n）的目标建议区域的第二集合，

调整所述当前帧（F_n）的每个映射的目标建议区域的所述检测概率，

通过确定具有高于阈值（T）的检测概率的所述当前帧（F_n）的映射的目标建议区域来检测所述当前帧（F_n）的目标。

3.根据权利要求2所述的方法，其中，所述先前帧（F_n-1）的目标建议区域与所述当前帧（F_n）的所述目标建议区域之间的所述距离度量（D_n,n-1）被计算为：D_n,n-1=d(X_n,X_n-1)+d(c_n,c_n-1)，其中，d(X_n,X_n-1)是组合的空间概率距离度量，并且d(c_n,c_n-1)是外观距离度量。

4.根据权利要求3所述的方法，其中，所述距离度量（D_n,n-1）被计算为所述组合的空间概率距离度量和所述外观距离度量的加权总和。

5.根据权利要求3-4中的任一项所述的方法，其中，所述目标建议区域被形成为具有二维中心坐标x,y、宽度w和高度h的矩形，其中，所述空间概率距离度量基于通过X=[x,y,w,h,p]形成的向量来计算，其中p是所述目标建议区域的检测概率。

6.根据权利要求3-5中的任一项所述的方法，其中，如果对应的外观距离度量低于第二阈值

，则调整所述当前帧（F_n）的每个映射的目标建议区域的所述检测概率。

7.一种配置成执行根据权利要求1-6中的任一项所述的方法的计算机。

8.一种计算机程序，包括计算机可执行指令，用于当在计算机中包括的处理单元上执行所述计算机可执行指令时，使所述计算机执行根据权利要求1-6所述的方法步骤中的任一个。

9.一种计算机程序产品，包括计算机可读存储介质，所述计算机可读存储介质具有实施于其中的根据权利要求8所述的计算机程序。

10.一种载体，包含根据权利要求8所述的计算机程序，其中，所述载体是电子信号、光信号、无线电信号或计算机可读存储介质中的一个。