CN113837091A

CN113837091A - 识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113837091A
Application number: CN202111121867.9A
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-24

Abstract

本公开实施例公开了一种识别方法、装置、电子设备及计算机可读存储介质。该方法包括：对当前视频帧进行目标检测，确定存在的目标对象的检测框区域；根据所述目标对象的检测框区域，确定当前视频帧的中心区域；根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别；每个候选区域至少包含与其对应的中心区域；从历史视频帧序列和当前视频帧中，确定每类候选区域对应的轨迹图像序列；识别每类候选区域对应的轨迹图像序列，得到对应的识别结果。通过本公开，可以提高识别的效率和准确性。

Description

识别方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及计算机视觉技术，尤其涉及一种识别方法、装置、电子设备及计算机可读存储介质。

背景技术

视频中的异常检测识别是计算机视觉领域的一个重要问题，在智能识别领域有着广泛的应用，例如检测识别非法行为，交通事故和一些不常见的事件等。成千上万的摄像头在全世界范围内进行部署，然而，大多数的摄像头仅仅只是记录每刻的动态，而没有起到自动识别的能力(往往需要特殊人员来负责人工察看)。由于巨大的视频数量，仅靠人力去过滤视频中的内容显然是不太现实的。我们需要利用计算机视觉和深度学习的技术来自动检测识别发生在视频中的异常事件。而识别摄像头采集的视频中的异常事件是极其困难的，可能的挑战包括由于小概率事件导致标注数据的稀缺，类间/类内方差大，异常事件的主观定义差别，视频的低分辨率等。

相关技术中，通常采用训练好的网络模型，对摄像头采集的视频中的异常事件进行识别，但识别的效率和准确性较低，无法及时、准确地发现视频中的异常事件。

发明内容

本公开实施例提供一种识别方法、装置、电子设备及计算机可读存储介质，能够提高识别的效率和准确性。

本公开实施例的技术方案是这样实现的：

本公开实施例提供一种识别方法，包括：对当前视频帧进行目标检测，确定存在的目标对象的检测框区域；根据所述目标对象的检测框区域，确定所述当前视频帧的中心区域；根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别；每个候选区域至少包含与其对应的中心区域；所述历史视频帧序列是所述当前视频帧之前的、且已检测过的视频帧序列；从所述历史视频帧序列和所述当前视频帧中，确定每类候选区域对应的轨迹图像序列；识别所述每类候选区域对应的轨迹图像序列，得到对应的识别结果。

本公开实施例提供一种识别装置，包括：检测单元，用于对当前视频帧进行目标检测，确定存在的目标对象的检测框区域；确定单元，用于根据所述目标对象的检测框区域，确定所述当前视频帧的中心区域；根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别；每个候选区域至少包含与其对应的中心区域；所述历史视频帧序列是所述当前视频帧之前的、且已检测过的视频帧序列；分割单元，用于从所述历史视频这序列和所述当前视频帧中，确定每类候选区域对应的轨迹图像序列；识别单元，用于识别所述每类候选区域对应的轨迹图像序列，得到对应的识别结果。

在本公开的一些实施例中，所述分割单元，还用于从所述历史视频帧序列和所述当前视频帧中，包含每类候选区域的每个视频帧中，截取出所述候选区域，得到候选区域图像；基于所述候选区域图像，得到所述每类候选区域对应的所述轨迹图像序列。

在本公开的一些实施例中，所述确定单元，还用于根据所述历史视频帧序列中各个视频帧之间的时间顺序，从所述历史视频帧序列中，确定出一个历史视频帧；根据所述历史视频帧中，历史中心区域对应的历史候选区域的区域类别，确定所述当前视频帧中，每个中心区域对应的候选区域的区域类别。

在本公开的一些实施例中，所述分割单元，还用于在满足预设条件的情况下，根据每类候选区域在所述历史视频帧序列和所述当前视频帧中，相应的视频帧中的位置信息，确定出每类候选区域对应的概括位置信息；所述概括位置信息对应的区域，包含所述每类候选区域中的任意一个候选区域；从包含所述每类候选区域的每个视频帧中，截取所述概括位置信息对应的区域，得到候选区域图像。

在本公开的一些实施例中，所述分割单元，还用于将候选区域图像的尺寸调整至预设尺寸，得到新候选区域图像；根据所述新候选区域图像所在的视频帧的时间顺序，对得到的新候选区域图像排序，得到所述每类候选区域对应的轨迹图像序列。

在本公开的一些实施例中，所述当前视频帧至少包括两个目标对象；所述确定单元，还用于将每个目标对象的所述检测框区域扩大第一预设比例，得到所述每个目标对象的外扩区域；对于每个外扩区域，确定所述外扩区域与至少一个剩余外扩区域之间的匹配次数；所述至少一个剩余外扩区域为所述至少两个目标对象对应的至少两个外扩区域中，除所述外扩区域之外的外扩区域；将所述至少两个外扩区域中匹配次数最多的前N个外扩区域，作为中心区域；N为大于等于1的整数。

在本公开的一些实施例中，所述确定单元，还用于对于每个外扩区域和每个剩余外扩区域，计算所述外扩区域与所述剩余外扩区域之间的面积交并比，并在所述面积交并比大于或等于预设面积交并比阈值的情况下，确定所述外扩区域与所述剩余外扩区域之间相匹配；将与所述外扩区域相匹配的剩余外扩区域的数量，作为所述外扩区域与所述至少一个剩余外扩区域之间的匹配次数。

在本公开的一些实施例中，所述每个历史候选区域具有区域标识，用于表征所述每个历史候选区域所属的区域类别；所述确定单元，还用于根据历史视频帧中的历史中心区域对应的历史候选区域的区域标识，确定每个中心区域对应的候选区域的区域标识。

在本公开的一些实施例中，每个检测框区域对应有目标标识；所述历史视频帧序列中包含至少一个历史候选区域；所述确定单元，还用于将每个中心区域对应的检测框区域扩大第二预设比例，得到所述每个中心区域对应的候选区域；确定所述每个中心区域对应的候选区域，与每个历史候选区域之间的目标标识交并比，并确定每个候选区域的最大目标标识交并比；根据每个候选区域的最大目标标识交并比，确定每个候选区域的区域类别。

在本公开的一些实施例中，所述确定单元，还用于对于任一候选区域，在所述任一候选区域的最大目标标识交并比大于预设标识交并比阈值的情况下，确定所述最大目标标识交并比对应的历史候选区域与所述任一候选区域的区域类别相同；和/或，在所述任一候选区域的最大目标标识交并比小于或等于预设标识交并比阈值的情况下，确定所述任一候选区域为新增区域，且对应有新增区域类别；所述新增区域类别与任一历史候选区域的区域类别不同。

在本公开的一些实施例中，所述确定单元，还用于对于任一候选区域和任一历史候选区域，确定所述任一候选区域中，包含的每个检测框区域对应的第一目标标识，得到至少一个第一目标标识；以及确定所述任一历史候选区域中，包含的每个检测框区域对应的第二目标标识，得到至少一个第二目标标识；确定所述至少一个第一目标标识和所述至少一个第二目标标识中，相同的目标标识的第一数量，以及，确定所述至少一个第一目标标识和所述至少一个第二目标标识中，不同的目标标识的第二数量；确定所述第一数量与所述第二数量的数量和，并将所述第一数量与所述数量和的比值，作为所述任一候选区域，与所述任一历史候选区域之间的目标标识交并比。

在本公开的一些实施例中，所述检测单元，还用于在所述历史视频帧序列和所述当前视频帧中的每个视频帧中，均不存在目标对象的情况下，根据所述每个视频帧中的常规候选区域，得到对应的常规轨迹图像序列；其中，对于不存在目标对象的任一视频帧，以所述任一视频帧的中心为区域中心的预设尺寸区域，作为所述任一视频帧的常规候选区域；所述识别单元40，还用于对所述常规轨迹图像序列识别，得到对应的识别结果。

在本公开的一些实施例中，所述预设条件包括以下至少一种：

在所述当前视频帧之后的连续第一预设数量的视频帧中，均未检测到任何目标对象；

在所述当前视频帧之后的连续第二预设数量的视频帧中，均未确定出与当前视频帧中任一候选区域的区域类别相同的候选区域；

所述当前视频帧与所述历史视频帧序列之间的视频帧的总数量，达到第三预设数量；

检测时长达到预设时长。

在本公开的一些实施例中，所述目标对象包括真实人物；所述识别单元，还用于采用分类网络，对所述每类候选区域对应的轨迹图像序列，进行分类识别，得到所述轨迹图像序列对应的人物行为。

本公开实施例提供一种电子设备，包括：存储器，用于存储可执行计算机程序；处理器，用于执行所述存储器中存储的可执行计算机程序时，实现上述的识别方法。

本公开实施例提供一种计算机可读存储介质，存储有计算机程序，用于引起处理器执行时，实现上述的识别方法。

本公开实施例具有以下有益效果：

对当前视频帧进行目标检测，在检测出目标对象的情况下，确定出目标对象的检测框区域，根据目标对象的检测框区域，确定出当前视频帧的中心区域，并根据历史视频帧中的历史候选区域的区域类别，确定出当前视频帧的每个中心区域所对应的候选区域的区域类别，其中，每个候选区域至少包含与其对应的中心区域，历史视频帧是在当前视频帧之前的、且已检测过的视频帧；从历史视频这序列和当前视频帧的视频帧序列中，确定出每种类别的候选区域对应的轨迹图像序列，并识别每种类别的候选区域所对应的轨迹图像序列，得到对应的识别结果。由于，对于每个包含目标对象的视频帧，确定出了该视频帧的中心区域，并确定出了该视频帧中至少包含中心区域、且具有区域类别的候选区域，所以，得到的每种类别的候选区域都是对应的视频帧中的重要区域；以及，针对得到的由当前视频帧和历史视频帧序列组成的视频帧序列，根据该视频帧序列的视频帧中包含的每种类别的候选区域，得到了该视频帧序列对应的每种类别的候选区域的轨迹图像序列，所以，得到的每种类别的候选区域对应的轨迹图像序列，都是由视频帧序列中属于同一区域的重要区域组成的；从而，在对每种类别的候选区域的轨迹图像序列进行识别时，相比于对视频帧序列中每个视频帧的整张图像进行识别而言，减少了图像中背景因素对识别的干扰，并且，减少了识别时的计算量和识别范围，从而提高了识别效率，以及提高了所得到的识别结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1A为本公开实施例提供的识别方法的一个可选的流程示意图；

图1B为本公开实施例提供的识别方法的一个示例性的流程示意图；

图2A和图2B分别是本公开实施例提供的示例性地两种类别的候选区域分别对应的轨迹图像序列的示意图；

图3为本公开实施例提供的识别方法的一个可选的流程示意图；

图4为本公开实施例提供的识别方法的一个可选的流程示意图；

图5为本公开实施例提供的识别方法的一个可选的流程示意图；

图6为本公开实施例提供的识别方法的一个可选的流程示意图；

图7为本公开实施例提供的识别方法的一个可选的流程示意图；

图8为本公开实施例提供的识别方法的一个可选的流程示意图；

图9为本公开实施例提供的识别方法的一个可选的流程示意图；

图10为本公开实施例提供的示例性地候选区域图像C与对应的新候选区域图像C’的示意图；

图11为本公开实施例提供的识别方法的一个可选的流程示意图；

图12为本公开实施例提供的识别装置的结构示意图；

图13为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

相关技术中，采用训练好的网络模型，对摄像头采集的视频中的异常事件进行识别时，通常是对输入视频序列中的每帧视频的整张图像数据进行增强或进行其他预处理后，进行预测，如此，导致背景因素较多，分类不准，且计算量较大，造成识别的效率和准确性较低，无法及时、准确地发现视频中的异常事件。

本公开实施例提供一种识别方法，能够提高识别的效率和准确性。本公开实施例提供的识别方法应用于电子设备。

下面说明本公开实施例提供的电子设备的示例性应用，本公开实施例提供的电子设备可以实施为AR眼镜、笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端(以下简称终端)，也可以实施为服务器。

图1A是本公开实施例提供的识别方法的一个可选的流程示意图，将结合图1A示出的步骤进行说明。

S101、对当前视频帧进行目标检测，确定存在的目标对象的检测框区域。

本公开实施例中，电子设备可以采用预先训练好的目标检测模型，对当前视频帧进行目标检测，确定出当前视频帧中是否存在目标对象，并在存在目标对象的情况下，确定出所存在的每个目标对象的检测框区域。示例性地，目标检测模型可以是Faster R-CNN(Fast Region-based Convolutional Network，Faster R-CNN)模型，或者，目标检测模型也可以是单镜头多盒检测模型(Single Shot MultiBox Detector，SSD)或其他目标检测模型，本公开实施例对此不作限定。

在一些实施例中，当前视频帧是待检测视频帧序列中正在检测的一个视频帧；电子设备在自身设置有摄像头的情况下，可以通过自身的摄像头实时采集待检测视频帧序列，并对待检测视频帧序列中的每一个视频帧实时进行目标检测；或者，电子设备也可以从其他设备处实时获待检测视频帧序列，并对实时获取到的待检测视频帧序列中的每个视频帧进行目标检测。

本公开实施例中，视频帧可以是采集的任何场景的视频图像，例如，可以是采集的街道的视频图像，也可以是采集的商场的视频图像，本公开实施例对此不作限定。本公开实施例中，目标对象可以是任意对象，例如，猫、狗、汽车或真实人物等，本公开实施例对此也不作限定。

需要说明的是，当前视频帧可以是包含目标对象的视频帧，也可以是不包含目标对象的视频帧，此处是对当前视频帧中包含目标对象的情况进行论述，而对于当前视频帧中不包含目标对象的情况，将在本公开的其他部分处进行说明。

S102、根据目标对象的检测框区域，确定当前视频帧的中心区域。

本公开实施例中，电子设备在确定当前视频帧中存在目标对象的情况下，可以根据当前视频帧中的所有目标对象的检测框区域，确定出当前视频帧的中心区域。

在一些实施例中，在当前视频帧中存在至少一个目标对象的情况下，针对每个目标对象，电子设备可以通过扩大该目标对象对应的检测框区域的面积，来得到该目标对象对应的外扩区域，从而得到至少一个目标对象对应的至少一个外扩区域，并可以从这至少一个外扩区域中，确定出一个或多个外扩区域作为当前视频帧的中心区域。

在一些实施例中，在当前视频帧中仅存在一个目标对象的情况下，电子设备可以在通过扩大该目标对象对应的检测框区域的面积，来得到该目标对象对应的外扩区域之后，直接将该目标对象的外扩区域作为当前视频帧的中心区域。

在一些实施例中，在当前视频帧中存在至少两个目标对象的情况下，电子设备可以在得到对应的至少两个外扩区域之后，根据每个外扩区域中包含的目标对象的数量，从中选取至少一个外扩区域作为中心区域。在一些实施例中，在当前视频帧中存在至少两个目标对象的情况下，电子设备在得到对应的至少两个外扩区域之后，还可以采用其他方式从中确定出中心区域，具体将在后续部分进行说明。

这里，每个目标对象的外扩区域，可以是将该目标对象的检测框区域的面积，扩大第一预设比例后得到的区域，第一预设比例可以根据实际需要设定，例如，可以是1.5或2等，本公开实施例对此不作限定。

需要说明的是，当前视频帧中可以存在一个中心区域，也可以存在两个或两个以上中心区域，中心区域的数量可以根据实际需要设定，本公开实施例对此不作限定。

S103、根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别；每个候选区域至少包含与其对应的中心区域；历史视频帧是当前视频帧之前的、且已检测过的视频帧序列。

本公开实施例中，针对当前视频帧，在电子设备确定在当前视频帧之前、存在已检测过的视频帧序列的情况下，可以将在当前视频帧之前、且已检测过的视频帧序列作为历史视频序列，并根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定出当前视频帧中每个中心区域对应的候选区域的区域类别，从而得到当前视频帧中，每个中心区域对应的候选区域的区域类别。而在电子设备确定在当前视频帧之前、不存在已检测过的视频帧序列，即当前视频帧为初始视频帧的情况下，电子设备可以将当前视频帧中所有中心区域对象的候选区域，确定为不同区域类别的候选区域，以供下一个当前视频帧确定候选区域的区域类别时使用。

在一些实施例中，电子设备可以根据历史视频帧序列中的任意一个视频帧，确定出当前视频帧中每个中心区域对应的候选区域的区域类别，也可以根据历史视频帧序列中的任意多个视频帧，确定出当前视频帧中每个中心区域对应的候选区域的区域类别，本公开实施例对此不作限定。

在一些实施例中，每个历史候选区域具有区域标识(patch Identity document，patch ID)，用于表征该历史候选区域所属的区域类别；基于此，上述S103可以通过S1031实现：

S1031、根据历史视频帧中，历史中心区域对应的历史候选区域的区域标识，确定每个中心区域对应的候选区域的区域标识。

电子设备在进行检测的过程中，会为每个候选区域设定区域标识，并采用区域标识来表征候选区域的区域类别，其中，区域标识相同的候选区域的区域类别相同，说明属于同一区域；而区域标识不同的候选区域的区域类别不同，说明属于不同区域。电子设备可以根据历史视频帧中的历史候选区域的区域标识，来确定出当前视频帧中，每个中心区域对应的候选区域的区域标识，得到当前视频帧中每个候选区域的区域类别，从而得到当前视频帧中每个候选区域，与历史候选区域之间的相关性，以用于后续获得相应的轨迹图像序列。

这里，每个中心区域对应的候选区域，是将该中心区域对应的检测框区域的面积扩大第二预设比例后所得到的区域；并且，第二预设比例大于或等于第一预设比例；第二预设比例可以根据实际需要设定，例如，可以是2或3等，本公开实施例对此不作限定。

需要说明的是，历史中心区域是历史视频帧中的中心区域，以及，历史候选区域是历史视频帧中的候选区域，此处，采用历史中心区域和历史候选区域这一描述，是为了与当前视频帧中的中心区域和候选区域进行区分。

S104、从历史视频帧序列和当前视频帧中，确定每类候选区域对应的轨迹图像序列。

本公开实施例中，在对某个当前视频帧检测之后，电子设备可以从由历史视频帧序列，以及该当前视频帧所组成的视频帧序列中，确定出每种类别的候选区域所对应的所有候选区域图像，将对应的所有候选区域图像所组成的序列，作为该种类别的候选区域所对应的轨迹图像序列。每种类别的候选区域所对应的轨迹图像序列，由该种类别的至少一个候选区域在所在的视频帧中，对应的图像部分组成。例如，在区域类别为A的候选区域对应的轨迹图像序列，由候选区域图像m1和候选区域图像m2组成，并且，候选区域图像m1属于视频帧M1，候选区域图像m2属于视频帧M2的情况下，候选区域图像m1是视频帧M1中，区域类别为A的候选区域对应的图像部分，候选区域图像m2是视频帧M2中，区域类别为A的候选区域对应的图像部分。

在一些实施例中，电子设备可以在确定满足预设条件的情况下，得到由历史视频帧序列，以及当前视频帧所组成的视频帧序列，并从得到的视频帧序列中，确定每种类别的候选区域对应的轨迹图像序列，关于满足预设条件的情况，将在本公开实施例的其他部分进行说明。

S105、识别每类候选区域对应的轨迹图像序列，得到对应的识别结果。

本公开实施例中，电子设备在得到每种类别的候选区域对应的轨迹图像序列后，可以对每种类别的候选区域对应的轨迹图像序列进行识别，从而得到识别结果。

在一些实施例中，电子设备可以采用分类网络(分类模型)，对每种类别的候选区域对应的轨迹图像序列进行分类，从而将分类结果作为最终的识别结果，其中，分类网络可以是残差网络(ResNet)，也可以是其他网络，本公开实施例对此不作限定。

在一些实施例中，目标对象包括真实人物；上述S105可以通过S1051实现：

S1051、采用分类网络，对每类候选区域对应的轨迹图像序列，进行分类识别，得到轨迹图像序列对应的人物行为。

本公开实施例中，对于每种类别的候选区域对应的轨迹图像序列，电子设备可以采用分类网络，对该种类别的候选区域对应的轨迹图像序列，进行分类，得到该种类别的候选区域对应的轨迹图像序列对应的人物行为，例如，打架行为，或者，闹事行为等。

根据以上步骤可知，在目标对象为行人的情况下，本公开实施例提供的识别方法可以采用图1B中的流程表示；如图1B所示，对待检测视频序列中的当前视频帧进行行人识别，得到当前视频帧中每个行人的检测框，根据每个行人的检测框得到对应的中心区域(图1B中未示出)，并根据每个行人对应的中心区域，得到每个行人对应的候选区域，在将待检测视频序列检测结束后，得到每个行人的至少一个候选区域，并根据每个行人的至少一个候选区域，确定出每个行人的轨迹图像序列，并通过对每个行人的轨迹图像序列的识别，得到对应的视频识别结果。

示例性地，图2A和图2B分别是本公开实施例提供的两种类别的候选区域分别对应的轨迹图像序列。如图2A和图2B所示，在目标对象为真实人物的情况下，区域类别为A1(图2A中未示出)的候选区域对应的轨迹图像序列为k1，区域类别为A2(图2B中未示出)的候选区域对应的轨迹图像序列为k2；并且，每个轨迹图像序列中均包含了重要的、且属于同一区域的图像部分，所以电子设备可以通过对得到的轨迹图像序列进行分类识别，实现快速且准确地对每个轨迹图像序列的识别；例如，对轨迹图像序列为k1的识别结果可以为：打架；对轨迹图像序列为k2的识别结果可以为：正常行走。

在本公开的一些实施例中，如图3所示，上述S102可以通过S1021-S1023实现；将根据图3中的步骤进行说明。

S1021、将每个目标对象的检测框区域扩大第一预设比例，得到每个目标对象的外扩区域；当前视频帧至少包括两个目标对象。

本公开实施例中，在当前视频帧中包括至少两个目标对象的情况下，对于至少两个目标对象中的每个目标对象，电子设备可以将该目标对象的检测框区域扩大第一预设比例，从而得到该目标对象的外扩区域，从而针对这至少两个目标对象，便可对应获得至少两个外扩区域。需要说明的是，外扩区域相比于检测框区域而言，区域面积大，区域范围广。

示例性地，电子设备可以将每个目标对象的检测框区域扩大1.5倍，从而得到每个目标对象的外扩区域。

S1022、对于每个外扩区域，确定该外扩区域与至少一个剩余外扩区域之间的匹配次数；至少一个剩余外扩区域为至少两个目标对象对应的至少两个外扩区域中，除该外扩区域之外的外扩区域。

本公开实施例中，对于得到的这至少两个外扩区域中的每个外扩区域，电子设备可以计算该外扩区域与这至少两个外扩区域中的其他外扩区域之间的匹配次数。例如，在通过上述S1021得到了3个外扩区域(外扩区域1、外扩区域2和外扩区域3)的情况下，对于外扩区域1，电子设备可以计算外扩区域1与外扩区域2和外扩区域3之间的匹配次数；对于外扩区域2，电子设备可以计算外扩区域2与外扩区域1和外扩区域3之间的匹配次数；对于外扩区域3，电子设备可以计算外扩区域3与外扩区域1和外扩区域2之间的匹配次数。

在一些实施例中，上述S1022可以通过S21-S22实现：

S21、对于每个外扩区域和每个剩余外扩区域，计算该外扩区域与该剩余外扩区域之间的面积交并比，并在面积交并比大于或等于预设面积交并比阈值的情况下，确定该外扩区域与该剩余外扩区域之间相匹配。

本公开实施例中，对于每个外扩区域和每个剩余外扩区域，电子设备可以计算该外扩区域与该剩余外扩区域之间的面积交并比，并在面积交并比大于或等于预设面积交并比阈值的情况下，确定该外扩区域与该剩余外扩区域相匹配，而在面积交并比小于预设面积交并比阈值的情况下，确定该外扩区域与该剩余外扩区域不匹配。例如，继续以上述3个外扩区域进行举例说明，对于外扩区域1，电子设备可以计算外扩区域1与外扩区域2之间的面积交并比，以及计算外扩区域1与外扩区域3之间的面积交并比，并在外扩区域1与外扩区域2之间的面积交并比，小于预设面积交并比阈值的情况下，确定外扩区域1与外扩区域2之间不匹配，而在外扩区域1与外扩区域3之间的面积交并比，大于或等于预设面积交并比阈值的情况下，确定外扩区域1与外扩区域3相匹配。对于外扩区域2和外扩区域3，原理同上，本公开实施例在此不作赘述。

在本公开实施例中，每个外扩区域与每个剩余外扩区域之间的面积交并比为：该外扩区域与该剩余外扩区域之间的区域交集与区域并集的比值。

S22、将与该外扩区域相匹配的剩余外扩区域的数量，作为该外扩区域与至少一个剩余外扩区域之间的匹配次数。

电子设备根据上述S21可以获得这至少两个外扩区域中，每个外扩区域与所有其他外扩区域(上述的至少一个剩余外扩区域)之间的匹配情况，对于每个外扩区域，电子设备可以根据得到的匹配情况，确定出与该外扩相匹配的剩余外扩区域的数量，并将该数量作为该外扩区域与所有其他外扩区域之间的匹配次数。例如，继续以上述的3个外扩区域中的外扩区域1进行举例说明，外扩区域1与外扩区域2和外扩区域3的匹配情况为：外扩区域1与外扩区域2不匹配，但外扩区域1与外扩区域3相匹配，从而可以确定，外扩区域1与至少一个剩余外扩区域之间的匹配次数为1。

S1023、将至少两个外扩区域中匹配次数最多的前N个外扩区域，作为中心区域；N为大于等于1的整数。

在得到了这至少两个外扩区域中每个外扩区域的匹配次数的情况下，电子设备可以从这至少两个外扩区域中，选出匹配次数最多的前N个外扩区域作为当前视频帧的中心区域。例如，继续以上述3个外扩区域进行举例说明，在外扩区域1的匹配次数为1，外扩区域2的匹配次数为0，且外扩区域3的匹配次数为1的情况下，电子设备可以将匹配次数最多的外扩区域1和外扩区域3作为中心区域。

示例性地，电子设备可以在确定出所有的外扩区域的匹配次数的情况下，根据每个外扩区域的匹配次数，对所有的外扩区域进行排序，并根据排序结果，从当前视频帧的所有外扩区域中，选取匹配次数最多的前K个外扩区域，从而得到K个中心区域。例如，继续以上述的3个外扩区域为例进行说明，外扩区域1的匹配次数为1，外扩区域2的匹配次数为0，且外扩区域3的匹配次数为1，则排序结果为：外扩区域1、外扩区域3和外扩区域2；电子设备可以选取外扩区域1和外扩区域3作为中心区域，从而得到2个中心区域。

本公开实施例中，由于根据与其他外扩区域之间的面积交并比，选出了所匹配的其他外扩区域最多的至少一个外扩区域，作为了当前视频帧的中心区域，而所匹配的其他外扩区域越多，说明此区域越处于目标对象聚集的中心位置，所以在采用获得的中心区域得到后续的候选区域以及轨迹图像序列时，所得到的候选区域以及轨迹图像序列中，可以包含的目标对象更多，从而提升了对当前视频帧中的目标对象区域的感知能力，有利于提高识别准确性。

在本公开的一些实施例中，如图4所示，上述S103可以通过S1032-S1033实现；将根据图4中的步骤进行说明。

S1032、根据历史视频帧序列中各个视频帧之间的时间顺序，从历史视频帧序列中，确定出一个历史视频帧。

本公开实施例中，电子设备可以先确定出历史视频帧序列中，各个视频帧之间的时间先后顺序，并根据确定出的各个视频帧之间的时间先后顺序，从历史视频帧序列包含的至少一个视频帧中，确定出一个包含候选区域的视频帧作为历史视频帧，以用于确定当前视频帧中每个候选区域的区域类别。

在一些实施例中，每个视频帧具有帧序号，电子设备可以根据历史视频帧序列中各个视频帧之间的帧序号，从中选出一个与当前视频帧的帧序号之间的差值最小、且包含中心区域和候选区域的视频帧作为历史视频帧。示例性地，历史视频帧可以是当前视频帧的上一帧，且该上一帧中包含中心区域和候选区域。

本公开实施例中，选取历史视频序列中，距离当前视频帧最近的一个视频帧作为历史视频帧，可以很好地确定当前视频帧中，每个候选区域与历史候选区域之间的关联性，有利于对相同候选区域的追踪，使得确定出的当前视频帧中的候选区域的区域类别更准确。

S1033、根据该历史视频帧中，历史中心区域对应的历史候选区域的区域类别，确定当前视频帧中，每个中心区域对应的候选区域的区域类别。

本公开实施例中，电子设备在选出历史视频帧之后，可以将历史视频帧中的候选区域作为历史候选区域，且将该历史视频帧中的中心区域作为历史中心区域；并根据历史中心区域对应的历史候选区域的区域类别，来确定当前视频帧中，每个中心区域对应的候选区域的区域类别。

在本公开的一些实施例中，如图5所示，上述S103还可以通过S1034-S1036实现；将根据图5中的步骤进行说明。

S1034、将每个中心区域对应的检测框区域扩大第二预设比例，得到每个中心区域对应的候选区域。

本公开实施例中，对于每个中心区域，电子设备可以将该中心区域对应的检测框区域扩大第二预设比例后，得到与该中心区域对应的候选区域，并且，第二预设比例大于或等于第一预设比例。

S1035、确定每个中心区域对应的候选区域，与每个历史候选区域之间的目标标识交并比，并确定每个候选区域的最大目标标识交并比。

本公开实施例，每个检测框区域对应有目标标识，且历史视频帧序列中包含至少一个历史候选区域。针对与一个中心区域对应的候选区域，电子设备可以计算出该候选区域与每个历史候选区域之间的目标标识交并比，从而针对该候选区域而言，可以得到与历史候选区域数量相同的目标标识交并比，并从中可以确定出最大的目标标识交并比，且该最大目标标识交并比与该候选区域对应，并与一个历史候选区域对应。例如，候选区域H0和一个历史候选区域L0之间的目标标识交并比，是候选区域H0与所有历史候选区域之间的目标标识交并比中的最大目标标识交并比，该最大目标标识交并比与候选区域H0对应，且与历史候选区域L0对应。

本公开实施例中，每个目标对象的检测框区域均对应有目标标识，且不同的目标对象的检测框区域对应的目标标识不同，相同的目标对象的检测框区域对应的目标标识相同，例如，在目标对象为真实人物的情况下，人物1的检测框区域对应的目标标识为ID1，人物2的检测框区域对应的目标标识为ID2。

本公开实施例中，每个候选区域中均包含目标对象，电子设备可以根据当前视频帧中，每个候选区域所包含的目标对象的目标标识，与每个历史候选区域所包含的目标对象的目标标识之间的交并比，来确定出对应的目标标识交并比。每个候选区域与每个历史候选区域之间的目标标识交并比为：该候选区域和该历史候选区域中包含的相同目标标识的数量，与该候选区域和该历史候选区域中的总目标标识的数量之间的比值。

S1036、根据每个候选区域的最大目标标识交并比，确定每个候选区域的区域类别。

针对每个候选区域，电子设备在得到该候选区域对应的最大目标标识交并比的情况下，可以根据该最大目标标识交并比，来确定出该候选区域的区域类别。

在一些实施例中，对于任一候选区域，上述的S1036可以通过S31-S32实现：

S31、对于任一候选区域，在该任一候选区域的最大目标标识交并比大于预设标识交并比阈值的情况下，确定最大目标标识交并比对应的历史候选区域与该任一候选区域的区域类别相同。

S32、在任一候选区域的最大目标标识交并比小于或等于预设标识交并比阈值的情况下，确定该任一候选区域为新增区域，且对应有新增区域类别；新增区域类别与任一历史候选区域的区域类别不同。

本公开实施例中，对于当前视频帧中的一个候选区域H1，电子设备在确定出候选区域H1对应的最大目标标识交并比的情况下，电子设备可以确定该最大目标标识交并比是否大于预设标识交并比阈值，并在该最大目标标识交并比大于预设标识交并比阈值的情况下，便可确定候选区域H1与该最大目标标识交并比对应的历史候选区域的区域类别相同。而在电子设备确定出候选区域H1对应的最大目标标识交并比小于或等于预设标识交并比阈值的情况下，电子设备可以确定候选区域H1为一个新增区域，并且为候选区域H1设定与任一历史候选区域的区域类别不同的新增区域类别。

本公开实施例中，预设标识交并比阈值可以根据实际需要设定，例如，可以为0，或者，也可以为1，本公开实施例对此不作限定。在一些实施例中，如图6所示，对于任一候选区域和任一历史候选区域，上述S1035中的确定每个中心区域对应的候选区域，与每个历史候选区域之间的目标标识交并比，可以通过S201-S203实现；将根据图6中的步骤进行说明。

S201、确定任一候选区域中，包含的每个检测框区域对应的第一目标标识，得到至少一个第一目标标识；以及确定任一历史候选区域中，包含的每个检测框区域对应的第二目标标识，得到至少一个第二目标标识。

对于当前视频帧中的一个候选区域，电子设备可以确定出该候选区域中，包含的所有目标对象对应的所有第一目标标识，从而得到至少一个第一目标标识；并且，针对一个历史候选区域，电子设备可以确定出该历史候选区域中，包含的所有目标对象对应的所有第二目标标识。例如，电子设备可以确定出当前视频帧中的一个候选区域H中包含了目标标识ID1和目标标识ID2，一个历史候选区域L中包含了目标标识ID1和目标标识ID3。

S202、确定至少一个第一目标标识和至少一个第二目标标识中，相同的目标标识的第一数量，以及，确定至少一个第一目标标识和至少一个第二目标标识中，不同的目标标识的第二数量。

在电子设备分别确定出该候选区域中的所有第一目标标识，以及该历史候选区域中的所有第二目标标识的情况下，可以确定所有第一目标标识和所有第二目标标识中，相同的目标标识的第一数量，以及不同的目标标识的第二数量；例如，针对上述中，电子设备确定出当前视频帧中的一个候选区域H中包含了目标标识ID1和目标标识ID2，一个历史候选区域L中包含了目标标识ID1和目标标识ID3，电子设备可以确定出候选区域H和历史候选区域L中，相同的目标标识有1个(即ID1)，不同的目标标识有2个(即ID2、ID3)。

S203、确定第一数量与第二数量的数量和，并将第一数量与数量和的比值，作为该任一候选区域，与该任一历史候选区域之间的目标标识交并比。

电子设备在确定第一数量和第二数量后，可以对第一数量和第二数量求和，得到第一数量与第二数量之间的数量和，并计算第一数量与数量和之间的比值，从而得到该候选区域与该历史候选区域之间的目标标识交并比。例如，如上述举例而言，在电子设备确定出候选区域H和历史候选区域L中，相同的目标标识有1个(即ID1)，不同的目标标识有2个(即ID2、ID3)的情况下，第一数量1和第二数量2之和为3，从而，可以确定出候选区域H与历史候选区域L之间的目标标识交并比为1/3。

本公开实施例中，在目标对象为真实人物的情况下，通过对所包含的真实人物的ID的重叠度进行计算，以及得到包含多人的区域所对应的轨迹图像序列，提高了对事件的有效感受野的同时，扩大了搜索范围，并且，提升了在识别视频帧之前，对需要检测的视频帧的预处理的召回率。

在一些实施例中，如图7所示，上述S104可以通过S1041-S1042实现；将根据图7中的步骤进行说明。

S1041、从历史视频帧序列和当前视频帧中，包含每类候选区域的每个视频帧中，截取出候选区域，得到候选区域图像。

S1042、基于候选区域图像，得到每类候选区域对应的轨迹图像序列。

本公开实施例中，电子设备在得到由历史视频帧序列和当前视频帧组成的视频帧序列的情况下，可以从该视频帧序列的包含了每种类别的候选区域的每个视频帧中，将候选区域截取出来，得到对应的候选区域图像；并且，根据得到的所有候选区域图像，确定出每种类别的候选区域所对应的轨迹图像序列。

这里，每个候选区域均在所在的视频帧中对应有区域坐标。在一些实施例中，对于每个候选区域，电子设备可以从该候选区域所在的视频帧中，仅将该区域坐标所对应的候选区域，从对应的视频帧中截取出来，从而得到该候选区域对应的候选区域图像。

示例性地，在视频帧序列中包括4个视频帧，且第1个视频帧中包含有类别为A1的候选区域H1，区域坐标为Z1，以及类别为A2的候选区域H2，区域坐标为Z2；第2个视频帧中包含有类别为A1的候选区域H3，区域坐标为Z3；第3个视频帧中包含有类别为A1的候选区域H4，区域坐标为Z4，以及类别为A3的候选区域H5，区域坐标为Z5；以及，第4个视频帧中包含有类别为A3的候选区域H6，区域坐标为Z6。电子设备可以根据每个区域坐标，从对应的视频帧中截取出对应的候选区域部分，从而便可得到候选区域H1对应的候选区域图像S1、候选区域H2对应的候选区域图像S2、候选区域H3对应的候选区域图像S3、候选区域H4对应的候选区域图像S4、候选区域H5对应的候选区域图像S5，以及候选区域H6对应的候选区域图像S6；并根据这些候选区域图像，得到类别为A1的所有候选区域(H1、H3、H4)对应的轨迹图像序列、类别为A2的所有候选区域(H2)对应的轨迹图像序列，以及类别为A3的所有候选区域(H5、H6)对应的轨迹图像序列。

在一些实施例中，电子设备在得到候选区域图像的情况下，可以根据所对应的候选区域的区域类别进行归类排序，以通过将属于不同区域类别的候选区域图像进行归类排序，来得到每种类别的候选区域对应的轨迹图像序列。在一些实施例中，对于每种区域类别的候选区域图像，电子设备可以根据对应的候选区域所在的视频帧之间的时间先后顺序，来对该种类别的候选区域图像进行排序，例如，可以将该种类别的候选区域图像，根据对应的候选区域所在的视频帧之间的时间先后顺序，进行相同顺序的排序；如此，使得候选区域图像中所包含的目标对象的出现顺序与实际出现顺序相同，使得后续在对得到的轨迹图像序列进行识别时，得到的识别结果更准确。

在一些实施例中，对于每个候选区域，电子设备还可以从该候选区域所在的视频帧中，将包含了该候选区域部分的图像部分截取出来，从而得到包含的范围更大的候选区域图像。

示例性地，上述S1041可以通过S301-S302实现，将根据图8中的步骤进行说明。

S301、在满足预设条件的情况下，根据每类候选区域在历史视频帧序列和当前视频帧中，相应的视频帧中的位置信息，确定出每类候选区域对应的概括位置信息；概括位置信息对应的区域，包含每类候选区域中的任意一个候选区域。

本公开的实施例中，电子设备可以在确定满足预设条件的情况下，得到由历史视频帧序列和当前视频帧组成的视频帧序列，并根据每种类别的所有候选区域在视频帧序列的对应视频帧中的位置信息，来确定出该种类别的所有候选区域所对应的一个概括位置信息，并使得该概括位置信息所对应的区域，可以包含该种类别的候选区域中的任意一个候选区域。

这里，位置信息可以为区域坐标，对于每种类别的候选区域而言，概括位置信息可以是该种类别的候选区域对应的区域坐标的并集，例如，最小的并集。例如，在A1类的所有候选区域中，第一个候选区域H11在第1个视频帧中的区域坐标为(x11，y11)(x12，y12)，第二个候选区域H12在第3个视频帧中的区域坐标为(x21，y21)、(x22，y22)，且x11<x12<x21<x22，y21<y22<y11<y12的情况下，该A1类的所有候选区域对应的所有区域坐标的最小的坐标并集为：(x11，y21)、(x22，y12)；其中，该最小的坐标并集在该第1个视频帧中所对应的区域，包含了第一个候选区域H11，并且，该最小的坐标并集在该第3个视频帧中所对应的区域，包含了第二个候选区域H12。

在一些实施例中，预设条件包括以下至少一种：

(1)在当前视频帧之后的连续第一预设数量的视频帧中，均未检测到任何目标对象。

本公开的实施例中，电子设备可以在从当前视频帧之后的连续多张视频帧中，均未检测到任何目标对象的情况下，根据从由当前视频帧与历史视频帧序列所组成的视频帧序列中，所得到的每种类别的候选区域的位置信息，来确定出每种类别的候选区域所对应的概括位置信息。

本公开实施例中，第一预设数量可以根据实际需要设定，例如，第一预设数量可以为3，则电子设备可以在从当前视频帧之后的连续3张视频帧中，均未检测到任何的目标对象的情况下，便确定满足预设条件；如此，可以及时得到每种类别的候选区域对应的轨迹图像序列，以及时对轨迹图像序列进行识别。

(2)在当前视频帧之后的连续第二预设数量的视频帧中，均未确定出与当前视频帧中任一候选区域的区域类别相同的候选区域。

本公开实施例中，电子设备在从当前视频帧之后的连续的多张视频帧中，均未确定出与当前视频帧中任一候选区域的区域类别相同的候选区域的情况下，便可根据从由当前视频帧与历史视频帧序列所组成的视频帧序列中，所得到的每种类别的候选区域的位置信息，来确定出每种类别的候选区域所对应的概括位置信息。

这里，从当前视频帧之后的连续多张视频帧中，均未确定出与当前视频帧中任一候选区域的区域类别相同的候选区域时，则说明该多张视频帧中的候选区域与当前视频帧中的候选区域的关联性较小，或者没有关联性，从而电子设备便可及时得到每种类别的候选区域对应的轨迹图像序列，以及时对轨迹图像序列进行识别，使得得到的轨迹图像序列更准确。

(3)当前视频帧与历史视频序列之间的视频帧的总数量，达到第三预设数量。

本公开实施例中，电子设备可以在确定出当前视频帧与历史视频帧序列之间的视频帧的总数量，达到第三预设数量的情况下，根据从由当前视频帧与历史视频帧序列所组成的视频帧序列中，得到的每种类别的候选区域的位置信息，来确定出每种类别的候选区域所对应的概括位置信息。

本公开实施例中，第一预设数量、第二预设数量和第三预设数量可以相同，也可以不同，本公开实施例对此不作限定。

本公开实施例中，第三预设数量可以根据实际需要设定，例如，在第三预设数量为10的情况下，电子设备在对每一个当前视频帧进行检测的过程中，在确定出某个当前视频帧的视频帧的数量(即为1)，与该当前视频帧的历史视频帧序列中的视频帧的数量(即为9)之间的总数量为10的情况下，便可根据从由该当前视频帧与该历史视频帧序列所组成的视频帧序列中，得到的每种类别的候选区域的位置信息，来确定出每种类别的候选区域，所对应的概括位置信息；如此，可以定期得到每种类别的候选区域对应的轨迹图像序列，有利于对轨迹图像序列的及时识别。

(4)检测时长达到预设时长。

本公开实施例中，电子设备可以在确定出已检测时长达到预设时长的情况下，根据达到预设时长时，对应的某个当前视频帧与该当前视频帧对应的历史视频帧序列中，每种类别的候选区域的位置信息，来确定出每种类别的候选区域所对应的概括位置信息。

本公开实施例中，预设时长可以根据实际需要设定，例如，可以为3秒，则电子设备可以得到第3秒对应的当前视频帧，以及该当前视频帧对应的历史视频帧序列(即得到这3秒内检测过的所有视频帧)，并根据从当前视频帧，以及该当前视频帧对应的历史视频帧序列中，得到的每种类别的候选区域的位置信息，来确定出每种类别的候选区域所对应的概括位置信息，以用于得到每种类别的候选区域对应的轨迹图像序列，实现每3秒得到每种类别的候选区域对应的轨迹图像序列；如此，可以定期得到每种类别的候选区域对应的轨迹图像序列，有利于对轨迹图像序列的及时识别。

以下继续对图8中S302进行说明：S302、从包含每类候选区域的每个视频帧中，截取概括位置信息对应的区域，得到候选区域图像。

在本公开的实施例中，对于每种类别的候选区域而言，电子设备在得到该种类别的候选区域对应的概括位置信息的情况下，可以从包含该种类别的候选区域的每个视频帧中，截取该概括位置信息所对应的图像部分，从而得到该种类别的候选区域的所有候选区域图像，以根据该种类别的所有候选区域图像，得到对应的轨迹图像序列。

在一些实施例中，如图9所示，上述S1042可以通过S501-S502实现，将根据图9中的步骤进行说明。

S501、将候选区域图像的尺寸调整至预设尺寸，得到新候选区域图像。

本公开实施例中，电子设备在得到每个候选区域图像之后，可以对每个候选区域图像进行尺寸调整，得到预设尺寸的新候选区域图像。

在一些实施例中，对于每个候选区域，电子设备在确定该候选区域图像的宽边的尺寸大于预设宽边尺寸的情况下，可以通过等比例缩小该候选区域图像，将宽边的尺寸调整至与预设宽边尺寸相等；并在缩小后的该候选区域图像的长边的尺寸小于预设长边尺寸的情况下，通过对缩小后的该候选区域图像进行像素填充(例如，补黑边)的方式，将该候选区域图像的长边尺寸调整至与预设长边尺寸相等。

在一些实施例中，对于每个候选区域，电子设备在确定该候选区域图像的宽边的尺寸小于预设宽边尺寸，且长边的尺寸也小于预设长边尺寸的情况下，通过对该候选区域图像进行像素填充或等比例放大等方式，将宽边的尺寸调整至与预设宽边尺寸相等，且将长边的尺寸调整至与预设长边尺寸相等。例如，图10示出了通过对长边尺寸、宽边尺寸均小于预设尺寸的候选区域图像C，进行补黑边的方式，所得到的预设尺寸的新候选区域图像C’。

本公开实施例中，预设尺寸可以根据实际需要设定，例如，可以为224*224，本公开实施例对此不作限定。

本公开实施例中，将候选区域图像调整为预设尺寸的新候选区域图像，可以得到包含的图像的尺寸相同的轨迹图像序列，有利于对轨迹图像序列的正确识别。

S502、根据新候选区域图像所在的视频帧的时间顺序，对得到的新候选区域图像排序，得到每类候选区域对应的轨迹图像序列。

本公开实施例中，对于每种类别的候选区域，电子设备在得到每个新候选区域图像之后，可以确定出每个新候选区域图像所在的视频帧的时间先后顺序，并按照所在的视频帧的时间先后顺序，来对该种类别的候选区域对应的所有新候选区域图像进行排序，并将排序后的该种类别的所有新候选区域图像，作为得到的该种类别的候选区域对应的轨迹图像序列。例如，在得到的所有区域类别的候选区域图像中，A1类的所有候选区域对应的4个新候选区域图像中，新候选区域图像C1位于第1个视频帧、新候选区域图像C2位于第4个视频帧、新候选区域图像C3位于第2个视频帧、新候选区域图像C4位于第7个视频帧，则电子设备可以按照：第1个视频帧、第2个视频帧、第4个视频帧、第7个视频帧，这一时间顺序，对C1至C4进行相同顺序的排序，得到排序结果：新候选区域图像C1、新候选区域图像C3、新候选区域图像C2、新候选区域图像C4；并将排序后的新候选区域图像，作为A1类的所有候选区域对应的轨迹图像序列。

在一些实施例中，由于电子设备是一帧一帧进行检测，所以，对于每种类别的候选区域，电子设备也可以根据得到每个新候选区域图像的先后顺序，对新候选区域图像进行排序，从而得到该种类别的候选区域对应的轨迹图像序列。

这里，根据新候选区域图像所在的视频帧的时间顺序，对得到的新候选区域图像排序，可以使得新候选区域图像中，所包含的目标对象的出现顺序与实际出现顺序相同，从而后续在对得到的轨迹图像序列进行识别时，得到的识别结果更准确。

在本公开的一些实施例中，如图11所示，上述方法还包括S106-S107，将根据图11中的步骤进行说明。

S106、在历史视频帧序列和当前视频帧中的每个视频帧中，均不存在目标对象的情况下，根据每个视频帧中的常规候选区域，得到对应的常规轨迹图像序列；其中，对于不存在目标对象的任一视频帧，以任一视频帧的中心为区域中心的预设尺寸区域，作为任一视频帧的常规候选区域。

本公开实施例中，电子设备在对当前视频帧进行目标检测，且确定出该当前视频帧中不存在目标对象的情况下，可以将该当前视频帧的中心作为区域中心，确定出预设尺寸的区域，并将该预设尺寸的区域作为常规候选区域；并继续对下一视频帧进行目标检测，在确定出该下一视频帧中也不存在目标对象的情况下，对该下一视频帧进行相同操作，得到该下一视频帧中的常规候选区域，直到得到了由历史视频帧序列和当前视频帧所组成的视频帧序列，且该视频帧序列中，每个视频帧中均不存在目标对象的情况下，电子设备可以根据该视频帧序列中，每个视频帧中的常规候选区域，得到对应的常规轨迹图像序列。

在一些实施例中，在当前视频帧与历史视频序列之间的视频帧的总数量，达到第二预设数量的情况下，或者，在检测时长达到预设时长的情况下，电子设备可以得到由历史视频帧序列和当前视频帧所组成的视频帧序列。

在一些实施例中，每个常规候选区域均具有对应的区域坐标，对于每个常规候选区域而言，电子设备可以根据该常规候选区域所在的视频帧，将区域坐标对应的图像部分截取下来，得到该常规候选区域对应的常规候选区域图像；并根据每个常规候选区域图像对应的常规候选区域的先后获得顺序，对所有的常规候选区域图像进行排序，并将排序后的常规候选区域图像，作为常规轨迹图像序列。如此，可以使得常规候选区域中，所包含的物体的出现顺序与实际出现顺序相同，从而后续在对得到的常规轨迹图像序列进行识别时，得到的识别结果更准确。

S107、对常规轨迹图像序列识别，得到对应的识别结果。

本公开实施例中，电子设备在得到常规轨迹图像序列后，可以对常规轨迹图像序列进行识别，从而得到识别结果。

本公开实施例中，在得到的视频帧序列的每个视频帧中，均不存在目标对象的情况下，根据视频帧序列中的常规候选区域，得到对应的常规轨迹图像序列，并进行识别，可以在电子设备的检测精度不高或对目标对象漏检测的情况下，也能得到视频序列中的重要图像序列以进行识别，有利于提高电子设备的识别准确率。

以下将通过一个应用场景实施例，来对本公开实施例提供的识别方案进行说明。

S1、对当前视频帧进行目标检测，在确定当前视频帧中存在真实人物的情况下，确定存在的每个真实人物的检测框区域，以及人物ID；

S2、在当前视频帧中包含至少两个真实人物的情况下，将每个真实人物的检测框区域的面积等比例扩大1.5倍，得到每个真实人物的外扩区域，并计算任意两个外扩区域之间的面积交并比，并在面积交并比大于0的情况下，确定该任意两个外扩区域之间相匹配；由此，确定当前视频帧中，所匹配的其他外扩区域最多的2个外扩区域，并将这2个外扩区域作为当前视频帧的2个中心区域；

S3、将这2个中心区域中，每个中心区域对应的检测框区域的面积等比例扩大2倍，得到每个中心区域对应的候选区域，即得到当前视频帧中的2个候选区域；

S4、在当前视频帧的上一视频帧中包含至少一个候选区域的情况下，将该上一视频帧作为历史视频帧，并将该上一视频帧中的至少一个中心区域，作为至少一个历史中心区域，以及将该上一视频帧中的至少一个候选区域，作为至少一个历史候选区域，其中，每个历史候选区域均具有一个区域ID(patch ID)；

S5、对于当前视频帧中的每个候选区域而言，计算该候选区域与每个历史候选区域之间的人物ID交并比，并在至少一个历史候选区域中，存在与该候选区域之间的人物ID交并比最大、且大于0的一个历史候选区域的情况下，将该历史候选区域作为匹配候选区域，并将匹配候选区域的patch ID，作为该候选区域的patch ID，而在至少一个历史候选区域中，不存在匹配候选区域的情况下，为该候选区域设定一个新的patch ID，且该新的patch ID与之前所有的patch ID均不同；

S6、在对视频帧的检测时长达到3秒的情况下，将第3秒检测过的当前视频帧，以及该当前视频帧的历史视频帧序列，作为视频帧序列(即该3秒内检测过的所有视频帧，作为视频帧序列)，并根据每种类别的候选区域在该视频序列中对应的视频帧中的位置坐标，确定出该种类别的候选区域所对应的一个概括位置坐标；该概括位置坐标对应的区域，包含该种类别的候选区域中的任意一个候选区域；

S7、从视频帧序列中，包含该种类别的候选区域的每个视频帧中，截取出概括位置坐标对应的区域，得到该种类别的候选区域对应的候选区域图像；

S8、对于该种类别的候选区域对应的候选区域图像，将每个候选区域图像的尺寸调整至224*224，得到对应的新候选区域图像；

S9、对于该种类别的候选区域对应的新候选区域图像，根据每个新候选区域所在的视频帧，与其他视频帧之间的帧序号的大小关系，将所有新候选区域图像进行排序，得到该种类别的候选区域对应的轨迹图像序列；

S10、采用分类网络，对该种类别的候选区域对应的轨迹图像序列进行分类识别，确定该轨迹图像序列对应的人物是否存在打架等行为。

S11、对当前视频帧进行目标检测，在确定当前视频帧中不存在真实人物的情况下，将以当前视频帧的中心为区域中心的预设尺寸区域，作为常规候选区域，并继续对下一视频帧进行目标检测，在对视频帧的检测时长达到3秒，且这3秒内检测过的所有视频帧中，均不存在目标对象的情况下，从每个常规候选区域所在的视频帧中，将常规候选区域的区域坐标对应的图像部分截取下来，得到每个常规候选区域对应的常规候选区域图像；并根据每个常规候选区域图像对应的常规候选区域的先后获得顺序，对所有的常规候选区域图像进行排序，并将排序后的常规候选区域图像，作为常规轨迹图像序列

S12、采用分类网络，对常规轨迹图像序列进行分类识别，确定常规轨迹图像序列对应的物体的行为。

本公开实施例中，通过启发式的可扩展的多人密集群体位置的估计方案，有效提升了对监控视频中的重要区域的感知能力，大大减少了检索范围和计算量。

本公开还提供一种识别装置，图12为本公开实施例提供的识别装置的结构示意图；如图12所示，识别装置1包括：检测单元10，用于对当前视频帧进行目标检测，确定存在的目标对象的检测框区域；确定单元20，用于根据所述目标对象的检测框区域，确定所述当前视频帧的中心区域；根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别；每个候选区域至少包含与其对应的中心区域；所述历史视频帧序列是所述当前视频帧之前的、且已检测过的视频帧序列；分割单元30，用于从所述历史视频这序列和所述当前视频帧中，确定每类候选区域对应的轨迹图像序列；识别单元40，用于识别所述每类候选区域对应的轨迹图像序列，得到对应的识别结果。

在本公开的一些实施例中，所述分割单元30，还用于从所述历史视频帧序列和所述当前视频帧中，包含每类候选区域的每个视频帧中，截取出所述候选区域，得到候选区域图像；基于所述候选区域图像，得到所述每类候选区域对应的所述轨迹图像序列。

在本公开的一些实施例中，所述确定单元20，还用于根据所述历史视频帧序列中各个视频帧之间的时间顺序，从所述历史视频帧序列中，确定出一个历史视频帧；根据所述历史视频帧中，历史中心区域对应的历史候选区域的区域类别，确定所述当前视频帧中，每个中心区域对应的候选区域的区域类别。

在本公开的一些实施例中，所述分割单元30，还用于在满足预设条件的情况下，根据每类候选区域在所述历史视频帧序列和所述当前视频帧中，相应的视频帧中的位置信息，确定出每类候选区域对应的概括位置信息；所述概括位置信息对应的区域，包含所述每类候选区域中的任意一个候选区域；从包含所述每类候选区域的每个视频帧中，截取所述概括位置信息对应的区域，得到候选区域图像。

在本公开的一些实施例中，所述分割单元30，还用于将候选区域图像的尺寸调整至预设尺寸，得到新候选区域图像；根据所述新候选区域图像所在的视频帧的时间顺序，对得到的新候选区域图像排序，得到所述每类候选区域对应的轨迹图像序列。

在本公开的一些实施例中，所述当前视频帧至少包括两个目标对象；所述确定单元20，还用于将每个目标对象的所述检测框区域扩大第一预设比例，得到所述每个目标对象的外扩区域；对于每个外扩区域，确定所述外扩区域与至少一个剩余外扩区域之间的匹配次数；所述至少一个剩余外扩区域为所述至少两个目标对象对应的至少两个外扩区域中，除所述外扩区域之外的外扩区域；将所述至少两个外扩区域中匹配次数最多的前N个外扩区域，作为中心区域；N为大于等于1的整数。

在本公开的一些实施例中，所述确定单元20，还用于对于每个外扩区域和每个剩余外扩区域，计算所述外扩区域与所述剩余外扩区域之间的面积交并比，并在所述面积交并比大于或等于预设面积交并比阈值的情况下，确定所述外扩区域与所述剩余外扩区域之间相匹配；将与所述外扩区域相匹配的剩余外扩区域的数量，作为所述外扩区域与所述至少一个剩余外扩区域之间的匹配次数。

在本公开的一些实施例中，所述每个历史候选区域具有区域标识，用于表征所述每个历史候选区域所属的区域类别；所述确定单元20，还用于根据历史视频帧中的历史中心区域对应的历史候选区域的区域标识，确定每个中心区域对应的候选区域的区域标识。

在本公开的一些实施例中，每个检测框区域对应有目标标识；所述历史视频帧序列中包含至少一个历史候选区域；所述确定单元20，还用于将每个中心区域对应的检测框区域扩大第二预设比例，得到所述每个中心区域对应的候选区域；确定所述每个中心区域对应的候选区域，与每个历史候选区域之间的目标标识交并比，并确定每个候选区域的最大目标标识交并比；根据每个候选区域的最大目标标识交并比，确定每个候选区域的区域类别。

在本公开的一些实施例中，确定单元20，还用于对于任一候选区域，在所述任一候选区域的最大目标标识交并比大于预设标识交并比阈值的情况下，确定所述最大目标标识交并比对应的历史候选区域与所述任一候选区域的区域类别相同；和/或，在所述任一候选区域的最大目标标识交并比小于或等于预设标识交并比阈值的情况下，确定所述任一候选区域为新增区域，且对应有新增区域类别；所述新增区域类别与任一历史候选区域的区域类别不同。

在本公开的一些实施例中，所述确定单元20，还用于对于任一候选区域和任一历史候选区域，确定所述任一候选区域中，包含的每个检测框区域对应的第一目标标识，得到至少一个第一目标标识；以及确定所述任一历史候选区域中，包含的每个检测框区域对应的第二目标标识，得到至少一个第二目标标识；确定所述至少一个第一目标标识和所述至少一个第二目标标识中，相同的目标标识的第一数量，以及，确定所述至少一个第一目标标识和所述至少一个第二目标标识中，不同的目标标识的第二数量；确定所述第一数量与所述第二数量的数量和，并将所述第一数量与所述数量和的比值，作为所述任一候选区域，与所述任一历史候选区域之间的所述目标标识交并比。

在本公开的一些实施例中，所述检测单元10，还用于在所述历史视频帧序列和所述当前视频帧中的每个视频帧中，均不存在目标对象的情况下，根据所述每个视频帧中的常规候选区域，得到对应的常规轨迹图像序列；其中，对于不存在目标对象的任一视频帧，以所述任一视频帧的中心为区域中心的预设尺寸区域，作为所述任一视频帧的常规候选区域；所述识别单元40，还用于对所述常规轨迹图像序列识别，得到对应的识别结果。

检测时长达到预设时长。

在本公开的一些实施例中，所述目标对象包括真实人物；所述识别单元40，还用于采用分类网络，对所述每类候选区域对应的轨迹图像序列，进行分类识别，得到所述轨迹图像序列对应的人物行为。

本公开实施例还提供一种电子设备，图13为本公开实施例提供的电子设备的结构示意图，如图13所示，电子设备2包括：存储器21和处理器22，其中，存储器21和处理器22通过通信总线23连接；存储器21，用于存储可执行计算机程序；处理器22，用于执行存储器21中存储的可执行计算机程序时，实现本公开实施例提供的方法，例如，本公开实施例提供的识别方法。

本公开实施例提供一种计算机可读存储介质，存储有计算机程序，用于引起处理器22执行时，实现本公开实施例提供的方法，例如，本公开实施例提供的识别方法。

在本公开的一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在本公开的一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，对于每个包含目标对象的视频帧，确定出了该视频帧的中心区域，并确定出了该视频帧中至少包含中心区域、且具有区域类别的候选区域，以及，针对包含了多个视频帧的视频帧序列，根据该视频帧序列的视频帧中包含的每种类别的候选区域，得到了该视频序列所对应的每种类别的候选区域的轨迹图像序列，所以，得到的每种类别的候选区域都是对应的视频帧中的重要区域，所得到的每种类别的候选区域所对应的轨迹图像序列，都是由视频帧中的属于同一区域的重要区域组成的，从而，在对每种类别的候选区域的轨迹图像序列进行识别时，相比于对视频序列的每个视频帧的整张图像进行识别而言，减少了图像中背景因素对识别的干扰，并且，减少了识别时的计算量和识别范围，从而提高了识别效率，以及提高了所得到的识别结果的准确性。。

以上所述，仅为本公开的实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本公开的保护范围之内。

Claims

1.一种识别方法，其特征在于，包括：

对当前视频帧进行目标检测，确定存在的目标对象的检测框区域；

根据所述目标对象的检测框区域，确定所述当前视频帧的中心区域；

根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别；每个候选区域至少包含与其对应的中心区域；所述历史视频帧序列是所述当前视频帧之前的、且已检测过的视频帧序列；

从所述历史视频帧序列和所述当前视频帧中，确定每类候选区域对应的轨迹图像序列；

识别所述每类候选区域对应的轨迹图像序列，得到对应的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述从所述历史视频帧序列和所述当前视频帧中，确定每类候选区域对应的轨迹图像序列，包括：

从所述历史视频帧序列和所述当前视频帧中，包含每类候选区域的每个视频帧中，截取出所述候选区域，得到候选区域图像；

基于所述候选区域图像，得到所述每类候选区域对应的所述轨迹图像序列。

3.根据权利要求1所述的方法，其特征在于，所述根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别，包括：

根据所述历史视频帧序列中各个视频帧之间的时间顺序，从所述历史视频帧序列中，确定出一个历史视频帧；

根据所述历史视频帧中，历史中心区域对应的历史候选区域的区域类别，确定所述当前视频帧中，每个中心区域对应的候选区域的区域类别。

4.根据权利要求2所述的方法，其特征在于，所述从所述历史视频帧序列和所述当前视频帧中，包含每类候选区域的每个视频帧中，截取出所述候选区域，得到候选区域图像，包括：

在满足预设条件的情况下，根据每类候选区域在所述历史视频帧序列和所述当前视频帧中，相应的视频帧中的位置信息，确定出每类候选区域对应的概括位置信息；所述概括位置信息对应的区域，包含所述每类候选区域中的任意一个候选区域；

从包含所述每类候选区域的每个视频帧中，截取所述概括位置信息对应的区域，得到候选区域图像。

5.根据权利要求2所述的方法，其特征在于，所述基于所述候选区域图像，得到所述每类候选区域对应的所述轨迹图像序列，包括：

将候选区域图像的尺寸调整至预设尺寸，得到新候选区域图像；

根据所述新候选区域图像所在的视频帧的时间顺序，对得到的新候选区域图像排序，得到所述每类候选区域对应的轨迹图像序列。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述当前视频帧至少包括两个目标对象；所述根据所述目标对象的检测框区域，确定所述当前视频帧的中心区域，包括：

将每个目标对象的所述检测框区域扩大第一预设比例，得到所述每个目标对象的外扩区域；

对于每个外扩区域，确定所述外扩区域与至少一个剩余外扩区域之间的匹配次数；所述至少一个剩余外扩区域为所述至少两个目标对象对应的至少两个外扩区域中，除所述外扩区域之外的外扩区域；

将所述至少两个外扩区域中匹配次数最多的前N个外扩区域，作为中心区域；N为大于等于1的整数。

7.根据权利要求6所述的方法，其特征在于，所述对于每个外扩区域，确定所述外扩区域与至少一个剩余外扩区域之间的匹配次数，包括：

对于每个外扩区域和每个剩余外扩区域，计算所述外扩区域与所述剩余外扩区域之间的面积交并比，并在所述面积交并比大于或等于预设面积交并比阈值的情况下，确定所述外扩区域与所述剩余外扩区域之间相匹配；

将与所述外扩区域相匹配的剩余外扩区域的数量，作为所述外扩区域与所述至少一个剩余外扩区域之间的匹配次数。

8.根据权利要求1-5任一项所述的方法，其特征在于，所述每个历史候选区域具有区域标识，用于表征所述每个历史候选区域所属的区域类别；

所述根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别，包括：

根据历史视频帧中，历史中心区域对应的历史候选区域的区域标识，确定每个中心区域对应的候选区域的区域标识。

9.根据权利要求1-5任一项所述的方法，其特征在于，每个检测框区域对应有目标标识；所述历史视频帧序列中包含至少一个历史候选区域；

将每个中心区域对应的检测框区域扩大第二预设比例，得到每个中心区域对应的候选区域；

确定每个中心区域对应的候选区域，与每个历史候选区域之间的目标标识交并比，并确定每个候选区域的最大目标标识交并比；

根据每个候选区域的最大目标标识交并比，确定每个候选区域的区域类别。

10.根据权利要求9所述的方法，其特征在于，对于任一候选区域，所述根据每个候选区域的最大目标标识交并比，确定每个候选区域的区域类别，包括：

对于任一候选区域，在所述任一候选区域的最大目标标识交并比大于预设标识交并比阈值的情况下，确定所述最大目标标识交并比对应的历史候选区域与所述任一候选区域的区域类别相同；和/或，

在所述任一候选区域的最大目标标识交并比小于或等于预设标识交并比阈值的情况下，确定所述任一候选区域为新增区域，且对应有新增区域类别；所述新增区域类别与任一历史候选区域的区域类别不同。

11.根据权利要求9所述的方法，其特征在于，对于任一候选区域和任一历史候选区域，所述确定每个中心区域对应的候选区域，与每个历史候选区域之间的目标标识交并比，包括：

确定所述任一候选区域中，包含的每个检测框区域对应的第一目标标识，得到至少一个第一目标标识；以及确定所述任一历史候选区域中，包含的每个检测框区域对应的第二目标标识，得到至少一个第二目标标识；

确定所述至少一个第一目标标识和所述至少一个第二目标标识中，相同的目标标识的第一数量，以及，确定所述至少一个第一目标标识和所述至少一个第二目标标识中，不同的目标标识的第二数量；

确定所述第一数量与所述第二数量的数量和，并将所述第一数量与所述数量和的比值，作为所述任一候选区域，与所述任一历史候选区域之间的目标标识交并比。

12.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

在所述历史视频帧序列和所述当前视频帧中的每个视频帧中，均不存在目标对象的情况下，根据所述每个视频帧中的常规候选区域，得到对应的常规轨迹图像序列；其中，对于不存在目标对象的任一视频帧，以所述任一视频帧的中心为区域中心的预设尺寸区域，作为所述任一视频帧的常规候选区域；

对所述常规轨迹图像序列识别，得到对应的识别结果。

13.根据权利要求4所述的方法，其特征在于，所述预设条件包括以下至少一种：

检测时长达到预设时长。

14.根据权利要求1-5任一项所述的方法，其特征在于，所述目标对象包括真实人物；所述识别所述每类候选区域对应的轨迹图像序列，得到对应的识别结果，包括：

采用分类网络，对所述每类候选区域对应的轨迹图像序列，进行分类识别，得到所述轨迹图像序列对应的人物行为。

15.一种识别装置，其特征在于，包括：

检测单元，用于对当前视频帧进行目标检测，确定存在的目标对象的检测框区域；

确定单元，用于根据所述目标对象的检测框区域，确定所述当前视频帧的中心区域；根据历史视频帧序列中，历史中心区域对应的历史候选区域的区域类别，确定每个中心区域对应的候选区域的区域类别；每个候选区域至少包含与其对应的中心区域；所述历史视频帧序列是所述当前视频帧之前的、且已检测过的视频帧序列；

分割单元，用于从所述历史视频这序列和所述当前视频帧中，确定每类候选区域对应的轨迹图像序列；

识别单元，用于识别所述每类候选区域对应的轨迹图像序列，得到对应的识别结果。

16.一种电子设备，其特征在于，包括：

存储器，用于存储可执行计算机程序；

处理器，用于执行所述存储器中存储的可执行计算机程序时，实现权利要求1至14任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，存储有计算机程序，用于引起处理器执行时，实现权利要求1至14任一项所述的方法。