CN114419310A

CN114419310A - 测试视频的处理方法及装置、电子设备及可读存储介质

Info

Publication number: CN114419310A
Application number: CN202210085763.5A
Authority: CN
Inventors: 戴瑞康; 潘贤民
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-04-29

Abstract

本申请公开了一种测试视频的处理方法及装置、电子设备及可读存储介质。该方法包括：获取测试视频；对所述测试视频进行对象检测，得到所述测试视频的各个视频帧中的对象的检测信息；根据所述各个视频帧中的对象的检测信息，确定所述各个视频帧中的目标对象；根据所述各个视频帧中的目标对象的检测信息，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域。

Description

测试视频的处理方法及装置、电子设备及可读存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种测试视频的处理方法及装置、电子设备及可读存储介质。

背景技术

随着计算视觉技术的快速发展，各种具备不同功能的计算机视觉模型应运而生，例如，电子设备使用计算机视觉模型对视频进行处理，可确定视频中是否有违规事件发生。

由于在使用计算机视觉模型对视频进行处理之前，需要对计算机视觉模型进行测试，进而可依据测试结果确定计算机视觉模型的性能。因为成像设备在采集视频时的位置通常是固定的，而违规事件是在固定区域内发生的，所以如何从视频中将违规事件的发生区域(即感兴趣区域)标注出来具有非常重要的意义。

发明内容

本申请提供一种测试视频的处理方法及装置、电子设备及可读存储介质。

第一方面，提供了一种测试视频的处理方法，所述方法包括：

获取测试视频；

对所述测试视频进行对象检测，得到所述测试视频的各个视频帧中的对象的检测信息；

根据所述各个视频帧中的对象的检测信息，确定所述各个视频帧中的目标对象；

根据所述各个视频帧中的目标对象的检测信息，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域。

结合本申请任一实施方式，所述检测信息包括对象类别；

所述根据所述各个视频帧中的对象的检测信息，确定所述各个视频帧中的目标对象，包括：

根据所述各个视频帧中的对象的对象类别，确定所述各个视频帧中的对象类别属于目标类别的目标对象。

结合本申请任一实施方式，所述检测信息包括帧号和检测框坐标；

所述根据所述各个视频帧中的目标对象的检测信息，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域，包括：

根据所述各个视频帧中的目标对象的帧号，确定至少一个待处理视频段，所述待处理视频段包括至少两张连续的视频帧，且所述待处理视频段中的各个视频帧均包含所述目标对象；

根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标。

结合本申请任一实施方式，所述根据所述各个视频帧中的目标对象的帧号，确定至少一个待处理视频段之后，根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标之前，还包括：

选取所述待处理视频段中播放时间大于或等于时长阈值的待处理视频段。

结合本申请任一实施方式，还包括：

预先根据待测试模型的激活时间确定所述时长阈值。

结合本申请任一实施方式，所述根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标，包括：

根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，合并所述目标对象在所述待处理视频段的各个视频帧中的检测框，得到所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标。

结合本申请任一实施方式，所述根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，合并所述目标对象在所述待处理视频段的各个视频帧中的检测框，得到所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标，包括：

按照最大坐标值由大到小的顺序对所述目标对象在所述待处理视频段的各个视频帧中的检测框进行排序，得到检测框序列；

从所述检测框序列中依次选取检测框作为第一检测框，直至选完全部检测框；

每选取一个第一检测框，依次从所述检测框序列选取序号小于所述第一检测框的第二检测框，计算所述第一检测框与所述第二检测框的交并比；

确定所述第一检测框与所述第二检测框的交并比大于或等于预设阈值的情况下，更新所述第一检测框，更新后的所述第一检测框覆盖更新前的所述第一检测框和所述第二检测框，从所述检测框序列删除所述第二检测框；

确定所述第一检测框与各个剩余的第二检测框的交并比均小于所述预设阈值的情况下，从所述检测框序列中选取下一检测框作为第一检测框；

确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域，所述感兴趣区域包括所述检测框序列中的检测框。

结合本申请任一实施方式，所述根据所述各个视频帧中的目标对象的检测信息，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域之后，所述方法还包括：

根据所述至少一个感兴趣区域的信息，生成输入生成代码；所述感兴趣区域的信息包括感兴趣区域的坐标；所述输入生成代码用于指示待测试模型测试时需要的输入信息；

根据所述输入生成代码和所述测试视频，对待测试模型进行测试。

结合本申请任一实施方式，所述感兴趣区域的信息还包括：

所述目标对象出现在所述感兴趣区域的时间区间；

所述根据所述至少一个感兴趣区域的信息，生成输入生成代码之前，所述方法还包括：

根据所述目标对象的帧号，确定所述目标对象出现在所述感兴趣区域的时间区间。

结合本申请任一实施方式，所述根据所述至少一个感兴趣区域的信息，生成输入生成代码，包括：

获取所述待测试模型的信息；

根据所述待测试模型的信息，确定预先配置的所述待测试模型对应的代码模板；

根据所述代码模板和所述至少一个感兴趣区域的信息，生成所述输入生成代码。

第二方面，提供了一种测试视频的处理装置，所述装置包括：

获取单元，用于获取测试视频；

第一处理单元，用于对所述测试视频进行对象检测，得到所述测试视频的各个视频帧中的对象的检测信息；

第二处理单元，用于根据所述各个视频帧中的对象的检测信息，确定所述各个视频帧中的目标对象；

第三处理单元，用于根据所述各个视频帧中的目标对象的检测信息，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域。

结合本申请任一实施方式，所述检测信息包括对象类别；

所述第二处理单元，用于：

所述第三处理单元，用于：

结合本申请任一实施方式，第三处理单元，还用于选取所述待处理视频段中播放时间大于或等于时长阈值的待处理视频段。

结合本申请任一实施方式，第三处理单元，还用于预先根据待测试模型的激活时间确定所述时长阈值。

结合本申请任一实施方式，所述第三处理单元，用于：

结合本申请任一实施方式，所述第三处理单元，还用于：

结合本申请任一实施方式，所述感兴趣区域的信息还包括：

所述目标对象出现在所述感兴趣区域的时间区间；

所述第三处理单元，还用于根据所述目标对象的帧号，确定所述目标对象出现在所述感兴趣区域的时间区间。

结合本申请任一实施方式，所述第三处理单元，用于：

获取所述待测试模型的信息；

第三方面，提供了一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了另一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

本申请中，测试视频的处理装置通过对测试视频进行对象检测，得到测试视频的各个视频帧中的对象的检测信息。依据对象的检测信息，确定各个视频帧中的目标对象。依据各个视频帧中的目标对象的检测信息，从测试视频中确定至少一个感兴趣区域。可以自动获取测试视频中的感兴趣区域，进而可用于指示待测试模型在感兴趣区域内对测试视频进行检测，降低待测试模型的检测范围，提高测试效率；相比于人工为待测试模型标注感兴趣区域的方式，能够节省人力成本，并提高处理效率。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种像素坐标系示意图；

图2为本申请实施例提供的一种测试视频的处理方法的流程示意图；

图3为本申请实施例提供的一种测试视频的处理装置的结构示意图；

图4为本申请实施例提供的一种测试视频的处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”可表示前后关联对象是一种“或”的关系，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。字符“/”还可表示数学运算中的除号，例如，a/b＝a除以b；6/3＝2。“以下至少一项(个)”或其类似表达。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

随着计算视觉技术的快速发展，各种具备不同功能的计算机视觉模型应运而生，例如，人脸识别模型可用于进行人脸识别，物体检测模型可用于检测物体，动作监测模型可用于监测是否发生特定动作。

基于此，电子设备使用计算机视觉模型对视频进行处理，可确定视频中是否有违规事件发生，其中，上述违规事件包括：违章停车、垃圾满溢等等。

由于在使用计算机视觉模型对视频进行处理之前，需要对计算机视觉模型进行测试，进而可依据测试结果确定计算机视觉模型的性能。

因为成像设备在采集视频时的位置通常是固定的，而违规事件是在固定区域内发生的(如违章停车区域、垃圾满溢区域)，所以在使用视频测试计算机视觉模型的性能之前，需要从视频中将违规事件的发生区域标注出来。为表述方便，本申请实施例中，将违规事件的发生区域称为感兴趣区域。

传统方法通常将视频所包含的整个像素点区域作为感兴趣区域，这样计算机视觉模型在对视频进行检测时，需要检测视频中整个像素点区域。这给测试计算机视觉模型的性能带来了较大的计算量。

因此，近来一些技术采用人工标注的方式，从视频中将感兴趣区域标注出来，进而使用该视频测试计算机视觉模型。但该种方式的人力成本高，且标注效率低。基于此，本申请实施例公开了一种技术方案，以降低标注视频中的感兴趣区域的人力成本，并提高标注效率。

为表述方便，下文中出现的视频中的坐标均指视频所包含的图像中的坐标。本申请实施例中的像素坐标系的横坐标用于表示像素点所在的列数，像素坐标系下的纵坐标用于表示像素点所在的行数。例如，在图1所示的图像中，以图像的左上角为坐标原点O、平行于图像的行的方向为X轴的方向、平行于图像的列的方向为Y轴的方向，构建像素坐标系为XOY。横坐标和纵坐标的单位均为像素点。例如，图1中的像素点A₁₁的坐标为(1，1)，像素点A₂₃的坐标为(3，2)，像素点A₄₂的坐标为(2，4)，像素点A₃₄的坐标为(4，3)。

本申请实施例的执行主体为测试视频的处理装置，其中，测试视频的处理装置可以是任意一种可执行本申请方法实施例所公开的技术方案的电子设备。可选的，测试视频的处理装置可以是以下中的一种：手机、计算机、平板电脑、可穿戴智能设备。

应理解，本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图2，图2是本申请实施例提供的一种测试视频的处理方法的流程示意图。

201、获取测试视频。

本申请实施例中，测试视频可以是离线视频，也可以是在线视频。其中，离线视频可以是通过摄像头或移动智能设备采集获得的视频。在线视频可以是摄像头实时获得视频，例如，测试视频的处理装置可与一个或一个以上摄像头之间具有通信连接，测试视频的处理装置可将从摄像头获取的实时采集的视频作为测试视频。

在一种获取测试视频的实现方式中，测试视频的处理装置将用户通过输入组件输入的视频作为测试视频。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器。

在另一种获取测试视频的实现方式中，测试视频的处理装置接收终端发送的视频作为测试视频。上述终端可以是以下任意一种：手机、计算机、平板电脑、服务器。

202、对上述测试视频进行对象检测，得到上述测试视频的各个视频帧中的对象的检测信息。

本申请实施例中，对象检测用于逐帧地检测测试视频的图像中的对象。例如，对象为人，那么对象检测用于检测各帧图像中的人，以及人在图像中的位置。

本申请实施例中，检测信息包括对象在各个视频帧中的位置。可选的，检测信息包括对象的检测框在各视频帧中的位置。检测框的形状可以是任意形状，本申请对检测框的形状不做限定。可选的，检测框的形状包括以下一种或一种以上：矩形、菱形、圆形、椭圆形、多边形。

例如，在检测框的形状为矩形的情况下，检测框的位置可以包括矩形中任意一对对顶角在视频帧中的坐标，其中，一对对顶角指过矩形的对角线上的两个顶点。

又例如，在检测框的形状为矩形的情况下，检测框的位置可以包括：矩形的几何中心在视频帧中的位置、矩形的长和矩形的宽。

再例如，在检测框的形状为圆形的情况下，检测框的位置可以包括：检测框的圆心在视频帧中的位置、检测框的半径。

在一种可能实现的方式中，对图像进行对象检测可通过卷积神经网络实现。通过将带有标注信息的图像作为训练数据，对卷积神经网络进行训练，使训练后的卷积神经网络可完成对图像的对象检测，其中，标注信息包括检测框的位置信息，该检测框包含对象。

在另一种可能实现的方式中，对象检测可通过以下中的一种算法实现：一阶段目标检测算法(you only look once，YOLO)、单张图像多目标检测算法(single shotmultiBox detector，SSD)、两阶段目标检测算法(Faster-RCNN算法)。

在另一种可能实现的方式中，对象检测可以通过多个对象检测模型实现，每一对象检测模型分别用于从视频中逐帧检测出不同的对象。

203、根据上述各个视频帧中的对象的检测信息，确定上述各个视频帧中的目标对象。

在一种可能实现的方式中，检测信息包括对象类别。例如，通过对视频帧进行对象检测，确定视频帧包括对象a和对象b，其中，对象a的对象类别为人，对象b的对象类别为车。

测试视频的处理装置根据各个视频帧中的对象的对象类别，确定各个视频帧中的对象类别属于目标类别的目标对象。例如，视频帧包括对象a和对象b，其中，对象a的对象类别为人，对象b的对象类别为车。若目标类别为人，则测试视频的处理装置确定对象a为目标对象。又例如，视频帧包括对象a和对象b，其中，对象a的对象类别为人，对象b的对象类别为车，待测试模型检测的目标对象为车，那么，从各个视频帧中确定出包含对象b的全部目标对象。

204、根据上述各个视频帧中的目标对象的检测信息，确定上述测试视频中的包含上述目标对象的至少一个感兴趣区域。

本申请实施中，感兴趣区域为违规事件的发生区域，其中，违规事件的发生主体包括目标对象。因此，测试视频的处理装置可依据包括目标对象的像素点区域确定违规事件的发生区域(即感兴趣区域)。

本申请实施例中，感兴趣区域的数量可以是一个，也可以超过一个。例如，测试视频的处理装置通过执行步骤204得到感兴趣区域a、感兴趣区域b和感兴趣区域c。感兴趣区域a和感兴趣区域b均为目标事件A的发生区域，其中，感兴趣区域a为目标事件A在2021年6月3日10：00～10:01发生时的发生区域，感兴趣区域b为目标事件B在2021年6月3日10：03～10:04发生时的发生区域，感兴趣区域c为目标事件B的发生区域。

在一种可能实现的方式中，测试视频的处理装置依据检测信息，确定测试视频的各视频帧中的检测框。合并所有检测框所包含的像素点区域得到感兴趣区域。

在另一种可能实现的方式中，测试视频的处理装置依据检测信息，确定各视频帧中的检测框。将面积最大的检测框所包含的像素点区域作为感兴趣区域。

例如，测试视频包括图像a、图像b，其中，图像a和图像b均包含目标对象，图像a中包含目标对象的检测框为检测框A，图像b中包含目标对象的检测框为检测框B。若检测框A所包含的像素点区域的面积大于检测框B所包含的像素点区域的面积，则将检测框A所包含的像素点区域作为感兴趣区域。

在又一种可能实现的方式中，测试视频的处理装置确定包括目标对象的像素点区域为感兴趣区域。

例如，测试视频包括图像a、图像b和图像c，其中，图像a不包含目标对象，图像b和图像c均包含目标对象。测试视频的处理装置可从图像b中确定包括目标对象的像素点区域作为感兴趣区域，测试视频的处理装置也可从图像c中确定包括目标对象的像素点区域作为感兴趣区域。

本实施例中，测试视频的处理装置通过对测试视频进行对象检测，得到测试视频的各个视频帧中的对象的检测信息。依据对象的检测信息，确定各个视频帧中的目标对象。依据各个视频帧中的目标对象的检测信息，从测试视频中确定至少一个感兴趣区域，可节省人工标注测试视频用于测试时的感兴趣区域的成本，并提高处理效率。

作为一种可选的实施方式，所述检测信息包括帧号和检测框坐标。测试视频的处理装置在执行步骤203的过程中，执行以下步骤：

301、根据上述各个视频帧中的目标对象的帧号，确定至少一个待处理视频段。

本申请实施例中，待处理视频段包括至少两张连续的视频帧，且待处理视频段中的各个视频帧均包含目标对象。例如，目标对象的帧号包括1、2、3、7、8、15，即测试视频中的第一帧图像、第二帧图像、第三帧图像、第七帧图像、第八帧图像和第十五帧图像均包括目标对象。此时，第一帧图像、第二帧图像和第三帧图像为一个待处理视频段，第七帧图像和第八帧图像为一个待处理视频段。

302、根据上述目标对象在上述待处理视频段的各个视频帧中的检测框坐标，确定上述测试视频中的包含上述目标对象的至少一个感兴趣区域的坐标。

在一种可能实现的方式中，测试视频的处理装置依据目标对象在一个待处理视频的各个视频帧中的检测框坐标，确定各视频帧中的检测框。将面积最大的检测框所包含的像素点区域作为一个感兴趣区域，进而确定一个感兴趣区域的坐标。测试视频的处理装置依据至少一个待处理视频段的各个视频帧中的检测框坐标，可确定至少一个感兴趣区域的坐标。

由于违规事件的发生通常不是一瞬间，而需要持续一段时间，测试视频的处理装置通过从待处理视频段中确定包含目标对象的像素点区域得到至少一个感兴趣区域，可提高感兴趣区域的准确度。

例如，违规事件为车辆违章停车。判断车辆是否违章停车的依据是，车辆处于违章停车区域内的持续时长达到时间阈值(如2秒)。

若测试视频包括图像a，图像b，图像c和图像d，其中，图像a为第一帧图像，图像b为第二帧图像，图像c为第三帧图像，图像d为第四帧图像。在图像a中，车辆处于违章停车区域内。在图像b和图像c中，车辆未处于违章停车区域内。在图像d中，车辆处于违章停车区域内。显然，仅通过图像a或图像d均不能判断车辆已违章停车，若依据图像a中包含车辆的像素点区域或图像d中包含车辆的像素点区域得到至少一个感兴趣区域，会带来较大的误差。

作为一种可选的实施方式，测试视频的处理装置在执行步骤302之前，执行步骤301之后，还执行以下步骤：

303、选取上述待处理视频段中播放时间大于或等于时长阈值的待处理视频段。

在本步骤中，待处理视频段的播放时间应当大于或等于确认违规事件发生所需的持续时间。测试视频的处理装置在依据待处理视频段确定感兴趣区域的坐标之前，过滤掉播放时间小于时长阈值的待处理视频段，保留播放时间大于或等于时长阈值的待处理视频段，可为减少从测试视频中确定至少一个感兴趣区域的坐标的数据处理量，避免在测试阶段，待测试模型对未满足违规事件发生所需的持续时间的区域进行检测，从而提高了测试视频的标注效率和测试效率。

例如，假如目标事件为违章停车。确定车辆违章停车的依据是，车辆处于违章停车区域内的持续时长超过5秒。此时，时长阈值为5秒。若测试视频为每秒25帧的视频，那么待处理视频段的播放时长小于时长阈值即指，待处理视频段中图像的数量少于125张。

作为一种可选的实施方式，测试视频的处理装置预先根据待测试模型的激活时间确定时长阈值。本申请实施例中，违规事件的发生包括事件主体和持续时长，待测试模型的激活时间即为发生违规事件的最低持续时长。例如，违规事件为违章停车，判断车辆是否违章停车的依据是车辆处于违章停车区域内持续时长是否超过1分钟。此时，持续时长为1分钟，即待测试模型的激活时间为1分钟。

可选的，测试视频的处理装置将待测试模型的激活时间作为时长阈值。

作为一种可选的实施方式，试视频的处理装置在执行步骤302的过程中执行以下步骤：

401、根据上述目标对象在上述待处理视频段的各个视频帧中的检测框坐标，合并上述目标对象在上述待处理视频段的各个视频帧中的检测框，得到上述测试视频中的包含上述目标对象的至少一个感兴趣区域的坐标。

测试视频的处理装置依据目标对象在一个待处理视频的各个视频帧中的检测框坐标，确定各视频帧中的检测框。合并所有检测框所包含的像素点区域得到一个感兴趣区域，进而确定一个感兴趣区域的坐标。测试视频的处理装置依据至少一个待处理视频段的各个视频帧中的检测框坐标，可确定至少一个感兴趣区域的坐标。

作为一种可选的实施方式，测试视频的处理装置在执行步骤401的过程中，使用极大值抑制方法合并检测框。可选地，测试视频的处理装置在执行步骤401的过程中具体执行以下步骤：

501、按照最大坐标值由大到小的顺序对上述目标对象在上述待处理视频段的各个视频帧中的检测框进行排序，得到检测框序列。

本申请实施中，最大坐标值可以是检测框的坐标中的最大值。例如，检测框四个顶点的坐标分别为(1，3)、(1，5)、(4，3)、(4，5)，此时，检测框的最大坐标值为5。

502、从上述检测框序列中依次选取检测框作为第一检测框，直至选完全部检测框。

503、每选取一个第一检测框，依次从上述检测框序列选取序号小于上述第一检测框的第二检测框，计算上述第一检测框与上述第二检测框的交并比。

本申请实施例中，两个检测框的交并比表示两个检测框的交集的面积与两个检测框的并集的面积的比值。例如，检测框a与检测框b的交集的面积为20，检测框a与检测框b的并集的面积为50。此时，检测框a与检测框b的交并比为2/5。

504、确定上述第一检测框与上述第二检测框的交并比大于或等于预设阈值的情况下，更新上述第一检测框，更新后的上述第一检测框覆盖更新前的上述第一检测框和上述第二检测框，从上述检测框序列删除上述第二检测框。

可选的，测试视频的处理装置在确定第一检测框与第二检测框的交并比大于或等于预设阈值的情况下，通过合并第一检测框和第二检测框，更新检测框序列中的第一检测框，并将第二检测框从检测框序列中删除。

例如，检测框序列为检测框a、检测框b、检测框c、检测框d。测试视频的处理装置将检测框a作为第一检测框，将检测框b作为第二检测框。若第一检测框与第二检测框的交并比大于或等于预设阈值，则通过合并检测框a和检测框b更新检测框a，此时，更新后的检测框a所包围的像素点区域为检测框a所覆盖的像素点区域和检测框b所覆盖的像素点区域的并集。测试视频的处理装置还将检测框b从检测框序列中删除，于是检测框序列中的检测框为检测框a、检测框c、检测框d。

第一检测框与第二检测框的交并比大于或等于预设阈值说明，第一检测框与第二检测框的重合度较高，即第一检测框所包含的目标对象和第二检测框所包含的目标对象为同一个目标对象。例如，目标对象为人。若在第一检测框与第二检测框的交并比大于或等于预设阈值，说明第一检测框内的人与第二检测框内的人为同一个人。

因此，在第一检测框所包围的像素点区域和第二检测框所包围的像素点区域均表征目标对象所覆盖的像素点区域的情况下，测试视频的处理装置在第一检测框与第二检测框的交并比大于或等于预设阈值的情况下，通过合并第一检测框和第二检测框更新第一检测框，可提高目标对象所覆盖的像素点区域的准确度。

505、确定上述第一检测框与各个剩余的第二检测框的交并比均小于上述预设阈值的情况下，从上述检测框序列中选取下一检测框作为第一检测框。

例如，检测框序列为检测框a、检测框b、检测框c。测试视频的处理装置将检测框a作为第一检测框，将检测框b作为第二检测框。若第一检测框与第二检测框的交并比小于预设阈值，则测试视频的处理装置计算检测框a与检测框c的交并比。

若检测框a与检测框c的交并比大于或等于预设阈值，则通过合并检测框a和检测框c更新检测框a，此时，更新后的检测框a所包围的像素点区域为检测框a所覆盖的像素点区域和检测框c所覆盖的像素点区域的并集。测试视频的处理装置还将检测框c从检测框序列中删除，于是检测框序列中的检测框为检测框a、检测框b。

若检测框a与检测框c的交并比小于预设阈值，则将检测框b作为第一检测框，并计算检测框b与检测框c的交并比。

若检测框b与检测框c的交并比大于或等于预设阈值，则通过合并检测框b和检测框c更新检测框b，此时，更新后的检测框b所包围的像素点区域为检测框b所覆盖的像素点区域和检测框c所覆盖的像素点区域的并集。测试视频的处理装置还将检测框c从检测框序列中删除，于是检测框序列中的检测框为检测框a、检测框b。

若检测框b与检测框c的交并比小于预设阈值，则确定检测框序列中的检测框为检测框a、检测框b和检测框c。

第一检测框与第二检测框的交并比小于预设阈值说明，第一检测框与第二检测框的重合度较低，即第一检测框所包含的目标对象和第二检测框所包含的目标对象为两个不同的目标对象。例如，目标对象为人。若在第一检测框与第二检测框的交并比小于预设阈值，说明第一检测框内的人与第二检测框内的人不同。

因此，在第一检测框所包围的像素点区域和第二检测框所包围的像素点区域均表征目标对象所覆盖的像素点区域的情况下，测试视频的处理装置在第一检测框与第二检测框的交并比小于预设阈值的情况下，将第一检测框和第二检测框分别保留，可提高目标对象所覆盖的像素点区域的准确度。

506、确定上述测试视频中的包含上述目标对象的至少一个感兴趣区域，上述感兴趣区域包括上述检测框序列中的检测框。

可选的，测试视频的处理装置将检测框序列中的一个检测框所包围的像素点区域作为一个感兴趣区域。

作为一种可选的实施方式，试视频的处理装置在执行步骤204之后，还执行以下步骤：

601、根据上述至少一个感兴趣区域的信息，生成输入生成代码。

本申请实施例中，感兴趣区域的信息包括感兴趣区域的坐标。输入生成代码用于指示待测试模型测试时需要的输入信息。

本申请实施例中，待测试模型为用于检测违规事件的计算机视觉模型。应理解，计算机视觉模型可以用于检测至少一种违规事件。

例如，待测试模型可以用于检测人员聚集；又例如，待测试模型用于检测垃圾满溢；再例如，待测试模型既可用于检测垃圾满溢，又可用于检测违章停车。

本申请实施例中，待测试模型测试时需要的输入信息包括感兴趣区域的坐标。例如，违规事件为违章停车。判断车辆是否违章停车的依据，是判断车辆是否在违章停车区域内的违章停车。此时，感兴趣区域的坐标为违章停车区域的坐标，待测试模型测试时需要的输入信息包括违章停车区域的坐标。

可选的，待测试模型测试时需要的输入信息还包括激活时间。例如，违规事件为违章停车。判断车辆是否违章停车的依据是，判断在违章停车区域内的持续时长是否超过2分钟，如果超过2分钟，则确定车辆违章停车。如果车辆不满足在违章停车区域内的持续时长超过2分钟这一条件，则确定车辆未违章停车。

此时，待测试模型测试时需要的输入信息包括：违章停车区域的坐标(即上述感兴趣区域的坐标)、激活时间为2分钟。

602、根据上述输入生成代码和上述测试视频，对待测试模型进行测试。

测试视频的处理装置在对待测试模型进行测试时，通过加载输入生成代码，确定待测试模型测试时需要的输入信息，并以待测试模型测试时需要的输入信息为依据，使用测试视频对待测试模型进行测试。

例如，待测试模型测试时需要的输入信息包括：检测违章停车区域的坐标(即上述感兴趣区域的坐标)、激活时间，以及，视频分辨率、模型输出内容格式等。

测试视频的处理装置在测试待测试模型时，使用待测试模型对测试视频进行处理，以确定是否有车辆满足在违章停车区域内的持续时长超过2分钟这一条件。如果有，则确定存在违章停车事件，如果没有，则确定不存在违章停车事件。

本申请实施例中，测试视频的处理装置根据生成代码和测试视频，对待测试模型进行测试，可在从测试视频中确定至少一个感兴趣区域的情况下，将测试视频作为待测试模型的测试用例，测试待测试模型检测目标事件的性能。而且由于通过加载输入生成代码即可完成对待测试模型的测试，可提高测试待测试模型的效率。

作为一种可选的实施方式，上述感兴趣区域的信息还包括：上述目标对象出现在上述感兴趣区域的时间区间。

例如，感兴趣区域的时间区间为2分钟至5分钟。违规事件为违章停车。判断车辆是否违章停车的依据，是判断在违章停车区域内的持续时长是否超过2分钟，如果超过2分钟，则确定车辆违章停车。如果车辆不满足在违章停车区域内的持续时长超过2分钟这一条件，则确定车辆未违章停车。

测试视频的处理装置在测试待测试模型时，使用待测试模型对测试视频的2分钟至5分钟内的视频段进行处理，以确定是否有车辆满足在违章停车区域内的持续时长超过2分钟这一条件。如果有，则确定存在违章停车事件，如果没有，则确定不存在违章停车事件。

测试视频的处理装置在执行步骤601之前，还执行以下步骤：

603、根据上述目标对象的帧号，确定上述目标对象出现在上述感兴趣区域的时间区间。

测试视频的处理装置依据帧号，可确定帧号所对应的视频帧的播放时间，进而可依据目标对象的帧号，确定感兴趣区域对应的时间区间。

这样，在对待测试模型进行测试时，可以指定待测试模型检测测试视频的感兴趣区域和时间区间，在待测试模型输出检测结果后，分析检测结果是否准确。或者，在对待测试模型进行测试时，指定待测试模型检测测试视频的感兴趣区域，在待测试模型输出检测结果后，分析检测结果包含的检测到目标的时间段与上述感兴趣区域的时间区间是否一致。

作为一种可选的实施方式，测试视频的处理装置在执行步骤601的过程中执行以下步骤：

701、获取上述待测试模型的信息。

本申请实施例中，待测试模型的信息包括待测试模型所能检测的违规事件的规则信息。例如，待测试模型可用于检测违章停车。判断违章停车的依据是，判断车辆是否在违章停车区域内的停车时间是否达到激活时间。

此时，违章停车的规则信息包括违章停车区域的坐标和激活时间。

702、根据上述待测试模型的信息，确定预先配置的上述待测试模型对应的代码模板。

本申请实施例中，代码模板用于生成输入生成代码。不同的代码模板用于生成用于测试不同待测试模型的输入生成代码。

例如，代码模板a用于生成信息为感兴趣区域的坐标和激活时间的待测试模型的输入生成代码。

可选的，测试视频的处理装置的数据库中包括至少一个预先配置的代码模板。测试视频的处理装置根据待测试模型的信息，确定与待测试模型对应的代码模板。

703、根据上述代码模板和上述至少一个感兴趣区域的信息，生成上述输入生成代码。

基于本申请实施例提供的技术方案，本申请实施例还提供了一种可能的应用场景。

随着计算机视觉技术的发展，计算机视觉模型的功能越来越强大，计算视觉模型的应用也越来越广。因此，如何从众多计算机视觉模型中选取性能较好的计算视觉模型具有非常重要的意义。

在使用计算机视觉模型执行任务(如检测违规事件)之前，可通过使用测试数据对计算视觉模型进行测试确定计算机视觉模型的性能，其中，测试数据为携带标注信息的数据。

基于本申请实施例公开的技术方案，可完成对测试视频的标注，得到测试视频的标注信息。

例如(例1)，企业A想要挑选几个测试违章停车性能较好的计算机视觉模型。在通过测试计算视觉模型得到计算机视觉模型检测违章停车的性能之前，需要将监控摄像头采集到的多个测试视频中的感兴趣区域的坐标标注出来。

由于测试视频的数量较多，且测试视频的播放时长较长，企业A采用本申请实施例公开的技术方案对测试视频进行处理，可从测试视频中确定至少一个感兴趣区域的坐标。

具体的，企业A可使用服务器对测试视频进行处理，从测试视频中确定至少一个感兴趣区域的坐标，并将至少一个感兴趣区域的坐标作为标注信息。

在得到测试视频的标注信息后，还可基于本申请实施例公开的技术方案完成对计算机视觉模型的测试。

例如，在例1中，服务器可依据待测试模型的信息确定预先配置的待测试模型对应的代码模板。服务器根据代码模板和至少一个感兴趣区域的信息，生成输入生成代码。服务器进而根据输入生成代码和测试视频，对待测试视频进行测试，得到测试结果。企业A进而可依据该测试结果，确定待测试模型检测违章停车的性能。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图3，图3为本申请实施例提供的一种测试视频的处理装置的结构示意图，该测试视频的处理装置1包括：获取单元11、第一处理单元12、第二处理单元13、第三处理单元14，其中：

获取单元11，用于获取测试视频；

第一处理单元12，用于对所述测试视频进行对象检测，得到所述测试视频的各个视频帧中的对象的检测信息；

第二处理单元13，用于根据所述各个视频帧中的对象的检测信息，确定所述各个视频帧中的目标对象；

第三处理单元14，用于根据所述各个视频帧中的目标对象的检测信息，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域。

结合本申请任一实施方式，所述检测信息包括对象类别；

所述第二处理单元13，用于：

所述第三处理单元14，用于：

结合本申请任一实施方式，第三处理单元14，还用于选取所述待处理视频段中播放时间大于或等于时长阈值的待处理视频段。

结合本申请任一实施方式，第三处理单元14，还用于预先根据待测试模型的激活时间确定所述时长阈值。

结合本申请任一实施方式，所述第三处理单元14，用于：

结合本申请任一实施方式，所述第三处理单元14，还用于：

结合本申请任一实施方式，所述感兴趣区域的信息还包括：

所述目标对象出现在所述感兴趣区域的时间区间；

所述第三处理单元14，还用于根据所述目标对象的帧号，确定所述目标对象出现在所述感兴趣区域的时间区间。

结合本申请任一实施方式，所述第三处理单元14，用于：

获取所述待测试模型的信息；

本实施例中，测试视频的处理装置通过对测试视频进行对象检测，得到测试视频的各个视频帧中的对象的检测信息。依据对象的检测信息，确定各个视频帧中的目标对象。依据各个视频帧中的目标对象的检测信息，从测试视频中确定至少一个感兴趣区域，可节省人力成本，并提高处理效率。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图4为本申请实施例提供的一种测试视频的处理装置的硬件结构示意图。该测试视频的处理装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的测试视频，又或者该存储器22还可用于存储通过处理器21得到的至少一个感兴趣区域等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图4仅仅示出了一种测试视频的处理装置的简化设计。在实际应用中，测试视频的处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的测试视频的处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种测试视频的处理方法，其特征在于，所述方法包括：

获取测试视频；

2.根据权利要求1所述的方法，其特征在于，所述检测信息包括对象类别；

3.根据权利要求1所述的方法，其特征在于，所述检测信息包括帧号和检测框坐标；

4.根据权利要求3所述的方法，其特征在于，所述根据所述各个视频帧中的目标对象的帧号，确定至少一个待处理视频段之后，根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标之前，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

预先根据待测试模型的激活时间确定所述时长阈值。

6.根据权利要求3所述的方法，其特征在于，所述根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述目标对象在所述待处理视频段的各个视频帧中的检测框坐标，合并所述目标对象在所述待处理视频段的各个视频帧中的检测框，得到所述测试视频中的包含所述目标对象的至少一个感兴趣区域的坐标，包括：

8.根据权利要求3至7中任意一项所述的方法，其特征在于，所述根据所述各个视频帧中的目标对象的检测信息，确定所述测试视频中的包含所述目标对象的至少一个感兴趣区域之后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述感兴趣区域的信息还包括：

所述目标对象出现在所述感兴趣区域的时间区间；

10.根据权利要求8或9所述的方法，其特征在于，所述根据所述至少一个感兴趣区域的信息，生成输入生成代码，包括：

获取所述待测试模型的信息；

11.一种测试视频的处理装置，其特征在于，所述装置包括：

获取单元，用于获取测试视频；

12.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至10中任意一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至10中任意一项所述的方法。