CN110287877A

CN110287877A - 视频目标的处理方法及装置

Info

Publication number: CN110287877A
Application number: CN201910556593.2A
Authority: CN
Inventors: 揭泽群; 李宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27
Anticipated expiration: 2039-06-25
Also published as: CN110287877B

Abstract

本发明提供了一种视频目标的处理方法及装置，方法包括：对从视频进行解码得到的当前帧图像、以及所述当前帧图像对应的前序帧图像进行目标检测；分别确定在所述当前帧图像和所述前序帧图像中对应检测到的目标的包围框、以及所述包围框对应的置信度分数；根据所述当前帧图像和所述前序帧图像中的包围框，对所述目标在所述当前帧图像和所述前序帧图像之间的置信度分数进行融合；根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数。通过本发明，能够有效提升视频目标的检测精度。

Description

视频目标的处理方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种视频目标的处理方法、装置、电子设备及存储介质。

背景技术

目标检测作为计算机视觉领域的重要分支已经有了多年的发展。目标检测包括静态图像的目标检测和视频的目标检测。基于视频的目标检测与静态图像的目标检测的任务一样，都需要给出图像中目标的类别以及对应的位置。

相关技术在进行视频中的目标检测时，通常首先将视频拆分成静态影像帧，随后进行逐帧的检测。然而，由于视频中会存在运动模糊、摄像头失焦、严重遮挡以及目标可能会保持一种奇怪的姿态等问题，导致检测结果不理想。

发明内容

本发明实施例提供了一种视频目标的处理方法、装置、电子设备及存储介质，能够有效提升视频目标的检测精度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种视频目标的处理方法，包括：

对从视频进行解码得到的当前帧图像、以及所述当前帧图像对应的前序帧图像进行目标检测；

分别确定在所述当前帧图像和所述前序帧图像中对应检测到的目标的包围框、以及所述包围框对应的置信度分数；

根据所述当前帧图像和所述前序帧图像中的包围框，对所述目标在所述当前帧图像和所述前序帧图像之间的置信度分数进行融合；

根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数。

本发明实施例提供了一种视频目标的处理装置，包括：

检测模块，用于对从视频进行解码得到的当前帧图像、以及所述当前帧图像对应的前序帧图像进行目标检测；

确定模块，用于分别确定在所述当前帧图像和所述前序帧图像中对应检测到的目标的包围框、以及所述包围框对应的置信度分数；

融合模块，用于根据所述当前帧图像和所述前序帧图像中的包围框，对所述目标在所述当前帧图像和所述前序帧图像之间的置信度分数进行融合；

更新模块，用于根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数。

上述方案中，所述融合模块，还用于当相邻两帧图像中对应所述目标的包围框交并比大于交并比阈值时，将所述相邻两帧图像中对应所述目标的包围框进行连接形成包围框管。

上述方案中，所述融合模块，还用于将所述包围框树划分为至少两个包围框子树；针对每个所述包围框子树，从所述包围框子树的第一层开始遍历至最后一层，得到所述包围框子树中使所述目标的包围框的置信度分数之和最大的包围框子管；将每个所述包围框子树对应的所述包围框子管进行整合，得到所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

上述方案中，所述融合模块，还用于从所述包围框树中选取所述当前帧图像中的包围框、以及所述当前帧图像之前M个连续的前序帧图像中的包围框，并组成局部包围框树；其中，M为正整数，所述M个前序帧图像的第一帧图像中所述目标的置信度分数为已更新的置信度分数；将所述局部包围框树划分为至少两个包围框子树。

上述方案中，所述融合模块，还用于当从所述当前帧图像中检测到至少两个所述目标时，针对每个所述目标，确定所述包围框树中满足以下条件的包围框管：使所述目标的包围框的置信度分数之和最大；使不同所述目标的包围框管互不重叠。

上述方案中，所述更新模块，还用于对应使所述目标的包围框的置信度分数之和最大的包围框管，确定所述包围框管中包围框的最高置信度分数和平均置信度分数；将所述最高置信度分数和所述平均置信度分数的加权结果，确定为所述当前帧图像中所述目标的包围框更新的置信度分数。

上述方案中，所述检测模块，还用于在所述当前帧图像以及所述前序帧图像中，分别利用不同尺寸的窗口进行滑动；通过分类器对不同尺寸的窗口中的图像进行分类，得到所述图像中的像素点是否是所述目标的像素点的检测结果。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频目标的处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频目标的处理方法。

本发明实施例具有以下有益效果：

在获取到从视频进行解码得到的当前帧图像、以及对应的前序帧图像的目标检测结果后，进行了跨帧的置信度分数融合，根据融合结果更新当前帧图像中所述目标的置信度分数，使当前帧图像中目标的置信度分数能够兼顾相邻帧图像中目标的置信度分数，充分利用了视频的时序一致性的特点，使不同帧图像之间所述目标的置信度分数更加稳定，从而有效提升了视频目标的检测精度。

附图说明

图1是本发明实施例提供的视频目标的处理方法的一个可选的应用场景示意图；

图2是本发明实施例提供的用于视频目标的处理的电子设备的结构示意图；

图3是本发明实施例提供的视频目标的处理方法的一个可选的流程示意图；

图4是本发明实施例提供的交并比定义示意图；

图5是本发明实施例提供的目标检测算法的流程示意图；

图6是本发明实施例提供的快速基于区域的卷积神经网络算法的流程示意图；

图7A是本发明实施例提供的一种视频图像的示意图；

图7B是本发明实施例提供的一种目标候选框的示意图；

图8A是本发明实施例提供的视频目标的处理方法的一个可选的流程示意图；

图8B是本发明实施例提供的视频目标的处理方法的一个可选的流程示意图；

图9是本发明实施例提供的由视频图像中的包围框构建包围框树的示意图；

图10是本发明实施例提供的跨帧的包围框组成包围框管的示意图；

图11是本发明实施例提供的搜索包围框管的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作例如详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

发明人在实施本发明实施例的过程中发现，对视频进行目标检测时，由于视频中会存在运动模糊、摄像头失焦、严重遮挡以及目标可能会保持一种奇怪的姿态等问题，若仍采用单帧图像目标检测的方法对视频进行目标检测，将导致同一目标在不同帧的置信度分数相差较大，使结果不稳定，造成精度不佳。

对此，考虑到同一个目标可能在不同帧图像中出现，而使用图像检测算法将视频当做独立的影像帧来处理并没有充分利用视频的上下文信息，故可以在对视频目标进行检测时，在获取到从视频进行解码得到的当前帧图像、以及对应的前序帧图像的检测结果后，根据所述当前帧图像和所述前序帧图像中的包围框，对所述目标在所述当前帧图像和所述前序帧图像之间的置信度分数进行融合，根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数。

鉴于此，本发明实施例提供了一种视频目标的处理方法、装置、电子设备及存储介质，能够有效提升视频目标的检测精度。下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为服务器和终端时的示例性应用。

参见图1，图1是本发明实施例提供的视频目标的处理方法的一个可选的应用场景示意图，为实现支撑一个视频网站上的在线视频的目标检测识别应用，电子设备100通过网络200连接服务器300，网络200可以是广域网或者局域网，又或者是二者的组合。

本发明实施例提供的视频目标的处理方法可应用于以下场景：用户进入视频网站或者视频客户端点播视频。电子设备100将用户点播的视频的相关标识信息(例如视频序列号)发送至服务器300。

在一些实施例中，电子设备实施为服务器300，服务器300对点播的视频数据进行解码，随后对实施解码得到的所述视频的当前帧图像、以及所述当前帧图像对应的前序帧图像实施本发明实施例提供的视频目标的处理方法，以更新实施解码得到的当前帧图像中目标的包围框对应的置信度分数，将已更新检测结果的视频发送回电子设备100，电子设备100播放视频时，可以根据当前帧包围框的置信度分数，显示当前帧中置信度分数高于置信度分数阈值的包围框，从而实现了视频中目标动态跟踪的功能。

在另一些实施例中，本发明实施例提供的电子设备可以实施为终端，终端接收服务器300发送的点播的视频数据，并在本地进行解码，随后对进行实时解码得到的视频的当前帧图像、以及当前帧图像对应的前序帧图像实施本发明实施例提供的视频目标的处理方法，以更新实时解码得到的当前帧图像中所述目标的包围框对应的置信度分数，可以根据当前帧包围框的置信度分数，显示当前帧中置信度分数高于置信度分数阈值的包围框，从而实现了视频中目标动态跟踪的功能。

当然，本发明实施例提供的视频目标的处理方法不局限于在线视频的目标检测的应用场景，还可以用于其他的实时性要求高的目标检测场景，例如无人车的目标检测定位、机器人目标检测、直播目标检测或者安防监控视频目标检测等。

此外，本发明实施例提供的视频目标的处理方法也可以用于非实时性的视频目标的检测，例如(包括电视剧、电影、短视频等各种视频类型)的内容分析、目标物体检测识别等。

参见图2，图2是本发明实施例提供的用于进行视频目标处理的电子设备100的结构示意图，电子设备100包括：至少一个处理器110、存储器150、至少一个网络接口120和用户接口130。电子设备100中的各个组件通过总线系统140耦合在一起。可理解，总线系统140用于实现这些组件之间的连接通信。总线系统140除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统140。

处理器110可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口130包括使得能够呈现媒体内容的一个或多个输出装置131，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口130还包括一个或多个输入装置132，包括有助于用户输入的用户接口部件，例如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器150可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器150可选地包括在物理位置上远离处理器110的一个或多个存储设备。

存储器150包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器150旨在包括任意适合类型的存储器。

在一些实施例中，存储器150能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统151，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块152，用于经由一个或多个(有线或无线)网络接口120到达其他计算设备，示例性的网络接口120包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块153，用于经由一个或多个与用户接口130相关联的输出装置131(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块154，用于对一个或多个来自一个或多个输入装置132之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的视频目标的处理装置可以采用软件方式实现，图2示出了存储在存储器150中的视频目标的处理装置155，其可以是程序和插件等形式的软件，包括以下软件模块：检测模块1551、确定模块1552、融合模块1553和更新模块1554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的视频目标的处理装置可以采用硬件方式实现，作为示例，例如可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频目标的处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面将结合本发明实施例提供的电子设备的示例性应用和实施，说明本发明实施例提供的视频目标的处理方法，根据上文可以理解，本发明实施例提供的视频目标的处理方法可以应用于笔记本电脑、智能手机和平板电脑等用户终端，也可以应用于在线视频服务器、直播服务器等各种服务器，又或者，本发明实施例提供的视频目标的处理方法可以由终端和服务器协同实现。

参见图3，图3是本发明实施例提供的视频目标的处理方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

步骤S301：对从视频进行解码得到的当前帧图像、以及所述当前帧图像对应的前序帧图像进行目标检测。

这里，所述视频可以是任意类型的视频，包括在线视频和本地视频，也包括已录制完成的视频和正在录制过程中的视频，例如，所述视频可以是视频网站或者视频客户端上的电视剧、电影、短视频等，也可以是安防监控系统、机器人、无人车等设备中具有采集图像功能的电子设备实时采集到的视频。为实现对视频目标的处理，首先需要对视频进行解码，得到所述视频中一帧一帧的视频帧图像。

所述当前帧图像并不是特指某一视频帧图像，而是用于指代当前时刻实时进行目标检测的视频帧图像。对于已录制完成的视频网站上的电影来说，例如，某电影由K(正整数)帧图像组成，若在当前时刻所述电影正在播放第5帧，则所述第5帧图像即为当前帧图像；若在当前时刻所述电影正在播放第30帧，则所述第30帧图像即为当前帧图像；对于安防监控系统、机器人、无人车等设备来说，当前帧图像是指当前时刻电子设备采集到的视频帧图像，例如，若当前时刻为8:25，则8:25采集到的视频帧图像即为当前帧图像；若当前时刻为10:35，则10：35采集到的视频帧图像即为当前帧图像。

所述前序帧图像是指时序上位于所述当前帧图像之前的视频帧图像，例如，若当前帧图像为上述电影中的第5帧图像，则所述当前帧图像对应的前序帧图像为所述电影中的第1-4帧图像；若当前帧图像为上述安防监控系统在8:25拍摄到的视频帧图像，则前序帧图像为所述安防监控系统在8:25之前拍摄到的视频帧图像。

所述目标可以是所述视频中的人、动物、植物和生活物品等各种类型的对象，目标的类型可以是预先设定的，也可以是根据应用场景而自动选择的。

作为示例，在线视频的目标检测应用场景中，终端可以接收用户针对目标的设定，例如选定特定的人或物作为目标；当然，当用户没有设定时可以采用自动检测人脸的缺省设定。

作为示例，在无人车的目标检测定位的应用场景中，目标可以是预先设定的能够辅助定位的具有辨识性的对象，例如墙面的图案，墙壁的拐角等。

在一些实施例中，目标检测包括在所述视频帧图像中同时获得所述预设目标的类别信息和位置信息。本发明实施例提供的目标检测算法可以采用滑动窗口检测算法和选择性搜索算法。

其中，滑动窗口检测算法是对输入图像利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域，提取候选区域相关的视觉特征，利用已训练好的分类器进行识别；选择性搜索算法是对输入图像进行分割算法产生许多小的子区域，根据这些子区域之间的相似性进行区域合并，不断地进行区域迭代合并，每次迭代过程中对这些合并的子区域做外切矩形。

在一些实施例中，对所述当前帧图像、以及所述当前帧图像对应的前序帧图像进行目标检测时，帧图像中实际承载的目标的数量存在一个或者多个的情况，那么，在步骤S301中对当前帧图像以及前序帧图像进行目标检测时，可以只检测一个显著的目标，例如成像尺寸与帧图像的尺寸的比例大于比例阈值，也可以对所述图像中的所有潜在的目标同时进行检测。

步骤S302：分别确定在所述当前帧图像和所述前序帧图像中对应检测到的目标的包围框、以及所述包围框对应的置信度分数。

这里，所述包围框是指在所述视频帧图像中包括待检测目标的区域，所述包围框对应的置信度分数是指包围框中包括完整目标的概率。

目标检测需要定位出目标的包围框，由于算法标注的包围框和人工标注的包围框不可能百分百的完全匹配，因此，存在一个定位精度的评价公式：交并比(IntersectionOver Union,IOU)。

如图4所示，IOU定义了两个包围框的重叠程度：

IOU＝(A∩B)/(A∪B)；

其中，包围框A为人工标注的包围框，包围框B为算法标注的包围框，A∩B为包围框A和包围框B交集的面积，A∪B为包围框A和包围框B并集的面积。

例如，当IOU>0.5时，可以认为检测正确，则在视频帧图像中保留包围框。

图5是本发明实施例提供的目标检测算法的流程示意图，如图5所述，目标检测算法包括以下几个阶段：提取候选区域；对候选区域进行分类；包围框回归，其中，对候选区域进行分类具体包括：特征提取和分类。

上述包围框回归的目的是通过采用线性回归算法对候选区域进行纠正，从而使算法标注的包围框和人工标注的包围框更加吻合。

常用的目标检测算法包括基于区域的卷积神经网络算法、快速基于区域的卷积神经网络算法和区域生成网络算法。

在一些实施例中，采用快速基于区域的卷积神经算法对当前帧图像和前序帧图像进行目标检测。图6是本发明实施例提供的快速基于区域的卷积神经网络算法的流程示意图，如图6所示，输入任意尺寸的待检测图像和对应的包围框，其中，包围框是通过选择性搜索算法得到的。利用池化层对不同尺寸的包围框进行尺寸变换，使输入全连接层的特征图像的尺寸一致。通过全连接层后，输出待检测目标的回归后的包围框以及包围框对应不同类别的置信度分数(即分类得分)。

举例来说，假设当前帧图像如图7A所示。设定目标1和目标2，对图7A所示的当前帧图像进行目标检测，确定当前帧图像中的目标后，输出的当前帧图像的检测结果如图7B所示。在图7B中，当前帧图像包括四个包围框，分别为包围框A、包围框B、包围框C和包围框D，包围框A标记了目标1，包围框A中的目标为真实目标1的概率为0.1；包围框B、包围框C和包围框D均标记了目标2，包围框B、C和D中的目标为真实目标2的概率分别为0.01、0.3和0.6。

步骤S303：根据所述当前帧图像和所述前序帧图像中的包围框，对所述目标在所述当前帧图像和所述前序帧图像之间的置信度分数进行融合。

参见图8A，图8A是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图3示出的步骤S303可以通过图8A示出的步骤S3031A至步骤S3032A实现，将结合各步骤进行说明。

步骤S3031A：从所述当前帧图像开始遍历至所述前序帧图像，将相邻两帧图像中对应所述目标的包围框，根据空间位置重叠程度进行连接形成包围框管，得到由至少两个所述包围框管组成的包围框树。

举例来说，当前帧图像可以为视频网站上某部正在播放的电影的第500帧图像，前序帧图像可以为所述电影的第1-499帧图像，所述目标的数量为一个。对于所述电影中每一帧图像的检测结果，均可表示为一个二元组(P,S)，P为所述目标的包围框，包围框的数量可以是一个或者多个；S为所述目标的包围框对应的置信度分数。

例如，包围框P又可具体表示为：(P_x,P_y,P_w,P_h)；其中，P_x和P_y为所述包围框中心点的横坐标和纵坐标；P_w和P_h为所述包围框的宽和高。

例如，从上述电影的第500帧图像开始，计算所述第500帧图像中对应置信度分数最大的包围框与第499帧图像中所有包围框的交并比，当交并比大于交并比阈值时，将两者进行连接。对于第499帧图像，分别计算所述第499帧图像中每一个包围框与第498帧图像中所有包围框的交并比，当交并比大于交并比阈值时，将其进行连接。以此类推，直至所述电影的第1帧图像，从而得到所述目标在所述电影第1-500帧图像之间形成的包围框树。

例如，上述交并比阈值可设定为0.5，当相邻两帧图像中所述目标的包围框交并比大于0.5时，将其对应的包围框进行连接。

可以理解地，目标的数量可以是多个，针对每个目标，均可采用上述方法构建出每个目标对应的包围框树，在此不再赘述。

步骤S3032A：确定所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

在一些实施例中，可以采用动态规划算法确定出所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

同样以上述由所述目标在所述电影第1-500帧图像之间形成的包围框树为例进行具体说明动态规划算法。

首先，在得到由所述目标在所述电影第1-500帧图像之间形成的包围框树之后，将所述包围框树划分成若干个包围框子树。

例如，所述划分可以是按时序将所述包围框树平均划分成10个包围框子树，则每个包围框子树由50帧图像的包围框组成。将由第500帧图像的包围框至第451帧图像的包围框组成的包围框子树视为第一包围框子树。在所述第一包围框子树中，从第1层开始遍历至第50层，找到所有的包围框子管，从中选择出置信度分数之和最大的包围框子管。

其次，类似地，分别确定出第二至第十包围框子树中对应的置信度分数之和最大的包围框子管。随后，将所述第一至第十包围框子树中的包围框子管进行整合，从而确定出所述第1-500帧图像之间形成的包围框树中使所述目标的置信度分数之和最大的包围框管。

可以理解地，当目标的数量为多个时，可用上述方法求解出每个目标对应的置信度分数之和最大的包围框管，且每个目标的包围框管不共用框，即彼此之间互不重叠。

参见图8B，图8B是本发明实施例提供的一个可选的流程示意图，图3示出的步骤S303还可以通过图8B示出的步骤S3031B至步骤S3033B实现，将结合各步骤进行说明。

步骤S3031B：从所述当前帧图像开始遍历至所述前序帧图像，将相邻两帧图像中对应所述目标的包围框，根据空间位置重叠程度进行连接形成包围框管，得到由至少两个所述包围框管组成的包围框树。

步骤S3032B：从所述包围框树中选取所述当前帧图像中的包围框、以及所述当前帧图像之前M个连续的前序帧图像中的包围框，并组成局部包围框树；其中，M为正整数，所述M个前序帧图像的第一帧图像中所述目标的置信度分数为已更新的置信度分数；将所述局部包围框树划分为至少两个包围框子树。

作为示例，当前帧为视频起始的若干帧(例如帧号为1至M+1的帧)时，在步骤3032B中选取当前帧的所有前序帧，结合对应的包围框形成包围框树；随着当前帧的帧号不断递增，当帧号为M+2或更大的值时，仅选取与当前帧的解码时间最接近的部分前序帧(即M个前序帧)，结合对应的包围框形成包围框树。

对于M的取值而言，可以是针对所有的视频预先设定的先验值，当然，也可以结合视频的参数、目标检测的应用场景的类型来动态选取。

例如，如果在帧率较高视频中选取的前序帧的数量与帧率相对低的视频中选取的前序帧的数量相同，则难以反映目标在帧率较高视频中的运动的趋势，因此，M的取值可以与视频的帧率正相关，从而能够充分利用视频的时序一致性的特点，使得后续计算的置信度分数更加稳定。可以理解，M的取值也可以与视频的持续时间(对于直播而言，由于持续时间是不确定的，因此可以是统一设定的值，例如用户观看的历史视频的平均持续时间)正相关。

再例如，根据目标检测的应用场景的实时性需求，M的取值可以与实时强度(即响应的延迟)的负相关，即应用场景对于实时性的要求越高(即响应的延迟越小)，则M的相对越小(当然，M的取值不能低于能够利用时序一致性的阈值)。

步骤S3033B：确定所述局部包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

步骤S3031B至步骤S3033B提出的基于最大步长限制的滑窗方案，给定一个滑窗的最大深度M，只需求解由当前帧图像的包围框至最近M帧图像的包围框组成的包围框树，大大减少了求解的复杂度，使本发明实施例提供的视频目标的处理方案能够适用于对实时性要求较高的在线视频目标检测。

步骤S304：根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数。

在一些实施例中，根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数，可以采用如下方式：将所述当前帧图像原先的置信度分数更新为所述最高置信度分数和平均置信度分数的加权值。

例如，所述加权值可以是最高置信度分数和平均置信度分数的平均加权值，当然，最高置信度分数和平均置信度分数也可以采用不同的权重系数。

从而，更新后的置信度分数不仅考虑了所述目标在其他帧图像中的置信度分数，还考虑最高置信度分数的影响，因此能够更加准确反映目标在不同帧图像之间的变化趋势。

在另一些实施例中，根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数，可以采用如下方式：确定所述包围框管中包围框的最高置信度分数和所述包围框管中所有包围框的置信度分数的平均值。

本发明实施例提供的视频目标的处理方法，在获取到从视频进行解码得到的当前帧图像、以及对应的前序帧图像的目标检测结果后，对其进行了跨帧的置信度分数融合，根据融合结果更新所述当前帧图像中所述目标的置信度分数，使当前帧图像中所述目标的置信度分数能够同时考虑到其他帧图像中所述目标的置信度分数，充分利用了视频的时序一致性的特点，使不同帧图像之间所述目标的置信度分数更加稳定，从而有效提升了视频目标的检测精度。

下面继续结合图2说明本发明实施例提供的视频目标的处理装置155的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器140的视频目标的处理装置155中的软件模块可以包括：检测模块1551、确定模块1552、融合模块1553和更新模块1554。

所述检测模块1551，用于对从视频进行解码得到的当前帧图像、以及所述当前帧图像对应的前序帧图像进行目标检测；

所述确定模块1552，用于分别确定在所述当前帧图像和所述前序帧图像中对应检测到的目标的包围框、以及所述包围框对应的置信度分数；

所述融合模块1553，用于根据所述当前帧图像和所述前序帧图像中的包围框，对所述目标在所述当前帧图像和所述前序帧图像之间的置信度分数进行融合；

所述更新模块1554，用于根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数。

在一些实施例中，所述融合模块，还用于从所述当前帧图像开始遍历至所述前序帧图像，将相邻两帧图像中对应所述目标的包围框，根据空间位置重叠程度进行连接形成包围框管，得到由至少两个所述包围框管组成的包围框树；确定所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

在一些实施例中，所述融合模块，还用于当相邻两帧图像中对应所述目标的包围框交并比大于交并比阈值时，将所述相邻两帧图像中对应所述目标的包围框进行连接形成包围框管。

在一些实施例中，所述融合模块，还用于将所述包围框树划分为至少两个包围框子树；针对每个所述包围框子树，从第一层开始遍历至最后一层，得到所述包围框子树中使所述目标的包围框的置信度分数之和最大的包围框子管；将每个所述包围框子树对应的所述包围框子管进行整合，得到所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

在一些实施例中，所述融合模块，还用于从所述包围框树中选取所述当前帧图像中的包围框、以及所述当前帧图像之前M个连续的前序帧图像中的包围框，并组成局部包围框树；其中，M为正整数，所述M个前序帧图像的第一帧图像中所述目标的置信度分数为已更新的置信度分数；将所述局部包围框树划分为至少两个包围框子。

在一些实施例中，所述融合模块，还用于当从所述当前帧图像中检测到至少两个所述目标时，针对每个所述目标，确定所述包围框树中满足以下条件的包围框管：使所述目标的包围框的置信度分数之和最大；使不同所述目标的包围框管互不重叠。

在一些实施例中，所述更新模块，还用于对应使所述目标的包围框的置信度分数之和最大的包围框管，确定所述包围框管中包围框的最高置信度分数和平均置信度分数；将所述最高置信度分数和所述平均置信度分数的加权结果，确定为所述当前帧图像中所述目标的包围框更新的置信度分数。

在一些实施例中，所述检测模块，还用于在所述当前帧图像以及所述前序帧图像中，分别利用不同尺寸的窗口进行滑动；通过分类器对不同尺寸的窗口中的图像进行分类，得到所述图像中的像素点是否是所述目标的像素点的检测结果。

需要说明的是，对于本申请实施例提供的视频目标处理装置中未尽的技术细节，可以根据图3、图8A和图8B的说明而理解。

本发明实施例提供一种视频目标的处理方案可以用于视频目标检测任务，例如视频网站上的视频的内容分析、目标物体的检测识别，其中，所述视频包括电视剧、电影、短视频等各种视频类型。尤其适用于对实时性要求高的在线视频目标检测，包括无人车的目标检测定位、机器人目标检测、直播目标检测以及安防监控视频目标检测等领域。下面，继续说明本发明实施例在在线视频的目标检测应用场景中的示例性应用。

在线视频目标的处理包括以下几个阶段：构建包围框树；求解置信度分数之和最大的包围框管；融合更新。其中，下文所称的最优管即指置信度分数之和最大的包围框管。

图9是本发明实施例提供的由视频图像中的包围框构建包围框树的示意图，如图9所示，本发明实施例在得到视频图像的每一帧检测结果后，需要将视频每一帧得到的包围框构建每个目标的包围框树。这种树每一层对应一帧，同一层内部没有连接，相邻两层之间允许连接，当相邻两帧之间的包围框交并比(IoU)大于0.5，其对应的框在树中产生连接。

具体来说，即为给定检测结果d_k,k∈[t,t-1,…,1],构建多个目标的包围框树T。对树上每个结点o均为一个二元组(b,s)，b为包围框，s为包围框对应的置信度分数。第m个目标的子树T_m从第t帧第m个目标的结点开始向前扩散。扩散过程中，若IoU(b_k,b_k-1)>0.5,则b_k可扩散到b_k-1，一直进行如此扩散过程直到所有目标均扩散到前面所有帧。

在得到由所有目标在t帧之前所有帧的框组成的树T后，可用动态规划算法求得每个目标的最优管，使每个物体的最优管上所有包围框的置信度分数之后最大，且每个物体的最优管之间不共用框。

图10是本发明实施例提供的跨帧的包围框组成包围框管的示意图，示出了由跨帧的包围框组成的一个三维体。由图10可知，目标A仅在视频第1-L1帧图像中出现，则目标A的最优管由第1-L1帧图像的包围框组成；目标B在第1-L2帧中出现，相应地，目标B的最优管由第1-L2帧图像中对应目标的包围框组成。类似地，在第L2-L4帧图像中，目标A和目标B不在出现，而出现了目标C和目标D，同样可以在目标C和目标D相应出现的视频帧图像中构建目标C和目标D的最优管。

这里，所述动态规划问题可转换为如下最优化问题：

其中为所有目标的最优管的集合。相关技术求解该问题需要对k个树进行k次动态规划求解，然而这样随着帧数越来越多，求解复杂度会大幅度增大，因而不适用于在线视频目标检测。

图11是本发明实施例提供的方法中利用在线滑窗方法搜索置信度分数之和最大的包围框管的示意图，如图11所示，针对上述求解复杂度会大幅度增大的问题，本发明实施例提供一种基于最大步长限制的滑窗方法求解最优管的集合：给定一个滑窗的最大深度M(小于树的深度)，只求解最近M帧组成的树内的最优管。

例如，从第一帧开始到第M帧内的某一帧c，用动态规划算法求解每一帧对应的最优管，并记录其最优管和最优管分数之和(tub_c,s_tub,c)。对从第M帧开始的某一帧c，则只求解从第c帧开始往前最近M帧的结点组成的最优管，即只考虑[o_c,…，,o_c-M]。对于[o_c,…,o_c-(M-1)]中的任意一个o，其为正常的框与分数的二元组(b,s)。对于o_c-M，其为由第c-M帧求解出的最优管及其对应的分数之和(tub_c-M,s_tub,c-M)。因而，这样求解最优管最长只有M帧，大大减少求解复杂度。

当求解得到第c帧的最优管tub_c后，第c帧原有包围框的分数将更新为最优管内最高分与平均分的均值，即s_c＝0.5max(s_tub,c)+0.5mean(s_tub,c)。

可见，本发明实施例应用于在线视频的目标检测的应用场景时，在得到视频每一帧的检测结果后，对其进行跨帧的置信度分数融合，使同一目标的包围框对应的置信度分数在当前帧出现时的置信度分数能够同时考虑到所述目标在其他帧图像中的置信度分数，充分利用了视频的时序一致性的特点，可以使同一目标在不同帧之间的置信度分数更加稳定，从而有效提升了视频目标的检测精度。

并且，本发明实施例还提出了一种基于最大步长限制的滑窗方案，通过给定一个滑窗的最大深度M，只需求解由当前帧图像的包围框至最近M帧图像的包围框组成的包围框树，大大减少了求解的复杂度。从而能够广泛应用于各种实时性、非实时性的视频目标检测任务。

例如，这些视频目标检测任务可以包括视频网站上的视频(包括电视剧、电影、短视频等各种视频类型)的内容分析、目标物体检测识别。尤其适用于对实时性要求高的在线视频目标检测，例如无人车的目标检测定位、机器人目标检测、直播目标检测或者安防监控视频目标检测。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3、图8A和图8B任一附图示出的视频目标的处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本发明实施例具有以下有益效果：

1)在获取到从视频进行解码得到的当前帧图像、以及对应的前序帧图像的目标检测结果后，对其进行了跨帧的置信度分数融合，根据融合结果更新所述当前帧图像中所述目标的置信度分数，使当前帧图像中所述目标的置信度分数能够同时考虑到其他帧图像中所述目标的置信度分数，充分利用了视频的时序一致性的特点，使不同帧图像之间所述目标的置信度分数更加稳定，有效提升了视频目标的检测精度。

2)在求解由前序帧图像中所述目标的包围框以及当前帧图像中所述目标的包围框构成的包围框树中使所述目标的包围框对应的置信度分数之和最大的包围框管时，从所述包围框树中选取由所述当前帧图像中的包围框、以及所述当前帧图像之前的M个连续前序帧图像中的包围框组成的局部包围框树，从而只需求解从当前帧开始往前最近M帧的结点组成的包围框树，大大减少了求解的复杂度。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种视频目标的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前帧图像和所述前序帧图像中的包围框，对所述目标在所述当前帧图像和所述前序帧图像之间的置信度分数进行融合，包括：

从所述当前帧图像开始遍历至所述前序帧图像，将相邻两帧图像中对应所述目标的包围框，根据空间位置重叠程度进行连接形成包围框管，得到由至少两个所述包围框管组成的包围框树；

确定所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

3.根据权利要求2所述的方法，其特征在于，所述将相邻两帧图像中对应所述目标的包围框根据空间位置重叠程度进行连接形成包围框管，包括：

当相邻两帧图像中对应所述目标的包围框交并比大于交并比阈值时，将所述相邻两帧图像中对应所述目标的包围框进行连接形成包围框管。

4.根据权利要求2所述的方法，其特征在于，所述确定所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管，包括：

将所述包围框树划分为至少两个包围框子树；

针对每个所述包围框子树，从所述包围框子树的第一层开始遍历至最后一层，得到所述包围框子树中使所述目标的包围框的置信度分数之和最大的包围框子管；

将每个所述包围框子树对应的所述包围框子管进行整合，得到所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管。

5.根据权利要求4所述的方法，其特征在于，所述将所述包围框树划分为至少两个包围框子树，包括：

从所述包围框树中选取所述当前帧图像中的包围框、以及所述当前帧图像之前M个连续的前序帧图像中的包围框，并组成局部包围框树；

其中，M为正整数，所述M个前序帧图像的第一帧图像中所述目标的置信度分数为已更新的置信度分数；

将所述局部包围框树划分为至少两个包围框子树。

6.根据权利要求2所述的方法，其特征在于，所述确定所述包围框树中使所述目标的包围框的置信度分数之和最大的包围框管，包括：

当从所述当前帧图像中检测到至少两个所述目标时，针对每个所述目标，确定所述包围框树中满足以下条件的包围框管：

使所述目标的包围框的置信度分数之和最大；

使不同所述目标的包围框管互不重叠。

7.根据权利要求1所述的方法，其特征在于，所述根据融合结果更新所述当前帧图像中所述目标的包围框对应的置信度分数，包括：

对应使所述目标的包围框的置信度分数之和最大的包围框管，确定所述包围框管中包围框的最高置信度分数和平均置信度分数；

将所述最高置信度分数和所述平均置信度分数的加权结果，确定为所述当前帧图像中所述目标的包围框更新的置信度分数。

8.根据权利要求1所述的方法，其特征在于，所述对从视频进行解码得到的当前帧图像、以及所述当前帧图像对应的前序帧图像进行目标检测，包括：

在所述当前帧图像以及所述前序帧图像中，分别利用不同尺寸的窗口进行滑动；

通过分类器对不同尺寸的窗口中的图像进行分类，得到所述图像中的像素点是否是所述目标的像素点的检测结果。

9.一种视频目标的处理装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述融合模块还用于：