CN116486312B

CN116486312B - 一种视频图像的处理方法、装置、电子设备和存储介质

Info

Publication number: CN116486312B
Application number: CN202310740056.XA
Authority: CN
Inventors: 晁银银; 梁玲燕; 董刚; 赵雅倩; 李仁刚; 曹其春
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-08
Anticipated expiration: 2043-06-21
Also published as: CN116486312A

Abstract

本发明实施例提供了一种视频图像的处理方法、装置、电子设备和存储介质，涉及人工智能计算机视觉技术领域，包括获取视频图像；从所述视频图像中检测出首图像和后续图像；对所述首图像进行目标检测，确定首图像检测框；基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸；基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图，所述第一切图包括目标检测框；针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像。通过本发明实施例可以大幅降低超高分辨率视频图像的检测时间，并且保证检测精度。

Description

一种视频图像的处理方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能计算机视觉技术领域，特别是涉及一种视频图像的处理方法、一种视频图像的处理装置、一种电子设备和一种存储介质。

背景技术

近年来，千兆像素摄影得到了长足的发展，并逐渐应用于遥感、视频监控等领域。在遥感领域，处理高分辨率的影像，对城市规划、机场监管、无人车自动道路导航、异常天气下森林面积的毁坏、作物和自然资源监控，以及识别杂草植物，可用于在农田中有针对性地喷洒农药等具有重要意义。

如千兆像素图像等超高分辨率图像，具有平方公里级别的可视视场区域(包含数千个目标)和高达100倍的尺度变化，大视场和高分辨率会提供全局和局部信息，但图像中目标位姿、尺度、遮挡的差异较大。目前，在对目标查找的方案中，检测的时间过长，或者重采样后的图像相比原图过小，导致检测精度降低。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频图像的处理方法、一种视频图像的处理装置、一种电子设备和一种存储介质。

在本发明的第一个方面，本发明实施例公开了一种视频图像的处理方法，包括：

获取视频图像；

从所述视频图像中检测出首图像和后续图像；

对所述首图像进行目标检测，确定首图像检测框；

基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸；

基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图，所述第一切图包括目标检测框；

针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像。

可选地，所述方法还包括：

对所述首图像进行背景识别，生成背景掩码；

在所述首图像上叠加所述背景掩码。

可选地，所述从所述视频图像中检测出首图像和后续图像的步骤包括：

读取所述视频图像中的第一帧图像，确定所述第一帧图像为所述首图像；

从所述视频图像中，确定所述第一帧图像之外的图像为所述后续图像。

可选地，所述对所述首图像进行目标检测，确定首图像检测框的步骤包括：

对所述首图像进行缩放，生成缩放图像；

对所述缩放图像进行滑窗切图，生成第二切图；

对所述第二切图进行目标检测，生成切图检测框；

将所述切图检测框映射至所述首图像，生成第一映射检测框；

对所述第一映射检测框进行非极大值抑制，确定所述首图像检测框。

可选地，所述基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸的步骤包括：

获取所述首图像检测框的坐标信息；

基于所述坐标信息进行聚类，生成多个簇，所述簇包括簇尺寸；

依据所述簇尺寸，确定所述划分区间；

依据所述首图像检测框的坐标信息，确定所述切图尺寸。

可选地，所述基于所述坐标信息进行聚类，生成多个簇的步骤包括：

按照所述坐标信息的大小，对所述首图像检测框进行排序，确定二维点集合；

基于密度聚类，对所述二维点集合进行循环聚类，生成多个簇。

获取所述簇的首末点高度差信息；

采用所述首末点高度差信息更新所述密度聚类的参数。

可选地，所述簇尺寸包括边界坐标和最大高度，所述依据所述簇尺寸，确定所述划分区间的步骤包括：

将当前簇的边界坐标和相邻簇的边界坐标进行对比，确定目标边界坐标；

将当前簇的最大高度和相邻簇的最大高度进行对比，确定目标最大高度；

依据所述目标边界坐标和所述目标最大高度，确定所述划分区间。

可选地，所述将当前簇的边界坐标和相邻簇的边界坐标进行对比，确定目标边界坐标的步骤包括：

判断所述当前簇的边界坐标和所述相邻簇的边界坐标的大小；

当所述当前簇的边界坐标大于所述相邻簇的边界坐标时，确定所述当前簇的边界坐标为所述目标边界坐标；

当所述当前簇的边界坐标小于所述相邻簇的边界坐标时，确定所述相邻簇的边界坐标为所述目标边界坐标。

可选地，所述将当前簇的最大高度和相邻簇的最大高度进行对比，确定目标最大高度的步骤包括：

判断所述当前簇的最大高度和所述相邻簇的最大高度的大小；

当所述当前簇的最大高度大于所述相邻簇的最大高度时，确定所述当前簇的最大高度为所述目标最大高度；

当所述当前簇的最大高度小于所述相邻簇的最大高度时，确定所述相邻簇的最大高度为所述目标最大高度。

可选地，所述首图像检测框的坐标信息包括高度和宽度，所述依据所述首图像检测框的坐标信息，确定所述切图尺寸的步骤包括：

将所述高度和宽度进行两倍增加，确定为所述切图尺寸。

可选地，所述基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸的步骤还包括：

计算所述划分区间的缩放尺度。

可选地，所述基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图的步骤包括：

确定重叠区域大小；

依据所述重叠区域大小、所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个所述第一切图。

可选地，所述基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图的步骤还包括：

判断所述第一切图的像素是否全为零；

当所述第一切图的像素全为零时，删除所述第一切图。

可选地，所述针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像的步骤包括：

将所述目标检测框映射至所述后续图像；

对映射后的目标检测框进行非极大值抑制处理，得到第二检测框；

依据所述第二检测框的高度，确定领域半径；

在所述领域半径内，从所述第二检测框中确定第三检测框；

对比所述第三检测框与所述第二检测框，确定第四检测框；

将所述第四检测框组成所述目标图像。

可选地，所述对比所述第三检测框与所述第二检测框，确定第四检测框的步骤包括：

判断所述第二检测框与所述第三检测框是否重叠；

当所述第二检测框与所述第三检测框不重叠时，确定所述第二检测框和所述第三检测框为所述第四检测框；

当所述第二检测框与所述第三检测框重叠时，确定所述第二检测框与所述第三检测框之间的重叠面积，和确定所述第二检测框与所述第三检测框之间的小面积检测框；

当所述重叠面积和所述小面积检测框的面积小于预设面积条件，且所述小面积检测框的高宽比满足预设高宽比条件时，删除所述小面积检测框；

当所述重叠面积或所述小面积检测框的面积不小于预设面积条件，或所述小面积检测框的高宽比不满足预设高宽比条件时，确定所述第二检测框和所述第三检测框为所述第四检测框。

可选地，所述对所述首图像进行背景识别，生成背景掩码的步骤包括：

对所述首图像进行背景识别，生成目标活动区域凸包；

对所述目标活动区域凸包进行拓展，生成凸多边形；

依据所述凸多边形生成所述背景掩码。

在本发明的第二个方面，本发明实施例公开了一种视频图像的处理装置，包括：

获取模块，用于获取视频图像；

第一检测模块，用于从所述视频图像中检测出首图像和后续图像；

第二检测模块，用于对所述首图像进行目标检测，确定首图像检测框；

聚类模块，用于基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸；

切分模块，用于基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图，所述第一切图包括目标检测框；

目标确定模块，用于针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像。

在本发明的第三个方面，本发明实施例还公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的视频图像的处理方法的步骤。

在本发明的第四个方面，本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的视频图像的处理方法的步骤。

本发明实施例包括以下优点：

本发明实施例通过获取视频图像；从所述视频图像中检测出首图像和后续图像；对所述首图像进行目标检测，确定首图像检测框；基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸；基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图，所述第一切图包括目标检测框；针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像。通过对不同大小的目标进行聚类，根据聚类结果对图片不同区域自适应设定切图范围和尺度，减少切图数量，缩短检测时长。再对切图执行目标检测和坐标映射，采用非极大值抑制处理解决由于切图导致的单个目标多检测框，提高检测精度。

附图说明

图1是本发明的一种视频图像的处理方法实施例的步骤流程图；

图2是本发明的另一种视频图像的处理方法实施例的步骤流程图；

图3是本发明的一种视频图像的处理方法实施例的切图示意图；

图4是本发明的一种视频图像的处理方法实施例的背景掩码叠加示意图；

图5是本发明的一种视频图像的处理装置实施例的结构框图；

图6是本发明实施例提供的一种电子设备的结构框图；

图7是本发明实施例提供的一种存储介质的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种视频图像的处理方法实施例的步骤流程图，所述视频图像的处理方法具体可以包括如下步骤：

步骤101，获取视频图像；

在本发明实施例中，可以从摄像机等图像采集设备中获取其采集的视频图像，其中，这些视频图像为超高分辨图像，如千兆像素或以上的图像。

步骤102，从所述视频图像中检测出首图像和后续图像；

从视频图像中检测出首图像，即视频图像中的首帧图像，以及在首图像之后的后续图像。其中，首图像为单帧图像，后续图像至少为一帧图像。

步骤103，对所述首图像进行目标检测，确定首图像检测框；

对首图像进行目标检测，确定针对首图像进行检测的首图像检测框。

步骤104，基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸；

基于首图像检测框检测的目标，对首图像中的目标进行聚类，生成划分区间和切图尺寸，其中划分区间为对图像的划分的范围，切图尺寸为进行切图时，切图后的单个切图尺寸大小。

步骤105，基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图，所述第一切图包括目标检测框；

基于划分区间和切图尺寸对后续图像进行图像的切分，针对单帧的后续图像切分为多个第一切图，其中，该第一切图包括目标检测框，目标检测框为后续图像切图后，切图中针对目标进行识别的检测框。

步骤106，针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像。

然后再针对目标检测框映射回后续图像的原图像中，并在映射后，对目标检测框进行非极大值抑制，对噪声点进行滤除，将滤除的后目标检测框对应的切图组成目标图像。

参照图2，示出了本发明的另一种视频图像的处理方法实施例的步骤流程图，本发明实施实施例可以应用在图像处理的计算机设备上，可以通过在该计算机设备上创建buffer缓冲，开启多个CPU（中央处理器）进程使得各个模块可以流水化并行开展，在当前帧执行目标检测和后处理时，执行下一帧的图像读取和图像切分过程。除此之外，还可以利用分布式通信原理，采用单机多卡或者多级多卡并行推理，将子图的检测任务并行化。所述视频图像的处理方法具体可以包括如下步骤：

步骤201，获取视频图像；

可以从图像采集设备中获取视频图像。

步骤202，从所述视频图像中检测出首图像和后续图像；

可以从视频图像中，识别分类出首图像和后续图像，其中首图像为单帧图像，后续图像为多帧图像。

在本发明的一可选实施例中，所述从所述视频图像中检测出首图像和后续图像的步骤包括：读取所述视频图像中的第一帧图像，确定所述第一帧图像为所述首图像；从所述视频图像中，确定所述第一帧图像之外的图像为所述后续图像。

在本发明实施例中，读取视频图像中的第一帧图像，确定为首图像，将视频图像中第一帧图像之外的其他图像为后续图像。

步骤203，对所述首图像进行目标检测，确定首图像检测框；

在得到首图像后，对首图像进行目标检测，确定出首图像检测框。

在本发明的一可选实施例中，所述对所述首图像进行目标检测，确定首图像检测框的步骤包括：

步骤S2031，对所述首图像进行缩放，生成缩放图像；

对首图像进行不同尺度的缩放，如图3所示，将原图缩小为0.6倍和0.4倍；生成缩放图像。

步骤S2032，对所述缩放图像进行滑窗切图，生成第二切图；

对缩放后的图像执行滑窗切图，生成多个切图，即第二切图。如图3所述，对缩小为原始图像0.6和0.4倍的缩放图像，分别进行滑窗切图，生成第二切图。

步骤S2033，对所述第二切图进行目标检测，生成切图检测框；

然后对第二切图进行目标检测，识别出目标，生成切图检测框。具体地，可以采用目标检测模型进行目标检测，对于目标检测的模型可以根据实际需求进行选择，本发明实施例不作具体限定。

步骤S2034，将所述切图检测框映射至所述首图像，生成第一映射检测框；

将得到的切图检测框映射回首图像原图中，如图3所示，在首图像上，生成多个第一映射检测框。具体地，映射的过程为：

其中，和/>为检测得到的切图检测框的左上角坐标和右下角坐标，/>为切图在首图像原图中的起始坐标，/>和/>为映射后的第一映射检测框的左上角坐标和右下角坐标；scale为首图像尺寸。

步骤S2035，对所述第一映射检测框进行非极大值抑制，确定所述首图像检测框。

对映射后的第一映射检测框进行非极大值抑制，得到整首图像的所有检测框，即首图像检测框。

步骤204，对所述首图像进行背景识别，生成背景掩码；

可以对首图像进行背景设别，生成对应的背景掩码。将背景区域对应的像素值置为零，以可以减少后续切图和检测耗时。

具体地，所述对所述首图像进行背景识别，生成背景掩码的步骤包括：

子步骤S2041，对所述首图像进行背景识别，生成目标活动区域凸包；

在对首图像进行背景识别前，可以先对首图像检测框坐标进行预处理，所有检测框坐标点计算其中心点坐标和宽高w和h，生成点集合s；计算公式如下：

预处理完后，可以针对首图像检测框的中心点首先按照坐标x排序，再按照坐标y排序；当x坐标相同时，只保留y坐标最大和最小的两个点，剩余点删除，以此重复，计算出目标活动区域凸包。

子步骤S2042，对所述目标活动区域凸包进行拓展，生成凸多边形；

在得到目标活动区域凸包后，可以采用向外t倍的更新策略对目标活动区域凸包进行扩展，将下凸包坐标(x，y)变为(x，y-th)，将上凸包坐标变为(x，y+th)；然后将上凸包的末点和下凸包的首点的坐标(x，y)变为(x-tw，y)，将上凸包的首点和下凸包的末点的坐标(x，y)变为(x+tw，y)，再利用预设的掩码函数，将凸多边形的坐标构成的多边形。其中t的大小可以根据需求进行确定，本发明实施例对此不作限定。如在本发明的一示例中，t的大小为5。

子步骤S2043，依据所述凸多边形生成所述背景掩码。

将得到的凸多边形生产对应的背景掩码。

步骤205，在所述首图像上叠加所述背景掩码；

将首图像上叠加背景掩码，以使得后续图像也会叠加有背景掩码，减少后续图像的处理数据，提高检测效率。参照图4，在叠加背景掩码后的图像，可以将背景中像素进行删除。

步骤206，基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸；

采用首图像检测框对首图像中的目标进行聚类，确定出对后续图像进行划分的划分区间和切图尺寸。

在本发明的一可选实施例中，所述基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸的步骤包括：

子步骤S2061，获取所述首图像检测框的坐标信息；

获取首图像检测框的坐标信息，如信息。

子步骤S2062，基于所述坐标信息进行聚类，生成多个簇，所述簇包括簇尺寸；

基于坐标信息进行聚类，生成多个簇，一个簇包括簇尺寸。

具体地，所述基于所述坐标信息进行聚类，生成多个簇的步骤包括：按照所述坐标信息的大小，对所述首图像检测框进行排序，确定二维点集合；基于密度聚类，对所述二维点集合进行循环聚类，生成多个簇。

在本发明实施例中，可以设定初始参数(, MinPts)，其中，/>为某一对象的邻域距离阈值，MinPts为某一对象的距离为/>的邻域中样本个数的阈值。首先按照坐标/>排序，再按照坐标/>排序，生成二维点集合D，将二维点集D中所有对象标记为未分类，依次循环取出每个未分类的点x，并将x标记为已分类。计算x的/>邻域对象集合S，；其中，dist为计算两点的坐标距离。

对于每个对象，如果o未分类：首先将o标记为已分类；然后如果o也是核心对象，则将o的/>邻域中的点添加到S中；最后如果o还没有聚类id，则将聚类id分配给o。如果x不是核心对象且未分类则是噪声，分给它类别-1；从而不断循环，得到多个簇（类别）。

子步骤S2063，依据所述簇尺寸，确定所述划分区间；

依据簇尺寸，计算出图像的划分区间。

具体地，所述簇尺寸包括边界坐标和最大高度，所述依据所述簇尺寸，确定所述划分区间的步骤包括：

子步骤S20631，将当前簇的边界坐标和相邻簇的边界坐标进行对比，确定目标边界坐标；

将当前簇的边界坐标和相邻簇的边界坐标进行对比，确定两者中较大的目标边界坐标。

具体地，包括：判断所述当前簇的边界坐标和所述相邻簇的边界坐标的大小；当所述当前簇的边界坐标大于所述相邻簇的边界坐标时，确定所述当前簇的边界坐标为所述目标边界坐标；当所述当前簇的边界坐标小于所述相邻簇的边界坐标时，确定所述相邻簇的边界坐标为所述目标边界坐标。

子步骤S20632，将当前簇的最大高度和相邻簇的最大高度进行对比，确定目标最大高度；

将当前簇的最大高度和相邻簇的最大高度进行对比，确定两者中较大的目标最大高度。

具体地，判断所述当前簇的最大高度和所述相邻簇的最大高度的大小；当所述当前簇的最大高度大于所述相邻簇的最大高度时，确定所述当前簇的最大高度为所述目标最大高度；当所述当前簇的最大高度小于所述相邻簇的最大高度时，确定所述相邻簇的最大高度为所述目标最大高度。

子步骤S20633，依据所述目标边界坐标和所述目标最大高度，确定所述划分区间。

针对单个簇，确定该簇的目标边界坐标，即最小坐标和最大坐标/>，以及最大高度/>，将划分区间和尺度设定为/>，/>，/>。

当i>0时：若，且/>则/>，并将坐标的点加入到簇i-1，计算簇i-1更新后的/>和/>；若/>，且,则/>;若/>,则/>。

当i=n时，，其中H是原图的高度。

以此，计算出划分区间。

子步骤S2064，依据所述首图像检测框的坐标信息，确定所述切图尺寸。

针对首图像检测框的坐标信息，计算出切图时的切图尺寸。

进一步地，所述首图像检测框的坐标信息包括高度和宽度，所述依据所述首图像检测框的坐标信息，确定所述切图尺寸的步骤包括：将所述高度和宽度进行两倍增加，确定为所述切图尺寸。

计算每个切图的高度。根据目标检测模型的输入首图像检测框的尺寸，得到切图宽度/>。确定切图高度和切图宽度为切图尺寸。

此外，所述基于所述坐标信息进行聚类，生成多个簇的步骤还包括：获取所述簇的首末点高度差信息；采用所述首末点高度差信息更新所述密度聚类的参数。

在本发明实施例中，可以自适应地更新邻域距离阈值，以满足高分辨率图像目标密度近疏远密，近大远小的特性。将聚类id对应簇的所有点，首先按照坐标/>排序，再按照坐标h排序，计算首点和末点的首末点高度差信息/>，将/>更新为/>，将MinPts更新为/>，其中/>和/>为超参数。

进一步地，所述基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸的步骤还包括：计算所述划分区间的缩放尺度。

在本发明实施例中，可以计算每个区间切图的缩放尺度。

步骤207，基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图，所述第一切图包括目标检测框；

采用划分区间和切图尺寸，对后续图像的每一帧进行切分，针对每一帧后续图像，生成多个第一切图。其中，每一个第一切图包括目标检测框。

在本发明的一可选实施例中，所述基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图的步骤包括：

子步骤S2071，确定重叠区域大小；

首先，确定切图之间需要重叠的重叠区域大小。该重叠区域可以根据预先设置参数确定。

子步骤S2072，依据所述重叠区域大小、所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个所述第一切图。

根据重叠区域大小、划分区间和切图尺寸大小，确定切图之间的大小以及关联关系，对后续图像进行切分，生成多个第一切图，以防止目标在切图边缘。

进一步地，所述基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图的步骤还包括：判断所述第一切图的像素是否全为零；当所述第一切图的像素全为零时，删除所述第一切图。

对于第一切图被切分出来后，可以判断第一切图的像素是否为全零，当第一切图的像素全为零时，即说是该第一切图为背景，可以直接删除该第一切图。

步骤208，针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像。

在本发明的一可选实施例中，所述针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像的步骤包括：

子步骤S2081，将所述目标检测框映射至所述后续图像；

根据第一切图的缩放尺度r和后续图像原图中的起始坐标将检测框坐标映射回后续图像原图。映射过程如下：

子步骤S2082，对映射后的目标检测框进行非极大值抑制处理，得到第二检测框；

在将目标检测框映射到后续图像的原图后，对映射后的目标检测框进行非极大值抑制处理，根据检测框的分数，两个检测框的面积交并比（IOU）来过滤掉多余检测框，得到第二检测框。

子步骤S2083，依据所述第二检测框的高度，确定领域半径；

将剩余第二检测框首先按照坐标x排序，再按照坐标y排序。循环取出每一个第二检测框。针对每一个第二检测框，依据第二检测框的高度，以若干倍的第二检测框的高度确定为领域半径。在本发明的一示例中，可以检测框高度的3倍为领域半径。

子步骤S2084，在所述领域半径内，从所述第二检测框中确定第三检测框；

在领域半径内，对第二检测框进行筛选，生成第三检测框。

子步骤S2085，对比所述第三检测框与所述第二检测框，确定第四检测框；

具体地，可以对比第三检测框与第二检测框之间的位置关系，确定出第四检测框。

进一步地，所述对比所述第三检测框与所述第二检测框，确定第四检测框的步骤包括：判断所述第二检测框与所述第三检测框是否重叠；当所述第二检测框与所述第三检测框不重叠时，确定所述第二检测框和所述第三检测框为所述第四检测框；当所述第二检测框与所述第三检测框重叠时，确定所述第二检测框与所述第三检测框之间的重叠面积，和确定所述第二检测框与所述第三检测框之间的小面积检测框；当所述重叠面积和所述小面积检测框的面积小于预设面积条件，且所述小面积检测框的高宽比满足预设高宽比条件时，删除所述小面积检测框；当所述重叠面积或所述小面积检测框的面积不小于预设面积条件，或所述小面积检测框的高宽比不满足预设高宽比条件时，确定所述第二检测框和所述第三检测框为所述第四检测框。

即在本发明实施例中，如果第二检测框和第三检测框不交叠直接获取下一个检测框；如果第二检测框和第三检测框的交集面积和面积更小的框小于预设面积条件的面积阈值，并且小框的高宽比不属于预设高宽比条件时，则删除面积更小的框，保留另一个检测框。

子步骤S2086，将所述第四检测框组成所述目标图像。

筛选得到第四检测框后，将第四检测框对应的图像组成目标图像。

本发明实施例通过获取到视频图像后，生成目标活动区域凸包，再进行凸包扩展，然后根据凸多边形生成背景掩码，去除千兆像素图像等超高分辨了图像群体外的冗余背景信息。然后对不同大小的目标进行聚类，根据聚类结果对图片不同区域自适应设定切图范围和尺度，减少切图数量，提升检测效率；再对切图执行目标检测和坐标映射，采用增强非最大值抑制后处理解决由于切图导致的单个目标多检测框问题，提高了检测精度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种视频图像的处理装置实施例的结构框图，具体可以包括如下模块：

获取模块501，用于获取视频图像；

第一检测模块502，用于从所述视频图像中检测出首图像和后续图像；

第二检测模块503，用于对所述首图像进行目标检测，确定首图像检测框；

聚类模块504，用于基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸；

切分模块505，用于基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图，所述第一切图包括目标检测框；

目标确定模块506，用于针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像。

在本发明的一可选实施例中，所述装置还包括：

背景识别模块，用于对所述首图像进行背景识别，生成背景掩码；

掩码叠加模块，用于在所述首图像上叠加所述背景掩码。

在本发明的一可选实施例中，所述第一检测模块502包括：

读取子模块，用于读取所述视频图像中的第一帧图像，确定所述第一帧图像为所述首图像；

后续图像确定子模块，用于从所述视频图像中，确定所述第一帧图像之外的图像为所述后续图像。

在本发明的一可选实施例中，所述第二检测模块503包括：

缩放子模块，用于对所述首图像进行缩放，生成缩放图像；

切图子模块，用于对所述缩放图像进行滑窗切图，生成第二切图；

切图检测框生成子模块，用于对所述第二切图进行目标检测，生成切图检测框；

第一映射检测框生成子模块，用于将所述切图检测框映射至所述首图像，生成第一映射检测框；

首图像检测框生成子模块，用于对所述第一映射检测框进行非极大值抑制，确定所述首图像检测框。

在本发明的一可选实施例中，所述聚类模块504包括：

坐标信息获取子模块，用于获取所述首图像检测框的坐标信息；

聚类子模块，用于基于所述坐标信息进行聚类，生成多个簇，所述簇包括簇尺寸；

划分区间确定子模块，用于依据所述簇尺寸，确定所述划分区间；

切图尺寸确定子模块，用于依据所述首图像检测框的坐标信息，确定所述切图尺寸。

在本发明的一可选实施例中，所述聚类子模块包括：

排序单元，用于按照所述坐标信息的大小，对所述首图像检测框进行排序，确定二维点集合；

聚类单元，用于基于密度聚类，对所述二维点集合进行循环聚类，生成多个簇。

在本发明的一可选实施例中，所述聚类子模块还包括：

首末点高度差信息获取子单元，用于获取所述簇的首末点高度差信息；

更新子单元，用于采用所述首末点高度差信息更新所述密度聚类的参数。

在本发明的一可选实施例中，所述簇尺寸包括边界坐标和最大高度，所述划分区间确定子模块包括：

目标边界坐标确定单元，用于将当前簇的边界坐标和相邻簇的边界坐标进行对比，确定目标边界坐标；

目标最大高度确定单元，用于将当前簇的最大高度和相邻簇的最大高度进行对比，确定目标最大高度；

划分区间确定单元，用于依据所述目标边界坐标和所述目标最大高度，确定所述划分区间。

在本发明的一可选实施例中，所述目标边界坐标确定单元包括：

第一判断子单元，用于判断所述当前簇的边界坐标和所述相邻簇的边界坐标的大小；

第一目标边界坐标确定子单元，用于当所述当前簇的边界坐标大于所述相邻簇的边界坐标时，确定所述当前簇的边界坐标为所述目标边界坐标；

第二目标边界坐标确定子单元，用于当所述当前簇的边界坐标小于所述相邻簇的边界坐标时，确定所述相邻簇的边界坐标为所述目标边界坐标。

在本发明的一可选实施例中，所述目标最大高度确定单元包括：

第二判断子单元，用于判断所述当前簇的最大高度和所述相邻簇的最大高度的大小；

第一目标最大高度子单元，用于当所述当前簇的最大高度大于所述相邻簇的最大高度时，确定所述当前簇的最大高度为所述目标最大高度；

第二目标最大高度子单元，用于当所述当前簇的最大高度小于所述相邻簇的最大高度时，确定所述相邻簇的最大高度为所述目标最大高度。

在本发明的一可选实施例中，所述首图像检测框的坐标信息包括高度和宽度，所述切图尺寸确定子模块包括：

两倍增加单元，用于将所述高度和宽度进行两倍增加，确定为所述切图尺寸。

在本发明的一可选实施例中，所述聚类模块504还包括：

计算子模块，用于计算所述划分区间的缩放尺度。

在本发明的一可选实施例中，所述切分模块505包括：

重叠区域确定子模块，用于确定重叠区域大小；

切分子模块，用于依据所述重叠区域大小、所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个所述第一切图。

在本发明的一可选实施例中，所述切分子模块包括：

第三判断单元，用于判断所述第一切图的像素是否全为零；

删除单元，用于当所述第一切图的像素全为零时，删除所述第一切图。

在本发明的一可选实施例中，所述目标确定模块506包括：

映射子模块，用于将所述目标检测框映射至所述后续图像；

第二检测框确定子模块，用于对映射后的目标检测框进行非极大值抑制处理，得到第二检测框；

领域半径确定子模块，用于依据所述第二检测框的高度，确定领域半径；

第三检测框确定子模块，用于在所述领域半径内，从所述第二检测框中确定第三检测框；

第四检测框确定子模块，用于对比所述第三检测框与所述第二检测框，确定第四检测框；

目标图像确定子模块，用于将所述第四检测框组成所述目标图像。

在本发明的一可选实施例中，所述第四检测框确定子模块包括：

第四判断单元，用于判断所述第二检测框与所述第三检测框是否重叠；

第一第四检测框确定子模块，用于当所述第二检测框与所述第三检测框不重叠时，确定所述第二检测框和所述第三检测框为所述第四检测框；

第五判断子模块，用于当所述第二检测框与所述第三检测框重叠时，确定所述第二检测框与所述第三检测框之间的重叠面积，和确定所述第二检测框与所述第三检测框之间的小面积检测框；

第二第四检测框确定子模块，用于当所述重叠面积和所述小面积检测框的面积小于预设面积条件，且所述小面积检测框的高宽比满足预设高宽比条件时，删除所述小面积检测框；

第三第四检测框确定子模块，用于当所述重叠面积或所述小面积检测框的面积不小于预设面积条件，或所述小面积检测框的高宽比不满足预设高宽比条件时，确定所述第二检测框和所述第三检测框为所述第四检测框。

在本发明的一可选实施例中，所述背景识别模块包括：

背景识别子模块，用于对所述首图像进行背景识别，生成目标活动区域凸包；

凸多边形生成子模块，用于对所述目标活动区域凸包进行拓展，生成凸多边形；

背景掩码生成子模块。依据所述凸多边形生成所述背景掩码。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图6，本发明实施例还提供了一种电子设备，包括：

处理器601和存储介质602，所述存储介质602存储有所述处理器601可执行的计算机程序，当电子设备运行时，所述处理器601执行所述计算机程序，以执行如本发明实施例任一项所述的视频图像的处理方法。所述视频图像的处理方法，包括：

获取视频图像；

从所述视频图像中检测出首图像和后续图像；

对所述首图像进行目标检测，确定首图像检测框；

可选地，所述方法还包括：

对所述首图像进行背景识别，生成背景掩码；

在所述首图像上叠加所述背景掩码。

对所述首图像进行缩放，生成缩放图像；

对所述缩放图像进行滑窗切图，生成第二切图；

对所述第二切图进行目标检测，生成切图检测框；

获取所述首图像检测框的坐标信息；

依据所述簇尺寸，确定所述划分区间；

依据所述首图像检测框的坐标信息，确定所述切图尺寸。

获取所述簇的首末点高度差信息；

采用所述首末点高度差信息更新所述密度聚类的参数。

将所述高度和宽度进行两倍增加，确定为所述切图尺寸。

计算所述划分区间的缩放尺度。

确定重叠区域大小；

判断所述第一切图的像素是否全为零；

当所述第一切图的像素全为零时，删除所述第一切图。

将所述目标检测框映射至所述后续图像；

依据所述第二检测框的高度，确定领域半径；

在所述领域半径内，从所述第二检测框中确定第三检测框；

对比所述第三检测框与所述第二检测框，确定第四检测框；

将所述第四检测框组成所述目标图像。

判断所述第二检测框与所述第三检测框是否重叠；

对所述首图像进行背景识别，生成目标活动区域凸包；

对所述目标活动区域凸包进行拓展，生成凸多边形；

依据所述凸多边形生成所述背景掩码。

其中，存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

参照图7，本发明实施例还提供了一种计算机可读存储介质701，所述存储介质701上存储有计算机程序，所述计算机程序被处理器运行时执行如本发明实施例任一项所述的视频图像的处理方法。所述视频图像的处理方法，包括：

获取视频图像；

从所述视频图像中检测出首图像和后续图像；

对所述首图像进行目标检测，确定首图像检测框；

可选地，所述方法还包括：

对所述首图像进行背景识别，生成背景掩码；

在所述首图像上叠加所述背景掩码。

对所述首图像进行缩放，生成缩放图像；

对所述缩放图像进行滑窗切图，生成第二切图；

对所述第二切图进行目标检测，生成切图检测框；

获取所述首图像检测框的坐标信息；

依据所述簇尺寸，确定所述划分区间；

依据所述首图像检测框的坐标信息，确定所述切图尺寸。

获取所述簇的首末点高度差信息；

采用所述首末点高度差信息更新所述密度聚类的参数。

将所述高度和宽度进行两倍增加，确定为所述切图尺寸。

计算所述划分区间的缩放尺度。

确定重叠区域大小；

判断所述第一切图的像素是否全为零；

当所述第一切图的像素全为零时，删除所述第一切图。

将所述目标检测框映射至所述后续图像；

依据所述第二检测框的高度，确定领域半径；

在所述领域半径内，从所述第二检测框中确定第三检测框；

对比所述第三检测框与所述第二检测框，确定第四检测框；

将所述第四检测框组成所述目标图像。

判断所述第二检测框与所述第三检测框是否重叠；

对所述首图像进行背景识别，生成目标活动区域凸包；

对所述目标活动区域凸包进行拓展，生成凸多边形；

依据所述凸多边形生成所述背景掩码。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频图像的处理方法、装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频图像的处理方法，其特征在于，包括：

获取视频图像；

从所述视频图像中检测出首图像和后续图像；

对所述首图像进行目标检测，确定首图像检测框；

针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像；

其中，所述基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图的步骤包括：

确定重叠区域大小；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述首图像进行背景识别，生成背景掩码；

在所述首图像上叠加所述背景掩码。

3.根据权利要求1所述的方法，其特征在于，所述从所述视频图像中检测出首图像和后续图像的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述首图像进行目标检测，确定首图像检测框的步骤包括：

对所述首图像进行缩放，生成缩放图像；

对所述缩放图像进行滑窗切图，生成第二切图；

对所述第二切图进行目标检测，生成切图检测框；

5.根据权利要求1所述的方法，其特征在于，所述基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸的步骤包括：

获取所述首图像检测框的坐标信息；

依据所述簇尺寸，确定所述划分区间；

依据所述首图像检测框的坐标信息，确定所述切图尺寸。

6.根据权利要求5所述的方法，其特征在于，所述基于所述坐标信息进行聚类，生成多个簇的步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述坐标信息进行聚类，生成多个簇的步骤还包括：

获取所述簇的首末点高度差信息；

采用所述首末点高度差信息更新所述密度聚类的参数。

8.根据权利要求5所述的方法，其特征在于，所述簇尺寸包括边界坐标和最大高度，所述依据所述簇尺寸，确定所述划分区间的步骤包括：

9.根据权利要求8所述的方法，其特征在于，所述将当前簇的边界坐标和相邻簇的边界坐标进行对比，确定目标边界坐标的步骤包括：

10.根据权利要求8所述的方法，其特征在于，所述将当前簇的最大高度和相邻簇的最大高度进行对比，确定目标最大高度的步骤包括：

11.根据权利要求5所述的方法，其特征在于，所述首图像检测框的坐标信息包括高度和宽度，所述依据所述首图像检测框的坐标信息，确定所述切图尺寸的步骤包括：

将所述高度和宽度进行两倍增加，确定为所述切图尺寸。

12.根据权利要求5所述的方法，其特征在于，所述基于所述首图像检测框对所述首图像进行聚类，生成划分区间和切图尺寸的步骤还包括：

计算所述划分区间的缩放尺度。

13.根据权利要求1所述的方法，其特征在于，所述基于所述划分区间和所述切图尺寸对所述后续图像进行切分，生成多个第一切图的步骤还包括：

判断所述第一切图的像素是否全为零；

当所述第一切图的像素全为零时，删除所述第一切图。

14.根据权利要求1所述的方法，其特征在于，所述针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像的步骤包括：

将所述目标检测框映射至所述后续图像；

依据所述第二检测框的高度，确定领域半径；

在所述领域半径内，从所述第二检测框中确定第三检测框；

对比所述第三检测框与所述第二检测框，确定第四检测框；

将所述第四检测框组成所述目标图像。

15.根据权利要求14所述的方法，其特征在于，所述对比所述第三检测框与所述第二检测框，确定第四检测框的步骤包括：

判断所述第二检测框与所述第三检测框是否重叠；

16.根据权利要求2所述的方法，其特征在于，所述对所述首图像进行背景识别，生成背景掩码的步骤包括：

对所述首图像进行背景识别，生成目标活动区域凸包；

对所述目标活动区域凸包进行拓展，生成凸多边形；

依据所述凸多边形生成所述背景掩码。

17.一种视频图像的处理装置，其特征在于，包括：

获取模块，用于获取视频图像；

目标确定模块，用于针对所述目标检测框进行映射至所述后续图像，并对映射后的目标检测框进行非极大值抑制，生成目标图像；

所述切分模块包括：

重叠区域确定子模块，用于确定重叠区域大小；

18.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至16中任一项所述的视频图像的处理方法的步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至16中任一项所述的视频图像的处理方法的步骤。