CN114494302A

CN114494302A - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN114494302A
Application number: CN202210133933.2A
Authority: CN
Inventors: 洪志鹰; 许奂杰; 吴恒冠; 李岳光; 严计升; 董浩; 芦清林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-13

Abstract

本申请的实施例提供了一种图像处理方法、装置、设备及存储介质，方法包括：获取待处理图像，待处理图像中包括填充实例和非填充实例；提取待处理图像的像素特征图和连接特征图，像素特征图用于表征填充图像中的目标像素是否属于填充实例，连接特征图用于表征目标像素与目标像素的邻居像素是否属于同一实例；根据像素特征图和连接特征图构建连通域，得到非填充实例对应的目标检测框；根据目标检测框截取待处理图像，得到待处理图像对应的去填充图像。本申请实施例基于像素的特性确定待处理图像中非填充实例对应的目标检测框，可以提高填充实例识别的精度，进而可以保证截取得到准确的非填充实例，有利于提升去除填充区域后的图像效果。

Description

图像处理方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术，具体而言，涉及一种图像处理方法、装置、设备及存储介质。

背景技术

广告素材在投放的过程中，通常需要适配不同的版位和规格。例如，一个横版广告素材需要投放到竖版规格，常见的做法是对素材进行一定的填充，填充的部分就称为填充区域，被填充过的素材称为填充广告素材。

由于填充区域的存在，填充广告素材(视频、图片)会对广告效果带来一定的影响，一方面，广告素材有效区域较少，如一个720＊1280的竖版视频，被填充成1280＊720的横版填充素材后，它的有效区域只有原来的1/3，大量的填充区域不仅影响用户感观，其带来的噪声和干扰也对后续广告素材内容理解、广告素材特征提取带来了难度；另一方面，如果直接对填充广告素材再做基于填充的尺寸变换，会导致原始视频素材内容进一步被压缩，信息过载，严重影响体验。

发明内容

本申请的实施例提供了一种图像处理方法、装置、设备及存储介质，进而至少在一定程度上解决图像中包含填充实例的问题，基于像素的特性确定待处理图像中非填充实例对应的目标检测框，可以提高填充实例识别的精度，进而可以保证截取得到准确的非填充实例，有利于提升去除填充区域后的图像效果。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的第一方面，提供了一种图像处理方法，所述方法包括：

获取待处理图像，所述待处理图像中包括填充实例和非填充实例，所述填充实例表示所述待处理图像中填充区域的图像，所述非填充实例表示所述待处理图像中非填充区域的图像；

提取所述待处理图像的像素特征图和连接特征图，所述像素特征图用于表征所述填充图像中的目标像素是否属于所述填充实例，所述连接特征图用于表征所述目标像素与所述目标像素的邻居像素是否属于同一实例；

根据所述像素特征图和所述连接特征图构建连通域，得到所述非填充实例对应的目标检测框；

根据所述目标检测框截取所述待处理图像，得到所述待处理图像对应的去填充图像。

根据本申请实施例的第二方面，提供了一种图像处理装置，所述装置包括：

图像获取单元，用于获取待处理图像，所述待处理图像中包括填充实例和非填充实例，所述填充实例表示所述待处理图像中填充区域的图像，所述非填充实例表示所述待处理图像中非填充区域的图像；

特征提取单元，用于提取所述待处理图像的像素特征图和连接特征图，所述像素特征图用于表征所述填充图像中的目标像素是否属于所述填充实例，所述连接特征图用于表征所述目标像素与所述目标像素的邻居像素是否属于同一实例；

目标检测框获取单元，用于根据所述像素特征图和所述连接特征图构建连通域，得到所述非填充实例对应的目标检测框；

图像截取单元，用于根据所述目标检测框截取所述待处理图像，得到所述待处理图像对应的去填充图像。

在本申请的一些实施例中，基于前述方案，所述特征提取单元被配置为：

对所述待处理图像进行多层级卷积编码，得到多层级的特征图；

将预设的多个层级的特征图分别与第一预设通道的卷积核进行第一卷积操作，并将第一卷积操作后的特征图进行特征融合，得到所述像素特征图；

将所述预设的多个层级的特征图分别与第二预设通道的卷积核进行第二卷积操作，并将第二卷积操作后的特征图进行特征融合，得到所述连接特征图。

在本申请的一些实施例中，基于前述方案，所述预设的多个层级的特征图包括所述多层级的特征图中最后层级的特征图，所述装置还包括：

空洞卷积单元，用于对所述最后层级的特征图以第一预设数量的空洞卷积进行并行采样，得到第一预设数量的采样后特征图；

所述空洞卷积单元还用于级联所述第一预设数量的采样后特征图，得到更新后的最后层级的特征图。

在本申请的一些实施例中，基于前述方案，所述装置还包括：

图像抽取单元，用于抽取待处理视频中的多帧待处理图像；

所述目标检测框获取单元还用于对所述多帧待处理图像进行处理，分别得到所述多帧待处理图像的目标检测框；

所述目标检测框获取单元还用于根据所述多帧待处理图像的目标检测框，确定所述待处理视频中各帧图像的目标检测框；

所述图像截取单元还用于根据所述待处理视频中各帧图像的目标检测框对应截取所述待处理视频中各帧图像，得到所述待处理视频对应的去填充视频。

在本申请的一些实施例中，基于前述方案，所述图像抽取单元被配置为：

若所述待处理视频的时长大于第一预设时长，则截取所述待处理视频中第二预设时长的视频，得到截取后视频；

从所述截取后视频中等间隔抽取多帧图像，得到所述多帧待处理图像。

在本申请的一些实施例中，基于前述方案，所述目标检测框获取单元被配置为：

若所述多帧待处理图像中至少两帧待处理图像的目标检测框的位置坐标相同，则将所述至少两帧待处理图像的目标检测框确定为置信目标检测框；

根据所述置信目标检测框的数量，确定所述视频中各帧图像的目标检测框。

在本申请的一些实施例中，基于前述方案，所述目标检测框获取单元还被配置为：

若所述多帧待处理图像中仅包括一个所述置信目标检测框，则将所述置信目标检测框确定为所述视频中各帧图像的目标检测框；

若所述多帧待处理图像中包括至少两个所述置信目标检测框，则分别截取所述待处理视频所包含的各个镜头的视频,得到各个镜头对应的截取后视频；

从所述各个镜头对应的截取后视频中分别抽取多帧待处理图像，得到各个镜头对应的待处理图像；

对所述各个镜头对应的待处理图像进行处理，确定所述各个镜头对应的待处理图像的目标检测框；

根据所述各个镜头对应的待处理图像的目标检测框，确定所述各个镜头的视频中各帧图像的目标检测框。

根据本申请实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的图像处理方法。

根据本申请实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述电子设备执行时，使得所述一个或多个处理器实现如上述实施例中所述的图像处理方法。

本申请实施例通过提取待处理图像的像素特征图和连接特征图，基于像素的特性确定待处理图像中非填充实例对应的目标检测框，可以提高填充实例识别的精度，进而可以保证截取得到准确的非填充实例，有利于提升去除填充区域后的图像效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

图2示出了根据本申请一个实施例的一种图像处理方法的流程示意图。

图3示出了根据本申请一个实施例的一种待处理图像的示意图。

图4示出了根据本申请一个实施例的一种目标像素和邻居像素的关系示意图。

图5示出了根据本申请一个实施例的一种提取像素特征图和连接特征图方法的流程示意图。

图6示出了根据本申请一个实施例的一种图像处理模型的结构示意图。

图7示出了根据本申请一个实施例的一种图像处理过程示意图。

图8示出了根据本申请一个实施例的另一种图像处理方法的流程示意图。

图9示出了根据本申请一个实施例的又一种图像处理过程示意图。

图10示出了根据本申请的一个实施例的图像处理装置的框图。

图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以级联或部分级联，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要注意的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例的技术方案主要涉及人工智能技术的计算机视觉处理领域，具体可以参照图1所示出的应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备110(如图1中所示智能手机、平板电脑和便携式计算机中的一种或多种)、网络120和服务器130。网络120用以在终端设备和服务器130之间提供通信链路的介质。网络120可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

在本申请的一个实施例中，可以是由服务器130获取来自终端设备的待处理的图像，服务器提取待处理图像的像素特征图和连接特征图，像素特征图用于表征填充图像中的目标像素是否属于填充实例，连接特征图用于表征目标像素与目标像素的邻居像素是否属于同一实例；根据像素特征图和连接特征图构建连通域，得到非填充实例对应的目标检测框；根据目标检测框截取待处理图像，得到待处理图像对应的去填充图像。

需要说明的是，本申请实施例所提供的图像处理方法可以由服务器130执行，相应地，图像去填充装置一般设置于服务器130中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的图像处理方法。

还需要说明的是，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此，本申请在此不做限制。

需要解释的是，如上所述的云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展。通过建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

以下对本申请实施例的技术方案进行详细说明：

图2示出了根据本申请一个实施例的一种图像处理方法的流程示意图，该图像处理方法可以由计算处理设备来执行，比如可以由服务器来执行。如图2所示，该方法至少包括以下步骤。

步骤210：获取待处理图像，待处理图像中包括填充实例和非填充实例，填充实例表示待处理图像中填充区域的图像，非填充实例表示待处理图像中非填充区域的图像。

可选地，待处理图像可以是广告领域的横版图像、短视频中所包含的图像帧等。以下以广告领域的横版图像为例进行说明，若一个横版图像广告素材需要投放到竖版规格，通常需要对图像进行一定的填充，填充后图像中填充的部分为填充实例，原始部分为非填充实例。在具体实施中可以采取纯色填充(如纯黑、纯白)，高斯模糊填充等技术手段对图像进行填充，为了更好地利用填充实例的空间，填充实例中还可以加上字幕、贴纸等元素。

经过填充处理后的图像具有填充边缘特性显著且填充实例和非填充实例水平或者竖直分布明显的特性。图3示出了根据本申请一个实施例的一种待处理图像的示意图，如图3所示，该待处理图像中间部分为非填充实例，左侧部分和右侧部分均为填充实例。填充实例和非填充实例之间的边缘显著，填充实例为矩形且水平分布在非填充实例的左侧方或者右侧。

步骤220：提取待处理图像的像素特征图和连接特征图，像素特征图用于表征填充图像中的目标像素是否属于填充实例，连接特征图用于表征目标像素与目标像素的邻居像素是否属于同一实例。

在具体实施中，像素特征图可以为二通道的特征图(总通道数为2)，一个通道表征目标像素是否是正像素(属于填充实例的像素)，另一个通道的表征目标像素是否是负像素(属于非填充实例的像素)。

图4示出了根据本申请一个实施例的一种目标像素和邻居像素的关系示意图，如图4所示，本申请实施例连接特征图表征目标像素与其8个方向(左上，正上，右上，正左，正右，左下，正下，右下)上的邻居像素(对应图4中的1、2、3、4、5、6、7、8)的关系。相应的，连接特征图可以为8个二通道的连接特征图(总通道数为16)，分别表征目标像素与其8个方向上的邻居像素的连接关系，每个方向对应的连接特征图中的一个通道表征目标像素与该方向的邻居像素是否是正连接(目标像素与该方向的邻居像素属于同一实例)，另一个通道表征目标像素与该方向的邻居像素是否是负连接(目标像素与该方向的邻居像素不属于同一实例)。

步骤230：根据像素特征图和连接特征图构建连通域，得到非填充实例对应的目标检测框。

在本申请的一个实施例中，首先通过第一预设阈值将通道数为2的像素特征图进行分类(确定目标像素是正像素还是负像素)，得到正像素集合，通过第二预设阈值对通道数为16的连接特征图进行分类(确定目标像素与其邻居像素是正连接还是负连接)，得到正连接集合；然后基于相邻像素构建连通域的规则(当正像素集合中两相邻像素点之间至少有一个连接是正连接，那么这两相邻像素构成一个连通域)，在正像素集合和正连接集合中使用并查集的方式构建所有像素点的连通域，得到填充实例的分割图；最后可以使用OpenCV的boundingRect()得到包覆分割图的最小正矩形即目标检测框。目标检测框可以表示为(x,y,w,h)，其中，x,y分别表示目标检测框的中心点坐标，w,h分别表示目标检测框的宽和高。

步骤240：根据目标检测框截取待处理图像，得到待处理图像对应的去填充图像。

可选地，获取到目标检测框即得到填充实例的位置信息，可以对待处理图像进行截取，得到不包含填充实例的去填充图像，但是若目标检测框的位置和尺寸与待处理图像的边界小于一定偏差(例如千分之5)，说明目标检测框接近待处理图像的边界(即接近原图宽高，)，则将待处理图像的边界作为目标检测框，即容忍算法的细微识别错误。

图5示出了根据本申请一个实施例的一种提取像素特征图和连接特征图方法的流程示意图。如图5所示，该方法至少包括以下步骤。

步骤510：对待处理图像进行多层级卷积编码，得到多层级的特征图。

可选地，本申请实施例可以采用调整后的VGG－16对待处理图像进行多层卷积编码(也可称为下采样编码)。图6示出了根据本申请一个实施例的一种图像处理模型的结构示意图。如图6所示，模型的主干网络(图6中左侧部分)可以采用调整后的VGG-16的网络结构作为下采样网络。对VGG-16的调整是将原VGG-16的最后一个局部区域(Block)进行了调整，将该区域中的池化层pool5的步长是设置为1；为了保证像素上下左右之间的顺序，将fc6和fc7这两个全连接层换成卷积操作。

步骤520：将预设的多个层级的特征图分别与第一预设通道的卷积核进行第一卷积操作，并将第一卷积操作后的特征图进行特征融合，得到像素特征图。

具体地，在图6所示的实施例中，右侧部分是上采样网络。本申请实施例由下而上将预测层级中相邻层级的特征图与二通道的1X1卷积核进行卷积操作后采用单位加的方式进行融合。为了使相邻层级融合后的特征图再与上层特征图进行融合(需要与上层特征图的分辨率大小相同)，相邻层级融合后的特征图需要进行上采样(即扩大特征图)，以将相邻层级融合后的特征图采样到上层特征图的分辨率大小。在具体实施中，可以采用双线性插值的方法对融合后特征图进行上采样。预设层级的特征图融合后最后再经过1x1的卷积操作，得到二通道的像素特征图。

需要说明的是，在进行特征融合时，可以融合{conv stage2,conv stage3,convstage4,conv stage5,fc7}层的特征图，利用这些层级融合后得到的像素特征图的分辨率大小是待处理图像的1/2；也可以融合{conv stage 3,conv stage4,conv stage 5,fc7}层的特征图，利用这些层级融合后得到的像素特征图的分辨率大小是待处理图像的1/4。在具体实施中，可以根据性能需要选取不同的层级进行特征融合。

步骤530：将预设的多个层级的特征图分别与第二预设通道的卷积核进行第二卷积操作，并将第二卷积操作后的特征图进行特征融合，得到连接特征图。

需要说明的是：获取连接特征图的过程与步骤520中得到像素特征图的过程类似，但是需要将上述二通道的1×1卷积核变换为16通道的卷积核。

本申请实施例对待处理图像采用卷积运算并基于像素单位识别待处理图像的填充实例，速度和精度均有保障，满足图像去填充的应用场景。

在本申请的一些实施例中，多层级的特征图中最后层级的特征图(例如图6所示的实施例中fc7层)在与其上层级的特征图进行特征融合之前，还可以进行以下处理：

对最后层级的特征图以第一预设数量的空洞卷积进行并行采样，得到第一预设数量的采样后特征图；

级联第一预设数量的采样后特征图，得到更新后的最后层级的特征图。

其中，空洞卷积(atrous convolutions)又名扩张卷积(dilated convolutions)，其包括称为“扩张率(dilation rate)”的参数，该参数定义了卷积核处理数据时各值的间距。一个扩张率为2的3×3卷积核的感受野与5×5的卷积核的感受野相同，而且3×3卷积核仅需要9个参数，即在相同的计算条件下，空洞卷积提供了更大的感受野。

本申请实施例中可以采用多个空洞卷积对最后层级的特征图进行并行采样，在具体实施中可以采用空洞空间卷积池化金字塔(atrous spatial pyramid pooling，ASPP，其包含扩张率为6、12、18的3×3卷积核)对最后层级的特征图以不同采样率的空洞卷积并行采样，将采样后特征图级联(concatenation，相当于将采样后特征图拼接，增加了最后层级的特征图的通道数)，可以以多个比例捕捉待处理图像的上下文，对填充实例和非填充实例之间的填充边缘有较好检测效果。

为直观理解本申请图像处理的过程，图7示出了根据本申请一个实施例的一种图像处理过程示意图。如图7所示，待处理经过多层级卷积模型编码得到多层级特征图，最后层级的特征图还经ASPP模块进行并行采样；将预设层级的特征图进行融合后通过两个分支的分别进行填充像素识别(即确定目标像素是否是非填充实例，得到正像素集合)和连接识别(即确定目标像素与其邻居像素属于同一实例，得到正连接结合)，填充像素识别对应的一张热力图代表像素得分图；连接识别对应的八张热力图代表像素的8个方向的连接得分图；再将分类模块得到正像素集合和正连接集合进行结果融合(通过两者构建连通域，确定目标检测框)得到非填充实例的位置。

需要说明的是，为了使上述图像处理模型准确识别出非填充区域，需要图像处理模型进行训练。在具体实施中可以对覆盖多个主要行业的图像和视频形式的广告素材中的图像进行标记以得到正确标记的训练样本。

对于图像中目标像素的像素特性，若目标像素属于填充实例，则将其像素特性标注为正像素，若目标像素不属于填充实例，则将其像素特性均标注为负像素。

对于图像中目标像素的连接特性，若目标像素与其邻域的某方向的邻居像素属于非填充实例，则将目标像素在该方向的连接特性标注为正连接，否则标注为负连接。在具体实施中，在确定图像中像素的连接特性时，只需要确定非填充实例的边界的像素的特性即可，因为非边界的像素与其邻域的8个像素的连接肯定为正连接。

为了得到更多训练样本，也可以对原始图像进行数据增广，数据增广的方式包括但不限于缩放、随机旋转等。例如通过随机旋转的方式是将输入的图像先以预设的概率进行随机旋转，旋转的角度范围值可以为[0，π/2，π，3π/2]；然后再对旋转后的图像进行裁剪；最后将裁剪得到的图像缩放到统一的大小。

在广告的应用场景中，广告素材可能是填充后的视频，因此需要对视频进行去填充处理。在实际应用中，视频形式的广告素材可能采取单一填充方式，即视频中每帧图像的填充模式相同(相当于每帧图像填充区域的位置相同)；也可能为了在视频结尾加强广告效果，采用尾填充方式即视频中尾帧之前的视频采取一种填充模式，尾帧采取另一种填充模式；还有少部分情况下视频采用变换填充方式，即视频中不同镜头的视频采取不同的填充模式。

图8示出了根据本申请一个实施例的另一种图像处理方法的流程示意图。如图8所示，该方法至少包括以下步骤。

步骤810：抽取待处理视频中的多帧待处理图像。

如上述视频采用的填充方式的描述，视频中连续的多帧图像采用相同的填充模式，为了减少抽取的视频帧数，从而减小图像处理计算量，可以在不影响精度的情况下从视频充抽取多帧待处理图像，根据抽取的图像的填充模式，确定视频中其他帧图像的填充模式。在具体实施中可以使用Opencv索引方式解码视频，无需逐帧读取，能够有效减少平均时耗。

步骤820：对多帧待处理图像进行处理，分别得到多帧待处理图像的目标检测框。

该步骤采取与步骤210-230相似的步骤，在此不再赘述。

步骤830：根据多帧待处理图像的目标检测框，确定待处理视频中各帧图像的目标检测框。

根据多帧待处理图像的目标检测框确定视频的填充方式，在不同的填充方式下，将多帧待处理图像的目标检测框以不同的方式映射到视频中其他帧图像的目标检测框。

步骤840：根据待处理视频中各帧图像的目标检测框对应截取待处理视频中各帧图像，得到待处理视频对应的去填充视频。

为形象简单地展示本申请对视频进行处理的过程，图9示出了根据本申请一个实施例的又一种图像处理过程示意图。如图9所示，一个上部和下部填充了广告内容的视频经过抽帧得到5帧待处理图像，5帧待处理图像经过填充识别后得到5帧待处理图像的目标检测框，并经过多帧结果融合即根据5帧待处理图像的目标检测框确定处理视频中各帧图像的目标检测框，最终得到去填充视频。

本申请实施例通过从视频中抽取多帧待处理图像，确定视频中所有帧图像的目标检测框，进而得到视频对应的去填充视频，在不影响精度的情况下，避免逐帧获取图像的目标检测框，减少图像数量计算量。

为了减少待处理图像的数量从而减轻图像处理的运算压力，在本申请的一些实施例中，抽取待处理视频中的多帧待处理图像，包括：

若待处理视频的时长大于第一预设时长，则截取待处理视频中第二预设时长的视频，得到截取后视频；

从截取后视频中等间隔抽取多帧图像，得到多帧待处理图像。

需要说明的是：视频通常情况下采用单一填充方式，因此在具体实施中可以从时长较大的视频中截取部分视频并从截取后视频中等间隔抽取多帧待处理图像。例如对于时长超过30s的长视频，只截取前30s的视频；然后等间隔抽取5帧；确定5帧图像的填充模式后可以确定视频中所有帧的填充模式。对时长为3s-30s的视频,去除尾两秒后，等间隔抽取5帧待处理图像。对于时长小于3s的短视频，可只抽取首帧、尾帧和中间帧，共三帧待处理图像。

需要说明的是，由于一些情况下，视频也可能采用尾帧填充方式，因此也可以在等间隔抽帧的基础上，对每个视频抽取尾帧，单独获取尾帧的目标检测框，并截取尾帧的非填充实施例。

进一步，图8中的步骤830可以包括：

若多帧待处理图像中至少两帧待处理图像的目标检测框的位置坐标相同，则将至少两帧待处理图像的目标检测框确定为置信目标检测框；

根据置信目标检测框的数量，确定视频中各帧图像的目标检测框。

置信目标检测框被认为是视频中部分或者所有图像中非填充实例对应的目标检测框。获取到多帧待处理图像的目标检测框后可以确定置信目标检测框的数量，若视频中抽取的多帧待处理图像中仅包括一个置信目标检测框，则说明该视频采用单一填充方式，视频中每帧图像的目标检测的位置坐标相同，若包括至少两个置信目标检测框，则说明该视频采用变换填充方式，视频中不同帧图像的目标检测的位置坐标可能不同，因此可以根据置信目标检测框的数量进一步确定视频中各帧图像的目标检测框。

更进一步，根据置信目标检测框的数量，确定视频中各帧图像的目标检测框可以包括：

若多帧待处理图像中包括一个置信目标检测框，则将置信目标检测框确定为视频中各帧图像的目标检测框；

若多帧待处理图像中包括至少两个置信目标检测框，则分别截取待处理视频所包含的各个镜头的视频,得到各个镜头对应的截取后视频；

从各个镜头对应的截取后视频中分别抽取多帧待处理图像，得到各个镜头对应的待处理图像；

对各个镜头对应的待处理图像进行处理，确定各个镜头对应的待处理图像的目标检测框；

根据各个镜头对应的待处理图像的目标检测框，确定各个镜头的视频中各帧图像的目标检测框。

对于上述多数视频采用单一填充的方式的情形，多帧待处理图像仅包括一个置信目标检测框，可以直接将置信目标检测框作为视频中各帧待处理图像的目标检测框。

对应于上述少数视频采用变换填充的方式的情形，若多帧待处理图像中包括至少两个置信目标检测框，则说明视频采用变换填充方式，抽取的多帧待处理图像的填充模式并不能反映所有帧图像的填充模式，而视频中每个镜头的视频中的各帧图像的填充模式是相同的，因此本申请实施例将视频拆分镜头，对每个镜头的视频分别抽取待处理图像。

需要说明的是，由于一些镜头的视频的时长可能大于第一预设时长，包含图像的帧数较多，因此在抽取各个镜头的视频对应的待处理图像时，可以参照上述抽取待处理视频中的多帧待处理图像的方法，若某镜头的视频的时长大于第一预设时长，先截取该镜头的视频中第二预设时长的视频，得到该镜头对应的截取后视频，再从该镜头对应的截取后视频中等间隔抽取多帧待处理图像，得到该镜头对应的待处理图像。

在本申请上述实施例的技术方案中，可以抽取多帧待处理图像，通过基于像素单元的图像处理方法，高精度且高效地确定待处理图像的目标检测框，进而确定置信检测框，进一步确定是否需要逐镜头抽帧和图像处理，最终得到去填充视频。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的图像处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的图像处理方法的实施例。

图10示出了根据本申请的一个实施例的图像处理装置的框图。如图10所示，该装置1000至少包括以下部分。

图像获取单元1010，用于获取待处理图像，待处理图像中包括填充实例和非填充实例；

特征提取单元1020，用于提取待处理图像的像素特征图和连接特征图，像素特征图用于表征填充图像中的目标像素是否属于填充实例，连接特征图用于表征目标像素与目标像素的邻居像素是否属于同一实例；

目标检测框获取单元1030，用于根据像素特征图和连接特征图构建连通域，得到非填充实例对应的目标检测框；

图像截取单元1040，用于根据目标检测框截取待处理图像，得到待处理图像对应的去填充图像。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(Centra lProcessing Unit，CPU)1101，其可以根据存储在只读存储器(Read－Only Memory，ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crysta lDisplay，LCD)等以及扬声器等的输出部分1107；包括硬盘等的储存部分1108；以及包括诸如LAN(Loca lAreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入储存部分1108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read－Only Memory，CD－ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中所述的视频编辑效果的验证方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的视频编辑效果的验证方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD－ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像，所述待处理图像中包括填充实例和非填充实例，所述填充实例表示所述待处理图像中填充区域的图像，所述非填充实例表示所述待处理图像中非填充区域的图像；提取所述待处理图像的像素特征图和连接特征图，所述像素特征图用于表征所述填充图像中的目标像素是否属于所述填充实例，所述连接特征图用于表征所述目标像素与所述目标像素的邻居像素是否属于同一实例；

2.根据权利要求1所述的图像处理方法，其特征在于，所述提取所述待处理图像的像素特征图和连接特征图，包括：

3.根据权利要求2所述的图像处理方法，其特征在于，所述预设的多个层级的特征图包括所述多层级的特征图中最后层级的特征图，所述方法还包括在进行第一卷积操作和第二卷积操作之前：

对所述最后层级的特征图以第一预设数量的空洞卷积进行并行采样，得到第一预设数量的采样后特征图；

级联所述第一预设数量的采样后特征图，得到更新后的最后层级的特征图。

4.根据权利要求1所述的图像处理方法，其特征在于，所述方法还包括：

抽取待处理视频中的多帧待处理图像；

对所述多帧待处理图像进行处理，分别得到所述多帧待处理图像的目标检测框；

根据所述多帧待处理图像的目标检测框，确定所述待处理视频中各帧图像的目标检测框；

根据所述待处理视频中各帧图像的目标检测框对应截取所述待处理视频中各帧图像，得到所述待处理视频对应的去填充视频。

5.根据权利要求4所述的图像处理方法，其特征在于，所述抽取待处理视频中的多帧待处理图像，包括：

6.根据权利要求4所述的图像处理方法，其特征在于，所述根据所述多帧待处理图像的目标检测框，确定所述待处理视频中各帧图像的目标检测框，包括：

7.根据权利要求6所述的图像处理方法，其特征在于，所述根据所述置信目标检测框的数量，确定所述视频中各帧图像的目标检测框包括：

8.一种图像处理装置，其特征在于，所述装置包括：

9.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，使得所述一个或多个程序被所述电子设备执行时实现如上述权利要求1-7任一项所述的方法。

10.一种计算机可读介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如上述权利要求1-7任一项所述的方法。