CN113255685A

CN113255685A - 一种图像处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN113255685A
Application number: CN202110791156.6A
Authority: CN
Inventors: 刘强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-08-13
Anticipated expiration: 2041-07-13
Also published as: CN113255685B

Abstract

本申请实施例公开了一种图像处理方法、装置、计算机设备以及存储介质。其中方法包括：获取待处理图像，并提取所述待处理图像的多个图像特征；根据所述多个图像特征确定所述待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息；从所述多个图像特征中获取多个目标图像特征，并对所述多个目标图像特征进行融合，得到融合图像特征，其中，所述目标图像特征包括背景图像特征；根据所述每个候选镜头区域的位置信息和所述融合图像特征，从所述多个候选镜头区域中确定目标镜头区域。可以有效识别出图像中的镜头区域。本申请涉及云技术领域，如可将上述数据存储到“云”中，还可以应用于数据推荐等场景，以实现精准推荐。

Description

一种图像处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、计算机设备以及存储介质。

背景技术

在图像检测领域，大多检测技术通常是聚焦到具体的物体，比如人，动物，房子等，即检测出图像中的人，动物，房子等具体对象，但在检测具体对象时，可能会漏掉图像中场景（背景）部分区域。例如，用户在录制直播视频、K歌视频时，视频中的图像通常包括摄像设备所拍摄区域以及非拍摄区域，其中拍摄区域中又可以包括具体对象区域以及场景区域。如果采用目前的检测技术，通常可以检测出拍摄区域中的具体对象，但是在相关视频处理的场景中，拍摄区域的场景也同样需要，例如视频质量的好坏可以通过所拍摄区域的质量来确定。因此，如何确定出摄像设备所拍摄区域成为了亟需解决的问题。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备以及存储介质，可以有效识别出图像中的镜头区域。

本申请实施例第一方面公开了一种图像处理方法，所述方法包括：

获取待处理图像，并提取所述待处理图像的多个图像特征；

根据所述多个图像特征确定所述待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息；

从所述多个图像特征中获取多个目标图像特征，并对所述多个目标图像特征进行融合，得到融合图像特征，其中，所述目标图像特征包括背景图像特征；

根据所述每个候选镜头区域的位置信息和所述融合图像特征，从所述多个候选镜头区域中确定目标镜头区域。

本申请实施例第二方面公开了一种图像处理装置，所述装置包括：

获取单元，用于获取待处理图像，并提取所述待处理图像的多个图像特征；

第一确定单元，用于根据所述多个图像特征确定所述待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息；

融合单元，用于从所述多个图像特征中获取多个目标图像特征，并对所述多个目标图像特征进行融合，得到融合图像特征，其中，所述目标图像特征包括背景图像特征；

第二确定单元，用于根据所述每个候选镜头区域的位置信息和所述融合图像特征，从所述多个候选镜头区域中确定目标镜头区域。

本申请实施例第三方面公开了一种计算机设备，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

本申请实施例第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例第五方面公开了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述第一方面的方法。

本申请实施例中，计算机设备可以获取待处理图像，并提取待处理图像的多个图像特征，然后根据多个图像特征确定待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息。还可以从多个图像特征中获取包括有背景图像特征的多个目标图像特征，并对多个目标图像特征进行融合，以得到融合图像特征。进一步的，可以根据每个候选镜头区域的位置信息和融合图像特征，从多个候选镜头区域中确定目标镜头区域。上述方法，通过获取包括有背景图像特征的多个图像特征，并通过对多个图像特征的融合，可以有效提升融合后的图像特征的准确性和可靠性，使其可在一定程度上准确地反映出图像中镜头区域的特征。从而使得在根据融合后的图像特征以及每个候选镜头区域的位置信息，确定图像中的镜头区域时，可以有效识别出图像中的镜头区域。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的流程示意图；

图2a是本申请实施例提供的一种待处理图像的示意图；

图2b是本申请实施例提供的一种对象检测模型的结构示意图；

图2c是本申请实施例提供的另一种对象检测模型的结构示意图；

图2d是本申请实施例提供的一种特征提取模块的结构示意图；

图3是本申请实施例提供的另一种图像处理方法的流程示意图；

图4是本申请实施例提供的一种视频推荐方法的流程示意图；

图5是本申请实施例提供的一种图像处理装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，将在一张图像中摄像设备所拍摄区域称为目标镜头区域。为了提取出目标镜头区域，本申请实施例提供一种图像处理方法。该图像处理方法的大致原理如下：首先，可以获取待处理图像，并提取待处理图像的多个图像特征。然后可以根据多个图像特征确定待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息，从而可以根据多个图像特征以及每个候选镜头区域的位置信息，从多个候选镜头区域中确定目标镜头区域。例如，可以先从多个图像特征中获取多个目标图像特征，并对多个目标图像特征进行融合，以得到融合图像特征，接着，可以根据每个候选镜头区域的位置信息和融合图像特征，从多个候选镜头区域中确定目标镜头区域。经实践表明，本申请实施例所提出的图像处理方案可具有如下有益效果：通过获取包括有背景图像特征的多个图像特征，并通过对多个图像特征的融合，可以有效提升融合后的图像特征的准确性和可靠性，使其可在一定程度上准确地反映出图像中目标镜头区域的特征。从而使得在根据融合后的图像特征以及每个候选镜头区域的位置信息，确定图像的镜头区域时，可有效识别出图像中的镜头区域。

在具体实现中，上述所提及的图像处理方法的执行主体可以是计算机设备，该计算机设备可以是终端或者服务器。此处所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载计算机、智能家居、可穿戴电子设备、VR（Virtual Reality，虚拟现实）/AR（Augmented Reality，增强现实）设备等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

本申请可应用于云技术领域。云技术（Cloud Technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请将图像处理所需的数据存储到“云”中，根据需求对云中的数据随时获取，随时扩展。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

请参见图1，图1是本申请实施例提供的一种图像处理方法的流程示意图，该图像处理方法可由上述所提及的计算机设备执行，该计算机设备可以是终端或服务器；为便于阐述，本申请实施例以计算机设备执行该图像处理方法为例进行说明；该图像处理方法包括以下步骤：

S101：获取待处理图像，并提取待处理图像的多个图像特征。

其中，待处理图像可以是包含有镜头区域的图像，在本申请中定义镜头区域为有效区域，有效区域可以是指通过摄像设备的镜头拍摄后在内存中存储的图像。可以理解的是，通过摄像设备的镜头拍摄的图像通常可以包括前景区域和背景区域，前景区域可以是包含人、物等对象所在的区域，背景区域可以是非对象所在的区域。通过摄像设备的镜头拍摄的图像通常也可以仅包括前景区域或背景区域，在本申请中，以镜头区域包括前景区域和背景区域为例进行说明。例如，待处理图像可以图2a中由21标记的图像和由22标记的图像均可以是待处理图像。其中，该镜头区域可以占待处理图像中的部分或全部区域。例如，针对由21标记的图像，该图像中由201标记的矩形区域可以是镜头区域，该镜头区域占待处理图像中的部分区域，该图像中由202标记的矩形区域和由203标记的矩形区域可以是前景区域，而由201标记的矩形区域中除由202标记的和由203标记的矩形区域之外的其他区域可以是背景区域；针对由22标记的图像，该图像中由204标记的矩形区域可以是镜头区域，该镜头区域占待处理图像中的全部区域，该图像中由205标记的矩形区域和由206标记的矩形区域可以是前景区域，而由204标记的矩形区域中除由205标记的和由206标记的矩形区域之外的其他区域可以是背景区域。

在一种实现方式中，该待处理图像可以是一个视频中的一帧图像，即可以从一个视频中获取待处理图像。该视频可以是K歌视频、直播视频、游戏视频等等。可选的，可以获取一视频，并从该视频中抽取帧图像，以得到一帧或多帧图像，而该待处理图像可以是该一帧或多帧图像中的任意一张图像，也可以是该一帧或多帧图像中的指定图像，如该指定图像可以是指尽可能表征视频完整信息的图像。例如，计算机设备获取一视频，该视频的时长范围为25秒，在从该视频抽取图像时，假设抽取到图像可以分别是在5秒、7秒、12秒、21秒对应的图像，则待处理图像可以在12秒对应的图像。

在一种实现方式中，计算机设备可以从待处理图像中提取多个图像特征，可选的，计算机设备可以通过对象检测模型所包括的特征提取模块提取待处理图像的多个图像特征。例如，可以将待处理图像输入对象检测模型，以通过特征提取模块提取待处理图像对应的图像特征。

在一种实现方式中，例如图2b所示为本申请实施例提供的一种对象检测模型的结构示意图，该对象检测模型可以包括特征提取模块、对象检测模块以及特征融合模块。其中，计算机设备可以通过如图2b所示的对象检测模型中的特征提取模块提取待处理图像的多个图像特征。可选的，该特征提取模块可以是用于提取图像特征的卷积网络，该卷积网络可以轻量级神经网络，例如，MobileNetV1、MobileNetV2、MobileNetV3，也可以是其他卷积网络，例如，BN-Inception，InceptionV3，ResNet，Xception，EfficientNet等等，在本申请不作具体限定。在本申请中，以特征提取效果较优的MobileNetV3网络为例进行说明。例如，图2c所示为本申请实施例提供的另一种对象检测模型的结构示意图，在图2c中的MobileNetV3网络对应于特征提取模块。待处理图像可以输入对象检测模型中的MobileNetV3网络，MobileNetV3网络的输出为待处理图像的多个图像特征。其中，MobileNetV3网络可以包括多层网络结构，例如，如图2d所示，MobileNetV3网络可以是5层的网络结构，在待处理图像输入MobileNetV3网络之后，MobileNetV3网络中的每一层网络均可以输出对应的图像特征，上述的待处理图像的多个图像特征可以理解为MobileNetV3网络所包括的多层网络所对应的图像特征。

S102：根据多个图像特征确定待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息。

在一种实现方式中，计算机设备可以利用如图2b所示的对象检测模型中的对象检测模块，确定待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息。可选的，对象检测模块可以包括如图2c所示的SSD（Single Shot MultiBox Detector，单阶段多尺度目标检测）网络，对象检测模型可以利用SSD网络进行预检测，以确定多个候选镜头区域，其中，该多个候选镜头区域可以是针对多个图像特征的镜头区域。例如，上述描述的图像特征可以以特征图来理解，那么，在多个特征图通过对象检测模块之后，可以确定每个特征图中所包括的候选镜头区域。其中，一个特征图所包括的候选镜头区域可以包括一个或多个，可以理解的是，通过特征提取模块的多个特征图，随着层数的增大，其对应的特征图的尺寸是越来越小的，例如图2d所示。图2d中方块的大小可用来表示尺寸的大小，即通过特征提取模块所得到的多个特征图对应的尺寸越来越小。那么特征图对应在特征提取模块中的层数越大，特征图所包括的候选镜头区域的数量越少。例如，特征提取模块中的第一层网络对应的特征图中的候选镜头区域的数量可以是15，第三层网络对应的特征图中的候选镜头区域的数量可以是10。可选的，对象检测模块在利用SSD网络确定每个特征图上对应的候选镜头区域时，可以预先定义每个特征图上候选镜头区域的数量。

S103：从多个图像特征中获取多个目标图像特征，并对多个目标图像特征进行融合，得到融合图像特征。

在一种实现方式中，考虑到特征提取模块中每一层网络针对待处理图像的学习维度不同，且随着层级的增大，其学习维度也会变高，则每一层网络所输出的图像特征的特征侧重点不同。例如，特征提取模块所对应的第一层图像特征侧重于图像中的像素变化等特征，第二层图像特征侧重于图像的边界变化等特征，第三层图像特征侧重于图像中的人物等高维特征，第四层图像特征侧重于图像中的场景（或理解为背景）等特征，第五层图像特征侧重于图像中的动作特征。可以看出，第一层图像特征和第二层图像特征主要侧重于表征图像的基本图像信息，对于理解图像的重点信息（例如人物信息、人物所在场景信息，人物对应动作信息）的作用较小。而本申请是要提取出待处理图像中的镜头区域，则可以获取侧重于镜头区域的特征，以利用该侧重于镜头区域的图像特征进行后续的步骤，而镜头区域通常可以包括前景区域和背景区域，则可以获取侧重于前景区域的图像特征和背景区域的图像特征，以使得可以根据前景区域的图像特征和背景区域的图像特征确定图像中的镜头区域。其中，前景区域的图像特征可以是指人、物等对象的图像特征，背景区域的图像特征可以是指区别于人、物等对象的图像特征。为方便描述，可以将前景区域的图像特征称之为前景图像特征，可以将背景区域的图像特征称之为背景图像特征。上述可知，可以从多个图像特征中获取多个目标图像特征，该目标图像特征可以包括背景图像特征，还可以包括前景图像特征。而通过上述对特征提取模块的描述可知，多个目标图像特征可以包括特征提取模块所对应的第三层图像特征、第四层图像特征和第五层图像特征。

而在获取到多个目标图像特征之后，可以对多个目标图像特征进行融合，以得到融合图像特征，以便于后续可以根据该融合图像特征确定目标镜头区域。例如，计算机设备可以利用如图2b或图2c所示的对象检测模型中的特征融合模块来对多个目标图像特征进行融合，以得到融合图像特征。可选的，在对多个目标图像特征进行融合时，可以将多个目标图像特征统一为同一尺寸大小的图像特征，在进行尺寸统一处理之后，可以将进行尺寸统一处理后的图像特征进行特征求和，特征求和结果即是融合图像特征。其中，在进行尺寸统一处理时，可以将多个目标图像特征的尺寸大小统一为多个目标图像特征中任一目标图像特征所对应的尺寸大小，该尺寸统一处理可以是对目标图像特征的缩放处理。

例如，第三层图像特征对应的尺寸大小为64*64、第四层图像特征对应的尺寸大小为32*32、第五层图像特征对应的尺寸大小为16*16。可以将三个目标图像特征的尺寸大小统一为第三层图像特征的尺寸大小，在尺寸大小统一处理中，可以将第四层图像特征的尺寸和第五层图像特征的尺寸进行放大处理，以使得第四层图像特征的尺寸和第五层图像特征的尺寸，与第三层图像特征的尺寸是统一的。或者，也可以将三个目标图像特征的尺寸大小统一为第四层图像特征的尺寸大小，在尺寸大小统一处理中，可以将第五层图像特征的尺寸进行放大处理，以使得第五层图像特征的尺寸与第四层图像特征的尺寸是统一的，还可以将第三层图像特征的尺寸进行压缩处理，以使得第三层图像特征的尺寸与第四层图像特征的尺寸是统一的。或者，也可以将三个目标图像特征的尺寸大小统一为第五层图像特征的尺寸大小，在尺寸大小统一处理中，可以将第三层图像特征的尺寸和第四层图像特征的尺寸进行压缩处理，以使得第三层图像特征的尺寸和第四层图像特征的尺寸，与第五层图像特征的尺寸是统一的。

考虑到如果将三个目标图像特征的尺寸大小统一为第四层图像特征的尺寸大小或第五层图像特征的尺寸大小，目标图像特征进行了压缩，而可能在压缩过程中可能缺失部分目标图像特征。因此，可以将三个目标图像特征的尺寸大小统一为以第三层图像特征对应的尺寸大小。还可以看出，在将第四层图像特征的尺寸大小和第五层图像特征的尺寸大小统一为第三层图像特征对应的尺寸大小时，进行放大处理后的第四层图像特征和第五层图像特征可能存在冗余，但是放大后的第四层图像特征还是可以完整的保留针对第四层所对应的原始的图像特征，以及放大后的第五层图像特征也是可以完整的保留针对第五层所对应的原始的图像特征。则融合图像特征也可以完整的保留第四层图像特征和第五层图像特征。该融合图像特征也包含了不同维度的图像特征。

可选的，将多个目标图像特征融合进行融合，得到融合图像特征的具体实施方式可以包括：将第四层图像特征的尺寸和第五层图像特征的尺寸进行放大处理，以使得第四层图像特征的尺寸和第五层图像特征的尺寸，与第三层图像特征的尺寸是统一的。然后，再将第五层图像特征、放大处理后的第四层图像特征、放大处理后的第五层图像特征进行特征求和，特征求和的结果即是融合图像特征。

在一种实现方式中，考虑到在步骤S103中是将第四层图像特征和第五层图像特征放大到与第三层图像特征对应的尺寸大小的图像特征，以得到融合目标图像特征，且后续是利用融合目标图像特征确定目标镜头区域。那么，可以将上述多个候选镜头区域理解为第三层图像特征（第三层对应的特征图）所对应的候选镜头区域，其中，每个候选镜头区域的图像特征是融合后的图像特征。

S104：根据每个候选镜头区域的位置信息和融合图像特征，从多个候选镜头区域中确定目标镜头区域。

在一种实现方式中，计算机设备可以利用如图2b或图2c所示的对象检测模型中的特征融合模块对待处理图像进行对象检测，以通过检测结果得到待处理图像中的目标镜头区域。可选的，特征融合模块可以根据每个候选镜头区域的位置信息和融合图像特征，确定每个候选镜头区域的镜头概率，进而可根据各候选镜头区域的镜头概率确定目标镜头区域。其中，镜头概率是指该候选镜头区域为摄像设备所拍摄区域的概率，可以通过镜头概率的大小来判定候选镜头区域为摄像设备所拍摄区域的概率。例如，如果镜头概率越大，则该镜头概率对应的候选镜头区域为摄像设备所拍摄区域的概率也就越大；对应的，如果镜头概率越小，则该镜头概率对应的候选镜头区域为摄像设备所拍摄区域的概率也就越小。那么，在得到每个候选镜头区域的镜头概率之后，可以从每个候选镜头区域的镜头概率中确定最大镜头概率，以将最大镜头概率对应的候选镜头区域确定为待处理图像的目标镜头区域。

需要说明的是，本申请实施例提供的对象检测模型可以部署在计算机设备上，该计算机设备可以是服务器，也可以是终端，即该对象检测模型可以部署在服务器上，也可以部署在终端上。

在一种实现方式中，对象检测模型是通过训练样本集训练得到，该训练样本集可以包括训练图像以及训练图像的标注信息，其中，训练图像的标注信息可以用于标注训练图像中包括的镜头区域，在标注训练图像中包括的镜头区域时可以用矩形框拟合。例如，图2a中由21标记，22标记的图像可以是训练图像，而由201标记，204标记的矩阵框可以表示训练图像的标注信息。需要说明的是，在标注训练图像中的镜头区域所用的形状不限于矩阵框，也可以是其他形状，例如梯形、圆形等等。可选的，训练图像可以是根据训练视频得到，该训练视频可以是K歌视频、直播视频、游戏或者其他视频。训练图像可以是对训练视频进行抽帧处理得到的。

在一种实现方式中，利用训练视频得到训练图像的具体实施方式可以包括：对训练视频进行抽帧处理，以得到训练图像。其中，可以按照指定抽帧方式从训练视频中抽取一帧或多帧图像，而抽取到图像即是训练图像。例如，该指定抽帧方式可以是均匀抽帧方式、随机抽帧方式或其他抽帧方式，在本申请不作限定。相比于随机抽帧方式或其他抽帧方式，采用均匀抽帧方式可以较为完整的获取训练视频的完整信息，从而可以提高确定目标镜头区域的准确性。

其中，在一个训练视频所抽取的训练图像的图像帧数量可以预先设置。例如图像帧数量可以为5，或10等数值，本申请实施例对此不作具体限定。假设图像帧数量设置10，则可以在每一个训练视频中获取到10帧训练图像。如果训练视频的视频数量为10万，则训练样本中的训练图像的数量为100万。可选的，可以根据使用设备的计算能力对一个训练视频所抽取的训练图像的图像帧数量进行调整，例如，可以设置计算能力等级与图像帧数量的对应关系。如果计算能力等级较高，图像帧数量可以设置较大，如果计算能力等级较低，则图像帧数量可以设置较小。则确定一个训练视频所抽取的训练图像的图像帧数量的实施方式可以包括：先获取使用设备的计算能力等级，以根据该计算能力等级以及计算能力等级与图像帧数量的对应关系，确定图像帧数量。

可选的，如果指定抽帧方式为随机抽帧方式，则从一个训练视频中获取训练图像的具体实施方式可以是：可以获取预先设置的图像帧数量，从训练视频中随机抽取图像，随机抽取到图像即是训练图像。其中，抽取的图像的数量为图像帧数量。例如，如果图像帧数量为5，则可以从一个训练视频中随机抽取5帧图像。

可选的，若指定抽帧方式为均匀抽帧方式，则从训练视频中获取训练图像的具体实施方式可以是：可以获取预先设置的图像帧数量，还可以确定训练视频的时长范围，以根据图像帧数量以及训练视频的时长范围，确定所要抽取的图像。例如，可以根据图像帧数量以及训练视频的时长范围将训练视频划分为多个视频段，其中视频段的数量可以为图像帧数量，而在得到多个视频段之后，可以在每个视频段中抽取一帧图像。其中，在每个视频段中抽取一帧图像的具体实施方式可以是以随机抽取的方式从视频段中抽取一帧图像，也可以是。例如，如果一个训练视频的时长范围为15秒，图像帧数量为5，则可以将该训练视频划分为5个视频段，然后在5个视频段中分别抽取一帧图像。

在一种实现方式中，训练图像可以包括第一训练图像和第二训练图像，其中，第一训练图像中可以包括镜头区域和非镜头区域，第二训练图像可以包括镜头区域而不包括非镜头区域。例如，图2a中由21标记的图像可以为第一训练图像，由22标记的图像可以为第二训练图像。那么，在收集训练视频时，需要收集包含有第一训练图像的第一训练视频，以及包含有第二训练图像的第二训练视频。例如，假设可以收集10万个训练视频，则该10万个训练视频中可以包括：8万个第一训练视频，2万个第二训练视频。

在一种实现方式中，通过训练样本集训练得到对象检测模型的过程可以为如下描述。其中，对象检测模型的结构可以如图2b或图2c所示。针对训练样本集包括的任一训练图像，可以将训练图像输入对象检测模型的特征提取模块，以确定该训练图像的多个训练图像特征。然后，该多个训练图像特征可以输入对象检测模型的对象检测模块，以确定训练图像的多个候选训练镜头区域以及每个候选训练镜头区域的位置信息。进一步的，可以从上述多个训练图像特征中获取多个目标训练图像特征，并将该多个目标训练图像特征和每个候选训练镜头区域的位置信息输入特征融合模块，以确定训练图像的目标训练镜头区域。可选的，多个目标训练图像特征在输入特征融合模块后，该特征融合模块可以对多个目标训练图像特征进行融合，以得到融合训练图像特征。而在得到融合训练图像特征之后，特征融合模块可以根据输入的每个候选训练镜头区域的位置信息以及融合训练图像特征，确定训练图像的目标训练镜头区域。其中，在根据输入的每个候选训练镜头区域的位置信息以及融合训练图像特征。确定训练图像的目标训练镜头区域的具体实施方式可以包括：首先可以根据每个候选训练镜头区域的位置信息和融合训练图像特征，确定每个候选训练镜头区域的训练镜头概率。而在每个候选训练镜头区域的训练镜头概率之后，可以从每个候选镜头区域的训练镜头概率中确定最大训练镜头概率，以将最大训练镜头概率对应的候选镜训练头区域确定为训练图像的目标训练镜头区域。

在得到目标训练镜头区域之后，即可根据训练图像的标注信息中的镜头区域和目标训练镜头区域，对对象检测模型进行训练，得到训练后的对象检测模型。其中，根据训练图像的标注信息中的镜头区域和目标训练镜头区域对对象检测模型进行训练，得到训练后的对象检测模型具体实施方式可以为如下描述：可以根据标注信息中的镜头区域和目标训练镜头区域计算损失函数的梯度，其中，本申请对损失函数不做限定。再根据损失函数的梯度对对象检测模型的模型参数进行参数更新，并检测损失函数是否满足预设收敛条件，当检测到损失函数满足预设收敛条件时，则可以停止模型参数的参数更新，从而可以得到训练后的对象检测模型。其中，该预设收敛条件可以是指损失函数的梯度小于预先设置的一个阈值，或者是两次迭代之间的权值变化已经很小，且小于预先设置的一个阈值，或者模型的迭代次数达到了预先设置的最大迭代次数，在满足上述任一条件时，可以停止对对象检测模型的训练。

在一种实现方式中，在确定待处理图像中的目标镜头区域之后，还可以将图像中目标镜头区域应用于多种实际场景中，或者，可以将目标镜头区域从待处理图像中提取出来，以将提取出的目标镜头区域应用于多种实际场景中。例如，一张图像中的目标镜头区域可以应用到视频（图像）质量分析、K歌视频质量评估、视频剪辑预处理、直播视频处理、视频（图像）推荐等场景中，或者多种场景结合的情况中。

举例来说，在图像质量分析与图像推荐结合的场景中，可以将提取出的目标镜头区域输入质量分析模型中，以利用质量分析模型，对包含有目标镜头区域的图像进行画面质量分析，以得到画面质量分析结果。其中，画面质量分析结果可以是图像对应的质量描述值，如质量描述值的范围可以是0-100，在将一帧图像中的目标镜头区域输入质量模型之后，可以得到质量描述值为90。那么，在得到画面质量分析结果之后，可以根据质量分析结果来进行图像推荐，如可以将超过指定阈值（如80）的质量描述值对应的图像确定为待推荐图像。从而可以避免在对图像进行画面质量分析时，因图像中的非镜头区域的质量而影响图像推荐效果。

举例再说，在视频质量分析与视频推荐结合的场景中，可以利用上述图像质量分析与图像推荐结合的场景中确定图像对应的质量描述值的方法，确定视频中多帧图像对应的质量描述值，从而根据多帧图像对应的质量描述值综合评价一个视频的质量描述值，例如，一个视频的质量描述值可以是多帧图像对应的质量描述值的均值。那么，在得到多个视频的质量描述值之后，即可以根据各个视频的质量描述值进行视频推荐。

举例又说，在视频剪辑处理中，在确定视频中每帧图像的质量描述值之后，根据每帧图像的质量描述值对视频中所包括的帧图像进行剪辑，例如，可以将低于预设描述值的质量描述值对应的帧图像进行剪辑（过滤），以保证剪辑处理后的视频的质量较优。

本申请实施例中，计算机设备可以获取待处理图像，并提取待处理图像的多个图像特征，然后根据多个图像特征确定待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息。还可以从多个图像特征中获取多个目标图像特征，并对多个目标图像特征进行融合，以得到融合图像特征。进一步的，可以根据每个候选镜头区域的位置信息和融合图像特征，从多个候选镜头区域中确定目标镜头区域。通过实施上述方法，通过获取包括有背景图像特征的多个图像特征，并通过对多个图像特征的融合，可以有效提升融合后的图像特征的准确性和可靠性，使其可在一定程度上准确地反映出图像中镜头区域的特征。从而使得在根据融合后的图像特征以及每个候选镜头区域的位置信息，确定图像的镜头区域时，可以有效识别出图像中的镜头区域。

请参阅图3，图3为本申请实施例提供的另一种图像处理方法的流程示意图。本实施例中所描述的图像处理方法，该方法可由计算机设备执行，该计算机设备可以是终端或服务器；为便于阐述，本申请实施例以计算机设备执行该图像处理方法为例进行说明；该图像处理方法包括以下步骤：

S301：获取待处理图像，并提取待处理图像的多个图像特征。

其中，该待处理图像是待评估视频中的一帧图像，待评估视频可以是需要进行质量评估的视频。例如，该待评估视频可以是游戏视频、K歌视频等等。

S302：根据多个图像特征确定待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息。

S303：从多个图像特征中获取多个目标图像特征，并对多个目标图像特征进行融合，得到融合图像特征。

S304：根据每个候选镜头区域的位置信息和融合图像特征，从多个候选镜头区域中确定目标镜头区域。

其中，步骤S301-S304的具体实施方式可以参见上述实施例步骤S101-S104的具体描述，此处不再赘述。

S305：从待处理图像中的提取目标镜头区域。

在一种实现方式中，可以根据目标镜头区域的位置信息（例如坐标信息）将目标镜头区域从待处理图像中裁剪出来，则裁剪出的区域即是目标镜头区域。

在一种实现方式中，从待处理图像中的提取目标镜头区域的具体实施方式还可以包括：根据待处理图像的镜头类型来确定从待处理图像中提取目标镜头区域的方法。其中，镜头类型可以包括第一镜头类型或第二镜头类型。第一镜头类型可以是指一张图像中包括镜头区域和非镜头区域，第二镜头类型可以是指一张图像中包括镜头区域但不包括非镜头区域，例如，图2a中由21标记的图像的镜头类型即为第一镜头类型，图2a中由22标记的图像的镜头类型即为第二镜头类型。具体实现中，可以获取待处理图像的镜头类型，以根据镜头类型确定如何提取目标镜头区域。可选的，待处理图像的镜头类型可以从利用对象检测模型对待处理图像进行处理后所得到的结果中获得，利用对象检测模型对待处理图像进行处理时，可以对待处理图像进行分类处理，以对待处理图像进行分类，而分类结果即是待处理图像对应的镜头类型。因此对象检测模型的输出结果中可以包括待处理图像的镜头类型。

可选的，如果待处理图像的镜头类型为第二镜头类型，则可以待处理图像即是目标镜头区域。如果待处理图像的镜头类型为第一镜头类型，则可以将目标镜头区域从待处理图像分割出来，以提取待处理图像。具体实现中，计算机设备可以先获取待处理图像中目标镜头区域的位置信息，其中，该位置信息可以是例如坐标等信息。在确定目标镜头区域的位置信息后，计算机设备可以依照该位置信息将目标镜头区域从待处理图像中分割（或者裁剪）出来，则分割出的区域就是目标镜头区域。

在一种实现方式中，还可以在对待评估视频中的待处理图像进行目标镜头区域的检测前，先检测待评估视频的视频类型。例如，该视频类型可以是第一视频类型或第二视频类型。其中，第一视频类型可以是指视频中的图像为第一镜头类型，第二视频类型可以是指视频中的图像为第二镜头类型。如果检测到待评估视频的视频类型为第二视频类型，则可以不执行对待评估视频中的待处理图像进行目标镜头区域的检测的步骤，从而可以降低计算复杂度，提高数据处理效率，进而后续可以提高视频推荐的效率。

S306：获取一个或多个预设评估指标，确定目标镜头区域在各个预设评估指标下的评估值。

在一种实现方式中，该待处理图像可以是待评估视频中的一帧图像，待评估视频可以是指需要进行质量评估的视频，且在对待评估视频进行质量评估之后，可以根据质量评估结果进行例如视频推荐等应用。可选的，在评估一个视频质量的高低时，可以根据视频中所包含的图像的质量来确定视频的质量，而每帧图像的质量可以由图像中的目标镜头区域的质量来确定。其中，确定目标镜头区域的质量的具体实施方式可以是：获取一个或多个预设评估指标，以确定目标镜头区域在各个预设评估指标下的评估值。其中，预设评估指标可以是包括针对模糊度的评估指标、针对明暗度的评估指标、针对抖动度的评估指标或其他评估指标，在本申请不作限定。本申请以预设评估指标包括针对模糊度的评估指标、针对明暗度的评估指标、针对抖动度的评估指标为例进行说明。

可选的，可以在获取到各个预设评估指标之后，针对各个预设评估指标，确定目标镜头区域在各个评估指标下的区域信息，由上述可知，区域信息可以包括目标镜头区域的模糊度、明暗度、抖动度，其中，确定方式在本申请不作限定。而在确定区域信息之后，可以根据区域信息确定目标镜头区域在各个预设评估指标下的评估值。例如，目标存储区域可以存储有区域信息与各个预设评估指标下的评估值的对应关系，其中，目标存储区域可以预先设置，在本申请不作具体限定。那么，在确定区域信息之后，可以从目标存储区域获取区域信息与各个预设评估指标下的评估值的对应关系，以根据该对应关系和区域信息确定目标镜头区域在各个预设评估指标下的评估值。以区域信息为模糊度为例，如表1所示为模糊度与模糊度评估指标下的评估值的对应关系，可以以数值1-9来表示模糊度，且数值越大，表示模糊的程度越高。其中，模糊度与评估值成负相关，模糊度越大，对应的评估值越低，模糊度越小，对应的评估值越搞。例如，假设当前目标镜头区域的模糊度为3，则对应的评估值为80。其中，明暗度与明暗度评估指标下的评估值的对应关系、抖动度与抖动度评估指标下的评估值的对应关系可以参考模糊度与模糊度评估指标下的评估值的对应关系，在此处不在赘述：

表1：

模糊度	评估值
		1	100
2	90
		3	80
…	…

S307：根据目标镜头区域在各个预设评估指标下的评估值，确定待评估视频的视频评估值。

在一种实现方式中，在确定目标镜头区域在各个预设评估指标下的评估值之后，即可根据目标镜头区域在各个预设评估指标下的评估值，确定待评估视频的视频评估值。例如，可以根据目标镜头区域在各个预设评估指标下的评估值，先确定待处理图像的图像评估值，然后，再根据待处理图像的图像评估值确定待评估视频的视频评估值。

可选的，根据目标镜头区域在各个预设评估指标下的评估值，确定待处理图像的图像评估值的具体实施方式可以是：将各个预设评估指标下的评估值进行求和处理，而求和处理结果即可以是待处理图像的图像评估值，例如，假设模糊度评估指标下的评估值为S1、明暗度评估指标下的评估值为S2、抖动度评估指标下的评估值为S3，则待处理图像的图像评估值S=S1+S2+S3。

可选的，根据目标镜头区域在各个预设评估指标下的评估值，确定待处理图像的图像评估值的具体实施方式还可以是：获取所涉及的各个评估指标的权重，采用获取到的各个评估指标的权重对各个预设评估指标下的评估值进行加权求和，而加权求和结果即可以是待处理图像的图像评估值。例如，q1是模糊度评估指标的权重、q2是明暗度评估指标的权重、q3是抖动度评估指标的权重，则待处理图像的图像评估值S=S1*q1+S2*q2+S3*q3。其中，各个评估指标的权重之和为1，各个评估指标的权重可以根据需求进行设置。

在一种实现方式中，根据待处理图像的图像评估值确定待评估视频的视频评估值可以分为以下两种情况。

如果在确定待评估视频的视频评估值时，所利用到的待评估视频中的图像的数量为1时，可以将该图像的图像评估值确定为待评估视频的视频评估值。例如，可以将待处理图像的图像评估值确定待评估视频的视频评估值。其中，该待处理图像可以是待评估视频中的任意一帧图像，也可以是待评估视频中的指定图像，该指定图像可以是尽可能表征待评估视频的完整信息。

如果在确定待评估视频的视频评估值时，所利用到的待评估视频中的图像的数量为多个时，则可以根据多帧图像对应的图像评估值确定待评估视频的视频评估值。其中，上述的待处理图像可以为待评估视频中的一帧图像，每帧图像对应的图像评估值可以参考上述待处理图像的图像评估值的确定方法，在本申请不作限定。那么，在确定待评估视频中每帧图像的图像评估值之后，即可以根据每帧图像的图像评估值确定待评估视频的视频评估值。例如，可以将多帧图像的图像评估值进行求和，而求和结果即可以是待评估视频的视频评估值。又如，可以将多帧图像的图像评估值进行均值运算，而均值运算结果即可以是待评估视频的视频评估值。待评估视频的视频评估值也可以是基于均值运算结果进一步计算得到的值，例如，均值运算结果的标准差，均值运算结果的均方差等。假设以均值运算结果为例，假设M个图像对应的图像评估值分别为H₁，H₂，…，H_m，…，H_M，则待评估视频的视频评估值H=（H₁+H₂+，…，+H_m+，…，+H_M）/M。

在一种实现方式中，例如在视频推荐场景中，如果在同一时间段内接收到多个待评估视频时，可以获取多个待评估视频中每个待评估视频的视频评估值，以根据每个待评估视频的视频评估值进行视频推荐。其中，每个待评估视频的视频评估值可以参考上述描述，此处不在赘述。

可选的，根据每个待评估视频的视频评估值进行视频推荐的具体实施方式包括：可以对每个待评估视频的视频评估值进行降序排序，以得到视频评估值排序结果，并将视频评估值排序结果中前L个视频评估值对应的待评估视频均作为待推荐视频。其中，L为正整数，L可以是预先设定，例如可以是5，或是10，也可以是其他数值，在本申请不做限定。

例如，假设待评估视频有7个，分别为视频1、视频2、视频3、视频4、视频5、视频6、视频7，计算机设备确定的每个视频的对应的视频评估值为25、85、50、75、85、40、30，其中，视频评估值的取值范围为0-100。然后，计算机设备将上述视频评估值进行降序排序，得到视频评估值排序结果为85（视频2）、85（视频5）、75（视频4）、50（视频3）、40（视频6）、30（视频7）、25（视频1），接着，计算机设备将视频评估值排序结果中前3个视频评估值对应的待评估视频作为待推荐视频，也就是视频2、视频5和视频4作为待推荐视频。

本申请实施例中，计算机设备可通过获取包括有背景图像特征的多个图像特征，并通过对多个图像特征的融合，可以有效提升融合后的图像特征的准确性和可靠性，使其可在一定程度上准确地反映出图像中镜头区域的特征。从而使得在根据融合后的图像特征以及每个候选镜头区域的位置信息，确定图像的镜头区域时，可以有效识别出图像中的镜头区域。并且，在提取出图像中的镜头区域之后，针对该镜头区域做画面质量分析，可以提高包含有镜头区域的图像的质量评估的准确性，进而可以提高对视频的质量评估的准确性。将其应用在视频推荐等场景中，也可以提高所推荐视频的质量，从而提高用户体验。

为更好的理解本申请实施例所提供的图像处理方法，下面以视频推荐场景，且待处理图像为待评估视频中的一帧图像为例，结合图4所示的流程进行进一步说明。例如，在视频推荐场景为K歌推荐场景中，每天不同的用户可以通过终端上传的视频的数量是非常大的，例如上传的视频的数量约有30万，而为了提高视频推荐的质量，提升用户体验，通常可以对这些视频进行质量筛选，以将视频质量较优的视频进行推荐，而视频质量较差的视频进行过滤。视频推荐的流程可以如图4所示，计算机设备在接收到一个或多个待评估视频之后，可以对每个待评估视频进行质量评估，也就是确定每个待评估视频的视频评估值，以根据视频评估值进行视频推荐。

在一种实现方式中，在计算机设备获取到待评估视频之后，可以对待评估视频进行视频抽帧，以得到每个待评估视频所对应的一帧或多帧图像，而后续可以利用一帧或多帧图像的图像评估值来确定一个视频的视频评估值。其中，在对待评估视频进行视频抽帧时，为了可以获取视频的完整信息，可以采用均匀抽帧方法来进行视频抽帧。例如，一个视频可以均匀的抽取10帧图像，其中抽取帧数可以根据使用设备的计算能力进行调整。在得到待评估视频对应的图像之后，可以对每帧图像进行镜头检测，以确定每帧图像中的目标镜头区域，其中，每帧图像的图像评估值以根据镜头区域在各个预设评估指标下的指标值确定的。可选的，可以利用如图2b或图2c所示的对象检测模型确定每帧图像中的目标镜头区域。下述结合图2c所示的对象检测模型，以一张图像为例，具体描述从输入图像到输出图像中的目标镜头区域的过程：

S1，将图像输入到MobilenetV3网络，以进行特征提取，从而得到多个图像特征。

S2，可以将多个图像特征通过SSD网络，以生成预检测框，其中，该预检测框可以是上述描述的多个候选镜头区域。而在预检测框之后，也可以确定每个预检测框对应的位置信息。

S3，可以提取多个图像特征，以通过特征融合模块融合该个图像特征，以得到融合图像特征，其中，该多个图像特征可以是MobileNetV3网络中第三层对应的图像特征、第四层对应的图像特征、第五层对应的图像特征。

S4，特征融合模块还可以根据每个预检测框对应的位置信息以及融合图像特征确定每个候选镜头区域的镜头概率以及图像对应的镜头类型。通过每个候选镜头区域的镜头概率既可以确定图像中的目标镜头区域，例如，可以将镜头概率中的最大镜头概率对应的候选镜头区域确定为目标镜头区域。

其中，对象检测模型在训练时可以采用100万帧训练图像作为训练样本集，该100万训练图像中可以包括：包含镜头区域和非镜头区域的训练图像有80万帧，包含镜头区域的训练图像有20万帧，通过实践证明，利用该对象检测模型检测出图像中的镜头区域的准确率达95%，且检测速度也可以从500毫秒提升到约50毫秒，检测速度也得到了提升。

上述可知，在确定每个图像中的目标镜头区域之后，可以对图像进行镜头分割，以提取出图像中的目标镜头区域。进而利用该目标镜头区域进行质量评估。其中，目标镜头区域的形状不限于矩形框，也可以是目标镜头区域的外接矩形或内接矩形，可以根据业务需求调整。在通过上述方法确定每帧图像中的目标镜头区域之后，既可以根据目标镜头区域进行质量评估。例如，针对一帧图像，可以确定目标镜头区域在各个预设评估指标下的评估值；进而根据各个预设评估指标下的评估值确定该图像的图像质量评估值。而针对任一待评估视频，可以利用该待评估视频所包括的一帧或多帧图像的图像质量评估值，确定该待评估视频的视频评估值。那么，在得到各个待评估视频的视频评估值之后，既可以根据视频评估值确定待推荐视频，例如，可以将视频评估值的降序排序结果中，前L个视频评估值对应的待评估视频均作为待推荐视频。

请参阅图5，图5是本申请实施例提供的一种图像处理装置的结构示意图。本实施例中所描述的图像处理装置，包括：

获取单元501，用于获取待处理图像，并提取所述待处理图像的多个图像特征；

第一确定单元502，用于根据所述多个图像特征确定所述待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息；

融合单元503，用于从所述多个图像特征中获取多个目标图像特征，并对所述多个目标图像特征进行融合，得到融合图像特征，其中，所述目标图像特征包括背景图像特征；

第二确定单元504，用于根据所述每个候选镜头区域的位置信息和所述融合图像特征，从所述多个候选镜头区域中确定目标镜头区域。

在一种实现方式中，所述第二确定单元504，具体用于：

根据所述每个候选镜头区域的位置信息和所述融合图像特征，确定所述每个候选镜头区域的镜头概率；

从所述每个候选镜头区域的镜头概率中确定最大镜头概率，将所述最大镜头概率对应的候选镜头区域确定为所述待处理图像的目标镜头区域。

在一种实现方式中，所述多个图像特征是通过对象检测模型中的特征提取模块提取到的；所述多个候选镜头区域以及每个候选镜头区域的位置信息是通过所述对象检测模型中的对象检测模块根据所述多个图像特征进行预检测得到的；所述融合图像特征是通过所述对象检测模型中的特征融合模块对所述多个目标图像特征进行融合得到的；所述目标镜头区域是通过所述特征融合模块根据所述每个候选镜头区域的位置信息和所述融合图像特征进行对象检测得到的。

在一种实现方式中，所述对象检测模型是通过训练样本集训练得到，所述训练样本集包括训练图像以及所述训练图像的标注信息，所述训练图像的标注信息用于标注所述训练图像中包括的镜头区域；

所述训练图像是根据对获取到的训练视频进行抽帧处理得到的；

所述训练图像包括第一训练图像和第二训练图像，所述第一训练图像中包括镜头区域和非镜头区域，所述第二训练图像包括镜头区域。

在一种实现方式中，所述装置还包括训练单元505，具体用于：

针对所述训练样本集包括的任一训练图像，将所述训练图像输入所述特征提取模块，确定所述训练图像的多个训练图像特征；

将所述多个训练图像特征输入所述对象检测模块，确定所述训练图像的多个候选训练镜头区域以及每个候选训练镜头区域的位置信息；

从所述多个训练图像特征中获取多个目标训练图像特征，并将所述多个目标训练图像特征和所述每个候选训练镜头区域的位置信息输入所述特征融合模块，确定所述训练图像的目标训练镜头区域；

根据所述训练图像的标注信息和所述目标训练镜头区域对所述对象检测模型进行训练，得到训练后的对象检测模型。

在一种实现方式中，所述待处理图像为待评估视频中的一帧图像；所述装置还包括评估单元506，具体用于：

从所述待处理图像中的提取所述目标镜头区域；

获取一个或多个预设评估指标，确定所述目标镜头区域在各个预设评估指标下的评估值；

根据所述目标镜头区域在各个预设评估指标下的评估值，确定所述待评估视频的视频评估值。

在一种实现方式中，所述装置还包括推荐单元507，具体用于：

当在同一时间段内接收到多个待评估视频时，获取所述多个待评估视频中每个待评估视频的视频评估值；

对所述每个待评估视频的视频评估值进行降序排序，得到视频评估值排序结果；

将所述视频评估值排序结果中前L个视频评估值对应的待评估视频均作为待推荐视频，L为正整数。

可以理解，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参阅图6，图6是本申请实施例提供的一种计算机设备的结构示意图。本实施例中所描述的计算机设备，可以是终端或者服务器，计算机设备包括：处理器601、存储器602。可选的，该计算机设备还可包括网络接口603。上述处理器601、存储器602以及网络接口603之间可以交互数据。

上述处理器601可以是中央处理单元（Central Processing Unit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供程序指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。其中，所述处理器601调用所述程序指令时用于执行：

获取待处理图像，并提取所述待处理图像的多个图像特征；

在一种实现方式中，所述处理器601，具体用于：

在一种实现方式中，所述处理器601，还用于：

在一种实现方式中，所述待处理图像为待评估视频中的一帧图像；所述处理器601，还用于：

从所述待处理图像中的提取所述目标镜头区域；

在一种实现方式中，所述处理器601，还用于：

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，所述程序执行时可包括如图1或者图3对应实施例中的图像处理方法的部分或全部步骤。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random AccessMemory，RAM）、磁盘或光盘等。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上对本申请实施例所提供的一种图像处理方法、装置、计算机设备以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像，并提取所述待处理图像的多个图像特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个候选镜头区域的位置信息和所述融合图像特征，从所述多个候选镜头区域中确定目标镜头区域，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述多个图像特征是通过对象检测模型中的特征提取模块提取到的；所述多个候选镜头区域以及每个候选镜头区域的位置信息是通过所述对象检测模型中的对象检测模块根据所述多个图像特征进行预检测得到的；所述融合图像特征是通过所述对象检测模型中的特征融合模块对所述多个目标图像特征进行融合得到的；所述目标镜头区域是通过所述特征融合模块根据所述每个候选镜头区域的位置信息和所述融合图像特征进行对象检测得到的。

4.根据权利要求3所述的方法，其特征在于，

所述对象检测模型是通过训练样本集训练得到，所述训练样本集包括训练图像以及所述训练图像的标注信息，所述训练图像的标注信息用于标注所述训练图像中包括的镜头区域；

5.根据权利要求4所述的方法，其特征在于，通过训练样本集训练得到对象检测模型包括：

6.根据权利要求1所述的方法，其特征在于，所述待处理图像为待评估视频中的一帧图像；所述方法还包括：

从所述待处理图像中的提取所述目标镜头区域；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种图像处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。