CN115379290A

CN115379290A - 视频处理方法、装置、设备及存储介质

Info

Publication number: CN115379290A
Application number: CN202211008184.7A
Authority: CN
Inventors: 刘兆洋; 唐斯伟; 吴文岩; 钱晨
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-22

Abstract

本申请公开了一种视频处理方法、装置、设备及存储介质，属于计算机技术领域。所述方法包括：提取目标视频中的至少一个图像帧；针对至少一个图像帧中的每一图像帧，对图像帧进行全局质量检测处理，得到第一检测结果；对图像帧进行局部质量检测处理，得到第二检测结果；基于第一检测结果和第二检测结果，确定图像帧对应的精彩度信息；根据至少一个图像帧中每一图像帧对应的精彩度信息，确定目标图像帧。本申请实施例提供的技术方案中，对于从视频中提取出的每一图像帧，分别进行全局质量检测和局部质量检测，基于上述两种检测的结果可以综合确定每一图像帧的精彩程度，进而可以自动确定目标图像帧，提升了目标图像帧的确定效率。

Description

视频处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种视频处理方法、装置、设备及存储介质。

背景技术

随着互联网与多媒体技术的发展，人们开始热衷于用视频来记录分享生活中的精彩瞬间。

通常地，人们拍摄好视频之后，会使用视频剪辑软件对原始拍摄视频进行剪辑，从而将原始视频中的精彩帧剪辑出来。

通过上述方式确定视频中精彩帧的复杂度较高、效率较低。

发明内容

本申请实施例提供了一种视频处理方法、装置、设备及存储介质，能够降低确定视频中目标图像帧的复杂度，提升目标图像帧的确定效率。

根据本申请实施例的一个方面，提供了一种视频处理方法，所述方法包括：提取目标视频中的至少一个图像帧；针对所述至少一个图像帧中的每一图像帧，对所述图像帧进行全局质量检测处理，得到第一检测结果，所述第一检测结果表征所述图像帧对应的整体画面的内容质量；对所述图像帧进行局部质量检测处理，得到第二检测结果，所述第二检测结果表征所述图像帧中目标对象的吸引力程度；基于所述第一检测结果和所述第二检测结果，确定所述图像帧对应的精彩度信息，所述精彩度信息表征所述图像帧的精彩程度；根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧。

本申请中，对于从视频中提取出的每一图像帧，分别进行全局质量检测和局部质量检测，可以得到表征图像帧的整体画面质量的第一检测结果，以及表征图像帧中目标对象吸引力程度的第二检测结果，基于上述两种检测结果可以综合确定每一图像帧的精彩程度，进而可以根据每一图像帧的精彩程度在上述提取出的图像帧中自动确定出目标图像帧，有效降低了确定目标视频帧的复杂度，提升了目标图像帧的确定效率。

在一个可能的设计中，所述第二检测结果包括所述目标对象对应的吸引力分数，所述吸引力分数与所述吸引力程度呈正相关，所述对所述图像帧进行局部质量检测处理，得到第二检测结果，包括：对所述图像帧进行对象识别处理，得到所述目标对象；对所述图像帧进行基于所述目标对象的属性信息提取，得到所述目标对象对应的对象属性信息；基于所述对象属性信息，确定所述吸引力分数。

该种可能的设计中，通过对图像帧进行基于识别出的目标对象的属性信息提取，再基于提取到的对象属性信息即可准确检测出表征目标对象吸引力程度的吸引力分数，从而实现了上述局部质量检测，有效提升了上述局部质量检测的准确性。

在一个可能的设计中，所述对象属性信息包括下述至少之一：对所述目标对象进行动作检测处理所得到的动作质量分，所述动作质量分表征所述目标对象的动作姿态对应的精彩程度；对所述目标对象进行面部检测处理所得到的面部质量分，所述面部质量分表征所述目标对象的面部质量；所述基于所述对象属性信息，确定所述吸引力分数，包括：基于所述动作质量分、所述面部质量分中至少一种，确定所述吸引力分数。

该种可能的设计中，通过检测目标对象对应的动作质量分、面部质量分中至少一种，可以准确确定目标对象对应的吸引力分数，提升了上述对象属性信息的丰富度，并且上述动作质量分、面部质量分能够准确地表征目标对象的吸引力程度，有助于进一步提升局部质量检测的准确性。

在一个可能的设计中，所述对所述图像帧进行对象识别处理，得到所述目标对象，包括：对所述图像帧进行对象识别处理，得到至少一个对象；确定所述至少一个对象对应的对象展示信息，所述对象展示信息包括图像面积信息、出现时长信息中至少一种；基于所述图像面积信息、所述出现时长信息中至少一种，对所述至少一个对象进行主体检测，得到所述至少一个对象中的主体对象，所述目标对象为所述主体对象。

该种可能的设计中，通过确定图像帧中至少一个对象对应的对象展示信息，如对象所占面积、对象出现时长等，可以检测出至少一个对象中的主体对象，即上述目标对象，从而降低了图像帧中除目标对象之外的其他对象对局部质量检测结果的影响，有助于提升局部质量检测的准确性。

在一个可能的设计中，所述第一检测结果包括所述图像帧对应的整体质量分，所述整体质量分与所述内容质量呈正相关，所述对所述图像帧进行全局质量检测处理，得到第一检测结果，包括：对所述图像帧进行场景检测处理，得到所述图像帧对应的场景质量分，所述场景质量分表征所述图像帧中的画面场景对应的精彩程度；对所述图像帧进行画质检测处理，得到所述图像帧对应的画质质量分，所述画质质量分表征所述图像帧的图像质量；对所述场景质量分和所述画质质量分进行融合处理，得到所述整体质量分。

该种可能的设计中，通过检测图像帧对应的场景质量分、画质质量分，可以确定图像帧对应的整体质量分，实现了上述全局质量检测，并且上述场景质量分、画质质量分能够准确地表征图像帧整体画面的内容质量，有助于提升上述全局质量检测的准确性。

在一个可能的设计中，所述对所述图像帧进行场景检测处理，得到所述图像帧对应的场景质量分，包括：对所述图像帧进行场景检测处理，得到所述图像帧对应于至少两个预设场景的概率分布数据；将所述概率分布数据中的最大概率数据确定为所述场景质量分。

该种可能的设计中，通过对图像帧进行场景检测，可以得到图像帧对应于多个预设场景的概率，将其中的最大概率确定为场景质量分，可以准确地确定图像帧对应的场景质量分，并且效率较高，无需额外的处理步骤。

在一个可能的设计中，所述提取目标视频中的至少一个图像帧，包括：对所述目标视频进行转场检测处理，得到所述目标视频对应的至少一个视频段；针对每一所述视频段，提取所述视频段中的至少一个图像帧；所述根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧之后，所述方法还包括：将所述目标图像帧确定为所述至少一个图像帧所在的视频段中的精彩帧。

该种可能的设计中，通过转场检测即可实现对目标视频的分段，并且支持在视频段内确定精彩帧，实现了为各视频段确定段内精彩帧的目标，提升了精彩帧的丰富度和多样性。

在一个可能的设计中，所述根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧之后，所述方法还包括：确定与所述目标图像帧相邻的第一相邻帧；基于所述第一相邻帧和所述目标图像帧，确定候选图像帧序列；基于所述候选图像帧序列中各图像帧分别对应的精彩度信息，确定精彩度分布信息；在所述精彩度分布信息符合预设精彩度信息分布条件的情况下，确定与所述候选图像帧序列相邻的第二相邻帧；基于所述第二相邻帧更新所述候选图像帧序列；根据更新后的所述候选图像帧序列生成精彩片段，所述更新后的所述候选图像帧序列对应的精彩度分布信息符合所述预设精彩度信息分布条件。

该种可能的设计中，以目标图像帧为起点在视频中动态查找并扩张候选图像帧序列，通过判断候选图像帧序列对应的精彩度分布信息是否符合预设精彩度信息分布条件，可以定位出相关的精彩片段，提有效升了精彩片段剪辑效率和生成效率。

根据本申请实施例的一个方面，提供了一种视频处理装置，所述装置包括：图像帧提取模块，用于提取目标视频中的至少一个图像帧；第一检测模块，用于针对所述至少一个图像帧中的每一图像帧，对所述图像帧进行全局质量检测处理，得到第一检测结果，所述第一检测结果表征所述图像帧对应的整体画面的内容质量；第二检测模块，用于对所述图像帧进行局部质量检测处理，得到第二检测结果，所述第二检测结果表征所述图像帧中目标对象的吸引力程度；精彩度信息确定模块，用于基于所述第一检测结果和所述第二检测结果，确定所述图像帧对应的精彩度信息，所述精彩度信息表征所述图像帧的精彩程度；目标帧确定模块，用于根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧。

在一个可能的设计中，所述第二检测结果包括所述目标对象对应的吸引力分数，所述吸引力分数与所述吸引力程度呈正相关，所述第二检测模块，包括：对象识别单元，用于对所述图像帧进行对象识别处理，得到所述目标对象；属性信息提取单元，用于对所述图像帧进行基于所述目标对象的属性信息提取，得到所述目标对象对应的对象属性信息；吸引力分数确定单元，用于基于所述对象属性信息，确定所述吸引力分数。

在一个可能的设计中，所述对象属性信息包括下述至少之一：对所述目标对象进行动作检测处理所得到的动作质量分，所述动作质量分表征所述目标对象的动作姿态对应的精彩程度；对所述目标对象进行面部检测处理所得到的面部质量分，所述面部质量分表征所述目标对象的面部质量；所述吸引力分数确定单元，具体用于基于所述动作质量分、所述面部质量分中至少一种，确定所述吸引力分数。

在一个可能的设计中，所述对象识别单元，包括：对象识别子单元，用于对所述图像帧进行对象识别处理，得到至少一个对象；展示信息确定子单元，用于确定所述至少一个对象对应的对象展示信息，所述对象展示信息包括图像面积信息、出现时长信息中至少一种；主体检测子单元，用于基于所述图像面积信息、所述出现时长信息中至少一种，对所述至少一个对象进行主体检测，得到所述至少一个对象中的主体对象，所述目标对象为所述主体对象。

在一个可能的设计中，所述第一检测结果包括所述图像帧对应的整体质量分，所述整体质量分与所述内容质量呈正相关，所述第一检测模块，包括：场景质量分确定单元，用于对所述图像帧进行场景检测处理，得到所述图像帧对应的场景质量分，所述场景质量分表征所述图像帧中的画面场景对应的精彩程度；画质质量分确定单元，对所述图像帧进行画质检测处理，得到所述图像帧对应的画质质量分，所述画质质量分表征所述图像帧的图像质量；整体质量分确定单元，用于对所述场景质量分和所述画质质量分进行融合处理，得到所述整体质量分。

在一个可能的设计中，所述场景质量分确定单元，包括：概率确定子单元，用于对所述图像帧进行场景检测处理，得到所述图像帧对应于至少两个预设场景的概率分布数据；场景质量分确定子单元，用于将所述概率分布数据中的最大概率数据确定为所述场景质量分。

在一个可能的设计中，所述图像帧提取模块，包括：视频段确定单元，用于对所述目标视频进行转场检测处理，得到所述目标视频对应的至少一个视频段；图像帧提取单元，用于针对每一所述视频段，提取所述视频段中的至少一个图像帧；所述装置还包括：精彩帧确定单元，用于将所述目标图像帧确定为所述至少一个图像帧所在的视频段中的精彩帧。

在一个可能的设计中，所述装置还包括：相邻帧确定模块，用于确定与所述目标图像帧相邻的第一相邻帧；候选序列确定模块，用于基于所述第一相邻帧和所述目标图像帧，确定候选图像帧序列；精彩度分布确定模块，用于基于所述候选图像帧序列中各图像帧分别对应的精彩度信息，确定精彩度分布信息；所述相邻帧确定模块，还用于在所述精彩度分布信息符合预设精彩度信息分布条件的情况下，确定与所述候选图像帧序列相邻的第二相邻帧；候选序列更新模块，用于基于所述第二相邻帧更新所述候选图像帧序列；精彩片段生成模块，用于根据更新后的所述候选图像帧序列生成精彩片段。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频处理方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述视频处理方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现上述视频处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请的技术方案。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。另外，此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2是本申请一个实施例提供的视频处理方法的流程图一；

图3是本申请一个实施例提供的视频处理方法的流程图二；

图4示例性示出了一种视频剪切流程的示意图；

图5示例性示出了一种画质检测结果的示意图；

图6示例性示出了一种全局质量检测流程的示意图；

图7是本申请一个实施例提供的视频处理方法的流程图三；

图8示例性示出了一种主体检测流程的示意图；

图9示例性示出了一种动作识别流程的示意图；

图10示例性示出了一种面部检测流程的示意图；

图11示例性示出了一种局部质量检测流程的示意图；

图12示例性示出了一种确定视频中精彩帧与精彩片段的技术框架示意图；

图13是本申请一个实施例提供的视频处理装置的框图；

图14是本申请一个实施例提供的计算机设备的结构框图一；

图15是本申请另一个实施例提供的计算机设备的结构框图二。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端设备10和服务器20。

终端设备10包括但不限于用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助手(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、手机、电脑、智能语音交互设备、智能家电、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够进行视频处理的应用程序。典型地，该应用程序为视频类应用程序。当然，除了视频类应用程序之外，其它类型的应用程序中也可以进行视频处理。例如，社交类应用程序、互动娱乐类应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality，VR)类应用程序、增强现实(AugmentedReality，AR)类应用程序、新闻类应用程序、浏览器应用程序等，本申请实施例对此不作限定。

服务器20用于为终端设备10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端设备10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参考图2，其示出了本申请一个实施例提供的视频处理方法的流程图一。该方法可应用于计算机设备中，由计算机设备执行。上述计算机设备是指具备数据计算和处理能力的电子设备，上述计算机设备包括但不限于终端、服务器或其它处理设备。可选地，上述视频处理方法中各步骤的执行主体可以是图1所示的应用程序运行环境中的终端设备10或服务器20。在一些可能的实现方式中，该视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。该方法可以包括以下几个步骤(210～250)。

步骤210，提取目标视频中的至少一个图像帧。

可选的，上述目标视频包括待剪辑视频。可选地，待剪辑视频包括但不限于通过上述应用程序进行录制的视频、下载视频、本地存储视频。本申请实施例对目标视频的类型和获取方式不作限定。

在一种可能的实施方式中，计算机设备响应于目标应用程序对应的视频录制指令，调用摄像头进行视频录制，得到上述目标视频。

在实际应用中，从上述目标视频中提取图像帧的方式有很多种，包括但不限于以下方式：

可选地，提取目标视频中的每个图像帧。对于一些需要逐帧检测的应用场景，可以逐帧提取目标视频中的每个图像帧。

当然，也可以提取目标视频中的部分图像帧。可选地，对目标视频进行抽帧处理，得到上述至少一个图像帧。上述抽帧处理可以是按照预设间隔从目标视频中抽取图像帧，也可以是按照固定位置从目标视频中抽取图像帧，还可以是按照其他预设规则从目标视频中抽取图像帧，抽帧规则具体可以根据应用场景进行配置，本申请实施例对此不作限定。

对于上述列举的图像帧提取方式，仅是示例性说明，也还可以包括其他的提取方式，本申请实施例对此不作限定。

在示例性实施例中，如图3所示，上述提取目标视频中的至少一个图像帧，可以包括如下步骤(211～212)，图3示出了本申请一个实施例提供的视频处理方法的流程图二。

步骤211，对目标视频进行转场检测处理，得到目标视频对应的至少一个视频段。

上述转场检测用于进行视频剪切。通过对目标视频进行转场检测，可以将目标视频裁剪为至少一个视频段，例如将一段未裁剪的长视频裁剪为多段内容不重叠的子片段。

在视频中，镜头切换、场景切换、对象变化、亮度变化、光源变化等变化都可以理解为是转场变化，上述转场检测用于检测出视频中的相关变化位置，从而实现视频剪切。

在一个示例中，如图4所示，其示例性示出了一种视频剪切流程的示意图。图4中，视频40输入转场检测模型进行转场检测处理，转场检测模型输出视频40中的发生转场变化的转场图像帧的帧号，以转场图像帧为切分点即可将视频进行剪切，从而得到视频段41和视频段42。

在实际应用中，上述转场检测处理的方式有很多种，包括但不限于如下方式：

对于目标视频中的任一图像帧，确定该图像帧在目标视频中对应的邻近帧，将图像帧与邻近帧进行对比处理，可以得到该图像帧与邻近帧之间的图像变化信息，基于图像变化信息即可判断该图像帧是否为转场图像帧。在图像变化信息符合预设转场条件的情况下，即可将该图像帧确定为转场图像帧。可选地，上述邻近帧包括目标视频中与该图像帧之间的位置距离小于或等于预设位置距离阈值的图像帧。

可选地，上述图像变化信息包括低阶语义变化信息和高阶语义变化信息。其中，低阶语义变化信息包括但不限于图像帧与邻近帧之间的亮度变化信息和色彩变化信息；高阶语义变化信息包括但不限于图像帧与邻近帧之间的对象变化信息、场景变化信息、运动变化信息。相应的，上述预设转场条件包括但不限于亮度变化条件、色彩变化条件、对象变化条件、场景变化条件、运动变化条件等。

可选地，上述亮度变化信息包括图像帧与邻近帧之间的亮度差异值；相应的，上述亮度变化条件可以是亮度差异值大于预设亮度差异阈值。

可选地，上述色彩变化信息包括图像帧与邻近帧在颜色通道对应的色度差异值；相应的，上述色彩变化条件可以是色度差异值大于预设色度差异阈值。

可选地，上述对象变化信息包括图像帧与邻近帧之间的对象差异信息，如对象差异数量、主体对象变化标识。可选地，分别对该图像帧和其对应的邻近帧进行对象识别，即可得到该图像帧对应的对象信息和邻近帧对应的对象信息，将两种对象信息进行对比即可确定上述对象差异信息。相应的，上述对象变化条件可以包括对象差异数量大于预设差异对象数量阈值、主体对象变化标识为目标值。

其中，对象差异数量大于预设差异对象数量阈值可以说明该图像帧与邻近帧之间不同的对象数量超过了预设差异对象数量阈值；主体对象变化标识为目标值则说明主体对象发生变化。

可选地，上述场景变化信息包括图像帧与邻近帧之间的场景差异信息，如场景类型差异信息、场景切换标识。可选地，分别对该图像帧和其对应的邻近帧进行场景识别，即可得到该图像帧对应的场景信息和邻近帧对应的场景信息，将两种场景信息进行对比即可确定上述场景差异信息。相应的，上述场景变化条件可以包括该图像帧对应的场景信息与邻近帧对应的场景信息不一致、场景切换标识为目标值。

其中，若该图像帧对应的场景信息与邻近帧对应的场景信息不一致，则可以说明该图像帧相比于邻近帧发生了场景变化；也可以通过设置场景切换标识为目标值的方式表征该图像帧相比于邻近帧发生了场景变化这一情况。

可选地，运动变化信息包括图像帧与邻近帧中目标对象的动作变化信息，如动作变化标识。相应的，运动变化条件包括动作变化标识为目标值。计算机设备通过对比图像帧与邻近帧中目标对象的动作信息，若目标对象在两者之间的差异较大，则可将动作变化标识设置为目标值，以此表征目标对象在两者之间的发生了运动变化。

在一些可能的实施方式中，在上述图像变化信息中任一种变化信息符合其对应的变化条件的情况下，即可将该图像帧确定为转场图像帧。

步骤212，针对每一视频段，提取视频段中的至少一个图像帧。

针对每一视频段，可以提取视频段中的每个图像帧，也可以提取视频段中的部分图像帧，本申请实施例对此不作限定。

由此可见，本申请提供的技术方案通过转场检测可以实现对目标视频的分段，从而得到目标视频对应的视频段，以视频段为单位进行图像帧提取，可以提升图像帧提取的多样性和丰富度。

步骤220，针对至少一个图像帧中的每一图像帧，对图像帧进行全局质量检测处理，得到第一检测结果。

上述全局质量检测处理用于检测图像帧的整体画面内容质量，相应的，上述第一检测结果表征图像帧对应的整体画面的内容质量。可选地，第一检测结果包括图像帧对应的整体质量分，上述整体质量分与内容质量呈正相关。

在实际应用中，对图像帧进行全局质量检测处理的方式有多种，包括但不限于场景检测和画质检测。

在示例性实施例中，如图3所示，上述步骤220可以包括如下子步骤(221～223)。

步骤221，针对至少一个图像帧中的每一图像帧，对图像帧进行场景检测处理，得到图像帧对应的场景质量分。

可选地，场景质量分表征图像帧中的画面场景对应的精彩程度。可选地，第一检测结果包括上述场景质量分。

上述场景检测处理用于检测图像帧对应的场景质量分，通过场景检测可以为精彩帧决策过程提供重要的场景先验知识。

在一种可能的实施方式中，场景检测处理的过程包括：对图像帧进行场景检测处理，得到图像帧对应于至少两个预设场景的概率分布数据；将概率分布数据中的最大概率数据确定为场景质量分。

可选地，至少两个预设场景包括但不限于篮球场、足球场、田径场、羽毛球场、草原等。可选地，将上述图像帧输入预先训练好的场景分类模型进行场景分类，输出上述概率分布数据。概率分布数据包括图像帧对应于每一预设场景的概率数据，将其中的最大概率数据可以直接确定为场景质量分。

本申请实施例提供的技术方案，通过对图像帧进行场景检测，可以得到图像帧对应于多个预设场景的概率，将其中的最大概率确定为场景质量分，可以准确地确定图像帧对应的场景质量分，并且效率较高，无需额外的处理步骤。

在另一种可能的实施方式中，至少两个预设场景中的每一个预设场景都对应有预设场景质量分。基于上述最大概率数据可以确定该图像帧对应的目标场景，根据预设场景与预设场景质量分之间的对应关系，可以确定目标场景对应的预设场景质量分，进而将该目标场景对应的预设场景质量分，确定为上述图像帧对应的场景质量分。可选地，上述目标场景是最大概率数据对应的预设场景。

步骤222，对图像帧进行画质检测处理，得到图像帧对应的画质质量分。

可选地，画质质量分表征图像帧的图像质量。

可选地，对图像帧进行画质检测处理，得到图像帧对应的画质信息。上述画质检测处理用于检测图像帧的画面质量。可选的，画质信息包括图像帧对应的分辨率、清晰度、曝光度、亮度等画质参数数据，通过上述各项画质参数数据可以判断图像帧是否存在画面模糊过度曝光，过暗过亮等问题。可选地，基于上述画质信息中至少一种画质参数数据，确定上述画质质量分。比如，对上述分辨率、清晰度、曝光度、亮度等画质参数数据进行融合，得到上述画质质量分。

在一个示例中，如图5所示，其示例性示出了一种画质检测结果的示意图。图5中，图像帧51色彩鲜明、画质清晰；图像帧52较为模糊；图像帧53存在过曝光的问题。因此，上述图像帧51是画质合格的图像帧，可被标记为“√”；上述图像帧52、图像帧53不是不合格的图像帧，可被标记为“×”。相应的，图像帧51对应的画质质量分别高于图像帧52对应的画质质量分和图像帧63对应的画质质量分。

步骤223，对场景质量分和画质质量分进行融合处理，得到整体质量分。

可选地，对场景质量分和画质质量分进行加权平均，得到整体质量分。

可选地，对场景质量分和画质质量分进行叠加，得到整体质量分。

本申请实施例提供的技术方案，通过检测图像帧对应的场景质量分、画质质量分，可以确定图像帧对应的整体质量分，实现了上述全局质量检测，并且上述场景质量分、画质质量分能够准确地表征图像帧整体画面的内容质量，有助于提升上述全局质量检测的准确性。

在一个示例中，如图6所示，其示例性示出了一种全局质量检测流程的示意图。对于输入的图像帧60，分别进行画质检测处理和场景检测处理，并对两种处理得到的结果进行自适应融合，即可输出图像帧50对应的整体质量分。

步骤230，对图像帧进行局部质量检测处理，得到第二检测结果。

上述局部质量检测用于检测图像帧内目标对象的吸引力程度。可选地，上述第二检测结果表征图像帧中目标对象的吸引力程度。可选地，第二检测结果包括目标对象对应的吸引力分数。上述吸引力分数与吸引力程度呈正相关。

在示例性实施例中，如图3所示，上述对图像帧进行局部质量检测处理，得到第二检测结果，可以包括如下步骤(231～233)。

步骤231，对图像帧进行对象识别处理，得到目标对象。

可选地，上述目标对象包括图像帧中的至少一个对象。在一些可能的实施方式中，上述目标对象包括图像帧对应的主体对象。可选地，目标对象对应的对象类型包括但不限于人物、动物、建筑物、物体等，本申请实施例对此不作限定。

在实际应用中，上述对象识别处理的方式有多种，包括但不限于下述方式：

可选地，将图像帧输入对象识别模型进行对象识别，得到上述图像帧对应的目标对象。上述对象识别模型是训练好的对象识别模型，用于识别至少一种对象类型的对象。

可选地，即将图像帧输入至少一个对象识别模型，得到上述图像帧对应的至少一个对象。上述至少一个对象识别模型中的每一对象识别模型用于识别该对象识别模型对应的目标对象类型的对象，通过使用不同类型的对象识别模型进行对象识别，可以有效提升对象识别的丰富度和准确性。

在示例性实施例中，如图7所示，上述对图像帧进行对象识别处理，得到目标对象，可以包括如下步骤(231a～231c)，图7示出了本申请一个实施例提供的视频处理方法的流程图三。

步骤231a，对图像帧进行对象识别处理，得到至少一个对象。

可选地，将图像帧输入预先训练好的对象识别模型进行对象识别，输出上述图像帧中的至少一个对象。

步骤231b，确定至少一个对象对应的对象展示信息。

可选地，对象展示信息包括但不限于：图像面积信息、出现时长信息、中心位置信息、出现次数信息、出现频率信息等展示信息。

步骤231c，基于图像面积信息、出现时长信息中至少一种，对至少一个对象进行主体检测，得到至少一个对象中的主体对象。

可选地，目标对象为主体对象。可选地，根据至少一个对象对应的图像面积信息、出现时长信息、中心位置信息、出现次数信息、出现频率信息等展示信息，对上述至少一个对象进行主体检测，得到主体对象。

在一些可能的实施方式中，根据至少一个对象中每一对象在图像帧中对应的静态展示信息，可以对上述至少一个对象进行排序，得到对象排序结果。可选地，静态展示信息包括图像面积、中心位置等静态展示的信息

可选地，根据每一对象在图像帧中对应的图像面积，对上述至少一个对象进行降序排列，得到对象排序结果。相应的，将对象排序结果中前预设数量个对象确定为目标对象。

可选地，根据每一对象在图像帧中对应的中心位置与图像帧中心位置之间的距离信息，对上述至少一个对象进行升序排列，得到对象排序结果。相应的，将对象排序结果中前预设数量个对象确定为目标对象。

在另一些可能的实施方式中，根据每一对象在目标视频中对应的动态展示信息，对上述至少一个对象进行排序，得到对象排序结果。可选地，动态展示信息包括出现时长、出现次数和出现频率。

可选地，根据每一对象在目标视频中的出现时长，对上述至少一个对象进行降序排列，得到对象排序结果。相应的，将对象排序结果中前预设数量个对象确定为目标对象。

可选地，根据每一对象在目标视频中的出现次数，对上述至少一个对象进行降序排列，得到对象排序结果。相应的，将对象排序结果中前预设数量个对象确定为目标对象。

可选地，根据每一对象在目标视频中的出现频率，对上述至少一个对象进行降序排列，得到对象排序结果。相应的，将对象排序结果中前预设数量个对象确定为目标对象。

在还一些可能的实施方式中，还可以根据每一对象在图像帧中对应的静态展示信息以及每一对象在目标视频中对应的动态展示信息，对上述至少一个对象进行排序，得到对象排序结果。

可选地，根据每一对象对应的图像面积、中心位置、出现时长、出现次数、出现频率中至少一种，确定每一对象对应的主体分数，上述主体分数表征该对象是主体对象的可能性，进而可以根据每一对象对应的主体分数对上述至少一个对象进行降序排序，得到对象排序结果，并将对象排序结果中前预设数量个对象确定为目标对象。

在一些实际应用场景中，视频或视频段中的连续图像帧序列对应的主体对象相同，上述局部质量检测即可基于图像帧对应的主体对象进行，主体对象可通过上述步骤(231a～231c)确定。

在一个示例中，如图8所示，其示例性示出了一种主体检测流程的示意图。图8中，图像帧80经过对象识别之后，得到对象识别结果，其中包括图像帧80中的第一对象81、第二对象82、第三对象83、第四对象84。上述对象识别结果经过主体检测后，可以确定图像帧80对应的主体对象为第一对象81。

本申请提供的技术方案，通过确定图像帧中至少一个对象对应的对象展示信息，如对象所占面积、对象出现时长等，可以检测出至少一个对象中的主体对象，即上述目标对象，从而降低了图像帧中除目标对象之外的其他对象对局部质量检测结果的影响，有助于提升局部质量检测的准确性。

步骤232，对图像帧进行基于目标对象的属性信息提取，得到目标对象对应的对象属性信息。

可选地，对象属性信息包括但不限于对目标对象进行动作检测处理所得到的动作质量分，对目标对象进行面部检测处理所得到的面部质量分。

可选地，动作质量分表征目标对象的动作姿态对应的精彩程度。可选地，面部质量分表征目标对象的面部质量。

相应的，上述局部质量检测处理包括至少一个属性信息提取分支，每个属性信息提取分支用于提取与该分支对应质量分。

在示例性实施例中，对目标对象进行动作检测处理，得到动作质量分。可选地，动作质量分与上述目标对象的动作姿态对应的精彩程度呈正相关。通过动作检测处理，可以有效定位视频中的精彩动作瞬间，比如回眸一笑、羽毛球扣球、篮球上篮等精彩动作。

在实际应用中，上述动作质量分可以根据多种方式确定，包括但不限于以下方式：

可选地，对图像帧进行动作识别处理，得到目标对象对应的目标动作类型；获取预设动作类型与预设质量分之间的对应关系，根据上述对应关系即可确定目标动作类型对应的动作质量分。

可选地，对图像帧进行动作识别处理，得到目标对象属于每个预设动作类型的概率，将最大概率值对应的动作类型确定为目标动作类型，并将该最大概率值确定为上述动作质量分。

可选地，对图像帧进行动作识别处理，得到目标对象对应的位置姿态类型，根据上述位置姿态类型也可以确定上述动作质量分。

在一个示例中，如图9所示，其示例性示出了一种动作识别流程的示意图。图9中，设备基于图像帧90、图像帧91、图像帧92，对图像帧91进行动作识别，可以确定图像帧91对应的动作类型为跳舞，并基于该跳舞的动作类型进行动作质量分析，可以输出图像帧91中目标对象对应的动作质量分。

在示例性实施例中，还可以对目标对象进行面部检测处理，得到面部质量分。

可选地，对目标对象进行面部检测处理，得到目标对象对应的面部信息。可选地，面部信息包括但不限于目标对象的面部区域对应的表情信息、美观程度信息。

在实际应用中，上述面部检测处理可以通过多种方式实现，包括但不限于以下方式：

在一些可能的实施方式中，对目标对象进行表情识别处理，得到目标对象对应的表情信息。可选地，表情信息包括目标对象对应的表情质量分，表情质量分表征目标对象的面部表情对应的吸引力程度。上述表情质量分可以通过多种方式确定，包括但不限于下述方式：

可选地，对目标对象进行表情识别处理，得到目标对象对应的目标表情类型；获取预设表情类型与表情质量分之间的对应关系，基于该对应关系即可确定目标表情类型对应的表情质量分。

可选地，对目标对象进行表情识别处理，得到目标对象对应于每个预设表情类型的概率，将最大概率值对应的表情类型确定为目标表情类型，并将该最大概率确定为表情质量分。具体地，可将目标对象对应的面部区域图像输入表情识别模型进行表情识别处理，即可输出目标对象对应于每个预设表情类型的概率。其中，表情识别模型可以是基于样本面部图像及其对应的表情类型标签进行训练得到的机器学习模型。

可选地，将目标对象对应的面部区域图像输入表情检测模型进行表情检测处理，输出表情质量分。上述表情检测模型可以是基于样本面部图像及其对应的表情质量分标签进行训练得到的机器学习模型。

在另一些可能的实施方式中，对目标对象进行美观度检测处理，得到目标对象对应的美观程度信息。可选地，美观程度信息包括目标对象对应的美观度质量分，美观度质量分表征目标对象面部的美观程度。

可选地，对目标对象进行美观度检测处理，得到目标对象对应的美观度质量分。具体地，可将目标对象对应的面部区域图像输入美观度检测模型进行美观度检测处理，即可输出目标对象对应的美观度质量分。其中，美观度检测模型可以是基于样本面部图像及其对应的美观程度信息标签进行训练得到的机器学习模型。

在一个示例中，如图10所示，其示例性示出了一种面部检测流程的示意图。图10中，图像帧100中包括目标人物对象101，通过对图像帧100进行人脸特征提取处理，可以得到目标人物对象101对应的面部特征信息，面部特征信息具体可以包括目标人物对象101对应的人脸特征点图102和人脸三维网格图103。根据上述面部特征信息中至少一种图可以对目标人物对象101进行属性预测，确定出目标人物对象101对应的面部属性信息如下：性别：女；年龄：18；表情：微笑；颜值(即美观度质量分)：98。基于上述预测出的面部属性信息可以确定目标人物对象101对应的面部质量分。

可选地，基于上述表情质量分、美观度质量分可以确定目标对象对应的面部质量分。

可见，本申请中，将目标对象的动作信息、面部信息中至少一种作为目标对象的属性信息，能够提升上述对象属性信息的丰富度，并且上述目标对象的动作信息和面部信息能够更加准确地表征目标对象的吸引力程度，有助于提升上述对象属性信息的准确性，上述局部质量检测的准确性也随之相应提升。

步骤233，基于对象属性信息，确定吸引力分数。

可选地，基于动作质量分、面部质量分中至少一种，确定吸引力分数。

可选地，将动作质量分确定为吸引力分数；或者，将面部质量分确定为吸引力分数。

可选地，对动作质量分和面部质量分进行融合处理，比如加权平均、叠加等融合处理，得到上述吸引力分数。

本申请实施例提供的技术方案，通过对图像帧进行基于识别出的目标对象的属性信息提取，再基于提取到的对象属性信息即可准确检测出表征目标对象吸引力程度的吸引力分数，从而实现了上述局部质量检测，有效提升了上述局部质量检测的准确性。

另外，本申请实施例提供的技术方案，通过检测目标对象对应的动作质量分、面部质量分中至少一种，可以准确确定目标对象对应的吸引力分数，提升了上述对象属性信息的丰富度，并且上述动作质量分、面部质量分能够准确地表征目标对象的吸引力程度，有助于进一步提升局部质量检测的准确性。

在一个示例中，如图11所示，其示例性示出了一种局部质量检测流程的示意图。在一些应用场景中，局部质量检测主要是检测主体对象的动作行为以及面部表情的精彩程度。主体对象可以是人物，也可以是动物。为了完成局部质量检测，可以首先进行主体检测，以确定当前图像帧内的主体对象，进而进行基于该主体对象的属性信息提取。

在主体对象为人物的情况下，可以分别对图像帧进行基于该人物对象的人物面部检测和人物动作识别，从而确定该图像帧对应的局部质量分(即上述吸引力分数)，以表征该图像帧内主体人物对象的吸引力程度。

在主体对象为动物的情况下，可以分别对图像帧进行基于该动物对象的动物面部检测和动物动作识别，从而确定该图像帧对应的局部质量分，以表征该图像帧内主题动物对象的吸引力程度。

步骤240，基于第一检测结果和第二检测结果，确定图像帧对应的精彩度信息。

可选地，精彩度信息表征图像帧的精彩程度。

可选地，上述第一检测结果包括但不限于图像帧对应的整体质量分；图像帧对应的场景质量分；图像帧对应的画质质量分。

可选地，上述第二检测结果包括但不限于目标对象对应的吸引力分数；目标对象对应的动作质量分；目标对象对应的面部质量分。

相应地，精彩度信息包括但不限于：图像帧对应的精彩度分数，精彩度分数与精彩程度呈正相关；图像帧对应的整体质量分；图像帧对应的场景质量分；图像帧对应的画质质量分；目标对象对应的吸引力分数；目标对象对应的动作质量分；目标对象对应的面部质量分；

上述精彩度分数可以通过多种方式进行确定，包括但不限于以下方式：

对上述整体质量分和吸引力分数进行融合处理，比如加权平均、叠加等融合处理，即可得到图像帧对应的精彩度分数；对上述场景质量分、画质质量分、动作质量分、面部质量分进行融合处理，得到图像帧对应的精彩度分数。

可选地，精彩度信息包括图像帧对应的精彩度等级，基于上述精彩度分数可以确定上述图像帧对应的精彩度等级。

可选地，基于上述各种分数，还可以确定目标视频对应的视频元信息。通过上述视频元信息可以辅助用户检索相应的视频。

步骤250，根据至少一个图像帧中每一图像帧对应的精彩度信息，确定目标图像帧。

可选地，上述目标图像帧是指精彩度信息符合预设精彩度条件的图像帧，即精彩帧。

在一种可能的实施方式中，判断每一图像帧对应的精彩度分数是否大于或等于预设精彩度分数阈值。在图像帧对应的精彩度分数大于或等于预设精彩度分数阈值的情况下，将该图像帧确定为目标图像帧。相应的，预设精彩度条件可以是精彩度分数大于或等于预设精彩度分数阈值。

在另一种可能的实施方式中，判断每一图像帧对应的精彩度等级是否为预设精彩度等级。在图像帧对应的精彩度等级是预设精彩度等级的情况下，将该图像帧确定为目标图像帧。相应的，预设精彩度条件可以是精彩度等级是预设精彩度等级。

通过每一图像帧对应的精彩度信息，可以自动确定目标视频中的精彩帧。

在示例性实施例中，如图3所示，上述方法还包括下述步骤260。

步骤260，将目标图像帧确定为至少一个图像帧所在的视频段中的精彩帧。

上述转场检测实现了对目标视频的分段，那上述至少一个图像帧就可以是一个视频段内的图像帧，从上述视频段内的至少一个图像帧中确定出的目标图像帧，可以作为该视频段中的精彩帧。在此种架构下，对于每一视频段，均可确定段内精彩帧。

可选地，将上述精彩帧确定为视频封面。可选地，将各个视频段内的精彩帧确定为动态视频封面。

本申请实施例提供的技术方案，通过转场检测即可实现对目标视频的分段，并且支持在视频段内确定精彩帧，实现了为各视频段确定段内精彩帧的目标，提升了精彩帧的丰富度和多样性。

在示例性实施例中，如图3所示，上述方法还包括下述步骤(310～360)。

步骤310，确定与目标图像帧相邻的第一相邻帧。

可选地，上述第一相邻帧是与目标图像帧相邻的图像帧，可以是目标图像帧之前的相邻帧，也可以是目标图像帧之后的相邻帧。

可选地，根据预设方向确定与目标图像帧相邻的第一相邻帧。上述预设方向可以是单向也可以是双向。单向可以是前向也可以是后向，本申请实施例对此不作限定。

步骤320，基于第一相邻帧和目标图像帧，确定候选图像帧序列。

可选地，将第一相邻帧和目标图像帧按照原有顺序进行排列，得到上述候选图像帧序列。

步骤330，基于候选图像帧序列中各图像帧分别对应的精彩度信息，确定精彩度分布信息。

步骤340，在精彩度分布信息符合预设精彩度信息分布条件的情况下，确定与候选图像帧序列相邻的第二相邻帧。

可选地，预设精彩度信息分布条件包括下述至少之一：

精彩度分数对应的预设精彩度分数分布条件；整体质量分对应的预设整体质量分分布条件；场景质量分对应的预设场景质量分分布条件；画质质量分对应的预设画质质量分分布条件；吸引力分数对应的预设吸引力分数分布条件；动作质量分对应的预设动作质量分分布条件；面部质量分对应的预设面部质量分分布条件。

对于任一种分布条件，可以包括以下具体分布条件：候选图像帧序列中的所有图像帧对应的分数高于或等于预设分数阈值；候选图像帧序列中目标数量个图像帧对应的分数高于或等于预设分数阈值，目标数量可以根据候选图像帧序列的长度和预设比例自动确定。这里所说的分数可以是上述精彩度信息中的任一种分数，选择哪一种类的分布条件，就判断相应种类的分数。对于精彩片段中精彩度信息分布条件的配置，本申请实施例不作限定，可以根据实际应用场景进行配置。

精彩度信息中的每个分数都有其对应的分布条件，从而可以实现各种维度的精彩帧和精彩片段的确定。比如，想确定精彩度总分最高的精彩片段，就用精彩度分数分布条件，想确定动作精彩片段，就用动作质量分分布条件。

可选地，上述第二相邻帧是指与候选图像帧序列相邻的图像帧。

步骤350，基于第二相邻帧更新候选图像帧序列。

可选地，将上述第二相邻帧添加至上述候选图像帧序列中，实现序列的动态扩充。

步骤360，根据更新后的候选图像帧序列生成精彩片段。

可选地，基于更新后的候选图像帧序列中各图像帧分别对应的精彩度信息，确定更新后的候选图像帧序列对应的精彩度分布信息。

在更新后的候选图像帧序列对应的精彩度分布信息不符合预设精彩度信息分布条件的情况下，基于更新前的候选图像帧序列生成精彩片段。这就说明新加入的第二相邻帧之后是导致更新后的候选图像帧序列对应的精彩度分布信息不符合预设精彩度信息分布条件的原因，这也就说明当前已经定位出精彩片段的最大图像帧范围，在此情况下，将新加入的第二相邻帧从候选图像帧序列中移除，即可得到更新前的候选图像帧序列，即精彩片段。

在更新后的候选图像帧序列对应的精彩度分布信息符合预设精彩度信息分布条件的情况下，重新确定第二相邻帧，并从上述步骤350开始执行。

可选地，在上述候选图像帧序列停止变化的情况下，从目标视频中截取上述候选图像帧序列并进行编码渲染，即可生成上述精彩片段。

本申请实施例提供的技术方案，以目标图像帧为起点在视频中动态查找并扩张候选图像帧序列，再通过判断候选图像帧序列对应的精彩度分布信息是否符合预设精彩度信息分布条件，即可定位出相关的精彩片段，提有效升了精彩片段剪辑效率和生成效率。

并且，在上述步骤260中，可以得到每个视频段对应的精彩帧，依据上述动态查找的方法，即可确定每一视频段对应的精彩片段，实现了在各视频段中剪辑生成精彩片段的效果，提升了精彩片段的多样性和精确性。另外，本申请中针对每个视频段选取精彩帧和视频片段，还可以有效降低重复推荐和相似推荐的频率。

可选地，对每各视频段对应的精彩片段进行合成处理，得到合成精彩片段。

对于一些实际应用场景，如社交应用场景，用户想将拍摄视频中的精彩片段剪辑成合集发上传至社交网络中，若使用视频编辑软件进行剪辑，复杂度较高；但应用本申请提供的技术方案，可以自动剪辑生成精彩片段，根据上述精彩片段还可以生成合成精彩片段，有效提升了精彩视频片段的确定效率。

在一个示例中，如图12所示，其示例性示出了一种确定视频中精彩帧与精彩片段的技术框架示意图。对于待剪辑的视频序列120，基于转场检测进行视频剪切，从而将视频序列剪切为多个内容自洽的子片段，分别是视频段121、视频段122和视频段123；接着，通过对各个视频段进行视频内容质量检测，可以确定每个视频段对应的精彩帧。如图12所示，精彩帧1211是视频段121对应的精彩帧；精彩帧1221是视频段122对应的精彩帧；精彩帧1231是视频段123对应的精彩帧。

上述视频内容质量检测主要包括全局质量检测和局部质量检测，为精彩帧或精彩片段的决策提供线索和依据。在全局质量检测中，相关人员可以根据实际需求选择画质检测、场景识别中至少一种检测分支，并且支持在全局质量检测中添加检测分支。在局部质量检测中，相关人员可以根据实际需求选择主体检测、面部检测、动作识别中至少一种检测分支，并且也支持在局部质量检测中添加检测分支。上述视频内容质量检测结束后，可以根据视频内容质量检测中各项检测分支的检测结果进行多维度决策，从而确定个视频段对应的精彩帧。可见，该种架构下，全局质量检测和局部质量检测的检测维度具有高扩展性，

上述精彩帧确定之后，可以根据精彩帧以及精彩帧附近的邻近帧的检测结果，将精彩帧扩展，得到各精彩帧对应的精彩片段。如图12所示，精彩片段1212是视频段121中的精彩片段；精彩片段1222是视频段122中的精彩片段；精彩片段1232是视频段123对应的精彩片段。

综上所述，本申请实施例提供的技术方案，对于从视频中提取出的每一图像帧，分别进行全局质量检测和局部质量检测，可以得到表征图像帧的整体画面质量的第一检测结果，以及表征图像帧中目标对象吸引力程度的第二检测结果，基于上述两种检测结果可以综合确定每一图像帧的精彩程度，进而可以根据每一图像帧的精彩程度在上述提取出的图像帧中自动确定出目标图像帧，有效降低了确定目标视频帧的复杂度，提升了目标图像帧的确定效率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。另外，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图13，其示出了本申请一个实施例提供的视频处理装置的框图。该装置具有实现上述视频处理方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1300可以包括：图像帧提取模块1310、第一检测模块1320、第二检测模块1330、精彩度信息确定模块1340和目标帧确定模块1350。

图像帧提取模块1310，用于提取目标视频中的至少一个图像帧；

第一检测模块1320，用于针对所述至少一个图像帧中的每一图像帧，对所述图像帧进行全局质量检测处理，得到第一检测结果，所述第一检测结果表征所述图像帧对应的整体画面的内容质量；

第二检测模块1330，用于对所述图像帧进行局部质量检测处理，得到第二检测结果，所述第二检测结果表征所述图像帧中目标对象的吸引力程度；

精彩度信息确定模块1340，用于基于所述第一检测结果和所述第二检测结果，确定所述图像帧对应的精彩度信息，所述精彩度信息表征所述图像帧的精彩程度；

目标帧确定模块1350，用于根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧。

在一个可能的设计中，所述第二检测结果包括所述目标对象对应的吸引力分数，所述吸引力分数与所述吸引力程度呈正相关，所述第二检测模块1330，包括：

对象识别单元，用于对所述图像帧进行对象识别处理，得到所述目标对象；

属性信息提取单元，用于对所述图像帧进行基于所述目标对象的属性信息提取，得到所述目标对象对应的对象属性信息；

吸引力分数确定单元，用于基于所述对象属性信息，确定所述吸引力分数。

在一个可能的设计中，所述对象属性信息包括下述至少之一：

对所述目标对象进行动作检测处理所得到的动作质量分，所述动作质量分表征所述目标对象的动作姿态对应的精彩程度；

对所述目标对象进行面部检测处理所得到的面部质量分，所述面部质量分表征所述目标对象的面部质量；

所述吸引力分数确定单元，具体用于基于所述动作质量分、所述面部质量分中至少一种，确定所述吸引力分数。

在一个可能的设计中，所述对象识别单元，包括：

对象识别子单元，用于对所述图像帧进行对象识别处理，得到至少一个对象；

展示信息确定子单元，用于确定所述至少一个对象对应的对象展示信息，所述对象展示信息包括图像面积信息、出现时长信息中至少一种；

主体检测子单元，用于基于所述图像面积信息、所述出现时长信息中至少一种，对所述至少一个对象进行主体检测，得到所述至少一个对象中的主体对象，所述目标对象为所述主体对象。

在一个可能的设计中，所述第一检测结果包括所述图像帧对应的整体质量分，所述整体质量分与所述内容质量呈正相关，所述第一检测模块，包括：

场景质量分确定单元，用于对所述图像帧进行场景检测处理，得到所述图像帧对应的场景质量分，所述场景质量分表征所述图像帧中的画面场景对应的精彩程度；

画质质量分确定单元，对所述图像帧进行画质检测处理，得到所述图像帧对应的画质质量分，所述画质质量分表征所述图像帧的图像质量；

整体质量分确定单元，用于对所述场景质量分和所述画质质量分进行融合处理，得到所述整体质量分。

在一个可能的设计中，所述场景质量分确定单元，包括：

概率确定子单元，用于对所述图像帧进行场景检测处理，得到所述图像帧对应于至少两个预设场景的概率分布数据；

场景质量分确定子单元，用于将所述概率分布数据中的最大概率数据确定为所述场景质量分。

在一个可能的设计中，所述图像帧提取模块1310，包括：

视频段确定单元，用于对所述目标视频进行转场检测处理，得到所述目标视频对应的至少一个视频段；

图像帧提取单元，用于针对每一所述视频段，提取所述视频段中的至少一个图像帧；所述装置还包括：

精彩帧确定单元，用于将所述目标图像帧确定为所述至少一个图像帧所在的视频段中的精彩帧。

在一个可能的设计中，所述装置1300还包括：

相邻帧确定模块，用于确定与所述目标图像帧相邻的第一相邻帧；

候选序列确定模块，用于基于所述第一相邻帧和所述目标图像帧，确定候选图像帧序列；

精彩度分布确定模块，用于基于所述候选图像帧序列中各图像帧分别对应的精彩度信息，确定精彩度分布信息；

所述相邻帧确定模块，还用于在所述精彩度分布信息符合预设精彩度信息分布条件的情况下，确定与所述候选图像帧序列相邻的第二相邻帧；

候选序列更新模块，用于基于所述第二相邻帧更新所述候选图像帧序列；

精彩片段生成模块，用于根据更新后的所述候选图像帧序列生成精彩片段。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

请参考图14，其示出了本申请一个实施例提供的计算机设备的结构框图一。该计算机设备可以是终端。该计算机设备用于实施上述实施例中提供的视频处理方法。具体来讲：

通常，计算机设备1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集，且经配置以由一个或者一个以上处理器执行，以实现上述视频处理方法。

在一些实施例中，计算机设备1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、触摸显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

本领域技术人员可以理解，图14中示出的结构并不构成对计算机设备1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图15，其示出了本申请另一个实施例提供的计算机设备的结构框图二。该计算机设备可以是服务器，以用于执行上述视频处理方法。具体来讲：

计算机设备1500包括中央处理单元(Central Processing Unit，CPU)1501、包括随机存取存储器(Random Access Memory，RAM)1502和只读存储器(Read Only Memory，ROM)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。计算机设备1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1506，和用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。大容量存储设备1507及其相关联的计算机可读介质为计算机设备1500提供非易失性存储。也就是说，大容量存储设备1507可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

根据本申请的各种实施例，计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1500可以通过连接在系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述视频处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述视频处理方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方法。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

提取目标视频中的至少一个图像帧；

针对所述至少一个图像帧中的每一图像帧，对所述图像帧进行全局质量检测处理，得到第一检测结果，所述第一检测结果表征所述图像帧对应的整体画面的内容质量；

对所述图像帧进行局部质量检测处理，得到第二检测结果，所述第二检测结果表征所述图像帧中目标对象的吸引力程度；

基于所述第一检测结果和所述第二检测结果，确定所述图像帧对应的精彩度信息，所述精彩度信息表征所述图像帧的精彩程度；

根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧。

2.根据权利要求1所述的方法，其特征在于，所述第二检测结果包括所述目标对象对应的吸引力分数，所述吸引力分数与所述吸引力程度呈正相关，所述对所述图像帧进行局部质量检测处理，得到第二检测结果，包括：

对所述图像帧进行对象识别处理，得到所述目标对象；

对所述图像帧进行基于所述目标对象的属性信息提取，得到所述目标对象对应的对象属性信息；

基于所述对象属性信息，确定所述吸引力分数。

3.根据权利要求2所述的方法，其特征在于，所述对象属性信息包括下述至少之一：

所述基于所述对象属性信息，确定所述吸引力分数，包括：

基于所述动作质量分、所述面部质量分中至少一种，确定所述吸引力分数。

4.根据权利要求2或3所述的方法，其特征在于，所述对所述图像帧进行对象识别处理，得到所述目标对象，包括：

对所述图像帧进行对象识别处理，得到至少一个对象；

确定所述至少一个对象对应的对象展示信息，所述对象展示信息包括图像面积信息、出现时长信息中至少一种；

基于所述图像面积信息、所述出现时长信息中至少一种，对所述至少一个对象进行主体检测，得到所述至少一个对象中的主体对象，所述目标对象为所述主体对象。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述第一检测结果包括所述图像帧对应的整体质量分，所述整体质量分与所述内容质量呈正相关，所述对所述图像帧进行全局质量检测处理，得到第一检测结果，包括：

对所述图像帧进行场景检测处理，得到所述图像帧对应的场景质量分，所述场景质量分表征所述图像帧中的画面场景对应的精彩程度；

对所述图像帧进行画质检测处理，得到所述图像帧对应的画质质量分，所述画质质量分表征所述图像帧的图像质量；

对所述场景质量分和所述画质质量分进行融合处理，得到所述整体质量分。

6.根据权利要求5所述的方法，其特征在于，所述对所述图像帧进行场景检测处理，得到所述图像帧对应的场景质量分，包括：

对所述图像帧进行场景检测处理，得到所述图像帧对应于至少两个预设场景的概率分布数据；

将所述概率分布数据中的最大概率数据确定为所述场景质量分。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述提取目标视频中的至少一个图像帧，包括：

对所述目标视频进行转场检测处理，得到所述目标视频对应的至少一个视频段；

针对每一所述视频段，提取所述视频段中的至少一个图像帧；

所述根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧之后，所述方法还包括：

将所述目标图像帧确定为所述至少一个图像帧所在的视频段中的精彩帧。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧之后，所述方法还包括：

确定与所述目标图像帧相邻的第一相邻帧；

基于所述第一相邻帧和所述目标图像帧，确定候选图像帧序列；

基于所述候选图像帧序列中各图像帧分别对应的精彩度信息，确定精彩度分布信息；

在所述精彩度分布信息符合预设精彩度信息分布条件的情况下，确定与所述候选图像帧序列相邻的第二相邻帧；

基于所述第二相邻帧更新所述候选图像帧序列；

根据更新后的所述候选图像帧序列生成精彩片段。

9.一种视频处理装置，其特征在于，所述装置包括：

图像帧提取模块，用于提取目标视频中的至少一个图像帧；

第一检测模块，用于针对所述至少一个图像帧中的每一图像帧，对所述图像帧进行全局质量检测处理，得到第一检测结果，所述第一检测结果表征所述图像帧对应的整体画面的内容质量；

第二检测模块，用于对所述图像帧进行局部质量检测处理，得到第二检测结果，所述第二检测结果表征所述图像帧中目标对象的吸引力程度；

精彩度信息确定模块，用于基于所述第一检测结果和所述第二检测结果，确定所述图像帧对应的精彩度信息，所述精彩度信息表征所述图像帧的精彩程度；

目标帧确定模块，用于根据所述至少一个图像帧中每一所述图像帧对应的精彩度信息，确定目标图像帧。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的视频处理方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的视频处理方法。