CN111836073B

CN111836073B - 视频清晰度的确定方法、装置、设备及存储介质

Info

Publication number: CN111836073B
Application number: CN202010664954.8A
Authority: CN
Inventors: 张�浩; 赵丽丽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2022-02-22
Anticipated expiration: 2040-07-10
Also published as: CN111836073A

Abstract

本申请公开了视频清晰度的确定方法、装置、设备及存储介质。方法包括：获取目标视频对应的至少一个视频帧图像；对于至少一个视频帧图像中的任一视频帧图像，提取任一视频帧图像的纹理特征和语义特征；基于任一视频帧图像的纹理特征和语义特征，确定任一视频帧图像对应的清晰度结果；基于至少一个视频帧图像分别对应的清晰度结果，确定目标视频对应的清晰度结果。在确定视频帧图像对应的清晰度结果的过程中，综合考虑视频帧图像在纹理方面的特征和在语义方面的特征，考虑的方面较全面，有利于提高视频帧图像对应的清晰度结果的准确度，从而提高根据视频帧图像对应的清晰度结果确定的目标视频对应的清晰度结果的准确度。

Description

视频清晰度的确定方法、装置、设备及存储介质

技术领域

本申请实施例涉及多媒体技术领域，特别涉及一种视频清晰度的确定方法、装置、设备及存储介质。

背景技术

随着多媒体技术的快速发展，衍生出越来越多的应用程序或者网页能够播放视频供用户观看。视频的清晰度是影响用户观看体验的关键指标，确定视频的清晰度能够评估视频的质量并为用户推荐合适的视频。通常情况下，视频的清晰度根据该视频中的视频帧图像的清晰度确定。

相关技术中，根据视频帧图像的纹理特征得到视频帧图像对应的清晰度结果，进而根据视频帧图像对应的清晰度结果确定视频对应的清晰度结果。在此种视频清晰度的确定过程中，仅考虑视频帧图像在纹理方面的特征，考虑的方面较局限，视频帧图像对应的清晰度结果的准确度较低，导致根据视频帧图像对应的清晰度结果所确定出的视频对应的清晰度结果的准确度不高。

发明内容

本申请实施例提供了一种视频清晰度的确定方法、装置、设备及存储介质，可用于视频清晰度的确定效果。所述技术方案如下：

一方面，本申请实施例提供了一种视频清晰度的确定方法，所述方法包括：

获取目标视频对应的至少一个视频帧图像；

对于所述至少一个视频帧图像中的任一视频帧图像，提取所述任一视频帧图像的纹理特征和语义特征；基于所述任一视频帧图像的纹理特征和语义特征，确定所述任一视频帧图像对应的清晰度结果；

基于所述至少一个视频帧图像分别对应的清晰度结果，确定所述目标视频对应的清晰度结果。

另一方面，提供了一种视频清晰度的确定装置，所述装置包括：

第一获取单元，用于获取目标视频对应的至少一个视频帧图像；

特征提取单元，用于对于所述至少一个视频帧图像中的任一视频帧图像，提取所述任一视频帧图像的纹理特征和语义特征；

第一确定单元，用于基于所述任一视频帧图像的纹理特征和语义特征，确定所述任一视频帧图像对应的清晰度结果；

第二确定单元，用于基于所述至少一个视频帧图像分别对应的清晰度结果，确定所述目标视频对应的清晰度结果。

在一种可能实现方式中，所述特征提取单元，用于调用目标纹理特征提取模型提取所述任一视频帧图像的纹理特征；调用目标语义特征提取模型提取所述任一视频帧图像的语义特征；

所述第一确定单元，用于基于所述任一视频帧图像的纹理特征和语义特征，获取所述任一视频帧图像的目标特征；调用目标清晰度评估模型对所述任一视频帧图像的目标特征进行评估处理，得到所述任一视频帧图像对应的清晰度结果。

在一种可能实现方式中，所述目标纹理特征提取模型包括至少一个依次连接的纹理子特征提取模型；所述特征提取单元，还用于将所述任一视频帧图像输入所述目标纹理特征提取模型中的第一个纹理子特征提取模型，得到所述任一视频帧图像的第一个纹理子特征；将所述第一个纹理子特征输入所述目标纹理特征提取模型中的第二个纹理子特征提取模型，得到所述第二个纹理子特征提取模型输出的所述任一视频图像的第二个纹理子特征，以此类推，将前一个纹理子特征提取模型输出的纹理子特征输入下一个纹理子特征提取模型，得到下一个纹理子特征提取模型输出的纹理子特征，直至得到最后一个纹理子特征提取模型输出的纹理子特征；将所述任一视频帧图像的各个纹理子特征进行拼接处理，得到所述任一视频帧图像的纹理特征。

在一种可能实现方式中，所述第二确定单元，用于基于所述至少一个视频帧图像分别对应的清晰度结果，在所述至少一个视频帧图像中确定至少一个代表图像；基于所述至少一个代表图像分别对应的清晰度结果，确定所述目标视频对应的清晰度结果。

在一种可能实现方式中，所述第二确定单元，还用于确定所述目标视频的视频类型，查询与所述目标视频的视频类型对应的目标配置参数；基于所述至少一个视频帧图像分别对应的清晰度结果，对所述至少一个视频帧图像进行排序；基于排序后的至少一个视频帧图像，得到满足选取条件的至少一个视频帧图像集；基于所述目标配置参数，在所述至少一个视频帧图像集中确定满足参考条件的目标视频帧图像集，将所述目标视频帧图像集中的至少一个目标视频帧图像作为代表图像。

在一种可能实现方式中，所述第二确定单元，还用于对于所述至少一个视频帧图像集中的任一视频帧图像集，将所述任一视频帧图像集中的视频帧图像的数量与所述至少一个视频帧图像的数量的比值作为所述任一视频帧图像集对应的选取比例值；基于所述任一视频帧图像集中的各个视频帧图像分别对应的清晰度结果，确定所述任一视频帧图像集对应的清晰度差异值，将所述任一视频帧图像集对应的清晰度差异值和所述目标配置参数的乘积作为所述任一视频帧图像集对应的选取差异值；将所述任一视频帧图像集对应的选取差异值与所述任一视频帧图像集对应的选取比例值的差值作为所述任一视频帧图像集对应的目标函数值；在至少一个视频帧图像集分别对应的目标函数值中，确定最小的目标函数值；将所述最小的目标函数值对应的视频帧图像集作为目标视频帧图像集。

在一种可能实现方式中，所述装置还包括：

第二获取单元，用于获取第一训练图像集目标语义特征提取模型，所述第一训练图像集包括至少一个第一训练图像和所述至少一个第一训练图像分别对应的标准清晰度结果；

训练单元，用于基于所述至少一个第一训练图像、所述至少一个第一训练图像分别对应的标准清晰度结果和所述目标语义特征提取模型，对第一纹理特征提取模型和第一清晰度评估模型进行训练，得到目标纹理特征提取模型和目标清晰度评估模型。

在一种可能实现方式中，所述第二获取单元，还用于获取语义图像集，所述语义图像集包括至少一个语义图像和所述至少一个语义图像分别对应的标准语义结果；

所述训练单元，还用于基于所述至少一个语义图像和所述至少一个语义图像分别对应的标准语义结果，对第一语义特征提取模型进行训练，得到目标语义特征提取模型。

在一种可能实现方式中，所述第二获取单元，还用于获取待标注图像和至少一个边界图像集，任一边界图像集由至少一种目标类型的边界图像构成，各个边界图像集分别对应一种清晰度边界，不同的边界图像集对应不同的清晰度边界；

所述装置还包括：

第三确定单元，用于响应于所述待标注图像的类型为所述至少一种目标类型中的任一目标类型，将任一边界图像集中所述任一目标类型的边界图像作为所述任一边界图像集中的待比对图像；将所述待标注图像与所述任一边界图像集中的待比对图像的比对结果作为所述待标注图像与所述任一边界图像集对应的清晰度边界的比对结果；基于所述待标注图像与各个边界图像集对应的清晰度边界的比对结果，确定所述待标注图像对应的标准清晰度结果，将具有标准清晰度结果的待标注图像作为第一训练图像。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的视频清晰度的确定方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的视频清晰度的确定方法。

另一方面，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述任一所述的视频清晰度的确定方法。

本申请实施例提供的技术方案至少带来如下有益效果：

在确定视频帧图像对应的清晰度结果的过程中，综合考虑视频帧图像在纹理方面的特征和在语义方面的特征，考虑的方面较全面，有利于提高视频帧图像对应的清晰度结果的准确度，从而提高根据视频帧图像对应的清晰度结果确定的目标视频对应的清晰度结果的准确度，视频清晰度的确定效果较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频清晰度的确定方法的实施环境的示意图；

图2是本申请实施例提供的一种视频清晰度的确定方法的流程图；

图3是本申请实施例提供的一种确定至少一个代表图像的实现过程的流程图；

图4是本申请实施例提供的一种确定目标视频帧图像集的实现过程的流程图；

图5是本申请实施例提供的一种视频清晰度的确定装置的示意图；

图6是本申请实施例提供的一种视频清晰度的确定装置的示意图；

图7是本申请实施例提供的一种服务器的结构示意图；

图8是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的计算机视觉技术。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像修复、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供了一种视频清晰度的确定方法，请参考图1，其示出了本申请实施例提供的视频清晰度的确定方法的实施环境的示意图。该实施环境包括：终端11和服务器12。

其中，终端11安装有能够播放视频的应用程序或者网页，在利用该应用程序或者网页播放视频之前，终端可以获取待播放的视频，然后应用本申请实施例提供的方法确定视频对应的清晰度结果。服务器12可以对视频进行存储，终端11可以从服务器12中获取需要确定清晰度的视频。当然，终端11上也可以对获取的视频以及确定的视频对应的清晰度结果进行存储。

在一种可能实现方式中，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种视频清晰度的确定方法，以该方法应用于终端11为例。如图2所示，本申请实施例提供的方法包括如下步骤：

在步骤201中，获取目标视频对应的至少一个视频帧图像。

目标视频是指需要确定清晰度的任一视频。本申请实施例对目标视频的种类、时长、格式等都不加以限定，示例性地，目标视频可以是广告类视频，也可以是短视频平台上传的各类短视频，还可以是剧集、电影等长视频。示例性地，目标视频可以是MPG(MovingPictures Experts Group，动态图像专家组)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)、RM(RealMedia，实时媒介)、RMVB(RealMediaVariable Bitrate，实时媒介可变比特率)、AVI(Audio Video Interleaved，音频视频交错)格式的视频文件，也可以是其他格式的视频文件。

视频中包含有视频帧，例如，对于一个帧率为30FPS(Frames Per Second，每秒传输帧数)的视频而言，按照正常的视频播放速度，1秒时长的视频中可以拆分出30个视频帧。每个视频帧均可以视为一个视频帧图像。目标视频对应的至少一个视频帧图像是指用于确定目标视频的清晰度所需的视频帧图像。目标视频对应的至少一个视频帧图像可以是指目标视频中的全部视频帧图像，也可以是指从目标视频中的全部视频帧图像中筛选出的部分视频帧图像，本申请实施例对此不加以限定。

在一种可能实现方式中，对于目标视频对应的至少一个视频帧图像是指目标视频中的全部视频帧图像的情况，获取目标视频对应的至少一个视频帧图像的方式为：对目标视频进行解析，得到视频帧图像；将解析得到的全部视频帧图像均作为目标视频对应的至少一个视频帧图像。

在一种可能实现方式中，对目标视频进行解析，得到视频帧图像的过程为：根据目标视频对应的解码方式对目标视频进行解码处理，得到目标视频的数据流；根据目标视频的数据流获取各帧的图像数据；采用图像编码方式对各帧的图像数据进行图像编码处理，得到视频帧图像。目标视频对应的解码方式与目标视频对应的编码方式有关，本申请实施例对此不加以限定。图像编码方式可以根据图像的格式进行设置，示例性地，图像编码方式为JPEG(Joint Photographic Experts Group，联合图像专家组)格式对应的编码方式，或者PNG(Portable Network Graphics，便携式网络图像)格式对应的编码方式等。

在一种可能实现方式中，对于目标视频对应的至少一个视频帧图像是指从目标视频中的全部视频帧图像中筛选出的部分视频帧图像的情况，获取目标视频对应的至少一个视频帧图像的方式为：对目标视频进行解析，在解析得到的全部视频帧图像中选取满足筛选条件的视频帧图像作为目标视频对应的至少一个视频帧图像。

在一种可能实现方式中，在解析得到的全部视频帧图像中选取满足筛选条件的视频帧图像作为目标视频对应的至少一个视频帧图像是指在解析得到的全部视频帧图像中选取关键帧图像作为目标视频对应的至少一个视频帧图像。

关键帧图像是能描述视频关键内容的图像，通常指角色或者物体运动或变化中的关键动作所在的图像。在目标视频中，一小段时长的子视频中的视频帧图像与视频帧图像之间的内容变化不太大，所以能够提取最有代表性的一个或多个视频帧图像作为该子视频中的关键帧图像。然后将目标视频划分成的各个子视频中的关键帧图像综合起来作为目标视频对应的至少一个视频帧图像。本申请实施例对子视频的时长不加以限定，示例性地，子视频的时长为1秒。

关键帧图像的选取方式根据经验设置，也可以根据应用场景灵活调整，本申请实施例对此不加以限定。示例性地，常见的关键帧图像的选取方式有：基于镜头边界选取关键帧图像、基于运动分析选取关键帧图像、基于聚类选取关键帧图像等。在一种可能实现方式中，采用哪种关键帧图像的选取方式可以根据目标视频的内容确定。示例性地，对于视频内容相对简单、场景比较固定或者镜头活动较少的情况，可以采用基于镜头边界选取关键帧图像的方式选取关键帧图像，也就是将每个子视频中的首帧图像、中间帧图像和末尾帧图像中的一个或多个作为关键帧图像。示例性地，对于视频内容相对复杂的情况，可以采用基于聚类选取关键帧图像的方式选取关键帧图像，也就是通过聚类分析将子视频中的视频帧图像分成若干类，选取最靠近聚类中心的视频帧图像作为该子视频中的关键帧图像。

在步骤202中，对于至少一个视频帧图像中的任一视频帧图像，提取任一视频帧图像的纹理特征和语义特征；基于任一视频帧图像的纹理特征和语义特征，确定任一视频帧图像对应的清晰度结果。

目标视频对应的至少一个视频帧图像是指用于确定目标视频的清晰度的视频帧图像。目标视频的清晰度是通过目标视频对应的至少一个视频帧图像的清晰度确定的。因此，在确定目标视频的清晰度之前，需要先确定各个视频帧图像的清晰度。任一视频帧图像对应的清晰度结果是指用于指示任一视频帧图像的清晰度的结果。因此，确定各个视频帧图像的清晰度的过程即为确定各个视频帧图像分别对应的清晰度结果的过程。

需要说明的是，确定每个视频帧图像对应的清晰度结果的过程均为类似的过程，在步骤202中，以至少一个视频帧图像中的任一视频帧图像为例，说明确定任一视频帧图像对应的清晰度结果的过程。

对于至少一个视频帧图像中的任一视频帧图像，确定该任一视频帧图像对应的清晰度结果的过程包括以下步骤2021和步骤2022：

步骤2021：提取任一视频帧图像的纹理特征和语义特征。

纹理特征用于指示任一视频帧图像在纹理方面的特征。纹理是一种反映图像中同质现象的视觉特征，纹理体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理具有三大标志：某种局部序列性不断重复、非随机排列、纹理区域内大致为均匀的统一体。纹理通过像素及其周围空间邻域的灰度分布来表现。

语义特征用于指示任一视频帧图像在语义方面的特征。在确定视频帧图像的清晰度的应用场景中，语义方面的特征是举足轻重的。例如，对于人物物体类的图像，视觉感受清晰的条件通常是人物或者物体的细节丰富且边缘锐利，如眼睫毛都清晰可数，而细节模糊不清则容易导致不清晰的视觉感受。但是对于大海、天空、云海、山雾等风景图像而言，视觉感受清晰的图像普遍存在细节不丰富且缺乏锐利边缘的特点。也就是说，对于不同的图像语义场景，纹理特征所包含的清晰度感受是不同的。在纹理特征的基础上增加考虑语义特征，能够较为准确地判断各种类型的图像的清晰度。

在一种可能实现方式中，提取任一视频帧图像的纹理特征和语义特征的方式为：调用目标纹理特征提取模型提取任一视频帧图像的纹理特征；调用目标语义特征提取模型提取任一视频帧图像的语义特征。

目标纹理特征提取模型用于提取图像的纹理特征，将任一视频帧图像输入目标纹理特征提取模型，能够得到目标纹理特征提取模型提取的任一视频帧图像的纹理特征。目标语义特征提取模型用于提取图像的语义特征，将任一视频帧图像输入目标语义特征提取模型，能够得到目标语义特征提取模型提取的任一视频帧图像的语义特征。

目标纹理特征提取模型和目标语义特征提取模型均为训练得到的特征提取模型。在一种可能实现方式中，目标纹理特征提取模型和目标语义特征提取模型为预先训练得到的，以便于在需要提取视频帧图像的纹理特征和语义特征时，直接调用训练好的目标纹理特征提取模型和目标语义特征提取模型实现特征提取过程，减少特征提取过程的耗时。

训练得到目标纹理特征提取模型和目标语义特征提取的过程可以由服务器执行，也可以由终端执行，本申请实施例对此不加以限定。当训练得到目标纹理特征提取模型和目标语义特征提取模型的过程由服务器执行时，终端从服务器中获取目标纹理特征提取模型和目标语义特征提取模型，用来提取视频帧图像的纹理特征和语义特征。当训练得到目标纹理特征提取模型和目标语义特征提取模型的过程由终端执行时，终端直接从本地提取目标纹理特征提取模型和目标语义特征提取模型，用来提取视频帧图像的纹理特征和语义特征。

本申请实施例对目标纹理特征提取模型的模型结构不加以限定，只要能够提取图像的纹理特征即可。示例性地，目标纹理特征提取模型的模型结构为ResNet(ResidualNetwork，残差网络)结构。本申请实施例对目标语义特征提取模型的模型结构也不加以限定，只要能够提取图像的语义特征即可。示例性地，目标语义特征提取模型的模型结构为任一种CNN(Convolutional Neural Networks，卷积神经网络)结构。

在一种可能实现方式中，目标纹理特征提取模型包括至少一个依次连接的纹理子特征提取模型。通过至少一个依次连接的纹理子特征提取模型提取的纹理特征能够更加全面的代表视频帧图像在纹理方面的特征。在一种可能实现方式中，当目标纹理特征提取模型包括至少一个依次连接的纹理子特征提取模型时，调用目标纹理特征提取模型提取任一视频帧图像的纹理特征的过程包括以下步骤1至步骤3：

步骤1：将任一视频帧图像输入目标纹理特征提取模型中的第一个纹理子特征提取模型，得到任一视频帧图像的第一个纹理子特征。

在通过至少一个依次连接的纹理子特征提取模型提取任一视频帧图像的纹理特征的过程中，先将任一视频帧图像输入目标纹理特征提取模型中的第一个纹理子特征提取模型，第一个纹理子特征提取模型提取任一视频帧图像最底层的纹理特征，将第一纹理子特征提取模型提取的纹理特征作为任一视频帧图像的第一个纹理子特征。

步骤2：将第一个纹理子特征输入目标纹理特征提取模型中的第二个纹理子特征提取模型，得到第二个纹理子特征提取模型输出的任一视频帧图像的第二个纹理子特征，以此类推，将前一个纹理子特征提取模型输出的纹理子特征输入下一个纹理子特征提取模型，得到下一个纹理子特征提取模型输出的纹理子特征，直至得到最后一个纹理子特征提取模型输出的纹理子特征。

在得到任一视频帧图像的第一个纹理子特征后，将第一个纹理子特征输入目标纹理特征提取模型中的第二纹理子特征提取模型，第二个纹理子特征提取模型根据任一视频帧图像的第一个纹理子特征提取任一视频帧图像较高层次的纹理特征，将第二个纹理子特征提取模型提取的纹理特征作为任一视频帧图像的第二个纹理子特征。

也就是说，将前一个纹理子特征提取模型输出的纹理子特征输入下一个纹理子特征提取模型，得到下一个纹理子特征提取模型输出的纹理子特征。循环此过程，直至得到最后一个纹理子特征提取模型输出的纹理子特征。最后一个纹理子特征提取模型输出的纹理子特征即为任一视频帧图像的最后一个纹理子特征。

在得到任一视频帧图像的第二个纹理子特征后，若目标纹理特征提取模型中包括除第一个纹理子特征提取模型和第二个纹理子特征提取模型外的其他纹理子特征提取模型，将任一视频帧图像的第二个纹理子特征输入目标纹理特征提取模型中的第三个纹理子特征提取模型，得到第三个纹理子特征提取模型提取的任一视频帧图像的第三个纹理子特征；将第三个纹理子特征输入目标纹理特征提取模型中的第四个纹理子特征提取模型，循环上述过程，直至得到目标纹理特征提取模型中的最后一个纹理子特征提取模型输出的任一视频帧图像的最后一个纹理子特征。

在上述步骤1和步骤2的实现过程中，每个纹理子特征提取模型均提取任一视频帧图像的一个纹理子特征。排序靠后的纹理子特征提取模型的纹理特征提取过程依赖于前一个纹理子特征提取模型提取的纹理特征。因此，排序靠后的纹理子特征提取模型提取的纹理特征比排序靠前的纹理子特征提取模型提取的纹理特征具有更高的层次，涵盖更多的信息。

步骤3：将任一视频帧图像的各个纹理子特征进行拼接处理，得到任一视频帧图像的纹理特征。

经过步骤1和步骤2，能够得到任一视频帧图像的各个纹理子特征，任一视频帧图像的各个纹理子特征能够表示任一视频帧图像在不同层次的纹理特征。在得到任一视频帧图像的各个纹理子特征后，将任一视频帧图像的各个纹理子特征进行拼接处理，得到任一视频帧图像的纹理特征。本申请实施例对将任一视频帧图像的各个纹理子特征进行拼接处理的方式不加以限定，示例性地，将任一视频帧图像的各个纹理子特征进行横向拼接。

需要说明的是，以上步骤1至步骤3仅为在目标纹理特征提取模型包括至少一个依次连接的纹理子特征提取模型的情况下，调用目标纹理特征提取模型提取任一视频帧图像的纹理特征的一种示例性描述。在示例性实施例中，在目标纹理特征提取模型包括至少一个依次连接的纹理子特征提取模型的情况下，还可以通过其他方式调用目标纹理特征提取模型提取任一视频帧图像的纹理特征。示例性地，调用目标纹理特征提取模型提取任一视频帧图像的纹理特征的过程为：将上述步骤2中得到任一视频帧图像的最后一个纹理子特征作为任一视频帧图像的纹理特征。

需要进一步说明的是，以上步骤1至步骤3介绍的过程中默认目标纹理特征提取模型中包括的纹理子特征提取模型的数量大于2。当目标纹理特征提取模型中包括的纹理子特征提取模型的数量不大于2，也就是目标纹理特征提取模型中包括的纹理子特征提取模型的数量为1或者2时，可以参照上述步骤1和步骤2中的部分步骤实现调用目标纹理特征提取模型提取任一视频帧图像的纹理特征的过程。本申请实施例对目标纹理特征提取模型中包括的纹理子特征提取模型的数量不加以限定，可以根据应用需求进行设置，示例性地，目标纹理特征提取模型中包括的纹理子特征提取模型的数量为4。

步骤2022：基于任一视频帧图像的纹理特征和语义特征，确定任一视频帧图像对应的清晰度结果。

在根据步骤2021得到任一视频帧图像的纹理特征和语义特征后，基于任一视频帧图像的纹理特征和语义特征，确定任一视频帧图像对应的清晰度结果。通过综合考虑纹理方面的特征和语义方面的特征来确定任一视频帧图像对应的清晰度结果，有利于提高确定的任一视频帧图像对应的清晰结果的准确度。

在一种可能实现方式中，基于任一视频帧图像的纹理特征和语义特征，确定任一视频帧图像对应的清晰度结果的方式为：基于任一视频帧图像的纹理特征和语义特征，获取任一视频帧图像的目标特征；调用目标清晰度评估模型对任一视频帧图像的目标特征进行评估处理，得到任一视频帧图像对应的清晰度结果。

在一种可能实现方式中，基于任一视频帧图像的纹理特征和语义特征，获取任一视频帧图像的目标特征的方式为：将任一视频帧图像的纹理特征和语义特征进行拼接处理，得到任一视频帧图像的目标特征。

目标清晰度评估模型用于根据任一视频帧图像的目标特征对任一视频帧图像的清晰度进行评估，任一视频帧图像对应的清晰度结果用于指示任一视频帧图像的清晰度。

目标清晰度评估模型为训练得到的清晰度评估模型。在一种可能实现方式中，目标清晰度评估模型为预先训练得到的，以便于在需要对提取的特征进行评估处理时，直接调用训练好的目标清晰度评估模型实现清晰度评估过程，减少清晰度评估过程的耗时。

训练得到目标清晰度评估模型的过程可以由服务器执行，也可以由终端执行，本申请实施例对此不加以限定。当训练得到目标清晰度评估模型的过程由服务器执行时，终端从服务器中获取目标清晰度评估模型，用来对提取的特征进行评估处理。当训练得到目标清晰度评估模型的过程由终端执行时，终端直接从本地提取目标清晰度评估模型，用来对提取的特征进行评估处理。

本申请实施例对目标清晰度评估模型的模型结构不加以限定。调用具有不同模型结构的目标清晰度评估模型得到的清晰度结果的表现形式不同。在一种可能实现方式中，目标清晰度评估模型的模型结构为分类器或者回归器。

在一种可能实现方式中，当目标清晰度评估模型的模型结构为分类器时，调用目标清晰度评估模型对任一视频帧图像的目标特征进行评估处理，得到任一视频帧图像对应的清晰度结果的过程为：调用分类器对任一视频帧图像的目标特征进行分类处理，得到任一视频帧图像对应的分类结果；根据任一视频帧图像对应的分类结果确定任一视频帧图像对应的清晰度结果。

在一种可能实现方式中，在任一视频帧图像对应的分类结果中包括各个清晰度档位对应的概率值。根据任一视频帧图像对应的分类结果确定任一视频帧图像对应的清晰度结果的方式为：将任一视频帧图像对应的分类结果中最大概率值对应的清晰度档位作为任一视频帧图像对应的清晰度结果。在此种情况下，任一视频帧图像对应的清晰度结果的表现形式为清晰度档位。清晰度档位是指清晰度的数值化表示，通常情况下，每种清晰度对应一个具有整数数值的清晰度档位。

示例性地，视频帧图像对应的分类结果中包括四个清晰度档位对应的概率值，四个清晰度档位分别为0、1、2和3，每个清晰度档位表示的清晰度分别为：清晰度档位0表示的清晰度为超不清晰，清晰度档位1表示的清晰度为不清晰、清晰度档位2表示的清晰度为一般、清晰度档位3表示的清晰度为清晰。假设任一视频帧图像对应的分类结果指示清晰度档位0对应的概率值为0.8、清晰度档位1对应的概率值为0.04、清晰度档位2对应的概率值为0.1、清晰度档位3对应的概率值为0.06。则根据任一视频帧图像对应的分类结果即可得知任一视频帧图像对应的清晰度档位为0。此时，任一视频帧图像对应的清晰度结果为0。该清晰度结果指示该任一视频帧图像的清晰度为超不清晰。

在一种可能实现方式中，当目标清晰度评估模型的模型结构为回归器时，调用目标清晰度评估模型对任一视频帧图像的目标特征进行评估处理，得到任一视频帧图像对应的清晰度结果的过程为：调用回归器对任一视频帧图像的目标特征进行回归处理，得到任一视频帧图像对应的清晰度分值，将任一视频帧图像对应的清晰度分值作为任一视频帧图像对应的清晰度结果。任一视频帧图像对应清晰度分值用于用分值的形式指示任一视频帧图像的清晰度。需要说明的是，在回归处理过程中，得到的清晰度分值可能为整数，也可能为小数。在此种情况下，任一视频帧图像对应的清晰度结果的表现形式为清晰度分值。

在一种可能实现方式中，预先设置清晰度分值和清晰度的对应关系，根据任一视频帧图像对应的清晰度分值，即可以在清晰度分值和清晰度的对应关系中确定任一视频帧图像的清晰度。示例性地，清晰度分值和清晰度的对应关系为：0-1分对应的清晰度为超不清晰、1-2分对应的清晰度为不清晰、2-3分对应的清晰度为一般、3分以上对应的清晰度为清晰。假设任一视频帧图像对应的清晰度分值为2.5分，则可以确定任一视频帧图像的清晰度为一般。

无论目标清晰度评估模型的模型结构为哪种情况，均可以基于任一视频帧图像的目标特征，确定任一视频帧图像对应的清晰度结果。任一视频帧图像对应的清晰度结果能够指示任一视频帧图像的清晰度。

在一种可能实现方式中，在基于预先训练好的模型实现确定任一视频帧图像对应的清晰度结果之前，需要先通过训练的方式得到目标纹理特征提取模型、目标语义特征提取模型和目标清晰度评估模型。本申请实施例以训练得到目标纹理特征提取模型、目标语义特征提取模型和目标清晰度评估模型的过程均由终端执行为例进行说明。

在一种可能实现方式中，获取目标语义特征提取模型的过程可以与获取其他模型(目标纹理特征提取模型和目标清晰度评估模型)的过程分开进行，也可以与获取其他模型(目标纹理特征提取模型和目标清晰度评估模型)的过程同时进行，本申请实施例对此不加以限定。在这两种情况下，获取目标纹理特征提取模型、目标语义特征提取模型和目标清晰度评估模型的过程包括以下两种情况：

情况一：获取第一训练图像集和目标语义特征提取模型，第一训练图像集包括至少一个第一训练图像和至少一个第一训练图像分别对应的标准清晰度结果；基于至少一个第一训练图像、至少一个第一训练图像分别对应的标准清晰度结果和目标语义特征提取模型，对第一纹理特征提取模型和第一清晰度评估模型进行训练，得到目标纹理特征提取模型和目标清晰度评估模型。

在此种情况一下，获取目标语义特征提取模型的过程与获取其他模型(目标纹理特征提取模型和目标清晰度评估模型)的过程分开进行。也就是说，训练得到目标语义特征提取模型的过程和训练得到目标纹理特征提取模型、目标清晰度评估模型的过程是分开进行的。

第一训练图像集是指用于在目标语义特征提取模型的基础上，对第一纹理特征提取模型和第一清晰度评估模型进行训练的训练图像集。第一训练图像集包括至少一个第一训练图像和至少一个第一训练图像分别对应的标准清晰度结果。需要说明的是，标准清晰度结果用于指示训练图像的真实清晰度。

第一纹理特征提取模型和第一清晰度评估模型是指需要利用第一训练图像集和目标语义特征提取模型进行训练的纹理特征提取模型和清晰度评估模型。

在一种可能实现方式中，基于至少一个第一训练图像、至少一个第一训练图像分别对应的标准清晰度结果和目标语义特征提取模型，对第一纹理特征提取模型和第一清晰度评估模型进行训练，得到目标纹理特征提取模型和目标清晰度评估模型的实现过程包括以下步骤a至步骤e：

步骤a、在至少一个第一训练图像中选取第一参考数量的第一训练图像构成第一目标训练集；调用第一纹理特征提取模型提取第一目标训练集中的各个第一训练图像的纹理特征；调用目标语义特征提取模型提取第一目标训练集中的各个第一训练图像的语义特征。

一个第一目标训练集用于对第一纹理特征提取模型和第一清晰度评估模型的参数更新一次。第一参考数量根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。示例性地，第一参考数量为8。

步骤b、将第一目标训练集中的任一第一训练图像的纹理特征和语义特征进行拼接处理，得到任一第一训练图像的目标特征。

步骤c、在得到第一目标训练集中的各个第一训练图像的目标特征后，将各个第一训练图像的目标特征分别输入第一清晰度评估模型进行评估处理，得到第一清晰度评估模型输出的各个第一训练图像分别对应的评估结果。

需要说明的是，根据清晰度评估模型的模型结构的不同，评估结果也不同。当清晰度评估模型的模型结构为分类器时，评估结果为分类结果；当清晰度评估模型的模型结构为回归器时，评估结果为清晰度分值。

步骤d、基于各个第一训练图像分别对应的评估结果以及各个第一训练图像分别对应的标准清晰度结果，计算第一损失函数；根据第一损失函数更新第一纹理特征提取模型和第一清晰度评估模型的参数。

本申请实施例对评估结果和标准清晰度结果之间的损失函数的类型不加以限定，示例性地，评估结果和标准清晰度结果之间的损失函数为交叉熵损失函数。

执行上述步骤a至步骤d一次，完成对第一纹理特征提取模型和第一清晰度评估模型的参数的一次更新过程。对第一纹理特征提取模型和第一清晰度评估模型的参数的更新过程为迭代过程，每更新一次，判断一次是否满足第一训练终止条件。若不满足第一训练终止条件，则根据步骤a至步骤d重新选取第一目标训练集，以及根据重新选取的第一目标训练集继续对第一纹理特征提取模型和第一清晰度评估模型的参数进行更新，直至满足第一训练终止条件，执行步骤e。

需要说明的是，当第一训练图像集中的各个第一训练图像均参与过一次第一纹理特征提取模型和第一清晰度评估模型的参数的更新过程时，完成一次完整的迭代训练过程。完整的迭代训练过程的次数可以根据经验设置，本申请实施例对此不加以限定。示例性地，完整的迭代训练过程的次数可以为设置为40。此种情况下，第一训练图像集中的每个第一训练图像均需参与40次第一纹理特征提取模型和第一清晰度评估模型的参数的更新过程。

在一种可能实现方式中，满足第一训练终止条件包括但不限于以下三种情况：

情况1、参数更新次数达到第一次数阈值。

第一次数阈值可以根据经验设置，也可以根据应用场景灵活调整，本申请实施例对此不加以限定。在一种可能实现方式中，第一次数阈值可以根据完整的迭代训练过程的次数、第一训练图像集中第一训练图像的数量以及第一参考数量进行设置。

情况2、第一损失函数小于第一损失阈值。

第一损失阈值可以根据经验设置，也可以根据应用场景自由调整，本申请实施例对此不加以限定。

情况3、第一损失函数收敛。

第一损失函数收敛是指随着迭代训练次数的增加，在参考次数的训练结果中，第一损失函数的波动范围在参考范围内。例如，假设参考范围为-10^-3～10^-3，假设参考次数为10次。若第一损失函数在10次的迭代训练结果中波动范围均在-10^-3～10^-3内，则认为第一损失函数收敛。

当满足上述任一种情况时，说明满足训练终止条件，执行步骤e。

步骤e、响应于满足第一训练终止条件，将满足第一训练终止条件时得到的纹理特征提取模型作为目标纹理特征提取模型，将满足第一训练终止条件时得到的清晰度评估模型作为目标清晰度评估模型。

需要说明的是，在执行上述步骤a至步骤e的过程中，目标语义特征提取模型的参数保持不变。在执行上述步骤a至步骤e之前，需要先训练得到目标语义特征提取模型。在一种可能实现方式中，训练得到目标语义特征提取模型的过程包括：获取语义图像集，语义图像集包括至少一个语义图像和至少一个语义图像分别对应的标准语义结果；基于至少一个语义图像和至少一个语义图像分别对应的标准语义结果，对第一语义特征提取模型进行训练，得到目标语义特征提取模型。

语义图像集中包括的语义图像是指具有标准语义结果的图像。语义图像对应的标准语义结果由专业人员标注得到，标准语义结果用于指示语义图像的真实语义。语义图像集的获取方式可以是指从语义图像库中选取一定数量的语义图像，基于选取的语义图像和语义图像对应的标准语义结果构成语义图像集。本申请实施例对语义图像库的构建过程不加以限定，语义图像库中的每个语义图像均对应有标准语义结果。

第一语义特征提取模型是指在单独训练得到目标语义特征的情况中，需要利用语义特征集进行训练的语义特征提取模型。第一语义特征提取模型可以与第一语义特征提取模型相同，也可以与第一语义特征提取模型不同，本申请实施例对此不加以限定。

在一种可能实现方式中，基于至少一个语义图像和至少一个语义图像分别对应的标准语义结果，对第一语义特征提取模型进行训练，得到目标语义特征提取模型的过程包括以下步骤A至步骤D：

步骤A、在至少一个语义图像中选取第二参考数量的语义图像构成第二目标训练集；调用第一语义特征提取模型提取第二目标训练集中的各个语义图像的语义特征。

一个第二目标训练集用于对第一语义特征提取模型的参数更新一次。第二参考数量根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。第二参考数量可以与第一参考数量相同，也可以与第一参考数量不同。

步骤B、基于第二目标训练集中的各个语义图像的语义特征，获取各个语义图像分别对应的预测语义结果。

在一种可能实现方式中，基于第二目标训练集中的各个语义图像的语义特征，获取各个语义图像分别对应的预测语义结果的方式为：将各个语义图像的语义特征分别输入语义识别模型进行语义识别处理，得到各个语义图像分别对应的预测语义结果。

步骤C、基于第二目标训练集中的各个语义图像分别对应的预测语义结果以及各个语义图像分别对应的标准语义结果，计算第二损失函数；根据第二损失函数更新第一语义特征提取模型的参数。

需要说明的是，对于预测语义结果根据语义识别模型处理后得到的情况，在根据第二损失函数更新第一语义特征提取模型的参数的同时，还根据第二损失函数更新语义识别模型的参数。

执行上述步骤A至步骤C一次，完成对第一语义特征提取模型的参数的一次更新过程。对第一语义特征提取模型的参数的更新过程为迭代过程，每更新一次，判断一次是否满足第二训练终止条件。若不满足第二训练终止条件，则根据步骤A至步骤C继续对第一语义特征提取模型的参数进行更新，直至满足第二训练终止条件，执行步骤D。

在一种可能实现方式中，满足第二训练终止条件包括但不限于以下三种情况：1、参数更新次数达到第二次数阈值；2、第二损失函数小于第二损失阈值；3、第二损失函数收敛。当满足上述任一种情况时，说明满足第二训练终止条件，执行步骤D。

步骤D、响应于满足第二训练终止条件，将满足第二训练终止条件时得到的语义特征提取模型作为目标语义特征提取模型。

根据语义图像和语义图像对应的标准语义结果训练得到的目标语义特征提取模型具有较好的语义特征提取性能，目标语义特征提取模型能够提供充足的视频场景语义方面的信息。后续直接在目标语义特征提取模型的基础上训练得到目标纹理特征提取模型和目标清晰度评估模型，此种方式有利于提高模型训练的收敛速度，提高模型的训练效果。

纹理特征提取模型的底层可提供很底层的纹理特征，顶层的特征可提供一定程度的高级纹理特征和部分语义特征，语义特征提取模型可提供丰富的语义特征，通过拟合纹理特征和语义特征拼接后的特征，清晰度评估模型可以充分地学习纹理特征，同时可以学习到一定的语义特征，以及语义特征和纹理特征的关联。语义特征和纹理特征相结合的方式，使得清晰度评估模型可以大大增强对数据类型适应的广泛性，提高清晰度评估模型的鲁棒性和适应性。

在本申请实施例中，有意挖掘图像的纹理特征和语义特征，将纹理特征和语义特征结合起来进行训练学习，大幅提升了在通用类型的视频下的清晰度评估模型的准确率和泛化能力。

在一种可能实现方式中，第一训练图像是指具有标准清晰度结果的图像。在获取第一训练图像集之前，需要先获取第一训练图像以及第一训练图像对应的标准清晰度结果。在一种可能实现方式中，获取第一训练图像以及第一训练图像对应的标准清晰度结果的过程包括以下步骤1至步骤3：

步骤1：获取待标注图像和至少一个边界图像集，任一边界图像集由至少一种目标类型的边界图像构成，各个边界图像集分别对应一种清晰度边界，不同的边界图像集对应不同的清晰度边界。

待标注图像是指需要获取标准清晰度结果的图像。本申请实施例对待标注图像的来源不加以限定，示例性的，在确定目标视频的清晰度的应用场景为确定短视频的清晰度的情况下，待标注图像的来源为从短视频大盘数据中随机抽取的图像。

边界图像集由用于标识清晰度边界的边界图像构成，每个边界图像集均由至少一种目标类型的边界图像构成，也就是说，用于标识清晰度边界的边界图像为至少一种目标类型的边界图像。目标类型是指常见的图像类型，目标类型可以根据经验设置，也可以根据应用场景灵活调整，本申请实施例对比不加以限定。示例性地，至少一种目标类型的边界图像包括人物图像、物体图像、风景图像、游戏图像和虚拟漫画图像。在此种情况下，每个边界图像集均由人物图像、物体图像、风景图像、游戏图像和虚拟漫画图像构成。需要说明的是，本申请实施例对每个边界图像集中包括的各种目标类型的图像的数量不加以限定，示例性地，每个边界图像集中均包括一张人物图像、一张物体图像、一张风景图像、一张游戏图像和一张虚拟漫画图像。在示例性实施例中，不同边界图像集中包括的同一目标类型的图像的数量可以相同，也可以不同。

各个边界图像集分别对应一种清晰度边界，不同的边界图像集对应不同的清晰度边界。清晰度边界是指相邻等级的清晰度之间的边界。清晰度边界的数量与预先设置的清晰度的等级的数量有关，示例性地，当清晰度的等级的数量为n(n为不小于2的整数)时，清晰度边界的数量为(n-1)。例如，假设清晰度的等级包括超不清晰、不清晰、一般和清晰，则清晰度边界包括超不清晰和不清晰的边界、不清晰和一般的边界以及一般和清晰的边界。

由于各个边界图像集分别对应一种清晰度边界，不同的边界图像集对应不同的清晰度边界，所以边界图像集的数量与清晰度边界的数量相同。每个清晰度边界均唯一对应一个边界图像集。

边界图像集可以由专业人员预先挑选并上传至终端或者服务器中进行保存，终端可以从本地或者服务器中获取至少一个边界图像集。专业人员在选取构成任一边界图像集的边界图像时，除了要尽量保证选取的边界图像处于清晰度边界的恰当位置，还要保证各种目标类型的图像在清晰度感受的等级上尽量一致，以保证边界图像集的可靠性。

步骤2：响应于待标注图像的类型为至少一种目标类型中的任一目标类型，将任一边界图像集中任一目标类型的边界图像作为任一边界图像集中的待比对图像；将待标注图像与任一边界图像集中的待比对图像的比对结果作为待标注图像与任一边界图像集对应的清晰度边界的比对结果。

当待标注图像的类型为任一目标类型时，说明边界图像集中存在用于与待标注图像进行比对的边界图像。此时，将任一边界图像集中任一目标类型的边界图像作为该任一边界图像集中的待比对图像。在确定待比对图像后，可以由标注人员将待标注图像和待比对图像进行比对，得到待标注图像与任一边界图像集中的待比对图像的比对结果。当标注人员将比对结果上传至终端后，终端将比对结果作为待标注图像与任一边界图像集对应的清晰度边界的比对结果。

需要说明的是，任一边界图像集中的待比对图像的数量可能为一个或多个，标注人员通过将待标注图像与这一个或多个待比对图像进行综合比对，得到比对结果。比对结果用于指示待标注图像的清晰度感受是否比待比对图像的清晰度感受清晰，比对结果还用于指示待标注图像的清晰度与待比对图像所在的边界图像集对应的清晰度边界的位置关系。示例性地，对于清晰度从最不清晰到最清晰的顺序排列的情况，当待标注图像的清晰度感受比待比对图像的清晰度感受清晰时，待标注图像的清晰度位于待比对图像所在的边界图像集对应的清晰度边界之后；当待标注图像的清晰度感受比待比对图像的清晰度感受不清晰时，待标注图像的清晰度位于待比对图像所在的边界图像集对应的清晰度边界之前。

步骤3：基于待标注图像与各个边界图像集对应的清晰度边界的比对结果，确定待标注图像对应的标准清晰度结果，将具有标准清晰度结果的待标注图像作为第一训练图像。

步骤2介绍了得到待标注图像与任一边界图像集对应的清晰度边界的比对结果的过程。根据步骤2的方式能够得到待标注图像与各个边界图像集对应的清晰度边界的比对结果。然后基于待标注图像与各个边界图像集对应的清晰度边界的比对结果，确定待标注图像对应的标准清晰度结果。

待标注图像与任一边界图像集对应的清晰度边界的比对结果用于指示待标注图像的清晰度与任一边界图像集对应的清晰度边界的位置关系。该位置关系用于指示待标注图像的清晰度位于任一边界图像集对应的清晰度边界之前还是位于任一边界图像集对应的清晰度边界之后。通过综合考虑待标注图像与各个边界图像集对应的清晰度边界的比对结果，即可确定待标注图像对应的标准清晰度结果。

示例性地，假设清晰度边界依次为不清晰和不清晰之间的A清晰度边界、不清晰和一般之间的B清晰度边界以及一般和清晰之间的C清晰度边界。A清晰度边界之前的清晰度为超不清晰，A清晰度边界之后和B清晰度边界之前的清晰度为不清晰，B清晰度边界之后和C清晰度之前的清晰度为一般，C清晰度边界之后的清晰度为清晰。假设待标注图像与各个边界图像集对应的清晰度边界的比对结果指示待标注图像的清晰度位于A清晰度边界之后、待标注图像的清晰度位于B清晰度边界之后且待标注图像的清晰度位于C清晰度边界之前，则说明待标注图像的清晰度为一般，进而可以得到用于指示一般的清晰度结果，该清晰度结果即待标注图像的标准清晰度结果。

在得到标准清晰度结果后，将具有标准清晰度结果的待标注图像作为第一训练图像。由此得到第一训练图像和第一训练图像对应的标准清晰度结果。在一种可能实现方式中，在得到第一训练图像和第一训练图像对应的标准清晰度结果后，将第一训练图像和第一训练图像对应的标准清晰度结果添加至训练图像库中，以便于为模型的训练过程提供数据支持。

上述确定待标注图像对应的标准清晰度结果的过程为对待标注图像进行标注的过程，在本申请实施例中基于比对的方式实现对待标注图像的标注。基于比对的标注方式相比通常的直接标注方式，可以很好地减弱甚至消除不必要的主观因素，大大减少主观感受波动的影响，提高标准清晰度结果的标注的稳定性，减少标注结果的噪声。

在示例性实施例中，标准清晰度结果可以由标注人员直接进行标注，然后将比对结果以及标准清晰度结果上传至终端。在此种情况下，终端可以对上传的比对结果以及标准清晰度结果进行校验，以验证比对结果和标准清晰度结果是否匹配。此种方式，可以提高标注的结果的可靠性。

情况二：获取第二训练图像集，第二训练图像集包括至少一个第二训练图像和至少一个第二训练图像分别对应的标准清晰度结果；基于至少一个第二训练图像和至少一个第二训练图像分别对应的标准清晰度结果，对第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型进行训练，得到目标纹理特征提取模型、目标语义特征提取模型和目标清晰度评估模型。

在此种情况二下，获取目标语义特征提取模型的过程与获取其他模型(目标纹理特征提取模型和目标清晰度评估模型)的过程同时进行。也就是说，同时训练得到目标纹理特征提取模型、目标语义特征提取模型和目标清晰度评估模型。

第二训练图像集是指用于对第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型进行训练的训练图像集。第二训练图像集包括至少一个第二训练图像和至少一个第二训练图像分别对应的标准清晰度结果。需要说明的是，第二训练图像集可以与第一训练图像集相同，也可以与第一训练图像集不同，本申请实施例对此不加以限定。

第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型是指需要利用第二训练图像集进行训练的纹理特征提取模型、语义特征提取模型和清晰度评估模型。在一种可能实现方式中，第二语义特征提取模型可以是指已经初步具有语义特征提取能力的语义特征提取模型，以提高模型训练的收敛速度。第二纹理特征提取模型和第二清晰度评估模型可以是指未经任何训练的模型，也可以是指经过预训练的模型。第二纹理特征提取模型可以与第一纹理特征提取模型相同，也可以与第一纹理特征提取模型不同；第二清晰度评估模型可以与第一清晰度评估模型相同，也可以与第一清晰度评估模型不同。

在一种可能实现方式中，基于至少一个第二训练图像和至少一个第二训练图像分别对应的标准清晰度结果，对第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型进行训练，得到目标纹理特征提取模型、目标语义特征提取模型和目标清晰度评估模型的实现过程包括以下步骤1至步骤5：

步骤1、在至少一个第二训练图像中选取第三参考数量的第二训练图像构成第三目标训练集；调用第二纹理特征提取模型提取第三目标训练集中的各个第二训练图像的纹理特征；调用第二语义特征提取模型提取第三目标训练集中的各个第二训练图像的语义特征。

一个第三目标训练集用于对第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型的参数更新一次。第三参考数量根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定，第三参考数量可以与第一参考数量或第二参考数量相同，也可以与第一参考数量和第二参考数量均不同。

步骤2、将第三目标训练集中的任一第二训练图像的纹理特征和语义特征进行拼接处理，得到任一第二训练图像的目标特征。

步骤3、在得到第三目标训练集中的各个第二训练图像的目标特征后，将各个第二训练图像的目标特征分别输入第二清晰度评估模型进行评估处理，得到第二清晰度评估模型输出的各个第二训练图像分别对应的评估结果。

步骤4、基于第三目标训练集中的各个第二训练图像分别对应的评估结果以及各个第二训练图像分别对应的标准清晰度结果，计算第三损失函数；根据第三损失函数更新第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型的参数。

执行上述步骤1至步骤4一次，完成对第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型的参数的一次更新过程。对第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型的参数的更新过程为迭代过程，每更新一次，判断一次是否满足第三训练终止条件。若不满足第三训练终止条件，则根据步骤1至步骤4重新选取第三目标训练集，以及根据重新选取的第三目标训练集继续对第二纹理特征提取模型、第二语义特征提取模型和第二清晰度评估模型的参数进行更新，直至满足第三训练终止条件，执行步骤5。

在一种可能实现方式中，满足第三训练终止条件包括但不限于以下三种情况：1、参数更新次数达到第三次数阈值；2、第三损失函数小于第三损失阈值；3、第三损失函数收敛。当满足上述任一种情况时，说明满足第三训练终止条件，执行步骤5。

步骤5、响应于满足第三训练终止条件，将满足第三训练终止条件时得到的纹理特征提取模型作为目标纹理特征提取模型，将满足第三训练终止条件时得到的语义特征提取模型作为目标语义特征提取模型，将满足第三训练终止条件时得到的清晰度评估模型作为目标清晰度评估模型。

第二训练图像同样是指具有标准清晰度结果的图像。在获取第二训练图像集之前，需要先获取第二训练图像以及第二训练图像对应的标准清晰度结果。获取第二训练图像以及第二训练图像对应的标准清晰度结果的过程参见获取第一训练图像以及第一训练图像对应的标准清晰度结果的过程，此处不再赘述。

在步骤203中，基于至少一个视频帧图像分别对应的清晰度结果，确定目标视频对应的清晰度结果。

步骤202从任一视频帧图像的角度介绍了确定任一视频帧图像对应的清晰度结果的过程。根据步骤202的方式可以确定至少一个视频帧图像分别对应的清晰度结果。在确定至少一个视频帧图像分别对应的清晰度结果后，基于至少一个视频帧图像分别对应的清晰度结果，确定目标视频对应的清晰度结果。目标视频对应的清晰度结果用于指示目标视频的清晰度。

在一种可能实现方式中，基于至少一个视频帧图像分别对应的清晰度结果，确定目标视频对应的清晰度结果的方式为：为至少一个视频帧图像分别设置权重；将任一视频帧图像对应的清晰度结果与该任一视频帧图像对应的权重的乘积作为该任一视频帧图像对应的子清晰度结果；将各个视频帧图像分别对应的子清晰度结果的和作为目标视频对应的清晰度结果。

在一种可能实现方式中，基于至少一个视频帧图像分别对应的清晰度结果，确定目标视频对应的清晰度结果的过程包括以下步骤2031和步骤2032：

步骤2031：基于至少一个视频帧图像分别对应的清晰度结果，在至少一个视频帧图像中确定至少一个代表图像。

至少一个视频帧图像中可能存在清晰度感受与目标视频的清晰度感受不一致的视频帧图像，在此种情况下，根据全部的视频帧图像对应的清晰度结果确定的目标视频对应的清晰度结果的准确度较低，因此，需要在至少一个视频帧图像中确定至少一个代表图像。代表图像是指用于确定目标视频对应的清晰度结果较为合适的视频帧图像。

在一种可能实现方式中，参见图3，步骤2031的实现过程，也就是确定至少一个代表图像的实现过程包括以下步骤20311至步骤20313：

步骤20311：确定目标视频的视频类型，查询与目标视频的视频类型对应的目标配置参数。

目标视频的视频类型用于指示目标视频所属的分类类别，目标视频的视频类型可以携带在目标视频的文件信息中，通过对目标视频的文件信息进行解析，即可确定目标视频的视频类型。需要说明的是，对视频进行分类的分类标准根据经验设置，本申请实施例对此不加以限定。示例性地，对视频进行分类的分类标准为根据视频来源进行分类，或者，根据视频的主要内容进行分类等。

在一种可能实现方式中，查询与目标视频的视频类型对应的目标配置参数的过程是指在视频类型和配置参数的对应关系中查询与目标视频的视频类型对应的目标配置参数。在视频类型和配置参数的对应关系中，包括多种视频类型以及每种视频类型分别对应配置参数。为各种视频类型分别定制配置参数是因为不同视频类型的视频帧图像的清晰度表现与视频的清晰度表现的不一致程度不相同。例如，平常的生活随拍类型的视频，视频整体的清晰度感受与视频帧图像的清晰度感受的平均值是接近的。但是对于街舞韩舞等类型的视频，动作激烈灯光闪耀，很容易抽帧抽到严重动作模糊的帧或炫目炫光的帧，这些帧以图像角度来看属于不清晰或超不清晰，但穿插在一段清晰的街舞中，不会对视频整体的清晰度感受带来负面体验，因而这类视频类型的视频清晰度主要取决于较清晰的视频帧图像对应的清晰度结果。动漫、影视片段、演唱会现场等类型的视频均有各自的特点。因此，通过为各种视频类型分别定制配置参数，能够更好地适应广泛的视频类型的视频。

在一种可能实现方式中，视频类型和配置参数的对应关系根据经验设置，或者根据实验的方式确定。示例性地，视频类型和配置参数的对应关系的获取过程为：获取已知标准清晰度结果的候选视频集；根据候选视频集中的全部的候选视频以及每个候选视频对应的标准清晰度结果，从初始值开始不断调整配置参数，在每个配置参数下计算候选视频集中的全部候选视频对应的清晰度结果的整体准确率；将整体准确率最高的配置参数作为默认配置参数。

分别获取已知标准清晰度结果的至少一个视频类型的视频集，对于每个视频类型的视频集，根据默认配置参数确定视频类型的视频集中的全部视频对应的清晰度结果的准确率，若准确率不低于准确率阈值，则将该默认配置参数作为该视频类型对应的配置参数；若准确率低于准确率阈值，则根据该视频类型的视频集重新调整默认配置参数，将准确率符合条件的配置参数作为该视频类型对应的配置参数。根据上述过程，即可确定各个视频类型分别对应的配置参数，进而得到视频类型和配置参数的对应关系。

视频类型和配置参数的对应关系中包括的视频类型的数量根据需求设置，本申请实施例对此不加以限定，示例性地，视频类型和配置参数的对应关系中包括的视频类型的数量为200。在确定视频类型和配置参数的对应关系后，能够使得不同视频类型均有最佳的最适配的帧融合配置参数到视频清晰度的映射。

需要说明的是，根据配置参数，预测视频对应的清晰度结果的过程可以参照本申请实施例中的步骤20312、步骤20313以及步骤2032，此处暂不赘述。此外，准确率阈值根据经验设置或者根据应用场景灵活调整，本申请实施例对比不加以限定。

默认配置参数通常适应大多数视频类型的视频，在默认配置参数下预测的清晰度结果的准确率低于准确率阈值的视频类型数量较少，根据上述方式有利于减少确定视频类型和配置参数的对应关系的耗时。

当然，在示例性实施例中，还可以针对每种视频类型的视频，分别从初始值开始对配置参数进行调整，直至遍历各种视频类型的视频，得到视频类型和配置参数的对应关系，此种方式确定的视频类型和配置参数的对应关系较为精准。

步骤20312：基于至少一个视频帧图像分别对应的清晰度结果对至少一个视频帧图像进行排序；基于排序后的至少一个视频帧图像，得到满足选取条件的至少一个视频帧图像集。

虽然至少一个视频帧图像均是目标视频对应的，但是不同的视频帧图像可能对应不同的清晰度结果。在确定至少一个视频帧图像分别对应的清晰度结果后，根据至少一个视频帧图像分别对应的清晰度结果对至少一个视频帧图像进行排序。

在一种可能实现方式中，根据至少一个视频帧图像分别对应的清晰度结果对至少一个视频帧图像进行排序的方式包括但不限于以下两种：按照清晰度结果指示的清晰度从高到低的顺序对至少一个视频帧图像进行排序；或者，按照清晰度结果指示的清晰度从低到高的顺序对至少一个视频帧图像进行排序。无论哪种排序方式，均能够得到排序后的至少一个视频帧图像。本申请实施例以按照清晰度结果指示的清晰度从高到低的顺序对至少一个视频帧图像进行排序为例进行说明，在此种排序方式下，排在第一位的为清晰度最高的视频帧图像。需要说明的是，当存在多个视频帧图像对应的清晰度结果指示的清晰度相同时，这多个视频帧图像可以随机排序，也可以根据在目标视频中所处的先后顺序进行排序，本申请实施例对此不加以限定。

在得到排序后的至少一个视频帧图像后，基于排序后的至少一个视频帧图像，得到满足选取条件的至少一个视频帧图像集。在一种可能实现方式中，在按照清晰度结果指示的清晰度从高到低的顺序对至少一个视频帧图像进行排序的情况下，满足选取条件的任一视频帧图像集是指从排序第一位的视频帧图像开始，按照排列顺序依次选取指定数量范围中的任一指定数量的视频帧图像构成的视频帧图像集。指定数量范围中包括多个指定数量，根据每个指定数量均得到一个视频帧图像集。最终得到的至少一个视频帧图像集的是指在遍历各个指定数量后得到的全部视频帧图像集。

指定数量范围根据经验设置，示例性地，指定数量范围为[N/3,N]，其中，N表示至少一个视频帧图像的数量。将指定数量范围内的每个整数值均作为一个指定数量，根据每个指定数量得到一个视频帧图像集。对于任一指定数量，根据该指定数量得到视频帧图像集的方式为：从排序第一位的视频帧图像开始，按照排列顺序依次向后选取视频帧图像，当选取的视频帧图像的数量为该任一指定数量时，基于选取的视频帧图像构成视频帧图像集。

通常情况下，利用清晰度高的视频帧图像评估视频整体的清晰度的可靠性较高，因此，满足选取条件的视频帧图像集均是从清晰度最高的视频帧图像开始按顺序选取视频帧图像构成的。

步骤20313：基于目标配置参数，在至少一个视频帧图像集中确定满足参考条件的目标视频帧图像集，将目标视频帧图像集中的至少一个目标视频帧图像作为代表图像。

在获取至少一个视频帧图像集后，基于目标配置参数，在至少一个视频帧图像集中确定满足参考条件的目标视频帧图像集，该目标视频帧图像集即为至少一个视频帧图像集中最适合用于确定目标视频的清晰度的视频帧图像集。

在一种可能实现方式中，参见图4，步骤20313的实现过程，也就是确定目标视频帧图像集的实现过程包括以下步骤20313A至20313D：

步骤20313A、对于至少一个视频帧图像集中的任一视频帧图像集，将任一视频帧图像集中的视频帧图像的数量与至少一个视频帧图像的数量的比值作为任一视频帧图像集对应的选取比例值。

通过确定每个视频帧图像集分别对应的目标函数值来衡量视频帧图像集的合适程度。目标函数值越小说明视频帧图像集的合适程度越高，也说明越适合根据该视频帧图像集中的视频帧图像确定目标视频的清晰度结果。

在步骤20313A至步骤20313C中，从至少一个视频帧图像集中的任一视频帧图像集的角度，介绍确定任一视频帧图像集对应的目标函数值的过程。

对于至少一个视频帧图像集中的任一视频帧图像集而言，将该任一视频帧图像集中的视频帧图像的数量与至少一个视频帧图像的数量的比值作为该任一视频帧图像集对应的选取比例值。选取比例值用于衡量视频帧图像集中包括的视频帧图像的数量的多少。

步骤20313B、根据任一视频帧图像集中的各个视频帧图像分别对应的清晰度结果，确定任一视频帧图像集对应的清晰度差异值，将任一视频帧图像集对应的清晰度差异值和目标配置参数的乘积作为任一视频帧图像集对应的选取差异值。

除确定任一视频帧图像集对应的选取比例值外，还确定任一视频帧图像集对应的选取差异值。确定任一视频帧图像集对应的选取差异值的方式为：根据任一视频帧图像集中的各个视频帧图像分别对应的清晰度结果，确定任一视频帧图像集对应的清晰度差异值，将任一视频帧图像集对应的清晰度差异值和目标配置参数的乘积作为任一视频帧图像集对应的选取差异值。

清晰度差异值是指任一视频帧图像集中的各个视频帧图像分别对应的清晰度结果之间的差异性指标，用于直接衡量视频帧图像集中的各个视频帧图像的清晰度之间的差异性大小。本申请实施例对确定清晰度差异值的方式不加以限定。示例性地，将各个视频帧图像分别对应的清晰度结果之间的标准差作为清晰度差异值；或者，将各个视频帧图像分别对应的清晰度结果之间的方差作为清晰度差异值。

清晰度差异值用于直接表现各个视频帧图像分别对应的清晰度结果之间的差异性，由于对不同视频类型的视频而言，清晰度差异值的重要程度不同，该重要程度体现在视频类型对应的配置参数上，因此，在确定任一视频帧图像集对应的清晰度差异值后，利用目标配置参数对清晰度差异值进行调整，以得到任一视频帧图像集对应的选取差异值。利用目标配置参数对清晰度差异值进行调整，以得到任一视频帧图像集对应的选取差异值的方式为：将任一视频帧图像集对应的清晰度差异值和目标配置参数的乘积作为任一视频帧图像集对应的选取差异值。

步骤20313C、将任一视频帧图像集对应的选取差异值与任一视频帧图像集对应的选取比例值的差值作为任一视频帧图像集对应的目标函数值。

目标函数值是指选取差异值和选取比例值的差值。示例性地，对于任一视频帧图像集而言，确定该任一视频帧图像集对应的目标函数值的过程可以基于下述公式1实现：

其中，{x}表示至少一个视频帧图像的集合；{y}表示任一视频帧图像集，也就是说，{y}∈{x}；std({y})表示任一视频帧图像集对应的清晰度差异值(用标准差表示)；α表示目标配置参数；α*std({D})表示任一视频帧图像集对应的选取差异值；k表示{g}中的视频帧图像的数量；N(不小于1的整数)表示至少一个视频帧图像的数量；

表示任一视频帧图像集对应的选取比例值；f({x})表示任一视频帧图像集对应的目标函数值。在一种可能实现方式中，为减少计算量，设置k的取值范围，例如，

在上述公式1中，要想让目标函数的值尽量小，意味着让

尽量大，让std({y})尽量小，也即选取用来确定视频对应的清晰度结果的视频帧图像尽量多，同时所选的视频帧图像的标准差尽量小。

需要说明的是，对于某一固定的目标视频而言，公式1中的配置参数α是固定的。针对不同视频类型的视频，α的取值不同。在示例性实施例中，对于生活随拍等普通视频，配置参数α的取值为2，即尽可能选取绝大多数视频帧图像并且排除偶发的运动模糊帧图像；对于韩舞街舞等视频，配置参数α的取值为5，从而排除经常出现的剧烈运动模糊和炫目炫光帧图像的影响。需要说明的是，对于确实整体感受不清晰的街舞韩舞视频，最清晰的前N/3数量的视频帧图像对应的清晰度分值的平均分值不可能为高分，因此不会误把不清晰的街舞韩舞视频打上很高的清晰度分值。

步骤20313D、在至少一个视频帧图像集分别对应的目标函数值中，确定最小的目标函数值；将最小的目标函数值对应的视频帧图像集作为目标视频帧图像集。

要想使目标函数值尽量小，需要使选取比例值尽量大，并且选取差异值尽量小。也就是剔除因特效、运动过快等导致的不与视频清晰度匹配的严重低清晰度的视频帧图像。通常而言，选取比例值尽量大和选取差异值尽量小是两个相互对立的目标，选帧比例值越大，选帧差异性值越大，选帧比例值越小，选帧差异性值越小。将最小的目标函数值对应的视频帧图像集作为目标视频帧图像集，有利于从选取比例值尽量大和选取差异值尽量小的设计角度，确定出最合适的目标视频帧图像集。

将目标视频帧图像中的视频帧图像称为目标视频帧图像，目标视频帧图像的数量为一个或多个。在确定目标视频帧图像集后，将目标视频帧图像集中的至少一个目标视频帧图像作为代表图像，由此，得到至少一个代表图像。该至少一个代表图像代表即为用于确定目标视频对应的清晰度结果较为合适的视频帧图像。

步骤2032：基于至少一个代表图像分别对应的清晰度结果，确定目标视频对应的清晰度结果。

在一种可能实现方式中，基于至少一个代表图像分别对应的清晰度结果，确定目标视频对应的清晰度结果的方式为：为至少一个代表图像分别设置权重；将任一代表图像对应的清晰度结果与该任一代表图像对应的权重的乘积作为该任一代表图像对应的子清晰度结果；将各个代表图像分别对应的子清晰度结果的和作为目标视频对应的清晰度结果。当然，在一种可能实现方式中，还可以直接将各个代表图像分别对应的清晰度结果的平均结果作为目标视频对应的清晰度结果。

根据视频帧图像对应的清晰度结果确定目标视频对应的清晰度结果的过程为根据帧融合的方式确定视频清晰度的过程。由于视频的视频类型多种多样，视频内的视频帧图像的分布也很不一样，本申请实施例中利用的帧融合方式为基于非线性规划系统的可配置帧融合方式，通过对不同的视频类型做合适的配置，使得每种视频类型的视频能够得到合适的清晰度结果，更好地适应了广泛的通用视频类型的视频。

在一种可能实现方式中，确定目标视频对应的清晰度结果之后，还包括：根据目标视频对应的清晰度结果，确定目标视频的处理方式；根据目标视频的处理方式处理目标视频。

目标视频对应的清晰度结果指示目标视频的清晰度，根据目标视频对应的清晰度结果，能够确定目标视频的清晰度，进而根据目标视频的清晰度确定目标视频的处理方式。在一种可能实现方式中，视频的处理方式用于指示将目标视频推荐给交互对象的频率。不同清晰度的视频具有不同的处理方式，也就是说，不同清晰度的视频具有不同的推荐给交互对象的频率。示例性地，当视频的清晰度为超不清晰时，说明该视频的清晰度会严重降低交互对象的观看体验，不予推荐该视频，此时，将该视频推荐给交互对象的频率为0；当视频的清晰度为不清晰时，说明该视频会一定程度上降低用户的观看体验，减少推荐该视频，此时，将该视频推荐给交互对象的频率较低；当视频的清晰度为清晰时，增加该视频的推荐量，此时，将该视频推荐给交互对象的频率较高。

根据本申请实施例提供的方法，可以确定每个视频对应的清晰度结果。示例性地，清晰度结果为清晰度分值，根据清晰度分值可以确定清晰度档位。此外，清晰度分值可以直接呈现给视频制作者，引导视频制作者制作更优质清晰度更高的视频，提升整个视频播放场景的清晰度整体感受和体验。

基于本申请实施例，可帮助技术人员从零开始搭建一个通用的视频清晰度识别系统，该视频清晰度识别系统能够确定视频的清晰度。利用本申请实施例提供的方法确定视频的清晰度并根据清晰度对视频进行差异化处理后，能够显著提升打击低清晰度视频的准确率，提升推荐高清晰度视频的准确率和召回率，有效改善交互对象的视频观看体验。

在本申请实施例中，在确定视频帧图像对应的清晰度结果的过程中，综合考虑视频帧图像在纹理方面的特征和在语义方面的特征，考虑的方面较全面，有利于提高视频帧图像对应的清晰度结果的准确度，从而提高根据视频帧图像对应的清晰度结果确定的目标视频对应的清晰度结果的准确度，视频清晰度的确定效果较好。

参见图5，本申请实施例提供了一种视频清晰度的确定装置，该装置包括：

第一获取单元501，用于获取目标视频对应的至少一个视频帧图像；

特征提取单元502，用于对于至少一个视频帧图像中的任一视频帧图像，提取任一视频帧图像的纹理特征和语义特征；

第一确定单元503，用于基于任一视频帧图像的纹理特征和语义特征，确定任一视频帧图像对应的清晰度结果；

第二确定单元504，用于基于至少一个视频帧图像分别对应的清晰度结果，确定目标视频对应的清晰度结果。

在一种可能实现方式中，特征提取单元502，用于调用目标纹理特征提取模型提取任一视频帧图像的纹理特征；调用目标语义特征提取模型提取任一视频帧图像的语义特征；

第一确定单元503，用于基于任一视频帧图像的纹理特征和语义特征，获取任一视频帧图像的目标特征；调用目标清晰度评估模型对任一视频帧图像的目标特征进行评估处理，得到任一视频帧图像对应的清晰度结果。

在一种可能实现方式中，目标纹理特征提取模型包括至少一个依次连接的纹理子特征提取模型；特征提取单元502，还用于将任一视频帧图像输入目标纹理特征提取模型中的第一个纹理子特征提取模型，得到任一视频帧图像的第一个纹理子特征；将第一个纹理子特征输入目标纹理特征提取模型中的第二个纹理子特征提取模型，得到第二个纹理子特征提取模型输出的任一视频图像的第二个纹理子特征，以此类推，将前一个纹理子特征提取模型输出的纹理子特征输入下一个纹理子特征提取模型，得到下一个纹理子特征提取模型输出的纹理子特征，直至得到最后一个纹理子特征提取模型输出的纹理子特征；将任一视频帧图像的各个纹理子特征进行拼接处理，得到任一视频帧图像的纹理特征。

在一种可能实现方式中，第二确定单元504，用于基于至少一个视频帧图像分别对应的清晰度结果，在至少一个视频帧图像中确定至少一个代表图像；基于至少一个代表图像分别对应的清晰度结果，确定目标视频对应的清晰度结果。

在一种可能实现方式中，第二确定单元504，还用于确定目标视频的视频类型，查询与目标视频的视频类型对应的目标配置参数；基于至少一个视频帧图像分别对应的清晰度结果，对至少一个视频帧图像进行排序；基于排序后的至少一个视频帧图像，得到满足选取条件的至少一个视频帧图像集；基于目标配置参数，在至少一个视频帧图像集中确定满足参考条件的目标视频帧图像集，将目标视频帧图像集中的至少一个目标视频帧图像作为代表图像。

在一种可能实现方式中，第二确定单元504，还用于对于至少一个视频帧图像集中的任一视频帧图像集，将任一视频帧图像集中的视频帧图像的数量与至少一个视频帧图像的数量的比值作为任一视频帧图像集对应的选取比例值；基于任一视频帧图像集中的各个视频帧图像分别对应的清晰度结果，确定任一视频帧图像集对应的清晰度差异值，将任一视频帧图像集对应的清晰度差异值和目标配置参数的乘积作为任一视频帧图像集对应的选取差异值；将任一视频帧图像集对应的选取差异值与任一视频帧图像集对应的选取比例值的差值作为任一视频帧图像集对应的目标函数值；在至少一个视频帧图像集分别对应的目标函数值中，确定最小的目标函数值；将最小的目标函数值对应的视频帧图像集作为目标视频帧图像集。

在一种可能实现方式中，参见图6，该装置还包括：

第二获取单元505，用于获取第一训练图像集和目标语义特征提取模型，第一训练图像集包括至少一个第一训练图像和至少一个第一训练图像分别对应的标准清晰度结果；

训练单元506，还用于基于至少一个第一训练图像、至少一个第一训练图像分别对应的标准清晰度结果和目标语义特征提取模型，对第一纹理特征提取模型和第一清晰度评估模型进行训练，得到目标纹理特征提取模型和目标清晰度评估模型。

在一种可能实现方式中，第二获取单元505，还用于获取语义图像集，语义图像集包括至少一个语义图像和至少一个语义图像分别对应的标准语义结果；

训练单元506，还用于基于至少一个语义图像和至少一个语义图像分别对应的标准语义结果，对第一语义特征提取模型进行训练，得到目标语义特征提取模型。

在一种可能实现方式中，第二获取单元505，还用于获取待标注图像和至少一个边界图像集，任一边界图像集由至少一种目标类型的边界图像构成，各个边界图像集分别对应一种清晰度边界，不同的边界图像集对应不同的清晰度边界；

参见图6，该装置还包括：

第三确定单元507，用于响应于待标注图像的类型为至少一种目标类型中的任一目标类型，将任一边界图像集中任一目标类型的边界图像作为任一边界图像集中的待比对图像；将待标注图像与任一边界图像集中的待比对图像的比对结果作为待标注图像与任一边界图像集对应的清晰度边界的比对结果；基于待标注图像与各个边界图像集对应的清晰度边界的比对结果，确定待标注图像对应的标准清晰度结果，将具有标准清晰度结果的待标注图像作为第一训练图像。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本申请实施例提供的一种服务器的结构示意图，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)701和一个或多个存储器702，其中，该一个或多个存储器702中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器701加载并执行，以实现上述各个方法实施例提供的视频清晰度的确定方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

图8是本申请实施例提供的一种终端的结构示意图。该终端可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的视频清晰度的确定方法。

在一些实施例中，终端还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在终端的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端的当前地理位置，以实现导航或LBS(Location BasedService，基于位置的服务)。定位组件808可以是基于美国的GPS(Global PositioningSystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端的前面板。接近传感器816用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行，以实现上述任一种视频清晰度的确定方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种视频清晰度的确定方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种视频清晰度的确定方法。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频清晰度的确定方法，其特征在于，所述方法包括：

获取目标视频对应的至少一个视频帧图像；

对于所述至少一个视频帧图像中的任一视频帧图像，调用目标纹理特征提取模型提取所述任一视频帧图像的纹理特征，调用目标语义特征提取模型提取所述任一视频帧图像的语义特征，所述目标语义特征提取模型用于提供视频场景语义方面的信息以提取所述语义特征；基于所述任一视频帧图像的纹理特征和语义特征，确定所述任一视频帧图像对应的清晰度结果；

2.根据权利要求1所述的方法，其特征在于，所述基于所述任一视频帧图像的纹理特征和语义特征，确定所述任一视频帧图像对应的清晰度结果，包括：

基于所述任一视频帧图像的纹理特征和语义特征，获取所述任一视频帧图像的目标特征；

调用目标清晰度评估模型对所述任一视频帧图像的目标特征进行评估处理，得到所述任一视频帧图像对应的清晰度结果。

3.根据权利要求2所述的方法，其特征在于，所述目标纹理特征提取模型包括至少一个依次连接的纹理子特征提取模型；所述调用目标纹理特征提取模型提取所述任一视频帧图像的纹理特征，包括：

将所述任一视频帧图像输入所述目标纹理特征提取模型中的第一个纹理子特征提取模型，得到所述任一视频帧图像的第一个纹理子特征；

将所述第一个纹理子特征输入所述目标纹理特征提取模型中的第二个纹理子特征提取模型，得到所述第二个纹理子特征提取模型输出的所述任一视频帧图像的第二个纹理子特征，以此类推，将前一个纹理子特征提取模型输出的纹理子特征输入下一个纹理子特征提取模型，得到下一个纹理子特征提取模型输出的纹理子特征，直至得到最后一个纹理子特征提取模型输出的纹理子特征；

将所述任一视频帧图像的各个纹理子特征进行拼接处理，得到所述任一视频帧图像的纹理特征。

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述至少一个视频帧图像分别对应的清晰度结果，确定所述目标视频对应的清晰度结果，包括：

基于所述至少一个视频帧图像分别对应的清晰度结果，在所述至少一个视频帧图像中确定至少一个代表图像；

基于所述至少一个代表图像分别对应的清晰度结果，确定所述目标视频对应的清晰度结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个视频帧图像分别对应的清晰度结果，在所述至少一个视频帧图像中确定至少一个代表图像，包括：

确定所述目标视频的视频类型，查询与所述目标视频的视频类型对应的目标配置参数；

基于所述至少一个视频帧图像分别对应的清晰度结果，对所述至少一个视频帧图像进行排序；基于排序后的至少一个视频帧图像，得到满足选取条件的至少一个视频帧图像集；

基于所述目标配置参数，在所述至少一个视频帧图像集中确定满足参考条件的目标视频帧图像集，将所述目标视频帧图像集中的至少一个目标视频帧图像作为代表图像。

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标配置参数，在所述至少一个视频帧图像集中确定满足参考条件的目标视频帧图像集，包括：

对于所述至少一个视频帧图像集中的任一视频帧图像集，将所述任一视频帧图像集中的视频帧图像的数量与所述至少一个视频帧图像的数量的比值作为所述任一视频帧图像集对应的选取比例值；

基于所述任一视频帧图像集中的各个视频帧图像分别对应的清晰度结果，确定所述任一视频帧图像集对应的清晰度差异值，将所述任一视频帧图像集对应的清晰度差异值和所述目标配置参数的乘积作为所述任一视频帧图像集对应的选取差异值；

将所述任一视频帧图像集对应的选取差异值与所述任一视频帧图像集对应的选取比例值的差值作为所述任一视频帧图像集对应的目标函数值；

在至少一个视频帧图像集分别对应的目标函数值中，确定最小的目标函数值；将所述最小的目标函数值对应的视频帧图像集作为目标视频帧图像集。

7.根据权利要求1所述的方法，其特征在于，所述调用目标纹理特征提取模型提取所述任一视频帧图像的纹理特征，调用目标语义特征提取模型提取所述任一视频帧图像的语义特征之前，所述方法还包括：

获取第一训练图像集和目标语义特征提取模型，所述第一训练图像集包括至少一个第一训练图像和所述至少一个第一训练图像分别对应的标准清晰度结果；

基于所述至少一个第一训练图像、所述至少一个第一训练图像分别对应的标准清晰度结果和所述目标语义特征提取模型，对第一纹理特征提取模型和第一清晰度评估模型进行训练，得到目标纹理特征提取模型和目标清晰度评估模型。

8.根据权利要求7所述的方法，其特征在于，所述获取第一训练图像集和目标语义特征提取模型之前，所述方法还包括：

获取语义图像集，所述语义图像集包括至少一个语义图像和所述至少一个语义图像分别对应的标准语义结果；

基于所述至少一个语义图像和所述至少一个语义图像分别对应的标准语义结果，对第一语义特征提取模型进行训练，得到目标语义特征提取模型。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

获取待标注图像和至少一个边界图像集，任一边界图像集由至少一种目标类型的边界图像构成，各个边界图像集分别对应一种清晰度边界，不同的边界图像集对应不同的清晰度边界；

响应于所述待标注图像的类型为所述至少一种目标类型中的任一目标类型，将任一边界图像集中所述任一目标类型的边界图像作为所述任一边界图像集中的待比对图像；将所述待标注图像与所述任一边界图像集中的待比对图像的比对结果作为所述待标注图像与所述任一边界图像集对应的清晰度边界的比对结果；

基于所述待标注图像与各个边界图像集对应的清晰度边界的比对结果，确定所述待标注图像对应的标准清晰度结果，将具有标准清晰度结果的待标注图像作为第一训练图像。

10.一种视频清晰度的确定装置，其特征在于，所述装置包括：

特征提取单元，用于对于所述至少一个视频帧图像中的任一视频帧图像，调用目标纹理特征提取模型提取所述任一视频帧图像的纹理特征，调用目标语义特征提取模型提取所述任一视频帧图像的语义特征；所述目标语义特征提取模型用于提供视频场景语义方面的信息以提取所述语义特征；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至9任一所述的视频清晰度的确定方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至9任一所述的视频清晰度的确定方法。