CN111597361B

CN111597361B - 多媒体数据处理方法、装置、存储介质及设备

Info

Publication number: CN111597361B
Application number: CN202010425694.9A
Authority: CN
Inventors: 张亚彬; 贺思颖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2021-09-14
Anticipated expiration: 2040-05-19
Also published as: CN111597361A

Abstract

本申请实施例公开了一种多媒体数据处理方法、装置、存储介质及设备，主要人工智能‑计算机视觉相关技术，其中，该方法包括：获取样本数据序列，该样本数据序列包括至少两个样本多媒体数据的清晰度标签；按照该清晰度标签在样本数据序列中的排列顺序，在识别模型中，依次预测该至少两个样本多媒体数据的预测清晰度，获取至少两个样本多媒体数据的预测清晰度对应的输出顺序；根据清晰度标签在该样本数据序列中的排列顺序、该输出顺序、该清晰度标签以及该预测清晰度对该识别模型进行调整，将调整后的识别模型确定为目标识别模型；目标识别模型用于预测目标多媒体数据的清晰度。通过本申请能够提高多媒体数据的清晰度的预测准确度以及预测效率。

Description

多媒体数据处理方法、装置、存储介质及设备

技术领域

本申请涉及人工智能-计算机视觉相关的技术领域，尤其涉及一种多媒体数据处理方法、装置、存储介质及设备。

背景技术

随着互联网技术的快速发展，多媒体数据成为用户快速、直观地获取信息的通道。因此，越来越多的多媒体机构均在大力发展多媒体数据业务，多媒体数据业务是指由用户将拍摄并剪辑得到的多媒体数据(即视频数据或图像)上传至多媒体数据平台，多媒体数据平台对应的终端向用户推荐多媒体数据。为了用户能够快速地查找到合适的多媒体数据，通常终端根据多媒体数据的清晰度为用户推荐多媒体数据，因此，预测多媒体数据的清晰度成为不可或缺的技术。目前仅依靠人工审核的方式预测多媒体数据的清晰度，这种方式的效率比较低，而且容易受到人的主观影响，准确性比较低。

发明内容

本申请实施例所要解决的技术问题在于，提供一种多媒体数据处理方法、装置、存储介质及设备，能够提高多媒体数据的清晰度的预测准确度以及预测效率。

本申请实施例一方面提供一种多媒体数据处理方法，包括：

获取样本数据序列，上述样本数据序列包括至少两个样本多媒体数据的清晰度标签；

按照上述清晰度标签在上述样本数据序列中的排列顺序，在识别模型中，依次预测上述至少两个样本多媒体数据的预测清晰度，获取上述至少两个样本多媒体数据的预测清晰度对应的输出顺序；

根据上述清晰度标签在上述样本数据序列中的排列顺序、上述输出顺序、上述清晰度标签以及上述预测清晰度对上述识别模型进行调整，将调整后的识别模型确定为目标识别模型；上述目标识别模型用于预测目标多媒体数据的清晰度。

本申请实施例一方面提供一种多媒体数据处理装置，包括：

获取模块，用于获取样本数据序列，上述样本数据序列包括至少两个样本多媒体数据的清晰度标签；

预测模块，用于按照上述清晰度标签在上述样本数据序列中的排列顺序，在识别模型中，依次预测上述至少两个样本多媒体数据的预测清晰度，获取上述至少两个样本多媒体数据的预测清晰度对应的输出顺序；

调整模块，用于根据上述清晰度标签在上述样本数据序列中的排列顺序、上述输出顺序、上述清晰度标签以及上述预测清晰度对上述识别模型进行调整，将调整后的识别模型确定为目标识别模型；上述目标识别模型用于预测目标多媒体数据的清晰度。

可选的，调整模块，具体用于获取上述至少两个样本多媒体数据中，每个样本多媒体数据的预测清晰度与对应的清晰度标签之间的误差，作为第一误差；将上述至少两个样本多媒体数据分别对应的上述第一误差之间的和，确定为上述识别模型的清晰度识别损失值；根据上述清晰度标签在上述样本数据序列中的排列顺序以及上述输出顺序，确定上述识别模型的顺序识别损失值；根据上述清晰度识别损失值以及上述顺序识别损失值生成上述识别模型的总损失值；若上述总损失值不满足收敛条件，则根据上述总损失值对上述识别模型进行调整。

可选的，调整模块，具体用于根据上述清晰度标签在上述样本数据序列中的排列顺序，确定相邻的上述清晰度标签之间的第一变化差异；根据上述输出顺序确定相邻的上述预测清晰度之间的第二变化差异；获取上述第一变化差异与上述第二变化差异之间的乘积，根据上述第一变化差异与上述第二变化差异之间的乘积，生成上述识别模型的顺序识别损失值。

可选的，预测模块，具体用于按照上述清晰度标签在上述样本数据序列中的排列顺序，在识别模型中，依次提取上述至少两个样本多媒体数据的语义特征信息以及视觉特征信息；根据上述语义特征信息以及上述视觉特征信息预测上述至少两个样本多媒体数据的预测清晰度。

可选的，上述识别模型包括第一特征提取层以及第二特征提取层；

可选的，预测模块，具体用于按照上述清晰度标签在上述样本数据序列中的排列顺序，采用上述第一特征提取层依次提取上述至少两个样本多媒体数据的像素信息；采用上述像素信息生成上述至少两个样本多媒体数据的视觉特征信息；按照上述清晰度标签在上述样本数据序列中的排列顺序，采用上述第二特征提取层依次提取上述至少两个样本多媒体数据对应的环境信息；采用上述环境信息生成上述至少两个样本多媒体数据的语义特征信息。

可选的，获取模块，具体用于接收至少两个终端针对上述至少两个样本多媒体数据所发送的候选清晰度；对上述至少两个样本多媒体数据的候选清晰度进行过滤，得到上述至少两个样本多媒体数据的有效清晰度；将上述至少两个样本多媒体数据的有效清晰度确定为上述至少两个样本多媒体数据的清晰度标签。

可选的，获取模块，具体用于在目标终端针对上述至少两个样本多媒体数据所发送的候选清晰度中，统计相同候选清晰度出现的次数；上述目标终端属于上述至少两个终端；若上述次数大于次数阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述目标终端所发送的候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

可选的，获取模块，具体用于获取目标终端针对目标样本多媒体数据所发送的第一候选清晰度和第二候选清晰度；上述目标终端属于上述至少两个终端，上述目标样本多媒体数据属于上述至少两个样本多媒体视频数据；获取上述第一候选清晰度和上述第二候选清晰度之间的误差，作为第二误差；若上述第二误差大于第一误差阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述第一候选清晰度以及上述第二候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

可选的，获取模块，具体用于根据目标终端针对上述至少两个样本多媒体数据所发送的候选清晰度，确定第一平均候选清晰度；上述目标终端属于上述至少两个终端；根据剩余终端针对上述至少两个样本多媒体数据所发送的候选清晰度，确定第二平均候选清晰度；上述剩余终端为上述至少两个终端中除上述目标终端以外的终端；获取上述第一平均候选清晰度与上述第二平均候选清晰度之间的误差，作为第三误差；若上述第三误差大于第二误差阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述目标终端所发送的候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

可选的，上述装置还包括：筛选模块，用于获取候选多媒体数据集合；统计上述候选多媒体数据集合中的候选多媒体数据所包括的图像数量，作为第一数量；

确定上述候选多媒体数据集合中的候选多媒体数据包括人脸的图像数量，作为第二数量；获取上述第二数量与上述第一数量之间的占比；从上述候选多媒体数据集合中筛选对应占比大于占比阈值的候选多媒体数据，作为上述至少两个样本多媒体数据。

可选的，上述装置还包括：处理模块，用于获取候选多媒体数据集合；若上述候选多媒体数据集合中的候选多媒体数据包括第一类图像，则对上述第一类图像进行填充处理；上述第一类图像为图像尺寸小于图像尺寸阈值的图像；若候选多媒体数据集合中的候选多媒体数据包括第二类图像，则对上述第二类图像进行缩小处理；上述第二类图像为图像尺寸大于上述图像尺寸阈值的图像；将处理后的候选多媒体数据集合中的候选多媒体数据，确定为上述至少两个样本多媒体数据。

可选的，上述装置还包括：推荐模块，用于响应针对多媒体数据的获取请求，根据上述获取请求获取目标多媒体数据；采用上述目标识别模型预测上述目标多媒体数据的清晰度；根据上述目标多媒体数据的清晰度推荐上述目标多媒体数据。

本申请一方面提供了一种计算机设备，包括：处理器及存储器；

其中，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行如下步骤：

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，上述程序指令当被处理器执行时，以执行如下步骤：

本申请，通过根据该清晰度标签在样本数据序列中的排列顺序、上述输出顺序、清晰地标签以及预测清晰度对该识别模型进行调整；有利于使样本多媒体数据的预测清晰度，与该样本多媒体数据的清晰度标签更加匹配，同时，有利于使排序顺序相邻的清晰度标签之间的大小关系，与对应输出顺序相邻的预测清晰度标签之间的大小关系匹配；即可有效避清晰度标签比较大的样本多媒体数据被预测得到的预测清晰度比较小，以及清晰度标签比较小的样本多媒体数据被预测得到的预测清晰度比较大的问题，可提高目标识别模型的预测准确度。目标识别模型可用户识别目标多媒体数据的清晰度，不需要人工，提高针对目标多媒体数据的清晰度的获取效率以及获取准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种多媒体数据处理系统的架构示意图；

图2a为本申请实施例提供的一种多媒体数据处理系统的交互示意图；

图2b为本申请实施例提供的一种多媒体数据处理系统的交互示意图；

图3是本申请提供的一种多媒体数据处理方法的流程示意图；

图4a是本申请提供的一种清晰度标签与样本多媒体数据的数量之间的关系示意图；

图4b是本申请提供的一种终端所发送的清晰度标签的示意图；

图5是本申请提供的一种获取识别模型的清晰度识别损失值以及顺序识别损失值的场景示意图；

图6是本申请提供的一种样本多媒体数据的预测清晰度与样本多媒体数据的数量之间的关系示意图；

图7是本申请提供的一种样本多媒体数据的预测清晰度与清晰度标签之间的关系示意图；

图8是本申请实施例提供的一种多媒体数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大多媒体数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频体处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的多媒体数据处理方法主要涉及人工智能-计算机视觉相关技术，即通过对多媒体数据进行分析处理，得到多媒体数据的清晰度，根据多媒体数据的清晰度对多媒体数据进行推荐。首先介绍本申请的多媒体数据处理方法可应用于多媒体数据处理系统，如图1所示，该多媒体数据处理系统中包括服务器10、发布终端11以及至少两个接收终端，图1中以包括两个接收终端为例，分别为接收终端12以及接收终端13。

其中，发布终端11可以是指面向发布者的终端，即发布终端11可以是指发布者用于录制多媒体数据，并将多媒体数据发布至多媒体数据平台的终端。多媒体数据可以是指网络直播数据以及非网络直播数据，网络直播数据可以是指发布者在录制多媒体数据的同时，将所录制的多媒体数据实时发布至多媒体数据平台的数据，具体包括直播视频数据(如购物直播数据、网络教学数据、视频会议数据、赛事直播数据以及游戏解说直播数据)、直播语音数据(如在线演唱数据)等等；非网络直播数据可以是指发布者将多媒体数据录制完成后，将多媒体数据发布至多媒体数据平台的数据；具体可包括视频数据、语音数据以及文本数据等等。多媒体数据平台可以是指多媒体网站平台(论坛、贴吧)、社交应用平台、购物应用平台、内容交互平台(如视频应用平台)等等。接收终端12以及接收终端13均可以是指接收者用于从服务器10中获取多媒体数据的终端。服务器10可以是指多媒体数据平台的后端服务设备，具体可用于获取多媒体数据的清晰度，根据多媒体数据的清晰度为接收终端推荐多媒体数据。服务器10具体可以是多媒体数据处理服务器、web服务器、多媒体数据APP对应的应用服务器等等。

其中，服务器10可以是独立的一个物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。接收终端12、接收终端13以及发布终端11均可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，服务器10可以作为多媒体数据识别设备，即该服务器10可以包括用于进行多媒体数据的清晰度预测的识别模型，服务器10可采用识别模型预测多媒体数据的清晰度。该识别模型可以是指基于隐马尔可夫模型(Hidden Markov Model，HMM)的识别模型，例如混合高斯-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(DeepNeural Networks Hidden Markov Model，DNN-HMM)；当然，还可以包括端到端(End toEnd)的识别模型，例如连接时序分类(Connectionist Temporal Classification，CTC)模型、长短时记忆(Long-Short Term Memory，LSTM)模型和注意力(Attention)模型。为了提高识别模型的预测准确度，服务器10可以对该识别模型进行调整；具体的，如图2a所示，服务器10可以获取样本数据序列；该样本数据序列包括至少两个样本多媒体数据的清晰度标签，样本多媒体数据可以是从多个多媒体数据平台中下载得到的，或者，样本多媒体数据可以是从服务器本地存储中所获取到得的。样本多媒体数据的清晰度标签可以是人工标注得到的；清晰度标签按照一定的顺序排列在样本数据序列中。例如，清晰度标签在样本数据序列中的排列顺序可以是根据各个样本多媒体数据的属性信息确定的，属性信息可以包括多媒体样本数据的录制时间(即生成时间)、样本多媒体数据的清晰度标签的生成时间、样本多媒体数据的清晰度标签的大小、样本多媒体数据的数据量的大小等中的至少一种。进一步，按照该清晰度标签在该样本数据序列中的排列顺序，在识别模型中，依次预测该至少两个样本多媒体数据的预测清晰度，获取该至少两个样本多媒体数据的预测清晰度对应的输出顺序；样本多媒体数据的预测清晰度对应的输出顺序与该样本多媒体数据的清晰度标签在样本数据序列中的排列顺序相同。如图2a中，样本数据列表中包括样本数据a和样本数据b的清晰度标签，样本数据a的清晰度标签在样本数据列表中的排列顺序位于样本数据b的清晰度标签的排列顺序之前。因此，计算机设备可以在T时刻预测样本多媒体数据a的预测清晰度，在T+1时刻预测样本多媒体数据b的预测清晰度；即样本多媒体数据a的预测清晰度是在T时刻输出的，样本多媒体数据b的预测清晰度是在T+1时刻输出的；因此，即样本多媒体数据a的预测清晰度的输出顺序位于样本多媒体数据b的预测清晰度的输出顺序之前。然后，可根据该清晰度标签在样本数据序列中的排列顺序、上述输出顺序、清晰地标签以及预测清晰度对该识别模型进行调整；将调整后的识别模型确定为目标识别模型。通过根据该清晰度标签在样本数据序列中的排列顺序、上述输出顺序、清晰地标签以及预测清晰度对该识别模型进行调整；有利于使样本多媒体数据的预测清晰度，与该样本多媒体数据的清晰度标签更加匹配，同时，有利于使排序顺序相邻的清晰度标签之间的大小关系，与对应输出顺序相邻的预测清晰度标签之间的大小关系匹配，即有利于使相邻多媒体样本数据的预测清晰度之间的大小关系，与对应的清晰度标签之间的大小关系匹配，可提高目标识别模型的预测准确度。上述排序顺序相邻的清晰度标签之间的大小关系，与对应输出顺序相邻的预测清晰度标签之间的大小关系匹配，具体可以是指：如上述多媒体数据a的清晰度标签大于样本多媒体数据b的清晰度标签，且多媒体数据a的预测清晰度大于样本多媒体数据b的预测清晰度；或者，上述多媒体数据a的清晰度标签小于样本多媒体数据b的清晰度标签，且多媒体数据a的预测清晰度小于样本多媒体数据b的预测清晰度；简而言之，清晰度标签较大的样本多媒体数据对应的预测清晰度比较大；清晰度标签较小的样本多媒体数据对应的预测清晰度比较小。

在获取到目标识别模型后，可采用目标识别模型预测目标多媒体数据的清晰度，如图2b所示，服务器10可以从发布终端11中获取目标多媒体数据，将目标多媒体数据进行本地存储；此处目标多媒体数据可以是由发布终端发布的任一个或多个多媒体数据，图2b中以该目标多媒体数据为视频直播数据为例。进一步，可接收终端12针对本地存储的目标多媒体数据的获取请求，该获取请求可包括目标多媒体数据的标识、类别等属性信息。服务器10可以根据该获取请求从本地存储读取目标多媒体数据，采用目标识别模型预测该目标多媒体数据的清晰度，根据该目标多媒体数据的清晰度推荐该目标多媒体数据；即根据目标多媒体数据的清晰度对目标多媒体数据进行排序，将排序后的目标多媒体数据发送至接收终端。也就是说，通过目标识别模型可自动获取目标多媒体数据的清晰度，不需要人工参与，提高目标多媒体数据的清晰度识别的效率以及准确度。

基于上述的描述，请参见图3，是本申请实施例提供的一种多媒体数据处理方法的流程示意图。该方法可由计算机设备来执行，该计算机设备可以是指图1中的服务器10，如图3所示，该多媒体数据处理方法可以包括如下步骤S101～S104。

S101、获取样本数据序列，该样本数据序列包括至少两个样本多媒体数据的清晰度标签。

计算机设备可以从多个多媒体数据平台中获取多媒体数据，或者，可以从本地存储中获取多媒体数据，将所获取得到的多媒体数据作为样本多媒体数据；可获取用户针对样本多媒体数据所输入的清晰度，将所输入的清晰度作为样本多媒体数据的清晰度标签。在获取到至少两个样本多媒体数据的清晰度标签后，可以将至少两个多媒体数据的清晰度标签，按序排列在样本数据序列中。清晰度标签在样本数据序列中的排列顺序可以是：根据各个样本多媒体数据的属性信息确定的；属性信息可以包括多媒体样本数据的录制时间(即生成时间)、样本多媒体数据的清晰度标签的生成时间、样本多媒体数据的清晰度标签的大小、样本多媒体数据的数据量的大小等中的至少一种。

S102、按照该清晰度标签在该样本数据序列中的排列顺序，在识别模型中，依次预测该至少两个样本多媒体数据的预测清晰度，获取该至少两个样本多媒体数据的预测清晰度对应的输出顺序。

计算机设备可以按照该清晰度标签在该样本数据序列中的排列顺序，在识别模型中，依次预测该至少两个样本多媒体数据的预测清晰度；如采用识别模型优先预测排列顺序靠前的样本多媒体数据的预测清晰度，然后预测排列顺序靠后的样本多媒体数据的预测清晰度。在获取到样本多媒体数据的预测清晰度后，可获取该至少两个样本多媒体数据的预测清晰度对应的输出顺序，样本多媒体数据的清晰度标签在样本数据序列中的排列顺序，与该样本多媒体数据的预测清晰度对应的输出顺序匹配。

例如，样本数据序列中包括样本多媒体数据a以及样本多媒体数据b的清晰度标签，样本多媒体数据a以及样本多媒体数据b的清晰度标签在样本数据序列中的排列顺序分别为1、2，即样本多媒体数据a的清晰度标签排列在样本多媒体数据b的清晰度标签之前。因此，可以采用识别模型先预测样本多媒体数据a的预测清晰度，然后预测样本多媒体数据b的预测清晰度，即将样本多媒体数据a、样本多媒体数据b依次输入至识别模型中进行预测，分别得到样本多媒体数据a、样本多媒体数据b的预测清晰度。也就是，将识别模型在第一时刻输出的预测清晰度作为样本多媒体数据a的预测清晰度，将识别模型在第二时刻输出的预测清晰度作为样本多媒体数据b的预测清晰度；第一时刻早于第二时刻，即可以样本多媒体数据a、样本多媒体数据b的预测清晰度的输出顺序分别为1、2。

S103、根据该清晰度标签在该样本数据序列中的排列顺序、该输出顺序、该清晰度标签以及该预测清晰度对该识别模型进行调整，将调整后的识别模型确定为目标识别模型；该目标识别模型用于预测目标多媒体数据的清晰度。

计算机设备可以根据样本多媒体数据的预测清晰度以及清晰度标签，生成识别模型的清晰度识别损失值；根据该清晰度标签在该样本数据序列中的排列顺序、该输出顺序，生成识别模型的顺序识别损失值；根据清晰度识别损失值以及顺序识别损失值对识别模型进行调整，即根据清晰度识别损失值以及顺序识别损失值对识别模型的各个层级的权重系数进行调整。此处清晰度识别损失值用于衡量样本多媒体数据的预测清晰度与清晰度标签之间的匹配度；如果匹配度越高，表明样本多媒体数据的预测清晰度与清晰度标签更接近，即样本多媒体数据的预测清晰度与清晰度标签之间的误差较小，这时识别模型的清晰度识别损失值较小，识别模型的清晰度预测准确度比较高；如果匹配度越低，表明样本多媒体数据的预测清晰度与清晰度标签之间的差异较大，即样本多媒体数据的预测清晰度与清晰度标签之间的误差较大，这时识别模型的清晰度识别损失值较大，识别模型的清晰度预测准确度比较低。顺序识别损失值用于衡量相邻的样本多媒体数据的预测清晰度之间的大小关系，与该相邻的样本多媒体数据的清晰度标签之间的大小关系的匹配度；如果该匹配度越高，表明清晰度标签较大的样本多媒体数据对应的预测清晰度也较大，清晰度标签较小的样本多媒体数据对应的预测清晰度也较小，这时识别模型的顺序识别损失值较小。如果该匹配度越低，表明清晰度标签较大的样本多媒体数据对应的预测清晰度较小，清晰度标签较小的样本多媒体数据对应的预测清晰度也较大，这时识别模型的顺序识别损失值较大。

在对识别模型调整之后，可以按照该清晰度标签在该样本数据序列中的排列顺序，在调整后的识别模型中，依次预测该至少两个样本多媒体数据的更新预测清晰度，获取该至少两个样本多媒体数据的更新预测清晰度对应的输出顺序。可根据样本多媒体数据的更新预测清晰度以及清晰度标签，生成调整后的识别模型的更新清晰度识别损失值；根据该清晰度标签在该样本数据序列中的排列顺序、该输出顺序，生成调整后的识别模型的更新顺序识别损失值。当调整后的识别模型的更新清晰度识别损失值以及更新顺序识别损失值均处于收敛状态时，可将调整后的识别模型作为目标识别模型；或者，当调整后的识别模型的更新清晰度识别损失值与更新顺序识别损失值之间的和处于收敛状态时，可将调整后的识别模型作为目标识别模型。通过根据该清晰度标签在样本数据序列中的排列顺序、上述输出顺序、清晰地标签以及预测清晰度对该识别模型进行调整；有利于使样本多媒体数据的预测清晰度，与该样本多媒体数据的清晰度标签更加匹配，同时，有利于使排序顺序相邻的清晰度标签之间的大小关系，与对应输出顺序相邻的预测清晰度标签之间的大小关系匹配；即可有效避清晰度标签比较大的样本多媒体数据被预测得到的预测清晰度比较小，以及清晰度标签比较小的样本多媒体数据被预测得到的预测清晰度比较大的问题，可提高目标识别模型的预测准确度。

本申请中，计算机设备可以获取样本数据序列，该样本数据序列包括至少两个样本多媒体数据的清晰度标签，按照清晰度标签在样本数据序列中的排列顺序，在识别模型中，依次预测至少两个样本多媒体数据的预测清晰度，获取至少两个样本多媒体数据的预测清晰度的输出顺序。根据输出顺序、至少两个多媒体数据的清晰度标签在样本数据序列中的排列顺序、预测清晰度、清晰度标签对识别模型进行调整，将调整后的识别模型确定为目标识别模型。通过根据该清晰度标签在样本数据序列中的排列顺序、上述输出顺序、清晰地标签以及预测清晰度对该识别模型进行调整；有利于使样本多媒体数据的预测清晰度，与该样本多媒体数据的清晰度标签更加匹配，同时，有利于使排序顺序相邻的清晰度标签之间的大小关系，与对应输出顺序相邻的预测清晰度标签之间的大小关系匹配；即可有效避清晰度标签比较大的样本多媒体数据被预测得到的预测清晰度比较小，以及清晰度标签比较小的样本多媒体数据被预测得到的预测清晰度比较大的问题，可提高目标识别模型的预测准确度。目标识别模型可用户识别目标多媒体数据的清晰度，不需要人工，提高针对目标多媒体数据的清晰度的获取效率以及获取准确度。

在一个实施例中，上述步骤S101可包括如下步骤s11～s13。

s11、接收至少两个终端针对该至少两个样本多媒体数据所发送的候选清晰度。

s12、对该至少两个样本多媒体数据的候选清晰度进行过滤，得到该至少两个样本多媒体数据的有效清晰度。

s13、将该至少两个样本多媒体数据的有效清晰度确定为该至少两个样本多媒体数据的清晰度标签。

在步骤s11～s13中，计算机设备可以将获取至少两个样本多媒体数据的清晰度标签的任务发布至网络中，以使连接至网络的至少两个终端对应的终端用户对至少两个样本多媒体数据进行标注，接收至少两个终端针对至少两个样本多媒体数据所标注的清晰度，将所标注的清晰度作为至少两个样本多媒体数据的候选清晰度。进一步，计算设备可以根据白名单、防水墙、候选清晰度之间的差异等等，对该至少两个样本多媒体数据的候选清晰度进行过滤，得到该至少两个多媒体数据的有效清晰度；例如，白名单中可包括多个可信度大于可信度阈值的终端，可信度可以是根据终端生成样本多媒体数据的清晰度标签的准确度确定的；计算机设备可以将上述至少两个终端中属于白名单的终端所发送的候选清晰度，确定为至少两个样本多媒体数据的有效清晰度。在获取到至少两个样本多媒体数据的有效清晰度之后，可以将至少两个样本多媒体数据的有效清晰度确定为该至少两个样本多媒体数据的清晰度标签，通过对至少两个样本多媒体数据的清晰度标签进行过滤，可提高样本多媒体数据的清晰度标签的准确度，进而，可提高识别模型的预测准确度。其中，上述防水墙可以是指一种过滤非法刷任务的终端所发送的候选清晰度的工具。

需要说明的是，至少两个终端针对该至少两个样本多媒体数据所发送的候选清晰度中包括：同一终端针对同一个样本多媒体数据在不同时刻所发送的候选清晰度；以及多个终端针对同一样本多媒体数据所发送的候选清晰度。也就是说，一个样本多媒体数据与一个或多个候选清晰度相对应，当对每个样本多媒体数据的候选清晰度过滤后，如果如目标样本多媒体数据包括多个有效清晰度，则可以对目标样本多媒体数据的有效清晰度进行平均化处理，将平均化处理后的有效清晰度确定为目标样本多媒体数据的清晰度标签；如果如目标样本多媒体数据包括一个有效清晰度，则可以将该目标样本多媒体数据的有效清晰度确定为目标样本多媒体数据的清晰度标签。

例如，由于同一个多媒体数据平台中的样本多媒体数据的质量(即清晰度)均很高或均很低，如果仅从一个多媒体数据平台中获取样本多媒体数据，容易导致样本多媒体数据的质量不均衡，影响识别模型的预测准确度。例如，如果计算机设备从第一多媒体数据平台中获取样本多媒体数据，并获取各个样本多媒体数据的清晰度标签，即各个样本多媒体数据的清晰度标签如图4a所示。图4a中横坐标表示样本多媒体数据的清晰度标签，清晰度标签越大(如3)，即样本多媒体数据的质量越高；清晰度标签越小(如1)，即样本多媒体数据的质量越低；纵坐标表示样本多媒体数据的数量。从图4a可知，第一多媒体数据平台中清晰度标签位于[1,2]内的样本多媒体数据的数量比较多，清晰度标签位于(2,3]中的样本多媒体数据的数量比较少。也就是说，第一多媒体平台的样本多媒体数据的清晰度标签大多数集中在[1,2]的范围内，即第一多媒体平台的样本多媒体数据的质量均偏低；如果仅采用第一多媒体数据平台中的样本多媒体数据对识别模型进行调整，容易使识别模型对质量偏低的多媒体数据的预测准确度比较高，对质量偏低的多媒体数据的预测准确度比较低。

因此，计算机设备可以从多个媒体数据平台中获取样本多媒体数据。具体的，计算设备可以从第一多媒体数据平台中获取至少两个直播视频数，从第二多媒体数据平台中获取至少两个条短视频数据，所获取的直播视频数据以及短视频数据作为样本多媒体数据。其中，第一多媒体数据平台的直播视频数据的质量(即清晰度)低于第二多媒体数据平台的短视频数据，通过从不同多媒体数据平台中获取样本多媒体数据，有利于使样本多媒体数据的来源分布均衡，即提高样本多媒体数据的多样性，有利于使识别模型的适用于预测多个多媒体数据平台的多媒体数据。然后选择众包方式生成关于获取样本多媒体数据的清晰度标签的任务，该任务包括至少两个样本多媒体数据，以及每个样本多媒体数据的待选清晰度，待选清晰度分别为1、2、3，待选清晰度1、2、3分别用于标识样本多媒体数据的清晰度对应的等级为低、中、高。通过设置三种待选清晰度，有利于降低终端生成样本多媒体数据的清晰度标签的复杂度；此处众包方式可以是指由多个终端协作来完成该任务的一种方式。可将该任务发布至白名单中的至少两个终端，将终端所选择的待选清晰作为终端所标注的清晰度，接收由至少两个终端所标注的清晰度，将所标注的清晰度作为至少两个样本多媒体数据的候选清晰度。如图4b所示，以6个样本多媒体数据为例，分别为样本多媒体数据a、样本多媒体数据b、样本多媒体数据c、样本多媒体数据d、样本多媒体数据e以及样本多媒体数据f；以白名单中包括终端1、终端2、终端3、终端4以及终端5为例；终端1针对样本多媒体数据a、样本多媒体数据b、样本多媒体数据c、样本多媒体数据d、样本多媒体数据e以及样本多媒体数据f所标注的清晰度分别为1、1、1、2、1、1；终端2针对样本多媒体数据a、样本多媒体数据b、样本多媒体数据c以及样本多媒体数据d、样本多媒体数据e以及样本多媒体数据f所标注的清晰度分别为1、2、3、2、3、2；终端3针对样本多媒体数据a、样本多媒体数据b、样本多媒体数据c以及样本多媒体数据d、样本多媒体数据e以及样本多媒体数据f所标注的清晰度分别为1、3、3、2、2、3；终端4针对样本多媒体数据a、样本多媒体数据b、样本多媒体数据c以及样本多媒体数据d、样本多媒体数据e以及样本多媒体数据f所标注的清晰度分别为2、3、3、2、3、1；终端5针对样本多媒体数据a、样本多媒体数据b、样本多媒体数据c以及样本多媒体数据d、样本多媒体数据e以及样本多媒体数据f所标注的清晰度分别为2、2、2、2、2、1。从图4b可知，终端1针对每个样本多媒体数据所标注的清晰度均为1，终端5对5个样本多媒体数据的清晰度标签设置为2，1个样本多媒体数据的清晰度标签设置为1；即终端1和终端5将为大多数样本多媒体数据均设置相同的清晰度标签。因此，可确定终端1以及终端5均存在恶意刷任务的行为，将终端1以及终端5所标注的清晰度作为无效的清晰度。计算设备可以根据终端2、终端4以及终端3所标注的清晰度确定为有效清晰度，根据终端2、终端4以及终端3所标注的清晰度确定该至少两个样本多媒体数据的清晰度标签。

需要说明的是，上述指出包括5个样本多媒体数据是为了便于说明，实际应用中，样本多媒体数据的数量可以为上百个或者，上千个，本申请对此不做限定。

在此实施例中，上述步骤s12可包括如下步骤s21～s22。

s21、在目标终端针对该至少两个样本多媒体数据所发送的候选清晰度中，统计相同候选清晰度出现的次数；该目标终端属于该至少两个终端。

s22、若该次数大于次数阈值，则从该至少两个样本多媒体数据的候选清晰度中删除该目标终端所发送的候选清晰度，得到该至少两个样本多媒体数据的有效清晰度。

在步骤s21～s22中，计算机设备可以在目标终端针对该至少两个样本多媒体数据所发送的候选清晰度中，统计相同候选清晰度出现的次数；如果该次数大于次数阈值，表明该目标终端针对至少两个样本多媒体数据中的大多数样本多媒体数据均标注了相同的候选清晰度，即该目标终端存在恶意刷任务行为。因此，可以将该目标终端所发送的候选清晰度作为无效清晰度，即可从该至少两个样本多媒体数据的候选清晰度中删除该目标终端所发送的候选清晰度，并保留剩余的候选清晰度，从而得到该至少两个样本多媒体数据的有效清晰度。如果该次数小于或等于次数阈值，表明该目标终端针对至少两个样本多媒体数据中仅存在少数样本多媒体数据的候选清晰度相同，即该目标终端不存在恶意刷任务行为。因此，可以将该目标终端所发送的候选清晰度作为有效清晰度，将该目标终端所发送的候选清晰度保留。

可选的，上述步骤s12可包括如下步骤s31～s33。

s31、获取目标终端针对目标样本多媒体数据所发送的第一候选清晰度和第二候选清晰度；该目标终端属于该至少两个终端，该目标样本多媒体数据属于该至少两个样本多媒体视频数据。

s32、获取该第一候选清晰度和该第二候选清晰度之间的误差，作为第二误差。

s323、若该第二误差大于第一误差阈值，则从该至少两个样本多媒体数据的候选清晰度中删除该第一候选清晰度以及该第二候选清晰度，得到该至少两个样本多媒体数据的有效清晰度。

在步骤s31～s33中，计算机设备可以获取目标终端针对目标样本多媒体数据所发送的第一候选清晰度以及该第二候选清晰度之间的误差，作为第二误差，此处第二误差可以是指第一候选清晰度与第二候选清晰度之间的差值，即第二误差是指目标终端针对同一个样本多媒体数据所发送的候选清晰度之间的差值；第一候选清晰度和第二候选清晰度可以是指目标终端针对目标样本多媒体数据在不同时刻所发送的候选清晰度。如果该第二误差大于第一误差阈值，表明目标终端针对同一个样本多媒体数据(即目标样本多媒体数据)所发送的候选清晰度之间的差异较大。因此，将该第一候选清晰度和第二候选清晰作为无效清晰度，从该至少两个样本多媒体数据的候选清晰度中删除该第一候选清晰度以及该第二候选清晰度，得到该至少两个样本多媒体数据的有效清晰度。如果第二误差小于或等于第一误差阈值，表明目标终端针对同一个样本多媒体数据所发送的候选清晰度之间的差异较小，将第一候选清晰度和第二候选清晰度确定为有效清晰度，将第一候选清晰度和第二候选清晰度保留。

可选的，上述步骤s12可包括如下步骤s41～s44。

s41、根据目标终端针对该至少两个样本多媒体数据所发送的候选清晰度，确定第一平均候选清晰度；该目标终端属于该至少两个终端。

s42、根据剩余终端针对该至少两个样本多媒体数据所发送的候选清晰度，确定第二平均候选清晰度；该剩余终端为该至少两个终端中除该目标终端以外的终端。

s43、获取该第一平均候选清晰度与该第二平均候选清晰度之间的误差，作为第三误差。

s44、若该第三误差大于第二误差阈值，则从该至少两个样本多媒体数据的候选清晰度中删除该目标终端所发送的候选清晰度，得到该至少两个样本多媒体数据的有效清晰度。

在步骤s41～s44中，计算机设备可以采用平均算法根据目标终端针对该至少两个样本多媒体数据所发送的候选清晰度，确定第一平均候选清晰度，该平均算法可以包括算术平均算法、加权平均算法、几何平均算法以及调和平均算法等等。然后，可采用平均算法根据剩余终端针对该至少两个样本多媒体数据所发送的候选清晰度，确定第二平均候选清晰度，获取该第一平均候选清晰度与该第二平均候选清晰度之间的误差，作为第三误差；此处第三误差可以是指该第一平均候选清晰度与该第二平均候选清晰度之间的差值。如果该第三误差大于第二误差阈值，表明目标终端针对至少两个样本多媒体数据所发送的候选清晰度，与剩余终端针对至少两个样本多媒体数据所发送的候选清晰度之间存在较大的偏差。因此，可以将目标终端所发送的候选清晰度作为无效清晰度，从该至少两个样本多媒体数据的候选清晰度中删除该目标终端所发送的候选清晰度，得到该至少两个样本多媒体数据的有效清晰度。如果该第三误差小于或等于第二误差阈值，表明目标终端针对至少两个样本多媒体数据所发送的候选清晰度，与剩余终端针对至少两个样本多媒体数据所发送的候选清晰度之间仅存在较小的偏差；因此，可以将目标终端所发送的候选清晰度作为有效清晰度。

在一个实施例中，上述步骤S101之前还包括如下步骤s51～s55。

s51、获取候选多媒体数据集合。

s52、统计该候选多媒体数据集合中的候选多媒体数据所包括的图像数量，作为第一数量。

s53、确定该候选多媒体数据集合中的候选多媒体数据包括人脸的图像数量，作为第二数量。

s54、获取该第二数量与该第一数量之间的占比。

s55、从该候选多媒体数据集合中筛选对应占比大于占比阈值的候选多媒体数据，作为该至少两个样本多媒体数据。

在步骤s51～s55中，该方法可以应用于视频直播场景中，如购物直播、赛事直播、游戏直播等场景，这些视频直播场景中的多媒体数据(即视频)中均包括人脸；因此，计算机设备可以获取包括人脸的视频数据作为样本多媒体数据，以提高识别模型的预测准确度。具体的，计算机设备可以从多媒体数据平台或本地存储中获取候选多媒体数据集合，统计该候选多媒体数据集合中的候选多媒体数据所包括的图像数量，作为第一数量，确定该候选多媒体数据集合中的候选多媒体数据包括人脸的图像数量，作为第二数量。进一步，可以获取该第二数量与该第一数量之间的占比，如果样本多媒体数据对应的占比大于占比阈值，则表明该样本多媒体数据为视频直播场景中的多媒体数据；因此，可从该候选多媒体数据集合中筛选对应占比大于占比阈值的候选多媒体数据，作为该至少两个样本多媒体数据。如果样本多媒体数据对应的占比小于或等于占比阈值，则表明该样本多媒体数据不是视频直播场景中的多媒体数据；因此，可从该候选多媒体数据集合中过滤掉对应占比小于或等于占比阈值的候选多媒体数据。

在一个实施例中，上述步骤S101之前还包括如下步骤s61～s64。

s61、获取候选多媒体数据集合。

s62、若该候选多媒体数据集合中的候选多媒体数据包括第一类图像，则对该第一类图像进行填充处理；该第一类图像为图像尺寸小于图像尺寸阈值的图像。

s63、若候选多媒体数据集合中的候选多媒体数据包括第二类图像，则对该第二类图像进行缩小处理；该第二类图像为图像尺寸大于该图像尺寸阈值的图像。

s64、将处理后的候选多媒体数据集合中的候选多媒体数据，确定为该至少两个样本多媒体数据。

在步骤s61～s64中，计算机设备可以从多媒体数据平台或本地存储中获取候选多媒体数据集合，若该候选多媒体数据集合中的候选多媒体数据包括第一类图像，表明候选多媒体数据中包括图像尺寸过小的第一类图像，则对该第一类图像进行填充处理。如果候选多媒体数据集合中的候选多媒体数据包括第二类图像，表明候选多媒体数据中包括图像尺寸过大的第二类图像，则对该第二类图像进行缩小处理。可以将处理后的候选多媒体数据集合中的候选多媒体数据，确定为该至少两个样本多媒体数据，通过对候选多媒体数据中的图像进行填充处理或者缩小处理，有利于使候选多媒体数据中的图像对应图像尺寸统一，有利降低由于图像尺寸对识别模型的预测准确度的影响，提高识别模型的预测准确度。

例如，图像尺寸阈值可以是672*448，获取该候选多媒体数据集合中的候选多媒体数据图像尺寸小于672*448的第一类图像，如图5所示，采用黑色区域对第一类图像进行填充处理，使处理后的第一类图像的图像尺寸为672*448；通过采用黑色区域对第一类图像进行填充处理，有利于避免所填充的信息对预测结果的影响。获取该候选多媒体数据集合中的候选多媒体数据图像尺寸大于672*448的第二类图像，通过对该第二类图像进行降采样处理，以实现对第二类图像进行缩小处理；将处理后的候选多媒体数据集合中的候选多媒体数据，确定为该至少两个样本多媒体数据。

在一个实施例中，上述步骤S102可包括如下步骤s71～s72。

s71、按照该清晰度标签在该样本数据序列中的排列顺序，在识别模型中，依次提取该至少两个样本多媒体数据的语义特征信息以及视觉特征信息。

s72、根据该语义特征信息以及该视觉特征信息预测该至少两个样本多媒体数据的预测清晰度。

在步骤s71～s72中，计算机设备可以按照该清晰度标签在该样本数据序列中的排列顺序，在识别模型中，依次提取该至少两个样本多媒体数据的语义特征信息以及视觉特征信息；视觉特征信息可以包括样本多媒体数据所包括的图像的纹理信息以及形状信息；语义特征信息可以是指样本多媒体数据所包括的图像中的对象对应的对象信息，对象可以是指人脸、物品(如水杯、桌子)等等，对象信息可以是指对象的大小、位置、类别等等。可对该语义特征信息以及视频特征信息进行拼接处理，得到拼接处理后的特征信息，根据该拼接处理后的特征信息预测该至少两个样本多媒体数据的预测清晰度。通过根据语义特征信息以及视觉特征信息预测样本多媒体数据的预测清晰度，可提供更多关于样本多媒体数据的特征信息，有利于提高识别模型的预测准确度。

可选的，在获取到样本多媒体数据的预测清晰度之后，计算机设备可以获取样本多媒体数据的预测清晰度与转码率之间的关系，此处样本多媒体数据的转码率可以是指样本多媒体数据传输时单位时间传送的数据位数；进一步，可根据该关系来调整多媒体数据的转码率，以提高多媒体数据的清晰度。例如，样本多媒体数据的预测清晰度与转码率之间的关系可以如图6所示，从图6可知，样本多媒体数据的转码率大于2000kb/s时，样本多媒体数据的预测清晰度均比较高，随着转码率的增大，样本多媒体数据的预测清晰度增加比较缓慢；在样本多媒体数据的转码率小于2000kb/s时，样本多媒体数据的预测清晰度均比较低，随着转码率的增大，样本多媒体数据的预测清晰度增加比较快。

在此实施例中，该识别模型包括第一特征提取层以及第二特征提取层；上述步骤s71可包括如下步骤s81～s84。

s81、按照该清晰度标签在该样本数据序列中的排列顺序，采用该第一特征提取层依次提取该至少两个样本多媒体数据的像素信息。

s82、采用该像素信息生成该至少两个样本多媒体数据的视觉特征信息。

s83、按照该清晰度标签在该样本数据序列中的排列顺序，采用该第二特征提取层依次提取该至少两个样本多媒体数据对应的环境信息。

s84、采用该环境信息生成该至少两个样本多媒体数据的语义特征信息。

在步骤s81～s84中，计算机设备可以按照该清晰度标签在该样本数据序列中的排列顺序，采用该第一特征提取层依次提取该至少两个样本多媒体数据的像素信息；像素信息可以用于指示样本多媒体数据所包括的图像的亮度、色度以及对比度等信息；采用该像素信息生成该至少两个样本多媒体数据的视觉特征信息。可以按照该清晰度标签在该样本数据序列中的排列顺序，采用该第二特征提取层依次提取该至少两个样本多媒体数据对应的环境信息；此处环境信息可以是指样本多媒体数据的拍摄环境信息，环境信息用于指示该样本多媒体数据属于购物直播环境、生活日常直播环境、赛事直播环境或者在线演唱环境等等。在获取到样本多媒体数据对应的环境信息后，可采用该环境信息生成该至少两个样本多媒体数据的语义特征信息。其中，上述第一特征提取层和第二特征提取层具体可以是基于全卷积网络(Fully Convolutional Networks，FCN)的卷积层，可用于对包括较大图像尺寸的样本多媒体数据进行特征提取，即上述样本多媒体数据所包括的图像对应图像尺寸大于图像尺寸阈值。即通过对更大图像尺寸的样本多媒体数据进行特征提取，有利于获取到更加丰富的特征信息，提高识别模型的预测准确度。

例如，如图5所示，该识别模型包括特征提取层1、特征提取层2、特征提取层3、特征提取层4、全连接层以及识别层。其中，特征提取层1、特征提取层2、特征提取层3可以是指上述第一特征提取层，分别用于提取不同维度的视觉特征信息，如特征提取层1用于提取文理信息，特征提取层2用于提取图像中所包括对象的形状信息，特征提取层3用于提取图像中所包括的对象的位置信息等等。特征提取层4可以是指上述第二特征提取层，用于提取语义特征信息。全连接层用于对各个特征提取层所提取的特征信息进行拼接处理；识别层用于根据拼接处理后的特征信息预测样本多媒体数据的预测清晰度。在实际应用中，计算机设备可以按照该清晰度标签在该样本数据序列中的排列顺序，依次将至少两个多媒体数据输入至识别模型的各个特征提取层，由各个特征提取层分别提取样本多媒体数据对应维度的特征信息。然后，将各个特征提取层所提取到的特征信息输入至全连接层，采用全连接层对各个特征提取层所提取到的特征信息进行拼接处理，得到拼接处理后的特征信息，采用识别层根据拼接处理后的特征信息预测样本多媒体数据的预测清晰度。

在一个实施例中，上述步骤S102可包括如下步骤s91～s95。

s91、获取该至少两个样本多媒体数据中，每个样本多媒体数据的预测清晰度与对应的清晰度标签之间的误差，作为第一误差。

s92、将该至少两个样本多媒体数据分别对应的该第一误差之间的和，确定为该识别模型的清晰度识别损失值。

s93、根据该清晰度标签在该样本数据序列中的排列顺序以及该输出顺序，确定该识别模型的顺序识别损失值。

s94、采用该清晰度识别损失值以及该顺序识别损失值生成该识别模型的总损失值。

s95、若该总损失值不满足收敛条件，则根据该总损失值对该识别模型进行调整。

在步骤s91～s95中，计算机设备可以根据识别模型的清晰度识别损失值以及顺序识别损失值，对识别模型进行调整，提高识别模型的预测准确度。具体的，计算机设备可以获取该至少两个样本多媒体数据中，每个样本多媒体数据的预测清晰度与对应的清晰度标签之间的误差，作为第一误差。即第一误差可以是指每个样本多媒体数据的预测清晰度与对应的清晰度标签之间的差值；可将该至少两个样本多媒体数据分别对应的该第一误差之间的和，确定为该识别模型的清晰度识别损失值。可根据该清晰度标签在该样本数据序列中的排列顺序以及该输出顺序，确定该识别模型的顺序识别损失值，并采用该清晰度识别损失值以及该顺序识别损失值生成该识别模型的总损失值，即将该清晰度识别损失值以及该顺序识别损失值之间的和，确定为该识别模型的总损失值。若该总损失值不满足收敛条件，表明该识别模型的预测准确度比较低，因此，可根据该总损失值对该识别模型进行调整。若该总损失值满足收敛条件，表明该识别模型的预测准确度比较高，可以将该识别模型确定为目标识别模型。需要说明的是，此处该总损失值不满足收敛条件具体可以是指：该总损失值大于识别模型的最小损失值，该识别模型的最小损失值可以是根据识别模型的表达函数确定的，或者，可以是用户设置的；同理，该总损失值满足收敛条件具体可以是指：该总损失值等于或小于识别模型的最小损失值。

例如，识别模型的清晰度识别损失值可以采用如下公式(1)表示，公式(1)中L_reg表示识别模型的清晰度识别损失值，mos_i表示样本数据序列中的第i个清晰度标签，pred_i表示第i个预测标签，即mos_i、pred_i分别表示同一个样本多媒体数据的清晰度标签以及预测清晰度。i为小于N的正整数，N为样本数据序列中的清晰度标签的个数，mos_i-pred_i表示样本多媒体数据的预测清晰度与对应的清晰度标签之间的误差(即第一误差)。根据公式(1)可知，如果样本多媒体数据的预测清晰度与清晰度标签之间的误差越小，识别模型的清晰度识别损失值越小；反之，如果样本多媒体数据的预测清晰度与清晰度标签之间的误差越大，识别模型的清晰度识别损失值越大。

L_reg＝sum|mos_i-pred_i| (1)

其中，识别模型的总损失值可以采用如下公式(2)表示，在公式(2)中，L_z表示识别模型的总损失值，L_rank表示识别模型的损失识别损失值，λ表示平衡系数，λ大于0且小于或等于1，λ取值可以是用户设置的。

L_z＝L_rank+λ*L_reg (2)

在一个实施例中，上述步骤s93可包括如下步骤s111～s114。

s111、根据该清晰度标签在该样本数据序列中的排列顺序，确定相邻的该清晰度标签之间的第一变化差异。

s112、根据该输出顺序确定相邻的该预测清晰度之间的第二变化差异。

s113、获取该第一变化差异与该第二变化差异之间的乘积。

s114、根据该第一变化差异与该第二变化差异之间的乘积，生成该识别模型的顺序识别损失值。

在步骤s111～s114中，计算机设备可以根据该清晰度标签在该样本数据序列中的排列顺序，确定该清晰度标签之间的第一变化差异，即第一变化差异可以是指样本数据序列中相邻的清晰度标签之间的差值；根据该输出顺序确定预测清晰度之间的第二变化差异，即第二变化差异可以是指相邻时刻所输出的预测清晰度之间的差值。可获取第一变化差异与第二变化差异之间的乘积，根据该第一变化差异与该第二变化差异之间的乘积，生成该识别模型的顺序识别损失值。

例如，识别模型的顺序识别损失值可以采用如下公式(3)表示，在公式3中，mos_i表示样本数据序列中的第i个清晰度标签，mos_i+1表示样本数据序列中的第i+1个清晰度标签；pred_i表示第i个预测标签，pred_i+1表示第i个预测标签，mos_i-mos_i+1表示样本数据序列中的第i个清晰度标签与第i+1个清晰度标签之间的第一变化差异，pred_i-pred_i+1为第i个预测清晰度与第i+1个预测清晰度之间的第二变化差异，thers表示稳定系数，可以为一个极小的正数，其大小可以忽略不计，如thers可以为0.001。如果mos_i大于mos_i+1，且pred_i大于pred_i+1；或者，如果mos_i小于mos_i+1，且pred_i小于pred_i+1；表明清晰度标签较大的样本多媒体数据对应预测清晰度也较大，清晰度标签较小的样本多媒体数据对应预测清晰度也较小，即相邻的样本多媒体数据的预测清晰度之间的大小关系，与该相邻的样本多媒体数据的预测清晰度之间的大小关系相同(即匹配)，这时根据公式(3)可知，识别模型的顺序识别损失值为0。同理，如果mos_i大于mos_i+1，且pred_i小于pred_i+1；或者，如果mos_i小于mos_i+1，且pred_i大于pred_i+1；表明清晰度标签较大的样本多媒体数据对应预测清晰度较小，清晰度标签较小的样本多媒体数据对应预测清晰度较大，即相邻的样本多媒体数据的预测清晰度之间的大小关系，与该相邻的样本多媒体数据的预测清晰度之间的大小关系不相同(即不匹配)，这时根据公式(3)可知，识别模型的顺序识别损失值为各个样本多媒体数据对应的thers-(mos_i-mos_i+1)*(pred_i-pred_i+1)之和。

L_rank＝sum[max(0,thers-(mos_i-mos_i+1)*(pred_i-pred_i+1))] (3)

例如，如图5所示，样本数据列表中包括样本数据a和样本数据b的清晰度标签，样本数据a的清晰度标签在样本数据列表中的排列顺序位于样本数据b的清晰度标签的排列顺序之前。因此，计算机设备可以在T时刻预测样本多媒体数据a的预测清晰度，在T+1时刻预测样本多媒体数据b的预测清晰度；即样本多媒体数据a的预测清晰度是在T时刻输出的，样本多媒体数据b的预测清晰度是在T+1时刻输出的；因此，即样本多媒体数据a的预测清晰度的输出顺序位于样本多媒体数据b的预测清晰度的输出顺序之前。计算机设备可以根据样本多媒体数据a的清晰度标签与预测清晰度之间的误差，作为第一误差；根据样本多媒体数据b的清晰度标签与预测清晰度之间的误差，作为第一误差；将各个样本多媒体数据分别对应的第一误差之间的和，作为识别模型的清晰度识别损失值。然后，可获取样本多媒体数据a的清晰度标签与样本多媒体数据b的清晰度标签之间的误差，作为第一变化差异；获取样本多媒体数据a的预测清晰度与样本多媒体数据b的预测清晰度之间的误差，作为第二变化差异；获取第一变化差异与第二变化差异之间的乘积，根据该乘积确定识别模型的顺序识别损失值。

可选的，在获取到调整后的识别模型后，可以按照该清晰度标签在该样本数据序列中的排列顺序，在调整后的识别模型中，依次预测该至少两个样本多媒体数据的更新预测清晰度。进一步，获取样本多媒体数据的更新预测清晰度与清晰度标签进行可视化，如图7所示，从图7可知，清晰度标签以及调整后的识别模型的所输出的更新预测清晰度均比较集中，表明调整后的识别模型的预测准确度比较高。

在一个实施例中，该方法可包括如下步骤s211～s213。

s211、响应针对多媒体数据的获取请求，根据该获取请求获取目标多媒体数据。

s212、采用该目标识别模型预测该目标多媒体数据的清晰度。

s213、根据该目标多媒体数据的清晰度推荐该目标多媒体数据。

在步骤s211～s213中，接收终端可以向计算机设备发送针对多媒体数据的获取请求，该获取请求包括多媒体数据的标识、类别以及发布时间等属性信息；相应地，计算机设备可以响应针对多媒体数据的获取请求，确定与获取请求所包括的属性信息相匹配的多媒体数据，作为目标多媒体数据。进一步，采用该目标识别模型预测该目标多媒体数据的清晰度，根据该目标多媒体数据的清晰度向接收终端推荐目标多媒体数据。即如果该目标多媒体数据的清晰度大于清晰度阈值，则将该目标多媒体数据推荐给接收终端；如果该目标多媒体数据的清晰度小于或等于清晰度阈值，则拒绝将目标多媒体数据推荐给接收终端。或者，当目标多媒体数据的数量为多个时，可以采用清晰度对目标多媒体数据进行排序，将排序后的多媒体数据推荐给接收终端。

可选的，上述步骤s212可包括：为了提高预测目标多媒体数据的清晰度的效率，计算机设备可以对从目标多媒体数据进行截取，得到多媒体数据片段，如从目标多媒体数据中随机截取播放时长为10s的多媒体数据片段，或者，按照周期性地从目标多媒体数据中截取多媒体数据片段，如每隔2s截取播放时长为3s的多媒体数据片段；多媒体数据片段播放时长小于目标多媒体数据的播放时长。进一步，采用目标识别模型对多媒体数据片段进行预测，得到目标多媒体数据的清晰度。

请参见图8，是本申请实施例提供的一种多媒体数据处理装置的结构示意图。上述多媒体数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该多媒体数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示，该多媒体数据处理装置可以包括：获取模块801、预测模块802、调整模块803、筛选模块804以及处理模块805以及推荐模块806。

获取模块801，用于获取样本数据序列，上述样本数据序列包括至少两个样本多媒体数据的清晰度标签；

预测模块802，用于按照上述清晰度标签在上述样本数据序列中的排列顺序，在识别模型中，依次预测上述至少两个样本多媒体数据的预测清晰度，获取上述至少两个样本多媒体数据的预测清晰度对应的输出顺序；

调整模块803，用于根据上述清晰度标签在上述样本数据序列中的排列顺序、上述输出顺序、上述清晰度标签以及上述预测清晰度对上述识别模型进行调整，将调整后的识别模型确定为目标识别模型；上述目标识别模型用于预测目标多媒体数据的清晰度。

可选的，调整模块803，具体用于获取上述至少两个样本多媒体数据中，每个样本多媒体数据的预测清晰度与对应的清晰度标签之间的误差，作为第一误差；将上述至少两个样本多媒体数据分别对应的上述第一误差之间的和，确定为上述识别模型的清晰度识别损失值；根据上述清晰度标签在上述样本数据序列中的排列顺序以及上述输出顺序，确定上述识别模型的顺序识别损失值；根据上述清晰度识别损失值以及上述顺序识别损失值生成上述识别模型的总损失值；若上述总损失值不满足收敛条件，则根据上述总损失值对上述识别模型进行调整。

可选的，调整模块803，具体用于根据上述清晰度标签在上述样本数据序列中的排列顺序，确定相邻的上述清晰度标签之间的第一变化差异；根据上述输出顺序确定相邻的上述预测清晰度之间的第二变化差异；获取上述第一变化差异与上述第二变化差异之间的乘积，根据上述第一变化差异与上述第二变化差异之间的乘积，生成上述识别模型的顺序识别损失值。

可选的，预测模块802，具体用于按照上述清晰度标签在上述样本数据序列中的排列顺序，在识别模型中，依次提取上述至少两个样本多媒体数据的语义特征信息以及视觉特征信息；根据上述语义特征信息以及上述视觉特征信息预测上述至少两个样本多媒体数据的预测清晰度。

可选的，上述识别模型包括第一特征提取层以及第二特征提取层；可选的，预测模块802，具体用于按照上述清晰度标签在上述样本数据序列中的排列顺序，采用上述第一特征提取层依次提取上述至少两个样本多媒体数据的像素信息；采用上述像素信息生成上述至少两个样本多媒体数据的视觉特征信息；按照上述清晰度标签在上述样本数据序列中的排列顺序，采用上述第二特征提取层依次提取上述至少两个样本多媒体数据对应的环境信息；采用上述环境信息生成上述至少两个样本多媒体数据的语义特征信息。

可选的，获取模块801，具体用于接收至少两个终端针对上述至少两个样本多媒体数据所发送的候选清晰度；对上述至少两个样本多媒体数据的候选清晰度进行过滤，得到上述至少两个样本多媒体数据的有效清晰度；将上述至少两个样本多媒体数据的有效清晰度确定为上述至少两个样本多媒体数据的清晰度标签。

可选的，获取模块801，具体用于在目标终端针对上述至少两个样本多媒体数据所发送的候选清晰度中，统计相同候选清晰度出现的次数；上述目标终端属于上述至少两个终端；若上述次数大于次数阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述目标终端所发送的候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

可选的，获取模块801，具体用于获取目标终端针对目标样本多媒体数据所发送的第一候选清晰度和第二候选清晰度；上述目标终端属于上述至少两个终端，上述目标样本多媒体数据属于上述至少两个样本多媒体视频数据；获取上述第一候选清晰度和上述第二候选清晰度之间的误差，作为第二误差；若上述第二误差大于第一误差阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述第一候选清晰度以及上述第二候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

可选的，获取模块801，具体用于根据目标终端针对上述至少两个样本多媒体数据所发送的候选清晰度，确定第一平均候选清晰度；上述目标终端属于上述至少两个终端；根据剩余终端针对上述至少两个样本多媒体数据所发送的候选清晰度，确定第二平均候选清晰度；上述剩余终端为上述至少两个终端中除上述目标终端以外的终端；获取上述第一平均候选清晰度与上述第二平均候选清晰度之间的误差，作为第三误差；若上述第三误差大于第二误差阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述目标终端所发送的候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

可选的，上述装置还包括：筛选模块804，用于获取候选多媒体数据集合；统计上述候选多媒体数据集合中的候选多媒体数据所包括的图像数量，作为第一数量；确定上述候选多媒体数据集合中的候选多媒体数据包括人脸的图像数量，作为第二数量；获取上述第二数量与上述第一数量之间的占比；从上述候选多媒体数据集合中筛选对应占比大于占比阈值的候选多媒体数据，作为上述至少两个样本多媒体数据。

可选的，上述装置还包括：处理模块805，用于获取候选多媒体数据集合；若上述候选多媒体数据集合中的候选多媒体数据包括第一类图像，则对上述第一类图像进行填充处理；上述第一类图像为图像尺寸小于图像尺寸阈值的图像；若候选多媒体数据集合中的候选多媒体数据包括第二类图像，则对上述第二类图像进行缩小处理；上述第二类图像为图像尺寸大于上述图像尺寸阈值的图像；将处理后的候选多媒体数据集合中的候选多媒体数据，确定为上述至少两个样本多媒体数据。

可选的，上述装置还包括：推荐模块806，用于响应针对多媒体数据的获取请求，根据上述获取请求获取目标多媒体数据；采用上述目标识别模型预测上述目标多媒体数据的清晰度；根据上述目标多媒体数据的清晰度推荐上述目标多媒体数据。

根据本申请的一个实施例，图3所示的多媒体数据处理方法所涉及的步骤可由图8所示的多媒体数据处理装置中的各个模块来执行。例如，图3中所示的步骤S101可由图8中的获取模块801来执行，图3中所示的步骤S102可由图8中的预测模块802来执行；图3中所示的步骤S103可由图8中的调整模块801来执行。

根据本申请的一个实施例，图8所示的多媒体数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，多媒体数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的多媒体数据处理装置，以及来实现本申请实施例的多媒体数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图9，是本申请实施例提供的一种计算机设备的结构示意图。如图9所示，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取上述至少两个样本多媒体数据中，每个样本多媒体数据的预测清晰度与对应的清晰度标签之间的误差，作为第一误差；

将上述至少两个样本多媒体数据分别对应的上述第一误差之间的和，确定为上述识别模型的清晰度识别损失值；

根据上述清晰度标签在上述样本数据序列中的排列顺序以及上述输出顺序，确定上述识别模型的顺序识别损失值；

根据上述清晰度识别损失值以及上述顺序识别损失值生成上述识别模型的总损失值；

若上述总损失值不满足收敛条件，则根据上述总损失值对上述识别模型进行调整。

根据上述清晰度标签在上述样本数据序列中的排列顺序，确定相邻的上述清晰度标签之间的第一变化差异；

根据上述输出顺序确定相邻的上述预测清晰度之间的第二变化差异；

获取上述第一变化差异与上述第二变化差异之间的乘积；

根据上述第一变化差异与上述第二变化差异之间的乘积，生成上述识别模型的顺序识别损失值。

按照上述清晰度标签在上述样本数据序列中的排列顺序，在识别模型中，依次提取上述至少两个样本多媒体数据的语义特征信息以及视觉特征信息；

根据上述语义特征信息以及上述视觉特征信息预测上述至少两个样本多媒体数据的预测清晰度。

可选的，上述识别模型包括第一特征提取层以及第二特征提取层；处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

按照上述清晰度标签在上述样本数据序列中的排列顺序，采用上述第一特征提取层依次提取上述至少两个样本多媒体数据的像素信息；

采用上述像素信息生成上述至少两个样本多媒体数据的视觉特征信息；

按照上述清晰度标签在上述样本数据序列中的排列顺序，采用上述第二特征提取层依次提取上述至少两个样本多媒体数据对应的环境信息；

采用上述环境信息生成上述至少两个样本多媒体数据的语义特征信息。

接收至少两个终端针对上述至少两个样本多媒体数据所发送的候选清晰度；

对上述至少两个样本多媒体数据的候选清晰度进行过滤，得到上述至少两个样本多媒体数据的有效清晰度；

将上述至少两个样本多媒体数据的有效清晰度确定为上述至少两个样本多媒体数据的清晰度标签。

在目标终端针对上述至少两个样本多媒体数据所发送的候选清晰度中，统计相同候选清晰度出现的次数；上述目标终端属于上述至少两个终端；

若上述次数大于次数阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述目标终端所发送的候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

获取目标终端针对目标样本多媒体数据所发送的第一候选清晰度和第二候选清晰度；上述目标终端属于上述至少两个终端，上述目标样本多媒体数据属于上述至少两个样本多媒体视频数据；

获取上述第一候选清晰度和上述第二候选清晰度之间的误差，作为第二误差；

若上述第二误差大于第一误差阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述第一候选清晰度以及上述第二候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

根据目标终端针对上述至少两个样本多媒体数据所发送的候选清晰度，确定第一平均候选清晰度；上述目标终端属于上述至少两个终端；

根据剩余终端针对上述至少两个样本多媒体数据所发送的候选清晰度，确定第二平均候选清晰度；上述剩余终端为上述至少两个终端中除上述目标终端以外的终端；

获取上述第一平均候选清晰度与上述第二平均候选清晰度之间的误差，作为第三误差；

若上述第三误差大于第二误差阈值，则从上述至少两个样本多媒体数据的候选清晰度中删除上述目标终端所发送的候选清晰度，得到上述至少两个样本多媒体数据的有效清晰度。

获取候选多媒体数据集合；

统计上述候选多媒体数据集合中的候选多媒体数据所包括的图像数量，作为第一数量；

确定上述候选多媒体数据集合中的候选多媒体数据包括人脸的图像数量，作为第二数量；

获取上述第二数量与上述第一数量之间的占比；

从上述候选多媒体数据集合中筛选对应占比大于占比阈值的候选多媒体数据，作为上述至少两个样本多媒体数据。

获取候选多媒体数据集合；

若上述候选多媒体数据集合中的候选多媒体数据包括第一类图像，则对上述第一类图像进行填充处理；上述第一类图像为图像尺寸小于图像尺寸阈值的图像；

若候选多媒体数据集合中的候选多媒体数据包括第二类图像，则对上述第二类图像进行缩小处理；上述第二类图像为图像尺寸大于上述图像尺寸阈值的图像；

将处理后的候选多媒体数据集合中的候选多媒体数据，确定为上述至少两个样本多媒体数据。

响应针对多媒体数据的获取请求，根据上述获取请求获取目标多媒体数据；

采用上述目标识别模型预测上述目标多媒体数据的清晰度；

根据上述目标多媒体数据的清晰度推荐上述目标多媒体数据。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对上述多媒体数据处理方法的描述，也可执行前文图8所对应实施例中对上述多媒体数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的多媒体数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3和图7对应实施例中对上述多媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

获取样本数据序列，所述样本数据序列包括至少两个样本多媒体数据的清晰度标签；

按照所述清晰度标签在所述样本数据序列中的排列顺序，在识别模型中，依次预测所述至少两个样本多媒体数据的预测清晰度，获取所述至少两个样本多媒体数据的预测清晰度对应的输出顺序；

根据所述清晰度标签在所述样本数据序列中的排列顺序、所述输出顺序、所述清晰度标签以及所述预测清晰度对所述识别模型进行调整，将调整后的识别模型确定为目标识别模型；所述目标识别模型用于预测目标多媒体数据的清晰度；

所述根据所述清晰度标签在所述样本数据序列中的排列顺序、所述输出顺序、所述清晰度标签以及所述预测清晰度对所述识别模型进行调整，包括：

获取所述至少两个样本多媒体数据中，每个样本多媒体数据的预测清晰度与对应的清晰度标签之间的误差，作为第一误差；

将所述至少两个样本多媒体数据分别对应的所述第一误差之间的和，确定为所述识别模型的清晰度识别损失值；

根据所述清晰度标签在所述样本数据序列中的排列顺序以及所述输出顺序，确定所述识别模型的顺序识别损失值；

根据所述清晰度识别损失值以及所述顺序识别损失值生成所述识别模型的总损失值；

若所述总损失值不满足收敛条件，则根据所述总损失值对所述识别模型进行调整。

2.如权利要求1所述的方法，其特征在于，所述根据所述清晰度标签在所述样本数据序列中的排列顺序以及所述输出顺序，确定所述识别模型的顺序识别损失值，包括：

根据所述清晰度标签在所述样本数据序列中的排列顺序，确定相邻的所述清晰度标签之间的第一变化差异；

根据所述输出顺序确定相邻的所述预测清晰度之间的第二变化差异；

获取所述第一变化差异与所述第二变化差异之间的乘积；

根据所述第一变化差异与所述第二变化差异之间的乘积，生成所述识别模型的顺序识别损失值。

3.如权利要求1所述的方法，其特征在于，所述按照所述清晰度标签在所述样本数据序列中的排列顺序，在识别模型中，依次预测所述至少两个样本多媒体数据的预测清晰度，包括：

按照所述清晰度标签在所述样本数据序列中的排列顺序，在识别模型中，依次提取所述至少两个样本多媒体数据的语义特征信息以及视觉特征信息；

根据所述语义特征信息以及所述视觉特征信息预测所述至少两个样本多媒体数据的预测清晰度。

4.如权利要求3所述的方法，其特征在于，所述识别模型包括第一特征提取层以及第二特征提取层；所述按照所述清晰度标签在所述样本数据序列中的排列顺序，在识别模型中，依次提取所述至少两个样本多媒体数据的语义特征信息以及视觉特征信息，包括：

按照所述清晰度标签在所述样本数据序列中的排列顺序，采用所述第一特征提取层依次提取所述至少两个样本多媒体数据的像素信息；

采用所述像素信息生成所述至少两个样本多媒体数据的视觉特征信息；

按照所述清晰度标签在所述样本数据序列中的排列顺序，采用所述第二特征提取层依次提取所述至少两个样本多媒体数据对应的环境信息；

采用所述环境信息生成所述至少两个样本多媒体数据的语义特征信息。

5.如权利要求1所述的方法，其特征在于，所述获取样本数据序列，包括：

接收至少两个终端针对所述至少两个样本多媒体数据所发送的候选清晰度；

对所述至少两个样本多媒体数据的候选清晰度进行过滤，得到所述至少两个样本多媒体数据的有效清晰度；

将所述至少两个样本多媒体数据的有效清晰度确定为所述至少两个样本多媒体数据的清晰度标签。

6.如权利要求5所述的方法，其特征在于，所述对所述至少两个样本多媒体数据的候选清晰度进行过滤，得到所述至少两个样本多媒体数据的有效清晰度，包括：

在目标终端针对所述至少两个样本多媒体数据所发送的候选清晰度中，统计相同候选清晰度出现的次数；所述目标终端属于所述至少两个终端；

若所述次数大于次数阈值，则从所述至少两个样本多媒体数据的候选清晰度中删除所述目标终端所发送的候选清晰度，得到所述至少两个样本多媒体数据的有效清晰度。

7.如权利要求5所述的方法，其特征在于，所述对所述至少两个样本多媒体数据的候选清晰度进行过滤，得到所述至少两个样本多媒体数据的有效清晰度，包括：

获取目标终端针对目标样本多媒体数据所发送的第一候选清晰度和第二候选清晰度；所述目标终端属于所述至少两个终端，所述目标样本多媒体数据属于所述至少两个样本多媒体视频数据；

获取所述第一候选清晰度和所述第二候选清晰度之间的误差，作为第二误差；

若所述第二误差大于第一误差阈值，则从所述至少两个样本多媒体数据的候选清晰度中删除所述第一候选清晰度以及所述第二候选清晰度，得到所述至少两个样本多媒体数据的有效清晰度。

8.如权利要求5所述的方法，其特征在于，所述对所述至少两个样本多媒体数据的候选清晰度进行过滤，得到所述至少两个样本多媒体数据的有效清晰度，包括：

根据目标终端针对所述至少两个样本多媒体数据所发送的候选清晰度，确定第一平均候选清晰度；所述目标终端属于所述至少两个终端；

根据剩余终端针对所述至少两个样本多媒体数据所发送的候选清晰度，确定第二平均候选清晰度；所述剩余终端为所述至少两个终端中除所述目标终端以外的终端；

获取所述第一平均候选清晰度与所述第二平均候选清晰度之间的误差，作为第三误差；

若所述第三误差大于第二误差阈值，则从所述至少两个样本多媒体数据的候选清晰度中删除所述目标终端所发送的候选清晰度，得到所述至少两个样本多媒体数据的有效清晰度。

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取候选多媒体数据集合；

统计所述候选多媒体数据集合中的候选多媒体数据所包括的图像数量，作为第一数量；

确定所述候选多媒体数据集合中的候选多媒体数据包括人脸的图像数量，作为第二数量；

获取所述第二数量与所述第一数量之间的占比；

从所述候选多媒体数据集合中筛选对应占比大于占比阈值的候选多媒体数据，作为所述至少两个样本多媒体数据。

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取候选多媒体数据集合；

若所述候选多媒体数据集合中的候选多媒体数据包括第一类图像，则对所述第一类图像进行填充处理；所述第一类图像为图像尺寸小于图像尺寸阈值的图像；

若候选多媒体数据集合中的候选多媒体数据包括第二类图像，则对所述第二类图像进行缩小处理；所述第二类图像为图像尺寸大于所述图像尺寸阈值的图像；

将处理后的候选多媒体数据集合中的候选多媒体数据，确定为所述至少两个样本多媒体数据。

11.如权利要求1所述的方法，其特征在于，所述方法还包括：

响应针对多媒体数据的获取请求，根据所述获取请求获取目标多媒体数据；

采用所述目标识别模型预测所述目标多媒体数据的清晰度；

根据所述目标多媒体数据的清晰度推荐所述目标多媒体数据。

12.一种多媒体数据处理装置，其特征在于，包括：

获取模块，用于获取样本数据序列，所述样本数据序列包括至少两个样本多媒体数据的清晰度标签；

预测模块，用于按照所述清晰度标签在所述样本数据序列中的排列顺序，在识别模型中，依次预测所述至少两个样本多媒体数据的预测清晰度，获取所述至少两个样本多媒体数据的预测清晰度对应的输出顺序；

调整模块，用于根据所述清晰度标签在所述样本数据序列中的排列顺序、所述输出顺序、所述清晰度标签以及所述预测清晰度对所述识别模型进行调整，将调整后的识别模型确定为目标识别模型；所述目标识别模型用于预测目标多媒体数据的清晰度；

所述调整模块根据所述清晰度标签在所述样本数据序列中的排列顺序、所述输出顺序、所述清晰度标签以及所述预测清晰度对所述识别模型进行调整，包括：

13.如权利要求12所述的装置，其特征在于，所述调整模块根据所述清晰度标签在所述样本数据序列中的排列顺序以及所述输出顺序，确定所述识别模型的顺序识别损失值，包括：

获取所述第一变化差异与所述第二变化差异之间的乘积；

14.一种计算机设备，其特征在于，包括：处理器及存储器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1至11中任一项所述方法的步骤。