CN117156078B

CN117156078B - 一种视频数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN117156078B
Application number: CN202311441422.8A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-02-02
Anticipated expiration: 2043-11-01
Also published as: CN117156078A

Abstract

本发明公开了一种视频数据处理方法、装置、电子设备及存储介质，应用于人工智能技术领域，以及云计算、车联网等与互联网技术相关的其他技术领域。该方法包括：获取第一视频文件和第二视频文件；对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧；对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧；对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息；根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频。本发明能够提高视频剪辑过程的处理效率，并且使得视频处理的成片结果可以具有动作逻辑，提高了成片质量。

Description

一种视频数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其是一种视频数据处理方法、装置、电子设备及存储介质。

背景技术

随着目标对象需求与媒体技术的发展，视频的数量也呈指数级的爆炸增长，对视频进行剪辑也成为人们关注的视频处理方式。视频剪辑技术是一种将待剪辑对象通过剪辑的方式合成一段剪辑视频的视频处理方式，常应用于短视频制作、体育赛事集锦、影视剧专辑、影视预告片等视频剪辑场景。

目前，视频剪辑方法需要通过人工提前选取一些目标视频帧，然后将这些目标视频帧组合起来得到剪辑集锦。在这个过程中，视频帧的选取无法实现自动化，导致处理效率低；而且，选取的图像质量标准会因人员变动而参差不齐，导致最终成片质量不稳定。另外，相关视频剪辑的过程基于视频帧的顺序或乱序组合得到最终集锦，缺乏组合的逻辑性，导致组合得到的集锦没有剧情逻辑性，影响了视频剪辑的质量。

发明内容

有鉴于此，本发明实施例提供一种视频数据处理方法、装置、电子设备及存储介质，以提高视频剪辑过程的处理效率，并提升视频剪辑质量。

本发明实施例的一方面提供了一种视频数据处理方法，包括以下步骤：

获取第一视频文件和第二视频文件；其中，所述第一视频文件包括含有目标对象画面的视频帧；所述第二视频文件包括含有目标动作画面的视频帧；

对所述第一视频文件中各个视频帧进行目标对象的第一识别，得到包含所述目标对象画面的候选视频帧；

对各个所述候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧；其中，每个所述目标视频帧中出现的所述目标对象画面的图像质量的评分满足评分阈值要求；

对所述第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息；其中，所述分镜动作逻辑信息用于表征包含所述目标动作的各个视频帧之间的动作时序逻辑

根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频。

另一方面，本发明实施例还提供了一种视频数据处理装置，包括：

第一模块，用于获取第一视频文件和第二视频文件；其中，所述第一视频文件包括含有目标对象画面的视频帧；所述第二视频文件包括含有目标动作画面的视频帧；

第二模块，用于对所述第一视频文件中各个视频帧进行目标对象的第一识别，得到包含所述目标对象画面的候选视频帧；

第三模块，用于对各个所述候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧；其中，每个所述目标视频帧中出现的所述目标对象画面的图像质量的评分满足评分阈值要求；

第四模块，用于对所述第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息；其中，所述分镜动作逻辑信息用于表征包含所述目标动作的各个视频帧之间的动作时序逻辑；

第五模块，用于根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频。

可选地，本发明实施例中的视频数据处理装置，第二模块包括：

第一单元，用于对所述第一视频文件中每个视频帧进行人脸检测，确定视频帧中人脸定位信息；

第二单元，用于根据所述人脸定位信息从各个视频帧中切割得到人脸图片；

第三单元，用于对所述人脸图片进行图像编码处理，得到所述人脸图片对应的人物信息；

第四单元，用于将所述人物信息与目标对象的人脸库进行匹配，确定包含所述目标对象的人脸图片，并确定对应的所述候选视频帧。

可选地，本发明实施例中的视频数据处理装置，第一单元包括：

第一子单元，用于对每个视频帧对应的图像进行图像缩放处理，得到特定尺寸大小的多张图像，并构建图像金字塔；

第二子单元，用于将所述图像金字塔中每个图像输入候选网络进行人脸区域的框选，得到候选框；

第三子单元，用于将所述候选框输入细化网络进行优化，得到目标框；

第四子单元，用于将所述目标框输入输出网络进行坐标转换，得到所述目标框对应的人脸坐标，确定所述人脸定位信息。

可选地，本发明实施例中的视频数据处理装置，第三模块包括：

第五单元，用于根据所述候选视频帧中的目标对象画面，生成所述候选视频帧的二值化掩膜；

第六单元，用于通过二维卷积神经网络对所述候选视频帧的目标对象画面进行特征映射后，将各个网络层的映射结果与对应的二值化掩膜相乘，得到不同维度的第一特征图；

第七单元，用于根据各个所述第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，得到每个所述候选视频帧的所述目标对象画面的图像质量的评分；

第八单元，用于根据所述图像质量的评分，从所述候选视频帧中确定所述目标视频帧。

可选地，本发明实施例中的视频数据处理装置，第六单元包括：

第五子单元，用于将所述候选视频帧的目标对象画面依次输入所述二维卷积神经网络的各个网络层进行特征映射，得到不同维度的映射结果；

第六子单元，用于对于每个维度的映射结果，将所述二值化掩膜与当前维度对应的相关系数相乘得到赋值矩阵后，将所述赋值矩阵与当前维度的映射结果相乘，得到当前维度的第一特征图；

其中，所述相关系数用于表征在所述候选视频帧的画面中人脸画面与非人脸画面之间的占比信息。

可选地，本发明实施例中的视频数据处理装置，第七单元包括：

第七子单元，用于将各个所述第一特征图进行池化处理，得到统一尺寸的多个第一目标图；

第八子单元，用于将各个所述第一目标图进行特征融合，得到第二目标图；

第九子单元，用于将所述第二目标图进行矩阵维度转换，得到所述第二目标图的向量表征结果；

第十子单元，用于根据所述向量表征结果对目标对象画面进行图像质量的评分，得到每个所述候选视频帧的所述目标对象画面的图像质量的评分。

可选地，本发明实施例中的视频数据处理装置，第十子单元包括：

第一分部单元，用于对所述向量表征结果进行二分类激活，得到所述目标对象画面属于第一类别或第二类别的分类结果；

第二分部单元，用于根据所述目标对象画面属于所述第一类别的置信度，确定每个所述候选视频帧的所述目标对象画面的图像质量的评分。

可选地，本发明实施例中的视频数据处理装置，还包括：

第六模块，用于获取各个所述候选视频帧的目标对象画面的图像质量的评分；

第七模块，用于根据各个所述候选视频帧的时序信息，计算各个图像质量的评分的平均值，得到所述评分阈值。

可选地，本发明实施例中的视频数据处理装置，第四模块包括：

第九单元，用于根据所述第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，得到各个视频帧的特征表征信息；其中，不同视频帧的所述特征表征信息之间具有时域关联性；

第十单元，用于通过激活函数对所述特征表征信息进行激活处理，确定各个视频帧的动作标签；

第十一单元，用于根据各个视频帧的时间信息和所述动作标签，确定分镜动作逻辑信息。

可选地，本发明实施例中的视频数据处理装置，第九单元包括：

第十一子单元，用于对所述第二视频文件中各个视频帧进行分块处理，得到图像块；

第十二子单元，用于对所述图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图；

第十三子单元，用于根据各个视频帧的时间信息，对各个所述第二特征图进行时间维度的下采样处理，得到各个视频帧的特征表征信息。

可选地，本发明实施例中的视频数据处理装置，第十二子单元包括：

第三分部单元，用于将所述图像块在对应的图像通道中展平，确定所述图像块在不同图像通道中的像素个数；

第四分部单元，用于根据所述图像块在不同图像通道中的像素个数，对所述图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图。

另一方面，本发明实施例还提供了一种电子设备，包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序实现如前面的视频数据处理方法。

另一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行实现如前面的视频数据处理方法。

另一方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前面的视频数据处理方法。

本发明的实施例首先获取第一视频文件和第二视频文件；其中，第一视频文件包括含有目标对象画面的视频帧；第二视频文件包括含有目标动作画面的视频帧；接着对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧；并对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧；本发明实施例在视频数据处理的过程中加入对目标对象画面的图像质量评分的处理，使得每个所述目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求，保证了图像质量标准的稳定性，提高视频处理后的最终成片质量；另外，本发明实施例对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息；最后根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频；本发明实施例的分镜动作逻辑信息能够表征包含所述目标动作的各个视频帧之间的动作时序逻辑，通过提供视频帧选取的逻辑支撑，使得视频处理的成片结果可以具有动作逻辑，每个镜头下的视频帧之间具有时序连贯性，提高了成片质量；再有，本发明实施例将视频处理过程的视频帧选取和视频帧组合结合在一起，提高了视频剪辑过程的处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中进行视频数据处理的一种实施环境示意图；

图2是本发明实施例中所提供的一种视频数据处理方法的步骤流程示意图；

图3是本发明实施例中所提供的根据目标视频帧和分镜动作逻辑信息生成目标视频的步骤流程示意图；

图4是本发明实施例中所提供的对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧的步骤流程示意图；

图5是本发明实施例中所提供的人脸识别架构示意图；

图6是本发明实施例中所提供的多任务级联卷积神经网络模型架构示意图；

图7是本发明实施例中所提供的残差网络50模型整体架构示意图；

图8是本发明实施例中所提供的残差网络50模型的细化结构示意图；

图9是图8中瓶颈结构1的结构示意图；

图10是图8中瓶颈结构2的结构示意图；

图11是本发明实施例中所提供的对第一视频文件中每个视频帧进行人脸检测，确定视频帧中人脸定位信息的步骤流程示意图；

图12是本发明实施例中所提供的对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧的步骤流程示意图；

图13是本发明实施例中所提供的基于二值化掩膜的图像质量的评分计算流程示意图；

图14是本发明实施例中所提供的通过二维卷积神经网络对候选视频帧的目标对象画面进行特征映射后，将各个网络层的映射结果与对应的二值化掩膜相乘，得到不同维度的第一特征图的步骤流程示意图；

图15是本发明实施例中所提供的结合二值化掩膜的第一特征图构建流程示意图；

图16是本发明实施例中所提供的二值化掩膜赋值示意图；

图17是本发明实施例中所提供的根据各个第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分的步骤流程示意图；

图18是本发明实施例中所提供的图像质量打分处理流程示意图；

图19是本发明实施例中所提供的根据向量表征结果对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分的步骤流程示意图；

图20是本发明实施例中所提供的评分阈值计算的步骤流程示意图；

图21是本发明实施例中所提供的对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息的步骤流程示意图；

图22是本发明实施例中所提供的镜头动作脚本剪辑流程示意图；

图23是本发明实施例中所提供的根据第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，得到各个视频帧的特征表征信息的步骤流程示意图；

图24是本发明实施例中所提供的时序动作识别模型结构示意图；

图25是本发明实施例中所提供的对图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图的步骤流程示意图；

图26是本发明实施例中所提供的视频数据处理方法的整体处理流程示意图；

图27为本发明实施例中所提供的一种视频数据处理装置的模块化示意图；

图28为本发明实施例中所提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习，深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，通过模仿人脑的机制来解释数据，例如图像，声音和文本等。常用的深度学习模型包括：卷积神经网络(ConvolutionalNeuralNetworks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、是长短期记忆网络(Long Short-Term Memory，LSTM)、深度神经网络(Deep Neural Network，DNN)、深度置信网(Deep Belief Nets，DBNs)等神经网络。数据在神经网络中的传播有两种方式，一种是沿着输入到输出的路径，被称为前向传播(Forwardpropagation)，另一种是从输出返回到输入，被成为反向传播(Backpropagation)。在正向传播过程中，输入信息通过神经网络逐层处理并传向输出层，通过损失函数描述输出值与期望之间的误差，转入反向传播，逐层求出损失函数对各神经元的权重的偏导数，构成损失函数对权值向量的权重梯度数据，作为更新权重参数的依据，在不断更新权重参数的过程中完成神经网络的训练。

基于上述的理论基础，以及人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，如视频处理技术领域，并发挥越来越重要的价值。

为了便于理解本发明实施例，对本发明实施例可能涉及到的关键词进行解释：

卷积神经网络（Convolutional Neural Network, CNN）：是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。

人脸识别：是基于人的脸部特征，对输入的人脸图像或者视频流，首先判断其是否存在人脸，如果存在人脸，则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份。

颜值：是指对人、物和环境的外观特征优劣程度的测定。颜，是指颜容、外貌的意思。值，是指数或分数。因此，颜值表示目标对象靓丽的一个分数，可以用来评价人物容貌。如同其他数值一样，“颜值”也有衡量标准，可以测量和比较。

人脸掩膜（Face mask）:视频画面中出现人脸区域的掩膜（mask），通常指的是黑白图，使用模型对整个画面中的出现的人脸进行检测定位，然后将脸部位置设置为黑色，其余部位设置为白色，从而能够包图片中的人脸位置进行标识突出。

镜头动作脚本：又称之为分镜头脚本，是在进行制作短视频时，提前设置好的剧本，规定好在视频中一共存在多少个分镜，同时还会规定出每个分镜中的大致内容，从而在制作视频时能够有一个完善的创作逻辑性。

相关的视频剪辑的技术方案中，均无法解决上述技术问题。例如人工挑选标注的方法，通过雇佣大量标注人员的方式，针对海量影视剧视频进行标注切割，从而在该片段集的基础上完成短视频的剪辑，这种依赖于人工标注的方法会导致整个系统的效率极低且成片质量不高。又例如，通过深度学习神经网络构建人脸检测识别模型的方法中，通常使用模型识别出包含特定目标对象的视频帧，然后将这些视频帧组合起来，剪辑得到目标视频，这种方式得到的目标视频无法保障视频中出现的特定目标对象的颜值质量，导致成片的目标视频质量不高。况且以上方式生成的目标视频均不具备视频帧之间的逻辑连贯关系，目标视频中的各个视频帧均是筛选拼凑而来，缺乏剧情引导。

为此，本发明实施例提供的方案涉及人工智能的深度学习等技术，通过获取包括第一视频文件和第二视频文件，其中，第一视频文件包括含有目标对象画面的视频帧，第二视频文件包括含有目标动作画面的视频帧，以对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象的候选视频帧，进而对各个候选视频帧中的目标对象画面进行画面质量评分，确定目标视频帧，通过在视频处理的过程中对目标对象画面的图像质量评分的处理方式，以使得每个目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求，有效地保证了图像质量标准的稳定性。同时，本发明实施例对第二视频文件中各个视频帧进行目标动作的识别，得到分镜动作逻辑信息，并根据目标视频帧和分镜动作逻辑信息，生成目标视频，通过提供视频帧选取的逻辑支撑的方式，使得视频处理的成片结果具有动作逻辑，并且每个镜头下的视频帧之间具有时序连贯性，有效地提高了成片质量。本发明实施例通过将视频处理过程的视频帧选取和视频帧组合相结合的方式，从而有效地提高了视频剪辑过程的处理效率，并实现视频剪辑质量的提升。

可以理解的是，本发明实施例提供的视频数据处理方法，是能够应用于任意一种具备数据处理计算能力的电子设备，而这一电子设备可以是各类终端或是服务器。当本发明实施例中的电子设备是服务器时，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器等，但也并不局限于此。

本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶、音视频、游戏等。

在一些可能实现方式中，能够实现本发明实施例所提供的视频数据处理方法的计算机程序，可被部署在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行，分布在多个地点且通过通信网络互连的多个电子设备能够组成区块链系统。

基于多个电子设备能够组成区块链系统，本发明实施例中实现视频数据处理方法的电子设备可以是区块链系统中的节点。该节点中存储中有可以执行该视频数据处理方法的计算机程序，该计算机程序首先获取第一视频文件和第二视频文件，其中，第一视频文件包括含有目标对象画面的视频帧，第二视频文件包括含有目标动作画面的视频帧，从而对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧，以对各个候选视频帧中的目标对象画面进行图像质量评分，进而确定目标视频帧。相应地，每个目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求。同时，本发明实施例对第二视频图像中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息，以根据分镜动作逻辑信息选取若干目标视频帧按照动作逻辑进行组合，得到目标视频，从而能够维持视频帧的选取标准以及提供视频帧选取的逻辑支撑，实现视频剪辑质量的提升，并有效提高了视频剪辑过程的处理效率。

参照图1，图1为本发明实施例提供的一种实施环境的示意图，该实施环境包括终端101、服务器102。

在该实施环境中，终端101可以执行视频数据方法，生成目标视频。

在该实施环境中，服务器102亦可以执行视频数据处理方法，生成目标视频。而在一些实施例中，终端101和服务器102之间通过通信网络103连接，执行视频数据处理方法中的部分步骤可以由终端101和服务器102中的其中一个执行，并将部分步骤的执行结果通过通信网络103传输至终端101和服务器102中的另外一个中进行其余步骤的执行。而在另一些实施例中，终端101可以将执行视频数据处理方法得到的目标视频通过通信网络103传输至服务器102中，或者服务器102可以将执行视频数据处理方法得到的目标视频通过通信网络103传输至终端101中，不作具体限定。

本发明实施例提供的方法可应用于各类应用程序产品，包括但不限于游戏、医疗、交通、办公、购物、理财、学习、浏览器、聊天、音乐、视频等等类型的应用程序产品中。例如，在一个具体的场景下，可以在对各类应用程序产品进行视频剪辑的过程中应用发明实施例提供的方法。

需要说明的是，在本发明的各个具体实现方式中，当涉及到需要获取对象的特征数据、对象行为数据，对象历史数据以及对象位置信息等与对象身份或特性相关的数据进行相关处理时，都会先获得对象的许可或者授权，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本发明实施例需要获取对象的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得对象的单独许可或者单独同意，在明确获得对象的单独许可或者单独同意之后，再获取用于使本发明实施例能够正常运行的必要的对象相关数据。

参照图2，图2为本发明实施例提供的视频数据处理方法的流程示意图，该视频数据处理方法可以由图1所示的服务器102执行，或者可以由图1所示的终端101执行，或者也可以由图1所示的服务器102和终端101配合执行，该视频数据处理方法包括但不限于以下步骤：

S210：获取第一视频文件和第二视频文件。其中，第一视频文件包括含有目标对象画面的视频帧。第二视频文件包括含有目标动作画面的视频帧。

本发明实施例中，第一视频文件是指包含有目标对象画面的视频帧，第二视频文件是指包含有目标动作画面的视频帧。其中，本发明实施例中目标对象画面是指视频帧图像中包含有目标对象的图像画面，如包含某一人物对象的图像画面、包含某一物品对象的图像画面或包含某一动物对象的图像画面等。另外，本发明实施例中目标动作画面是指视频图像中包含有相应动作的图像画面，如拥抱、牵手以及奔跑等动作画面。示例性地，在一短视频剪辑应用场景中，本发明实施例获取第一视频文件和第二视频文件。相应地，本发明实施例获取的第一视频文件中包含某一人物对象画面的视频帧，而第二视频帧文件中则包含有人物进行目标动作的视频帧，如跑步、跳跃、拥抱等。本发明实施例通过获取包含有目标对象画面的视频帧的第一视频文件，以获取得到相关目标对象画面的信息，并通过获取包含有目标动作画面的视频帧的第二视频文件，以获取得到相关目标动作画面的信息。

S220：对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧。

本发明实施例中，本发明实施例中第一识别是对目标对象的识别，其基于目标对象的目标特征，如脸部或形态，对输入的视频帧或视频流进行识别，以确定是否存在相应的目标特征，当确定视频帧或视频流中存在相应的目标特征，则进一步识别出目标特征相应的画面位置信息，如脸部位置信息、大小或其他目标区域位置信息，进而根据这些信息提取相应的特征数据，并与相应的特征库进行比较，从而识别出视频流中包含目标对象画面的候选视频帧。示例性地，在一影视视频剪辑应用场景中，本发明实施例对第一视频中各个视频帧进行目标对象的第一识别，如人脸识别，即对第一视频文件中各个视频帧进行目标对象，如相关影视人物的人脸识别，从而获取得到包含有目标对象画面的候选视频帧。

S230：对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧。其中，每个目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求。

本发明实施例中，图像质量是指各个候选视频帧中的目标对象画面的质量，如画面中目标对象的颜值、清晰度或像素数等。本发明实施例中目标视频帧是指候选视频帧中包含的目标对象画面的图像质量的评分满足评分阈值要求的视频帧。相应地，本发明实施例中评分阈值要求是指相关目标对象画面的图像质量的阈值条件，即确定的目标视频帧的图像质量需要满足该阈值条件，如清晰度大于相应的清晰度评分阈值，或图像中目标对象的颜值大于相应的颜值评分阈值等。本发明实施例通过对各个候选视频中的目标对象画面进行图像质量评分的方式，以确定目标对象画面的图像质量的评分满足评分阈值要求的目标视频帧。示例性地，在一长视频制作应用场景中，本发明实施例在对第一视频文件中各个视频帧进行目标人物的第一识别，如人脸识别，得到包含目标人物画面的候选视频帧后，对各个候选视频帧中的目标人物画面进行图像质量的评分，如对目标人物画面的颜值进行评分，从而确定目标人物画面颜值评分满足评分阈值要求的目标视频帧。例如，本发明实施例通过第一识别，得到若干帧包含目标对象画面的候选视频帧，但候选视频帧中目标对象画面的质量可能不一样，如某些视频帧可能清晰度较低，或画面中人物的颜值较低等，因此，本发明实施例通过对候选视频帧中的目标对象画面进行图像质量评分的方式，从而筛选出目标对象画面的图像质量的评分满足评分阈值要求的目标视频帧，进而能够在实现视频帧的自动化选取，提高视频剪辑过程的处理效率的同时，保证了视频帧的选取标准，能够有效维持成片质量的稳定性。

S240：对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息。其中，分镜动作逻辑信息用于表征包含目标动作的各个视频帧之间的动作时序逻辑。

本发明实施例中，第二识别是指对第二视频文件中的各个视频帧进行目标动作及相关动作逻辑的识别，如情侣动作逻辑、体育项目进行逻辑、影视剧情发展逻辑等。相应地，本发明实施例中分镜动作逻辑信息是指视频中的镜头动作脚本，如剧情、目标对象动作以及镜头切换等信息，通过分镜动作逻辑信息，可以确定多个视频帧之间的动作逻辑关系，例如对于情侣动作逻辑，在多个视频帧中分别出现牵手、拥抱、亲吻等画面时，则可以根据不同视频帧中的画面内容来确定这几个视频帧之间的时序逻辑，从而能够对这几个视频帧进行排序，得到满足基本剧情逻辑发展的目标视频。本发明实施例通过对第二视频文件中各个视频帧进行目标动作的识别的方式，从而提取得到相应的动作脚本，即分镜动作逻辑信息。示例性地，在一影视制作后期应用场景中，本发明实施例对包含有目标动作画面的视频帧的第二视频文件，如一些武术动作画面或目标人物之间的交互动作等，进行第二识别，从而识别到第二视频文件中各个视频帧进行的相应动作的动作逻辑信息，如两个目标对象先相向奔跑，然后相互拥抱等。相应地，本发明实施例根据第二识别得到的相应动作逻辑信息，生成对应的分镜头动作逻辑信息，从而能够为后续的影视制作提供动作逻辑支撑，使其更具有剧情逻辑性，提高了视频剪辑的质量。

S250：根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频。

具体地，参照图3，在一些实施例中，上述步骤S250可以包括：

S2501、从所述目标视频帧中选取包含所述目标动作的若干个目标视频帧；

S2502、根据所述分镜动作逻辑信息，确定所选取的各个目标视频帧的排列次序；

S2503、根据所述排列次序，将所选取的各个目标视频帧生成所述目标视频。

本发明实施例中，动作逻辑是指不同目标视频帧中的动作的行为连贯性逻辑，如动作A与动作B之间的衔接是否符合相应的行为发展逻辑。相应地，本发明实施例中动作逻辑的组合方式由分镜动作逻辑信息确定，即根据对第二视频文件中各个视频帧进行目标动作的第二识别得到的分镜动作逻辑信息，对目标视频帧进行选取以及排序组合，从而能够生成具有动作逻辑支撑，且具有剧情逻辑性的目标视频。示例性地，在一短视频平台应用场景中，往往需要对一些视频片段进行剪辑和组合，从而生成符合需求的目标视频。因此，本发明实施例在对第二视频文件中各个视频帧进行目标动作识别，提取得到相应的动作逻辑信息后，从各个目标视频帧中按照相应的动作逻辑选取若干个目标视频帧，并依据相应的分镜动作逻辑信息进行目标视频帧的排序，如对第二视频文件进行第二识别，提取得到的分镜动作逻辑信息为C动作到D动作到E动作，因此，本发明实施例从目标视频帧中分别选取包含C动作、D动作以及E动作的目标视频帧，并按照提取到的分镜动作逻辑信息，即C动作到D动作到E动作的动作逻辑，进行目标视频帧的排序组合，从而生成既具有动作逻辑性和剧情逻辑性，又满足图像质量要求的目标视频，能够有效地提高视频剪辑的质量。

参照图4，本发明实施例为了能够提高目标对象识别的准确性，并提高对目标对象识别的效率，在对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧这一步骤中，可以包括步骤S310至步骤S340：

S310：对第一视频文件中每个视频帧进行人脸检测，确定视频帧中人脸定位信息。

本发明实施例中人脸检测是指在视频帧中定位一张或多张人脸，即对第一视频文件中出现的人脸画面进行检测和定位。相应地，本发明实施例中人脸定位信息是指识别到的视频帧中的人脸图像在视频帧中出现的位置信息，如人脸图像在视频帧中相应像素的像素坐标信息。本发明实施例通过对第一视频文件中每个视频帧进行人脸检测的方式，以确定相关的视频帧中是否存在人脸图像，进而确定相应人脸图像的位置信息，即人脸定位信息。示例性地，以一影视编辑应用场景为例，在影视编辑应用场景中，往往需要剪辑一些花絮视频，如相关目标对象的拍摄花絮等。因此，在剪辑过程中需要从较长的影视视频中剪取含有相应目标对象的视频帧。参照图5，本发明实施例首先对相关的影视视频，即第一视频文件，通过预设深度级联多任务框架进行人脸检测，如多任务级联卷积神经网络（Multi-task Cascaded Convolutional Networks，MTCNN），以识别出含有相关目标对象人脸的视频帧，进而确定相应目标对象人脸在视频帧中的位置信息，即相应的人脸定位信息，以便于后续对相关视频帧的筛选，如图像质量或目标对象的筛选。其中，参照图6，本发明实施例中多任务级联卷积神经网络是一种人脸检测和人脸对齐的深度学习算法，其由三个级联的卷积神经网络组成，分别是候选网络（Proposal Network，P-Net）、细化网络（RefineNetwork，R-Net）和输出网络（Output Network，O-Net）。相应地，多任务级联卷积神经网络可以同时进行人脸检测、人脸关键点定位和人脸姿态估计等任务。

S320：根据人脸定位信息从各个视频帧中切割得到人脸图片。

本发明实施例中人脸图片是指相关人物的脸部图像。参照图5，本发明实施例根据人脸检测确定的人脸定位信息，从相应的视频帧中切割分离得到相关人物的脸部图像，即人脸图片。示例性地，在一人脸图片获取应用场景中，本发明实施例首先根据人脸定位信息从各个视频帧中确定相应的人脸图像的像素位置信息，如人脸图像的外围像素点坐标数据或包围人脸图像的最小矩形的像素点坐标数据。接着，本发明实施例根据像素位置信息从各个视频帧中提取相应区域的像素点，从而切割出相应的人脸图片。

S330：对人脸图片进行图像编码处理，得到人脸图片对应的人物信息。

参照图5，本发明实施例中，图像编码处理是指将通过嵌入网络（embeddingnetwork）将图像映射到低维的向量空间，即嵌入空间，以将图像转换为特定维度的向量表示（embedding），通过该向量表示能够捕捉到图像的语义和特征信息，从而减少数据的维度，提取出人脸图片的主要特征。相应地，本发明实施例中人物信息是指人脸图片所对应的目标对象的特征信息，如五官特征信息、性别特征信息或年龄特征信息等。本发明实施例通过对分割得到的人脸图片进行图像编码处理，从而得到各个人脸图片所对应的特征数据，即人物信息。示例性地，以一视频应用平台的应用场景为例，在一些视频应用平台中，常常需要对相应的视频帧图像中的人物信息进行提取和识别。本发明实施例在得到画面中存在所有人脸的bbox坐标后，其中bbox坐标是定位到的人脸准确坐标数据，该坐标是定位到人脸方框的四个点，系统通过定位计算出来的bbox坐标对视频画面进行切割，将整张人脸图像完整的切割成人脸图片并输入到下一个节点ResNet50网络模型中，以得到相应的向量表示，从而提取得到人脸图片对应的人物信息。需要说明的是，本发明实施例中ResNet是指残差网络(Residual Network)，其广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分，典型的网络有ResNet50、ResNet101等，本发明实施例使用的是残差网络50结构。其中，如图7所示，本发明实施例中ResNet50分为5个Stage（阶段），其中阶段0的结构比较简单，可以视其为对输入（INPUT）的预处理，后4个Stage都由Bottleneck（瓶颈结构）组成，结构较为相似。其中，如图8所示，本发明实施例中阶段1包含3个瓶颈结构（Bottleneck），剩下的3个阶段分别包括4、6、3个瓶颈结构（Bottleneck）。相应地，图8中的瓶颈结构（Bottleneck）的具体结构分别如图9和图10所示。例如，本发明实施例中ResNet50网络（残差网络50）的输入是由多任务级联卷积神经网络（Multi-task CascadedConvolutional Networks，MTCNN）对五官人脸进行定位以后切割得到的人脸图片，将整张图片转化为一个2048的embedding向量，该向量代表着这张人脸的语义特征信息，即人物信息。

S340：将人物信息与目标对象的人脸库进行匹配，确定包含目标对象的人脸图片，并确定对应的候选视频帧。

本发明实施例中，人脸库是指人脸数据的存储管理中心，为人脸识别提供匹配和比对的样本模板。本发明实施例中目标对象的人脸库是预先从人脸库中提取相应的embedding向量集合构建的目标对象的人脸embedding集合。参照图5，例如，本发明实施例根据相应第一视频文件中含有的目标对象信息，从人脸库中提取相应目标对象的embedding向量，从而构建得到相应的人脸embedding集合，然后通过该集合进行人脸匹配。容易理解的是，本发明实施例通过预先构建相应目标对象的人脸库的方式，以直接在目标对象的人脸库中进行人物信息的匹配，从而能够确定包含目标对象的人脸照片，进而根据人脸照片所对应的视频帧确定候选视频帧，通过在预设的目标对象的人脸库中进行匹配的方式，不需要对人脸库中海量的人脸数据进行匹配计算，能够极大地提升效率，降低耗时。示例性地，在一影视剧后期编辑应用场景中，往往需要对影视剧中各个演员的镜头画面进行分类剪辑。本发明实施例首先根据相应影视剧的演员表，即参演的目标对象的信息表，从演员人脸库中提取相应参演目标对象的embedding向量，从而构建得到相应的人脸embedding集合，即目标对象的人脸库。相应地，本发明实施例通过该人脸embedding集合与图像编码处理得到的人物信息进行比较和匹配，确定相应的人脸图片匹配的身份信息，从而能够确定包含目标对象的人脸图片，进而将这些人脸图片对应的视频帧确定为候选视频帧。

参照图11，为了能够提高人脸检测和定位的准确度，在一些可行的实施例中，在对第一视频文件中每个视频帧进行人脸检测，确定视频帧中人脸定位信息这一步骤中，可以包括步骤S410至步骤S440：

S410：对每个视频帧对应的图像进行图像缩放处理，得到特定尺寸大小的多张图像，并构建图像金字塔。

本发明实施例中，图像缩放处理是指将输入的图像进行尺寸变换，如进行多次放大或缩小，以在不同尺度下运行神经网络来检测和定位人脸，从而能够在不同尺度下有效地对人脸进行检测和定位。相应地，本发明实施例中图像金字塔是指对输入图像进行多次缩放所得到的一系列不同尺度的图片。本发明实施例通过对视频帧对应的图像进行图像缩放处理，以得到特定尺寸大小的多张图像，从而构建得到图像金字塔。示例性地，以一图像缩放处理场景为例，本发明实施例首先按照预设的缩放因子（resize_factor）对每个视频帧对应的图像进行多次图像缩放处理，直至图像的大小等于候选网络（Proposal Network，P-Net）的目标大小，如，从而得到一系列不同大小的图片，包括原图、原图乘以缩放因子、原图乘以缩放因子的平方，以此类推，直到最后一张图片的大小等于/>。其中，本发明实施例在进行图像缩放处理前，需要根据数据集中人脸大小的分布情况，确定相应的缩放因子，通常在0.7至0.8之间。相应地，当设定的缩放因子较大时，会导致推理时间增加，反之，当设定的缩放因子较小时，则容易漏掉一些较小的人脸。容易理解的是，这一系列不同尺度大小的图片堆叠起来，形成图像金字塔，能够检测不同尺寸的人脸，从而缓解图像中人脸大小变化较大导致的识别不准确的问题。

S420：将图像金字塔中每个图像输入候选网络进行人脸区域的框选，得到候选框。

本发明实施例中，候选框是指在图像中可能包含人脸的矩形区域。本发明实施例通过将图像金字塔中各个图像输入候选网络（Proposal Network，P-Net）以进行人脸区域框选，筛选得到相应的候选框。示例性地，以一候选网络应用场景为例，本发明实施例在通过图像金字塔的方式得到一系列不同尺寸的图像后，将这些图像输入至候选网络中，得到预设形状的特征图，例如输出的特征图形状为（m,n,16），其中m和n是特征图的高度和宽度。接着，本发明实施例根据候选网络对每个候选框进行分类的分数，对候选框进行筛选，以去除分数低于预设分数阈值的候选框。然后，本发明实施例根据得到的候选网络对每个候选框进行调整的参数，即偏移量，对候选框进行校准，以得到更准确的候选框位置。进一步地，本发明实施例根据候选框的IOU值，即两个候选框的重叠程度，进行非极大值抑制（NMS），以筛选掉一些重叠程度较高的候选框，保留重叠程度较低的候选框。例如，本发明实施例一次比较队列中最大分数值的候选框和剩余候选框之间的IOU值，当IOU值大于预设阈值时，则将该候选框删除，然后将该最大分数值的候选框放入最终结果中，重复这个操作，从而去除大量重叠的候选框，得到预设个候选框，如（num_left_after_nms，16）个。

S430：将候选框输入细化网络进行优化，得到目标框。

本发明实施例中目标框是指包含目标对象人脸的矩形区域。相应地，本发明实施例通过将候选框输入细化网络（Refine Network，R-Net），以对候选框进行精调和优化，得到包含目标对象人脸的目标框。示例性地，以一细化网络应用场景为例，本发明实施例首先根据候选网络输出的候选框的坐标，在原始图像中截取出包含相应人脸的图片。相应地，本发明实施例在截取图片过程中，以边界框（Bounding Box，bbox）的最大边长为基准，裁剪成正方形，以缓解图像缩放处理导致的图像形变问题，并保留更多的人脸周围细节。接着，本发明实施例将裁剪得到的图像缩放成为预设尺寸大小，如，并输入到细化网络（Refine Network，R-Net）进行优化调整。相应地，本发明实施例中细化网络（RefineNetwork，R-Net）输出二分类的独热（one-hot）编码（两个输出）、边界框的坐标偏移量（四个输出）和人脸关键点（landmark）的位置（十个输出）。其中，本发明通过独热编码判断图像中是否为人脸，并通过边界框的坐标偏移量调整边界框位置，通过人脸关键点的位置数据进行人脸关键点定位。容易理解的是，本发明实施例中根据二分类的得分，将不是人脸的候选框去除。然后，本发明实施例对裁剪后的边界框进行偏移量调整，即调整边界框的上下左右的横纵坐标。接着，本发明实施例再次使用候选网络中描述的IOU（Intersection overUnion）和NMS（Non-Maximum Suppression）的方法，去除大部分的候选框，从而得到包含目标对象人脸的目标框。需要说明的是，本发明实施例中细化网络输出的也是（num_left_after_Rnet，16），根据边界框的坐标再去原图截出图片输入到输出网络（Output Network，O-Net），同样也是根据最大边长的正方形截取方法，避免形变和保留更多细节。

S440：将目标框输入输出网络进行坐标转换，得到目标框对应的人脸坐标，确定人脸定位信息。

本发明实施例中，坐标变换是指对目标边框的坐标进行筛选和框调整，以将相应的边界框的坐标转换成相应的人脸关键点（landmark）坐标。本发明实施例在经过细化网络处理后，将得到的目标框输入至输出网络（Output Network，O-Net）中进行进一步的处理。与候选网络和细化网络相似地，本发明实施例在输出网络的处理过程中，对目标框进行分类筛选和框调整，以将目标框进行坐标转换，从而得到目标框对应的人脸坐标，如边界框坐标和人脸关键点坐标，进而确定相应的人脸定位信息。示例性地，以一人脸检测应用场景为例，本发明实施例将细化网络输出的目标框输入至输出网络（Output Network，O-Net）中，以通过分类筛选、框调整以及NMS筛选后，得到准确的人脸定位信息。需要说明的是，与候选网络和细化网络不同的是，本发明实施例中输出网络不仅关注边界框的坐标，还要输出人脸关键点坐标。其中，在人脸检测任务中，边界框（bbox）坐标表示了检测到的人脸框的位置和大小，通常由左上角和右下角的坐标表示。而人脸关键点（landmark）坐标则表示了人脸关键点的位置，如眼睛、鼻子、嘴巴等部位的坐标。因此，在得到目标框后，本发明实施例通过目标框的坐标，即相应边界框坐标，通过预设算法，将边界框坐标转换成人脸关键点坐标，从而能够确定目标框对应的人脸坐标，实现人脸定位信息的确定。

参照图12，在一些可行的实施例中，为了能够保证视频帧的选取标准，提高成片质量的稳定性，在对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧这一步骤中，可以包括步骤S510至步骤S540：

S510：根据候选视频帧中的目标对象画面，生成候选视频帧的二值化掩膜。

本发明实施例中，二值化掩膜是指遮挡或保护人脸的图像或模板，其通常是一个与人脸形状相匹配的二进制掩码，如通过1表示需要保留的区域，通过0表示需要遮挡或保护的区域。本发明实施例在对候选视频帧中的目标对象画面进行图像质量的评分过程中，首先根据候选视频中的目标对象画面，生成候选视频帧相应的二值化掩膜。示例性地，在一视频剪辑评分应用场景中，参照图13，本发明实施例通过人脸检测模型对输入图像，即候选视频帧，进行计算后，得到相应的人脸位置数据。接着，本发明实施例根据相应的定位结果，即人脸位置数据，生成相应的face mask，即二值化掩膜。其中，图13中二值化掩膜中的白色区域表示人脸所在位置，黑色区域表示非人脸位置，即整个画面的其他背景元素。

S520：通过二维卷积神经网络对候选视频帧的目标对象画面进行特征映射后，将各个网络层的映射结果与对应的二值化掩膜相乘，得到不同维度的第一特征图。

本发明实施例中，二维卷积神经网络是指用于处理二维数据的深度学习网络模型，如图像数据。相应地，本发明实施例中特征映射是指通过卷积操作从输入图像中提取特征图。本发明实施例通过二维卷积神经网络对候选视频帧的画面进行特征映射，得到相应的映射结果。其中，每个特征映射都是一个二维数组，每个元素表示了相应位置的特征强度或激活值。接着，本发明实施例将各个网络层的映射结果与相应的二值化掩膜相乘，从而得到不同维度的特征图。本发明实施例通过将映射结果与相应二值化掩膜相乘的方式，以对映射结果进行局部的遮挡或保护，进而能够对特定的区域进行控制，确保其不受后续处理的影响。示例性地，在一特征图构建应用场景中，本发明实施例首先通过一系列的二维卷积神经网络（2SCNN）对候选视频帧的目标对象画面进行特征映射，从而得到相应的映射结果。进一步地，本发明实施例将各网络层的映射结果与相应候选视频帧的二值化掩膜相乘，从而构建得到若干幅不同维度的第一特征图。

S530：根据各个第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分。

本发明实施例中，向量表征结果是指将第一特征图转换为一维向量的操作。例如，将第一特征图中的每个元素按照预设顺序排列成一个一维向量，即得到向量表征结果。相应地，本发明实施例中图像质量是指目标对象画面的在某一方面的好坏程度，如颜值、清晰度或分辨率等。本发明实施例根据各个第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，进而得到各个候选视频帧中目标对象画面的图像质量的评分。示例性地，在一短视频剪辑平台应用场景中，为了保证剪辑得到的视频质量，需要对相应的视频进行评分和筛选。相应地，本发明实施例在根据候选视频帧构建得到不同维度的第一特征图后，首先将各个以为特征图进行一维向量的转换操作，得到相应的向量表征结果。进一步地，本发明实施例可以根据相应的需求进行评分设置，如需要保证图像的清晰度，则对目标对象画面进行清晰度质量的评分，从而得到每个候选视频帧的目标对象画面的清晰度质量的评分。相应地，定当需要保证目标对象画面的颜值时，本发明实施例也可以对目标对象画面进行颜值评分，从而得到每个候选视频的目标对象画面的颜值质量评分。

S540：根据图像质量的评分，从候选视频帧中确定目标视频帧。

本发明实施例中，图像质量的评分是指相应候选视频帧中目标对象画面的质量分数，如颜值分数、清晰度分数、色彩准度分数等。其中，本发明实施例中图像质量的评分可以为百分制数。本发明实施例根据各个候选视频帧的目标对象画面相应的图像质量的评分，确定相应的目标视频帧。示例性地，在一游戏应用场景中，可能需要对一些高光操作或游戏对局进行保存和编辑。此时，本发明实施例首先对相关的候选游戏视频帧进行图像质量评分，从而得到各个候选游戏视频帧的目标对象画面的图像质量的评分。例如，本发明实施例对各个候选游戏视频帧中游戏人物的建模颜值评分、清晰度评分或分辨率评分等。接着，本发明实施例根据相应的图像质量评分，从候选游戏视频帧中选取评分大于预设的评分阈值的视频帧作为目标视频帧。例如，本发明实施例根据相应的建模颜值评分，从候选游戏视频帧中选取游戏人物的建模评分大于80分的视频帧作为目标视频帧。

需要说明的是，本发明实施例中通过构建人脸的二值化掩膜face mask来对计算图像质量评分的时候，提升了整个脸部在画面中的权重占比。相应地，本发明实施例可以拓展到对身体形态的整体判断，也就是体态的二值化掩膜body mask，通过结合上目标对象人物的穿着和形体，综合来判断整个画面的图像质量评分。

参照图14，为了能够充分考虑候选视频帧的画面细节，提高特征提取效果，在一些可行的实施例中，在通过二维卷积神经网络对候选视频帧的目标对象画面进行特征映射后，将各个网络层的映射结果与对应的二值化掩膜相乘，得到不同维度的第一特征图这一步骤中，可以包括步骤S610至步骤S620：

S610：将候选视频帧的目标对象画面依次输入二维卷积神经网络的各个网络层进行特征映射，得到不同维度的映射结果。

本发明实施例中，二维卷积神经网络包括若干个不同的网络层，将候选视频帧的画面依次通过这些网络层以进行特征映射，从而得到各个网络层相应的不同维度的映射结果。其中，本发明实施例中二维卷积神经网络的卷积核均为2或3的小卷积核。容易理解的是，本发明实施例通过使用小卷积核的方式，以使二维卷积神经网络具有更大的感受域，同时能够在进行计算时充分地考虑画面中的细节，提高特征提取效果。示例性地，在一卷积神经网络应用场景中，如图15所示，本发明实施例中二维卷积神经网络包括一系列的二维神经网络层，如两个2*2的二维卷积神经网络层和两个3*3的二维卷积神经网络层。本发明实施例将候选视频帧的画面依次通过二维卷积神经网络的各个网络层，如依次通过两个2*2的二维卷积神经网络层和两个3*3的二维卷积神经网络层，从而得到不同维度的映射结果。

S620：对于每个维度的映射结果，将二值化掩膜与当前维度对应的相关系数相乘得到赋值矩阵后，将赋值矩阵与当前维度的映射结果相乘，得到当前维度的第一特征图。

其中，相关系数用于表征在候选视频帧的画面中人脸画面与非人脸画面之间的占比信息。

本发明实施例中，人脸画面是指候选视频帧的画面中出现人脸的画面，如正面、侧面或其他角度的人脸画面，非人脸画面则是指候选视频帧的画面中没有出现人脸的画面，如背景、物体风景画面等。相应地，本发明实施例中占比信息是指候选视频帧的画面中人脸画面与非人脸画面所占的比例，可以通过计算相应图像画面中的人脸区域的像素数与整个图像的像素数的比值得到。另外，本发明实施例中赋值矩阵是指通过相应的相关系数对二值化掩膜中各个元素进行赋值得到的矩阵。具体地，本发明实施例对于每个维度的映射结果，将相应的二值化掩膜与当前维度对应的相关系数相乘，从而对二值化掩膜的矩阵元素进行赋值，得到赋值矩阵，进而通过将赋值矩阵与当前维度的映射结果相乘，得到当前维度的第一特征图。示例性地，以一图像特征提取应用场景为例，本发明实施例中不同维度对应的相关系数不同，通过将二值化掩膜与当前维度对应的相关系数相乘，从而得到相应维度的赋值矩阵。例如，参照图16，当前维度的相关系数为a=0.8，则本发明实施例将该相关系数与二值化掩膜进行相乘，从而得到相应的赋值数据，即赋值矩阵。其中，图中人脸区域表示为1，非人脸区域则为相关系数a，即0.8。接着，本发明实施例将相应的赋值矩阵与当前维度的映射结果相乘，如当前维度的映射结果为feature map1，相应维度的赋值矩阵为mask1，则本发明实施例将该维度的映射结果feature map1与赋值矩阵mask1相乘，从而得到当前维度下的第一特征图。需要说明的是，如图15所示，本发明实施例中不同维度相应的关系系数，如a1、a2、a3、a4，会随着网络层数的增加而增大，即通常情况下。因为随着网络层数的增加，其输出的二值化掩膜对相应图像质量（如美观度）的表征越明显，因此相关系数是随着网络层数的增加而递增的。

参照图17，在一些可行的实施例中，为了能够提高图像质量评分的准确性和稳定性，在根据各个第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分这一步骤中，可以包括步骤S710至步骤S740：

S710：将各个第一特征图进行池化处理，得到统一尺寸的多个第一目标图。

本发明实施例中，池化处理是指通过将特征图划分为若干子区域，并对各个子区域进行统计汇总，从而降低特征图维度的处理操作。其中，本发明实施例中池化处理包括最大池化处理、平均池化处理等。相应地，本发明实施例中第一目标图是指对第一特征图进行池化尺寸，得到的特征图。参照图18，本发明实施例通过对各个第一特征图进行池化处理，以将不同尺寸大小的第一特征图统一成为相同尺寸的多个第一目标图。容易理解的是，为了便于后续对特征图进行特征融合和维度转换，本发明实施例通过池化处理的方式，将不同维度的第一特征图进行尺寸统一，得到相同尺寸的多个第一目标图。示例性地，在一特征图池化应用场景中，本发明实施例将计算得到的若干张不同维度的第一特征图输入不同的汇聚池（pooling）中，以通过相应的pooling对不同尺寸的第一特征图进行尺寸统一，得到各个第一特征图对应的第一目标图，即池化后的特征图。

S720：将各个第一目标图进行特征融合，得到第二目标图。

本发明实施例中，特征融合是指将多个不同属性的特征进行融合，利用特征之间的互补性，融合不同特征之间的优点。本发明实施例将各个第一目标图在通道维度上进行特征融合，从而构建得到第二目标图。示例性地，在一特征融合应用场景中，本发明实施例将多个第一目标图按照通道的方向进行连接，从而生成具有更丰富特征表示的第二目标图。例如，本发明实施例中第一目标图分别为A目标图、B目标图、C目标图以及D目标图。相应地，本发明实施例通过池化处理得到的第一目标图的尺寸为[x，y，channels]。因此，本发明实施例在通道维度上对第一目标图进行拼接后，得到的第二目标图的尺寸为[x，y，channels_a+channels_b+channels_c+channels_d]，其中，本发明实施例中channels_a、channels_b、channels_c、channels_d分别为A目标图、B目标图、C目标图以及D目标图的通道数。本发明实施例通过特征融合的方式，以有效增强图像的特征表达能力。

S730：将第二目标图进行矩阵维度转换，得到第二目标图的向量表征结果。

本发明实施例中，矩阵维度转换是指将二维的第二目标图转换为一维向量，即将第二目标图展平为一个单一的向量，以便于后续输入至全连接层或进行评分。具体地，本发明实施例通过将第二目标图中的所有元素按照预设的排列顺序排列成为一维向量，从而得到相应的向量表征结果。示例性地，在一矩阵维度转换应用场景中，本发明实施例将第一特征图融合得到的第二目标图通过reshape（矩阵维度转换）操作，转换成为一维向量。本发明实施例通过将第二目标图转换为一维向量，即得到相应向量表征结果的方式，以在保留第二目标图中的特征信息的同时，将第二目标图中的空间结构信息转化为更紧凑的表示形式，进而能够便于后续的评分处理。

S740：根据向量表征结果对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分。

本发明实施例中，对目标对象画面进行图像质量的评分是指通过预设的计算方式，如预设计算公式或预设分类器，对目标对象画面进行分数划分。例如，根据向量表征结果对目标对象画面进行颜值质量的评分，从而得到每个候选视频帧的目标对象的颜值评分。示例性地，在一图像质量评分应用场景中，本发明实施例通过预设的计算方式对向量表征结果进行评分清晰度评分计算，从而计算得到各个候选视频帧中目标对象画面的清晰度分数。相应地，本发明实施例中清晰度分数的计算可以通过预设计算公式进行计算，也可以通过预设分类器进行置信度计算的方式，得到相应的清晰度分数。

参照图19，为了能够进一步提高图像质量评分计算的准确性，在一些可行的实施例中，在根据向量表征结果对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分这一步骤中，可以包括步骤S810至步骤S820：

S810：对向量表征结果进行二分类激活，得到目标对象画面属于第一类别或第二类别的分类结果。

本发明实施例中，二分类激活是指通过二分类的激活函数将输入样本数据映射至0至1之间的数值中，表示该样本属于正类的概率。其中，本发明实施例中通过对向量表征结果进行二分类激活，以将目标对象画面划分至第一类别，即正类，或划分至第二类别，即负类。相应地，本发明实施例中通常将第一类别标记为1，将第二类别标记为0。示例性地，在一二分类激活应用场景中，在将各个第一特征图转换为相应的向量表征结果后，本发明实施例将这些向量表征结果输入到一个二分类的softmax激活函数中进行分类，以将相应的向量表征结果映射为0到1范围内的概率分布，从而得到相应的分类结果，将目标对象画面划分为第一类别，即正类别（如表示颜值好看），或第二类别，即负类别（如表示颜值不好看）。

S820：根据目标对象画面属于第一类别的置信度，确定每个候选视频帧的目标对象画面的图像质量的评分。

本发明实施例中，第一类别是指正类别，如颜值好看、清晰度高、分辨率高等。另外，本发明实施例中置信度是指分类的后验概率，其表示输入样本属于相应类别的可信程度范围。相应地，本发明实施例根据二分类激活得到的分类结果中目标对象画面属于第一类别的置信度，确定相应候选视频帧的目标对象画面的图像质量的评分。示例性地，以一目标对象画面颜值评分计算场景为例，本发明实施例首先将候选向量表征结果进行二分类激活后，得到正类别，即第一类别的置信度。接着，本发明实施例将该置信度转换为百分制，从而得到相应候选视频帧的目标对象画面的颜值评分。由于置信度为0至1范围内的小数，因此本发明实施例将其乘以100从而得到一个0到100的分数，即最终的颜值分数。容易理解的是，计算得到的颜值分数能够表示整个画面的颜值美观度，分数越高则表示越美观。相应地，本发明实施例中还可以通过对第一类别的置信度进行百分制转换，从而实现对其他方面的图像质量评分，如分辨率、清晰度、色彩准度等。

参照图20，为了能够提高目标视频帧选取的准确性和质量，在一些可行的实施例中，本发明实施例提供的视频数据处理方法，还可以包括步骤S910至步骤S920：

S910：获取各个候选视频帧的目标对象画面的图像质量的评分。

本发明实施例中，在对各个候选视频帧中的目标对象画面进行图像质量的评分后，提取各个候选视频帧的目标对象画面的图像质量的评分，以便于后续进行评分阈值的计算。示例性地，以一视频编辑应用场景为例，当需要对相应的待剪辑视频进帧行颜值美观度评分，以筛选出符合预设美观度的目标视频帧时，本发明实施例在进行筛选时，需要先设置相应的评分阈值，以通过评分阈值对待剪辑视频帧进行筛选。相应地，在设置评分阈值时，本发明实施例首先将筛选得到的候选视频帧都进行颜值美观度的计算，即对候选视频帧的目标对象画面的评分，如人物配对对象（CP）。

S920：根据各个候选视频帧的时序信息，计算各个图像质量的评分的平均值，得到评分阈值。

本发明实施例中，时序信息是指各个候选视频帧在时间维度上的信息，如时间顺序或顺序索引。本发明实施例通过在时间维度上对各个候选视频帧的图像质量的评分进行平均计算，得到相应的平均值，从而将该平均值作为评分阈值。示例性地，在一图像质量评分阈值计算应用场景中，本发明实施例根据各个候选视频的时序信息，如时间顺序，计算各个图像质量的评分的平均值，即在时间维度上计算平均，从而得到相应视频片段的平均图像质量指标。其中，本发明实施例中该平均图像质量指标可以用于评价图像中目标对象画面的清晰度、对比度、噪声或颜值等。接着，本发明实施例将该平均图像质量指标作为目标视频帧选取的评分阈值，例如选取候选视频帧中图像质量的评分大于该评分阈值的视频帧作为目标视频帧，从而能够提高目标视频帧选取的准确性和质量。

参照图21，为了能够使得提取到的各个动作表征信息之间具备时序上的关联性和逻辑性，提高后期视频帧组合的剧情逻辑性，在一些可行的实施例中，在对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息这一步骤中，可以包括步骤S1010至步骤S1030：

S1010：根据第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，得到各个视频帧的特征表征信息。其中，不同视频帧的特征表征信息之间具有时域关联性。

本发明实施例中，时域关联性是指相关的特征表征信息在时域上的相关性。另外，本发明实施例中时间信息是指各个视频帧的时序信息，即第二视频文件中各个视频帧的前后时间顺序信息。相应地，本发明实施例中不同视频帧的表征信息之间具有时域关联性，而本发明实施例中特征表征信息是指具有前后帧关联的语义特征向量，即能够表示与前一帧以及后一帧视频帧之间的特征关系，例如前后帧中目标动作之间的关联性。本发明实施例通过第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，以得到各个视频帧的特征表征信息，从而能够提取得到不同视频帧在时域上的关联性，即各个动作表征信息之前在时序上的关联性，融合了不同视频帧之间的语义信息。示例性地，在一短视频应用平台的应用场景中，如图22所示，本发明实施例的第二视频文件可以为从短视频平台中的目标对象生成内容（UGC）短视频组成的短视频库中提取得到的符合预设要求的目标对象生成内容视频。本发明实施例通过对相应的目标对象生成内容视频（第二视频文件）进行动作脚本的识别，即进行时序动作识别，从而能够得到相应的分镜动作逻辑信息，进而为后期视频帧组合提供逻辑性支持。相应地，本发明实施例通过时间信息将相应的目标对象生成内容视频中各个视频帧进行时间上的特征融合，从而生成具有前后帧关联的语义特征向量，即在时间维度上不同视频帧之间的关联特征。容易理解的是，本发明实施例通过结合各个视频帧的时间信息对各个视频帧进行特征融合的方式，融合了不同视频帧之间的语义信息，能够得到具有时域关联性的特征表征信息，让生成的视频语义编码特征具有更丰富的前后表征，提取得到各个目标动作之间的逻辑性，从而有助于提高后期视频帧组合的剧情逻辑性。

S1020：通过激活函数对特征表征信息进行激活处理，确定各个视频帧的动作标签。

本发明实施例中，激活函数是指在人工神经网络的神经元上运行的函数，将神经元的输入映射到输出端。例如，本发明实施例中激活函数包括Sigmoid函数、Tanh函数以及Softmax函数等。相应地，本发明实施例中激活处理是指将输入的线性变换结果进行非线性映射，通过引入非线性特性的方式，增加模型的表达能力。另外，本发明实施例中动作标签是指各个视频帧中动作信息，如奔跑、跳跃、眺望等。需要说明的是，由于在同一个视频帧中可能同时出现多个动作，例如目标对象I与目标对象J在牵手的同时进行奔跑，因此，本发明实施例中同一个视频帧可能具有多个动作标签。示例性地，在一动作标签识别应用场景中，本发明实施例通过Sigmoid函数作为动作标签分类的激活函数，将各个视频帧的表征信息输入Sigmoid函数中进行激活处理，通过Sigmoid函数进行动作分类的方式，以缓解视频帧中的动作存在多标签可能的问题，即多个动作可能同时发生，能够实现一个动作多标签的分类。

S1030：根据各个视频帧的时间信息和动作标签，确定分镜动作逻辑信息。

本发明实施例中时间信息是指各个视频帧的时序信息。相应地，本发明实施例将各个视频帧的时间信息与相应的动作标签进行匹配，以确定分镜动作逻辑信息。示例性地，以一视频应用平台为例，当需要对某一影视剧进行花絮剪辑时，为了使剪辑得到的花絮视频具有一定的逻辑性，本发明实施例通过对一些满足预设逻辑条件的样本视频，即第二视频文件，进行识别，得到各个视频帧的动作标签后，本发明实施例根据该样本视频中各个视频帧的时序信息，如视频帧的先后顺序，以及各个视频帧所对应的动作标签，提取得到该样本视频相应的分镜动作逻辑信息。例如，在样本视频中各个视频帧的动作标签在时序上是以“眺望、眺望、奔跑、奔跑、拥抱”的顺序排列的，则本发明实施例根据各个视频帧以及其相应的动作标签，提取得到的分镜动作逻辑信息为“眺望、眺望、奔跑、奔跑、拥抱”，进而根据该分镜动作逻辑信息从目标视频帧中选取相应的视频帧，按照动作逻辑进行组合，从而能够得到具有剧情逻辑性的目标视频。本发明实施例通过将时间信息融合到第二视频文件的动作特征提取过程中，从而使得提取得到的各个动作表征信息之间具有时序上的关联性，进而能够得到相应的分镜动作逻辑信息，为后期视频帧组合提供逻辑支持。

参照图23，为了能够使得生成的视频语义编码特征具有更丰富的前后特征，并且减少运算量，在一些可行的实施例中，在根据第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，得到各个视频帧的特征表征信息这一步骤中，可以包括步骤S1110至步骤S1130：

S1110：对第二视频文件中各个视频帧进行分块处理，得到图像块。

本发明实施例中，分块处理是指将输入的图像划分为若干个小块，得到相应的图像块。本发明实施例通过将第二视频文件中各个视频帧分解为更小的图像，即图像块，从而将相应的图像信息分解为更小的单元，提高对相应视频帧的特征提取效果。示例性地，在一视频特征融合应用场景中，本发明实施例通过Swin-Transformer网络模型进行视频帧的特征表征信息的提取，其中，Swin-Transformer网络模型是基于Transformer（转换器架构）和Shifted Window（移动窗口）的视觉处理模型，Swin-Transformer网络模型引入了PatchPartition（分块处理）和Patch Merging（块合并）的机制。本发明实施例通过将第二视频文件中的各个视频帧输入到分块处理模块中进行分块处理，例如，将每相邻的像素为一个区域块（Patch）进行图像分块，从而划分得到若干个图像块。

S1120：对图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图。

本发明实施例中，线性变换处理是指将高维的通道数据映射到低维空间，如将图像块每个像素的通道数据从高维度降到低维度，以便于后续的特征提取。示例性地，在一线性变换处理应用场景中，本发明实施例通过预设的包含权重矩阵和偏置向量的全连接层对每个图像块的像素的通道数据进行线性变换的操作，从而将每个像素的通道数据从高维度H降低至低维度L。容易理解的是，本发明实施例中通将各个视频帧进行分块处理，能够将原始的视频帧图像进行降维，进一步地，将得到的图像块的像素数据进行线性变换处理，以进一步地降低数据维度，从而能够更好地提取得到图像的局部特征，得到各个图像块相应的第二特征图。

S1130：根据各个视频帧的时间信息，对各个第二特征图进行时间维度的下采样处理，得到各个视频帧的特征表征信息。

本发明实施例中，下采样处理是指通过相应操作减少图像或特征图的尺寸，以在不同尺寸上采集不同尺度的特征信息。例如，本发明实施例中下采样处理包括最大池化处理（Max Pooling）和平均池化处理（Average Pooling）。其中，最大池化处理是从输入图像或特征图的局部区域中提取最大值作为下采样后的值。相应地，平均池化处理则是通过计算局部区域的平均值作为下采样后的值。本发明实施例通过融入各个视频帧的时间信息，对各个第二特征图进行时间维度的下采样处理的方式，以融合不同视频帧之间的语义信息，提取得到各个视频帧的特征表征信息，从而使得生成的视频语义编码特征具有更丰富的前后表征特征。示例性地，在一特征表征信息提取应用场景中，本发明实施例通过改进的Swin-Transformer网络模型进行时序动作识别。相应地，参照图24，图24是本发明实施例提供的时序动作识别模型结构示意图。其中，图中H表示图像的原始高度，W表示图像的原始宽度，T表示时间信息，且图像维度为3，C表示降维后的图像维度。本发明实施例引入了TimePatch Merging（时间块合并）层进行时间维度上的下采样。需要说明的是，本发明实施例中Time Patch Merging（时间块合并）层的作用是在整个模型中进行时间维度的降采样，从而让整个模型感受到时域上视频帧的前后关联性，从而得到各个视频帧的特征表征信息，同时能够调整通道数，节省一定的运算量。Time Patch Merging（时间块合并）层是由前面描述的Patch Merging（块合并）模块改造得到。其中，Patch Merging（块合并）模块是在特征图的宽和高上进行操作，而本发明实施例中Time Patch Merging（时间块合并）层是在时间维度上进行的操作，以此来融合不同视频帧之间的语义信息，让生成的视频语义编码特征具有更丰富的前后表征，从而能够将视频片段中的所有抽帧直接输入到模型中来进行直接的动作识别判断。其中，本发明实施例中抽帧是指从视频片段中按照一定的规则或算法筛选出来的视频帧。

参照图25，为了能够进一步增强图像块的表达能力，并提高了处理效率，在一些可行的实施例中，在对图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图这一步骤中，可以包括步骤S1210至步骤S1220：

S1210：将图像块在对应的图像通道中展平，确定图像块在不同图像通道中的像素个数。

本发明实施例中图像通道是指构成图像的不同特征通道，例如在彩色图像中，通常包括红色通道（R）、绿色通道（G）以及蓝色通道（B），每个通道表示相应颜色的强度信息。另外，本发明实施例中展平是指将多维的数据结构转化为一维的数据结构。例如，本发明实施例将图像块中的像素按照通道顺序排列，从而展开成为一个一维的向量。容易理解的是，本发明实施例在将图像块在对于的图像通道中展平过程中，当图像块的尺寸为H×W，通道数为C，则展平后的向量的长度就是H×W×C。本发明实施例通过将图像块在对于的图像通道中展平，从而确定图像块在不同图像通道中的像素个数。示例性地，在一像素个数计算应用场景中，本发明实施例首先将图像块中的像素按照其对应的图像通道进行展平，即展开成一维向量。例如，当输入的是RGB三通道彩色图片时，则每个图像块都有个像素。同时，本发明实施例中每个像素都有红色通道、绿色通道以及蓝色通道，所以展平后的像素个数为/>个。相应地，本发明实施例中通过Patch Partition（分块处理）后图像将由[H，W，3]变成[H/4，W/4，48]，其中H表示图像的高度，W表示图像的宽度。

S1220：根据图像块在不同图像通道中的像素个数，对图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图。

本发明实施例中，通过预设线性嵌入层进行线性变换处理，如Linear Embedding层，其将输入数据映射到低维空间。相应地，本发明实施例中Linear Embedding（线性嵌入）层的输出是输入数据乘以一个权重矩阵，在加上一个偏置向量的线性组合。具体地，本发明实施例根据图像块在不同图像通道中的像素个数，通过Linear Embedding层对图像块中各个像素进行线性变换处理，从而构建得到相应的第二特征图，进一步地增强了图像块的表达能力，并提高了处理效率。示例性地，在一线性嵌入层应用场景中，本发明实施例中图像块在不同通道中的像素个数为48，相应地，将图像块在对于的图像通道中展平后，各个图像块由[H，W，3]转换为[H/4，W/4，48]，其中，H/4表示图像块的行数，W/4表示图像块的列数，48表示每个图像块中的向量维度。然后，本发明实施例通过Linear Embedding层对图像块中每个像素的通道数据进行线性变换，从而将每个图像块的向量维度由48转换至C，即图像块由[H/4，W/4，48]转换成[H/4，W/4，C]，从而得到各个图像块对应的第二特征图。需要说明的是，参照图24，在对图像块的每个像素进行线性变换处理得到对应的第二特征图后，本发明实施例通过四个组成阶段（Stage）构建不同大小的特征图，除了阶段1中先通过一个LinearEmbedding（线性嵌入）层外，剩下三个阶段都是先通过一个Patch Merging（块合并）层进行下采样，然后重复堆叠Swin-Transformer Block（自注意力窗口网络块）。

示例性地，以影视剧剪辑应用场景为例，对本申请技术方案中视频数据处理方法的完整实施过程说明如下：

参照图26，图26是一个具体例子提供的视频数据处理方法的整体处理流程示意图。当需要对某一目标对象组合，如目标对象A和目标对象B的影视视频进行剪辑时，本发明实施例首先获取含有目标对象画面的视频帧的第一视频文件，如包含目标对象A、目标对象B或者目标对象A和目标对象B同时出现的视频。同时，本发明实施例还获取包含有目标动作画面的视频帧的第二视频文件。其中，本发明实施例中第二视频文件可以是从相应的影视剧平台中获取的满足预设质量条件的样本视频，例如，当目标动作定义为武打动作时，则可以从影视库中获取包含武打动作画面的视频帧作为第二视频文件，又如，当目标动作定义为阅读动作时，则可以从影视库中获取包含阅读、学习等动作画面的视频帧作为第二视频文件。接着，本发明实施例对第一视频文件中各个视频帧进行目标对象的第一识别，以得到包含目标对象画面的候选视频帧。具体地，本发明实施例首先对第一视频文件中每个视频帧进行人脸检测，以确定视频帧中人脸定位信息。例如，本发明实施例通过MTCNN网络模型人脸检测和定位，首先对每个视频帧对应的图像进行图像缩放处理，得到特定尺寸大小的多张图像，构建得到图像金字塔，从而将图像金字塔中每个图像输入候选网络进行人脸区域的框选，得到候选框，进而将候选框输入细化网络进行优化，得到目标框，实现对图像中的人脸定位。接着，本发明实施例根据人脸定位信息从各个视频帧中切割得到人脸图片，例如将目标对象A和目标对象B从对应的视频帧中切割出来，得到目标对象A人脸图片和目标对象B人脸图片。然后，本发明实施例对切割得到的人脸图片进行图像编码处理，得到人脸图片对应的人物信息。例如，本发明实施例通过ResNet50架构对人脸图片进行图像编码处理，从而得到各个人脸图片的嵌入向量（embedding），即人物信息。进一步地，本发明实施例将人物信息与目标对象的人脸库进行匹配，从而确定包含目标对象的人脸图片，进而能够确定对应的候选视频帧。例如，本发明实施例首先根据相应的影视剧的参演信息从影视剧平台的演员库中提取相应的特征嵌入向量集合，并将相应的人物信息在该图像嵌入向量集合中进行匹配，从而确定包含目标对象的人脸图片，并确定相应的候选视频帧。容易理解的是，本发明实施例通过在特征嵌入向量集合进行匹配的方式，不需要对数据库中海量的特征数据进行比较和计算，能够有效提高消耗，降低耗时。

接着，本发明实施例对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧。具体地，本发明实施例中每个目标视频帧中出现的目标对象画面的图像质量的评分满足阈值要求。本发明实施例首先根据候选视频帧中的目标对象画面生成候选视频帧的二值化掩膜（face mask）。然后，本发明实施例通过二维卷积神经网络对候选视频帧的画面进行特征映射后，将各个网络层的映射结果与对应的二值化掩膜相乘，从而得到不同维度的第一特征图。例如，本发明实施例将候选视频帧的画面依次输入二维卷积神经网络的各个网络层，如依次通过两个2*2的二维卷积神经网络层以及两个3*3的二维卷积神经网络层，以进行不同维度的特征映射，得到相应的映射结果。然后，本发明实施例对不同维度的映射结果将二值化掩膜与当前维度有的相关系数相乘得到相应的赋值矩阵后，将赋值矩阵与当前维度的映射结果相乘，从而构建得到当前维度的第一特征图。需要说明的是，本发明实施例中相关系数用于表征候选视频帧的画面中人脸画面与非人脸画面之间的占比信息。进一步地，本发明实施例根据各个第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分。具体地，本发明实施例首先将各个第一特征图进行池化处理，以统一第一特征图的尺寸，得到多个第一目标图。接着，本发明实施例将各个第一目标图进行特征融合得到第二目标图，并将第二目标图进行矩阵维度转换，得到第二目标图的向量表征结果，进而根据向量表征结果对目标对象画面进行图像质量的评分，得到每个候选视频帧的目标对象画面的图像质量的评分。相应地，本发明实施例通过对向量表征结果进行二分类激活，以得到目标对象画面属于第一类别（正类别）或第二类别（负类别）的分类结果，从而根据目标对象画面属于第一类别（正类别）的置信度，确定各个候选视频帧的目标对象画面的图像质量的评分。例如，本发明实施例中通过softmax二分类激活函数对候选视频帧中的目标对象画面的颜值进行评分，将向量表征结果输入到二分类的softmax激活函数中，从而得到目标对象画面属于正类别（第一类别）或负类别（第二类别）的分类结果。其中，正类别表示颜值好看，负类别表示颜值不好看。然后，本发明实施例根据正类别的置信度，即分类的后验概率，进行百分制转换，确定相应的颜值分数。需要说明的是，本发明实施例通过获取各个候选视频帧的目标对象画面的图像质量的评分，以根据各个候选视频帧的时序信息，进行各个图像质量的评分的平均值计算，进而得到相应的评分阈值。

进一步地，本发明实施例对第二视频文件中各个视频帧进行目标动作的第二识别，以提取得到相应的分镜动作逻辑信息。具体地，本发明实施例首先根据第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，得到各个视频帧的特征表征信息，且不同视频帧的特征表征信息之间具有时域关联性。本发明实施例通过将时间信息融合到第二视频文件的动作特征提取过程中，从而使得提取得到的各个动作表征信息之间能够具备时序上的关联性。相应地，本发明实施例通过在Swin-Transformer网络模型中，结合TimePatch Merging层进行时间维度上的下采样的方式进行特征表征信息的提取，首先对第二视频文件中各个视频帧进行分块处理得到图像块，然后对图像块的每个像素进行线性变换处理，得到各个图像块对于的第二特征图，进而根据各个视频帧的时间信息，对各个第二特征图进行时间维度的下采样处理，从而提取得到各个视频帧对应的特征表征信息。而在进行线性变换处理过程中，本发明实施例首先将图像块在对应的图像通道中展平，以确定图像块在不同通道中的像素个数，进而根据图像块在不同图像通道中的像素个数，通过Linear Embedding层对图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图。进一步地，本发明实施例通过激活函数对特征表征信息进行激活处理，从而确定各个视频帧的动作标签，如奔跑、拥抱、牵手等。接着，本发明实施例根据各个视频帧的时间信息和相应的动作标签，确定分镜动作逻辑信息。最后，本发明实施例根据提取得到的分镜动作逻辑信息，从目标视频帧中选取若干个目标视频帧按照分镜动作逻辑信息中的动作逻辑进行组合，从而剪辑得到目标对象A和目标对象B的目标视频。

如图27所示，本发明实施例还提供了一种视频数据处理装置，该装置包括：

第一模块1310，用于获取第一视频文件和第二视频文件。其中，第一视频文件包括含有目标对象画面的视频帧。第二视频文件包括含有目标动作画面的视频帧。

第二模块1320，用于对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧。

第三模块1330，用于对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧。其中，每个目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求。

第四模块1340，用于对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息；分镜动作逻辑信息用于表征包含目标动作的各个视频帧之间的动作时序逻辑。

第五模块1350，用于根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频。

可以理解的是，上面所示的视频数据处理方法实施例中的内容均适用于本视频数据处理装置实施例中，本视频数据处理装置实施例所具体实现的功能与上面所示的视频数据处理方法实施例相同，并且达到的有益效果与如上面所示的视频数据处理方法实施例所达到的有益效果也相同。

结合附图27，对本发明提供的视频数据处理装置的具体实施过程进行描述：首先，第一模块1310获取第一视频文件和第二视频文件。其中，本发明实施例中第一视频文件包含有目标对象画面的视频帧，第二视频文件包含有目标动作画面的视频帧。然后，第二模块1320对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧。接着，第三模块1330对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧。具体地，本发明实施例中每个目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求。进一步地，第四模块1340对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息。最后，第五模块1350根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频。本发明实施例通过在视频处理的过程中加入对目标对象画面的图像质量评分的处理，使得每个目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求，能够有效地提高图像质量标准的稳定性，进而提高视频处理后的最终成片质量。另外，本发明实施例提供了视频帧选取的逻辑支持，使得视频处理的成片结果可以具有动作逻辑，每个镜头下的视频帧之间具有时序连贯性，提高了成片质量。相应地，本发明实施例通过将视频处理过程的视频帧选取和视频帧组合结合到一起的方式，有效地提高了视频剪辑过程的处理效率。

如图28所示，本发明实施例还提供了一种电子设备，该电子设备包括处理器1410以及存储器1420；存储器1420存储有计算机程序；处理器1410执行计算机程序以执行前述的视频数据处理方法；该电子设备具有搭载并运行本发明实施例提供的视频数据处理的软件系统的功能。

可以理解的是，上面所示的视频数据处理方法实施例中的内容均适用于本电子设备实施例中，本电子设备实施例所具体实现的功能与上面所示的视频数据处理方法实施例相同，并且达到的有益效果与如上面所示的视频数据处理方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行实现前述的视频数据处理方法。可以理解的是，上面所示的视频数据处理方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与上面所示的视频数据处理方法实施例相同，并且达到的有益效果与如上面所示的视频数据处理方法实施例所达到的有益效果也相同。

与此同时，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前面的视频数据处理方法。可以理解的是，上面所示的视频数据处理方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中，本计算机程序产品或计算机程序实施例所具体实现的功能与上面所示的视频数据处理方法实施例相同，并且达到的有益效果与如上面所示的视频数据处理方法实施例所达到的有益效果也相同。

从上述说明书中所提供的实施例，可以清楚地得知，本发明技术方案存在着至少以下的有益效果：

本发明实施例的技术方案首先获取第一视频文件和第二视频文件。其中，本发明实施例中第一视频文件包括含有目标对象画面的视频帧，第二视频文件包括含有目标动作画面的视频帧。接着，本发明实施例对第一视频文件中各个视频帧进行目标对象的第一识别，得到包含目标对象画面的候选视频帧，然后对各个候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧。容易理解的是，本发明实施例在视频数据处理的过程中加入对目标对象画面的图像质量评分的处理，使得每个目标视频帧中出现的目标对象画面的图像质量的评分满足评分阈值要求，保证了图像质量标准的稳定性，提高视频处理后的最终成片质量。另外，本发明实施例对第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息。最后，本发明实施例根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频。容易理解的是，本发明实施例提供了视频帧选取的逻辑支撑，使得视频处理的成片结果可以具有动作逻辑，每个镜头下的视频帧之间具有时序连贯性，提高了成片质量；再有，本发明实施例将视频处理过程的视频帧选取和视频帧组合结合在一起，提高了视频剪辑过程的处理效率。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置）、便携式计算机盘盒（磁装置）、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编辑只读存储器（EPROM或闪速存储器）、光纤装置以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视频数据处理方法，其特征在于，包括：

对所述第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息；其中，所述分镜动作逻辑信息用于表征包含所述目标动作的各个视频帧之间的动作时序逻辑；

2.根据权利要求1所述的视频数据处理方法，其特征在于，所述对所述第一视频文件中各个视频帧进行目标对象的第一识别，得到包含所述目标对象画面的候选视频帧，包括：

对所述第一视频文件中每个视频帧进行人脸检测，确定视频帧中人脸定位信息；

根据所述人脸定位信息从各个视频帧中切割得到人脸图片；

对所述人脸图片进行图像编码处理，得到所述人脸图片对应的人物信息；

将所述人物信息与目标对象的人脸库进行匹配，确定包含所述目标对象的人脸图片，并确定对应的所述候选视频帧。

3.根据权利要求2所述的视频数据处理方法，其特征在于，所述对所述第一视频文件中每个视频帧进行人脸检测，确定视频帧中人脸定位信息，包括：

对每个视频帧对应的图像进行图像缩放处理，得到特定尺寸大小的多张图像，并构建图像金字塔；

将所述图像金字塔中每个图像输入候选网络进行人脸区域的框选，得到候选框；

将所述候选框输入细化网络进行优化，得到目标框；

将所述目标框输入输出网络进行坐标转换，得到所述目标框对应的人脸坐标，确定所述人脸定位信息。

4.根据权利要求1所述的视频数据处理方法，其特征在于，所述对各个所述候选视频帧中的目标对象画面进行图像质量的评分，确定目标视频帧，包括：

根据所述候选视频帧中的目标对象画面，生成所述候选视频帧的二值化掩膜；

通过二维卷积神经网络对所述候选视频帧的目标对象画面进行特征映射后，将各个网络层的映射结果与对应的二值化掩膜相乘，得到不同维度的第一特征图；

根据各个所述第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，得到每个所述候选视频帧的所述目标对象画面的图像质量的评分；

根据所述图像质量的评分，从所述候选视频帧中确定所述目标视频帧。

5.根据权利要求4所述的视频数据处理方法，其特征在于，所述通过二维卷积神经网络对所述候选视频帧的目标对象画面进行特征映射后，将各个网络层的映射结果与对应的二值化掩膜相乘，得到不同维度的第一特征图，包括：

将所述候选视频帧的目标对象画面依次输入所述二维卷积神经网络的各个网络层进行特征映射，得到不同维度的映射结果；

对于每个维度的映射结果，将所述二值化掩膜与当前维度对应的相关系数相乘得到赋值矩阵后，将所述赋值矩阵与当前维度的映射结果相乘，得到当前维度的第一特征图；

6.根据权利要求4所述的视频数据处理方法，其特征在于，所述根据各个所述第一特征图对应的向量表征结果，对目标对象画面进行图像质量的评分，得到每个所述候选视频帧的所述目标对象画面的图像质量的评分，包括：

将各个所述第一特征图进行池化处理，得到统一尺寸的多个第一目标图；

将各个所述第一目标图进行特征融合，得到第二目标图；

将所述第二目标图进行矩阵维度转换，得到所述第二目标图的向量表征结果；

根据所述向量表征结果对目标对象画面进行图像质量的评分，得到每个所述候选视频帧的所述目标对象画面的图像质量的评分。

7.根据权利要求6所述的视频数据处理方法，其特征在于，所述根据所述向量表征结果对目标对象画面进行图像质量的评分，得到每个所述候选视频帧的所述目标对象画面的图像质量的评分，包括：

对所述向量表征结果进行二分类激活，得到所述目标对象画面属于第一类别或第二类别的分类结果；

根据所述目标对象画面属于所述第一类别的置信度，确定每个所述候选视频帧的所述目标对象画面的图像质量的评分。

8.根据权利要求5所述的视频数据处理方法，其特征在于，所述方法还包括：

获取各个所述候选视频帧的目标对象画面的图像质量的评分；

根据各个所述候选视频帧的时序信息，计算各个图像质量的评分的平均值，得到所述评分阈值。

9.根据权利要求1所述的视频数据处理方法，其特征在于，所述对所述第二视频文件中各个视频帧进行目标动作的第二识别，得到分镜动作逻辑信息，包括：

根据所述第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，得到各个视频帧的特征表征信息；其中，不同视频帧的所述特征表征信息之间具有时域关联性；

通过激活函数对所述特征表征信息进行激活处理，确定各个视频帧的动作标签；

根据各个视频帧的时间信息和所述动作标签，确定分镜动作逻辑信息。

10.根据权利要求9所述的视频数据处理方法，其特征在于，所述根据所述第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合，得到各个视频帧的特征表征信息，包括：

对所述第二视频文件中各个视频帧进行分块处理，得到图像块；

对所述图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图；

根据各个视频帧的时间信息，对各个所述第二特征图进行时间维度的下采样处理，得到各个视频帧的特征表征信息。

11.根据权利要求10所述的视频数据处理方法，其特征在于，所述对所述图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图，包括：

将所述图像块在对应的图像通道中展平，确定所述图像块在不同图像通道中的像素个数；

根据所述图像块在不同图像通道中的像素个数，对所述图像块的每个像素进行线性变换处理，得到各个图像块对应的第二特征图。

12.根据权利要求1所述的视频数据处理方法，其特征在于，所述根据所述目标视频帧和所述分镜动作逻辑信息，生成目标视频，包括:

从所述目标视频帧中选取包含所述目标动作的若干个目标视频帧；

根据所述分镜动作逻辑信息，确定所选取的各个目标视频帧的排列次序；

根据所述排列次序，将所选取的各个目标视频帧生成所述目标视频。

13.一种视频数据处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序实现如权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行实现如权利要求1至12中任一项所述的方法。