CN114155454A

CN114155454A - 一种视频处理方法、装置和存储介质

Info

Publication number: CN114155454A
Application number: CN202010930593.7A
Authority: CN
Inventors: 张雪艳; 程印超; 朱寅
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-03-08

Abstract

本发明公开了一种视频处理方法、装置和存储介质，所述方法包括：获取第一目标视频片段；对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。

Description

一种视频处理方法、装置和存储介质

技术领域

本发明涉及数据业务领域，尤其涉及一种视频处理方法、装置和存储介质。

背景技术

随着通信技术的发展革新及智能终端设备的高度普及，网络直播、短视频交互应用发展迅速，成为人们工作和生活中的一种新兴传媒方式。如何丰富视频交互应用场景、满足用户的多样化交互需求，是吸引用户、提升用户粘度的有效策略。

目前，视频交互应用能够在用户的脸部或头部添加静态图像装饰，或者根据用户的运动状态添加相应的视频特效，应用场景较为单一，无法根据视频中用户的表情或语音信息添加对应的动画特效或音乐特效。

发明内容

有鉴于此，本发明的主要目的在于提供一种视频处理方法、装置和存储介质。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种视频处理方法，所述方法包括：

获取第一目标视频片段；

对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；

根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；

将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。

上述方案中，所述至少一个特征，包括：语音特征、面部表情特征、人体动作特征；

所述对所述第一目标视频片段进行特征识别，得到识别结果集，包括：

运用至少一个预设的识别模型，识别所述第一目标视频片段，得到所述第一目标视频片段中每个所述特征对应的识别结果。

上述方案中，所述识别结果，包括：至少一个结果和每个结果对应的置信等级；所述置信等级基于每个结果的置信度确定；

所述根据所述识别结果集查询预设的特效标签库，确定目标特效标签集，包括：

基于每个所述特征对应的识别结果中每个结果的置信等级由高到低，确定至少一个结果子集；每个所述结果子集包括：至少一个特征对应的结果；每个所述结果子集包括的结果对应的置信等级相同；

根据所述至少一个结果子集，查询预设的特效标签库，确定至少一个目标特效标签；

根据所述至少一个目标特效标签，得到所述目标特效标签集。

上述方案中，所述根据所述至少一个结果子集，查询预设的特效标签库，确定至少一个目标特效标签，包括：

根据第一结果子集查询预设的特效标签库，确定所述第一结果子集中至少一个结果对应有特效标签时，将所述第一结果子集中至少一个结果对应的特效标签作为所述目标特效标签；所述第一结果子集对应的置信等级高于除自身外的其他结果子集对应的置信等级；

确定所述第一结果子集中的结果未对应有特效标签时，根据第二结果子集查询预设的特效标签库，确定所述第二结果子集中至少一个结果对应有特效标签时，将所述第二结果子集中至少一个结果对应的特效标签作为所述目标特效标签；所述第二结果子集对应的置信等级低于所述第一结果子集对应的置信等级、且高于除自身和第一结果子集外的其他结果子集对应的置信等级；

确定所述第二结果子集中的结果未对应有特效标签时，根据第三结果子集查询预设的特效标签库，依此类推，直至确定目标特效标签；所述第三结果子集对应的置信等级低于所述第一结果子集对应的置信等级、所述第二结果子集对应的置信等级，高于除自身、所述第一结果子集和所述第二结果子集外的其他结果子集对应的置信等级。

上述方案中，所述将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段，包括：

将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一目标视频片段，得到添加有特效的第一目标视频片段，作为所述第二目标视频片段。

上述方案中，所述获取第一目标视频片段，包括：

对视频数据进行识别，确定至少具有目标体的第一视频片段；

对所述第一视频片段进行间隔帧提取，得到预设帧数的第二视频片段，作为所述第一目标视频片段；

相应的，所述将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段，包括：

将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一视频片段，得到添加有特效的第一视频片段，作为所述第二目标视频片段。

上述方案中，所述方法还包括以下至少之一：

训练第一识别模型；所述第一识别模型用于提取并识别面部表情特征；

训练第二识别模型；所述第二识别模型用于提取并识别人体动作特征；

训练第三识别模型；所述第三识别模型用于提取语音数据，从所述语音数据中提取关键词。

本发明实施例提供了一种视频处理装置，所述装置包括：

获取模块，用于获取第一目标视频片段；

识别模块，用于对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；

确定模块，用于根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；

处理模块，用于将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。

所述识别模块，用于运用至少一个预设的识别模型，识别所述第一目标视频片段，得到所述第一目标视频片段中每个所述特征对应的识别结果。

所述确定模块，用于基于每个所述特征对应的识别结果中每个结果的置信等级由高到低，确定至少一个结果子集；每个所述结果子集包括：至少一个特征对应的结果；每个所述结果子集包括的结果对应的置信等级相同；

上述方案中，所述确定模块，具体用于根据第一结果子集查询预设的特效标签库，确定所述第一结果子集中至少一个结果对应有特效标签时，将所述第一结果子集中至少一个结果对应的特效标签作为所述目标特效标签；所述第一结果子集对应的置信等级高于除自身外的其他结果子集对应的置信等级；

上述方案中，所述处理模块，用于将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一目标视频片段，得到添加有特效的第一目标视频片段，作为所述第二目标视频片段。

上述方案中，所述获取模块，用于对视频数据进行识别，确定至少具有目标体的第一视频片段；

相应的，所述处理模块，用于将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一视频片段，得到添加有特效的第一视频片段，作为所述第二目标视频片段。

上述方案中，所述装置还包括：预处理模块，用于执行以下至少之一：

本发明实施例提供了一种视频处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上任一项所述视频处理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上任一项所述视频处理方法的步骤。

本发明实施例所提供的一种视频处理方法、装置和存储介质，所述方法包括：获取第一目标视频片段；对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段；如此，通过识别多种特征，得到不同特征的识别结果对应的特效，为视频添加多种特效，提升视频乐趣，提高用户体验度。

附图说明

图1为本发明实施例提供的一种视频处理方法的流程示意图；

图2为本发明实施例提供的一种面部表情特征识别模型的结构示意图；

图3为本发明实施例提供的一种人体动作特征识别模型的结构示意图；

图4为本发明实施例提供的一种语音识别及关键词提取模型的示意图；

图5为本发明实施例提供的一种视频处理装置的结构示意图；

图6为本发明实施例提供的一种视频特效添加装置的结构示意图；

图7为本发明实施例提供的另一种视频处理装置的结构示意图；

图8为本发明实施例提供的再一种视频处理装置的结构示意图。

具体实施方式

在结合实施例对本发明再作进一步详细的说明，先对相关技术进行说明。

相关技术中提供的一种视频特效添加方法，通过获取视频中的图像帧并识别人体关节点，确定人体关节点的运动状态，从而获取与人体关节点运动动作相匹配的视频特效。上述方案只考虑了视频中的人体动作信息，忽略了用户的面部表情及语音等其他信息。对于运动幅度较小或没有显著动作的视频内容，该方法识别准确率较低，应用范围受到限制。

在另一视频特效添加技术方法中，通过获取视频中的图像帧并识别目标用户的运动像素，筛选满足预设位置条件的用户运动像素并生成目标像素集合，根据当前图像帧匹配的目标像素集合与前一图像帧匹配的目标像素集合满足特效添加条件时，添加相匹配的视频特效。该方法可以识别出运动用户并为视频添加匹配的动态特效，但应用场景较为固定和单一，难以满足多样化交互场景的需求。

综上，当前的视频特效自动添加方法大多是根据人体动作及运动特征进行识别和添加，缺乏对视频中用户的面部表情状态及语音信息的关注。上述两种方法，均只从目标用户的动作或运动状态出发，对于视频中运动幅度较小或无显著运动特征的用户识别准确率较低，导致特效添加效果不准确、场景较为单一，不能满足视频交互应用中的多样化场景需求。

基于此，本发明实施例提供的方法，获取第一目标视频片段；对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。

图1为本发明实施例提供的一种视频处理方法的流程示意图；如图1所示，所述方法包括：

步骤101、获取第一目标视频片段；

步骤102、对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；

步骤103、根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；

步骤104、将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。

实际应用中，考虑到原始视频数据量较大，并且包含较多的噪声，不利于特征提取与模型的构建、训练，因此，可以提取有效视频片段，针对有效视频片段添加特效。

基于此，所述获取第一目标视频片段，包括：

对所述第一视频片段进行间隔帧提取，得到预设帧数的第二视频片段，作为所述第一目标视频片段。

这里，通过对原始的视频数据进行预处理和镜头分割，得到多个有效镜头片段(即第一视频片段)；再对有效镜头片段进行间隔帧提取，得到每个有效镜头镜头的N帧图像组成的视频片段，作为所述第一目标视频片段。

其中，所述目标体可以为人脸、人的身体、人的说话声。所述N帧可以由开发人员基于需求设定，例如，所述N可以为24、26、28等。

如此，若目标体包括人的说话声，可以避免视频数据中虽有音乐，但不涉及有效语音内容的情况；若目标体同时包括人脸和人的说话声，可以避免仅有人的说话声的情况，例如，用户说话，但人未到、并未开始直播的情况；若目标体包括人脸、人的身体、人的说话声，则可以得到精确的有效视频，避免上述任一情况出现。

这里，对于目标体的选择，可以由用户通过其自身持有的设备选定；也可以由开发人员设定。

本发明实施例提供的方法，可以应用于服务器、终端等设备；所述终端可以为任意具有采集器件(如摄像头，所述摄像头同时具有视频采集和语音采集功能，再比如，具有视频采集功能的摄像头和具有音频采集功能的麦克风等) 或者连接采集器件的设备；例如，平板电脑、智慧手机、笔记本电脑等。

所述方法应用于终端时，终端可以通过自身具有的采集器件采集视频数据

(包括图像和声音)；并运用图1所示方法进行相应处理，将处理结果发送给服务器，由服务器将处理结果发送给相关终端(以直播为例，相关终端为观看直播视频的终端)进行呈现。

所述方法应用于服务器时，可以由终端通过自身具有的采集器件采集视频数据(包括图像和声音)；并将采集的视频数据发送给服务器，由服务器运用图 1所示方法进行相应处理后，并将处理结果发送给相关终端(以直播为例，相关终端为发送的终端和其他观看直播视频的终端)进行呈现。

在一些实施例中，所述至少一个特征，包括：语音特征、面部表情特征、人体动作特征；

所述对所述第一目标视频片段进行特征识别，得到至少一个识别结果集，包括：

运用至少一个预设的识别模型，识别所述第一目标视频片段，得到所述第一目标视频片段中每个特征对应的识别结果。

这里，所述至少一个预设的识别模型，可以包括：

第一识别模型，用于提取并识别面部表情特征；

第二识别模型，用于提取并识别人体动作特征；

第三识别模型，用于提取语音数据，从所述语音数据中提取关键词(所述关键词即为语音特征)。

也就是说，所述运用至少一个预设的识别模型，识别所述第一目标视频片段，得到所述第一目标视频片段中每个特征对应的识别结果，包括以下至少之一：

运用第一识别模型识别所述第一目标视频片段，得到所述第一目标视频片段中的人脸对应的第一识别结果；第一识别结果，可以包括：面部表情特征对应的识别结果；

运用第二识别模型识别所述第一目标视频片段，得到所述第一目标视频片段中的肢体对应的第二识别结果；第二识别结果，可以包括：人体动作特征对应的识别结果；

运用第三识别模型识别所述第一目标视频片段，得到所述第一目标视频片段中的语音数据对应的第三识别结果；第三识别结果，可以包括：关键词。

在一些实施例中，所述方法还包括以下至少之一：

其中，第一识别模型基于采用卷积神经网络(CNN，Convolutional NeuralNetworks)与极限学习算法(ELM，Extreme Learning Machine)训练得到；

所述第二识别模型基于CNN和长短期记忆网络(LSTM，Long Short-Term Memory)训练得到；

所述第三识别模型基于双向长短时记忆网络(BiLSTM，Bi-directional LongShort-Term Memory)和连接时间分类器(CTC，connectionist temporal classifier) 训练得到。

在一些实施例中，所述识别结果，包括：至少一个结果和每个结果对应的置信等级；所述置信等级基于每个结果的置信度确定；

这里，所述根据所述至少一个结果子集，查询预设的特效标签库，确定至少一个目标特效标签，包括：

结合以下示例对上述步骤具体说明。

将预处理后的待测视频片段(即第一目标视频片段)输入模型；具体指，分别输入上述第一识别模型、第二识别模型、第三识别模型；

获得三个模型的输出，包括：第一识别模型(用于进行面部表情识别)的识别结果O_E、第二识别模型(用于进行动作识别)的识别结果O_m、第三识别模型(用于进行语音识别后提取到关键词集)的识别结果O_w。

选取各模型的识别结果中得分第一的结果(也就是置信度最高、或者置信等级最高)，生成第一层特效标签候选子集T₁；T₁具体包括：O_E中得分第一的结果、O_m中得分第一的结果、O_w中得分第一的结果；所述第一层特效标签候选子集，也即上述第一结果子集；

选取各模型的识别结果中得分第二的结果(也就是置信度第二、或者置信等级第二)，生成第二层特效标签候选子集T₂；T₂具体包括：O_E中得分第二的结果、O_m中得分第二的结果、O_w中得分第二的结果；所述第二层特效标签候选子集，也即上述第二结果子集；

同理，以此种方式共生成n层特效标签候选子集；其中，n的具体值可根据实际情况设定；

最终生成的特效标签候选集T为{T₁，T₂，...，T_n}，其中， T_i＝{O_Ei，O_mi,O_wi}，i＝1,2,...n。

遍历上述生成的特效标签候选集T，按照置信等级由高到低依次循环每层 Ti中的元素，与预存的特效标签库进行匹配，若某一层匹配成功(这里可以是某一层中至少一个元素匹配成功)，则循环结束；否则继续循环遍历特效标签候选集直至结束。最后，可以在相应的视频段的起始帧处开始添加匹配得到的特效标签对应的视频特效，持续时间为特效时长。

所述特效标签库，包括：至少一个特效和每个特效对应的标签；所述特性为可以为动态图像特效，例如，标签：大笑，对应特效：大笑图像；标签：拍手，对应特效：拍手图像。每个动态图像特效还对应有持续时长等；所述特性还可以为音乐特效等其他特效，这里仅用于说明一种示例，并不限定。

在一些实施例中，提供另一种根据所述至少一个识别结果集查询预设的特效标签库，确定目标特效标签集。

这里，所述识别结果，包括：至少一个结果和每个结果对应的置信等级；所述置信等级基于每个结果的置信度确定；所述至少一个识别结果集中的每个识别结果集的置信等级相同；

所述根据所述至少一个识别结果集查询预设的特效标签库，确定目标特效标签集，也可以是包括：

针对每个所述特征，基于每个所述特征对应的识别结果中每个结果的置信等级由高到低，依次根据相应结果查询预设的特效标签库，确定相应结果对应的满足预设条件的特效标签，作为目标特效标签；

根据至少一个特征对应的目标特效标签，得到目标特效标签集。

这里，针对每个特征来说，所述依次根据相应结果查询预设的特效标签库，确定相应结果对应的满足预设条件的特效标签，作为目标特效标签，包括：

根据第一结果查询预设的特效标签库，确定所述第一结果对应有特效标签时，将所述第一结果对应的特效标签作为所述目标特效标签；所述第一结果的置信等级高于所述第一结果对应的特征的识别结果中的除自身外的其他结果的置信等级；

确定所述第一结果未对应有特效标签时，根据第二结果查询预设的特效标签库，确定所述第二结果对应有特效标签时，将所述第二结果对应的特效标签作为所述目标特效标签；所述第二结果的置信等级低于所述第一结果的置信度、且高于第二结果对应的特征的识别结果中的除自身和第一结果外的其他结果的置信等级；

确定所述第二结果未对应有特效标签时，根据第三结果查询预设的特效标签库；依此类推，直至确定目标特效标签；所述第三结果的置信等级低于所述第一结果的置信等级、第二结果的置信等级，且高于第三结果对应的特征的识别结果中的除自身、第一结果和第二结果外的其他结果的置信等级。

如此，根据每个特征对应的识别结果，得到每个特征对应的特效，如此可以得到多个特效。并且，上述根据置信等级的高低依次查询结果对应的特效标签，可以避免查询得到的特效不是最合适的特效的问题，也可以避免查询不到特效的情况。

在一些实施例中，所述将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段，包括：

这里，视频数据中的每帧图像对应有相应的时间点，因此，第一目标视频片段中的每帧图像也对应有时间点；

将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一目标视频片段时，可以依据识别的帧图像的时间点，确定特效需要添加到的图像，持续时间为特效时长。

如此，将相应的特效添加到相应的第一目标视频片段中，得到添加特效后的第二目标视频片段。

需要说明的是，如果第一目标视频片段为从第一视频片段中提取的部分帧组成的视频片段，则可以确定第一目标视频片段的初始时间点和结束时间点，对初始时间点和结束时间点之间的原始视频数据中第一视频片段相应的片段添加特效；

如果第一目标视频片段为从视频数据中提取的视频片段(未进行间隔帧提取)，则可以直接对初始时间点和结束时间点之间的原始视频数据中第一目标视频片段相应的片段添加特效。

在一些实施例中，采用深度学习算法，联合构建第一识别模型、第二识别模型、第三识别模型。以下对训练得到第一识别模型、第二识别模型、第三识别模型进行举例说明。

所述第一识别模型为面部表情识别模型，用于提取并识别用户的面部表情特征。

针对面部表情识别模型的构建，联合采用卷积神经网络(CNN， ConvolutionalNeural Networks)与极限学习算法(ELM，Extreme Learning Machine)构建。首先，采用CNN网络提取高维空间表情特征，然后将提取到的表情特征输入ELM网络，对ELM网络进行模型训练，得到训练后的ELM 网络，作为所述面部表情识别模型。这里，ELM是一种广义单隐层前馈神经网络，主要特点是网络输入层与隐层之间的连接权重可以随机分配而不用迭代调整，在保证学习精度的前提下比传统的学习算法速度更快。基于CNN-ELM的面部表情识别模型的构建过程如图2所示。

图2中CNN提取的表情特征表示为X(x₁,x₂…x_n),Y(y₁,y₂…y_n)为训练数据的真实标签，n为训练样本数。网络训练中采用多二次函数(Multiquadric函数，一种径向基函数)作为整个网络的激活函数，由于ELM网络是一种单隐层前馈神经网络，整个网络的损失函数可以采用线性系统表示，并且由最小二乘法求解。相比于单纯使用CNN进行特征提取和模型训练，本发明实施例提出的方法更加快速和高效。

所述第二识别模型为动作识别模型，用于提取并识别人体动作特征。针对动作识别模型的构建，采用卷积神经网络-长短期记忆网络(CNN-LSTM)的深度学习模型实现。这里，考虑到视频帧中的人体动作不仅具有空间位置上的变化，还与当前帧的上下文具有一定的联系，因此采用CNN-LSTM的深度学习模型实现。其中，CNN网络用于捕获人体动作的空域特征，LSTM网络用于构建视频帧中人体动作的时序关系，空域信息与时域信息的联合学习对于视频帧中人体动作的识别更加高效。具体模型构建过程如图3所示。

图3中，LSTM作为一种递归神经网络，主要由一些门单元组成，包括核心自连接单元、输入门、输出门以及遗忘门。这些门单元分别控制着有效信息的保留以及无效信息的去除。通常，在时刻t的一个LSTM单元信息的更新方式为：

i^t＝σ(W_xix^t+W_hih^t-1+W_cic^t-1+b_i)

f^t＝σ(W_xfx^t+W_hfh^t-1+W_cfc^t-1+b_f)

o^t＝σ(W_xox^t+W_hoh^t-1+W_coc^t-1+b_o)

c^t＝f^tc^t-1+i^ttanh(W_xcx^t+W_hch^t-1+b_c)

h^t＝o^ttanh(c^t)

其中，σ(·)表示sigmoid函数，x^t表示在时刻t的输入信息，i^t表示在时刻t 的整体输入信息，f^t表示选择忘记时刻t之前的一些信息，o^t表示当前要输出的信息，c^t表示将时刻t之间的信息与现在的信息进行合并更新，h^t表示在时刻t以及之前时刻的所有有价值的信息，所有的W矩阵表示两个节点之间的连接权重， b_i,b_f,b_o,b_c表示偏差向量。

整体模型结构中，采用6层卷积层，用于提取不同人体动作的空间特征；2 层LSTM层，用于对前后时间帧的动作样本特征向量建立关联关系；3层全连接层，用于对融合后的动作样本特征向量进行分类识别，最后一层全连接层(FC，fully connected layers)的激活函数为SoftMax函数，预测输出当前动作所属各个类别的概率值。

识别结果中，不同结果对应不同的置信度，如0.8(对应“打开”)、0.4(对应“跳跃”)、……、0.3、0.1等，置信度越高，置信等级越高。

所述第三识别模型实际可以包括：语音识别模型、关键词提取模型；语音识别模型用于提取语音数据；关键词提取模型用于从所述语音数据中提取关键词。

关于语音识别及关键词提取模型的构建，如图4所示，首先，采用梅尔频率倒谱系数(MFCC)提取音频特征，然后，采用BiLSTM-CTC神经网络(即采用BiLSTM神经网络和连接时间分类器(CTC，connectionist temporal classifier))构建声学模型。双向LSTM网络不仅可以捕获到历史帧的音频特征，还能捕获未来帧的信息，对于语音这类具有上下文关系问题的建模更加有效。通过链接所述连接时间分类器CTC，无需标签在帧级别上的对齐即可训练，并且CTC网络输出中还包括一个“Blank”节点，可以有效处理静音、字间停顿、字间混淆问题。BiLSTM网络与CTC结合建立的模型对于语音识别有较高的准确性。

将音频识别转化为文字后，输入至关键词提取(TextRank)模型，以获取当前视频中用户表达的主要语音信息。语音信息也是用户情绪及状态的一种反映，比如提取到的用户所表达的关键词有实用、赞、比心等，可作为视频特效添加的候选标签，以此丰富视频特效添加场景，让视频内容更加具有互动性、趣味性，更好的提升用户体验。

图5为本发明实施例提供的一种视频特效添加装置的结构示意图；如图5 所示，所述装置包括：视频数据处理模块、多模态特征提取模块、深度模型构建模块、模型预测模块、特效添加模块；其中，

所述视频数据处理模块，用于对原始的视频数据进行识别，确定至少具有目标体的第一视频片段；对所述第一视频片段进行间隔帧提取，得到预设帧数的第二视频片段，作为所述第一目标视频片段。

所述多模态特征提取模块，用于对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果。

所述多模态特征提取模块，具体用于对经过视频数据处理模块得到的第一目标视频片段，使用上述第一识别模型、第二识别模型分别提取并识别人体动作特征、面部表情特征，使用第三识别模型提取语音特征，即关键词。

所述深度模型构建模块，用于构建用于进行特征识别的模型；具体步骤参照针对图2-4的模型对应的构建方法，这里不再赘述。

所述模型预测模块，用于针对每个所述特征，基于每个所述特征对应的识别结果中每个结果的置信等级由高到低，依次根据相应结果查询预设的特效标签库，确定相应结果对应的满足预设条件的特效标签，作为目标特效标签；根据至少一个特征对应的目标特效标签，得到目标特效标签集。具体步骤参照针对图1所示方法中的说明，这里不再赘述。

所述特效添加模块，用于将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。具体步骤参照针对图1所示方法中的说明，这里不再赘述。

上述实施例提供的视频处理装置在实现相应视频处理方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成。

图6为本发明实施例提供的另一种视频特效添加装置的结构示意图；如图 6所示，所述装置可以包括：

面部表情识别模块，用于运用预设的第一识别模型提取并识别目标视频中的面部表情特征；

人体动作识别模块，用于运用预设的第二识别模型提取并识别目标视频中的人体动作特征；

语音识别及关键词提取模块，用于运用预设的第三识别模型提取目标视频的语音数据，从所述语音数据中提取关键词；

特效标签候选集生成模块，用于根据识别结果集查询预设的特效标签库，确定视频特效标签候选集；这里，识别结果包括：面部表情特征对应的识别结果、人体动作特征对应的识别结果、关键词特征对应的识别结果。

视频特效添加模块，用于将所述视频特效标签候选集对应的特效添加进目标视频，得到添加特效后的目标视频；

视频特效预览保存模块，用于预览和/或保存添加特效后的目标视频。

这里，通过面部表情识别模块、人体动作识别模块、语音识别及关键词提取模块理解目标视频中用户的情绪及行为，以生成相应的特效标签候选集；视频特效添加模块将从预设的特效标签库里匹配对应的特效并添加至视频中；最后，在预览模块进行特效添加后视频内容的预览与保存等操作。

图7为本发明实施例提供的一种视频处理装置的结构示意图；如图7所示，所述装置包括：

获取模块，用于获取第一目标视频片段；

在一些实施例中，所述确定模块，具体用于根据第一结果子集查询预设的特效标签库，确定所述第一结果子集中至少一个结果对应有特效标签时，将所述第一结果子集中至少一个结果对应的特效标签作为所述目标特效标签；所述第一结果子集对应的置信等级高于除自身外的其他结果子集对应的置信等级；

在一些实施例中，所述处理模块，用于将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一目标视频片段，得到添加有特效的第一目标视频片段，作为所述第二目标视频片段。

在一些实施例中，所述获取模块，用于对视频数据进行识别，确定至少具有目标体的第一视频片段；

在一些实施例中，所述装置还包括：预处理模块，用于执行以下至少之一：

需要说明的是：上述实施例提供的视频处理装置在实现相应视频处理方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将服务器或终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法的实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8为本发明实施例提供的一种视频处理装置的结构示意图；如图8所示，所述装置80包括：处理器801和用于存储能够在所述处理器上运行的计算机程序的存储器802；所述处理器801用于运行所述计算机程序时，执行：获取第一目标视频片段；对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。其中，所述至少一个特征，包括：语音特征、面部表情特征、人体动作特征。

在一实施例中，所述处理器801还用于运行所述计算机程序时，执行：运用至少一个预设的识别模型，识别所述第一目标视频片段，得到所述第一目标视频片段中每个所述特征对应的识别结果。其中，所述识别结果，包括：至少一个结果和每个结果对应的置信等级；所述置信等级基于每个结果的置信度确定。

在一实施例中，所述处理器801还用于运行所述计算机程序时，执行：基于每个所述特征对应的识别结果中每个结果的置信等级由高到低，确定至少一个结果子集；每个所述结果子集包括：至少一个特征对应的结果；每个所述结果子集包括的结果对应的置信等级相同；根据所述至少一个结果子集，查询预设的特效标签库，确定至少一个目标特效标签；根据所述至少一个目标特效标签，得到所述目标特效标签集。

在一实施例中，所述处理器801还用于运行所述计算机程序时，执行：根据第一结果子集查询预设的特效标签库，确定所述第一结果子集中至少一个结果对应有特效标签时，将所述第一结果子集中至少一个结果对应的特效标签作为所述目标特效标签；所述第一结果子集对应的置信等级高于除自身外的其他结果子集对应的置信等级；

在一实施例中，所述处理器801还用于运行所述计算机程序时，执行：将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一目标视频片段，得到添加有特效的第一目标视频片段，作为所述第二目标视频片段。

在一实施例中，所述处理器801还用于运行所述计算机程序时，执行：对视频数据进行识别，确定至少具有目标体的第一视频片段；对所述第一视频片段进行间隔帧提取，得到预设帧数的第二视频片段，作为所述第一目标视频片段；

相应的，在一实施例中，所述处理器801还用于运行所述计算机程序时，执行：将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一视频片段，得到添加有特效的第一视频片段，作为所述第二目标视频片段。

在一实施例中，所述处理器801还用于运行所述计算机程序时，执行：训练第一识别模型；所述第一识别模型用于提取并识别面部表情特征；

实际应用时，所述装置80还可以包括：至少一个网络接口803。所述装置 80中的各个组件通过总线系统804耦合在一起。可理解，总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统804。其中，所述处理器801的个数可以为至少一个。网络接口803用于装置80与其他设备之间有线或无线方式的通信。

本发明实施例中的存储器802用于存储各种类型的数据以支持装置80的操作。

上述本发明实施例揭示的方法可以应用于处理器801中，或者由处理器801 实现。处理器801可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(DSP， DiGital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器802，处理器801读取存储器802 中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，装置80可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD， ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器运行时，执行：获取第一目标视频片段；对所述第一目标视频片段进行特征识别，得到识别结果集；所述识别结果集包括至少一个特征对应的识别结果；根据所述识别结果集查询预设的特效标签库，确定目标特效标签集；将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段。其中，所述至少一个特征，包括：语音特征、面部表情特征、人体动作特征。

在一实施例中，所述计算机程序被处理器运行时，执行：运用至少一个预设的识别模型，识别所述第一目标视频片段，得到所述第一目标视频片段中每个所述特征对应的识别结果。其中，所述识别结果，包括：至少一个结果和每个结果对应的置信等级；所述置信等级基于每个结果的置信度确定。

在一实施例中，所述计算机程序被处理器运行时，执行：基于每个所述特征对应的识别结果中每个结果的置信等级由高到低，确定至少一个结果子集；每个所述结果子集包括：至少一个特征对应的结果；每个所述结果子集包括的结果对应的置信等级相同；根据所述至少一个结果子集，查询预设的特效标签库，确定至少一个目标特效标签；根据所述至少一个目标特效标签，得到所述目标特效标签集。

在一实施例中，所述计算机程序被处理器运行时，执行：根据第一结果子集查询预设的特效标签库，确定所述第一结果子集中至少一个结果对应有特效标签时，将所述第一结果子集中至少一个结果对应的特效标签作为所述目标特效标签；所述第一结果子集对应的置信等级高于除自身外的其他结果子集对应的置信等级；

在一实施例中，所述计算机程序被处理器运行时，执行：将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一目标视频片段，得到添加有特效的第一目标视频片段，作为所述第二目标视频片段。

在一实施例中，所述计算机程序被处理器运行时，执行：对视频数据进行识别，确定至少具有目标体的第一视频片段；

相应的，在一实施例中，所述计算机程序被处理器运行时，执行：将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一视频片段，得到添加有特效的第一视频片段，作为所述第二目标视频片段。

在一实施例中，所述计算机程序被处理器运行时，执行：训练第一识别模型；所述第一识别模型用于提取并识别面部表情特征；

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取第一目标视频片段；

2.根据权利要求1所述的方法，其特征在于，所述至少一个特征，包括：语音特征、面部表情特征、人体动作特征；

3.根据权利要求2所述的方法，其特征在于，所述识别结果，包括：至少一个结果和每个结果对应的置信等级；所述置信等级基于每个结果的置信度确定；

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少一个结果子集，查询预设的特效标签库，确定至少一个目标特效标签，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述目标特效标签集对应的特效与所述第一目标视频片段合并，得到第二目标视频片段，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取第一目标视频片段，包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括以下至少之一：

8.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取第一目标视频片段；

9.根据权利要求8所述的装置，其特征在于，所述至少一个特征，包括：语音特征、面部表情特征、人体动作特征；

10.根据权利要求9所述的装置，其特征在于，所述识别结果，包括：至少一个结果和每个结果对应的置信等级；所述置信等级基于每个结果的置信度确定；

11.根据权利要求10所述的装置，其特征在于，所述确定模块，具体用于根据第一结果子集查询预设的特效标签库，确定所述第一结果子集中至少一个结果对应有特效标签时，将所述第一结果子集中至少一个结果对应的特效标签作为所述目标特效标签；所述第一结果子集对应的置信等级高于除自身外的其他结果子集对应的置信等级；

12.根据权利要求8所述的装置，其特征在于，所述处理模块，用于将所述目标特效标签集中各目标特效标签对应的特效添加至所述第一目标视频片段，得到添加有特效的第一目标视频片段，作为所述第二目标视频片段。

13.根据权利要求8所述的装置，其特征在于，所述获取模块，用于对视频数据进行识别，确定至少具有目标体的第一视频片段；

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：预处理模块，用于执行以下至少之一：

15.一种视频处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。