CN116137648A

CN116137648A - 视频处理方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN116137648A
Application number: CN202111367476.5A
Authority: CN
Inventors: 李岳光; 严计升; 吴恒冠; 许奂杰; 董浩; 林璟; 杨秀金
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-05-19

Abstract

本发明实施例公开了一种视频处理方法、装置、电子设备和计算机可读存储介质；本发明实施例在获取待处理视频和待处理视频对应的受众对象信息后，对待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，然后，根据受众对象信息和视频标签，确定待处理视频对应的特效图像，然后，将特效图像添加至待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对所述处理后视频中的特效图像进行编辑；该方案可以提升视频处理过程的准确性。

Description

视频处理方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种视频处理方法、装置和计算机可读存储介质。

背景技术

近年来，随着互联网技术的飞速发展，对视频处理的方式也越来越多样化，比如，在视频中添加个性化的贴纸等特效图像，从而可以强化视频的表现效果。现有的视频处理方法往往可以根据视频人脸识别结果、语音识别结果或者图像中物体的属性信息，在贴纸库中筛选出目标贴纸并进行处理。

在对现有技术的研究和实践过程中，本发明的发明人发现在一些特定的业务场景下，比如，在需要对待处理视频进行传播的业务的场景下，现有的视频处理方法仅仅考虑视频的内在信息，筛选特效图像的因素相对单一，使得筛选出的特效图像的准确率降低，因此，导致视频处理的准确性不足。

发明内容

本发明实施例提供一种视频处理方法、装置、电子设备和计算机可读存储介质，可以提高视频处理的准确性。

一种视频处理方法，包括：

获取待处理视频和所述待处理视频对应的受众对象信息，所述受众对象信息用于指示所述待处理视频针对的受众对象的信息；

对所述待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签；

根据所述受众对象信息和视频标签，确定所述待处理视频对应的特效图像，所述特效图像用于增强所述待处理视频的视频表现效果；

将所述特效图像添加至所述待处理视频，得到处理后视频，并将所述处理后视频发送至终端，以便所述终端对所述处理后视频中的特效图像进行编辑。

可选的，本发明实施例还可以提供另一种视频处理方法，包括：

向服务器发送待处理视频；

显示对所述待处理视频添加特效图像后的处理后视频的预览页面，所述预览页面包括针对所述特效图像的编辑控件；

响应于针对所述编辑控件的编辑操作，生成目标视频。

相应的，本发明实施例提供一种视频处理装置，包括：

获取单元，用于获取待处理视频和所述待处理视频对应的受众对象信息，所述受众对象信息用于指示所述待处理视频针对的受众对象的信息；

识别单元，用于对所述待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签；

确定单元，用于根据所述受众对象信息和视频标签，确定所述待处理视频对应的特效图像，所述特效图像用于增强所述待处理视频的视频表现效果；

添加单元，用于将所述特效图像添加至所述待处理视频，得到处理后视频，并将所述处理后视频发送至终端，以便所述终端对所述处理后视频中的特效图像进行编辑。

可选的，本发明实施例还可以提供另一种视频处理装置，包括：

发送单元，用于向服务器发送待处理视频；

显示单元，用于显示对所述待处理视频添加特效图像后的处理后视频的预览页面，所述预览页面包括针对所述特效图像的编辑控件；

生成单元，用于响应于针对所述编辑控件的编辑操作，生成目标视频。

可选的，在一些实施例中，所述识别单元，具体可以用于在所述待处理视频中提取出视频流和音频流；分别对视频流和音频流进行内容识别，得到所述待处理视频的画面内容和文本内容；基于所述画面内容和文本内容，在预设视频标签集合中筛选出至少一个视频标签。

可选的，在一些实施例中，所述识别单元，具体可以用于在所述视频流中提取出视频帧，得到视频帧集合；在所述视频帧集合中识别出每一视频帧的画面信息，得到所述待处理视频的画面内容；在所述画面内容和音频流中识别出文本信息，得到所述待处理视频的文本内容。

可选的，在一些实施例中，所述识别单元，具体可以用于在所述画面内容中识别出文本信息，得到视频流文本；将所述音频流转换为文本信息，得到音频流文本，并将所述视频流文本和音频流文本作为所述待处理视频的文本内容。

可选的，在一些实施例中，所述识别单元，具体可以用于基于所述画面内容，在所述视频帧集合中筛选出至少一帧关键视频帧；对所述音频流文本和视频流文本进行关键词提取，并将提取出的关键词进行融合，得到所述待处理视频的至少一个目标关键词；根据所述关键视频帧和目标关键词，在预设视频标签集合中筛选出至少一个视频标签。

可选的，在一些实施例中，所述识别单元，具体可以用于在预设视频标签集合中筛选出风格标签和物品标签，得到风格标签集合和物品标签集合；根据所述关键视频帧，在所述风格标签集合中筛选出所述待处理视频对应的至少一个风格标签；基于所述目标关键词，在所述物品标签集合中筛选出所述待处理视频对应的至少一个物品标签，所述物品标签用于指示所述待处理视频中包含的物品的信息。

可选的，在一些实施例中，所述识别单元，具体可以用于对所述关键视频帧进行风格特征提取，得到所述待处理视频的风格特征；在所述风格标签集合中筛选出所述风格特征对应的至少一个风格标签，得到所述待处理视频对应的风格标签。

可选的，在一些实施例中，所述识别单元，具体可以用于对所述目标关键词进行特征提取，得到所述待处理视频的物品特征；基于所述物品特征，确定所述待处理视频中的至少一个物品信息；在所述物品标签集合中筛选出所述物品信息对应的物品标签，得到所述待处理视频的物品标签。

可选的，在一些实施例中，所述确定单元，具体可以用于获取预设特效图像集合，所述预设特效图像集合包括至少一个预设特效图像和所述预设特效图像的属性信息；将所述特效图像的属性信息分别与所述待处理视频的受众对象信息、风格标签和物品标签进行匹配；基于匹配结果，在所述预设特效图像集合中筛选出所述待处理图像对应的特效图像。

可选的，在一些实施例中，所述确定单元，具体可以用于在所述属性信息中识别出所述预设特效图像对应的目标风格标签集合、目标物品标签集合和受众对象信息集合；将所述受众对象信息与受众对象信息集合进行匹配，将所述风格标签与目标风格标签集合进行匹配，并将所述物品标签与目标物品标签集合进行匹配；所述基于匹配结果，在所述预设特效图像集合中筛选出所述待处理图像对应的特效图像，包括：在所述预设特效图像集合中筛选出与所述待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像，以得到所述待处理视频对应的特效图像。

可选的，在一些实施例中，所述确定单元，具体可以用于在所述预设特效图像集合中筛选出与所述待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像，得到候选特效图像；当所述候选特效图像的数量为一个时，将所述候选特效图像作为所述待处理视频对应的特效图像；当所述候选特效图像的数量为多个时，根据所述候选特效图像的属性信息，在所述候选特效图像中筛选出所述待处理视频对应的特效图像。

可选的，在一些实施例中，所述添加单元，具体可以用于获取所述特效图像的位置信息；基于所述位置信息，在所述待处理视频的每一视频帧中识别出所述特效图像的添加位置；根据所述添加位置，将所述特效图像分别添加至所述每一视频帧，得到处理后视频。

可选的，在一些实施例中，所述显示单元，具体可以用于所述预览页面还包括针对所述处理后视频的特效评估数据，所述特效数据用于评估对所述待处理视频添加特效图像之后的效果数据。

可选的，在一些实施例中，所述生成单元，具体可以用于响应于针对所述编辑控件的编辑操作，在所述处理后视频中对所述特效图像进行调整；基于调整后特效图像，对所述处理后视频的预览页面进行更新，并显示得更新后预览页面，所述更新后预览页面包括生成字幕控件和应用控件；响应于生成字幕控件的生成操作，在所述更新后预览页面中的视频中添加字幕信息，得到候选视频；响应于所述应用控件的应用操作，将所述候选视频作为目标视频。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的视频处理方法。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种视频处理方法中的步骤。

本发明实施例在获取待处理视频和待处理视频对应的受众对象信息后，对待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，然后，根据受众对象信息和视频标签，确定待处理视频对应的特效图像，然后，将特效图像添加至待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对所述处理后视频中的特效图像进行编辑；由于该方案在确定待处理视频的特效图像的过程中，通过受众对象信息和视频标签两个不同因素来筛选出特效图像，在需要进行传播的业务下场景下，充分考虑了该待处理视频的受众对象的影响，从而使得筛选出特效图像的准确性增大，因此，可以提升视频处理过程的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频处理方法的场景示意图；

图2是本发明实施例提供的视频处理方法的流程示意图；

图3是本发明实施例提供的对原始视频进行标签标注的标注示意图；

图4是本发明实施例提供的对标签识别模型进行训练的流程示意图；

图5是本发明实施例提供的获取预设特效图像集合的流程示意图；

图6是本发明实施例提供的处理后视频的预览页面的页面示意图；

图7是本发明实施例提供的视频处理方法的另一流程示意图；

图8是本发明实施例提供的视频处理方法的整体流程示意图；

图9是本发明实施例提供的广告视频处理的流程示意图；

图10是本发明实施例提供的广告视频添加贴纸后的效果示意图；

图11是本发明实施例提供的第一视频处理装置的结构示意图；

图12是本发明实施例提供的第二视频处理装置的结构示意图；

图13是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频处理方法、装置、电子设备和计算机可读存储介质。其中，该视频处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。具体的，本发明实施例提供适用于第一电子设备的视频处理装置(为了区分可以称为第一视频处理装置)中，以及适用于第二电子设备的视频处理装置(为了区分可以称为第二视频处理装置)。

其中，第一电子设备可以为服务器等网络侧的设备，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。第二电子设备可以为终端，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以视频处理装置集成在第一电子设备中为例，电子设备在获取待处理视频和待处理视频对应的受众对象信息后，对待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，然后，根据受众对象信息和视频标签，确定待处理视频对应的特效图像，然后，将特效图像添加至待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对所述处理后视频中的特效图像进行编辑，进而提升视频处理的准确性。

其中，视频处理的方式可以有多种，比如，可以在待处理视频中添加可以增强视频表现的特效图像，从而增强待处理视频的视频表现效果。

当视频处理装置集成在第二设备中为例，电子设备向服务器发送待处理视频和待处理视频对应的受众对象信息，接收服务器返回的基于受众对象信息生成的处理后视频，该处理后视频包括特效图像，然后，显示处理后视频的预览页面，该预览页面包括针对所述特效图像的编辑控件，响应于针对编辑控件的编辑操作，生成目标视频。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从第一视频处理装置的角度进行描述，该视频处理装置具体可以集成在电子设备中，该电子设备可以是服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。一种视频处理方法，包括：

获取待处理视频和待处理视频对应的受众对象信息，该受众对象信息用于指示待处理视频针对的受众对象的信息，对待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，根据受众对象信息和视频标签，确定待处理视频对应的特效图像，该特效图像用于增强待处理视频的视频表现效果，将特效图像添加至所述待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对处理后视频中的特效图像进行编辑。

如图2所示，该视频处理方法的具体流程如下：

101、获取待处理视频和待处理视频对应的受众对象信息。

其中，受众对象信息用于指示待处理视频针对的受众对象的信息，所谓受众对象可以理解为该待处理视频针对的目标对象，以待处理视频为视频广告为例，待处理视频的受众对象就可以为该视频广告的受众人群。受众对象信息可以包括受众对象的范围、受众对象的条件、受众对象的位置等等，以受众对象为受众人群为例，受众对象信息就可以包括人群的用户范围，用户的年龄、用户的学历、用户的位置、用户的身份和用户的工作类型等信息。

其中，获取待处理视频和待处理视频对应的受众对象信息的方式可以有多种，具体可以如下：

例如，可以接收终端发送的待处理视频和待处理视频对应的受众对象信息，或者，可以接收终端发送的待处理视频和待处理视频的受众对象选择页面的页面信息，根据受众对象选择页面的页面信息，在预设受众对象标签集合中筛选出待处理视频对应的至少一个受众对象标签，将受众对象标签进行融合，从而得到受众对象信息，或者，还可以从网络或视频数据库中筛选出原始视频，在原始视频中筛选出目标类型的视频作为待处理视频，然后，识别待处理视频的受众对象，从而得到受众对象信息，或者，当待处理视频的内存较大或者数量较多时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频和待处理视频对应的受众对象信息的存储地址，基于该存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频和待处理视频对应的受众对象信息。

其中，在原始视频中筛选出目标类型的视频作为待处理视频的方式可以有多种，比如，对原始视频的视频类型进行识别，将视频类型为广告或者其他需要传播或展示的原始视频作为待处理视频。在筛选出待处理视频之后，便可以识别待处理视频对应的受众对象，识别受众对象的方式可以有多种，比如，可以对待处理视频进行多维度特征提取，将提取到的受众特征进行融合，得到全局受众特征，根据全局受众特征，在预设受众对象集合中筛选出待处理视频对应的受众对象，从而得到待处理视频的受众对象信息。

102、对待处理视频的内容进行识别，以在预设标签集合中筛选出至少一个视频标签。

其中，视频标签用于从特定维度描述待处理视频的信息，该视频标签可以包括多个类型，以待处理视频为视频广告为例，该视频标签就可以包括风格标签和物品标签，物品标签用于指示待处理视频中包含的物品的信息，以待处理视频为视频广告为例，物品标签主要用于指示视频广告中包含的商品的各类信息，物品标签也可以包括多个类型，比如，可以包括商品内容标签、卖点标签和节日标签等等。风格标签主要用于指示待处理视频的风格，该风格的类型可以有多种，比如，可以包括轻松、劲爆、悲伤、搞怪、严肃和幽默等风格。

其中，对待处理视频的内容进行识别的过程可以有多种，具体可以如下：

例如，在待处理视频中提取出视频流和音频流，分别对视频流和音频流进行内容识别，得到待处理视频的画面内容和文本内容，基于画面内容和文本内容，在预设视频标签集合中筛选出至少一个视频标签，具体可以如下：

S1、在待处理视频中提取出视频流和音频流。

其中，视频流为待处理视频中每一帧视频帧按照播放顺序组成的数据流，音频流为待处理视频中每一帧音频帧按照播放顺序组成的数据流。

其中，提取出视频流和音频流的方式可以有多种，具体可以如下：

例如，可以将待处理视频中的视频信息和音频信息进行分离，从而得到目标视频信息和目标音频信息，根据播放参数，将目标视频信息转换为视频流，并将目标音频信息转换为音频流，或者，还可以直接在待处理视频中提取出视频帧和音频帧，并按照播放顺序，将视频帧进行融合，得到视频流，并将音频帧进行融合，得到音频流。

S2、分别对视频流和音频流进行内容识别，得到待处理视频的画面内容和文本内容。

其中，画面内容可以为视频流中的视频帧内包含的画面信息，文本内容可以为音频帧和视频帧中包含的文本信息。

其中，对视频流和音频流进行内容识别的方式可以有多种，具体可以如下：

例如，在视频流中提取出视频帧，得到视频帧集合，在视频帧集合中识别出每一视频帧的画面信息，得到待处理视频的画面内容，在画面内容和音频流中识别出文本信息，得到待处理视频的文本内容。

其中，在画面内容和音频流中识别出文本信息的方式可以有多种，比如，可以在画面内容中识别出文本信息，得到视频流文本，将音频流转换为文本信息，得到音频流文本，并将视频流文本和音频流文本作为待处理视频的文本内容。

其中，在画面内容中识别出文本信息的方式可以有多种，比如，可以通过画面文本识别模型在每一视频帧的画面内容中识别出出现的文本信息，该文本信息可以包括视频帧中出现的文本，从而得到视频流文本。将音频流转换为文本信息的方式可以有多种，比如，可以通过语音转字幕文案模型将音频流中的音频帧转换为待处理视频的字幕信息等，在字幕信息中提取出文本信息，从而得到音频流文本。

S3、基于画面内容和文本内容，在预设视频标签集合中筛选出至少一个视频标签。

例如，可以基于画面内容，在视频帧集合中筛选出至少一个关键视频帧，对音频流文本和视频流文本进行关键词提取，并将提取出的关键词进行融合，得到待处理视频的至少一个目标关键词，根据关键视频帧和目标关键词，在预设标签集合中筛选出至少一个视频标签。

其中，关键视频帧可以为包含预设关键特征的视频帧，该关键特征的类型可以为多种，比如，可以为包含多个或特定对象的画面帧，或者，可以为包含特定场景的画面帧，或者，还可以为包含特定动作或者元素的画面帧。基于画面内容，在视频帧集合中筛选出至少一帧关键视频的方式可以有多种，比如，可以对每一视频帧的画面内容进行特征提取，然后，计算提取的内容特征与预设关键特征之间的特征相似度，在视频帧集合中筛选出特征相似度超过预设相似度阈值的视频帧作为关键视频帧。

其中，关键词可以为预设设定好的一些可以指示待处理视频中包含的物品的信息的词，将提取出的关键词进行融合的方式可以有多种，比如，将音频流文本中提取出的音频流关键词与在视频流文本中提取的视频流关键词进行去重和过滤等，从而得到待处理视频的至少一个目标关键词。

可选的，对于目标关键词的提取，还可以将视频流文本和音频流文本进行融合，然后，对融合后文本进行关键词提取，从而得到待处理视频的至少一个目标关键词。

在提取出关键视频帧和目标关键词之后，便可以在预设视频标签集合中筛选出至少一个视频标签，筛选的方式可以有多种，比如，在预设视频标签集合中筛选出风格标签和物品标签，得到风格标签集合和物品标签集合，根据关键视频帧，在风格标签集合中筛选出待处理视频对应的至少一个风格标签，基于目标关键词，在物品标签集合中筛选出待处理视频对应的至少一个物品标签，将物品标签和风格标签就可以为待处理视频的视频标签。

其中，根据关键视频帧，在风格特征集合中筛选出待处理视频对应的至少一个风格特征的方式可以有多种，比如，可以对关键视频帧进行风格特征提取，得到待处理视频的风格特征，在风格标签集合中筛选出风格特征对应的至少一个风格标签，得到待处理视频对应的风格标签。

其中，基于目标关键词，在物品标签集合中筛选出待处理视频对应的至少一个物品标签的方式可以有多种，比如，可以对目标关键词进行特征提取，得到待处理视频的物品特征，基于物品特征，确定待处理视频中的至少一个物品信息，在物品标签集合中筛选出物品信息对应的物品标签，得到待处理视频的物品标签。

其中，在待处理视频中识别出视频标签可以由训练后标签识别模型进行识别，具体的识别过程可以为在处理视频中提取出视频流和音频流，采用训练后标签识别模型分别对视频流和音频流进行内容识别，得到待处理视频的画面内容和文本内容，基于画面内容，在视频流的视频帧中筛选出至少一帧关键视频帧，在画面内容和音频流中提取出至少一个目标关键词。基于关键视频帧，在预设风格标签集合中筛选出待处理视频对应的至少一个风格标签。基于目标关键词，在预设物品标签集合中筛选出待处理视频对应的至少一个物品标签。

其中，该训练后标签识别模型可以根据实际应用的需求进行设置，另外，需要说明的是，该训练后标签识别模型可以由维护人员预先进行设置，也可以由视频处理装置自行进行训练，即步骤“采用训练后标签识别模型分别对视频流和音频流进行内容识别，得到待处理视频的画面内容和文本内容”之前，该视频处理方法还可以包括：

获取视频样本，该视频样本包括已标注视频标签的目标视频，采用预设标签识别模型对视频样本的视频标签进行预测，得到预测视频标签，基于预测视频标签和标注视频标签对预设标签识别模型进行收敛，得到训练后标签识别模型，具体可以如下：

(1)获取视频样本。

其中，视频样本包括已标注视频标签的目标视频，标注视频标签可以包括标注风格标签和标注物品标签，标注物品标签还可以包括多个类型或维度的标注物品子标签。

其中，获取视频样本的方式可以有多种，具体可以如下：

例如，可以获取至少一个原始视频，将原始视频发送至标签标注服务器，使得标签标注服务器对原始视频进行视频标签的标注，接收标签标注服务器返回的已标注视频标签的原始视频，从而得到视频样本。

其中，标签标注服务器主要通过人工从不同标签集合中筛选出对应的视频标签对原始视频进行标注，比如，以原始视频为视频广告为例，可以标注风格标签和商品标签，而商品标签中又可以包括商品内容标签、卖点标签和节日标签等视频标签，将标注视频标签的原始视频就可以作为视频样本输入至预设标签识别模型进行识别处理，具体可以如图3所示。

(2)采用预设标签识别模型对视频样本的视频标签进行预测，得到预测视频标签。

例如，在视频样本中提取出视频流样本和音频流样本，采用预设标签识别模型分别对视频流样本和音频流样本进行内容识别，得到视频样本的画面内容样本和文本内容样本，基于画面内容样本，在视频流样本的视频帧中筛选出至少一帧关键视频帧样本，在画面内容样本中提取出至少一个画面关键词样本，将音频流转换为文本信息，并转换的文本信息中提取出至少一个音频关键词样本，将画面关键词样本和音频关键词样本进行合并，从而得到视频样本的目标关键词样本。采用预设标签识别模型中的风格标签识别子模型基于关键视频帧样本，在预设风格标签集合中预测出至少一个风格标签，得到视频样本的预测风格标签，采用预设标签识别模型中的基于目标关键词样本，在预设物品标签集合中预测出至少一个物品标签，得到视频样本的预测物品标签，将预测物品标签和预测风格标签作为视频样本的预测视频标签。

(3)基于预测视频标签和标注视频标签对预设标签识别模型进行收敛，得到训练后标签识别模型。

例如，将预测风格标签与标注风格标签进行对比，以得到风格损失信息，并将预测物品标签与标注物品标签进行对比，以得到物品损失信息，将风格损失信息和物品损失信息进行融合，得到视频样本的标签损失信息。基于该标签损失信息对预设标签识别模型的网络参数进行更新，以收敛该预设标签识别模型，从而得到训练后标签识别模型。

其中，对预设标签识别模型的训练过程主要在于预测出预测风格标签和预测物品标签，具体的过程可以为将视频分为视频流样本和音频流样本，在视频流样本中提取出关键视频帧样本，在视频流样本中识别出每一视频帧的画面中的关键词，将音频流样本转换为文本信息，在文本信息中识别出至少一个关键词，将识别出的关键词进行合并，得到视频样本的目标关键词样本。通过预设标签识别模型中的风格标签识别子模型对关键视频帧样本进行识别，从而输出预测风格标签，并通过预设标签识别模型中的物品标签识别子模型对目标关键词样本进行识别，从而输出预测物品标签。分别将预测风格标签和预测物品标签与标注风格标签和标注物品标签进行对比，从而对预设标签识别模型进行收敛，从而得到训练后标签识别模型，具体可以如图4所示。

103、根据受众对象信息和视频标签，确定待处理视频对应的特效图像。

其中，特效图像用于增强待处理视频的视频表现效果，以待处理视频为广告视频为例，广告视频对应的特效图像主要通过展现广告视频的至少一个利益点来增强视频表现效果，特效图像的形式可以有多种，比如，可以为动效图像或静态效果图像等视频贴纸。所谓视频贴纸可以为视频中某一区域覆盖于主体视频上与视频内容无关的静态或动态图片。

其中，确定待处理视频对应的特效图像的方式可以有多种，具体可以如下：

例如，获取预设特效图像集合，该预设特效图像集合包括至少一个预设特效图像和预设特效图像的属性信息，将特效图像的属性信息分别与待处理视频的受众对象信息、风格标签和物品标签进行匹配，基于匹配结果，在预设特效图像集合中筛选出待处理图像对应的特效图像。

其中，获取预设特效图像集合的方式可以有多种，比如，可以接收终端发送的预设特效图像和预设特效图像的标签选择信息，基于该标签选择信息，在标签库中筛选出受众标签、风格标签和物品标签，将受众标签、风格标签和物品标签进行融合，以生成预设特效图像的属性信息，该属性信息用于指示该预设图像适用的风格标签集合、物品标签集合和受众对象信息集合，从而得到预设特效图像集合，或者，还可以接收终端在人工选择的方式下在标签库中筛选出每一预设特效图像的受众标签、风格标签和物品标签，将受众标签、风格标签和物品标签进行融合，以生成预设特效图像的属性信息，从而得到预设特效图像集合，具体可以如图5所示。

其中，将特效图像的属性信息分别与待处理视频的受众对象信息、风格标签和物品标签进行匹配的方式可以有多种，比如，可以在属性信息中识别出预设特效图像对应的目标风格标签集合、目标物品标签集合和受众对象信息集合，将受众对象信息与受众对象信息集合进行匹配，将风格标签与目标风格标签集合进行匹配，并将物品标签与目标物品标签集合进行匹配。在预设特效图像集合中筛选出与待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像，以得到待处理视频对应的特效图像。

其中，在预设特效图像集合中筛选出与待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像的方式可以有多种，比如，在预设特效图像集合中筛选出与待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像，得到候选特效图像。当候选特效图像的数量为一个时，将候选特效图像作为待处理视频对应的特效图像，当候选特效图像的数量为多个时，根据候选特效图像的属性信息，在候选特效图像中筛选出待处理视频对应的特效图像。

其中，与待处理视频的受众对象信息、风格标签和物品标签全部匹配可以理解为受众对象信息与受众对象信息集合匹配成功，且风格标签与目标风格标签集合匹配成功，且物品标签与目标物品标签集合匹配成功，这里的匹配成功可以理解为待处理视频的受众对象信息、风格标签和物品标签分别为受众对象信息集合、目标风格标签集合和目标物品标签集合的子集或真子集。比如，对于受众对象信息匹配成功，就可以理解为预设特效图像的受众对象信息集合中包含待处理视频的受众对象信息，对于风格标签匹配成功，就可以理解为预设特效图像的目标风格标签集合中包含待处理视频的风格标签，对于物品标签的匹配成功，就可以理解为预设特效图像的目标物品标签集合中包含待处理视频的物品标签。

其中，当候选特效图像的数量为多个时，根据候选特效图像的属性信息，在候选特效图像中筛选出待处理视频对应的特效图像的方式可以有多种，比如，对候选特效图像的属性信息进行特征提取，得到每一候选特效图像的特效特征，分别对待处理视频的受众对象信息、风格标签和物品标签进行特效特征提取，并将提取出的基础特效特征进行融合，得到待处理视频的目标特效特征，计算目标特效特征与每一候选特效图像的特效特征之间的特效相似度，根据特效相似度在候选特效图像中筛选出待处理视频对应的特效图像。

104、将特效图像添加至待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对处理后视频中的特效图像进行编辑。

其中，将特效图像添加至待处理视频中方式可以有多种，具体可以如下：

例如，可以获取特效图像的位置信息，基于位置信息，在待处理视频的每一视频帧中识别出特效图像的添加位置，根据添加位置，将特效图像分别添加至每一视频帧，得到处理后视频。

其中，特效图像的位置信息可以用于指示特效图像在视频帧中出现的位置，或者，还可以为特效图像在视频帧所需的尺寸信息等。添加位置可以为特效图像添加在在视频帧中的位置信息，基于特效图像的位置信息，在待处理视频的每一帧中识别出特效图像的添加位置的方式可以有多种，比如，当特效图像的位置信息为指示特效图像在视频帧中出现的位置时，就可以直接在待处理视频的每一视频帧中直接识别该位置信息对应的坐标等位置信息，将识别出的坐标等位置信息作为特效图像的添加位置，当特效图像的位置信息为视频帧中所需的尺寸信息时，就可以在待处理视频的每一视频帧中识别出包含该尺寸信息的空白区域，并获取该空白区域的位置信息，从而得到视频帧中的特效图像的添加位置。

在将特效图像添加至待处理视频之后，便可以将处理后视频发送至终端，以便终端对处理后视频中的特效图像进行编辑，终端对特效图像进行编辑的方式可以有多种，比如，终端向服务器发送待处理视频和待处理视频对应的受众对象信息，接收服务器返回的基于受众对象信息生成的处理后视频，该处理后视频包括特效图像，显示处理后视频的预览页面，该预览页面包括针对特效图像的编辑控件，响应于针对所述编辑控件的编辑操作，生成目标视频。

其中，响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

其中，在接收服务器返回的处理后视频之后，便可以显示处理后视频的预览页面，该预览页面中可以包括带有特效图像的处理后视频，预览页面还可以包含针对特效图像的编辑控件和应用控件，具体可以如图6所示，编辑控件的类型可以有多种，主要用于在预览页面中编辑特效图像文案的内容、修改特效图像的位置和大小、替换特效图像或删除特效图像。每次对特效图像进行编辑操作后，都可以对预览页面进行更新，从而显示更新后预览页面。当用户在对特效图像的编辑完成之后，终端响应于针对应用控件的应用操作时，生成目标视频。

由以上可知，本申请实施例在获取待处理视频和待处理视频对应的受众对象信息后，对待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，然后，根据受众对象信息和视频标签，确定待处理视频对应的特效图像，然后，将特效图像添加至待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对所述处理后视频中的特效图像进行编辑；由于该方案在确定待处理视频的特效图像的过程中，通过受众对象信息和视频标签两个不同因素来筛选出特效图像，在需要进行传播的业务下场景下，充分考虑了该待处理视频的受众对象的影响，从而使得筛选出特效图像的准确性增大，因此，可以提升视频处理过程的准确性。

本实施例将从第二视频处理装置的角度进行描述，该第二视频处理装置具体可以集成在电子设备中，该电子设备可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC，Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行视频处理的智能设备等设备。

一种视频处理方法，包括：

向服务器发送待处理视频，显示对待处理视频添加特效图像后的处理后视频的预览页面，该预览页面包括针对特效图像的编辑控件，响应于针对编辑控件的编辑操作，生成目标视频。

如图7所述，该视频处理方法的具体流程如下：

201、向服务器发送待处理视频。

例如，可以直接向服务器发送待处理视频和，或者，还可以将待处理视频进行存储，将存储地址添加至视频处理请求中，并将添加存储地址的视频处理请求发送至服务器，以便服务器根据视频处理请求中携带的存储地址，获取待处理视频。

可选的，还可以获取待处理视频的受众对象信息，并将受众对象信息发送至服务器，将受众对象信息发送至服务器的方式可以有多种，比如，直接将受众对象发送至服务器，或者，将受众对象信息和待处理视频进行打包，并将打包后的数据发送至服务，或者，还可以将待处理视频的受众对象信息进行存储，将存储地址添加至视频处理请求中，并将添加存储地址的视频请求发送至服务器，以便服务器基于存储地址获取待处理视频的受众对象信息。

202、显示对待处理视频添加特效图像后的处理后视频的预览页面。

其中，处理后视频为服务器对待处理视频添加特效图像后返回的视频。

其中，预览页面包括针对特效图像的编辑控件。编辑控件的类型可以多种，比如，可以包括针对特效图像中LOGO进行替换的编辑控件，还可以包括对特效图像进行装饰元素调整的编辑控件，等等。编辑控件主要用于在预览页面中编辑特效图像文案的内容、修改特效图像的位置和大小、替换特效图像或删除特效图像。

其中，显示预览页面的方式可以有多种，具体可以如下：

例如，接收服务器基于受众对象信息对待处理视频添加特效图像后返回的处理后视频，并将处理后视频添加至预设页面，并在预设页面播放该处理后视频，得到预览页面，该预览页面中还可以包括针对特效图像的编辑控件。

其中，服务器基于受众对象信息对待处理视频添加特效图像的方式可以有多种，比如，服务器可以在待处理视频中提取出视频流和音频流，采用训练后标签识别模型分别对视频流和音频流进行内容识别，得到待处理视频的画面内容和文本内容，基于画面内容，在视频流的视频帧中筛选出至少一帧关键视频帧，在画面内容和音频流中提取出至少一个目标关键词。基于关键视频帧，在预设风格标签集合中筛选出待处理视频对应的至少一个风格标签。基于目标关键词，在预设物品标签集合中筛选出待处理视频对应的至少一个物品标签。将物品标签和风格标签就可以为待处理视频的视频标签。获取预设特效图像集合，该预设特效图像集合包括至少一个预设特效图像和预设特效图像的属性信息，将特效图像的属性信息分别与待处理视频的受众对象信息、风格标签和物品标签进行匹配，基于匹配结果，在预设特效图像集合中筛选出待处理图像对应的特效图像。获取特效图像的位置信息，基于位置信息，在待处理视频的每一视频帧中识别出特效图像的添加位置，根据添加位置，将特效图像分别添加至每一视频帧，得到处理后视频。

可选的，该预览页面还可以包括针对处理后视频的特效评估数据，该特效评估数据用于评估待处理视频添加特效图像之后的效果数据，特效评估数据可以由服务器计算后返回至终端，也可以由终端自行计算后在预览页面进行显示，特效评估数据的类型可以有多种，比如，可以包括点击通过率(CTR，Click-Through-Rate)、点击转化率、成交率或交互率等转化数据相对于未添加特效图像的视频的变化率或提升率等。预览页面显示的特效评估数据可以为终端基于历史数据进行预测的，预测特效评估数据的方式可以有多种，比如，获取添加特效图像的视频样本集合，在视频样本集合中筛选出多个与处理后视频添加相同特效图像的目标视频样本，在未添加特效图像的原始视频样本集合中筛选出多个原始视频样本，采用相同的视频平台播放或者推送目标视频样本和原始视频样本，然后，统计目标视频样本和原始视频样本在预设时间段内的基础评估数据，然后，将目标视频样本和原始视频样本的基础评估数据进行对比，从而得到目标视频样本相对于原始视频样本的基础评估数据的变化率，将该变化率作为特效评估数据，或者，还可以获取视频平台的历史业务数据，在历史业务数据中统计出预设时间段内添加特效图像的目标视频样本和未添特效图像的原始视频之间的基础评估数据，然后，对比目标视频样本和原始视频的基础评估数据，从而得到目标视频样本相对于原始视频样本的基础评估数据的变化率，将该变化率作为特效评估数据。

其中，基础评估数据可以为CTR、点击转化率、成交率或交互率等转化数据。

203、响应于针对编辑控件的编辑操作，生成目标视频。

例如，可以响应于针对编辑控件的编辑操作，在处理后视频中对特效图像进行调整，基于调整后特效图像，对处理后视频的预览页面进行更新，并显示更新后预览图像，该更新后预览页面包括生成字幕控件和应用控件，响应于生成字幕控件的生成字幕操作，在更新后预览页面中的视频中添加字幕信息，得到候选视频，响应于应用控件的应用操作，将候选视频作为目标视频。

其中，在处理后视频中对特效图像进行调整的方式可以有多种，比如，可以在预览页面中编辑特效图像文案的内容、修改特效图像的位置和大小、替换特效图像或删除特效图像，还可以对特效图像中的装饰元素或LOGO进行调整。

其中，字幕信息可以理解为在处理后视频中需要添加的字母文本，可以通过生成字幕控件进行添加，添加字幕信息的方式可以有多种，比如，可以直接将处理后视频中的语音信息转换为字幕信息，并将转换出的字幕信息直接添加在处理后视频的音频帧对应的位置，或者，还可以显示字幕生成页面，该字幕生成页面可以包括字幕输入控件，响应于针对字幕输入控件的输入操作，接收用户输入的字幕信息，将用户输入的字幕信息添加至处理后视频的视频帧中，从而得到候选视频。

在当用户对特效图像编辑完成，并添加字幕后，便可以触发应用控件，响应于针对应用控件的应用操作时，将候选视频作为目标视频。

由以上可知，本申请实施例在向服务器发送待处理视频后，显示对待处理视频处理后视频的预览页面，该预览页面包括针对特效图像的编辑控件，响应于针对编辑控件的编辑操作，生成目标视频；由于该方案通过受众对象信息来筛选出特效图像，并可以对特效图像进行编辑，从而生成目标视频，因此，可以提升视频处理的准确性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该视频处理装置具体集成在电子设备，电子设备为服务器，待处理视频为广告视频，物品标签为商品标签，特效图像为视频贴纸为例进行说明。

如图8所示，一种视频处理方法，具体流程如下：

301、服务器获取广告视频和广告视频对应的受众人群。

例如，服务器接收终端发送的广告视频和广告视频对应的受众人群，或者，可以接收终端发送的广告视频和广告视频的受众对象选择页面的页面信息，根据受众对象选择页面的页面信息，在预设受众对象标签集合中筛选出广告视频对应的至少一个受众对象标签，将受众对象标签进行融合，从而得到受众人群，或者，还可以从网络或视频数据库中筛选出原始视频，在原始视频中筛选出目标类型的视频作为广告视频，然后，识别广告视频的受众对象，从而得到受众人群，或者，当广告视频的内存较大或者数量较多时，还可以接收终端发送的视频处理请求，该视频处理请求中携带广告视频和广告视频对应的受众人群的存储地址，基于该存储地址，在终端的内存、缓存或者第三方数据库中获取广告视频和广告视频对应的受众人群。

302、服务器在广告视频中提取出视频流和音频流。

例如，服务器可以将广告视频中的视频信息和音频信息进行分离，从而得到目标视频信息和目标音频信息，根据播放参数，将目标视频信息转换为视频流，并将目标音频信息转换为音频流，或者，还可以直接在广告视频中提取出视频帧和音频帧，并按照播放顺序，将视频帧进行融合，得到视频流，并将音频帧进行融合，得到音频流。

303、服务器分别对视频流和音频流进行内容识别，得到广告视频的画面内容和文本内容。

例如，服务器在视频流中提取出视频帧，得到视频帧集合，在视频帧集合中识别出每一视频帧的画面信息，得到广告视频的画面内容。通过画面文本识别模型在每一视频帧的画面内容中识别出出现的文本信息，该文本信息可以包括视频帧中出现的文本，从而得到视频流文本。通过语音转字幕文案模型将音频流中的音频帧转换为广告视频的字幕信息等，在字幕信息中提取出文本信息，从而得到音频流文本。将视频流文本和音频流文本作为广告视频的文本内容。

304、服务器基于画面内容和文本内容，在预设视频标签集合中筛选出至少一个视频标签。

例如，服务器以对每一视频帧的画面内容进行特征提取，然后，计算提取的内容特征与预设关键特征之间的特征相似度，在视频帧集合中筛选出特征相似度超过预设相似度阈值的视频帧作为关键视频帧。对音频流文本和视频流文本进行关键词提取，将音频流文本中提取出的音频流关键词与在视频流文本中提取的视频流关键词进行去重和过滤等，从而得到待处理视频的至少一个目标关键词。

服务器在预设视频标签集合中筛选出风格标签和商品标签，得到风格标签集合和商品标签集合。对关键视频帧进行风格特征提取，得到待处理视频的风格特征，在风格标签集合中筛选出风格特征对应的至少一个风格标签，得到待处理视频对应的风格标签。对目标关键词进行特征提取，得到待处理视频的物品特征，基于物品特征，确定待处理视频中的至少一个物品信息，在商品标签集合中筛选出物品信息对应的商品标签，得到待处理视频的商品标签。

其中，服务器在待处理视频中识别出视频标签可以通过训练后标签识别模型进行识别，具体的识别过程可以为在处理视频中提取出视频流和音频流，采用训练后标签识别模型分别对视频流和音频流进行内容识别，得到待处理视频的画面内容和文本内容，基于画面内容，在视频流的视频帧中筛选出至少一帧关键视频帧，在画面内容和音频流中提取出至少一个目标关键词。基于关键视频帧，在预设风格标签集合中筛选出待处理视频对应的至少一个风格标签。基于目标关键词，在预设商品标签集合中筛选出待处理视频对应的至少一个商品标签。

其中，该训练后标签识别模型可以根据实际应用的需求进行设置，另外，需要说明的是，该训练后标签识别模型可以由维护人员预先进行设置，也可以由视频处理装置自行进行训练，训练过程可以如下：

(1)服务器获取广告视频样本。

例如，服务器可以获取至少一个原始视频，将原始视频发送至标签标注服务器，使得标签标注服务器对原始视频进行视频标签的标注，接收标签标注服务器返回的已标注视频标签的原始视频，从而得到广告视频样本。

(2)服务器采用预设标签识别模型对广告视频样本的视频标签进行预测，得到预测视频标签。

例如，服务器在广告视频样本中提取出视频流样本和音频流样本，采用预设标签识别模型分别对视频流样本和音频流样本进行内容识别，得到广告视频样本的画面内容样本和文本内容样本，基于画面内容样本，在视频流样本的视频帧中筛选出至少一帧关键视频帧样本，在画面内容样本中提取出至少一个画面关键词样本，将音频流转换为文本信息，并转换的文本信息中提取出至少一个音频关键词样本，将画面关键词样本和音频关键词样本进行合并，从而得到广告视频样本的目标关键词样本。采用预设标签识别模型中的风格标签识别子模型基于关键视频帧样本，在预设风格标签集合中预测出至少一个风格标签，得到广告视频样本的预测风格标签，采用预设标签识别模型中的基于目标关键词样本，在预设商品标签集合中预测出至少一个商品标签，得到广告视频样本的预测商品标签，将预测商品标签和预测风格标签作为广告视频样本的预测视频标签。

(3)服务器基于预测视频标签和标注视频标签对预设标签识别模型进行收敛，得到训练后标签识别模型。

例如，服务器将预测风格标签与标注风格标签进行对比，以得到风格损失信息，并将预测商品标签与标注商品标签进行对比，以得到物品损失信息，将风格损失信息和物品损失信息进行融合，得到广告视频样本的标签损失信息。基于该标签损失信息对预设标签识别模型的网络参数进行更新，以收敛该预设标签识别模型，从而得到训练后标签识别模型。

305、服务器根据受众人群和视频标签，确定广告视频对应的视频贴纸。

例如，服务器可以接收终端发送的预设视频贴纸和预设视频贴纸的标签选择信息，基于该标签选择信息，在标签库中筛选出受众标签、风格标签和商品标签，将受众标签、风格标签和商品标签进行融合，以生成预设视频贴纸的属性信息，该属性信息用于指示该预设图像适用的风格标签集合、商品标签集合和受众人群集合，从而得到预设视频贴纸集合，或者，还可以接收终端在人工选择的方式下在标签库中筛选出每一预设视频贴纸的受众标签、风格标签和商品标签，将受众标签、风格标签和商品标签进行融合，以生成预设视频贴纸的属性信息，从而得到预设视频贴纸集合。

服务器可以在属性信息中识别出预设视频贴纸对应的目标风格标签集合、目标商品标签集合和受众人群集合，将受众人群与受众人群集合进行匹配，将风格标签与目标风格标签集合进行匹配，并将商品标签与目标商品标签集合进行匹配。在预设视频贴纸集合中筛选出与广告视频的受众人群、风格标签和商品标签全部匹配的预设视频贴纸，得到候选视频贴纸。

其中，对于受众人群匹配成功，就可以理解为预设视频贴纸的受众人群集合中包含广告视频的受众人群，对于风格标签匹配成功，就可以理解为预设视频贴纸的目标风格标签集合中包含广告视频的风格标签，对于商品标签的匹配成功，就可以理解为预设视频贴纸的目标商品标签集合中包含广告视频的商品标签。

当候选视频贴纸的数量为一个时，服务器将候选视频贴纸作为广告视频对应的视频贴纸，当候选视频贴纸的数量为多个时，对候选视频贴纸的属性信息进行特征提取，得到每一候选视频贴纸的特效特征，分别对广告视频的受众人群、风格标签和商品标签进行特效特征提取，并将提取出的基础特效特征进行融合，得到广告视频的目标特效特征，计算目标特效特征与每一候选视频贴纸的特效特征之间的特效相似度，根据特效相似度在候选视频贴纸中筛选出广告视频对应的视频贴纸。

306、服务器将视频贴纸添加至广告视频，得到处理后广告视频，并将处理后广告视频发送至终端。

例如，服务器获取视频贴纸的位置信息，当视频贴纸的位置信息为指示视频贴纸在视频帧中出现的位置时，就可以直接在广告视频的每一视频帧中直接识别该位置信息对应的坐标等位置信息，将识别出的坐标等位置信息作为视频贴纸的添加位置，当视频贴纸的位置信息为视频帧中所需的尺寸信息时，就可以在广告视频的每一视频帧中识别出包含该尺寸信息的空白区域，并获取该空白区域的位置信息，从而得到视频帧中的视频贴纸的添加位置。根据添加位置，将视频贴纸分别添加至每一视频帧，得到处理后视频，将处理后视频发送至终端，使得终端对处理后视频中的视频贴纸进行编辑，得到目标视频。

307、终端对处理后广告视频中的特效图像进行编辑，得到目标广告视频。

例如，显示对待处理视频添加特效图像后的处理后视频的预览页面，该预览页面包括针对特效图像的编辑控件，响应于针对所述编辑控件的编辑操作，以在预览页面中编辑特效图像文案的内容、修改特效图像的位置和大小、替换特效图像或删除特效图像。每次对特效图像进行编辑操作后，都可以对预览页面进行更新，从而显示更新后预览页面。当用户在对特效图像的编辑完成之后，终端响应于针对应用控件的应用操作时，生成目标广告视频。

其中，在广告业务中，视频广告由于其丰富的内容属性，相比于图文广告，能向用户展现更多的广告信息，但是其制作成本较高，中小型广告主较难制作出能充分展现广告特点、投放效果较好的视频。在本方案中的广告视频处理的过程可以如图9所示，广告主填写广告受众人群信息，并上传广告视频，将广告视频输入至标签识别模型进行标签识别，识别出视频的风格标签和风格标签，通过贴纸推荐系统筛选出符合受众人群、风格以及商品标签的一个利益点贴纸，视频预览页面展示带视频贴纸的视频，广告主可以编辑贴纸文案、位置和尺寸，广告主编辑完成后为广告生成带有贴纸的成品视频。

由以上可知，本实施例服务器在获取广告视频和广告视频对应的受众人群后，对广告视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，然后，根据受众人群和视频标签，确定广告视频对应的视频贴纸，然后，将视频贴纸添加至广告视频，得到处理后视频，并将处理后视频发送至终端，以便终端对所述处理后视频中的视频贴纸进行编辑；由于该方案在确定广告视频的视频贴纸的过程中，通过受众人群和视频标签两个不同因素来筛选出特效图像，在需要进行传播的业务下场景下，充分考虑了该广告视频的受众对象的影响，从而使得筛选出视频贴纸的准确性增大，因此，可以提升视频处理过程的准确性。

在本实施例中，将以该视频处理装置具体集成在电子设备，电子设备为服务器，待处理视频为广告视频，物品标签为商品标签，特效图像为视频贴纸，且贴纸库中某一个视频贴纸为双十一标签，默认文案是“优惠商品大促”，其受众人群标签为全部人群，风格标签为轻松，商品内容标签为不指定，卖点标签为节日活动，节日标签为双11为例进行说明。

例如，在广告投放的素材库中，找N条广告视频，以人工方式给这些视频标注上标签库中的风格、商品信息标签。将视频输入深度模型并以标签为目标值进行训练，然后再找M条不同的广告视频，输入深度模型，获得其输出的故事情节、风格、商品信息标签结果。比如，一个广告视频内容为双11活动时某位主播直播带货某款美妆产品，背景音乐轻快活泼。此时，在人工标注时可以将该视频风格标签设置为轻快，商品内容标签设置为美妆，卖点标签设置为节日活动，节日标签设置为双11。

当广告主上传一个宽720像素、高1280像素的视频，经过算法模型解析该视频风格标签为轻快，商品内容标签为美妆，卖点标签为节日活动，节日标签为双11，且广告主选择广告受众人群为女性群体时，贴纸推荐系统可能会推荐双十一贴纸，并带有默认文案“优惠商品大促”。在预览页面，贴纸出现的位置可能是在视频的左上角，贴纸覆盖宽150像素、高50像素的区域，在视频播放的过程中全程出现。广告主可以将贴纸位置移动到右上角，或者换成其他的贴纸。按照最终的预览调整结果，为广告主生成一个带贴纸的宽720像素、高1280像素的视频。贴纸为双十一静态图片贴纸，贴纸文案为“优惠商品大促”，贴纸出现在视频右上方，覆盖宽150像素、高50像素的区域，在视频播放的过程中全程出现，具体可以如图10所示。

为了更好地实施以上方法，本发明实施例还提供一种视频处理装置(即第一视频处理装置)，该第一视频处理装置可以集成在电子设备，电子设备可以为服务器，该服务器可以为单台服务器，也可以为多台服务器组成的服务器集群。

例如，如图11所示，该视频处理装置可以包括获取单元401、识别单元402、确定单元403和添加单元404，如下：

(1)获取单元401；

获取单元401，用于获取待处理视频和待处理视频对应的受众对象信息，该受众对象信息用于指示待处理视频针对的受众对象的信息。

例如，获取单元401，具体可以用于接收终端发送的待处理视频和待处理视频对应的受众对象信息，或者，可以接收终端发送的待处理视频和待处理视频的受众对象选择页面的页面信息，根据受众对象选择页面的页面信息，在预设受众对象标签集合中筛选出待处理视频对应的至少一个受众对象标签，将受众对象标签进行融合，从而得到受众对象信息，或者，还可以从网络或视频数据库中筛选出原始视频，在原始视频中筛选出目标类型的视频作为待处理视频，然后，识别待处理视频的受众对象，从而得到受众对象信息，或者，当待处理视频的内存较大或者数量较多时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频和待处理视频对应的受众对象信息的存储地址，基于该存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频和待处理视频对应的受众对象信息。

(2)识别单元402；

识别单元402，用于对待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签。

例如，识别单元402具体可以用于在待处理视频中提取出视频流和音频流，在视频流中提取出视频帧，得到视频帧集合，在视频帧集合中识别出每一视频帧的画面信息，得到待处理视频的画面内容，在画面内容中识别出文本信息，得到视频流文本，将音频流转换为文本信息，得到音频流文本，并将视频流文本和音频流文本作为待处理视频的文本内容。基于画面内容，在视频帧集合中筛选出至少一个关键视频帧，对音频流文本和视频流文本进行关键词提取，并将提取出的关键词进行融合，得到待处理视频的至少一个目标关键词，根据关键视频帧和目标关键词，在预设标签集合中筛选出至少一个视频标签。

(3)确定单元403；

确定单元403，用于根据受众对象信息和视频标签，确定待处理视频对应的特效图像，该特效图像用于增强待处理视频的视频表现效果。

例如，确定单元303，具体可以用于获取预设特效图像集合，该预设特效图像集合包括至少一个预设特效图像和预设特效图像的属性信息，将特效图像的属性信息分别与待处理视频的受众对象信息、风格标签和物品标签进行匹配，基于匹配结果，在预设特效图像集合中筛选出待处理图像对应的特效图像。

(4)添加单元404；

添加单元404，用于将特效图像添加至所述待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对处理后视频中的特效图像进行编辑。

例如，添加单元404，具体可以用于获取特效图像的位置信息，基于位置信息，在待处理视频的每一视频帧中识别出特效图像的添加位置，根据添加位置，将特效图像分别添加至每一视频帧，得到处理后视频。将处理后视频发送至终端，以便终端对处理后视频中的特效图像进行编辑。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在获取单元401获取待处理视频和待处理视频对应的受众对象信息后，识别单元402对待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，然后，确定单元403根据受众对象信息和视频标签，确定待处理视频对应的特效图像，然后，添加单元404将特效图像添加至待处理视频，得到处理后视频，并将处理后视频发送至终端，以便终端对所述处理后视频中的特效图像进行编辑；由于该方案在确定待处理视频的特效图像的过程中，通过受众对象信息和视频标签两个不同因素来筛选出特效图像，在需要进行传播的业务下场景下，充分考虑了该待处理视频的受众对象的影响，从而使得筛选出特效图像的准确性增大，因此，可以提升视频处理过程的准确性。

为了更好地实施以上方法，本发明实施例还提供一种视频处理装置(即第二视频处理装置)，该第二视频处理管理装置可以集成在终端，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图12所示，该第一数据处理问装置可以包括发送单元501、显示单元502和生成单元503，如下：

(1)发送单元501；

发送单元501，用于向服务器发送待处理视频和待处理视频对应的受众对象信息。

例如，发送单元501，具体可以用于直接向服务器发送待处理视频和待处理视频对应的受众对象信息，或者，还可以将待处理视频和待处理视频对应的受众对象信息进行存储，将存储地址添加至视频处理请求中，并将添加存储地址的视频处理请求发送至服务器，以便服务器根据视频处理请求中携带的存储地址，获取待处理视频和待处理视频对应的受众对象信息。

(2)显示单元502；

显示单元502，用于显示对待处理视频添加特效图像后的处理后视频的预览页面，该预览页面包括针对特效图像的编辑控件。

例如，显示单元502，具体可以用于在处理后视频添加至预设页面，并在预设页面播放该处理后视频，得到预览页面，该预览页面中还可以包括针对特效图像的编辑控件。

(3)生成单元503；

生成单元503，用于响应于针对编辑控件的编辑操作，生成目标视频。

例如，生成单元503，具体可以用于响应于针对编辑控件的编辑操作，在处理后视频中对特效图像进行调整，基于调整后特效图像，对处理后视频的预览页面进行更新，并显示更新后预览图像，该更新后预览页面包括生成字幕控件和应用控件，响应于生成字幕控件的生成字幕操作，在更新后预览页面中的视频中添加字幕信息，得到候选视频，响应于应用控件的应用操作，将候选视频作为目标视频。

由以上可知，本申请实施例在发送单元501向服务器发送待处理视频和待处理视频对应的受众对象信息后，显示单元502显示对待处理视频添加特效图像后的处理后视频的预览页面，该预览页面包括针对特效图像的编辑控件，生成单元503响应于针对编辑控件的编辑操作，生成目标视频；由于该方案通过受众对象信息来筛选出特效图像，并可以对特效图像进行编辑，从而生成目标视频，因此，可以提升视频处理的准确性。

本发明实施例还提供一种电子设备，如图13所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图13中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

电子设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

或者

向服务器发送待处理视频，显示对待处理视频添加特效图像后的处理后视频的预览页面，该处理后视频为添加特效图像的待处理视频，该预览页面包括针对特效图像的编辑控件，响应于针对编辑控件的编辑操作，生成目标视频。

例如，接收终端发送的待处理视频和待处理视频对应的受众对象信息，或者，可以接收终端发送的待处理视频和待处理视频的受众对象选择页面的页面信息，根据受众对象选择页面的页面信息，在预设受众对象标签集合中筛选出待处理视频对应的至少一个受众对象标签，将受众对象标签进行融合，从而得到受众对象信息，或者，还可以从网络或视频数据库中筛选出原始视频，在原始视频中筛选出目标类型的视频作为待处理视频，然后，识别待处理视频的受众对象，从而得到受众对象信息，或者，当待处理视频的内存较大或者数量较多时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频和待处理视频对应的受众对象信息的存储地址，基于该存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频和待处理视频对应的受众对象信息。

在待处理视频中提取出视频流和音频流，在视频流中提取出视频帧，得到视频帧集合，在视频帧集合中识别出每一视频帧的画面信息，得到待处理视频的画面内容，在画面内容中识别出文本信息，得到视频流文本，将音频流转换为文本信息，得到音频流文本，并将视频流文本和音频流文本作为待处理视频的文本内容。基于画面内容，在视频帧集合中筛选出至少一个关键视频帧，对音频流文本和视频流文本进行关键词提取，并将提取出的关键词进行融合，得到待处理视频的至少一个目标关键词，根据关键视频帧和目标关键词，在预设标签集合中筛选出至少一个视频标签。

获取预设特效图像集合，该预设特效图像集合包括至少一个预设特效图像和预设特效图像的属性信息，将特效图像的属性信息分别与待处理视频的受众对象信息、风格标签和物品标签进行匹配，基于匹配结果，在预设特效图像集合中筛选出待处理图像对应的特效图像。获取特效图像的位置信息，基于位置信息，在待处理视频的每一视频帧中识别出特效图像的添加位置，根据添加位置，将特效图像分别添加至每一视频帧，得到处理后视频。将处理后视频发送至终端，终端接收服务器返回的基于受众对象信息生成的处理后视频，该处理后视频包括特效图像，显示处理后视频的预览页面，该预览页面包括针对特效图像的编辑控件，响应于针对编辑控件的编辑操作，在处理后视频中对特效图像进行调整，基于调整后特效图像，对处理后视频的预览页面进行更新，并显示更新后预览图像，该更新后预览页面包括生成字幕控件和应用控件，响应于生成字幕控件的生成字幕操作，在更新后预览页面中的视频中添加字幕信息，得到候选视频，响应于应用控件的应用操作，将候选视频作为目标视频。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种视频处理方法中的步骤。例如，该指令可以执行如下步骤：

或者

例如，接收终端发送的待处理视频和待处理视频对应的受众对象信息，或者，可以接收终端发送的待处理视频和待处理视频的受众对象选择页面的页面信息，根据受众对象选择页面的页面信息，在预设受众对象标签集合中筛选出待处理视频对应的至少一个受众对象标签，将受众对象标签进行融合，从而得到受众对象信息，或者，还可以从网络或视频数据库中筛选出原始视频，在原始视频中筛选出目标类型的视频作为待处理视频，然后，识别待处理视频的受众对象，从而得到受众对象信息，或者，当待处理视频的内存较大或者数量较多时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频和待处理视频对应的受众对象信息的存储地址，基于该存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频和待处理视频对应的受众对象信息。在待处理视频中提取出视频流和音频流，在视频流中提取出视频帧，得到视频帧集合，在视频帧集合中识别出每一视频帧的画面信息，得到待处理视频的画面内容，在画面内容中识别出文本信息，得到视频流文本，将音频流转换为文本信息，得到音频流文本，并将视频流文本和音频流文本作为待处理视频的文本内容。基于画面内容，在视频帧集合中筛选出至少一个关键视频帧，对音频流文本和视频流文本进行关键词提取，并将提取出的关键词进行融合，得到待处理视频的至少一个目标关键词，根据关键视频帧和目标关键词，在预设标签集合中筛选出至少一个视频标签。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方面或者广告视频添加视频贴纸方面的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种视频处理方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的视频处理方法，其特征在于，所述对所述待处理视频的内容进行识别，以在预设视频标签集合中筛选出至少一个视频标签，包括：

在所述待处理视频中提取出视频流和音频流；

分别对视频流和音频流进行内容识别，得到所述待处理视频的画面内容和文本内容；

基于所述画面内容和文本内容，在预设视频标签集合中筛选出至少一个视频标签。

3.根据权利要求2所述的视频处理方法，其特征在于，所述分别对视频流和音频流进行内容识别，得到所述待处理视频的画面内容和文本内容，包括：

在所述视频流中提取出视频帧，得到视频帧集合；

在所述视频帧集合中识别出每一视频帧的画面信息，得到所述待处理视频的画面内容；

在所述画面内容和音频流中识别出文本信息，得到所述待处理视频的文本内容。

4.根据权利要求3所述的视频处理方法，其特征在于，所述在所述画面内容和音频流中识别出文本信息，得到所述待处理视频的文本内容，包括：

在所述画面内容中识别出文本信息，得到视频流文本；

将所述音频流转换为文本信息，得到音频流文本，并将所述视频流文本和音频流文本作为所述待处理视频的文本内容。

5.根据权利要求4所述的视频处理方法，其特征在于，所述基于所述画面内容和文本内容，在预设视频标签集合中筛选出至少一个视频标签，包括：

基于所述画面内容，在所述视频帧集合中筛选出至少一帧关键视频帧；

对所述音频流文本和视频流文本进行关键词提取，并将提取出的关键词进行融合，得到所述待处理视频的至少一个目标关键词；

根据所述关键视频帧和目标关键词，在预设视频标签集合中筛选出至少一个视频标签。

6.根据权利要求5所述的视频处理方法，其特征在于，所述根据所述关键视频帧和目标关键词，在预设视频标签集合中筛选出至少一个视频标签，包括：

在预设视频标签集合中筛选出风格标签和物品标签，得到风格标签集合和物品标签集合；

根据所述关键视频帧，在所述风格标签集合中筛选出所述待处理视频对应的至少一个风格标签；

基于所述目标关键词，在所述物品标签集合中筛选出所述待处理视频对应的至少一个物品标签，所述物品标签用于指示所述待处理视频中包含的物品的信息。

7.根据权利要求6所述的视频处理方法，其特征在于，所述根据所述关键视频帧，在所述风格标签集合中筛选出所述待处理视频对应的至少一个风格标签，包括：

对所述关键视频帧进行风格特征提取，得到所述待处理视频的风格特征；

在所述风格标签集合中筛选出所述风格特征对应的至少一个风格标签，得到所述待处理视频对应的风格标签。

8.根据权利要求6所述的视频处理方法，其特征在于，所述基于所述目标关键词，在所述物品标签集合中筛选出所述待处理视频对应的至少一个物品标签，包括：

对所述目标关键词进行特征提取，得到所述待处理视频的物品特征；

基于所述物品特征，确定所述待处理视频中的至少一个物品信息；

在所述物品标签集合中筛选出所述物品信息对应的物品标签，得到所述待处理视频的物品标签。

9.根据权利要求6所述的视频处理方法，其特征在于，所述根据所述受众对象信息和视频标签，确定所述待处理视频对应的特效图像，包括：

获取预设特效图像集合，所述预设特效图像集合包括至少一个预设特效图像和所述预设特效图像的属性信息；

将所述特效图像的属性信息分别与所述待处理视频的受众对象信息、风格标签和物品标签进行匹配；

基于匹配结果，在所述预设特效图像集合中筛选出所述待处理图像对应的特效图像。

10.根据权利要求9所述的视频处理方法，其特征在于，所述将所述特效图像的属性信息分别与所述待处理视频的受众对象信息、风格标签和物品标签进行匹配，包括：

在所述属性信息中识别出所述预设特效图像对应的目标风格标签集合、目标物品标签集合和受众对象信息集合；

将所述受众对象信息与受众对象信息集合进行匹配，将所述风格标签与目标风格标签集合进行匹配，并将所述物品标签与目标物品标签集合进行匹配；

所述基于匹配结果，在所述预设特效图像集合中筛选出所述待处理图像对应的特效图像，包括：在所述预设特效图像集合中筛选出与所述待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像，以得到所述待处理视频对应的特效图像。

11.根据权利要求10所述的视频处理方法，其特征在于，所述在所述预设特效图像集合中筛选出与所述待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像，以得到所述待处理视频对应的特效图像，包括：

在所述预设特效图像集合中筛选出与所述待处理视频的受众对象信息、风格标签和物品标签全部匹配的预设特效图像，得到候选特效图像；

当所述候选特效图像的数量为一个时，将所述候选特效图像作为所述待处理视频对应的特效图像；

当所述候选特效图像的数量为多个时，根据所述候选特效图像的属性信息，在所述候选特效图像中筛选出所述待处理视频对应的特效图像。

12.根据权利要求1至11任一项所述的视频处理方法，其特征在于，所述将所述特效图像添加至所述待处理视频，得到处理后视频，包括：

获取所述特效图像的位置信息；

基于所述位置信息，在所述待处理视频的每一视频帧中识别出所述特效图像的添加位置；

根据所述添加位置，将所述特效图像分别添加至所述每一视频帧，得到处理后视频。

13.一种视频处理方法，其特征在于，包括：

向服务器发送待处理视频；

响应于针对所述编辑控件的编辑操作，生成目标视频。

14.根据权利要求13所述的视频处理方法，其特征在于，所述预览页面还包括针对所述处理后视频的特效评估数据，所述特效数据用于评估对所述待处理视频添加特效图像之后的效果数据。

15.根据权利要求13所述的视频处理方法，其特征在于，所述响应于针对所述编辑控件的编辑操作，生成目标视频，包括：

响应于针对所述编辑控件的编辑操作，在所述处理后视频中对所述特效图像进行调整；

基于调整后特效图像，对所述处理后视频的预览页面进行更新，并显示更新后预览页面，所述更新后预览页面包括生成字幕控件和应用控件；

响应于生成字幕控件的生成字幕操作，在所述更新后预览页面中的视频中添加字幕信息，得到候选视频；

响应于所述应用控件的应用操作，将所述候选视频作为目标视频。

16.一种视频处理装置，其特征在于，包括：

17.一种视频处理装置，其特征在于，包括：

发送单元，用于向服务器发送待处理视频；

18.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至15任一项所述的视频处理方法中的步骤。

19.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至15任一项所述视频处理方法中的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至15任一项所述的视频处理方法中的步骤。