CN113822127A

CN113822127A - 视频处理方法、装置、视频处理设备及存储介质

Info

Publication number: CN113822127A
Application number: CN202110712104.5A
Authority: CN
Inventors: 蔡聪怀; 罗永盛; 黄梓琪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-12-21

Abstract

本申请涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、视频处理设备及存储介质，其中，该视频处理方法包括：调用目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征；基于视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；基于视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；根据分类信息和标签信息确定目标视频数据的标识信息。该标识信息兼具鲁棒性和可分性。

Description

视频处理方法、装置、视频处理设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、视频处理设备及存储介质。

背景技术

随着智能移动终端的快速普及和多媒体技术的发展，视频逐渐成为信息传播的载体。近年来短视频迅速兴起，视频已经成为人们娱乐的一种主要方式。因此，视频处理技术领域已经成为了热门的研究方向。在视频处理技术领域中，可以根据视频数据的视频特征确定视频数据的标识信息，然而，现有通过视频特征确定标识信息的视频处理方法无法兼具鲁棒性和可分性。因此，一种使标识信息兼具鲁棒性和可分性的视频处理方法是视频处理技术领域的一个重要研究课题。

发明内容

本申请实施例提供了一种视频处理方法、装置、视频处理设备及存储介质，可以通过目标视频处理模型确定目标视频数据的分类信息，以及通过目标视频处理模型确定目标视频数据的标签信息，使得基于分类信息和标签信息确定的标识信息具有鲁棒性和可分性。

一方面，本申请实施例提供了一种视频处理方法，该视频处理方法包括：

调用目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征；

基于视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；

基于视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；

根据分类信息和标签信息确定目标视频数据的标识信息。

另一方面，本申请实施例提供了一种视频处理装置，该视频处理装置包括：

特征提取单元，用于调用目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征；

处理单元，用于基于视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；

该处理单元，还用于基于视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；

确定单元，用于根据分类信息和标签信息确定目标视频数据的标识信息。

再一方面，本申请实施例提供了一种视频处理设备，该视频处理设备包括输入接口、输出接口，该视频处理设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，该计算机存储介质存储有一条或多条指令，该一条或多条指令适于由处理器加载并执行如下步骤：

根据分类信息和标签信息确定目标视频数据的标识信息。

再一方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质存储有一条或多条指令，该一条或多条指令适于由处理器加载并执行如下步骤：、

根据分类信息和标签信息确定目标视频数据的标识信息。

在本申请实施例中，当获取到目标视频数据时，视频处理设备可以调用目标视频处理模型基于目标视频数据的视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；以及基于目标视频数据的视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；并根据分类信息和标签信息确定目标视频数据的标识信息。由于目标视频处理模型中分类处理的准确性高、类目少、粒度粗，通过分类处理得到的分类信息更加鲁棒；以及标签识别处理更具体、粒度更细，通过标签识别处理得到的标签信息区分性更好，使得基于分类信息和标签信息得到的标识信息既具备分类信息的鲁棒性，又具有标签信息的区分性。目标视频处理模型不会过度拟合，避免过度拟合到分类信息，导致标识信息的可分性不足，也避免了过度拟合到标签信息上，导致标识信息的鲁棒性较差，降低了目标视频处理模型的过拟合风险。同时，标识信息是基于分类信息和标签信息得到的，标识信息既能满足鲁棒性也能满足可分性，该标识信息能全面的描述目标视频数据。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频处理方法在视频去重任务中的应用；

图1b是本申请实施例提供的视频处理方法在视频去重任务中的应用；

图2a是本申请实施例提供的视频处理方法在视频推荐任务中的应用；

图2b是本申请实施例提供的视频处理方法在视频推荐任务中的应用；

图3是本申请实施例提供的一种视频处理方法的流程示意图；

图4是本申请实施例提供的一种获取多模态特征的流程示意图；

图5是本申请实施例提供的一种视频处理模型的流程示意图；

图6是本申请实施例提供的一种区块链的结构示意图；

图7是本申请实施例提供的另一种视频处理方法的流程示意图图；

图8是本申请实施例提供的级联结构的视频处理模型的流程示意图；

图9是本申请实施例提供的一种视频处理模型的训练流程示意图；

图10是本申请实施例提供的一种视频处理装置的结构示意图；

图11是本申请实施例提供的一种视频处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，机器学习(Machine Learning，ML)是一门多领域交叉的学科，其涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。除此之外，人工智能技术还可以在其他领域得到应用，例如，可以将人工智能技术中的机器学习应用于视频技术领域的表征学习。其中，表征学习是指将视频数据转换成为能够被有效开发的一种形式，即将视频数据的无效或者冗余的信息剔除，把有效信息进行提炼，形成标识信息，以便视频数据的标识信息能应用于各种下游任务中。其中，本申请实施例提出了一种基于机器学习的视频处理方法，使得视频处理设备可以利用机器学习中的多任务学习构建视频处理模型，可以调用视频处理模型进行分类处理得到视频数据的分类信息；以及调用视频处理模型进行标签识别处理得到视频数据的标签信息，从而可以基于视频数据的分类信息和标签信息得到视频数据的标识信息，使得视频处理模型得到的标识信息既具备分类信息的泛化性，又具备标签信息的具体性。

在具体实现中，该视频处理方法可由视频处理设备执行，此处所提及的视频处理设备可以是指具有数据计算功能的任一设备，如终端设备或者服务器。其中，终端设备可以包括但不限于：智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机，等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network，CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

视频处理设备可采用该视频处理方法对各种场景下所采集到的视频数据进行表征学习处理，得到视频数据的标识信息，以便该视频数据的标识信息可以作为视频数据的底层特征供下游任务使用。其中，该下游任务可以包括不限于视频的推荐排序、视频的召回打散以及视频去重等等。

在一个实施例中，该下游任务可以为视频去重任务。视频处理设备获取到待处理的目标视频数据时，可以利用训练完成的目标视频处理模型得到目标视频数据的标识信息，然后利用索引工具在第一预设视频库中进行检索，当第一预设视频库中存在标识信息与该目标视频数据的标识信息之间的相似度大于预设阈值的原创视频数据时，获取发布目标视频数据的第一用户标识以及发布原创视频数据的第二用户标识；若第一用户标识和第二用户标识指示的用户不同，则将目标视频数据确定为搬运视频数据。此时，视频处理设备将目标视频数据确定为搬运视频数据时，可以降低目标视频数据的权重，隐藏目标视频数据，降低目标视频数据的曝光度，提升视频产品的用户体验。

其中，第一预设视频库中包括多个原创视频数据，原创视频数据可以是指内容或者形式具有独特个性的视频数据，是由用户独立创作的视频数据，例如，用户利用视频采集设备拍摄自然环境获得的视频数据。

其中，索引工具可能是与视频数据的标识信息相关的工具，例如当视频数据的标识信息为向量时，该索引工具可以为向量索引工具(如faiss)。当索引工具为向量索引工具，标识信息为向量时，索引工具可以判断第一预设视频库中各个原创视频数据的标识信息与目标视频数据的标识信息之间的向量距离，当第一预设视频库中存在向量距离小于预设阈值的原创视频数据时，就可以获取发布目标视频数据的第一用户标识以及发布原创视频数据的第二用户标识；其中，用户标识可以为用户名称或者用户ID等等。若第一用户标识和第二用户标识指示的用户不同，则将目标视频数据确定为搬运视频数据。若第一用户标识和第二用户标识指示的用户相同，则将目标视频数据确定为正常视频数据。

例如，针对图1a上侧所示的目标视频数据而言，视频处理设备可以在第一预设视频库中进行检索，可以得到图1a下侧所示的标识信息与该目标视频数据的标识信息之间的相似度大于预设阈值的原创视频数据。视频处理设备可以获取到发布图1a上侧所示的目标视频数据的第一用户标识为“剧集大放送”，发布图1a下侧所示的原创视频数据的第二用户标识为“XX视频文化”。第一用户标识和第二用户标识指示的用户不同，视频处理设备可以将图1a上侧所示的目标视频数据确定为搬运视频数据。例如，针对图1b上侧所示的目标视频数据而言，视频处理设备可以在第一预设视频库中进行检索，可以得到图1b下侧所示的标识信息与该目标视频数据的标识信息之间的相似度大于预设阈值的原创视频数据。视频处理设备可以获取到发布图1b上侧所示的目标视频数据的第一用户标识为“XX娱乐”，发布图1b下侧所示的原创视频数据的第二用户标识为“XX视频文化”。第一用户标识和第二用户标识指示的用户相同，均为用户“XX”，视频处理设备可以将图1b上侧所示的目标视频数据确定为正常视频数据。

在另一个实施例中，该下游任务还可以为视频推荐任务。在视频推荐任务的用户侧，可以引入视频数据的标识信息，将视频数据的标识信息作为连续性特征，将目标用户的用户画像信息作为稀疏性特征，并基于目标视频数据的标识信息以及用户画像信息确定目标用户的用户特征信息。具体的，视频处理设备获取到待处理的目标视频数据时，可以利用训练完成的目标视频处理模型得到目标视频数据的标识信息，并基于目标视频数据的标识信息以及用户画像信息确定目标用户的用户特征信息。在一个实施例中，视频处理设备可以获取访问目标视频数据的目标用户的用户画像信息，并通过嵌入层对目标用户的用户画像信息进入嵌入处理，得到处理后的用户画像信息，然后通过密集嵌入层对目标视频数据的标识信息和处理后的用户画像信息进行拼接处理得到目标用户的用户特征信息，如图2a左侧图所示。相应的，在物品侧，也可以将第二预设视频库中的各个候选视频数据的标识信息作为连续性特征。并基于目标视频数据的标识信息以及第二预设视频库中的各个候选视频数据的标识信息确定第二预设视频库中的各个候选视频数据的候选视频特征信息。在一个实施例中，视频处理设备可以将目标视频数据的视频特征作为离散特征，并通过嵌入层对目标视频数据的视频特征进入嵌入处理，得到目标视频特征的标识信息，然后通过密集嵌入层将目标视频数据的标识信息与第二预设视频库中的各个候选视频数据的标识信息进行拼接处理得到第二预设视频库中各个候选视频数据的候选视频特征信息。如图2a右侧图所示。在另一个实施例中，视频处理设备还可以直接通过目标视频处理模型获取目标视频数据的标识信息，然后通过密集嵌入层将目标视频数据的标识信息与第二预设视频库中的各个候选视频数据的标识信息进行拼接处理得到第二预设视频库中各个候选视频数据的候选视频特征信息。用户侧获得的用户特征信息以及物品侧获得的第二预设视频库中各个候选视频数据的候选视频特征信息可以应用于上层网络。例如，可以在第二预设视频库中查找与用户特征信息匹配的候选视频特征信息作为目标候选视频特征信息，并将目标候选视频特征信息对应的目标候选视频数据作为目标用户的推荐视频数据。

其中，访问视频数据的用户可以是指在视频数据上执行了用户操作的用户。例如，点击了视频数据的用户或者浏览了视频数据的用户。

其中，用户画像信息可以是指用于描述用户特征的信息，例如姓名、昵称、性别和年龄等等。

在一个实施例中，视频推荐任务可以为一个双塔结构的模型，如图2b所示，图2b示出了一种视频推荐任务的结构示意图。如图2b左侧图所示，本申请实施例的视频推荐任务引入了目标视频数据的标识信息，将目标视频数据的标识信息作为连续性特征，与用户画像信息这一离散特征进行拼接得到用户特征信息。如图2b右侧图所示，本申请实施例的视频推荐任务引入了候选视频数据的标识信息，将第二预设视频库中的各个候选视频数据的标识信息作为连续性特征，与目标视频数据的标识信息进行拼接得到了各个候选视频数据的候选视频特征信息。然后，可以在第二预设视频库中查找与用户特征信息匹配的候选视频特征信息作为目标候选视频特征信息，并将目标候选视频特征信息对应的目标候选视频数据作为目标用户的推荐视频数据。在本申请实施例视频推荐任务中，目标用户的用户特征信息是由目标视频数据的标识信息与目标用户的用户画像信息拼接得到的，该用户特征信息可以更全面的表征访问目标视频数据的目标用户。以及候选视频特征信息是由目标视频数据的标识信息与候选视频数据的标识信息拼接得到的，该候选视频特征信息可以更全面的表征第二预设视频库中的候选视频数据的特征，所以在第二预设视频库中查找到的目标候选视频特征信息对应的目标候选视频数据更准确，即目标用户的推荐视频数据更准确。提升了视频推荐任务的准确性，改善了用户体验。

基于上述描述，本申请实施例提出的一种视频处理方法；该视频处理方法可以由上述所提及的视频处理设备执行。参见图3示，该视频处理方法可包括以下步骤S301-S304：

S301：调用目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征。

其中，视频数据可以包括任意类型的视频数据，例如该视频数据可以是影视视频数据、短视频数据、实时共享视频数据，等等。其中，短视频又可称为短片视频，其一般是在互联网新媒体上传播的播放时长在N分钟(例如4分钟、5分钟等)以内的视频。实时共享视频数据可以包括但不限于：直播视频数据、网络会议视频数据，等等。

其中，视频特征可以包括从任意角度描述视频数据获得的特征。例如，从视频数据标题角度进行描述获得的标题特征；又例如，从视频数据内容角度进行描述获得的视频流特征；还例如，从视频数据的音频角度进行描述获得的音频特征。在一个实施例中，视频特征可以包括视频数据的一个角度的特征。在另一个实施例中，该视频特征可以包括视频数据的多个角度的特征，即多模态特征。该多模态特征可以包括从视频数据标题角度进行描述获得的标题特征、从视频数据内容角度进行描述获得的视频流特征和从视频数据的音频角度进行描述获得的音频特征中的任意多项。需要明白，多模态特征所包含的描述角度丰富，该多模态特征对视频数据的描述越准确。

具体的，视频处理设备可以对视频数据进行特征提取，获得视频数据的视频特征。在一个实施例中，该视频特征是指由视频数据内容角度的视频流特征和视频数据标题角度的标题特征组合的多模态特征。视频处理设备可以获取描述视频数据内容角度的视频信息以及描述视频数据标题角度的标题信息，然后通过视频处理模型从视频信息中获取视频数据的视频流特征，以及通过视频处理模型从标题信息中获取视频数据的标题特征。将视频数据的视频流特征和视频数据的标题特征进行融合，得到视频数据的多模态特征。

其中，描述视频数据内容角度的视频信息可以为视频数据内的视频流。其中，视频处理模型中可以包括视频特征提取模块，该视频特征提取模块可以用于获取视频数据的视频流特征。视频特征提取模块可以包括采样模块，图像特征提取模块、帧特征聚合模块以及特征增强模块。具体的，采样模块可以用于对视频流进行全局和/或稀疏采样得到帧图像集。图像特征提取模块可以用于提取帧图像集中各个帧图像的图像特征，帧特征聚合模块可以用于将各个帧图像的图像特征进行聚合得到初始视频特征，特征增强模块可以用于对初始视频特征进行特征增强得到该视频数据的视频流特征。其中，图像特征提取模块可以为任意图像特征提取网络(如InceptionResNetV2、ResNet和EfficienNet等)，其中，帧特征聚合模块可以为任意图像聚合网络(例如NeXtVLAD)，其中，特征增强模块可以为任意图像增强网络(例如SENet)。

其中，描述视频数据标题角度的标题信息可以为视频数据的标题文本。其中，视频处理模型中可以包括标题特征提取模块，该标题特征提取模块可以用于获取视频数据的标题特征。其中，标题特征提取模块可以包括分词模块、词嵌入模块、混合深度神经网络模型以及池化层。具体的，分词模块可以用于对标题文本进行分词得到分词文本，词嵌入模块可以用于将分词文本进行嵌入处理，得到词向量，混合深度神经网络模型用于从词向量中提取初始特征，池化层用于对初始特征进行池化处理得到标题特征。

参见图4，图4示出了一种获取多模态特征的流程示意图。如图4的上侧图所示，目标视频数据中包括拳击比赛过程中的视频流401，采样模块可以对视频流401进行采样得到402所示的帧图像集，然后利用图像特征提取网络InceptionResNetV2提取帧图像集中各个帧图像的图像特征，帧特征聚合模块NeXtVLAD可以将各个帧图像的图像特征进行聚合得到初始视频特征，特征增强模块可以对初始视频特征进行特征增强得到该视频数据的视频流特征。如图4的下侧图所示，目标视频数据中标题文本403为“UFC电竞：BB参赛，将搏击冠军怒砸昏迷，太霸气”，分词模块可以对标题文本403进行分词得到分词文本，词嵌入模块将分词文本进行嵌入处理，得到词向量，混合深度神经网络模型可以从词向量中提取初始特征，池化层对初始特征进行池化处理得到标题特征。最后，可以通过特征融合模块(如GateMultimodal Unit结构)将视频数据的视频特征以及视频数据的标题特征进行融合得到视频数据的多模态特征。

S302：基于视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息。

其中，视频数据的分类信息可以包括视频数据所属的类别。视频处理设备可以调用目标视频处理模型基于视频特征对目标视频数据进行分类处理，确定目标视频数据所属的类别。具体的，视频处理设备可以调用目标视频处理模型基于视频特征对目标视频数据进行分类处理，确定目标视频数据在各个类别下的概率，将最大概率对应的类别确定为目标视频数据所属的类别。

在一个实施例中，本申请实施例的视频处理模型可以包括多个任务，例如，可以包括分类任务和标签任务。需要说明的是，随着业务的发展，该视频处理模型还可以包括其他任务，例如，视频处理模型还可以包括账号任务等等，本申请对此不做限定。

其中，分类任务可以用于确定视频数据的分类信息。在一个实施例中，分类任务可以为一个多分类任务，视频处理设备可以调用目标视频处理模型中的分类任务基于视频特征确定目标视频数据属于各个类别的概率，并将最大概率类别确定为目标视频数据所属的类别。

请参见图5所示，图5示出了一种视频处理模型的流程示意图。其中，图5的上侧图示出了分类任务的流程示意图。视频处理设备可以调用目标视频处理模型中的分类任务，基于视频特征确定目标视频数据属于各个类别的概率，其中，图5承接图4所示的示例，各个类别的概率可以显示如图5上侧图所示，即目标视频数据属于“搞笑”类别的概率、目标视频数据属于“电影”类别的概率、目标视频数据属于“电视剧”类别的概率、目标视频数据属于“综艺”类别的概率、目标视频数据属于“娱乐”类别的概率、目标视频数据属于“游戏”类别的概率、目标视频数据属于“网红达人”类别的概率、目标视频数据属于“音乐”类别的概率、目标视频数据属于“曲艺”类别的概率和目标视频数据属于“动漫”类别的概率。可以看出，“游戏”这一类别的概率最高，因此，视频处理设备调用目标视频处理模型中的分类任务基于视频特征确定目标视频数据所属的类别为“游戏”。

S303：基于视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息。

可选的，标签信息可以包括视频数据所属的标签。由于视频数据的标签可能有多个，所以需要分别确定该视频数据是否包含每个标签。具体的，视频处理设备可以调用目标视频处理模型基于视频特征确定目标视频数据属于各个标签的概率，并将概率大于概率阈值的标签确定为目标视频数据包含的标签。

其中，标签任务可以用于确定视频数据的标签信息。在一个实施例中，标签任务可以为多个二分类任务的组合，一个二分类任务可以用于判断该视频数据是否包含这一个二分类任务对应的标签。具体的，视频处理设备可以利用目标二分类任务确定目标视频数据包含目标标签的概率，若目标视频数据包含目标标签的概率大于概率阈值，则确定目标视频数据包含目标标签；若目标视频数据包含目标标签的概率小于或等于概率阈值，则确定目标视频数据不包含目标标签。

其中，图5承接图4所示的示例，各个标签的概率可以显示如图5下侧图所示。即目标视频数据包含“三国演义”标签的概率、目标视频数据包含“双鸭山”标签的概率、目标视频数据包含“格斗游戏”标签的概率、目标视频数据包含“AA”标签的概率、目标视频数据包含“BB”标签的概率、目标视频数据包含“节目解说”标签的概率、目标视频数据包含“雪豹”标签的概率、目标视频数据包含“UFC”标签的概率和目标视频数据包含“王者荣耀”标签的概率。可以看出，“格斗游戏”、“BB”、“节目解说”、“UFC”这几个标签的概率大于概率阈值，因此，视频处理设备调用目标视频处理模型中的标签任务基于视频特征确定目标视频数据包含的标签有：“格斗游戏”、“BB”、“节目解说”和“UFC”。

需要注意的是，S302和S303可以是并列的步骤，本申请实施例是先执行S302所示的步骤，再执行S303所示的步骤。在其他的实施例中，还可以先执行S303所示的步骤，再执行S302所示的步骤，即先调用目标视频处理模型中的标签任务得到目标视频数据的标签信息；再调用目标视频处理模型中的分类任务得到目标视频数据的分类信息。

S304：根据分类信息和标签信息确定目标视频数据的标识信息。

在一个实施例中，视频处理设备可以通过目标视频处理模型的注意力机制对分类信息和标签信息进行注意力处理，得到目标视频数据的标识信息。其中，注意力机制是指可以通过注意力权重将注意力集中在实际重要的特征上。例如，当目标视频处理模型更关注分类信息时，可设置分类信息的注意力权重大于标签信息的注意力权重。又例如，当目标视频处理模型更关注标签信息时，可设置标签信息的注意力权重大于分类信息的注意力权重。

在另一个实施例中，还可以基于分类信息对标签信息进行过滤，将过滤后的标签信息作为目标视频数据的标识信息，过滤后的标签信息与分类信息指示的类别匹配。由于标签信息的泛化性，标签信息可能同时包括多个类别下的标签，例如，标签信息可以包括“游戏”类别下的“单机游戏”标签和“动漫”类别下的“二次元”标签。若分类信息指示目标视频数据所属的类别为“游戏”类别，那么可以基于分类信息指示的类别对标签信息中包括的“游戏”类别下的“单机游戏”标签和“动漫”类别下的“二次元”标签进行过滤，过滤后的“单机游戏”标签与“游戏”类别匹配，将“单机游戏”标签作为目标视频数据的标识信息。

在一个可行的实施方式中，为了便于下游任务调用目标视频数据的标识信息，可以利用区块链技术，将目标视频数据的标识信息写入区块链。具体的，视频处理设备可以将目标视频数据的标识信息封装为区块，并将该区块存储至区块链上。

其中，区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构，并以密码学方式保证数据不可篡改和不可伪造的分布式账本。多个独立的分布式节点保存相同的记录。区块链技术实现了去中心化，成为了可信的数字资产存储、转移和交易的基石。

以图6所示的区块链的结构示意图为例，在将目标视频数据的标识信息写入区块链时，可以将目标视频数据的标识信息封装为区块，并添加在已有区块链的末端，通过共识算法保证每个节点新添加的区块是完全相同的。每个区块内记录了若干个标识信息，同时包含了前一个区块的哈希(hash)值，所有区块就是通过这种方式保存前一个区块中的hash值，按顺序相连，组成了区块链。区块链中下一个区块的区块头中会存储前一个区块的哈希值，当前一个区块中的标识信息发生变化时，本区块的哈希值也会随之改变，因此上传至区块链中的标识信息难以被篡改，提高了数据的可靠性。

在一个实施例中，在后续的时间段内，视频处理设备可以无需再次获取目标视频数据的标识信息，可以直接在区块链中获取该目标视频数据的标识信息执行下游任务，提升时效性以及准确性。

在本申请实施例中，当获取到目标视频数据时，视频处理设备可以调用目标视频处理模型基于目标视频数据的视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；以及基于目标视频数据的视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；并根据分类信息和标签信息得到目标视频数据的标识信息。由于目标视频处理模型中分类处理的准确性高、类目少、粒度粗，通过分类处理得到的分类信息更加鲁棒。以及标签识别处理更具体、粒度更细，通过标签识别处理得到的标签信息区分性更好。使得基于分类信息和标签信息得到的标识信息既具备分类信息的鲁棒性，又具有标签信息的区分性。目标视频处理模型不会过度拟合，避免过度拟合到分类信息，导致标识信息的可分性不足，也避免了过度拟合到标签信息上，导致标识信息的鲁棒性较差，降低了目标视频处理模型的过拟合风险。同时，标识信息是基于分类信息和标签信息得到的，标识信息既能满足分类信息的鲁棒性也能满足标签信息的可分性，该标识信息更能全面的描述目标视频数据。

参见上述图3所示的方法实施例的相关描述可知，图3所示的视频处理方法可以通过分类处理获取目标视频数据的分类信息以及通过标签识别处理获取目标视频数据的标签信息。由于分类处理相比标签识别处理简单得多，分类处理的准确率比较高。标签识别处理虽然更加具体，但由于标签识别处理存在标签信息数目过大、粒度细、长尾分布严重等问题，标签识别处理不具有分类处理那么鲁棒的特征，而引入分类信息后，通过标签识别处理得到的标签信息更具鲁棒性。因此，在本方案中，分类处理还可作为标签识别处理的一种辅助过程。基于此，本申请实施例提供了另一种视频处理方法，参见图7所示，该视频处理方法可包括以下步骤S701-S704：

S701：调用目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征。

S702：基于视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息。

需要说明，步骤S701-S702的具体实现方式可参见图3中相关实施例的具体描述，这里不再赘述。

S703：基于分类信息以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息。

具体的，根据分类信息指示的类别以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息，标签信息与分类信息指示的类别相匹配。也就是说，可以将分类任务和标签任务设置为一个级联结构，分类任务是标签任务的辅助任务。

请参见图8所示，图8示出了级联结构的视频处理模型的流程示意图。其中，图8的上侧图示出了分类任务的流程示意图。视频处理设备可以基于视频特征确定目标视频数据的分类信息，即确定目标视频数据属于各个类别的概率，并基于各个类别的概率确定目标视频数据所属的类别。其中，图8的下侧图示出了标签任务的流程示意图。在标签任务中，可以基于分类任务确定的分类信息以及目标视频数据的视频特征确定目标视频数据的标签信息。如图8所示，分类任务对应的分类信息以及目标视频数据的视频特征均输入到目标视频处理模型中的标签任务中。此时，视频处理设备可以调用目标视频处理模型中的标签任务，根据分类信息指示的类别以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息，标签信息与分类信息指示的类别相匹配。

该标签信息与分类信息指示的类别相匹配。例如，若分类信息指示的类别为“游戏”，那么标签信息中的各个标签将会与“游戏”相匹配，标签信息中会包括“格斗”、“单机游戏”、“游戏解说”等游戏类别相关的标签。又例如，若分类信息指示的类别为“动漫”，那么标签信息中的各个标签将会与“动漫”相匹配，标签信息中会包括“日本动漫”、“二次元”、“漫改”等动漫类别相关的标签。

这种情况下，标签信息与分类信息指示的类别相匹配，标签信息中存在互斥标签的情况也大大减少。避免了单独的标签任务中，标签信息同时包括多个类别下的标签。例如，在单独的标签任务中，标签信息可能同时包括“游戏”类别下的标签“单机游戏”和“动漫”类别下的标签“二次元”，标签信息的准确率较低。由于分类任务相比标签任务会简单得多，分类任务的准确率比较高。当以分类任务得到的分类信息指示的类别为基准时，不会出现多个类别下的标签，标签信息的准确性更高。

S704：根据分类信息和标签信息确定目标视频数据的标识信息。

需要说明，步骤S704的具体实现方式可参见图3中相关实施例的具体描述，这里不再赘述。

在本申请实施例中，根据分类信息指示的类别以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息。该标签信息与分类信息指示的类别相匹配，由于分类任务相比标签任务会简单得多，分类任务的准确率比较高。当以分类任务得到的分类信息指示的类别为基准时，避免出现多个类别下的标签，提升了标签信息的准确性。

进一步地，为了验证本申请实施例的视频处理方法的有益效果。可以利用单标签任务以及级联结构获取同一视频流的标识信息，并通过MAP@10、准确率、召回率以及F1等评价指标进行对比，具体的评价指标结果可如表1所示：

表1评价指标结果

任务	MAP@10	准确率	召回率	F1
					单标签任务	0.7072	0.7903	0.5865	0.6733
级联结构	0.7161	0.7659	0.6066	0.6770

由表1可知，级联结构的MAP@10、召回率以及F1均优于单标签任务，证明通过级联结构获得的标识信息更优。

参见上述图3或图7所示的方法实施例的相关描述可知，图3或图7所示的视频处理方法可以调用训练后的目标视频处理模型获取目标视频数据的标识信息。那么，在调用训练后的目标视频处理模型之前，需要对目标视频处理模型进行训练。基于此，参见图9，图9示出了另一种视频处理方法的流程示意图，该视频处理方法可包括S901-S907：

S901：获取训练样本，该训练样本包括样本视频数据、样本视频数据的基准分类以及样本视频数据的基准标签。

其中，可以对样本视频数据进行标注，获得样本视频的基准分类以及样本视频的基准标签。

S902：通过初始视频处理模型对样本视频数据进行特征提取，得到样本视频数据的视频特征。

S903：基于样本视频数据的视频特征对样本视频数据进行分类处理，得到样本视频数据的分类信息。

S904：基于样本视频数据的视频特征对样本视频数据进行标签识别处理，得到样本视频数据的标签信息。

S905：根据样本视频数据的基准分类和分类信息确定第一损失值，以及根据样本视频数据的基准标签和标签信息确定第二损失值。

其中，第一损失值可以为分类任务对应的损失值。由前述可知，分类任务可以是一个多分类任务，那么视频处理设备根据样本视频数据的基准分类和分类信息确定的第一损失值可以为多分类交叉熵损失值。

其中，第二损失值可以为标签任务对应的损失值。由前述可知，标签任务是多个二分类任务的组合，那么视频处理设备根据样本视频数据的基准标签和标签信息确定的第二损失值可以包括多个二分类交叉熵损失值。

S906：基于第一损失值和第二损失值，得到初始视频处理模型的损失值。

在一个实施例中，视频处理设备可以获取分类任务对应的权重因子以及标签任务对应的权重因子，并基于分类任务对应的权重因子以及标签任务对应的权重因子对第一损失值和第二损失值进行处理，得到初始视频处理模型的损失值。

可选的，分类任务对应的权重因子和标签任务对应的权重因子之和可以等于基准数值，那么视频处理设备可以基于分类任务对应的权重因子以及标签任务对应的权重因子对第一损失值和第二损失值进行加权求和，得到初始视频处理模型的损失值。

可选的，分类任务对应的权重因子和标签任务对应的权重因子均可以为基准数值，视频处理设备可以直接将第一损失值和第二损失值相加得到初始视频处理模型的损失值。

S907：根据初始视频处理模型的损失值对初始视频处理模型进行训练，得到目标视频处理模型。

具体的，视频处理设备可以对初始视频处理模型的损失值执行求导计算得到初始视频处理模型的更新参数，并基于初始视频处理模型的更新参数对初始视频处理模型中的分类任务执行模块以及初始视频处理模型中的标签任务执行模块进行梯度反向传播，直至得到收敛的目标视频处理模型。

本申请实施例在训练视频处理模型时，初始视频处理模型的损失值的大小既受到第一损失值的影响，又受到第二损失值的影响，所以参数更新的方向，不可能只偏向于某个方向，而是满足两个任务的损失值都得到降低。这会让训练得到的目标视频处理模型关注在两个任务都重要的特征上，降低目标视频处理模型过度拟合到某一任务的风险。同时，目标视频处理模型学习到的标识信息既满足分类任务的要求，也满足标签任务的要求，泛化性得到了保证。

基于上述视频处理方法实施例的描述，本申请实施例还公开了一种视频处理装置100，该视频处理装置100可以是运行于上述所提及的视频处理设备中的一个计算机程序(包括程序代码)。该视频处理装置100可以执行图3、图7或图9所示的方法。请参见图10，该视频处理装置100可以运行如下单元：

特征提取单元1001，用于调用目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征；

处理单元1002，用于基于视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；

该处理单元1002，还用于基于视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；

确定单元1003，用于根据分类信息和标签信息确定目标视频数据的标识信息。

在一种实施方式中，处理单元1002用于基于视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息，包括：

基于分类信息以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息。

再一种实施方式中，处理单元1002用于基于分类信息以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息，包括：

根据分类信息指示的类别以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息，该标签信息与该分类信息指示的类别相匹配。

再一种实施方式中，处理单元1002还用于：

获取训练样本，该训练样本包括样本视频数据、样本视频数据的基准分类以及样本视频数据的基准标签；

调用初始视频处理模型对样本视频数据进行特征提取，得到样本视频数据的视频特征；

基于样本视频数据的视频特征对样本视频数据进行分类处理，得到样本视频数据的分类信息；

基于样本视频数据的视频特征对样本视频数据进行标签识别处理，得到样本视频数据的标签信息；

根据样本视频数据的基准分类和分类信息确定第一损失值，以及根据样本视频数据的基准标签和标签信息确定第二损失值；

基于第一损失值和第二损失值，得到初始视频处理模型的损失值；

根据初始视频处理模型的损失值对初始视频处理模型进行训练，得到目标视频处理模型。

再一种实施方式中，特征提取单元1001用于调用目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征，包括：

通过目标视频处理模型获取目标视频数据的视频流特征，以及通过目标视频处理模型获取目标视频数据的标题特征；

将目标视频数据的视频流特征和目标视频数据的标题特征进行融合，得到目标视频数据的多模态特征。

再一种实施方式中，处理单元1002还用于：

当第一预设视频库中存在标识信息与目标视频数据的标识信息之间的相似度大于预设阈值的原创视频数据时，获取发布目标视频数据的第一用户标识以及发布原创视频数据的第二用户标识；

若第一用户标识和第二用户标识所指示的用户不同，则将目标视频数据确定为搬运视频数据。

再一种实施方式中，处理单元1002还用于：

获取访问目标视频数据的目标用户的用户画像信息，并基于目标视频数据的标识信息以及用户画像信息确定目标用户的用户特征信息；

获取第二预设视频库中各个候选视频数据的标识信息，并基于目标视频数据的标识信息以及各个候选视频数据的标识信息，确定第二预设视频库中各个候选视频数据的候选视频特征信息；

在第二预设视频库中查找与用户特征信息匹配的候选视频特征信息作为目标候选视频特征信息，并将目标候选视频特征信息对应的目标候选视频数据作为目标用户的推荐视频数据。

根据本申请的一个实施例，图3、图7或图9所示的方法所涉及的各个步骤均可以是由图10所示的视频处理装置100中的各个单元执行的。例如，图3所示的步骤S301由图10中所示的特征提取单元1001来执行，步骤S302-S303由图10中所示的处理单元1002来执行，步骤S304由图10中所示的确定单元1003来执行。

根据本申请的另一个实施例，图10所示的视频处理装置100中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以是由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，基于视频处理装置100也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过包括中央处理单元(Central ProcessingUnit，CPU)，随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图3、图7或图9中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图10所示的视频处理装置100，以及来实现本申请实施例的视频处理方法。所述的计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述视频处理设备中，并在其中运行。

在本申请实施例中，当获取到目标视频数据时，视频处理装置可以调用目标视频处理模型基于目标视频数据的视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；以及基于目标视频数据的视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；并根据分类信息和标签信息确定目标视频数据的标识信息。由于目标视频处理模型中分类处理的准确性高、类目少、粒度粗，通过分类处理得到的分类信息更加鲁棒；以及标签识别处理更具体、粒度更细，通过标签识别处理得到的标签信息区分性更好，使得基于分类信息和标签信息得到的标识信息既具备分类信息的鲁棒性，又具有标签信息的区分性。目标视频处理模型不会过度拟合，避免过度拟合到分类信息，导致标识信息的可分性不足，也避免了过度拟合到标签信息上，导致标识信息的鲁棒性较差，降低了目标视频处理模型的过拟合风险。同时，标识信息是基于分类信息和标签信息得到的，标识信息既能满足分类信息的鲁棒性也能满足标签信息的可分性，该标识信息能全面的描述目标视频数据。

基于上述视频处理方法实施例的描述，本申请实施例还公开了一种视频处理设备110。请参见图11，该视频处理设备110至少包括处理器1101、输入接口1102、输出接口1103以及计算机存储介质1104可通过总线或其他方式连接。

所述计算机存储介质1104是视频处理设备110中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质1104既可以包括视频处理设备110的内置存储介质，当然也可以包括视频处理设备110支持的扩展存储介质。计算机存储介质1104提供存储空间，该存储空间存储了视频处理设备110的操作系统。并且，在该存储空间中还存放了适于被处理器1101加载并执行的一条或多条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质1104可以是高速RAM存储器；可选的，还可以是至少一个远离前述处理器的计算机存储介质、该处理器可以称为中央处理单元(Central Processing Unit，CPU)，是视频处理设备110的核心以及控制中心，适于被实现一条或多条指令，具体加载并执行一条或多条指令从而实现相应的方法流程或功能。

在一个实施例中，可由处理器1101加载并执行计算机存储介质1104中存放的一条或多条指令，以实现执行如图3、图7或图9中所示的相应方法所涉及的各步骤，具体实现中，计算机存储介质1104中的一条或多条指令由处理器1101加载并执行以下步骤：

根据分类信息和标签信息确定目标视频数据的标识信息。

在一种实施方式中，处理器1101用于基于视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息，包括：

再一种实施方式中，处理器1101用于基于分类信息以及视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息，包括：

再一种实施方式中，处理器1101还用于：获取训练样本，该训练样本包括样本视频数据、样本视频数据的基准分类以及样本视频数据的基准标签；

通过初始视频处理模型对样本视频数据进行特征提取，得到样本视频数据的视频特征；

再一种实施方式中，处理器1101用于通过目标视频处理模型对目标视频数据进行特征提取，得到目标视频数据的视频特征，包括：

再一种实施方式中，处理器1101还用于：

在本申请实施例中，当获取到目标视频数据时，视频处理设备可以调用目标视频处理模型基于目标视频数据的视频特征对目标视频数据进行分类处理，得到目标视频数据的分类信息；以及基于目标视频数据的视频特征对目标视频数据进行标签识别处理，得到目标视频数据的标签信息；并根据分类信息和标签信息确定目标视频数据的标识信息。由于目标视频处理模型中分类处理的准确性高、类目少、粒度粗，通过分类处理得到的分类信息更加鲁棒；以及标签识别处理更具体、粒度更细，通过标签识别处理得到的标签信息区分性更好，使得基于分类信息和标签信息得到的标识信息既具备分类信息的鲁棒性，又具有标签信息的区分性。目标视频处理模型不会过度拟合，避免过度拟合到分类信息，导致标识信息的可分性不足，也避免了过度拟合到标签信息上，导致标识信息的鲁棒性较差，降低了目标视频处理模型的过拟合风险。同时，标识信息是基于分类信息和标签信息得到的，标识信息既能满足分类信息的鲁棒性也能满足标签信息的可分性，该标识信息能全面的描述目标视频数据。

需要说明的是，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。视频处理设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该视频处理设备执行上述视频处理方法实施例图3、图7或图9中所执行的步骤。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

调用目标视频处理模型对目标视频数据进行特征提取，得到所述目标视频数据的视频特征；

基于所述视频特征对所述目标视频数据进行分类处理，得到所述目标视频数据的分类信息；

基于所述视频特征对所述目标视频数据进行标签识别处理，得到所述目标视频数据的标签信息；

根据所述分类信息和所述标签信息确定所述目标视频数据的标识信息。

2.如权利要求1所述的方法，其特征在于，所述基于所述视频特征对所述目标视频数据进行标签识别处理，得到所述目标视频数据的标签信息，包括：

基于所述分类信息以及所述视频特征对所述目标视频数据进行标签识别处理，得到所述目标视频数据的标签信息。

3.如权利要求2所述的方法，其特征在于，所述基于所述分类信息以及所述视频特征对所述目标视频数据进行标签识别处理，得到所述目标视频数据的标签信息，包括：

根据所述分类信息指示的类别以及所述视频特征对所述目标视频数据进行标签识别处理，得到所述目标视频数据的标签信息，所述标签信息与所述分类信息指示的类别相匹配。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本，所述训练样本包括样本视频数据、所述样本视频数据的基准分类以及所述样本视频数据的基准标签；

通过初始视频处理模型对所述样本视频数据进行特征提取，得到所述样本视频数据的视频特征；

基于所述样本视频数据的视频特征对所述样本视频数据进行分类处理，得到所述样本视频数据的分类信息；

基于所述样本视频数据的视频特征对所述样本视频数据进行标签识别处理，得到所述样本视频数据的标签信息；

根据所述样本视频数据的基准分类和分类信息确定第一损失值，以及根据所述样本视频数据的基准标签和标签信息确定第二损失值；

基于所述第一损失值和所述第二损失值，得到所述初始视频处理模型的损失值；

根据所述初始视频处理模型的损失值对所述初始视频处理模型进行训练，得到所述目标视频处理模型。

5.如权利要求1所述的方法，其特征在于，所述调用目标视频处理模型对目标视频数据进行特征提取，得到所述目标视频数据的视频特征，包括：

通过所述目标视频处理模型获取所述目标视频数据的视频流特征，以及通过所述目标视频处理模型获取所述目标视频数据的标题特征；

将所述目标视频数据的视频流特征和所述目标视频数据的标题特征进行融合，得到所述目标视频数据的多模态特征。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

当第一预设视频库中存在标识信息与所述目标视频数据的标识信息之间的相似度大于预设阈值的原创视频数据时，获取发布所述目标视频数据的第一用户标识以及发布所述原创视频数据的第二用户标识；

若所述第一用户标识和所述第二用户标识所指示的用户不同，则将所述目标视频数据确定为搬运视频数据。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取访问所述目标视频数据的目标用户的用户画像信息，并基于所述目标视频数据的标识信息以及所述用户画像信息确定所述目标用户的用户特征信息；

获取第二预设视频库中各个候选视频数据的标识信息，并基于所述目标视频数据的标识信息以及所述各个候选视频数据的标识信息，确定所述第二预设视频库中各个候选视频数据的候选视频特征信息；

在所述第二预设视频库中查找与所述用户特征信息匹配的候选视频特征信息作为目标候选视频特征信息，并将所述目标候选视频特征信息对应的目标候选视频数据作为所述目标用户的推荐视频数据。

8.一种视频处理装置，其特征在于，包括：

特征提取单元，用于调用目标视频处理模型对目标视频数据进行特征提取，得到所述目标视频数据的视频特征；

处理单元，用于基于所述视频特征对所述目标视频数据进行分类处理，得到所述目标视频数据的分类信息；

所述处理单元，还用于基于所述视频特征对所述目标视频数据进行标签识别处理，得到所述目标视频数据的标签信息；

确定单元，用于根据所述分类信息和所述标签信息确定所述目标视频数据的标识信息。

9.一种视频处理设备，包括输入接口、输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-7任意一项所述的视频处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-7任意一项所述的视频处理方法。