CN111783712A

CN111783712A - 一种视频处理方法、装置、设备及介质

Info

Publication number: CN111783712A
Application number: CN202010658845.5A
Authority: CN
Inventors: 尚焱; 刘恩雨; 李松南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-16

Abstract

本发明实施例提供一种视频处理方法、装置、设备及计算机可读存储介质。其中方法包括：获取待处理的目标视频，从目标视频中抽取帧序列，调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合，该候选标签集合中包含目标视频在至少两个维度下的分类标签，对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合。通过对目标视频进行视频处理，能够挖掘视频中隐藏的，具有潜在价值的信息，使得设备能够更加精确的对视频中的对象、场景、内容等进行预测和识别，从而生成与视频相对应的视频标签，使得视频的视频标签更加全面、准确。

Description

一种视频处理方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，具体涉及一种视频处理方法、一种视频处理装置、一种视频处理设备及计算机可读存储介质。

背景技术

随着计算机技术的进步，视频平台中收录的视频数量越来越多。目前，视频平台通常采用信息流的交互模式来为用户推荐视频，这种交互模式依赖于视频标签来实现，这需要提前对视频进行处理以生成视频标签。实践发现，现有技术中对视频处理生成的视频标签难以全面概括视频的内容，准确度不高。

发明内容

本发明实施例提供一种视频处理方法、装置、设备及计算机可读存储介质，能够为目标视频生成全面、准确的视频标签。

一方面，本申请实施例提供了一种视频处理方法，该方法包括：

获取待处理的目标视频；

从该目标视频中抽取帧序列，该帧序列包括该目标视频的关键帧；

调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合，该候选标签集合中包含目标视频在至少两个维度下的分类标签；

对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合。

一方面，本申请提供了一种视频处理装置，该装置包括：

获取单元，用于获取待处理的目标视频；

处理单元，用于从该目标视频中抽取帧序列，该帧序列包括该目标视频的关键帧；调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合，该候选标签集合中包含目标视频在至少两个维度下的分类标签；对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合。

在一种实施方式中，维度的数量记为P，多维度分类模型包括P个分类子模型；第i个分类子模型用于在第i个维度下对帧序列进行分类处理；P为大于1的整数，i为大于1的整数且i≤P。

在一种实施方式中，处理单元还用于，从目标视频中抽取帧序列，具体用于：

根据P个分类子模型所需的帧密度确定抽帧频率；

按照抽帧频率对目标视频进行抽帧处理，得到帧序列。

在一种实施方式中，处理单元还用于，根据P个分类子模型所需的帧密度确定抽帧频率，具体用于：

获取P个分类子模型中各个分类子模型分别所需的帧密度；

从P个帧密度中选择最大帧密度确定为抽帧频率。

在一种实施方式中，处理单元还用于，调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合，具体用于：

分别调用P个分类子模型对帧序列进行分类处理，得到目标视频在P个维度下的分类标签；

将目标视频在P个维度下的分类标签添加至目标视频的候选标签集合中。

在一种实施方式中，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签之前，处理单元还用于：

检测第i个分类子模型所需的帧密度与帧序列的抽帧频率是否匹配；

若第i个分类子模型所需的帧密度与帧序列的抽帧频率匹配，则执行调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签的步骤；

若第i个分类子模型所需的帧密度与帧序列的抽帧频率不匹配，则按照第i个分类子模型所需的帧密度对帧序列进行抽帧处理，并调用第i个分类子模型对抽帧处理后的帧序列进行分类处理，得到目标视频在第i个维度下的分类标签。

在一种实施方式中，处理单元还用于，对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合，具体用于：

将候选标签集合中的各个分类标签进行重复语义映射，得到标准类别标签集合，该标准类别标签集合包括多个标准类别及每个标准类别下的多个分类标签；

统计同属于目标标准类别的分类标签的数量N，以及统计P个分类子模型的对帧序列进行分类处理的次数M；目标标准类别是标准类别标签集合中的任一个标准类别，N，M为正整数；

若N与M之间的比值大于或等于阈值，则将目标标准类别添加至目标视频的视频标签集合中。

在一种实施方式中，第i个维度为对象维度，第i个分类子模型包括识别网络；处理单元还用于，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签，具体用于：

调用第i个分类子模型的识别网络对帧序列进行识别，得到各个视频帧中包含的对象在至少两个粒度下的特征；

根据各个视频帧中包含的对象在至少两个粒度下的特征，确定目标视频在对象维度下的分类标签。

在一种实施方式中，第i个维度为场景维度，第i个分类子模型包括残差网络；处理单元还用于，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签，具体用于：

调用第i个分类子模型的残差网络对帧序列中各个视频帧进行加权处理，得到各个视频帧在至少两个粒度下的加权特征；

根据各个视频帧在至少两个粒度下的加权特征，确定目标视频在场景维度下的分类标签。

在一种实施方式中，帧序列被划分为至少一组，每组帧序列包括至少两帧视频帧，第i个维度为内容维度，第i个分类子模型包括时域卷积网络和空域卷积网络；处理单元还用于，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签，具体用于：

调用第i个分类子模型的空域卷积网络提取各组帧序列中的关键帧的特征；

调用第i个分类子模型的时域卷积网络提取各组帧序列中的数据光流的特征，数据光流是根据同一组视频帧序列中，相邻帧之间的帧间差异生成的；

根据各组帧序列中的关键帧的特征和数据光流的特征，确定目标视频在内容维度下的分类标签。

在一种实施方式中，处理单元还用于：

响应于目标用户的视频服务请求，显示视频服务页面；

获取目标用户的偏好标签集合，该偏好标签集合中包含于少一个偏好标签；

若目标视频的视频标签集合中存在与偏好标签集合中的偏好标签相匹配的分类标签，则在视频服务页面中推荐目标视频。

在一种实施方式中，视频服务页面中显示有推荐列表，该推荐列表中包括多个推荐的视频，目标视频为推荐列表中的任一个；处理单元还用于，在视频服务页面中推荐目标视频，具体用于：

按照推荐列表中各视频与目标用户的偏好相关度由高至低的顺序对推荐列表进行排序；

按照排序结果在视频服务页面中显示推荐列表中排列在推荐位置之前的视频；

其中，目标视频与目标用户的偏好相关度是根据视频标签集合与偏好标签集合中的偏好标签相匹配的分类标签的数量确定的。

一方面，本申请提供了一种视频处理设备，该设备包括：

处理器，适于执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述视频处理的方法。

一方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述视频处理的方法。

一方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理的方法。

本申请实施例中，从目标视频中抽取帧序列，该帧序列中包含了目标视频的关键帧，由于关键帧通常具有画面质量高、画面信息完整的特点，采用此帧序列作为视频处理的对象来生成目标视频的视频标签，这可以使得视频标签能够较为全面的反映目标视频的内容和场景信息，提升视频标签的准确度；另外采用多维度分类模型从至少两个维度对视频的帧序列进行分类处理，从而得到视频在至少两个维度下的分类标签，并通过对分类标签进行重复语义筛选得到视频的视频标签集合。通过多维度分类模型从至少两个维度对视频的内容进行语义分析并分类，进一步提升了视频标签的全面性和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a示出了本申请一个示例性实施例提供的一种视频处理系统的架构图；

图1b示出了本申请一个示例性实施例提供的一种视频处理流程图；

图1c示出了本申请一个示例性实施例提供的另一种视频处理流程图；

图2示出了本申请一个示例性实施例提供的一种视频处理方法的流程图；

图3示出了本申请一个示例性实施例提供的一种帧序列抽取流程图；

图4示出了本申请一个示例性实施例提供的另一种视频处理方法的流程图；

图5a示出了本申请一个示例性实施例提供的一种对象维度分类子模型；

图5b示出了本申请一个示例性实施例提供的一种场景维度分类子模型；

图5c示出了本申请一个示例性实施例提供的一种内容维度分类子模型；

图5d示出了本申请一个示例性实施例提供的一种标准类别标签集合示意图；

图5e示出了本申请一个示例性实施例在三个维度下对视频文件进行处理的流程图；

图6示出了本申请一个示例性实施例提供的另一种视频处理方法的流程图；

图7a示出了本申请一个示例性实施例提供的一种视频服务页面图；

图7b示出了本申请一个示例性实施例提供的另一种视频服务页面图；

图8示出了本申请一个示例性实施例提供的一种视频处理装置的结构示意图；

图9示出了本申请一个示例性实施例提供的一种视频处理设备的结构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行描述。

本申请实施例涉及人工智能(Artificial Intelligence，AI)、自然语言处理(Nature Language processing，NLP)及机器学习(Machine Learning，ML)，通过将AI、NLP和ML相结合能够挖掘视频中隐藏的，具有潜在价值的信息，使得设备能够更加精确的对视频中的对象、场景、内容等进行预测和识别，从而生成与视频相对应的视频标签。其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

NLP是计算机科学领域与AI领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。NLP技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

视频标签通常是指对视频内容的高层语义描述。如前背景技术的描述可知，经实践发现，现有技术中通常是从视频的主体内容这一单一维度来为视频添加标签，这使得视频标签存在不够全面，准确度不高的问题；另外，单一维度的分类方式很难做到主体与背景的权衡，这也进一步体现了现有视频标签的不足。基于此，本申请实施例提出了一种视频处理方案，该方案能够为目标视频生成较为全面、准确地视频标签。该方案具备如下特点：(1)从目标视频中抽取包含关键帧的帧序列作为处理对象，由于关键帧通常具有画面质量高、画面信息完整的特点，这使得视频标签能够较为全面的反映目标视频的内容和场景信息，提升视频标签的准确度；(2)从多维度(如对象维度、内容维度、场景维度)对帧序列进行分类处理，这使得视频标签能够全面概括目标视频的高层语义；(3)通过对分类标签进行重复语义筛选得到目标视频的视频标签集合，通过重复语义筛选使得最终得到的视频标签对目标视频的表达更为准确。

图1a示出了本申请一个示例性实施例提供的一种视频处理系统的架构图。如图1a所示，该视频处理系统可包括一个或多个终端设备101和一个或多个服务器102。图1a所示的视频处理系统中终端设备和服务器的数量仅为举例，例如，终端设备和服务器的数量可以为多个，本申请并不对终端设备和服务器的数量进行限定。

终端设备101是用户所使用的设备，终端设备101可以包括但不限于：智能手机(如Android手机、iOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(MobileInternetDevices，简称MID)等设备，本发明实施例不做限定。终端设备101中包含至少一个视频客户端，视频客户端可用于为用户提供视频服务，包括但不限于：视频播放服务、视频搜索服务、视频推荐服务等等。具体地，终端设备101中的视频客户端提供视频服务页面103，如图1a所示该视频服务页面103的一种示例性的界面图；视频客户端可通过视频服务页面103向用户提供视频服务。服务器102是指能够为终端设备101提供视频服务的技术支持的后台设备；在一种实施方式中，服务器102可以是终端设备101中的视频客户端的后台服务器。服务器102可以包括但不限于集群服务器。

图1a所示的视频处理系统中，为了能够更好地提供视频服务，终端设备101或服务器102需要预先执行视频处理流程，以为视频处理系统的视频库中的各视频生成视频标签。该视频处理流程主要包括以下步骤①～步骤③：①获取待处理的目标视频，该目标视频可以是视频处理系统的视频库中的任一个视频；并从目标视频中抽取帧序列(如抽取目标视频的关键帧序列)；②调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合(如调用多维度分类模型对帧序列进行分类处理，在第一维度下得到视频1的候选标签为“足球”，在第二维度下得到视频1的候选标签为“踢足球”，则候选标签集合中包括“足球”和“踢足球”)；③对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合(如对“足球”和“踢足球”进行重复语义筛选，由于“足球”包含“踢足球”，因此将“足球”添加至目标视频的视频标签集合中)。

在一种实施方式中，终端设备101中可以包括多维度分类模型，图1b示出了本申请一个示例性实施例提供的一种视频处理流程图。如图1b所示，上述步骤①～步骤③可以由终端设备101来执行。在此步骤①～步骤③的基础上，该视频处理流程还可包括以下步骤④～步骤⑥：④当终端设备101上的视频客户端被目标用户触发(例如目标用户打开视频客户端)时，终端设备101显示视频服务页面；⑤终端设备101获取目标用户的偏好标签集合(如根据目标用户的搜索关键词，或者目标用户的历史浏览记录等生成目标用户的偏好标签集合)；⑥终端设备101将目标视频的视频标签集合与目标用户的偏好标签集合进行匹配，如果视频标签集合中存在与偏好标签集合中的偏好标签相匹配的分类标签，则在视频服务页面中推荐该目标视频(如视频1的视频标签集合和偏好标签集合中均包括“足球”，则在视频服务页面中推荐视频1)。

在另一种实施方式中，服务器102中也可以包括多维度分类模型，图1c示出了本申请一个示例性实施例提供的另一种视频处理流程图。如图1c所示，上述的步骤①～步骤③也可以由服务器102来执行。在此步骤①～步骤③的基础上，该视频处理流程还可包括以下步骤⑦～步骤

⑦当终端设备101上的视频客户端被目标用户触发(例如目标用户打开视频客户端)时，终端设备101显示视频服务页面；⑧终端设备101获取目标用户的偏好标签集合(如根据目标用户的搜索关键词，或者目标用户的历史浏览记录等生成目标用户的偏好标签集合)；⑨终端设备101向服务器102请求获取视频，并将用户偏好集合一并发送至服务器102；⑩服务器102将目标视频的视频标签集合与目标用户的偏好标签集合进行匹配，如果视频标签集合中存在与偏好标签集合中的偏好标签相匹配的分类标签，服务器102将目标视频返回给终端设备101；

终端设备101则在视频服务页面中推荐该目标视频。

本申请实施例中，采用多维度分类模型从至少两个维度对视频的帧序列进行分类处理，从而得到视频在至少两个维度下的分类标签，并通过对分类标签进行重复语义筛选得到视频的视频标签集合。可见，调用多维度分类模型对视频进行分类处理，可以从不同的维度对视频的内容进行语义描述，使得视频的视频标签更加全面、准确。另外，通过检测用户的偏好标签集合与目标视频的视频标签集合，来判断目标视频是否为用户感兴趣的内容。可见，对于不同的用户，推荐的视频也是不同的，保证了每个用户看到的推荐视频都是与自己偏好相关的(即感兴趣的)内容，提升了用户体验。

图2示出了本申请一个示例性实施例提供的一种视频处理方法的流程图。该视频处理方法可以由本申请实施例提出的视频处理设备来执行，该视频处理设备可以是图1a所示的终端设备101或者服务器102；如图2所示，视频处理的方法包括但不限于如下步骤201～步骤204。下面对本申请实施例提供的一种视频处理方法进行详细介绍：

201、视频处理设备获取待处理的目标视频。

目标视频可以是网络中已发布的视频，如学习网站中的教育视频、娱乐网站中的搞笑视频、新闻网站中的新闻视频等；也可以是用户通过终端设备上传至服务器的视频(即尚未公开的视频)，如用户A通过终端设备拍摄视频1后上传至服务器中。

202、视频处理设备从目标视频中抽取帧序列，帧序列包括目标视频的关键帧。

帧序列是按照抽帧频率对目标视频的视频帧进行抽取后得到的。图3示出了本申请一个示例性实施例提供的一种帧序列抽取流程图。如图3所示，将目标视频的视频源输入解码器中，得到目标视频的视频帧数据流，视频帧数据流中包含了多个图像组(Group ofPicture，GOP)，GOP代表了两个I帧之间的距离，I帧是指每个图像组中的第一帧，即关键帧。每个GOP包含了一组连续的画面，当视频画面出现剧烈的变化的时候，GOP的值会变小从而保证视频画面质量。按照关键帧抽取规则(即抽帧频率)对视频帧数据流进行抽帧处理，得到视频帧序列。例如，假设视频1的视频帧数据流中包含了10个GOP，每个GOP的中包含了6帧图像，抽帧频率为每3帧图像抽一帧，则得到的视频1的帧序列中视频帧的数量为20，且帧序列中包含10个GOP中的10帧关键帧。

需要说明的是，由于关键帧的画面质量比较高，且视频画面存在剧烈的变化(即视频的内容发生了变化)的位置通常为关键帧所在的位置，因此在抽帧时抽取关键帧有利于提高多维度分类模型的分类准确率。

203、视频处理设备调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合，候选标签集合中包含目标视频在至少两个维度下的分类标签。

在一种实施方式中，视频处理设备调用多维度分类模型分别在不同维度下对帧序列中每一帧图像进行特征提取，并根据提取的特征生成对应的分类标签，然后将分类标签添加至目标视频的候选标签集合中。例如，视频1的内容为踢足球，视频处理设备调用多维度分类模型对视频1的帧序列进行分类处理，得到视频1在对象检测维度下的标签为“运动员”，“足球”，在场景维度下的标签为“足球场”，则视频1的候选标签集合中包括“运动员”，“足球”和“足球场”。

204、视频处理设备对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合。

在一种实施方式中，视频处理设备对候选标签集合中语义相同或存在包含关系、关联关系的标签进行筛选，并将筛选得到的标签添加至目标视频的视频标签集合中。例如，候选标签集合中包含“足球”和“踢足球”两个标签，由于“足球”包含了“踢足球”，因此将“足球”添加至目标视频的视频标签集合中。

图4示出了本申请一个示例性实施例提供的另一种视频处理方法的流程图。该视频处理方法可以由本申请实施例提出的视频处理设备来执行，该视频处理设备可以是图1a所示的终端设备101或者服务器102；如图4所示，视频处理的方法包括但不限于如下步骤401～步骤407。下面对本申请实施例提供的一种视频处理方法进行详细介绍：

401、视频处理设备获取待处理的目标视频。

步骤401的具体实施方式可参考图2中步骤201的实施方式在此不再赘述。

402、视频处理设备根据第i个分类子模型所需的帧密度确定抽帧频率。

帧密度用于衡量帧序列中视频帧的数量，可以理解的是，帧序列中视频帧的数量越大，则帧密度越大；相应地，帧序列中视频帧的数量越小，则帧密度越小。抽帧频率是通过目标视频的视频帧数据流中视频帧的数量与第i个分类子模型所需的帧密度计算得到的。维度的数量为P，即多维度分类模型包括P个分类子模型，第i个分类子模型用于在第i个维度下对帧序列进行分类处理，P为大于1的整数，i为大于1的整数且i≤P。

在一种实施方式中，各个分类子模型在处理帧序列时，所需的帧密度不相同，第i个分类子模型是指P个分类子模型中，所需帧密度最大的子模型。例如，假设维度的数量为3，即多维度分类模型包括3个分类子模型，第1个分类子模型所需的帧密度为3，即帧序列中视频帧的数量为3；第2个分类子模型所需的帧密度为6；第3个分类子模型所需的帧密度为36；目标视频的视频帧数据流中视频帧的数量为108。则视频处理设备根据第3个分类子模型所需的帧密度确定抽帧频率为每3帧抽1帧。

在另一种实施方式中，各个分类子模型在处理帧序列时，所需的帧密度相同，则根据第i个分类子模型所需的帧密度确定抽帧频率。此时，第i个分类子模型可以是指P个分类子模型中的任一子模型。

403、视频处理设备按照抽帧频率从目标视频中抽取帧序列，帧序列包括目标视频的关键帧。

步骤403的具体实施方式可参考图2中步骤202的实施方式在此不再赘述。

404、视频处理设备检测第i个分类子模型所需的帧密度与帧序列的抽帧频率是否匹配。

在一种实施方式中，第i个分类子模型可以是指P个分类子模型中的任一子模型，若第i个分类子模型所需的帧密度与帧序列的抽帧频率匹配，即按照抽帧频率抽帧得到的帧序列的帧密度与第i个分类子模型所需的帧密度相同，则继续执行步骤405。若第i个分类子模型所需的帧密度与帧序列的抽帧频率不匹配，即按照抽帧频率抽帧得到的帧序列的帧密度与第i个分类子模型所需的帧密度不相同，则按照第i个分类子模型所需的帧密度对帧序列进行抽帧处理，得到处理后的帧序列，例如，假设第2个分类子模型所需的帧密度为6，按照抽帧频率抽帧得到的帧序列的帧密度为18，则按照第2个分类子模型所需的帧密度为6对帧序列进行抽帧处理(每3帧抽1帧)，得到处理后的帧序列，此时，帧序列的帧密度为6。

405、视频处理设备分别调用P个分类子模型对帧序列进行分类处理，得到目标视频在P个维度下的分类标签。

在一种实施方式中，第i个维度为对象维度，第i个分类子模型包括识别网络，识别网络用于提取并融合视频帧在至少两个粒度下的特征。第i个分类子模型根据识别网络输出的每一帧视频帧中包含的对象在至少两个粒度下的特征，生成对应的分类标签。图5a示出了本申请一个示例性实施例提供的一种对象维度分类子模型。如图5a所示，该对象维度分类子模型是基于YOLOv3网络框架构造的，对象维度分类子模型中包括了残差块、上采样层，检测层和递进层，在该对象维度分类子模型中，识别网络融合了视频帧在3个粒度下的特征。需要说明的是，对象维度分类子模型还可以是其他基于多粒度预测与多粒度融合的网络模型，例如快速卷积神经网络模型(FastR-Convolutional Neural Networks,FastR-CNN)、单阶段检测器(Single Shot MultiBox Detector，SSD)等。

在另一种实施方式中，第i个维度为场景维度，第i个分类子模型包括残差网络，残差网络用于提取并融合视频帧在至少两个粒度下的特征。第i个分类子模型根据残差网络输出的每一帧视频帧中包含的场景在至少两个粒度下的特征，生成对应的分类标签。图5b示出了本申请一个示例性实施例提供的一种场景维度分类子模型。如图5b所示，该场景维度分类子模型是基于残差网络34(Residual Network34，ResNet34)构造的，场景维度分类子模型中包含了34层卷积层，其中，3x3表示卷积层中的滤波器，64～256表示视频帧在当前卷积层中被划分的粒度大小。需要说明的是，对象维度分类子模型还可以是基于其他残差网络构造的，例如ResNet18，ResNet101等。

在又一种实施方式中，帧序列被划分为至少一个GOP，每个GOP包括至少两帧视频帧，第i个维度为内容维度，第i个分类子模型包括时域卷积网络和空域卷积网络，空域卷积网络用于提取各个GOP中关键帧的特征，时域卷积网络用于提取各个GOP中数据光流的特征，其中，数据光流是根据同一GOP中相邻视频帧之间的帧间差异生成的。第i个分类子模型根据时域卷积网络和空域卷积网络输出的每一帧视频帧中包含的内容在时域和空域下的特征，生成对应的分类标签。图5c示出了本申请一个示例性实施例提供的一种内容维度分类子模型。如图5c所示，该内容维度分类子模型是基于时间敏感型网络(timesensitivenetwork，TSN)构造的，每个GOP中包含3帧视频帧，分别在通过时域卷积网络和空域卷积网络对每个GOP进行特征提取与分类，然后将两个维度下的结果进行合并送入Softmax层预测每个GOP属于某个类别的概率，最后通过加权平均的方式对每个GOP的预测值进行融合最终得到目标视频在每个类别上的概率值。需要说明的是，内容维度分类子模型还可以是其他基于时域卷积网络和空域卷积网络的网络模型，例如内容维度分类子模型还可以是基于时序网络(Temporal Relation Network，TRN)等构造的。

可以理解的是，多维度分类模型可以包括上述3个维度分类子模型中的一个或多个，也可以包括其他维度的分类子模型。

406、视频处理设备将P个维度下的分类标签添加至目标视频的候选标签集合中。

例如，假设第1个维度下分类标签为“足球”和“运动员”，第2个维度下分类标签为“户外运动”，第3个维度下分类标签为“足球场”，则目标视频的候选标签集合中包括“足球”，“运动员”，“户外运动”和“足球场”。

407、视频处理设备对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合。

在一种实施方式中，视频处理设备对候选标签集合中具有重复(相同)语义的标签进行映射，得到标准类别标签，并将标准类别标签添加至标准类别标签集合中，例如，候选标签集合中包含“流行乐”和“民族乐”两个标签，由于“流行乐”和“民族乐”都属于“音乐”，因此将“音乐”作为标准类别标签添加至标准类别标签集合中。图5d示出了本申请一个示例性实施例提供的一种标准类别标签集合示意图。如图5d所示，标准类别标签集合包括多个标准类别，每个标准类别下的包括多个分类标签。

统计同属于目标标准类别的分类标签的数量N，以及统计P个分类子模型对帧序列进行分类处理的次数M，计算N与M的比值，若N与M之间的比值大于或等于阈值，则将目标标准类别添加至目标视频的视频标签集合中，其中，目标标准类别是标准类别标签集合中的任一个标准类别。例如，假设视频1的标准类别标签集合中同属于“音乐”类别的分类标签的数量为87，多维度分类模型包括3个分类子模型，第1个分类子模型和第2个分类子模型对帧序列进行分类处理的次数均为40，第3个分类子模型对帧序列进行分类处理的次数为20，阈值为0.8，则N的值为87，M＝40+40+20＝100，N与M的比值为0.87>0.8。因此，将“音乐”添加至视频1的视频标签集合中(即将“音乐”确定为视频1的一个视频标签)。相应地，若N与M之间的比值小于阈值，则舍弃目标标准类别。

图5e示出了本申请一个示例性实施例在三个维度下对视频文件进行处理的流程图。如图5e所示，在获取视频文件后，首先根据对象维度分类子模型、场景维度分类子模型和内容维度分类子模型所需的帧密度确定视频抽帧频率(即抽帧策略)，假设视频文件的视频帧数据流中视频帧的数量为150，对象维度分类子模型和场景维度分类子模型所需的视频帧序列为视频文件的关键帧序列(帧密度为10)，内容维度分类子模型所需的帧密度为30，则确定抽帧频率为每5帧抽1帧。根据抽帧频率对视频文件的视频帧数据流进行抽帧处理得到视频帧序列，得到的帧序列的密度为30。然后根据各个分类子模型所需的帧密度对帧序列进行适配，由于对象维度分类子模型和场景维度分类子模型所需的帧密度为10，因此需要对帧序列进行抽帧处理(每3帧抽1帧)得到适配后的帧序列，调用对象维度分类子模型和场景维度分类子模型对适配后的帧序列进行分类处理。内容维度分类子模型所需的帧密度为30与帧序列的密度相同，因此直接调用内容维度分类子模型对帧序列进行分类处理。在3个分类子模型对对应的帧序列分类处理完成后，可以得到视频文件的候选标签集合，对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合(即视频多标签描述)。

图6示出了本申请一个示例性实施例提供的另一种视频处理方法的流程图。该视频处理方法可以由本申请实施例提出的视频处理设备来执行，该视频处理设备可以是图1a所示的终端设备101；如图6所示，视频处理的方法包括但不限于如下步骤601～步骤603。下面对本申请实施例提供的一种视频处理方法进行详细介绍：

601、响应于目标用户的视频服务请求，视频处理设备显示视频服务页面。

在一种实施方式中，当视频处理设备检测到目标用户打开视频客户端时，视频处理设备显示视频服务页面。

602、视频处理设备获取目标用户的偏好标签集合，偏好标签集合中包含于少一个偏好标签。

目标用户的偏好标签集合可以是根据用户输入的关键字得到的，也可以是基于目标用户的历史浏览记录生成的，偏好标签集合中包括一个或多个偏好标签；例如，用户A打开视频推荐软件，视频处理设备获取到用户A近一周浏览的视频主要是音乐和宠物相关的视频，则偏好标签集合中包含的偏好标签为“音乐”和“宠物”，然后检测到用户A在搜索栏中输入关键字“足球”，此时，偏好标签集合中包含的偏好标签为“足球”。

603、若目标视频的视频标签集合中存在与偏好标签集合中的偏好标签相匹配的分类标签，则视频处理设备在视频服务页面中推荐目标视频。

在一种实施方式中，视频处理设备获取将目标视频的视频标签集合中的分类标签与获取的偏好标签集合中的偏好标签进行比较，若目标视频的视频标签集合中存在与偏好标签集合中的偏好标签相匹配的分类标签，则视频处理设备在视频服务页面中推荐目标视频。其中，目标视频的视频标签集合是通过上述图2或图4中的视频处理方法得到的。例如，视频1的视频标签集合中包括“音乐”和“演唱会”，偏好标签集合中包括“音乐”和“宠物”，由于视频标签集合和偏好标签集合中均包括“音乐”标签，因此视频处理设备在服务页面中推荐视频1。图7a示出了本申请一个示例性实施例提供的一种视频服务页面图。

进一步地，视频处理设备通过在服务页面中显示推荐列表的方式向目标用户推荐视频，推荐列表中包括多个推荐视频，推荐列表中的推荐视频是按照与目标用户的偏好相关度由高至低的顺序排列的。在显示时，视频处理设备按照排序结果将推荐列表中排列在推荐位置之前的推荐视频显示在视频服务页面中。其中，推荐视频与目标用户的偏好相关度是根据视频标签集合与偏好标签集合中的偏好标签相匹配的分类标签的数量确定的。视频标签集合与偏好标签集合中的偏好标签相匹配的分类标签的数量越多，则推荐视频与目标用户的偏好相关度越高。例如，假设视频处理设备获取的偏好标签集合和推荐视频1～推荐视频3的视频标签集合如表1所示：

表1

偏好标签集合	“足球”，“搞笑”，“户外”，“宠物”
		推荐视频1的视频标签集合	“足球”，“户外”，“宠物”
推荐视频2的视频标签集合	“宠物”，“训练”
		推荐视频3的视频标签集合	“足球”，“户外”

由表1可知，推荐视频1的视频标签集合与偏好标签集合中的偏好标签相匹配的分类标签的数量为3，推荐视频2的视频标签集合与偏好标签集合中的偏好标签相匹配的分类标签的数量为1，推荐视频3的视频标签集合与偏好标签集合中的偏好标签相匹配的分类标签的数量为2，因此，按照与目标用户的偏好相关度由高至低的顺序对推荐视频1～推荐视频进行排序的结果为：推荐视频1→推荐视频3→推荐视频2。若推荐位置为2(即推荐推荐列表中排在前两位的视频)，则视频处理设备在服务页面中显示推荐视频1和推荐视频3。图7b示出了本申请一个示例性实施例提供的另一种视频服务页面图。

在另一种实施方式中，视频处理设备向服务器发送推荐视频获取请求，推荐视频获取请求中包含目标用户的偏好标签集合，服务器根据目标用户的偏好标签集合和目标视频的视频标签集合确定推荐视频，并发送给视频处理设备。视频处理设备在获取推荐视频后，在服务页面中显示推荐视频。服务器根据目标用户的偏好标签集合和目标视频的视频标签集合确定推荐目标视频的具体实施方式可参考上一实施方式，在此不再赘述。

本申请实施例中，通过检测用户的偏好标签集合与目标视频的视频标签集合，来判断目标视频是否为用户感兴趣的内容。可见，对于不同的用户，推荐的视频也是不同的，保证了每个用户看到的推荐视频都是与自己偏好相关的(即感兴趣的)内容，提升了用户体验。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图8，图8示出了本申请一个示例性实施例提供的一种视频处理装置的结构示意图，该视频处理装置可以搭载在上述方法实施例中的视频处理设备上，该视频处理装置可以是视频处理设备中的一个应用程序(例如：视频应用程序)；图8所示的视频处理装置可以用于执行上述图2，图4和图6所描述的方法实施例中的部分或全部功能。其中，各个单元的详细描述如下：

获取单元801，用于获取待处理的目标视频；

处理单元802，用于从目标视频中抽取帧序列，帧序列包括目标视频的关键帧；

调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合，候选标签集合中包含目标视频在至少两个维度下的分类标签；

在一种实施方式中，处理单元802还用于，从目标视频中抽取帧序列，具体用于：

根据P个分类子模型所需的帧密度确定抽帧频率；

按照抽帧频率对目标视频进行抽帧处理，得到帧序列。

在一种实施方式中，处理单元802还用于，根据P个分类子模型所需的帧密度确定抽帧频率，具体用于：

获取P个分类子模型中各个分类子模型分别所需的帧密度；

从P个帧密度中选择最大帧密度确定为抽帧频率。

在一种实施方式中，处理单元802还用于，调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合，具体用于：

在一种实施方式中，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签之前，处理单元802还用于：

在一种实施方式中，处理单元802还用于，对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合，具体用于：

将候选标签集合中的各个分类标签进行重复语义映射，得到标准类别标签集合，标准类别标签集合包括多个标准类别及每个标准类别下的多个分类标签；

在一种实施方式中，第i个维度为对象维度，第i个分类子模型包括识别网络；处理单元802还用于，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签，具体用于：

在一种实施方式中，第i个维度为场景维度，第i个分类子模型包括残差网络；处理单元802还用于，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签，具体用于：

在一种实施方式中，帧序列被划分为至少一组，每组帧序列包括至少两帧视频帧，第i个维度为内容维度，第i个分类子模型包括时域卷积网络和空域卷积网络；处理单元802还用于，调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签，具体用于：

在一种实施方式中，处理单元802还用于：

响应于目标用户的视频服务请求，显示视频服务页面；

获取目标用户的偏好标签集合，偏好标签集合中包含于少一个偏好标签；

在一种实施方式中，视频服务页面中显示有推荐列表，推荐列表中包括多个推荐的视频，目标视频为推荐列表中的任一个；处理单元802还用于，在视频服务页面中推荐目标视频，具体用于：

根据本申请的一个实施例，图2，图4和图6所示的视频处理方法所涉及的部分步骤可由图8所示的视频处理装置中的各个单元来执行。例如，图2中所示的步骤201可由图8所示的获取单元801执行，步骤202-步骤204可由图8所示的处理单元802执行。图4中所示的步骤401可由图8所示的获取单元801执行，步骤402-步骤407可由图8所示的处理单元802执行。图6中所示的步骤602可由图8所示的获取单元801执行，步骤601和步骤603可由图8所示的处理单元802执行。图8所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，视频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2，图4和图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的视频处理装置，以及来实现本申请实施例的视频处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算装置中，并在其中运行。

基于同一发明构思，本申请实施例中提供的视频处理装置解决问题的原理与有益效果与本申请方法实施例中视频处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

请参阅图9，图9示出了本申请一个示例性实施例提供的一种视频处理设备的结构示意图，该视频处理设备可以是图1a所示系统中的终端设备101或服务器102；该视频处理设备至少包括处理器901、通信接口902和存储器903。其中，处理器901、通信接口902和存储器903可通过总线或其他方式连接，本申请实施例以通过总线连接为例。其中，处理器901(或称中央处理器(Central Processing Unit，CPU))是视频处理设备的计算核心以及控制核心，其可以解析终端设备内的各类指令以及处理终端设备的各类数据，例如：CPU可以用于解析用户向终端设备所发送的开关机指令，并控制终端设备进行开关机操作；再如：CPU可以在终端设备内部结构之间传输各类交互数据，等等。通信接口902可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)，受处理器901的控制可以用于收发数据；通信接口902还可以用于终端设备内部数据的传输以及交互。存储器903(Memory)是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器903既可以包括终端设备的内置存储器，当然也可以包括终端设备所支持的扩展存储器。存储器903提供存储空间，该存储空间存储了终端设备的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

在一个实施例中，该视频处理设备可以是指终端设备或者服务器，例如图1a所示的终端设备101或者服务器102。在此情况下，处理器901通过运行存储器903中的可执行程序代码，执行如下操作：

通过通信接口902获取待处理的目标视频；

从目标视频中抽取帧序列，帧序列包括目标视频的关键帧；

作为一种可选的实施方式，维度的数量记为P，多维度分类模型包括P个分类子模型；第i个分类子模型用于在第i个维度下对帧序列进行分类处理；P为大于1的整数，i为大于1的整数且i≤P。

作为一种可选的实施方式，处理器901从目标视频中抽取帧序列的具体实施方式为：

根据P个分类子模型所需的帧密度确定抽帧频率；

按照抽帧频率对目标视频进行抽帧处理，得到帧序列。

作为一种可选的实施方式，处理器901根据P个分类子模型所需的帧密度确定抽帧频率的具体实施方式为：

获取P个分类子模型中各个分类子模型分别所需的帧密度；

从P个帧密度中选择最大帧密度确定为抽帧频率。

作为一种可选的实施方式，处理器901调用多维度分类模型对帧序列进行分类处理，得到目标视频的候选标签集合的具体实施方式为：

作为一种可选的实施方式，在调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签之前，处理器901通过运行存储器903中的可执行程序代码，还执行如下操作：

作为一种可选的实施方式，处理器901对候选标签集合进行重复语义筛选，得到目标视频的视频标签集合的具体实施方式为：

作为一种可选的实施方式，第i个维度为对象维度，第i个分类子模型包括识别网络；处理器901调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签的具体实施方式为：

作为一种可选的实施方式，第i个维度为场景维度，第i个分类子模型包括残差网络；处理器901调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签的具体实施方式为：

作为一种可选的实施方式，帧序列被划分为至少一组，每组帧序列包括至少两帧视频帧，第i个维度为内容维度，第i个分类子模型包括时域卷积网络和空域卷积网络；处理器901调用第i个分类子模型对帧序列进行分类处理，得到目标视频在第i个维度下的分类标签的具体实施方式为：

作为一种可选的实施方式，处理器901通过运行存储器903中的可执行程序代码，还执行如下操作：

响应于目标用户的视频服务请求，显示视频服务页面；

作为一种可选的实施方式，视频服务页面中显示有推荐列表，推荐列表中包括多个推荐的视频，目标视频为推荐列表中的任一个；处理器901在视频服务页面中推荐目标视频的具体实施方式为：

基于同一发明构思，本申请实施例中提供的视频处理设备解决问题的原理与有益效果与本申请方法实施例中视频处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行上述方法实施例的视频处理方法。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理的方法。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取待处理的目标视频；

从所述目标视频中抽取帧序列，所述帧序列包括所述目标视频的关键帧；

调用多维度分类模型对所述帧序列进行分类处理，得到所述目标视频的候选标签集合，所述候选标签集合中包含所述目标视频在至少两个维度下的分类标签；

对所述候选标签集合进行重复语义筛选，得到所述目标视频的视频标签集合。

2.如权利要求1所述的方法，其特征在于，所述维度的数量记为P，所述多维度分类模型包括P个分类子模型；第i个分类子模型用于在第i个维度下对所述帧序列进行分类处理；P为大于1的整数，i为大于1的整数且i≤P。

3.如权利要求2所述的方法，其特征在于，所述从所述目标视频中抽取帧序列，包括：

根据所述P个分类子模型所需的帧密度确定抽帧频率；

按照所述抽帧频率对所述目标视频进行抽帧处理，得到所述帧序列。

4.如权利要求3所述的方法，其特征在于，所述根据所述P个分类子模型所需的帧密度确定抽帧频率，包括：

获取所述P个分类子模型中各个分类子模型分别所需的帧密度；

从所述P个帧密度中选择最大帧密度确定为抽帧频率。

5.如权利要求2所述的方法，其特征在于，所述调用多维度分类模型对所述帧序列进行分类处理，得到所述目标视频的候选标签集合，包括：

分别调用P个分类子模型对所述帧序列进行分类处理，得到所述目标视频在P个维度下的分类标签；

将所述目标视频在P个维度下的分类标签添加至所述目标视频的候选标签集合中。

6.如权利要求5所述的方法，其特征在于，调用第i个分类子模型对所述帧序列进行分类处理，得到所述目标视频在第i个维度下的分类标签之前，所述方法还包括：

检测所述第i个分类子模型所需的帧密度与所述帧序列的抽帧频率是否匹配；

若所述第i个分类子模型所需的帧密度与所述帧序列的抽帧频率匹配，则执行调用所述第i个分类子模型对所述帧序列进行分类处理，得到所述目标视频在第i个维度下的分类标签的步骤；

若所述第i个分类子模型所需的帧密度与所述帧序列的抽帧频率不匹配，则按照所述第i个分类子模型所需的帧密度对所述帧序列进行抽帧处理，并调用所述第i个分类子模型对抽帧处理后的帧序列进行分类处理，得到所述目标视频在第i个维度下的分类标签。

7.如权利要求2所述的方法，其特征在于，所述对所述候选标签集合进行重复语义筛选，得到所述目标视频的视频标签集合，包括：

将所述候选标签集合中的各个分类标签进行重复语义映射，得到标准类别标签集合，所述标准类别标签集合包括多个标准类别及每个标准类别下的多个分类标签；

统计同属于目标标准类别的分类标签的数量N，以及统计所述P个分类子模型的对所述帧序列进行分类处理的次数M；所述目标标准类别是所述标准类别标签集合中的任一个标准类别，N，M为正整数；

若N与M之间的比值大于或等于阈值，则将所述目标标准类别添加至所述目标视频的视频标签集合中。

8.如权利要求5或6所述的方法，其特征在于，所述第i个维度为对象维度，所述第i个分类子模型包括识别网络；所述调用所述第i个分类子模型对所述帧序列进行分类处理，得到所述目标视频在第i个维度下的分类标签，包括：

调用所述第i个分类子模型的识别网络对所述帧序列进行识别，得到各个视频帧中包含的对象在至少两个粒度下的特征；

根据各个视频帧中包含的对象在至少两个粒度下的特征，确定所述目标视频在对象维度下的分类标签。

9.如权利要求5或6所述的方法，其特征在于，所述第i个维度为场景维度，所述第i个分类子模型包括残差网络；所述调用所述第i个分类子模型对所述帧序列进行分类处理，得到所述目标视频在第i个维度下的分类标签，包括：

调用所述第i个分类子模型的残差网络对所述帧序列中各个视频帧进行加权处理，得到各个视频帧在至少两个粒度下的加权特征；

根据各个视频帧在至少两个粒度下的加权特征，确定所述目标视频在场景维度下的分类标签。

10.如权利要求5或6所述的方法，其特征在于，所述帧序列被划分为至少一组，每组帧序列包括至少两帧视频帧，所述第i个维度为内容维度，所述第i个分类子模型包括时域卷积网络和空域卷积网络；所述调用所述第i个分类子模型对所述帧序列进行分类处理，得到所述目标视频在第i个维度下的分类标签，包括：

调用所述第i个分类子模型的空域卷积网络提取各组帧序列中的关键帧的特征；

调用所述第i个分类子模型的时域卷积网络提取各组帧序列中的数据光流的特征，所述数据光流是根据同一组视频帧序列中，相邻帧之间的帧间差异生成的；

根据各组帧序列中的关键帧的特征和数据光流的特征，确定所述目标视频在内容维度下的分类标签。

11.如权利要求1所述的方法，其特征在于，所述方法还包括：

响应于目标用户的视频服务请求，显示视频服务页面；

获取所述目标用户的偏好标签集合，所述偏好标签集合中包含于少一个偏好标签；

若所述目标视频的视频标签集合中存在与所述偏好标签集合中的偏好标签相匹配的分类标签，则在所述视频服务页面中推荐所述目标视频。

12.如权利要求11所述的方法，其特征在于，所述视频服务页面中显示有推荐列表，所述推荐列表中包括多个推荐的视频，所述目标视频为所述推荐列表中的任一个；

所述在所述视频服务页面中推荐所述目标视频，包括：

按照所述推荐列表中各视频与所述目标用户的偏好相关度由高至低的顺序对所述推荐列表进行排序；

按照排序结果在所述视频服务页面中显示所述推荐列表中排列在推荐位置之前的视频；

其中，目标视频与目标用户的偏好相关度是根据所述视频标签集合与所述偏好标签集合中的偏好标签相匹配的分类标签的数量确定的。

13.一种视频处理装置，其特征在于，包括：

获取单元，用于获取待处理的目标视频；

处理单元，用于从所述目标视频中抽取帧序列，所述帧序列包括所述目标视频的关键帧；调用多维度分类模型对所述帧序列进行分类处理，得到所述目标视频的候选标签集合，所述候选标签集合中包含所述目标视频在至少两个维度下的分类标签；对所述候选标签集合进行重复语义筛选，得到所述目标视频的视频标签集合。

14.一种视频处理设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-12任一项所述的视频处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1-12任一项所述的视频处理方法。