CN110263217A

CN110263217A - 一种视频片段标签识别方法及装置

Info

Publication number: CN110263217A
Application number: CN201910579129.5A
Authority: CN
Inventors: 晋瑞锦; 张云桃
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-20

Abstract

本申请提供一种视频片段标签识别方法，包括：获取目标视频片段；提取目标视频片段的图像特征和音频特征；利用预先完成训练的多标签分类模型分析目标视频片段的图像特征和音频特征，得到目标视频片段的标签分类结果，目标视频片段的标签分类结果包括目标视频片段在至少两个维度的类别标签。基于本申请提供的方案，能够全面的识别目标视频片段的标签，而且，能够提高标签识别结果的准确度。

Description

一种视频片段标签识别方法及装置

技术领域

本申请属于视频识别技术领域，尤其涉及一种视频片段标签识别方法及装置。

背景技术

随着网络技术和多媒体技术的迅速发展，大量的视频信息涌现在用户面前。这些视频信息丰富了用户的生活，但是，视频信息的丰富性是以无结构性为代价。

当需要从大量视频中找到期望的视频片段时，视频片段的标签识别技术就越发重要。而且，视频片段的标签对于提升视频片段的推荐分发效果，自动精准广告投放，建立视频片段的内容检索能力，生成特定内容的视频集锦等方面，都具有重要作用。

但是，申请人发现：目前的视频片段标签识别技术普遍存在识别结果的准确度较低的问题，而且识别出的标签也较为单一。

发明内容

在鉴于此，本申请实施例提供一种视频片段标签识别方法及装置，以实现对视频片段进行更加准确、全面的标签识别的目的。

为实现上述目的，本申请实施例提供如下技术方案：

本申请提供一种视频片段标签识别方法，所述方法包括：

获取目标视频片段；

提取所述目标视频片段的图像特征和音频特征；

利用预先完成训练的多标签分类模型分析所述目标视频片段的图像特征和音频特征，得到所述目标视频片段的标签分类结果，所述目标视频片段的标签分类结果包括所述目标视频片段在至少两个维度的类别标签；其中，用于训练所述多标签分类模型的每个第一视频片段样本包含在至少两个维度标注的类别标签。

可选的，在上述方法中，所述多标签分类模型的训练过程，包括：

获取多个第一视频片段样本；

分别提取每个所述第一视频片段样本的图像特征和音频特征；

利用预先构建的多标签分类模型分析所述多个第一视频片段样本的图像图中和音频特征，得到每个第一视频片段样本的标签分类结果；

依据所述多个第一视频片段样本的标签分类结果和标注的类别标签，调整所述多标签分类模型的模型参数，直至调整后的多标签分类模型满足预设收敛条件。

可选的，在上述方法中，所述获取目标视频片段，包括：

获得目标视频；

将所述目标视频拆分成多个视频片段；

分别确定所述多个视频片段是否为精彩视频片段；

在精彩视频片段中获取任意一个精彩视频片段确定为所述目标视频片段。

可选的，在上述方法中，确定任意一个视频片段是否为精彩视频片段，包括：

提取所述视频片段的图像特征和音频特征；

利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分类结果，所述精彩度分类结果用于指示所述视频片段是否为精彩视频片段。

可选的，在上述方法中，所述精彩度分析模型的训练过程，包括：

获取多个第二视频片段样本，每个所述第二视频片段样本包含标注的精彩度信息；

分别提取每个所述第二视频片段样本的图像特征和音频特征；

利用预先构建的精彩度分类模型分析所述多个第二视频片段样本的图像图中和音频特征，得到每个第二视频片段样本的精彩度分类结果；

依据所述多个第二视频片段样本的精彩度分类结果和标注的精彩度信息，调整所述精彩度分类模型的模型参数，直至调整后的精彩度分类模型满足预设收敛条件。

可选的，在上述方法中，利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分类结果，包括：

利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段属于两个类别中每个类别的置信度；

选取置信度最大的分类结果，确定为所述视频片段的精彩度分类结果。

利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分数；

当所述精彩度分数大于或等于预设分数值时，确定所述视频片段是精彩片段；

当所述精彩度分数小于所述预设分数值时，确定所述视频片段不是精彩片段。

本申请还提供一种视频片段标签识别装置，所述装置包括：

目标视频片段获取单元，用于获取目标视频片段；

特征提取单元，用于提取所述目标视频片段的图像特征和音频特征；

标签识别单元，用于利用预先完成训练的多标签分类模型分析所述目标视频片段的图像特征和音频特征，得到所述目标视频片段的标签分类结果，所述目标视频片段的标签分类结果包括所述目标视频片段在至少两个维度的类别标签；其中，用于训练所述多标签分类模型的每个第一视频片段样本包含在至少两个维度标注的类别标签。

可选的，在上述装置的基础上，还包括多标签分类模型训练单元，具体用于：

获取多个第一视频片段样本；分别提取每个所述第一视频片段样本的图像特征和音频特征；利用预先构建的多标签分类模型分析所述多个第一视频片段样本的图像图中和音频特征，得到每个第一视频片段样本的标签分类结果；依据所述多个第一视频片段样本的标签分类结果和标注的类别标签，调整所述多标签分类模型的模型参数，直至调整后的多标签分类模型满足预设收敛条件。

可选的，在上述装置中，目标视频片段获取单元包括：

目标视频获取子单元，用于获得目标视频；

视频拆分子单元，用于将所述目标视频拆分成多个视频片段；

精彩视频片段识别子单元，用于分别确定所述多个视频片段是否为精彩视频片段；

目标视频片段确定子单元，用于在精彩视频片段中获取任意一个精彩视频片段确定为所述目标视频片段。

可选的，在上述装置中，所述精彩视频片段识别子单元确定视频片段是否为精彩视频片段，具体为：

提取所述视频片段的图像特征和音频特征；利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分类结果，所述精彩度分类结果用于指示所述视频片段是否为精彩视频片段。

可选的，在上述装置的基础上，还包括精彩度分类模型训练单元，具体用于：

获取多个第二视频片段样本，每个所述第二视频片段样本包含标注的精彩度信息；分别提取每个所述第二视频片段样本的图像特征和音频特征；利用预先构建的精彩度分类模型分析所述多个第二视频片段样本的图像图中和音频特征，得到每个第二视频片段样本的精彩度分类结果；依据所述多个第二视频片段样本的精彩度分类结果和标注的精彩度信息，调整所述精彩度分类模型的模型参数，直至调整后的精彩度分类模型满足预设收敛条件。

与现有技术相比，本申请包括以下优点：

本申请提供的视频片段标签识别方法，获取待识别的目标视频片段，并提取目标视频片段的图像特征和音频特征，之后通过多标签分类模型对目标视频片段的图像特征和音频特征进行分析，得到目标视频片段在至少两个维度的类别标签，从而更加全面的识别目标视频片段的标签。而且，本申请中将视频片段的图像特征和音频特征作为识别依据，能够提高标签识别结果的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种视频片段标签识别方法的流程示意图；

图2为本申请公开的一种多标签分类模型的训练方法的流程示意图；

图3为本申请公开的一种获取目标视频片段的方法的流程示意图；

图4为本申请公开的一种确定视频片段是否为精彩视频片段的方法的流程示意图；

图5为本申请公开的一种精彩度分类模型的训练方法的流程示意图；

图6为本申请公开的一种视频片段标签识别装置的结构示意图；

图7为本申请公开的一种目标视频片段获取单元的结构示意图。

具体实施方式

申请人发现：目前的视频片段标签识别技术将视频片段中的图像特征作为标签识别的依据，这导致标签识别结果的准确度较低。而且，目前的视频片段标签识别技术仅在某个维度确定视频片段的标签，这导致针对视频片段的标签识别结果较为单一。例如，在行为维度识别唱歌、跳舞、奔跑等动作标签。例如，在情感维度识别大笑、哭泣、惊讶等情绪标签。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请公开一种视频标签识别方法及装置，利用多标签分类模型对视频片段的图像特征和音频特征进行分析，得到视频片段在至少两个维度的类别标签，能够更加全面的对视频片段进行标签识别，而且将视频片段的图像特征和音频特征作为识别依据，能够提高标签识别结果的准确度。

如图1所示，为本申请公开的一种视频标签识别方法的流程示意图。该视频标签识别方法包括：

步骤S101：获取目标视频片段。

目标视频片段是待识别的视频片段，是视频的一部分。实施中，可以采用多种方式从视频中获取目标视频片段。

步骤S102：提取目标视频片段的图像特征和音频特征。

实施中，对目标视频片段进行图像解码和音频解码，得到目标视频片段的图像信息和音频信息。在目标视频片段的图像信息中提取目标视频片段的图像特征，在目标视频片段的音频信息中提取目标视频片段的音频特征。

在目标视频片段的图像信息中提取图像特征，可以采用如下方式：获取预先完成训练的图像特征提取模型；将目标视频片段的图像信息输入至图像特征提取模型中，图像特征提取模型输出图像信息对应的图像特征，图像特征为一个预设维度的向量。

在目标视频片段的音频信息中提取音频特征，可以采用如下方式：获取预先完成训练的音频特征提取模型；将目标视频片段的音频信息输入至音频特征提取模型中，音频特征提取模型输出音频信息对应的音频特征，音频特征为一个预设维度的向量。

步骤S103：利用预先完成训练的多标签分类模型分析目标视频片段的图像特征和音频特征，得到目标视频片段的标签分类结果。

其中，用于训练多标签分类模型的每个视频片段样本包含在至少两个维度标注的类别标签。相应的，目标视频片段的标签分类结果包括目标视频片段在至少两个维度的类别标签。

需要说明的是，本申请中涉及到多标签分类模型和精彩度分类模型，在训练这两个模型的过程中都需要使用视频片段样本，为了进行区分，将用于训练多标签分类模型的视频片段样本记为第一视频片段样本，将用于训练精彩度分类模型的视频片段样本记为第二视频片段样本。

作为一个示例，多个维度包括但不限于场景维度、行为维度、情感维度和对话维度。在每个维度下，预先设置一个或多个类别标签。其中，一个类别标签仅属于一个维度。

作为一个示例，在场景维度下的类别标签包括：流血，性感，爆炸，美食，战争，动物，搞笑，可爱，恐怖，温馨，激动；在行为维度下的类别标签包括：唱歌，打斗，跳舞，游戏比拼，欢呼，拥抱，射击，鼓掌，亲吻，演奏乐器，追击，极限运动，赛车，尖叫，摔倒，争吵；在情感维度下的类别标签包括：笑，哭泣，生气，害羞，害怕，悲伤，鄙视，吃惊；在对话维度下的类别标签包括：精彩对话。

需要说明的是，维度可以理解为方面或者角度。例如，在场景角度、行为角度、情感角度和对话角度分别预先设置多个类别标签。例如，在场景方面、行为方面、情感方面和对话方面分别预先设置多个类别标签。

作为一种实施方式，多标签分类模型为神经网络模型，由三层全连接神经网络构成。

第一层全连接神经网络和第二层全连接神经网络包括预设数量的神经元，预设数量可以为512、1024、2048、4096和8192等。并且，第一层全连接神经网络和第二层全连接神经网络以ReLU线性整流函数作为激活函数，公式如下：

f(x)＝max(0,x)(1)。

其中max为取最大值操作。经过ReLU层作用后，所有神经元的负值均为0，非负值则保持不变，这使得网络变得稀疏，能够缓解拟合问题的发生，同时增加了神经网络各层之间的非线性关系，增强网络的表达能力。

在本申请中，在ReLU线性整流函数的输出之后，还可以接入一个keep_prob＝0.5的深度学习网络，其中keep_prob为神经元被保留的概率，即在回归神经网络的每次训练过程中，以1-keep_prob的概率随机扔掉一部分神经元，在此次训练过程中，被丢弃的神经元不更新权值，也不参加神经网络的计算。经过第一层全连接神经网络和第二层全连接神经网络后，输出一个长度为预设数值的一维向量，其中预设数值可以为1024、2048、4096等。

第三层全连接神经网络为输出层，第三层全连接神经网络包含L个神经元，L为类别标签的数量。并且，第三层全连接神经网络以sigmoid非线性激活函数作为激活函数，其函数表达式如下：

其中e为自然常数。经过sigmoid非线性激活函数激活后，当输入神经元的值为0时，输出值为0.5，当输入神经元的值为负值时，输出值在(0,0.5)之间，当输入神经元的值为正值时，输出值在(0.5,1)之间。记输出结果为中第i个神经元的值对应样本属于第i个类别的概率。

需要说明的是，将目标视频片段的图像特征和音频特征输入多标签分类模型后，多标签分类模型的输出是：该目标视频片段包含各个类别标签的概率。比较目标视频片段包含各个类别标签的概率与预设的置信度阈值，如果目标视频片段包含某个类别标签的概率大于预设的置信度阈值，则该类别标签为该视频片段的类别标签。

需要说明的是，如果一个视频片段包含多个类别标签的概率均大于预设的置信度阈值，那么该视频片段具有多个类别标签。这里举例进行说明：预设的置信度阈值为0.6，如果视频片段1包含唱歌这一类别标签的概率为0.7，包含跳舞这一类别标签的概率为0.76，那么视频片段1的标签包括唱歌和跳舞。

本申请上述公开的视频片段标签识别方法，获取待识别的目标视频片段，并提取目标视频片段的图像特征和音频特征，之后通过多标签分类模型对目标视频片段的图像特征和音频特征进行分析，得到目标视频片段在至少两个维度的类别标签，从而更加全面的识别目标视频片段的标签。而且，本申请中将视频片段的图像特征和音频特征作为识别依据，能够提高标签识别结果的准确度。

下面对上述实施例中所使用的多标签分类模型的训练过程进行说明。

参见图2，图2为本申请公开的一种多标签分类模型的训练方法的流程示意图。包括如下步骤：

步骤S201：获取多个第一视频片段样本。

其中，每个第一视频片段样本包含在至少两个维度标注的类别标签。

需要说明的是，第一视频片段样本具体包含几个维度的类别标签，是由第一视频片段样本本身的内容决定。例如，某个第一视频片段样本仅在场景维度和行为维度标注有类别标签。

另外，第一视频片段样本在一个维度上包含几个类别标签，也是由第一视频片段样本本身的内容决定。例如，某个第一视频片段样本中的对象边唱边跳，那么该第一视频片段样本在行为维度的类别标签包括唱歌标签和跳舞标签。

需要说明的是，用于训练多标签分类模型的多个第一视频片段样本中，每个类别标签对应的视频片段样本的数量要高于阈值，从而避免多标签分类模型因为第一视频片段样本的数量过少而出现偏差。

本申请可以预先从各类影视剧、电影等中获取视频片段，并在至少两个维度对视频片段标注类别信息，从而构成第一视频片段样本。

步骤S202：分别提取每个第一视频片段样本的图像特征和音频特征。

可选的，利用基于Kinetics-400数字集预训练的I3D模型提取第一视频片段样本的图像特征，利用基于AudioSet数据集预训练的Vggish模型提取第一视频片段样本的音频特征。

其中，Kinetics-400数据集是一个包含多类常见动作的视频数据集，每个类别包含有400-1150的视频。基于Kinetics-400数字集预训练的I3D模型，可以将能够区分不同动作类型的视频片段所对应的图像特征提取出来，提取出的图像特征具有更好的视频特征表达能力。具体地，I3D模型的输入为视频片段的图像信息，输出的图像特征为一个预设维度的向量，预设维度可以为1024维。

AudioSet数据集是一个包含200万个时长为10秒的音频，总长度为5000小时的音频数据集，共527类。基于AudioSet数据集预训练的Vggish模型，可以将能够区分不同声音类型的视频片段对应的音频特征提取出来，提取出的音频特征具有更好的音频特征表达能力。具体地，Vggish模型的输入为视频片段的音频信息，输出的音频特征为一个预设维度的向量，预设维度可以为128维。

需要说明的是，本申请不仅可以使用I3D模型来提取视频片段的图像特征，还可以运用在ImageNet上预训练好的2D卷积神经网络(Convolutional Neural Network，CNN)来提取图像特征。或者，直接采用3D CNN通过端到端的训练得到的图像特征。

另外，本申请不仅可以使用基于AudioSet数据集预训练的Vggish模型来提取视频片段的音频特征，还可以运用小波变换法、语谱分析法等方式提取视频片段的音频特征。

步骤S203：利用预先构建的多标签分类模型分析多个第一视频片段样本的图像特征和音频特征，得到每个第一视频片段样本的标签分类结果。

步骤S204：依据多个第一视频片段样本的标签分类结果和标注的类别标签，调整多标签分类模型的模型参数，直至调整后的多标签分类模型满足预设收敛条件。

预先构建的多标签分类模型的初始模型参数均为自定义数值，训练多标签分类模型的过程就是优化模型参数，以使得多标签分类模型逐渐收敛，且预测结果的准确率逐渐提高的过程。

实施中，该预设收敛条件可以为：损失目标函数的值小于预设的阈值。

其中，损失目标函数用于表征预测值与真实值之间的偏差大小。损失目标函数越小，表明预测值越接近于真实值。这里的预测值是，利用多标签分类模型对第一视频片段样本进行分析，得到的第一视频片段样本的标签分类结果；真实值是第一视频片段样本的标注的类别标签。

实施中，将多标签分类模型的交叉熵作为损失目标函数，损失目标函数如下：

其中：

表示第k个视频片段是否包含第i个类别标签，的取值为1表示第k个视频片段包含第i个类别标签，的取值为0表示第k个视频片段不包含第i个类别标签，是由人工标注得到的；为第k个视频片段包含第i个类别标签的概率，是多标签分类网络输出的；n表示训练过程中一次性输入网络的视频片段数量；L表示标签类别的数量。

多标签分类模型基于多个第一视频片段样本的图像特征和音频特征进行训练，当多标签分类模型的损伤目标函数的值小于预设阈值时，即完成训练过程。

本申请图2所示的多标签分类模型的训练方法，首先，获得多个第一视频片段样本，每个第一视频片段样本包含在至少两个维度标注的类别标签，之后，多标签分类模型基于多个第一视频片段样本的图像特征和音频特征以及标注的类别标签进行训练，当预设的损失目标函数满足预设要求时，表示多标签分类模型对多个第一视频片段样本分析得到的标签分类结果与人工标注类别标签之间的偏差足够小，此时完成多标签分类模型的训练过程，完成训练的多标签分类模型能够在多个维度对视频片段进行标签识别。

优选的，在训练多标签分类标签的过程中，选择精彩视频片段作为第一视频片段样本。通过选择精彩视频片段训练多标签分类模型，能够提高标签识别的针对性，避免无用标签的干扰，能够提高多标签分类模型的训练及迭代更新的效率。

下面对本申请上述公开的视频片段标签识别方法进行更加详细的说明。

在一个实施例中，步骤S101获取目标视频片段采用如图3所示的方案，包括：

步骤S301：获取目标视频。

需要说明的是，该目标视频可以为视频平台中用户上传的各类视频，也可以为视频平台的运营方上传的各类视频，目标视频类型可以为长视频，短视频等。

步骤S302：将目标视频拆分成多个视频片段。

在获得目标视频后，会对目标视频进行拆分处理，从而得到若干个视频片段。在具体应用中，拆分目标视频的方式可以有多种。

在一个实施例中，步骤S302将目标视频拆分成多个视频片段，包括：按照预设的固定时长对目标视频进行拆分。例如，若目标视频长度为15s，可预设视频片段时长为3s，则对目标视频进行拆分，是将目标视频拆分为5个长度为3s的视频片段。

在一个实施例中，步骤S302将目标视频拆分成多个视频片段。包括：基于目标视频的关键帧信息，将目标视频拆分成多个时长在预设时长范围内的视频片段。

关键帧也叫I帧，是视频中图像的完整帧，也是帧间压缩编码里的重要帧，关键帧之后的视频帧(增量帧)与关键帧相差较小，仅包含已更改的信息，可根据关键帧完整重构，因而两个关键帧之间的视频片段往往属于同一个场景。

具体地，从目标视频中提取该视频信息中的各个关键帧，进而根据关键帧对目标视频进行拆分，以得到多个视频片段。例如，关键帧在目标视频的0.00s、4.21s、7.36s、10.11s等位置，从而根据关键帧可以将目标视频拆分成0.00s～4.21s、4.21s～7.36s和7.36s～10.11s等若干视频片段。

进一步地，使用关键帧将目标视频拆分为多个视频片段后，如果某些视频片段过短(如短于一定时长阈值)，还可以将这些视频与其他视频片段进行合并，以及如果某些视频片段过长(如长于一定时长阈值)，还可以继续对该视频片段进行拆分。仍以上述示例为例，如果根据关键帧拆分的视频片段过短或过长，则进一步将若干视频片段进行合并或拆分处理，使得每个视频片段的时长在预设时长范围内，预设时长范围可以为3-5s。

步骤S303：分别确定多个视频片段是否为精彩视频片段。

步骤S304：在精彩视频片段中获取任意一个精彩视频片段确定为目标视频片段。

视频片段的标签可以作为整个视频的推荐分发依据，或者作为确定整个视频的标签的数据基础，无精彩看点(也可以认为精彩度较低)的视频片段的标签所能起到的作用很小，甚至会起到反作用，如导致视频的标签出现偏差。

本申请图3所示的方案，在获取目标视频后，对目标视频进行拆分处理，得到多个视频片段，之后分别确定多个视频片段是否为精彩视频片段，从确定出的精彩视频片段中任意获取其中一个作为目标视频片段。也就是说，在本申请图3所示的方法中，将目标视频中的精彩视频片段作为目标视频片段，而不会将无精彩看点的视频片段作为目标视频片段，后续也无需对这些视频片段进行标签识别，能够降低系统功耗。

在一个实施例中，确定任意一个视频片段是否为精彩视频片段，采用如图4所示的方案，包括：

步骤S401：提取视频片段的图像特征和音频特征。

其中，提取视频片段的图像特征和音频特征，可以采用上文中公开的方案，这里不再进行赘述。

步骤S402：利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，得到该视频片段的精彩度分类结果。

其中，精彩度分类结果用于指示视频片段是否为精彩视频片段。

训练精彩度分类模型的过程就是让精彩度分类模型学习样本数据中图像特征和音频特征与该样本数据的精彩类别之间的关系，这两者之间的关系最终体现在精彩度分类模型的模型参数上。训练的过程就是寻找能够更好地表达一个视频片段的图像特征及音频特征与精彩类别之间的关系的模型参数。

将待识别的视频片段的图像特征和音频特征输入至预选完成训练的精彩度分类模型，经过精彩度分类模型分析后，输出该待识别视频片段是否是精彩片段的分类结果。

其中，该精彩度分类模型可以采用神经网络模型，例如，多层感知机神经网络模型(Multi-Layer Perception，MLP)；或者，可以采用支持向量机模型(Support VectorMachine，SVM)。

其中，MLP是一种前馈神经网络，映射一组输入向量到一组输出向量。MLP的每一层都全连接到下一层，即每一层的任意一个神经元均与前一层的所有神经元有连接。

SVM是一类按监督学习方式对数据进行二元分类的广义线性分类器。

本申请图4所示的方案，从待识别的视频片段中提取音频特征和图像特征，之后利用精彩度分类模型分析该视频片段的音频特征和图像特征，得到该视频片段的精彩度分类结果。该方法从视频片段中提取了视觉维度的特征，即图像特征向量，同时，还提取了听觉维度的特征，即音频特征向量。音频信息也是视频的一个重要构成，音频的节奏变化在一定程度上能够反映视频片段的精彩程度。因此，综合考虑图像特征和音频特征来判断该视频片段是否是精彩片段，能够提高精彩片段识别的准确度。

在一个实施例中，步骤S402利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，得到该视频片段的精彩度分类结果，包括：

利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，得到该视频片段属于两个类别中每个类别的置信度；选取置信度最大的分类结果，确定为该视频片段的精彩度分类结果。

也就是说，精彩度分类模型输出的2维向量是视频片段属于精彩的概率和不精彩的概率。即，属于精彩类别的置信度，以及属于不精彩类别的置信度。

在该实施例中，确定置信度最大的类别为该视频片段的类别。例如，精彩度分类模型输出的该视频片段属于精彩类别的置信度是0.6，属于不精彩类别的置信度是0.4，0.6＞0.4，因此，确定该视频片段是精彩片段。

在另一个实施例中，步骤S402利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，得到该视频片段的精彩度分类结果，包括：

利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，得到视频片段的精彩度分数；当精彩度分数大于或等于预设分数值时，确定视频片段是精彩片段；当精彩度分数小于该预设分数值时，确定视频片段不是精彩片段。

也就是说，精彩度分类模型可以直接输出视频片段的精彩度分数。通过比较视频片段的精彩度分数和预设的分数值，确定视频片段是否为精彩片段。例如，精彩度分类模型输出该视频片段的精彩度分数是8分，预设分数值是5分，8分＞5分，因此，确定该视频片段是精彩片段。

下面对上述实施例中所使用的精彩度分类模型的训练过程进行说明。

参见图5，图5为本申请公开的一种精彩度分类模型的训练方法的流程示意图。包括如下步骤：

步骤S501：获取多个第二视频片段样本。

其中，每个第二视频片段样本包含标注的精彩度信息。

例如，人工标注大量视频片段，可以基于视频片段的视觉维度和听觉维度的信息特征，得到该视频片段是否是精彩片段的结果，并标注在该视频片段上，即精彩度标注信息。

例如，可以直接标注视频片段是否是精彩片段的标签，如果该视频片段是精彩片段则标注“是”，如果该视频片段不是精彩片段则标注“否”。

又如，还可以综合视觉维度和听觉维度的信息特征，得到该视频片段的精彩度分数，并直接标注该精彩度分数。

步骤S502：分别提取每个第二视频片段样本的图像特征和音频特征。

实施中，提取视频片段的图像特征和音频特征，可以采用上文中公开的方案，这里不再进行赘述。

步骤S503：利用预先构建的精彩度分类模型分析多个第二视频片段样本的图像图中和音频特征，得到每个第二视频片段样本的精彩度分类结果。

步骤S504：依据多个第二视频片段样本的精彩度分类结果和标注的精彩度信息，调整精彩度分类模型的模型参数，直至调整后的精彩度分类模型满足预设收敛条件。

预先构建的精彩度分类模型的初始模型参数均为自定义数值，训练精彩度分类模型的过程就是优化模型参数，以使得精彩度分类模型逐渐收敛，且预测结果的准确率逐渐提高的过程。

其中，损失目标函数用于表征预测值与真实值之间的偏差大小。损失目标函数越小，表明预测值越接近于真实值。这里的预测值是利用精彩度分类模型对第二视频片段样本进行分析，得到的第二视频片段样本的精彩度分类结果；真实值是第二视频片段样本的标注的精彩度信息。

本申请图5所示的方案，从视频片段样本中提取听觉维度的特征和视觉维度的特征，并综合听觉和视觉维度的特征训练精彩度分类模型。该模型训练过程利用视频片段包含的多维度的特征进行训练，因此，提高了精彩度分类模型的准确率。

实施中，利用预先完成训练的多标签分类模型分析目标视频片段的图像特征和音频特征，可以采用两种方式实现。

第一种实施方式，将目标视频片段的图像特征和音频特征直接输入多标签分类模型。

第二种实施方式，利用向量拼接技术将目标视频片段的图像特征和音频特征进行拼接，得到该目标视频片段的数据特征，将该目标视频片段的数据特征输入多标签分类模型。例如，视频片段的图像特征为1024维向量，音频特征为128维向量，将该视频片段的图像特征和音频特征拼接为1152维的向量，并将该向量输入至多标签分类模型中，以得到目标视频片段的标签分类结果。

实施中，利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，可以采用两种方式实现。

第一种实施方式，将视频片段的图像特征和音频特征直接输入精彩度分类模型。

第二种实施方式，利用向量拼接技术将视频片段的图像特征和音频特征进行拼接，得到该视频片段的数据特征，将该目标视频片段的数据特征输入精彩度分类模型。

在一个实施例中，对视频片段进行图像解码和音频解码，得到视频片段的图像信息和音频信息，包括：

采用多线程技术对视频片段进行图像解码和音频解码，得到图像信息和音频信息。

实施中，利用moviepy库，采用多线程技术同时对多个视频片段进行图像解码和音频解码，得到图像信息和音频信息。moviepy库是一个Python模块，可以用来做基于脚本的视频编辑。另外，不仅可以利用moviepy库来做基于脚本的视频编辑，还可以利用与Python模块相似的其他库来做基于脚本的视频编辑，本申请不加以限制。

通过采用多线程技术同时对多个视频片段进行图像解码和音频解码，可以减少视频解码时间，缩短整个标签识别过程的耗时。

本申请上述公开了视频片段标签识别方法，相应的，本申请还公开视频片段标签识别装置，说明书中关于两者的描述可以相互参考。

参见图6，图6为本申请公开的一种视频片段标签识别装置的结构示意图。该装置包括：目标视频片段获取单元100、特征提取单元200和标签识别单元300。

目标视频片段获取单元100，用于获取目标视频片段。

特征提取单元200，用于提取目标视频片段的图像特征和音频特征。

标签识别单元300，用于利用预先完成训练的多标签分类模型分析目标视频片段的图像特征和音频特征，得到目标视频片段的标签分类结果，目标视频片段的标签分类结果包括目标视频片段在至少两个维度的类别标签。

其中，用于训练多标签分类模型的每个第一视频片段样本包含在至少两个维度标注的类别标签。

本申请提供的视频片段标签识别装置，获取待识别的目标视频片段，并提取目标视频片段的图像特征和音频特征，之后通过多标签分类模型对目标视频片段的图像特征和音频特征进行分析，得到目标视频片段在至少两个维度的类别标签，从而更加全面的识别目标视频片段的标签。而且，本申请中将视频片段的图像特征和音频特征作为识别依据，能够提高标签识别结果的准确度。

在一个实施例中，在本申请图6所示视频片段标签识别装置的基础上，进一步设置多标签分类模型训练单元。

多标签分类模型训练单元具体用于：

获取多个第一视频片段样本；分别提取每个第一视频片段样本的图像特征和音频特征；利用预先构建的多标签分类模型分析多个第一视频片段样本的图像图中和音频特征，得到每个第一视频片段样本的标签分类结果；依据多个第一视频片段样本的标签分类结果和标注的类别标签，调整多标签分类模型的模型参数，直至调整后的多标签分类模型满足预设收敛条件。

在一个实施例中，目标视频片段获取单元100采用如图7所示的结构。

目标视频片段获取单元100包括：目标视频获取子单元1001、视频拆分子单元1002、精彩视频片段识别子单元1003和目标视频片段确定子单元1004。

其中：

目标视频获取子单元1001，用于获得目标视频。

视频拆分子单元1002，用于将目标视频拆分成多个视频片段。

精彩视频片段识别子单元1003，用于分别确定多个视频片段是否为精彩视频片段。

目标视频片段确定子单元1004，用于在精彩视频片段中获取任意一个精彩视频片段确定为目标视频片段。

作为一种实施方式，视频拆分子单元1002按照预设的固定时长对目标视频进行拆分。

作为另一种实施方式，视频拆分子单元1002基于目标视频的关键帧信息，将目标视频拆分成多个时长在预设时长范围内的视频片段。

在一个实施例中，精彩视频片段识别子单元1003确定视频片段是否为精彩视频片段，具体为：

提取视频片段的图像特征和音频特征；利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，得到视频片段的精彩度分类结果，精彩度分类结果用于指示视频片段是否为精彩视频片段。

作为一种实施方式，利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分类结果，具体为：

利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段属于两个类别中每个类别的置信度；选取置信度最大的分类结果，确定为所述视频片段的精彩度分类结果。

作为另一种实施方式，利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分类结果，具体为：

利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分数；当所述精彩度分数大于或等于预设分数值时，确定所述视频片段是精彩片段；当所述精彩度分数小于所述预设分数值时，确定所述视频片段不是精彩片段。

在一个实施例中，在本申请上述公开的视频片段标签识别装置的基础上，进一步设置精彩度分类模型训练单元。

精彩度分类模型训练单元具体用于：

获取多个第二视频片段样本，每个第二视频片段样本包含标注的精彩度信息；分别提取每个第二视频片段样本的图像特征和音频特征；利用预先构建的精彩度分类模型分析多个第二视频片段样本的图像图中和音频特征，得到每个第二视频片段样本的精彩度分类结果；依据多个第二视频片段样本的精彩度分类结果和标注的精彩度信息，调整精彩度分类模型的模型参数，直至调整后的精彩度分类模型满足预设收敛条件。

实施中，标签识别单元300利用预先完成训练的多标签分类模型分析目标视频片段的图像特征和音频特征，可以采用两种方式实现。

实施中，精彩视频片段识别子单元1003利用预先完成训练的精彩度分类模型分析视频片段的图像特征和音频特征，可以采用两种方式实现。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频片段标签识别方法，其特征在于，所述方法包括：

获取目标视频片段；

提取所述目标视频片段的图像特征和音频特征；

2.根据权利要求1所述的方法，其特征在于，所述多标签分类模型的训练过程，包括：

获取多个第一视频片段样本；

3.根据权利要求1或2所述的方法，其特征在于，所述获取目标视频片段，包括：

获得目标视频；

将所述目标视频拆分成多个视频片段；

分别确定所述多个视频片段是否为精彩视频片段；

4.根据权利要求3所述的方法，其特征在于，确定任意一个视频片段是否为精彩视频片段，包括：

提取所述视频片段的图像特征和音频特征；

5.根据权利要求4所述的方法，其特征在于，所述精彩度分析模型的训练过程，包括：

6.根据权利要求4所述的方法，其特征在于，利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分类结果，包括：

7.根据权利要求4所述的方法，其特征在于，利用预先完成训练的精彩度分类模型分析所述视频片段的图像特征和音频特征，得到所述视频片段的精彩度分类结果，包括：

8.一种视频片段标签识别装置，其特征在于，所述装置包括：

目标视频片段获取单元，用于获取目标视频片段；

9.根据权利要求8所述的装置，其特征在于，还包括多标签分类模型训练单元，具体用于：

10.根据权利要求8或9所述的装置，其特征在于，目标视频片段获取单元包括：

目标视频获取子单元，用于获得目标视频；

11.根据权利要求10所述的装置，其特征在于，所述精彩视频片段识别子单元确定视频片段是否为精彩视频片段，具体为：

12.根据权利要求10所述的装置，其特征在于，还包括精彩度分类模型训练单元，具体用于：