CN110267119B

CN110267119B - 视频精彩度的评价方法及相关设备

Info

Publication number: CN110267119B
Application number: CN201910579829.4A
Authority: CN
Inventors: 晋瑞锦; 张云桃
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2023-06-30
Anticipated expiration: 2039-06-28
Also published as: CN110267119A

Abstract

本发明提供了一种视频精彩度的评价方法，该方法可以获得目标视频，并将目标视频拆分成若干视频片段，提取每个视频片段的视频特征以及音频特征，将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数，并对各个视频片段的精彩度分数进行综合运算，从而得到目标视频的精彩度分数。本方法分别确定每个视频片段的精彩度分数后，再根据该多个视频片段的精彩度分数综合确定目标视频的精彩程度，与现有技术中只检测是否包含精彩片段相比，本方法综合每个视频片段的精彩程度来综合评价整个目标视频的精彩程度，评价准确度更高。

Description

视频精彩度的评价方法及相关设备

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频精彩度的评价方法及相关设备。

背景技术

随着互联网技术的不断发展和普及，越来越多的用户通过互联网在视频平台上来观看各类视频。视频平台上存储有海量的视频，视频平台也可以从海量视频中选择出精彩视频，将精彩视频推送给用户进行观看。

目前，视频平台评价一个视频是否为精彩视频的方式是，使用特定规则对视频内容进行分析，以判断该视频中是否包含有精彩片段，将包含有精彩片段的视频评价为精彩视频。例如，对篮球比赛的视频进行分析，如果该篮球比赛视频中包含有扣篮动作这个精彩片段，则该篮球比赛视频会被评价为精彩视频。

但是，上述评价方式对视频精彩的评价结果准确性较差。

发明内容

有鉴于此，本发明实施例提供了一种视频精彩度的评价方法，用于解决现有视频评价方法的评价结果准确性较差的技术问题。另外，本发明还提供一种视频精彩度的评价装置，用以保证上述方法在实际中的实现及应用。

为了实现上述发明目的，本发明提供以下技术方案：

第一方面，本发明提供了一种视频精彩度的评价方法，包括：

获得目标视频；

将所述目标视频拆分成若干视频片段；

提取每个视频片段的视频特征以及音频特征；其中所述视频特征为能够区分出现不同动作类型的视频片段的视频特征，所述音频特征为能够区分出现不同声音类型的音频片段的音频特征；

将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数；

对各个所述视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数。

第二方面，本发明提供了一种视频精彩度的装置，包括：

视频获取模块，用于获得目标视频；

视频拆分模块，用于将目标视频拆分成若干视频片段；

特征提取模块，用于提取每个视频片段的视频特征以及音频特征；其中视频特征为能够区分出现不同动作类型的视频片段的视频特征，音频特征为能够区分出现不同声音类型的音频片段的音频特征；

视频片段得分模块，用于将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数；

视频得分模块，用于对各个视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数。

第三方面，本发明提供了一种视频精彩度的评价设备，包括处理器和存储器，所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据，至少执行如下步骤：

获得目标视频；

将所述目标视频拆分成若干视频片段；

第四方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的视频精彩度的评价方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频精彩度的评价方法，该方法可以获得目标视频，并将目标视频拆分成若干视频片段，提取每个视频片段的视频特征以及音频特征，将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数，并对各个视频片段的精彩度分数进行综合运算，从而得到目标视频的精彩度分数。可见，本方法分别确定每个视频片段的精彩度分数后，再根据该多个视频片段的精彩度分数综合确定目标视频的精彩程度，与现有技术中只检测是否包含精彩片段相比，本方法综合每个视频片段的精彩程度来综合评价整个目标视频的精彩程度，评价准确度更高，并且本方法通过精彩度分数来表示目标视频的精彩程度，评价结果具体精细。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种视频精彩度的评价方法的流程图；

图2为本发明提供的回归神经网络模型的训练流程图；

图3示出了本发明实施例提供的视频精彩度的评价装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种视频精彩度的评价方法，该方法可以应用在各类应用平台上的视频分析评价系统中。图1示出了本发明实施例提供的视频精彩度评价方法的方法流程图，包括步骤S101～S105。

S101：获得目标视频。

在本发明中，目标视频可以为各大视频平台中用户上传的各类视频，目标视频类型可以为长视频，短视频等。

以短视频为例进行说明，目前包括视频观看平台等各种应用平台，均提供有短视频分享功能，用户可以向应用平台上传或者转发其他应用中的短视频，以实现视频分享。应用平台可以将接收到的任意短视频作为目标视频以进行精彩度评价。需要说明的是，关于长视频与短视频的定义，本申请并不做具体限定，只要是本领域技术人员能够根据本领域关于视频长度的公知理解，对长视频及短视频进行定义即可。

S102：将目标视频拆分成若干视频片段。

本发明在获得目标视频后，会对目标视频进行拆分处理，从而得到若干个视频片段。

在具体应用中，拆分目标视频的方式可以有多种。

例如，按照预设的固定时长对目标视频进行拆分。例如，若目标视频长度为10s，可预设视频片段时长为2s，则对目标视频进行拆分，即将目标视频拆分为5个长度为2s的视频片段。

又如，可以通过关键帧对目标视频进行拆分，关键帧为目标视频中图像的完整帧，能够表示目标视频的内容场景发生变化。完整帧，指的是独立包含有全部图像信息的视频帧。两个关键帧之间的视频片段一般属于同一个场景。与完整帧相对的另一种视频帧为增量帧，增量帧是跟随在完整帧之后，其仅包含与完整帧相比后发生改变的图像信息。设置增量帧的目的是为了减小视频的数据量。

具体地，目标视频可以具有视频信息文档，该文档中记录有关键帧在目标视频中的时间位置信息，则该方法可以从视频信息文档中读取各个关键帧，进而根据关键帧对目标视频进行切分，以得到若干视频片段。例如，视频信息文档中记录有关键帧在目标视频的0.00s、3.21s、9.36s等位置，从而根据关键帧可以将目标视频拆分成0.00s～3.21s、3.21s～9.36s等若干视频片段。

进一步地，使用关键帧切分到视频片段后，如果某些视频片段过短(如短于一定时长阈值)，还可以将这些视频与其他视频片段进行合并，以及如果某些视频片段过长(如长于一定时长阈值)，还可以继续对该视频片段进行切分。仍以上述示例为例，如果上述关键帧切分的视频过短或过长，则进一步将若干视频片段进行切割或合并处理，使得每个视频片段时长在预设时长范围内，预设时长范围可以为3-5s。

S103：提取每个视频片段的视频特征以及音频特征；其中视频特征为能够区分出现不同动作类型的视频片段的视频特征，音频特征为能够区分出现不同声音类型的音频片段的音频特征。

具体地，本发明可以提取每个视频片段的视频特征以及音频特征，具体为以下步骤：

获取预训练的卷积网络模型；将视频信息输入至卷积神经网络模型中，以使卷积神经网络模型输出视频信息对应的视频特征，视频特征为一个预设维度的向量。

获取预训练的音频特征提取模型；将音频信息输入至音频特征提取模型中，以使音频特征提取模型输出音频信息对应的音频特征，音频特征为一个预设维度的向量。其中，视频特征的提取模型为基于Kinetics-400数据集预训练的卷积网络模型。Kinetics-400数据集是一个包含多类常见动作的视频数据集，每个类别包含有400-1150的视频。视频类别可以包括单人行为、人与人互动行为、以及人与物互动行为等几个大类，每个大类中还包括多个小类，例如，单人行为包括绘画、喝酒、大笑、打拳等等；人与人互动行为包括拥抱、亲吻、握手等等；人与物互动行为包括打开礼物、修剪草坪、洗碗等等。

利用卷积网络模型，可以将能够区分不同动作类型的视频片段所对应的视频特征提取出来，提取出的视频特征具有更好的视频表达能力。具体地，卷积网络模型的输入可以为预设大小的矩阵，预设大小可以为F*224*224*3，其中F为视频的帧长，224为视频帧图像的高和宽，3为颜色通道数，经过卷积神经网络后，会输出一个预设维度的向量作为视频片段的视频特征，预设维度可以为1024维。

音频特征的提取模型可以为基于AudioSet数据集预训练的Vggish模型，Vggish模型的网络框架为VGG11模型。利用Vggish模型，可以将能够区分不同声音类型的视频片段对应的音频特征提取出来，提取出的音频特征具有更好的视频表达能力。具体地，Vggish模型的输入可以是解码出的音频信息，输出的音频特征可以为一个预设维度的向量，预设维度可以为128维。

S104：将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数。

具体地，该方法可以将每个视频片段所对应的视频特征以及音频特征进行结合，例如，视频特征为1024维向量，音频特征为128维向量，本发明可以将视频特征和音频特征结合为1152维的向量，并将该向量输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数。

S105：对各个视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数。

其中，在得到每个视频片段各自的精彩度分数后，本发明对各个视频片段的精彩度分数进行综合运算，以得到完整的目标视频的精彩度分数。

具体地，一种综合运算方式可以是加和后求平均值，公式如下：

其中，S为目标视频的精彩度分数，s_i为第i个视频片段的精彩度分数，n为视频片段的个数。

可见，上述综合运算方式是，将所得到的每个视频片段各自的精彩分数进行加和运算，并将得到分数值除以视频片段的个数，以得到完整目标视频的精彩度分数。

另一种综合运算方式可以是加权求和运算，公式如下：

其中，S为完整目标视频的精彩度分数，s_i为第i个视频片段的精彩度分数，n为视频片段的个数。

该运算方式会利用归一化指数函数，得出每个视频片段精彩度分数所占的权重。其中，归一化指数函数为softmax函数，公式如下：

经过归一化指数函数的作用后，精彩度分数较高的视频片段的权重会被放大，相反的，精彩度分数较低的视频片段的权重会被缩小，从而使得精彩度更高的片段对完整目标视频的影响更大。因此，相比起加和后求平均值的运算方式，加权求和运算得出的完整目标视频精彩度分数更加准确。

由以上技术方案可以看出，本发明提供了一种视频精彩度的评价方法，该方法可以获得目标视频，并将目标视频拆分成若干视频片段，提取每个视频片段的视频特征以及音频特征，将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数，并对各个视频片段的精彩度分数进行综合运算，从而得到目标视频的精彩度分数。可见，本方法分别确定每个视频片段的精彩度分数后，再根据该多个视频片段的精彩度分数综合确定目标视频的精彩程度，与现有技术中只检测是否包含精彩片段相比，本方法综合每个视频片段的精彩程度来综合评价整个目标视频的精彩程度，评价准确度更高，并且本方法通过精彩度分数来表示目标视频的精彩程度，评价结果具体精细。

具体来讲，一种可以评价视频精彩度的方法是，基于Ranking的精彩片段检测，该方法会将精彩片段与非精彩片段送入神经网络中进行训练，本质上是一种判断输入的视频片段是否为精彩片段的检测方法。相比起本方法，该方法无法精细地评价出视频的精彩度，本发明所采用的方法，利用精彩度分数的形式，来对目标视频的精彩程度进行量化分析评价，可以使得评价结果更加精细。

为了更加清楚的对本发明实施例提供的方法进行描述，本发明实施例提供一具体示例，对本发明实施例提供的方法进行详细描述，具体如下：

假设待评价精彩度的目标视频为一段5秒时长的篮球投篮视频，在对该目标视频进行精彩度评价时，本发明将该目标视频拆分成两个视频片段，第一个视频片段的时长为3秒，第二个视频片段的时长为2秒。

提取每个视频片段的视频特征以及音频特征，其中，第一个视频片段所对应的视频特征可以为投篮的起跳动作，第二个视频片段所对应的视频特征可以为投篮的篮球出手动作，第一个音频特征可以为人物起跳所产生的声音，第二个音频特征可以为篮球出手所产生的声音。

将第一个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，得到第一个视频片段的精彩度分数为6分，同理得到第二个视频片段的精彩度分数为4分。对各个视频片段的精彩度分数进行综合计算，综合计算可以为多种计算方式，本发明实施例所举例子的综合计算为加权求和计算，通过加权求和计算，可以得到篮球投篮视频的精彩度分数为5.2分。

以下对上述实施例中步骤S104所使用的回归神经网络模型的训练过程进行详细说明。如图2所示，回归神经网络模型的训练过程可以具体包括步骤S201～203。

S201：获得视频片段样本，视频片段样本标注有精彩度分数。

本发明可以预先收集各类视频样本，例如，可以收集各类影视剧和综艺视频作为多个视频样本，并将各个视频样本拆分成多个视频片段样本，其中视频片段样本时长为预设时长，预设时长可以为5～15s。通过人工标注的方式，对各个视频片段样本进行打分，并将打分结果以精彩度分数的形式标注在视频片段样本上，最后获得视频片段样本。其中，打分标准可为十分制，百分制等。

在获得视频片段样本之后，由于不同精彩度分数所对应的视频片段样本集合中的视频片段样本的数量可能不均衡，从而使得计算出的最后的精彩度分数更加偏向数量较大的视频片段样本集合所对应的精彩度分数。

为了避免此类情况出现，本发明还可以对各个标注的精彩度分数所对应的视频片段样本集合中视频片段样本的数量进行均衡。具体为，本发明会统计各个标注的精彩度分数所对应的视频片段样本的数量。例如，统计出精彩度分数为3分的视频片段样本的数量为1000个，精彩度分数为5分的视频片段样本的数量为10000个等等。随后，确定视频片段样本的数量中的最大值，例如，精彩度分数为5分的视频片段样本的数量最多，且数量为10000个，即确定10000为视频片段样本的数量的最大值。进而，在各个标注的精彩度分数所对应的视频片段样本集合内增加视频片段样本，以使各个视频片段样本集合中视频片段样本的数量扩充为最大值。其中，增加的视频片段样本可以为各个标注的精彩度分数相同的视频片段的复制。

下面提供一具体示例，对本发明的数据均衡过程进行详细描述，具体如下：

假设对视频片段样本所标注的精彩度分数分别为1分、2分及3分，则可以将所有的视频片段样本划分为1分视频片段样本集合、2分视频片段样本集合、以及3分视频片段样本集合。统计得到，1分视频片段样本集合中的视频片段样本数量为500个，2分视频片段样本集合中的视频片段样本数量为1000个，3分视频片段样本集合中的视频片段样本数量为5000个，从而确定5000为视频片段样本的数量中的最大值。随后，在1分视频片段样本集合、2分视频片段样本集合、3分视频片段样本集合中增加若干视频片段，使得集合内的视频片段样本数量均扩充为5000个。使用的增加手段可以是，复制1分视频片段样本集合中的500个视频片段样本，增加500个视频片段样本的复制，直至1分视频片段样本集合中的视频片段样本扩充为5000个。

S202：提取视频片段样本的视频特征和音频特征。

其中，具体的视频特征及音频特征提取方式可以参见图1所示的实施例中步骤S103的说明，此处并不赘述。

S203：使用回归神经网络训练算法，对视频片段样本的视频特征及音频特征进行训练，直至回归神经网络模型输出的精彩度分数与标注的精彩度分数之间的关系满足预设损失函数的要求，得到训练完成的回归神经网络模型。

其中，回归神经网络的网络模型由两层全连接神经网络构成，其中，第一层全连接神经网络的输出结果作为第二层全连接神经网络的输入。第一层全连接神经网络包含预设数量的神经元，预设数量可以为4096。具体地，第一层全连接神经网络以ReLU线性整流函数作为激活函数，公式如下：

f(x)＝max(0,x)

其中max为取最大值操作。经过ReLU层作用后，所有神经元的负值均为0，非负值则保持不变，从而使得网络变得稀疏，缓解了过拟合问题的发生，同时增加了神经网络各层之间的非线性关系，增强网络的表达能力。

在本发明中，在ReLU线性整流函数的输出之后，还可以接入一个keep_prob＝0.5的深度学习网络，其中keep_prob为神经元被保留的概率，即在回归神经网络的每次训练过程中，以1-keep_prob的概率随机扔掉一部分神经元，在此次训练过程中，被丢弃的神经元不更新权值，也不参加神经网络的计算。经过第一层全连接神经网络后，输出一个长度为预设数值的一维向量，其中预设数值可以为4096。

第二层全连接神经网络包含预设数量的神经元，其中预设数量可以为1，并以sigmoid非线性激活函数作为激活函数，其函数表达式如下：

其中e为自然常数。经过sigmoid非线性激活函数激活后，当输入神经元的值为0时，输出值为0.5，当输入神经元的值为负值时，输出值在(0,0.5)之间，当输入神经元的值为正值时，输出值在(0.5,1)之间。

通过两层全连接神经网络后，输出训练结果，且训练过程不断重复，直至训练结果与标注的精彩度分数之间的关系满足预设损失函数的要求，即得到训练完成的回归神经网络模型。其中训练结果即回归神经网络模型输出的精彩度分数。

在本发明中，预设损失函数可以为均方误差函数，如下：

其中y_i为第i个数据的人工打分，n为输入视频片段样本的个数，

为第i个视频片段样本通过回归神经网络输出的精彩度分数；M为人工对视频片段样本所标注的精彩度分数的最大值，假设人工打分标准为十分制，则M为10。

损失函数可以使回归神经网络收敛，从而使得回归神经网络模型输出的精彩度分数与标注的精彩度分数之间的关系更加接近。

由以上技术方案可以看出，本方法可以收集各类视频片段样本，并将视频片段样本输入至回归神经网络，对回归神经网络进行训练，并预设好损失函数，使得回归神经网络输出的精彩度分数与标注的精彩度分数更加接近，从而使得回归神经网络应用在各类视频时，得到的每个视频片段各自的精彩度分数，更加贴近人工打分的结果。利用视频片段样本对回归神经网络模型进行训练，并使用预设损失函数，使得回归神经网络模型的输出结果，更加接近人工打分的分数值，并在满足预设函数的情况下，结束训练过程，从而得到训练完成的回归神经网络模型。

根据上述对回归神经网络模型的训练过程可知，回归神经网络模型是由人工标注有精彩度分数的视频片段样本训练而成的，可以理解的是，回归神经网络模型输出的精彩度分数的准确度与人工对精彩度分数的标注情况有关。在实际应用中，人工标注可能会容易受到个人主观因素的影响，对精彩度分数的标注与视频片段样本的客观精彩情况存在一定偏差。

偏差的一种体现是，人工标注往往将精彩度分数集中在分数段的中间部分，较少标注最高分或最低分。例如，人工标注的分数段为0-10，那人工往往会将精彩度分数集中在2-8分，而较少标注0、1这些低分或9、10这种高分，实际上某些视频片段样本的分数客观上是需要被标注为这些分数。这种主观因素的影响导致了人工标注的视频片段样本的精彩度分数不够精准，进而导致所训练完成的回归神经网络模型在实际应用中对待识别视频样本的输出结果也会存在误差，如输出结果中某一区间存在极少的数值或不存在数值。

故而，本发明可以对人工打分对回归神经网络模型的影响结果进行进一步修正，修正方式是，使用sigmoid非线性激活函数来对回归神经网络模型的输出结果进行处理，使得回归神经网络模型输出结果能够具有更好的表达能力。具体地，修正公式如下：

其中，s可以称为目标精彩度分数，表示的是使用非线性激活函数对视频片段的精彩度分数进行计算后的精彩度分数；

为第i个视频片段样本通过回归神经网络输出的精彩度分数；N为预设分数值，该值的具体大小是根据人工对视频片段样本的精彩度分数的标注情况设置的。

具体地，可以分析精彩与不精彩的视频片段样本，将区分这两类视频片段样本的精彩度分数设置为N的值，例如，根据统计分析发现，精彩的视频片段样本的精彩度分数通常在4分以上，相反不精彩的视频片段样本的通常在4分以下，因此N可以为4。当

的值为N时，经过上述函数的处理之后，精彩度分数s为0.5，当/>

的高于N时，精彩度分数s在(0.5,1)之间，当/>

的值低于N时，精彩度分数s在(0,0.5)之间，从而可以在中间分数段0.5便可以区分精彩视频片段与不精彩视频片段。

利用该激活函数，可以将回归神经网络模型输出的精彩度分数进行重新映射，将输出的这些精彩度分数重新映射到整个分数段区间中，简单来说，重新映射是将回归神经网络模型输出的精彩度分数从较为集中到中间分数的状态拉伸至整个分数段区间的状态。经过重新映射后的分数为目标精彩度分数，该目标精彩度分数可以更加直观地表示视频片段的精彩程度。

需要说明的是，在实际应用中，可以使用上述处理方式对步骤S104输出的每个视频片段的精彩度分数进行处理，得到处理后的精彩度分数，而后在步骤S105的综合计算过程中，对各个视频片段的处理后的精彩度分数进行综合运算，从而得到目标视频的精彩度分数。

本发明实施例提供了一种视频精彩度的装置，该装置可以应用在各类应用平台上的视频分析评价系统中。图3示出了本发明实施例提供的视频精彩度的装置的结构框图，具体包括：视频获取模块301、视频拆分模块302、特征提取模块303、视频片段得分模块304以及视频得分模块305。

视频获取模块301，用于获得目标视频。

视频拆分模块302，用于将目标视频拆分成若干视频片段。

特征提取模块303，用于提取每个视频片段的视频特征以及音频特征；其中视频特征为能够区分出现不同动作类型的视频片段的视频特征，音频特征为能够区分出现不同声音类型的音频片段的音频特征。

视频片段得分模块304，用于将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数。

视频得分模块305，用于对各个视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数。

本发明提供了一种视频精彩度的装置，该装置可以获得目标视频，并将目标视频拆分成若干视频片段，提取每个视频片段的视频特征以及音频特征，将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数，并对各个视频片段的精彩度分数进行综合运算，从而得到目标视频的精彩度分数。可见，本相关设备分别确定每个视频片段的精彩度分数后，再根据该多个视频片段的精彩度分数综合确定目标视频的精彩程度，与现有技术中只检测是否包含精彩片段相比，本相关设备综合每个视频片段的精彩程度来综合评价整个目标视频的精彩程度，评价准确度更高，并且本相关设备通过精彩度分数来表示目标视频的精彩程度，评价结果具体精细。

在一个示例中，视频拆分模块在将目标视频拆分成若干视频片段时，具体执行以下步骤：

确定目标视频中包含的关键帧；其中关键帧为表征目标视频的内容场景发生变化的图像帧；根据关键帧对目标视频进行切分，以得到若干视频片段。

在一个示例中，视频精彩度的评价装置还可以包括：回归神经网络模型训练模块。

回归神经网络模型训练模块，用于：获得视频片段样本，视频片段样本标注有精彩度分数；提取视频片段样本的视频特征和音频特征；使用回归神经网络训练算法，对视频片段样本的视频特征及音频特征进行训练，直至训练结果回归神经网络模型输出的精彩度分数与标注的精彩度分数之间的关系满足预设损失函数的要求，得到训练完成的回归神经网络模型。

在一个示例中，回归神经网络模型训练模块，还用于：统计各个标注的精彩度分数所对应的视频片段样本集合中视频片段样本的数量；确定视频片段样本的数量中的最大值；在各个标注的精彩度分数所对应的视频片段样本集合内增加视频片段样本，以使各个视频片段样本集合中视频片段样本的数量扩充为最大值。

在一个示例中，视频得分模块在对各个视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数时，具体执行以下步骤：对各个视频片段的精彩度分数进行加权求和运算，以得到目标视频的精彩度分数。

在一个示例中，视频得分模块在对各个视频片段的精彩度分数进行加权求和运算，以得到目标视频的精彩度分数时，具体执行以下步骤：使用归一化指数函数对视频片段的精彩度分数进行归一化处理，以得到视频片段对应的精彩度权重；将各个视频片段的精彩度权重与视频片段的精彩度分数进行加权求和运算，以得到目标视频的精彩度分数。

在一个示例中，视频精彩度的评价装置还可以包括：视频片段得分处理模块。视频片段得分处理模块，用于使用非线性激活函数对每个视频片段的精彩度分数进行计算处理，得到目标每个视频片段的处理后的精彩度分数。在这种情况下，视频得分模块在对各个视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数时，具体执行以下步骤：对各个视频片段的目标处理后的精彩度分数进行综合运算，以得到目标视频的精彩度分数。

在一个示例中，回归神经网络模型由两层全连接神经网络构成，其中，第一层全连接神经网络的输出结果作为第二层全连接神经网络的输入；第一层全连接神经网络的激活函数为线性整流函数；第二层全连接神经网络的激活函数为非线性激活函数。

另外，本发明还提供了一种视频精彩度的评价设备，包括处理器和存储器，所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据，至少执行如下步骤：

获得目标视频；

将所述目标视频拆分成若干视频片段；

另外，本发明还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的任意一种视频精彩度的评价方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频精彩度的评价方法，其特征在于，包括：

获得目标视频；

将所述目标视频拆分成若干视频片段；

对各个所述视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数；

其中，提取每个视频片段的视频特征以及音频特征，包括：

获取预训练的卷积网络模型；将视频信息输入至卷积神经网络模型中，以使卷积神经网络模型输出视频信息对应的视频特征；

获取预训练的音频特征提取模型；将音频信息输入至音频特征提取模型中，以使音频特征提取模型输出音频信息对应的音频特征；

在所述将每个视频片段对应的视频特征及音频特征输入至预先训练完成的回归神经网络模型中，以得到每个视频片段各自的精彩度分数的步骤之后，还包括：

使用非线性激活函数对每个所述视频片段的精彩度分数进行处理，得到每个所述视频片段的处理后的精彩度分数；

相应地，所述对各个所述视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数，包括：

对各个所述视频片段的处理后的精彩度分数进行综合运算，以得到目标视频的精彩度分数；

其中，利用获得的视频片段样本，对回归神经网络模型进行训练；

在获得视频片段样本之后，还包括：

统计各个标注的精彩度分数所对应的视频片段样本的数量；

确定所述视频片段样本的数量中的最大值；

在各个标注的精彩度分数所对应的视频片段样本集合内增加视频片段样本，以使各个所述视频片段样本集合中视频片段样本的数量扩充为所述最大值。

2.根据权利要求1所述的视频精彩度的评价方法，其特征在于，所述将所述目标视频拆分成若干视频片段，包括：

确定所述目标视频中包含的关键帧；其中所述关键帧为表征所述目标视频的内容场景发生变化的图像帧；

根据所述关键帧对所述目标视频进行切分，以得到若干视频片段。

3.根据权利要求1所述的视频精彩度的评价方法，其特征在于，所述回归神经网络模型的训练过程包括：

获得视频片段样本，所述视频片段样本标注有精彩度分数；

提取所述视频片段样本的视频特征和音频特征；

使用回归神经网络训练算法，对所述视频片段样本的视频特征及音频特征进行训练，直至回归神经网络模型输出的精彩度分数与标注的精彩度分数之间的关系满足预设损失函数的要求，得到训练完成的回归神经网络模型。

4.根据权利要求1所述的视频精彩度的评价方法，其特征在于，所述对各个所述视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数，包括：

对各个所述视频片段的精彩度分数进行加权求和运算，以得到目标视频的精彩度分数。

5.根据权利要求4所述的视频精彩度的评价方法，其特征在于，所述对各个所述视频片段的精彩度分数进行加权求和运算，以得到目标视频的精彩度分数，包括：

使用归一化指数函数对所述视频片段的精彩度分数进行归一化处理，以得到所述视频片段对应的精彩度权重；

将各个所述视频片段的精彩度权重与所述视频片段的精彩度分数进行加权求和运算，以得到目标视频的精彩度分数。

6.根据权利要求1所述的视频精彩度的评价方法，其特征在于，

所述回归神经网络模型由两层全连接神经网络构成，其中，第一层全连接神经网络的输出结果作为第二层全连接神经网络的输入；

所述第一层全连接神经网络的激活函数为线性整流函数；

所述第二层全连接神经网络的激活函数为非线性激活函数。

7.一种视频精彩度的评价装置，其特征在于，包括：

视频获取模块，用于获得目标视频；

视频拆分模块，用于将所述目标视频拆分成若干视频片段；

特征提取模块，用于提取每个视频片段的视频特征以及音频特征；其中所述视频特征为能够区分出现不同动作类型的视频片段的视频特征，所述音频特征为能够区分出现不同声音类型的音频片段的音频特征；

视频得分模块，用于对各个所述视频片段的精彩度分数进行综合运算，以得到目标视频的精彩度分数；

其中，提取每个视频片段的视频特征以及音频特征，包括：

在获得视频片段样本之后，还包括：

统计各个标注的精彩度分数所对应的视频片段样本的数量；

确定所述视频片段样本的数量中的最大值；

8.一种视频精彩度的评价设备，其特征在于，包括处理器和存储器，所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据，至少执行如下步骤：

获得目标视频；

将所述目标视频拆分成若干视频片段；

其中，提取每个视频片段的视频特征以及音频特征，包括：

在获得视频片段样本之后，还包括：

统计各个标注的精彩度分数所对应的视频片段样本的数量；

确定所述视频片段样本的数量中的最大值；

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6任意一项所述的视频精彩度的评价方法。