CN110121110A

CN110121110A - 视频质量评估方法、设备、视频处理设备及介质

Info

Publication number: CN110121110A
Application number: CN201910376420.2A
Authority: CN
Inventors: 丁敏; 黄浩; 王春燕
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-08-13
Anticipated expiration: 2039-05-07
Also published as: CN110121110B

Abstract

本发明公开了视频质量评估方法、设备、视频处理设备及介质。一种视频质量评估方法方法包括：构建要用于神经网络系统的评估模型的训练数据集，包括人工标注数据和用户点击量数据；属性特征获取步骤，针对训练数据集中的每个样本，通过神经网络系统，获得每个样本的与视频属性数据相关的各属性特征；特征合成步骤，针对每个样本，对该样本的各属性特征进行特征合成处理，得到该样本的合成特征；以及训练步骤，通过对每个样本的所述合成特征，结合所述人工标注任务与所述用户点击量任务进行对抗训练，生成用于评估视频质量的评估模型。本发明提出的视频质量评估模型无论对于新视频还是已曝光视频，都能够得到更准确、更有效的评估结果。

Description

视频质量评估方法、设备、视频处理设备及介质

技术领域

本发明涉及视频处理技术，尤其涉及视频质量评估方法、设备、视频处理设备及介质。

背景技术

在当前移动互联网时代，每个用户既是内容的消费者，也是内容的创造者，由用户生成的各种内容爆发式增长。

发明人发现，在视频推荐场景中，由用户生成的海量的视频往往只能展示少部分，而且，由于新视频出现的时间短，积攒的点击量往往相比于旧视频低，所以新视频依据点击量被推荐的几率也很低。

另外，用户上传的内容质量也参差不齐，低质视频主要体现在封面图不清晰、视频描述无意义等，这对个性化推荐算法带来了一定挑战，也会给用户带来不好的观看体验。因此，在视频推荐业务中，一般通过对每一个视频的质量进行评分，并根据评分来进行视频推荐和展示，由此增大高质量视频的曝光几率。

目前，视频质量评分方法主要分为两种，这两种方法之间主要的差别在于训练数据的来源不同。一种是基于标注数据，即由人工对推荐池里的视频打分，以一些高质量视频作为正样本，并以一些低质量视频作为负样本，作为训练数据。另一种是基于已曝光的数据，按照被推荐视频的点击量降序排列，抽取一些高点击量的视频作为正样本，抽取一些低点击量的视频作为负样本，作为训练数据。

这两种方法各自都有局限性。具体地，第一种方法中，由于标注的数据是由人工评判的，导致视频的好坏判断具有很大的主观性，这样的数据本身就含有噪声；另外，由于用户自身都有个性化的喜好，因此，由个别人标注出来的高质量的视频很难满足海量用户的个性化需求，即由少量标注人员标注出来的、认为高质量的视频不一定是大部分用户倾向点击或观看的。而在第二种方法中，是完全基于用户的点击量来抽取正负样本的，而由于旧视频上线时间长，累积的点击量通常比新视频的点击量高，所以用户点击量并不能全面和准确地反映新视频和旧视频的受欢迎程度，而且用户喜欢点击的不一定都是高质量的视频。

如上所述，对于短视频的质量评估，单独通过人工标注的先验数据或者通过用户行为的后验数据，学习出来的神经网络模型的质量评分均有一定的偏差。

因此，亟需一种更准确、更有效的视频质量评估方法。

发明内容

为了解决以上问题之一，本发明提供了一种视频质量评估方法、设备、视频处理设备及介质。

具体地，本发明提出了一种基于多任务的视频质量评估方案，通过将人工标注数据和用户行为数据结合起来，将先验数据和后验数据分别作为一个子任务，同时利用对抗训练的方法，学习出具有两个任务共有特征属性的神经网络模型，使得该模型在新视频和已曝光视频上的质量评估都具有良好的表现，即，得到的评估结果更准确、更有效。

根据本发明的一个实施例，提供一种视频质量评估方法，该方法包括：数据集构建步骤，构建用于神经网络系统的评估模型的训练数据集，在该训练数据集中包括人工标注数据和用户点击量数据，其中，人工标注数据是与所述神经网络系统的人工标注任务相关的、其中由人工标注了质量高低的视频数据，用户点击量数据是是与所述神经网络系统的用户点击量任务相关的、其中记载了用户点击量的视频数据；属性特征获取步骤，针对训练数据集中的每个样本，通过神经网络系统，获得每个样本的与视频属性数据相关的各属性特征；特征合成步骤，针对每个样本，对该样本的各属性特征进行特征合成处理，得到该样本的合成特征；以及训练步骤，通过对每个样本的所述合成特征，结合所述人工标注任务与所述用户点击量任务进行对抗训练，生成用于评估视频质量的评估模型。

可选地，所述训练数据集中的每个样本数据包含该样本的视频属性数据、该样本所属的任务类别以及标签类别，其中，样本的视频属性数据包括该视频的封面图、标题、描述；样本所属的任务类别用于表示该样本视频所属的任务；样本的标签类别用于表示该样本视频的质量类别。

可选地，在数据集构建步骤中，将既属于人工标注数据又属于用户点击量数据的、视频内容相同的两条视频数据合并成一条视频数据，其中，合并后的该条视频数据中保留作为人工标注数据时的标签类别和所属的任务类别、以及作为用户点击量数据时的标签类别和所属的任务类别。

可选地，在所述训练步骤中，通过将每个样本的所述合成特征分别输入到用于人工标注任务的第一全连接网络、用于用户点击量任务的第二全连接网络与用于对抗训练的对抗全连接网络，得到各全连接网络的损失值，并通过所述损失值的反向传播来调节神经网络系统的参数，生成评估模型。

可选地，在属性特征获取步骤中，使训练数据集中的每个样本通过用于提取样本的各属性特征的各个相应的神经网络，并从各神经网络的中间层获得每个样本的相应属性特征。

可选地，所述特征合成步骤中的特征合成处理包括属性特征的拼接与属性特征的维度变换。

可选地，通过使从所述各神经网络的中间层获得的每个样本的相应属性特征通过各自相应的全连接网络，获得所述属性特征的维度变换。

可选地，该方法还包括：评估步骤，将待评估视频输入到所述评估模型，得到该视频的质量评分。

可选地，在评估步骤中，基于所述待评估视频的属性，确定所述待评估视频对应于人工标注任务还是用户点击量任务，并从用于与该待评估视频相对应的任务的全连接网络得到该视频的质量评分。

可选地，对所述合成特征施加下式所示的损失函数：

L_total＝L_task1+L_task2+L_{adv_loss}，

其中，L_total为损失函数的损失值，L_task1、L_task2分别是人工标注任务和用户点击量任务的交叉熵损失，L_{adv_loss}是对抗损失，

其中，人工标注任务的交叉熵损失L_task1由人工标注任务的输入与该输入中包含的标签信息的交叉墒得到，用户点击量任务的交叉熵损失L_task2由用户点击量任务的输入与该输入中包含的标签信息的交叉墒得到，对抗损失L_{adv_loss}由人工标注任务与用户点击量任务的共同输入、以及该共同输入所属任务类别的交叉墒得到。

可选地，所述损失函数中还包含调节损失值参数，所述调节损失值参数为人工标注任务的第一全连接网络和用户点击量任务的第二全连接网络的L2正则损失R，如下式所示：

L_total＝L_task1+L_task2+L_{adv_loss}+R。

根据本发明的实施例，提供一种视频质量评估设备，该视频质量评估设备包括：数据集构建装置，被配置用于构建用于神经网络系统的评估模型的训练数据集，在该训练数据集中包括人工标注数据和用户点击量数据，其中，人工标注数据是与所述神经网络系统的人工标注任务相关的、其中由人工标注了质量高低的视频数据，用户点击量数据是是与所述神经网络系统的用户点击量任务相关的、其中记载了用户点击量的视频数据；属性特征获取装置，被配置用于针对训练数据集中的每个样本，通过神经网络系统，获得每个样本的与视频属性数据相关的各属性特征；特征合成装置，被配置用于针对每个样本，对该样本的各属性特征进行特征合成处理，得到该样本的合成特征；以及训练装置，被配置用于通过对每个样本的所述合成特征，结合所述人工标注任务与所述用户点击量任务进行对抗训练，生成用于评估视频质量的评估模型。

可选地，在数据集构建装置中，将既属于人工标注数据又属于用户点击量数据的、视频内容相同的两条视频数据合并成一条视频数据，其中，合并后的该条视频数据中保留作为人工标注数据时的标签类别和所属的任务类别、以及作为用户点击量数据时的标签类别和所属的任务类别。

可选地，在所述训练装置中，通过将每个样本的所述合成特征分别输入到用于人工标注任务的第一全连接网络、用于用户点击量任务的第二全连接网络与用于对抗训练的对抗全连接网络，得到各全连接网络的损失值，并通过所述损失值的反向传播来调节神经网络系统的参数，生成评估模型。

可选地，该设备还包括：评估装置，被配置用于将待评估视频输入到所述评估模型，得到该视频的质量评分。

可选地，所述评估装置基于所述待评估视频的属性，确定所述待评估视频对应于人工标注任务还是用户点击量任务，并从用于与该待评估视频相对应的任务的全连接网络得到该视频的质量评分。

根据本发明的再一个实施例，提供一种视频处理设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上面描述的方法之一。

根据本发明的又一个实施例，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行上面描述的方法之一。

在本发明中，提出了基于多任务的视频评估模型，综合考量人工标注与用户点击量的标准，由此有效克服了现有技术在新视频和老视频的质量评估上存在的缺陷，从而获得更准确、更有效的视频质量评估结果。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的附图标记通常代表相同部件。

图1给出了根据本发明的一个示例性实施例的视频质量评估方法的示意性流程图。

图2示意性地给出了根据本发明的一个示例性实施例的视频质量评估系统的框图。

图3示意性地给出了根据本发明的另一个示例性实施例的视频质量评估系统的框图。

图4给出了根据本发明的一个示例性实施例的视频质量评估设备的示意性框图。

图5给出了根据本发明的一个示例性实施例的数据处理设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。这里需要说明的是，本申请中的数字、序号以及附图标记仅是为了方便描述而出现的，对于本发明的步骤、顺序等等均不构成任何限制，除非在说明书中明确指出了步骤的执行有特定的先后顺序。

如发明内容部分中所述，本发明提出了一种基于多任务的视频质量评估方案，通过将人工标注数据和用户行为数据结合起来，将先验数据和后验数据分别作为一个子任务，同时利用对抗训练的方法，学习出具有两个任务共有特征属性的神经网络模型，使得该模型在新视频和已曝光视频上的质量评估都具有良好的表现，即能够获得更准确、更有效的视频质量评估结果。

图1给出了根据本发明的一个示例性实施例的视频质量评估方法的示意性框图。

具体地，根据本发明的一个示例性实施例的视频质量评估方法包含以下步骤，为了容易理解和描述起见，下面将参照图1和图2的系统框图来进行描述。

在步骤S110，构建评估模型的训练数据集D。

具体地，从海量视频数据中抽取N1条按照人工标注的视频数据作为“人工标注数据集”(也可以称为“第一任务的数据集”)，抽取N2条按照用户点击量的视频数据作为“用户点击量数据集”(也可以称为“第二任务的数据集”)。

其中，上述的两个数据集的正负样本比例可以为m:n。当然，两个数据集的正负样本比例也可以不同。这些参数都不应构成对于本发明的任何限制。

其中，在构造“人工标注数据集”时，可以从人工标注为“高质量”的视频数据中选取一部分作为正样本，从人工标注为“低质量”的视频数据中选取一部分作为负样本。

其中，在构造“用户点击量数据集”时，将标注有用户点击量的视频数据按照点击量从高到低排序，将排序在前的样本或者其一部分(例如前20％的点击量视频数据或者其一部分)作为正样本，将排序在后的样本或者其一部分(例如后40％的点击量视频数据或者其一部分)作为负样本。

其中，例如，m可以取值为3，n可以取值为1。在实践中可以根据具体情况做相应调整，这些参数不应构成对本发明的任何限制。

然后，将上述的这两个数据集结合起来，构成评估模型的训练数据集D。

其中，该训练数据集D中的每一条样本训练数据都包含样本的属性数据(例如每一条视频数据的封面图、标题、描述等属性数据)、该样本所属的任务类别以及标签类别。

其中，样本所属的任务类别用于表示该样本视频数据所属的任务，即“人工标注任务”还是“用户点击量任务”。其取值可以为0或1(或者任何其他不同的值)，例如，“1”可以表示属于“人工标注任务”，即本身是具备了人工标注信息的视频数据，“0”可以表示“用户点击量任务”，即本身是具备了用户点击量信息的视频数据。

类似地，标签类别用于表示样本视频数据的质量类别，即，属于高质量视频还是低质量视频。其取值可以为0或1(或者任何其他不同的值)，例如，“1”可以代表高质量视频，“0”可以代表低质量视频。

由上面的描述可知，上述的“人工标注数据集”与“用户点击量数据集”这两个数据集加起来的数据量为(N1+N2)条。

但是，其中可能有若干条视频数据既在“人工标注数据集”中，也在“用户点击量数据集”中，即，在两个数据集中都出现了。此时，可以采用以下方式进行处理：将分属在不同的数据集中、但是内容重复(视频内容相同)的两条视频数据合并成一条视频数据，而这条合并的视频数据的标签类别和所属的任务类别可以分别保持原样，即，合并后的该条视频数据中保留作为人工标注数据时的标签类别和所属的任务类别、以及作为用户点击量数据时的标签类别和所属的任务类别。

即，与仅出现在一个数据集中的视频数据的处理不同，在这两个数据集中分别都出现了的同一条视频(虽然之前在两个数据集中作为两条视频数据，但是因为内容相同而被合并为一条视频数据)，需要保持原来分属于两个数据集时的所属的任务类别数据和标签类别数据。

例如，某条视频数据Video1在“人工标注数据集”时的任务类别为1(表示属于“人工标注任务”)，标签类别为1(表示属于“高质量视频”)；在“用户点击量数据集”时的任务类别为0(表示属于“用户点击量任务”)，标签类别为0(表示属于“低质量视频”)，该条视频数据Video1因为视频内容相同而在训练数据集中被合并为一条样本训练数据之后，其任务类别和标签类别仍然将表示出其属于“人工标注任务”时为“高质量视频”，而在其属于“用户点击量任务”时为“低质量视频”。

这样操作，便于在执行两个单独的模型学习任务(例如，第一任务可以为人工标注数据学习任务，第二任务可以为用户点击量数据学习任务)时，即便对于发生了合并操作的那些视频数据，仍然能够区分出其数据来源并得到需要学习的该样本的具体的学习内容，不会因为发生了数据合并而导致信息丢失，影响学习效果。也就是说，通过这样的数据合并方式，既简化了训练数据集，节约了处理资源并且提高处理效率，又能保持所需信息的独立和完整，得到较完备的学习，从而能够取得较好的训练效果。

当然，对于内容相同的重复视频，也可以不对数据集进行精简，即仍然保持原来的数据模式。

在步骤S120，针对训练数据集D中的每个样本，通过神经网络系统，获得每个样本的分别与上述的各属性数据相关的各属性特征。

其中，上述的各属性数据包括例如封面图、标题、描述等与视频的属性有关的数据。相应地，样本的属性特征也包括相应的例如封面图特征、标题特征和描述特征等。

具体地，例如，训练数据集D中的每个样本的“封面图”数据输入到封面图神经网络(简称为“封面图NN”)，并将封面图神经网络的输出作为封面图特征Fimg。

类似地，例如，使训练数据集D中的每个样本的“标题”数据输入到标题神经网络(简称为“标题NN”)，将标题神经网络的输出作为标题特征Ftitle。

类似地，例如，使训练数据集D中的每个样本的“描述”数据输入到描述神经网络(简称为“描述NN”)，将描述神经网络的输出作为描述特征Fdesc。

更具体地，举例来说，每个样本的“封面图”数据可以输入一个下面这样的封面图神经网络：例如，一个在开放式数据集(例如ImageNet数据集)上预训练的Resnet50网络。其中，Resnet50网络是可以用来训练imagenet的准确率非常高的网络之一。其中，例如，可以取Resnet50网络的中间层的输出作为封面图特征。

另外，可以先对“标题”数据与“描述”数据分别采用词向量求平均技术，得到它们各自的平均词向量，然后使“标题”数据与“描述”数据的平均词向量再各自通过标题神经网络(例如下面提到的fasttext网络)和描述神经网络(例如下面提到的textCNN网络)进行特征提取，由此分别得到“标题”特征和“描述”特征。

其中，更具体地，例如，标题神经网络可以具体使用fasttext网络(快速的文本分类器网络，主要结合使用了词向量求平均技术与查表技术)，描述神经网络可以具体使用textCNN网络(文本卷积神经网络，属于一种卷积神经网络)。

其中，可以取描述神经网络的池化层的输出作为描述特征。标题神经网络的输出可以从其输出层之前的一层提取输出，作为标题特征。

由上可知，封面图神经网络、标题神经网络、以及描述神经网络均使用了中间层作为输出，因为本步骤的任务是要提取特征。

这里，可选地，由于“封面图”数据的特征较多，“描述”数据的内容比标题长且多，所以封面图神经网络和描述神经网络可以选用较复杂的卷积神经网络。另一方面，由于“标题”数据中包含的内容一般较短，所以可以采用浅层的神经网络(相对照于深度神经网络)作为标题神经网络。

另外，更具体地，例如，图像特征Fimg的特征维度可以为4096，标题特征的特征维度可以为128，描述特征的特征维度可以为756。

再另外，在提取标题特征和描述特征时，可以先对每个样本的标题数据和描述数据在ID查找表中进行ID查找处理(也可称为“ID化”)。

例如，可以事先定义一个ID查找表，其可以规定每个词所对应的ID号。通过在该ID查找表中查找相应的标题与描述，可以得到它们的相应ID号。

然后，根据标题和描述的ID号，分别在一个预训练的词向量表中做查找，以得到标题和描述的相应词向量。其中，词向量的维度例如可以为64。

一方面，可以对上面得到的标题的词向量求平均作为标题特征Ftitle。

另一方面，上面得到的、描述的词向量可以输入TextCNN网络，该网络的卷积核的大小取值例如可以为[3，5，7](仅作为用于解释具体实施的例子出现，不构成对本发明的任何限制)，然后可以取中间层(例如池化层)的输出作为描述特征Fdesc。

请注意，为了使得更容易理解和实施本发明，在本步骤举出了很多非常具体的例子，本领域技术人员应当理解，这些例子不应被作为对于本发明的任何限制。

在步骤S130，针对每个训练样本，对该样本的各属性特征进行特征合成处理，以得到该样本的合成特征。

其中，特征合成处理包括特征的简单组合，例如按照各自的特征维度直接拼接(例如，结合上面例示的维度值继续举例：合成特征的维度＝图像特征维度4096+标题特征维度128+描述特征维度756)。例如，可以将图像特征Eimg、标题特征Etitle、描述特征Edesc拼接起来，作为视频的特征表示，即样本的合成特征Eshare＝[Eimg，Etitle，Edesc]。

特征合成处理也可以包括变换特征维度的处理，例如，可以使维度较高的图像特征的维度降维(减小维度)，例如，可以降维至标题特征的维度或者描述特征的维度，以便通过减小特征的维度来更加有效地利用存储和处理资源，提高处理效率。类似地，也可以使维度较小的特征增大维度，以便使三个特征的维度统一到同一个维度。

当然，也可以进行其他的特征变换处理，本发明对此不再赘述。

其中，可选地，可以通过全连接网络(fullconnection，简称FC)来实现特征变换处理(例如，维度变换处理等)，如图3所示。

在图3中，每个属性特征连接到一个全连接网络。其中，样本的图像特征相关的全连接网络隐层数例如可以为[512，128，32]，标题特征相关的全连接网络隐层数例如可以为[64，32]，描述特征相关的全连接网络隐层数例如可以为[128，32]，如图3所示。

在步骤S140，将合成特征Eshare输入到两个与任务相关的任务全连接网络(可分别称作“任务1全连接网络”和“任务2全连接网络”)以及对抗全连接网络，并得到相应的损失值。

具体地，例如，可以得到两个任务全连接网络的交叉熵损失以及对抗训练的对抗损失，如图2所示。

这里，例如，两个任务全连接网络的隐层数均可以为32。但是这里所例举的数值仅是例子，而本发明对此不作任何限制。

在步骤S150，通过对合成特征运用对抗训练，训练神经网络系统的评估模型。

这里，对抗训练通常是指通过使用两个神经网络进行博弈进而实现学习。

在本发明中，通过使用其中添加了对抗训练的参数的损失函数，具体地，使损失函数反向传播，来调节神经网络系统的参数，得到优化的评估模型。

其中，对抗训练的参数例如为对抗损失(即，对抗训练的损失值)。

首先，例如，要对合成特征施加的损失函数例如可以如下式1所示：

L_total＝L_task1+L_task2+L_{adv_loss} (1)。

其中，L_total为损失函数的损失值，可以认为是由任务1、任务2的损失值以及对抗损失得到的总损失值。L_task1、L_task2分别是任务1(人工标注任务)和任务2(用户点击量任务)的交叉熵损失。L_{adv_loss}是对抗损失。

其中，任务1的交叉熵L_task1由任务1的输入(实际是上述的合成特征中的具有人工标注信息的特征)和该输入中包含的标签信息的交叉墒得到，同理，任务2的交叉熵L_task2由任务2的输入(实际是上述的合成特征中的具有用户点击量信息的特征)和该输入中包含的标签信息的交叉墒得到，对抗损失L_{adv_loss}由任务1和任务2的共同输入(实际是上述的合成特征中的既具有人工标注信息又具有用户点击量信息的特征)与该输入所属任务类别的交叉墒得到。

另外，可选地，还可以给损失函数添加一个调节损失值，以避免损失函数值过激。这里，例如，调节损失值例如可以为任务1和任务2全连接子网络的L2正则损失R，如下式2所示。

L_total＝L_task1+L_task2+L_{adv_loss}+R (2)。

当然，上面给出的式子1和2的两种损失函数的定义方式都仅是例子。实际上，也可以根据需求，按照别的方式来定义损失函数，目的都是为了得到按照一定目标对神经网络系统进行优化的评估模型。因此，本发明对此不作任何限制。

在步骤S160，可以输入视频以对其质量进行预测，例如，可以用训练好的神经网络系统的评估模型对输入视频打分。

如果是新视频，则可以取任务1(人工标注任务)全连接网络的输出作为其质量得分，反之则可以取任务2(用户点击量任务)全连接网络的输出作为该视频的质量得分。

更具体地，在执行视频质量的预测时，“任务1全连接网络”可以作为与人工标注数据相关的任务1而得到对于输入视频的评分，“任务2全连接网络”的输出可以作为与用户点击量相关的任务2而得到对于输入视频的评分。

其中，从“任务1全连接网络”输出的评分结果，人工标注(先验)的优先级可以高于用户点击量(后验)，即，人工标注和用户点击量方面都有考虑到，不过更侧重人工标注的质量识别结果(高质量和低质量)。相反，从“任务2全连接网络”输出的评分结果，用户点击量(后验)的优先级可以高于人工标注(先验)，即，人工标注和用户点击量方面都有考虑到，不过更侧重用户点击量的质量识别结果(高质量和低质量)。

当然，也可以对于从这两个任务全连接网络输出的评分进行综合处理，例如平均化、加权、加权平均等处理，以得到一个综合评分，其中，该综合评分可以对于人工标注和用户点击量两个方面都充分顾及到，而不是像直接从任务全连接网络输出的评分结果，具有一定的侧重性。

另外，还可以同时输出两个任务的得分作为基础分，并以该基础分作为推荐算法的输入。

另外，上述合成特征也可以用于召回或重排序输入。

通过将人工标注数据和用户行为数据结合起来，本发明把先验数据和后验数据分别作为一个子任务，同时利用对抗训练的方法，学习出具有两个任务共有特征属性的神经网络模型作为评估模型，使得该模型在新视频和已曝光视频上的质量评估都具有良好的表现。

在本发明中，提出了基于多任务的视频评估模型，综合考量人工标注与用户点击量的标准，由此有效克服了现有技术在新老视频的质量评估上存在的缺陷，从而获得更准确、更有效的视频质量评估结果。

本发明可以用于视频推荐系统的新视频冷启动、视频推荐库(corpus)的准入和退场、输出视频嵌入(embedding)特征作为视频推荐系统的输入等等方面，但是，本发明的应用不限于这些方面。

如图4所示，根据本发明的一个示例性实施例的视频质量评估设备100包括数据集构建装置110、属性特征获取装置120、特征合成装置130、训练装置140。

其中，例如，数据集构建装置110可以被配置用于构建用于神经网络系统的评估模型的训练数据集，在该训练数据集中包括人工标注数据和用户点击量数据，其中，人工标注数据是与所述神经网络系统的人工标注任务相关的、其中由人工标注了质量高低的视频数据，用户点击量数据是是与所述神经网络系统的用户点击量任务相关的、其中记载了用户点击量的视频数据。

属性特征获取装置120可以被配置用于针对训练数据集中的每个样本，通过神经网络系统，获得每个样本的与视频属性数据相关的各属性特征；

特征合成装置130可以被配置用于针对每个样本，对该样本的各属性特征进行特征合成处理，得到该样本的合成特征。

训练装置140可以被配置用于通过对每个样本的所述合成特征，结合所述人工标注任务与所述用户点击量任务进行对抗训练，生成用于评估视频质量的评估模型。

另外，可选地，视频质量评估设备100还可以包括评估装置150。其中，评估装置150可以被配置用于将待评估视频输入到所述评估模型，得到该视频的质量评分。

这里，上述的各装置110-150的操作可以分别与上面针对质量评估方法描述的各步骤110-150的处理相对应，因此，在此不对类似内容再作赘述。

参见图5，该数据处理设备1包括存储器10和处理器20。

处理器20可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器20可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器20可以使用定制的电路实现，例如特定用途集成电路(ASIC，ApplicationSpecificIntegratedCircuit)或者现场可编程逻辑门阵列(FPGA，FieldProgrammableGateArrays)。

存储器10上存储有可执行代码，当所述可执行代码被所述处理器20执行时，使所述处理器20执行上面描述的数据迁移方法之一。其中，存储器10可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器20或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器10可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器10可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、minSD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图等等显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种视频质量评估方法，其特征在于，该方法包括：

数据集构建步骤，构建要用于神经网络系统的评估模型的训练数据集，在该训练数据集中包括人工标注数据和用户点击量数据，其中，人工标注数据是与所述神经网络系统的人工标注任务相关的、其中由人工标注了质量高低的视频数据，用户点击量数据是是与所述神经网络系统的用户点击量任务相关的、其中记载了用户点击量的视频数据；

属性特征获取步骤，针对训练数据集中的每个样本，通过神经网络系统，获得每个样本的与视频属性数据相关的各属性特征；

特征合成步骤，针对每个样本，对该样本的各属性特征进行特征合成处理，得到该样本的合成特征；

训练步骤，通过对每个样本的所述合成特征，结合所述人工标注任务与所述用户点击量任务进行对抗训练，生成用于评估视频质量的评估模型。

2.如权利要求1所述的视频质量评估方法，其特征在于，

所述训练数据集中的每个样本数据包含该样本的视频属性数据、该样本所属的任务类别以及标签类别；

其中，样本的视频属性数据包括该视频的封面图、标题、描述；

样本所属的任务类别用于表示该样本视频所属的任务；

样本的标签类别用于表示该样本视频的质量类别。

3.如权利要求1所述的视频质量评估方法，其特征在于，

在数据集构建步骤中，将既属于人工标注数据又属于用户点击量数据的、视频内容相同的两条视频数据合并成一条视频数据，

其中，合并后的该条视频数据中保留作为人工标注数据时的标签类别和所属的任务类别、以及作为用户点击量数据时的标签类别和所属的任务类别。

4.如权利要求1所述的视频质量评估方法，其特征在于，在所述训练步骤中，通过将每个样本的所述合成特征分别输入到用于人工标注任务的第一全连接网络、用于用户点击量任务的第二全连接网络与用于对抗训练的对抗全连接网络，得到各全连接网络的损失值，并通过所述损失值的反向传播来调节神经网络系统的参数，生成评估模型。

5.如权利要求1所述的视频质量评估方法，其特征在于，

在属性特征获取步骤中，使训练数据集中的每个样本通过用于提取样本的各属性特征的各个相应的神经网络，并从各神经网络的中间层获得每个样本的相应属性特征。

6.如权利要求1所述的视频质量评估方法，其特征在于，

所述特征合成步骤中的特征合成处理包括属性特征的拼接与属性特征的维度变换。

7.如权利要求6所述的视频质量评估方法，其特征在于，

通过使从所述各神经网络的中间层获得的每个样本的相应属性特征通过各自相应的全连接网络，获得所述属性特征的维度变换。

8.如权利要求1所述的视频质量评估方法，其特征在于，该方法还包括：

评估步骤，将待评估视频输入到所述评估模型，得到该视频的质量评分。

9.如权利要求8所述的视频质量评估方法，其特征在于，在所述评估步骤中，基于所述待评估视频的属性，确定所述待评估视频对应于人工标注任务还是用户点击量任务，并从用于与该待评估视频相对应的任务的全连接网络得到该视频的质量评分。

10.如权利要求4所述的视频质量评估方法，其特征在于，

对所述合成特征施加下式所示的损失函数：

L_total＝L_task1+L_task2+L_{adv_loss}，

11.如权利要求10所述的视频质量评估方法，其特征在于，所述损失函数中还包含调节损失值参数，所述调节损失值参数为人工标注任务的第一全连接网络和用户点击量任务的第二全连接网络的L2正则损失R，如下式所示：

L_total＝L_task1+L_task2+L_{adv_loss}+R。

12.一种视频质量评估设备，其特征在于，该视频质量评估设备包括：

数据集构建装置，被配置用于构建用于神经网络系统的评估模型的训练数据集，在该训练数据集中包括人工标注数据和用户点击量数据，其中，人工标注数据是与所述神经网络系统的人工标注任务相关的、其中由人工标注了质量高低的视频数据，用户点击量数据是是与所述神经网络系统的用户点击量任务相关的、其中记载了用户点击量的视频数据；

属性特征获取装置，被配置用于针对训练数据集中的每个样本，通过神经网络系统，获得每个样本的与视频属性数据相关的各属性特征；

特征合成装置，被配置用于针对每个样本，对该样本的各属性特征进行特征合成处理，得到该样本的合成特征；以及

训练装置，被配置用于通过对每个样本的所述合成特征，结合所述人工标注任务与所述用户点击量任务进行对抗训练，生成用于评估视频质量的评估模型。

13.如权利要求12所述的视频质量评估设备，其特征在于，

在数据集构建装置中，将既属于人工标注数据又属于用户点击量数据的、视频内容相同的两条视频数据合并成一条视频数据，

14.如权利要求12所述的视频质量评估设备，其特征在于，在所述训练装置中，通过将每个样本的所述合成特征分别输入到用于人工标注任务的第一全连接网络、用于用户点击量任务的第二全连接网络与用于对抗训练的对抗全连接网络，得到各全连接网络的损失值，并通过所述损失值的反向传播来调节神经网络系统的参数，生成评估模型。

15.如权利要求12所述的视频质量评估设备，其特征在于，该设备还包括：

评估装置，被配置用于将待评估视频输入到所述评估模型，得到该视频的质量评分。

16.如权利要求15所述的视频质量评估设备，其特征在于，所述评估装置基于所述待评估视频的属性，确定所述待评估视频对应于人工标注任务还是用户点击量任务，并从用于与该待评估视频相对应的任务的全连接网络得到该视频的质量评分。

17.一种视频处理设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1～11中任何一项所述的方法。

18.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行如权利要求1～11中任何一项所述的方法。