CN115496734A

CN115496734A - 视频内容的质量评价方法、网络训练方法和装置

Info

Publication number: CN115496734A
Application number: CN202211190613.7A
Authority: CN
Inventors: 崔东林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-20

Abstract

本公开提供了视频内容的质量评价方法、网络训练方法和装置，涉及人工智能技术领域，尤其涉及大数据、深度学习和智能推荐等技术领域。具体实现方案为：获取目标视频的多模态特征；以及；获取目标视频的参考信息的信息特征；参考信息包括创作目标视频的账号信息和/或目标视频的操作记录；基于多模态特征和信息特征，确定目标视频的内容质量。本公开使用视频信号的多模态特征和视频的离散信息的信息特征进行质量评价，实现了从多个角度全面的对视频内容质量进行评价，能够得到准确的视频质量评价结果。

Description

视频内容的质量评价方法、网络训练方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及大数据、深度学习和智能推荐等技术领域。

背景技术

随着互联网技术的飞速发展，海量视频资源被上传到网络中。从海量视频中筛选出优质视频资源推荐给用户、以此提升用户视频观看的体验能够提高用户的留存率。因此需要一种视频内容质量评价的方法以筛选出优质的视频资源。

发明内容

本公开提供了一种视频内容的质量评价方法、网络训练方法和装置。

根据本公开的一方面，提供了一种视频内容的质量评价方法，包括：

获取目标视频的多模态特征；以及；

获取目标视频的参考信息的信息特征；参考信息包括创作目标视频的账号信息和/或目标视频的操作记录；

基于多模态特征和信息特征，确定目标视频的内容质量。

根据本公开的另一方面，提供了一种神经网络训练方法，包括：

将样本图像输入基于图像的掩码自动编码网络MAE，得到样本图像的初始图像特征；

将样本图像的初始图像特征输入第一全连接网络的特征提取模块，得到样本图像的图像特征；

采用第一全连接网络的分类模块对样本图像的图像特征进行分类处理，得到样本图像的内容质量；

基于样本图像的内容质量和样本图像的质量标签确定损失；

基于损失调整第一全连接网络的特征提取模块和分类模块的网络参数；

其中，第一全连接网络提取的目标视频的图像特征用于构建目标视频的多模态特征，多模态特征用于对目标视频进行内容质量评价。

将样本视频输入基于视频的掩码自动编码网络MAE，得到样本视频的初始视频特征；

将样本视频的初始视频特征输入第二全连接网络的特征提取模块，得到样本视频的视频特征；

采用第二全连接网络的分类模块对样本视频的视频特征进行分类处理，得到样本视频的内容质量；

基于样本视频的内容质量和样本视频的质量标签确定损失；

基于损失调整第二全连接网络的特征提取模块和分类模块的网络参数；

其中，第二全连接网络提取的目标视频的视频特征用于构建目标视频的多模态特征，多模态特征用于对目标视频进行内容质量评价。

根据本公开的另一方面，提供了一种视频内容的质量评价装置，包括：

获取模块，用于获取目标视频的多模态特征；以及；获取目标视频的参考信息的信息特征；参考信息包括创作目标视频的账号信息和/或目标视频的操作记录；

评价模块，用于基于多模态特征和信息特征，确定目标视频的内容质量。

根据本公开的另一方面，提供了一种神经网络训练装置，包括：

初始图像特征提取模块，用于将样本图像输入基于图像的掩码自动编码网络MAE，得到样本图像的初始图像特征；

图像特征提取模块，用于将样本图像的初始图像特征输入第一全连接网络的特征提取模块，得到样本图像的图像特征；

第一质量确定模块，用于采用第一全连接网络的分类模块对样本图像的图像特征进行分类处理，得到样本图像的内容质量；

第一损失确定模块，用于基于样本图像的内容质量和样本图像的质量标签确定损失；

第一调整模块，用于基于损失调整第一全连接网络的特征提取模块和分类模块的网络参数；

初始视频特征确定模块，用于将样本视频输入基于视频的掩码自动编码网络MAE，得到样本视频的初始视频特征；

视频特征确定模块，用于将样本视频的初始视频特征输入第二全连接网络的特征提取模块，得到样本视频的视频特征；

第二质量确定模块，用于采用第二全连接网络的分类模块对样本视频的视频特征进行分类处理，得到样本视频的内容质量；

第二损失确定模块，用于基于样本视频的内容质量和样本视频的质量标签确定损失；

第二调整模块，用于基于损失调整第二全连接网络的特征提取模块和分类模块的网络参数；

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

本公开所提供的视频内容的质量评价方法，使用模态特征和信息特征评价视频，能够从多个角度全面地对视频内容进行评价。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的视频内容的质量评价方法的流程示意图；

图2是根据本公开一实施例提供的神将网络训练方法的流程示意图；

图3是根据本公开又一实施例提供的又一神经网络训练方法的流程示意图；

图4是根据本公开一实施例提供的视频内容评价的结构图；

图5是根据本公开一实施例提供的MAE训练方法的示意图；

图6是根据本公开一实施例提供的视频内容评价的框架图；

图7是根据本公开一实施例提供的视频内容的质量评价装置的示意图；

图8是根据本公开一实施例提供的神经网络训练装置的示意图；

图9是根据本公开有又一实施例提供的又一神经网络训练装置的示意图；

图10是用来实现本公开实施例的视频内容评价方法或网络训练方法的电子设备的框图.

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在信息化社会网络上有着巨大的信息量，在其中视频以其直观、高效的优势成为传播信息的主流方式，各视频平台均有大量的用户。用户从视频平台获取视频资源主要有两种方式：一种是用户直接使用关键词进行搜索，从而有目的性地寻找某个或某一种类的视频；还有一种就是视频平台将视频资源直接推荐给用户。

视频平台将视频资源推荐给用户时，如果向用户推荐低质量视频，例如带有低俗元素的视频，或是抄袭的视频，将会极大程度影响用户的观看体验，进而降低用户对该视频平台的评价。而如果视频平台向用户推荐的视频为高质量视频，则会提高用户的观看体验，进而提高用户的留存率。推荐高质量视频所采用的处理资源也会得到有效利用，避免浪费资源。有鉴于此，本公开提供了一种视频内容的质量评价方法，从多个角度对目标视频进行质量评价，如图1所示，该方法包括：

S101、获取目标视频的多模态特征。

其中，多模态特征顾名思义指的是从多种模态信息提取的特征。多模态特征有利于全面描述视频内容，从而提高视频内容质量评价的准确率。有鉴于目标视频包含的多种模态的信息可包括：图片信息、视频信息、音频信息、文本信息等。因此，实施时，可对上述信息中的至少两种信息进行特征提取，进而得到多模态特征。如，获得目标视频中多帧图像各自的图像特征、目标视频的视频特征、目标视频的文本信息的文本特征。随后选取上述特征中的至少两种特征分别作为待融合特征并将获取的至少两种待融合特征进行融合处理，得到目标视频的多模态特征。

利用多模态特征对视频进行质量评价，可以更为充分地利用视频、音频、文本等多种模态的信息，与单模态视频评价相比，具有更强的表征能力，进而能够更准确地进行视频内容质量评价。此外，本公开提取的多种特征仅用于融合生成多模态特征，而不需要其去执行特定的任务。因此，可以使用无监督的训练模型提取多种待融合特征，使得提取的多种特征更为通用。

为便于理解，下面分别示例性说明图像特征、视频特征和文本特征的获取方式。

1)提取图像特征：

在一些实施例中，可以采用基于图像的MAE(Masked Autoencoder，掩码自动编码网络)提取每帧图像的图像特征。

进一步地，为了能够提取出更加适用于视频内容评价的图像特征，本公开实施例采用基于图像的MAE和第一全连接网络结合的方式来提取每帧图像的图像特征。

首先，可以先通过训练得到基于图像的MAE，然后基于训练好的基于图像的MAE来训练第一全连接网络。第一全连接网络是以完成图像质量评价为训练任务进行训练的。其中，第一全连接网络包括特征提取模块和分类模块。其中特征提取模块用于提取图像特征，分类模块用于基于图像的图像特征进行质量评价，即给出质量等级。分类模块用于协助训练特征提取模块。一种可能的实施例中，全连接网络包括输入层I、隐藏层H、输出层O。其中，输入层I和隐藏层H可视为特征提取模块，输出层O作为分类模块。如图2所示，为第一全连接网络的训练过程的流程示意图，包括：

S201、将样本图像输入基于图像的MAE，得到样本图像的初始图像特征。

S202、将样本图像的初始图像特征输入第一全连接网络的特征提取模块，得到样本图像的图像特征。

S203、采用第一全连接网络的分类模块对样本图像的图像特征进行分类处理，得到样本图像的内容质量。

S204、基于样本图像的内容质量和样本图像的质量标签确定损失。

S205、基于损失调整第一全连接网络的特征提取模块和分类模块的网络参数。

该训练方法中采用基于图像的MAE提取初始图像特征，使得提取的初始图像特征能够不惧遮挡情况，提取的初始图像特征更加具有稳定性和表现力。进一步通过训练第一全连接网络，使得第一全连接网络在实现对视频质量评价的同时，能够从初始图像特征中进一步学习到更有助于视频质量评价的图像特征，从而使得提取的图像特征更加具有表现力，能够提高视频质量评价的准确性。

基于上述描述，训练好基于图像的MAE和第一全连接网络之后，可以使用下列方法获取目标视频中多帧图像各自的图像特征：

步骤A1：从目标视频中提取出多帧图像。

实施时，该多帧图像可以包括目标视频中每帧图像，当然，也可以提取关键帧图像作为用于提取图像特征的多帧图像。

步骤A2：将每帧图像分别输入基于图像的MAE，得到每帧图像分别对应的初始图像特征。

其中，基于图像的MAE是一种无监督的训练模型。将被遮挡的图像输入至MAE中后，MAE会将被遮挡的图像恢复到其未被遮挡时的状态。

步骤A3：将每帧图像的初始图像特征分别输入第一全连接网络的特征提取模块，得到每帧图像的图像特征。

使用无监督的训练模型，可以进行更为泛化的任务，使得到的图像特征更为通用。同时，MAE可以将被遮掩图像复原，也使得可以获得目标视频某一帧图像被遮掩的情况下，仍能较为准确地提取出图像特征。进一步地，本公开实施例中进一步结合视频内容质量评价需求，在基于图像的MAE提取的特征的基础之上，进一步采用满足视频内容评价需求的第一全连接网络进一步进行特征提取，从而得到更加具有表现力的图像特征，从而能够提高视频内容质量评价的准确性。

2)提取视频特征：

在本公开中，由于需要对目标视频的内容进行质量评价，而视频的内容与图像的时间顺序密不可分。因此获取目标视频的视频特征时需要考虑视频图像与时间序列之间的关系。

与提取图像特征类似，本公开实施例可以采用基于视频的MAE提取视频特征。为了能够准确地进行图像内容质量评价，得到更加适用于质量评价的视频特征，本公开实施例中采用基于视频的MAE和第二全连接网络结合的方式来提取视频特征。

首先，可以先通过训练得到基于视频的MAE，然后基于训练好的基于视频的MAE来训练第二全连接网络。第二全连接网络是以完成视频内容质量评价为训练任务进行训练的。其中，第二全连接网络包括特征提取模块和分类模块。其中特征提取模块用于提取视频特征，分类模块用于基于视频的视频特征进行质量评价，即给出质量等级。分类模块用于协助训练特征提取模块。一种可能的实施例中，全连接网络包括输入层I、隐藏层H、输出层O。其中，输入层I和隐藏层H可视为特征提取模块，输出层O作为分类模块。如图3所示，为第二全连接网络的训练过程的流程示意图，包括：

S301、将样本视频输入基于视频的MAE，得到样本视频的初始视频特征；

S302、将样本视频的初始视频特征输入第二全连接网络的特征提取模块，得到样本视频的视频特征；

S303、采用第二全连接网络的分类模块对样本视频的视频特征进行分类处理，得到样本视频的内容质量；

S304、基于样本视频的内容质量和样本视频的质量标签确定损失；

S305、基于损失调整第二全连接网络的特征提取模块和分类模块的网络参数；

该训练方法中采用基于视频的MAE提取初始视频特征，使得提取的初始视频特征包含了时序信息，进一步通过训练第二全连接网络，使得第二全连接网络在实现对视频质量评价的同时，能够从初始视频特征中进一步学习到更有助于视频质量评价的视频特征，从而使得提取的视频特征更加具有表现力，能够提高视频质量评价的准确性。

由此，在训练好基于视频的MAE和第二全连接网络之后，可以使用以下方法获取目标视频的视频特征：

步骤B1：将目标视频的帧序列，依序输入基于视频的MAE，得到目标视频的初始视频特征。

其中，基于视频的掩码自动编码网络MAE与基于图像的掩码自动编码网络MAE类似，均为无监督的训练模型，能够将图像中被遮挡的部分复原。并且在提取视频特征时，基于视频的掩码自动编码网络MAE能够有效地考虑视频的时序信号，识别出视频中连续帧的动作，使得到的视频特征能够体现出目标视频的时间顺序。

步骤B2：将初始视频特征输入第二全连接网络的特征提取模块，得到目标视频的视频特征。

基于视频的MAE可以将被遮掩图像块以及被遮掩的时序信息复原，使得在可以获得目标视频被遮掩的情况下，仍能较为准确地提取出带有时序的视频特征。使用考虑时序的MAE，也能更好的实现对视频内容的评价。进一步地，本公开实施例中进一步结合视频内容质量评价需求，在基于视频的MAE提取的特征的基础之上，采用满足视频内容评价需求的第一全连接网络进一步进行特征提取，从而得到更加具有表现力的视频特征，从而能够提高视频内容质量评价的准确性。

3)提取文本特征：

在一些实施例中，与目标视频相关的文本信息均可用于提取出用于视频内容质量评价的文本特征。例如基于目标视频的音频提取出文本特征。

为了能够提取出更加具有表现力的文本特征，本公开实施例中从多种文本信息中提取文本特征。如可采用以下方法完成获取目标视频的文本信息的文本特征的操作：

步骤C1：提取目标视频的视频帧中包括的第一文本信息；以及获取目标视频的音频中的第二文本信息。

视频中包括的第一文本信息可基于OCR(optical character recognition，文字识别)技术从视频的每帧图像中获取。

步骤C2：对第一文本信息和第二文本信息进行特征提取，得到文本特征。

其中，提取第一文本信息的文本特征时，使用的无监督训练模型可以为BERT(Bidirectional Encoder Representation from Transformers，一种双向的语言表征训练模型)，使用BERT可以生成能融合上下文信息的深层双向语言表征。从目标视频的音频中获取第二文本信息并进行特征提取时，使用的无监督训练模型可以为HuBERT(Hidden-unitBERT)，其使用聚类的方式为BERT提供标签，然后再通过类似BERT的遮掩式损失让模型在连续的语音数据中学习到数据中的声学和语言模型。

提取目标视频中的第一文本信息，同时提取出音频中的第二文本信息，对两种文本信息分别进行特征提取，可以更为全面地提取出目标视频的文本特征，以提高视频内容质量评价的准确性。

在一些实施例中，进行融合处理采用的方法可以为concat。concat是一种将多个特征基于维度进行联合的方法。例如两个特征向量e₁＝([[1,2],[3,4]])，e₂＝([[5,6]])。将e₁,e₂的行维度进行融合，得到的结果为

([[1,2],

[3,4],

[5,6]])

在使用concat进行多模态特征融合时，各特征向量的维度需要相同。

需要说明的是，concat只是实现融合处理得到多模态特征的一种方法，也可以采用add方法直接将多种待融合特征融合在一起，还可以使用注意力机制对各待融合特征进行融合处理。本公开实施例对采用多种待融合特征进行融合处理的方法不做具体的限制。

S102、获取目标视频的参考信息的信息特征；参考信息包括创作目标视频的账号信息和/或目标视频的操作记录。

在一些实施例中，账号信息包括以下中的至少一种：粉丝数、作品数、是否为优质作者。操作记录包括以下中的至少一种：视频的点赞数、点踩数、转发数、评论。其中目标视频作者的粉丝数与作品数越多，目标视频就越可能为优质作品；优质视频数量较多的作者为优质作者，而一些官方号由于其发布的作品具有一定的权威性，所以可以将这些官方号也认证为优质作者。视频的点赞和转发表示用户对视频的喜爱，所以点赞数和转发数越多视频质量越高。同理点踩数越多表示用户越不喜欢该视频，则该视频质量越低。视频的评论数越多代表视频热度越高，但是由于评论有对视频的正面评价，也有对视频的负面评价，因此，对视频的评论需要进行审查，评论中正面评价越多视频质量越高。

将获得的账号信息进行向量化，可以得到参考信息的信息特征。向量化的方法可以为word2vec(word to vector，词向量生成模型)或是分布式表征。账号信息向量化后，得到的离散向量为所需信息特征。

综上，目标视频作者的账号信息以及目标视频的操作记录等参考信息对于视频内容评价有较大的参考价值。对目标视频内容质量进行评价时，利用参考信息可以极大地提高质量评价的准确性。

S103、基于多模态特征和信息特征，确定目标视频的内容质量。

在一些实施例中，可以使用transformer将上述多模态特征和信息特征进行融合，并基于融合得到的结果对视频进行质量评价。

transformer的结构如图4所示，主要由编码器和解码器组成。使用transformer实现特征融合及质量评价时，先将多模态特征和信息特征输入transformer的编码器中。编码器包含一个特征提取模块和一个特征增强模块，可以对特征进行聚合和增强。将编码器处理完成的特征输入之解码器中，在解码器中完成对视频的质量评价。在一些实施例中，质量评价的结果可以为不同的质量等级。例如有1-5五个质量等级，1为质量最高的视频，5为质量最低的视频，其余等级视频质量依次降低。

使用多模态特征能够从多个模态的信息角度来衡量视频，此外结合参考信息，能够适用目标视频的离散信息综合评价视频内容。由此，本公开实施例能够从多个角度全面地对视频内容进行评价。

对用户来说，视频封面是否吸引人会很大程度上影响用户是否点击观看该视频。因此，在一些实施例中，对目标视频进行质量评价时，除了提取目标视频的多模态特征和信息特征外，还可以提取目标视频的封面质量特征。实施时，可将视频封面图输入美学模型，进行画质美学模型识别，获得目标视频的封面质量特征。需要说明的是，本公开对于使用何种美学模型不做具体限定。例如，可以使用NIMA(Neural Image Assessment，神经图像评估)或是ILGNet(Inception Local Global net，一种深度卷积神经网络)。使用美学模型，可以对目标视频封面图像的美学层面进行评分，美学层面包括图像的清晰度、颜色的丰富性、图像的艺术性等。目标视频的封面图像经由美学模型得到目标视频的封面质量特征，将多模态特征、信息特征和封面质量特征融合后，基于融合的结果，得到目标视频的较为准确的内容质量。

基于相同的技术构思，本公开还提供了神经网络的训练方法，用于提取样本图像的图像特征和样本视频的视频特征。

训练的具体方法可以参照图2和图3中所介绍的训练方法，在此不进行赘述。在两种方法中都使用了训练好的MAE进行对目标视频的图像特征或是视频特征进行特征提取，以便于提取出适用于视频内容质量评价的特征。下面将结合图5具体的介绍基于图像的MAE的训练过程。

先将样本图像分为多个图像块，并对其中一部分图像进行遮掩处理。在图5中，将图像分为了16块，依序标号分别为1-16，其中图像块2、3、7、10、15未被遮掩，其余图像块均被遮掩。

对于未被遮掩的图像块，先按照其在样本图像中原有的顺序排列，得到第一拼接信息。如图5所示，第一拼接信息为图像块2、3、7、10、15。将第一拼接信息输入至MAE的编码器中得到未被遮掩图像块的初始图像特征。

将未被遮掩的图像块的初始图像特征和被遮掩的图像块按照在样本图像中的位置进行拼接，得到第二拼接信息；将第二拼接信息输入第一掩码自动编码网络的解码器，得到解码图像。基于解码图像和样本图像之间的损失，调整掩码自动编码网络，得到基于图像的掩码自动编码网络。如图5最后得到的图像块5和样本图像不符，出现损失。掩码自动编码网络将基于该损失进行调整。

基于视频的MAE的训练方法与基于图像的掩码自动编码网络MAE的训练方法类似。但是由于视频具有前后帧图像，许多情况下被遮掩的图像块会在前后帧图像中被找到，会降低训练的效果，使得到的基于视频的MAE无法准确的提取出视频特征。

因此，对基于视频的MAE训练时，一方面提高了图像块的遮掩率以提升MAE提取视频特征的能力。另一方面，使用了时间管机制，将遮掩机制在时间轴上扩展，使得被遮掩的图像块在相近的时间内总是被遮掩的，以此降低了前后帧图像对训练的干扰，且增加了对时间序列的考虑，使得提取到的视频特征可以更为准确地完成对视频内容的评价。

综上，使用MAE，可以使得提取的图像特征与视频特征的结果不会因被遮挡而受到影响。使用MAE完成特征提取也使得特征提取的结果更为可靠。同时，由于基于视频的MAE有对时间序列的考虑，可以使得提取出的视频特征对最终视频内容质量评价更为准确。

为了提高视频内容质量评价的准确率，在本公开中，还对基于多模态特征和信息特征，确定目标视频的内容质量这一过程进行预训练。使用预训练完成后得到的模型进行视频内容质量评价。

本公开实施例中涉及用于提取多模态特征、参考信息的信息特征以及封面美学特征的预训练模型(如包括基于图像的MAE、基于视频的MAE等)，以及完成视频内容质量评价的评价模型。下面将结合图6所示的框架图介绍对目标视频进行质量评价的评价模型的训练方法，如图6所示该评价模型采用transformer。

首先，将预先进行过质量评价的目标视频分为多种状态的信息，如图片信息、视频信息、音频信息、文本信息等。然后对多模态的信息输入预训练模型中进行特征提取，得到目标视频中多帧图像各自的图像特征、目标视频的视频特征、文本特征。并将提取得到的特征使用concat进行融合，得到多模态特征。获取目标视频的封面图像并使用美学模型提取其封面质量特征。将参考信息中的作者账号信息和目标视频的操作记录进行离散化处理，提取出其中的信息特征。将多模态特征、封面质量特征、信息特征使用transformer进行融合，使用融合的结果进行质量评价并与预先进行的质量评价进行对比，计算出损失，基于损失调整transformer和concat直至收敛。

基于相同的技术构思，本公开还提供了一种视频内容的质量评价装置，如图7所示，该装置包括：

获取模块701，用于获取目标视频的多模态特征；以及；获取目标视频的参考信息的信息特征；参考信息包括创作目标视频的账号信息和/或目标视频的操作记录；

评价模块702，用于基于多模态特征和信息特征，确定目标视频的内容质量。

在一些实施例中，执行获取目标视频的多模态特征，获取模块用于：

获取以下至少两种特征分别作为待融合特征：目标视频中多帧图像各自的图像特征、目标视频的视频特征、目标视频的文本信息的文本特征；

将获取的至少两种待融合特征进行融合处理，得到目标视频的多模态特征。

在一些实施例中，执行获取目标视频中多帧图像各自的图像特征，获取模块用于：

从目标视频中提取出多帧图像；

将每帧图像分别输入基于图像的掩码自动编码网络MAE，得到每帧图像分别对应的初始图像特征；

将每帧图像的初始图像特征分别输入第一全连接网络的特征提取模块，得到每帧图像的图像特征，其中，第一全连接网络是以完成图像质量评价为训练任务进行训练的。

在一些实施例中，执行获取目标视频的视频特征，获取模块用于：

将目标视频的帧序列，依序输入基于视频的掩码自动编码网络MAE，得到目标视频的初始视频特征；

将初始视频特征输入第二全连接网络的特征提取模块，得到目标视频的视频特征；其中，第二全连接网络是以完成视频内容质量评价为训练任务进行训练的。

在一些实施例中，执行获取目标视频的文本信息的文本特征，获取模块用于：

提取目标视频的视频帧中包括的第一文本信息；以及，

获取目标视频的音频中的第二文本信息；

对第一文本信息和第二文本信息进行特征提取，得到文本特征。

在一些实施例中，该装置还包括：

提取模块，用于提取目标视频的封面质量特征；

执行基于多模态特征和信息特征，确定目标视频的内容质量，评价模块，用于将多模态特征、信息特征和封面质量特征，输入基于注意力的质量评价网络，得到目标视频的内容质量。

基于相同的技术构思，本公开还提供了一种神经网络训练装置，如图8所示，该装置包括：

初始图像特征提取模块801，用于将样本图像输入基于图像的掩码自动编码网络MAE，得到样本图像的初始图像特征；

图像特征提取模块802，用于将样本图像的初始图像特征输入第一全连接网络的特征提取模块，得到样本图像的图像特征；

第一质量确定模块803，用于采用第一全连接网络的分类模块对样本图像的图像特征进行分类处理，得到样本图像的内容质量；

第一损失确定模块804，用于基于样本图像的内容质量和样本图像的质量标签确定损失；

第一调整模块805，用于基于损失调整第一全连接网络的特征提取模块和分类模块的网络参数；

基于相同的技术构思，本公开还提供了另一种神经网络训练装置，如图9所示，该装置包括：

初始视频特征确定模块901，用于将样本视频输入基于视频的掩码自动编码网络MAE，得到样本视频的初始视频特征；

视频特征确定模块902，用于将样本视频的初始视频特征输入第二全连接网络的特征提取模块，得到样本视频的视频特征；

第二质量确定模块903，用于采用第二全连接网络的分类模块对样本视频的视频特征进行分类处理，得到样本视频的内容质量；

第二损失确定模块904，用于基于样本视频的内容质量和样本视频的质量标签确定损失；

第二调整模块905，用于基于损失调整第二全连接网络的特征提取模块和分类模块的网络参数；

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如视频内容的质量评价方法。例如，在一些实施例中，视频内容的质量评价方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的视频内容的质量评价方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频内容的质量评价方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频内容的质量评价方法，包括：

获取目标视频的多模态特征；以及；

获取所述目标视频的参考信息的信息特征；所述参考信息包括创作所述目标视频的账号信息和/或所述目标视频的操作记录；

基于所述多模态特征和所述信息特征，确定所述目标视频的内容质量。

2.根据权利要求1所述的方法，其中，所述获取目标视频的多模态特征，包括：

获取以下至少两种特征分别作为待融合特征：所述目标视频中多帧图像各自的图像特征、所述目标视频的视频特征、所述目标视频的文本信息的文本特征；

将获取的至少两种待融合特征进行融合处理，得到所述目标视频的多模态特征。

3.根据权利要求2所述的方法，其中，获取目标视频中多帧图像各自的图像特征，包括：

从所述目标视频中提取出多帧图像；

将每帧图像的初始图像特征分别输入第一全连接网络的特征提取模块，得到每帧图像的图像特征，其中，所述第一全连接网络是以完成图像质量评价为训练任务进行训练的。

4.根据权利要求2或3所述的方法，其中，获取所述目标视频的视频特征，包括：

将所述目标视频的帧序列，依序输入基于视频的掩码自动编码网络MAE，得到所述目标视频的初始视频特征；

将所述初始视频特征输入第二全连接网络的特征提取模块，得到所述目标视频的视频特征；其中，所述第二全连接网络是以完成视频内容质量评价为训练任务进行训练的。

5.根据权利要求2-4中任一项所述的方法，其中，获取所述目标视频的文本信息的文本特征，包括：

提取所述目标视频的视频帧中包括的第一文本信息；以及，

获取所述目标视频的音频中的第二文本信息；

对所述第一文本信息和所述第二文本信息进行特征提取，得到所述文本特征。

6.根据权利要求1-5中任一项所述的方法，所述账号信息包括以下中的至少一种：粉丝数、作品数、是否为优质作者；

所述操作记录包括以下中的至少一种：视频的点赞数、点踩数、转发数、评论。

7.根据权利要求1-6中任一项所述的方法，还包括：

提取所述目标视频的封面质量特征；

所述基于所述多模态特征和所述信息特征，确定所述目标视频的内容质量，包括：

将所述多模态特征、所述信息特征和所述封面质量特征，输入基于注意力的质量评价网络，得到所述目标视频的内容质量。

8.一种神经网络训练方法，包括：

将样本图像输入基于图像的掩码自动编码网络MAE，得到所述样本图像的初始图像特征；

将所述样本图像的初始图像特征输入第一全连接网络的特征提取模块，得到样本图像的图像特征；

采用所述第一全连接网络的分类模块对样本图像的图像特征进行分类处理，得到样本图像的内容质量；

基于样本图像的内容质量和样本图像的质量标签确定损失；

基于所述损失调整所述第一全连接网络的特征提取模块和分类模块的网络参数；

其中，所述第一全连接网络提取的目标视频的图像特征用于构建目标视频的多模态特征，所述多模态特征用于对所述目标视频进行内容质量评价。

9.一种神经网络训练方法，包括：

将样本视频输入基于视频的掩码自动编码网络MAE，得到所述样本视频的初始视频特征；

采用所述第二全连接网络的分类模块对样本视频的视频特征进行分类处理，得到样本视频的内容质量；

基于样本视频的内容质量和样本视频的质量标签确定损失；

基于所述损失调整所述第二全连接网络的特征提取模块和分类模块的网络参数；

其中，所述第二全连接网络提取的目标视频的视频特征用于构建目标视频的多模态特征，所述多模态特征用于对所述目标视频进行内容质量评价。

10.一种视频内容的质量评价装置，包括：

获取模块，用于获取目标视频的多模态特征；以及；获取所述目标视频的参考信息的信息特征；所述参考信息包括创作所述目标视频的账号信息和/或所述目标视频的操作记录；

评价模块，用于基于所述多模态特征和所述信息特征，确定所述目标视频的内容质量。

11.根据权利要求10所述的装置，其中，执行所述获取目标视频的多模态特征，所述获取模块用于：

12.根据权利要求11所述的装置，其中，执行获取目标视频中多帧图像各自的图像特征，所述获取模块用于：

从所述目标视频中提取出多帧图像；

13.根据权利要求11或12所述的装置，其中，执行获取所述目标视频的视频特征，所述获取模块用于：

14.根据权利要求11-13中任一项所述的装置，其中，执行获取所述目标视频的文本信息的文本特征，所述获取模块用于：

提取所述目标视频的视频帧中包括的第一文本信息；以及，

获取所述目标视频的音频中的第二文本信息；

15.根据权利要求10-14中任一项所述的装置，所述账号信息包括以下中的至少一种：粉丝数、作品数、是否为优质作者；

16.根据权利要求10-15中任一项所述的装置，还包括：

提取模块，用于提取所述目标视频的封面质量特征；

执行所述基于所述多模态特征和所述信息特征，确定所述目标视频的内容质量，所述评价模块，用于将所述多模态特征、所述信息特征和所述封面质量特征，输入基于注意力的质量评价网络，得到所述目标视频的内容质量。

17.一种神经网络训练装置，包括：

初始图像特征提取模块，用于将样本图像输入基于图像的掩码自动编码网络MAE，得到所述样本图像的初始图像特征；

图像特征提取模块，用于将所述样本图像的初始图像特征输入第一全连接网络的特征提取模块，得到样本图像的图像特征；

第一质量确定模块，用于采用所述第一全连接网络的分类模块对样本图像的图像特征进行分类处理，得到样本图像的内容质量；

第一调整模块，用于基于所述损失调整所述第一全连接网络的特征提取模块和分类模块的网络参数；

18.一种神经网络训练装置，包括：

初始视频特征确定模块，用于将样本视频输入基于视频的掩码自动编码网络MAE，得到所述样本视频的初始视频特征；

第二质量确定模块，用于采用所述第二全连接网络的分类模块对样本视频的视频特征进行分类处理，得到样本视频的内容质量；

第二调整模块，用于基于所述损失调整所述第二全连接网络的特征提取模块和分类模块的网络参数；

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。