CN110099302B

CN110099302B - 视频分级方法、装置、设备及存储介质

Info

Publication number: CN110099302B
Application number: CN201910355336.2A
Authority: CN
Inventors: 丁文奎; 李頔; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2020-11-24
Anticipated expiration: 2039-04-29
Also published as: CN110099302A; US20200257903A1; US11288516B2

Abstract

本公开是关于一种视频分级方法、装置、设备及存储介质，涉及多媒体技术领域，本实施例提供了一种基于视频的多个模态的特征以及级别嵌入的方式，来自动对视频进行分级的方法。通过融合视频的多个模态的特征，将视频的级别转换为向量空间中的级别嵌入，获取融合了多模态的目标特征与每个级别嵌入之间的匹配度，根据每个级别嵌入对应的匹配度，来预测出视频的级别，可以提高视频分级的效率以及准确性。

Description

视频分级方法、装置、设备及存储介质

技术领域

本公开涉及多媒体技术领域，尤其涉及视频分级方法、装置、设备及存储介质。

背景技术

随着多媒体技术的发展，越来越多的人通过拍摄视频以及上传视频来分享自己的生活。由于视频的内容五花八门，而视频的受众范围十分广泛，需要对视频进行分级，例如划分为大众级、限制级、成人级等，以便向不同的人群展示不同级别的视频，避免向未成年人展示其不易观看的级别的视频。

相关技术中，视频的级别是由审核人员人工进行标注的。具体来说，视频播放平台会配置专门的审核人员，审核人员需要观看视频平台上上传的每个视频，每当观看任一视频以后，审核人员会依据自己对视频的剧情的理解，标注视频的级别。

采用人工标注的方式标注视频的级别，效率较为低下。

发明内容

本公开提供一种视频分级方法、装置、设备及存储介质，能够克服视频分级时效率低下的问题。

根据本公开实施例的第一方面，提供一种视频分级方法，包括：

获取视频的多个模态的特征；

对所述多个模态的特征进行融合，得到目标特征；

对于所述视频的至少一个候选级别中的每个候选级别，获取所述候选级别的级别嵌入与所述目标特征之间的匹配度，所述级别嵌入为表示所述候选级别的向量；

根据每个级别嵌入与所述目标特征之间的匹配度，从所述至少一个候选级别中，选择匹配度最高的级别嵌入对应的候选级别，作为所述视频的级别。

在一种可能的实现方式中，所述获取所述候选级别的级别嵌入与所述目标特征之间的匹配度，具体包括：

对所述级别嵌入与所述目标特征进行叉积，得到第一结果；

将所述第一结果输入至少一个第一全连接层，输出第二结果；

根据所述第二结果，获取所述匹配度。

在一种可能的实现方式中，所述根据所述第二结果，获取所述匹配度，具体包括下述任意一项：

对所述第二结果与所述级别嵌入进行叉积，得到第三结果，将所述第三结果输入至少一个第二全连接层，输出第四结果，采用激活函数对所述第二结果以及所述第四结果进行运算，得到所述匹配度；

采用激活函数对所述第二结果进行运算，得到所述匹配度；

在一种可能的实现方式中，所述获取所述候选级别的级别嵌入与所述目标特征之间的匹配度之前，所述方法还包括：

根据所述至少一个候选级别之间的顺序关系，生成所述至少一个候选级别中每个候选级别的级别嵌入，所述顺序关系表示目标年龄段的人群不宜观看所述至少一个候选级别的视频的强弱程度。

在一种可能的实现方式中，所述根据所述至少一个候选级别之间的顺序关系，生成所述至少一个候选级别中每个候选级别的级别嵌入，包括：

对于所述至少一个候选级别中的第i个候选级别，根据所述i生成第一向量，所述第一向量中i个维度的取值为第一取值，所述i为正整数；

根据所述第一向量，生成所述第i个候选级别的级别嵌入。

在一种可能的实现方式中，所述第一向量包括m个维度，所述m个维度中前i个维度的取值为所述第一取值，后(m-i)个维度的取值为第二取值，所述m表示所述至少一个候选级别的总数量，所述m为正整数，所述m大于或等于所述i。

在一种可能的实现方式中，所述根据所述第一向量，生成所述第i个候选级别的级别嵌入，包括：

对所述第一向量中至少一个维度的取值进行编码，得到第二向量；

根据所述第二向量，生成所述第i个候选级别的级别嵌入。

在一种可能的实现方式中，所述根据所述第二向量，生成所述第i个候选级别的级别嵌入，包括：

将所述第二向量输入至少一个第三全连接层，输出所述第i个候选级别的级别嵌入。

在一种可能的实现方式中，所述对所述第一向量中每个维度的取值进行编码，得到第二向量，包括：

对于所述第一向量中至少一个维度中的每个维度，对所述维度的取值进行独热编码，得到所述维度的独热编码值；

对每个维度的独热编码值进行拼接，得到所述第二向量。

在一种可能的实现方式中，所述对所述多个模态的特征进行融合，得到目标特征，具体包括：

对于所述多个模态中的每个模态，将所述模态的特征输入所述模态对应的第一神经层，输出所述模态的隐层特征；

对所述多个模态的隐层特征进行拼接，得到所述目标特征。

在一种可能的实现方式中，所述将所述模态的特征输入所述模态对应的第一神经层，输出所述模态的隐层特征之前，所述方法还包括：

获取样本视频的多个模态的特征；

对于所述多个模态中的每个模态，将所述样本视频的所述模态的特征输入所述模态对应的第一神经层，输出所述模态的隐层特征；

对所述多个模态的隐层特征进行拼接，得到所述样本视频的目标特征；

对于所述多个模态中的每个模态，将所述样本视频的目标特征输入所述模态对应的第二神经层，输出所述样本视频的所述模态的还原特征；

根据所述样本视频的所述模态的还原特征以及所述模态的特征之间的差距，获取所述模态的损失值；

根据所述多个模态的损失值，对所述多个模态对应的第一神经层的参数进行调整。

根据本公开实施例的第二方面，提供一种视频分级装置，包括；

获取模块，被配置为获取视频的多个模态的特征；

特征融合模块，被配置为对所述多个模态的特征进行融合，得到目标特征；

所述获取模块，还被配置为对于所述视频的至少一个候选级别中的每个候选级别，获取所述候选级别的级别嵌入与所述目标特征之间的匹配度，所述级别嵌入为表示所述候选级别的向量；

选择模块，被配置为根据每个级别嵌入与所述目标特征之间的匹配度，从所述至少一个候选级别中，选择匹配度最高的级别嵌入对应的候选级别，作为所述视频的级别。

在一种可能的实现方式中，所述获取模块，具体包括：

叉积子模块，被配置为对所述级别嵌入与所述目标特征进行叉积，得到第一结果；

输入字模块，被配置为将所述第一结果输入至少一个第一全连接层，输出第二结果；

获取子模块，被配置为根据所述第二结果，获取所述匹配度。

在一种可能的实现方式中，所述获取子模块，被配置为对所述第二结果与所述级别嵌入进行叉积，得到第三结果，将所述第三结果输入至少一个第二全连接层，输出第四结果，采用激活函数对所述第二结果以及所述第四结果进行运算，得到所述匹配度；采用激活函数对所述第二结果进行运算，得到所述匹配度；

在一种可能的实现方式中，所述装置还包括：

生成模块，被配置为根据所述至少一个候选级别之间的顺序关系，生成所述至少一个候选级别中每个候选级别的级别嵌入，所述顺序关系表示目标年龄段的人群不宜观看所述至少一个候选级别的视频的强弱程度。

在一种可能的实现方式中，所述生成模块，被配置为对于所述至少一个候选级别中的第i个候选级别，根据所述i生成第一向量，所述第一向量中i个维度的取值为第一取值，所述i为正整数；根据所述第一向量，生成所述第i个候选级别的级别嵌入。

在一种可能的实现方式中，所述生成模块，被配置为对所述第一向量中至少一个维度的取值进行编码，得到第二向量；根据所述第二向量，生成所述第i个候选级别的级别嵌入。

在一种可能的实现方式中，所述生成模块，被配置为将所述第二向量输入至少一个第三全连接层，输出所述第i个候选级别的级别嵌入。

在一种可能的实现方式中，所述生成模块，具体包括：

编码子模块，被配置为对于所述第一向量中至少一个维度中的每个维度，对所述维度的取值进行独热编码，得到所述维度的独热编码值；

拼接子模块，被配置为对每个维度的独热编码值进行拼接，得到所述第二向量。

在一种可能的实现方式中，所述特征融合模块，具体包括：

输入子模块，被配置为对于所述多个模态中的每个模态，将所述模态的特征输入所述模态对应的第一神经层，输出所述模态的隐层特征；

拼接子模块，被配置为对所述多个模态的隐层特征进行拼接，得到所述目标特征。

在一种可能的实现方式中，所述获取模块，还被配置为获取样本视频的多个模态的特征；

所述特征融合模块，还被配置为所述对于所述多个模态中的每个模态，将所述样本视频的所述模态的特征输入所述模态对应的第一神经层，输出所述模态的隐层特征；对所述多个模态的隐层特征进行拼接，得到所述样本视频的目标特征；对于所述多个模态中的每个模态，将所述样本视频的目标特征输入所述模态对应的第二神经层，输出所述样本视频的所述模态的还原特征；

所述获取模块，还被配置为根据所述样本视频的所述模态的还原特征以及所述模态的特征之间的差距，获取所述模态的损失值；

所述装置还包括：调整模块，被配置为根据所述多个模态的损失值，对所述多个模态对应的第一神经层的参数进行调整。

根据本公开实施例的第三方面，提供一种计算机设备，包括：一个或多个处理器；用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述视频分级方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行上述视频分级方法。

根据本公开实施例的第五方面，提供一种应用程序，包括一条或多条指令，该一条或多条指令可以由计算机设备的处理器执行时，使得计算机设备能够执行上述视频分级方法。

本公开的实施例提供的技术方案可以至少包括以下有益效果：

本实施例提供了一种基于视频的多个模态的特征以及级别嵌入的方式，来自动对视频进行分级的方法。通过融合视频的多个模态的特征，将视频的级别转换为向量空间中的级别嵌入，获取融合了多模态的目标特征与每个级别嵌入之间的匹配度，根据每个级别嵌入对应的匹配度，来预测出视频的级别，可以提高视频分级的效率以及准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频分级方法的流程图。

图2是根据一示例性实施例示出的一种视频预测模型的结构示意图。

图3是根据一示例性实施例示出的一种自编码器的结构示意图。

图4是根据一示例性实施例示出的一种编码器的结构示意图。

图5是根据一示例性实施例示出的一种解码器的结构示意图。

图6是根据一示例性实施例示出的一种分级级别嵌入模块的工作流程图。

图7是根据一示例性实施例示出的一种第一次执行基本过程的流程。

图8是根据一示例性实施例示出的一种第二次执行基本过程至最后一次执行基本过程的流程。

图9是根据一示例性实施例示出的一种视频分级装置的框图。

图10是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开中的术语“第一向量”以及“第二向量”，“第一神经层”、“第二神经层”以及“第三神经层”，“第一全连接层”、“第二全连接层”以及“第三全连接层”等术语中的“第一”、“第二”、“第n”等字样，用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定，n为正整数。

图1是根据一示例性实施例示出的一种视频分级方法的流程图，如图1所示，该方法用于计算机设备中，包括以下步骤。

在步骤S11中，计算机设备获取视频的多个模态的特征。

模态是指数据的来源或者形式，同一数据的不同模态可以从不同方面来描述数据的特征。在本实施例中，视频的模态可以包括音频、文本、图像、制作者、语义等。

在一些可能的实施例中，视频可以是短视频，即时长少于预设时长的视频。视频的多个模态的特征包括而不限于音频特征、文本特征、视频特征、图像特征、制作者特征、语义特征中的任两项或两项的结合。其中，每个模态的特征可以是向量，例如可以是一维向量。向量的每个维度的取值可以是归一化的取值，即属于0至1的取值。

关于获取多个模态的特征的方式，在一些可能的实施例中，对于多个模态的内容中每个模态，计算机设备可以获取视频的该模态的内容，可以将该模态的内容输入特征提取模型，输出该模态的特征。其中，特征提取模型用于根据视频的内容提取视频的特征，例如，特征提取模型可以是卷积神经网络。比如说，特征提取模型可以是Inception网络，Inception网络是指一种包含名为Inception模块的卷积神经网络，Inception网络用于对输入图像并行地执行多个卷积运算或池化操作，并将所有输出结果拼接为一个非常深的特征图，Inception网络包括Inception v1(Inception网络版本1)、Inception v2(Inception网络版本2)和Inception v3(Inception网络版本3)、Inception v4(Inception网络版本4)等多个版本。

作为示例，可以获取视频的音频、视频的文本以及视频，将视频的音频输入音频特征提取模型，输出视频的音频特征；将视频的文本输入文本特征提取模型，输出视频的文本特征；将视频输入视频特征提取模型，输出视频的视频特征。如此，可以得到音频特征、文本特征以及视频特征这三个模态的特征。

在步骤S12中，计算机设备调用级别预测模型，将视频的多个模态的特征输入级别预测模型。

级别预测模型用于根据视频的多个模态的特征预测视频的级别，级别预测模型可以根据样本视频的多个模态的特征以及样本视频的级别标签预测得到。级别预测模型的结构可以如图2所示，级别预测模型可以包括特征融合模块、级别嵌入模块、叉积层、全连接层、输出层等，该特征融合模块用于执行下述步骤S13，该级别嵌入模块用于执行下述步骤S14，叉积层、全连接层以及输出层用于执行下述步骤S15。计算机设备可以在运行级别预测模型的过程中，执行下述步骤S13至步骤S16。

在步骤S13中，在运行级别预测模型的过程中，计算机设备对视频的多个模态的特征进行融合，得到目标特征。

目标特征是指对多个模态的特征进行特征融合后得到的特征。目标特征也可以称为联合特征、融合特征，或根据业务需求具有不同的名称。目标特征的形式可以为向量。

关于特征融合的方式，在一些可能的实施例中，在预测级别的过程中，级别预测模型可以包括自编码器(Auto encoder)网络中的编码器，计算机设备可以将视频的多个模态的特征输入至自编码器网络中的编码器，输出目标特征。

自编码器网络即自动编码器，是一种无监督的神经网络，自编码器网络可以包括编码器以及解码器，编码器用于对输入的数据进行特征提取，解码器用于根据提取的特征还原输入数据。自编码器网络可以根据样本视频的多个模态的特征训练得到，自编码器网络可以根据样本视频的多个模态的特征，学习到多个模态的特征中隐含信息的分布和特点。自编码器网络可以包括多个神经层，每个神经层也称隐藏层或隐层，每个神经层包括至少一个神经元，每个神经元用于对输入的数据进行线性映射以及非线性映射后得到输出的数据。

示例性地，参见图3，其示出了自编码器网络的结构示意图，自编码器网络可以包括编码器以及解码器。参见图4，其示出了自编码器网络中编码器的结构示意图，参见图5，其示出了自编码器网络中解码器的结构示意图。其中，为了区分描述，在此将自编码器网络中编码器的神经层称为第一神经层，将自编码器网络中解码器中的神经层称为第二神经层。

如图4所示，多个第一神经层可以和多个模态一一对应，每个第一神经层用于根据对应模态的特征获取对应模态的隐层特征。如图5所示，多个第二神经层可以和多个模态一一对应，每个第二神经层用于根据目标特征还原对应模态的特征。

在一些可能的实施例中，将视频的多个模态的特征输入至编码器，输出目标特征，具体可以包括下述步骤(1)至步骤(2)：

步骤(1)对于多个模态中的每个模态，将该模态的特征输入该模态对应的第一神经层，输出该模态的隐层特征。

具体地，第一神经层可以包括视频模态对应的第一神经层、音频模态对应的第一神经层以及文本模态对应的第一神经层，可以将视频特征输入视频模态对应的第一神经层，输出视频模态的隐层特征；将音频特征输入音频模态对应的第一神经层，输出音频模态的隐层特征；将文本特征输入文本模态对应的第一神经层，输出文本模态的隐层特征。

示例性地，参见图5，自编码器网络的编码器包括神经层1-1、神经层1-2、神经层1-3，可以将视频特征输入神经层1-1，神经层1-1可以输出视频特征的隐层特征；将音频特征输入神经层1-2，神经层1-2可以输出音频特征的隐层特征；将文本特征输入神经层1-3，神经层1-3可以输出文本特征的隐层特征。

步骤(2)对多个模态的隐层特征进行拼接，得到目标特征。

目标特征可以包括多个模态的隐层特征，对多个模态的隐层特征进行拼接的方式可以包括：对多个模态的隐层特征的头尾顺次拼接，得到目标特征。例如，如果多个模态的隐层特征分别是：视频模态的隐层特征1，隐层特征1为具有m1个维度的向量；音频模态的隐层特征2，隐层特征2为具有m2个维度的向量；文本模态的隐层特征3，隐层特征3为具有m3个维度的向量，则对这三个模态的隐层特征进行拼接后，得到的目标特征为具有(m1+m2+m3)个维度的向量，前m1个维度为隐层特征1，中间的m2个维度为隐层特征2，后m3个维度为隐层特征3。其中，m1、m2以及m3为正整数。

在一些可能的实施例中，编码器中可以包括拼接模块，该拼接模块可以为一个或多个神经层，可以在该一个或多个神经层中，对多个模态的隐层特征进行拼接。示例性地，参见图4，可以在拼接模块中，对神经层1-1、神经层1-2以及神经层1-3输出的3个模态的隐层特征进行拼接，得到目标特征。

通过将多个模态的特征进行融合，融合后得到的目标特征能够利用不同模态的特征之间的互补性，并且剔除不同模态的特征之间的冗余性，学习到了更好的特征表示，因此使用融合后得到的目标特征来预测视频的级别，可以提高预测的准确性。

在步骤S14中，计算机设备根据视频的至少一个候选级别之间的顺序关系，生成至少一个候选级别的级别嵌入。

本实施例中，可以根据不同内容的视频，将视频划分为不同的候选级别，通过级别预测模型，来预测视频是哪一个候选级别。如果视频总共可以划分为5种级别，级别的取值范围包括1、2、3、4以及5，则至少一个候选级别为1、2、3、4以及5。

视频的至少一个候选级别可以具有排列顺序，计算机设备可以根据至少一个候选级别之间的顺序关系，生成至少一个候选级别的级别嵌入。其中，至少一个候选级别之间的顺序关系表示目标年龄段的人群不宜观看至少一个候选级别的视频的强弱程度。作为示例，如果某个候选级别在至少一个候选级别中的顺序越靠后，表示目标年龄段的人群越不宜观看该候选级别的视频。其中，该目标年龄段的人群可以为儿童、未成年人等。例如，视频的1级可以为大众级，即所有人都可以观看的级别；级别的2级可以为辅导及，即部分内容可能不适合儿童观看的级别；级别的3级可以为特别辅导级，即建议13岁后儿童观看的级别；级别的4级可以为限制级，即建议17岁以上人群观看的级别；级别的5级可以为限制级，即17岁以下(包括17岁)的人群禁止观看的级别。

嵌入(embedding)是指将信息从高维空间映射到向量空间中，信息的每个取值被映射为向量空间中的一个向量。本实施例中，级别嵌入为表示候选级别的向量。具体地，可以根据至少一个候选级别之间的排列顺序，基于神经网络对至少一个候选级别进行分布式表示，得到至少一个候选级别的级别嵌入。

作为示例，级别嵌入的生成过程可以包括下述步骤一至步骤二。

步骤一、对于至少一个候选级别中的第i个候选级别，计算机设备根据i生成第一向量，i为正整数。

具体地，第一向量中可以有i个维度的取值为第一取值，该第一取值可以为预设的任一数值，例如可以是1。作为示例，如果至少一个候选级别为1、2、3、4以及5，针对第2个候选级别，也就是2，第一向量可以有2个维度的取值是1；针对第3个候选级别，也就是3，第一向量可以有3个维度的取值是1。

在一些可能的实施例中，第一向量可以包括m个维度，m个维度中前i个维度的取值为第一取值，后(m-i)个维度的取值为第二取值。其中，m为至少一个候选级别的总数量，第二取值与第一取值不同，第二取值可以是0，因此第一向量可以是一个二值化的取值，即每个维度的取值为第一取值或第二取值。作为示例，如果至少一个候选级别为1、2、3、4以及5，则第一向量可以包括5个维度，对于第2个候选级别2来说，候选级别2的第一向量中前2个维度的取值为1，后3个维度的取值为0，则候选级别2的第一向量为(1,1,0,0,0)。

步骤二、计算机设备根据第一向量，生成候选级别的级别嵌入。

步骤二具体可以包括下述步骤(2.1)至步骤(2.2)。

步骤(2.1)计算机设备对第一向量中至少一个维度的取值进行编码，得到第二向量。

在一些可能的实施例中，对于第一向量中至少一个维度中的每个维度，可以对该维度的取值进行独热编码(one-hot encoding)，得到该维度的独热编码值；可以对至少一个维度的独热编码值进行拼接，得到第二向量。其中，第二向量包括第一向量中每个维度的取值的独热编码值。其中，独热编码即一位有效编码，独热编码值中有且仅有一位有效，其余位无效。

例如，如果第一向量中每个维度的取值进行了二值化，且每个维度的取值为1或0，则可以对1进行独热编码，得到1的独热编码值为(0，1)，对0进行独热编码，得到0的独热编码值为(1，0)，则第二向量的维度总数量可以是第一向量的维度总数量的二倍，第一向量中任意一个维度的取值可以映射为第二向量中两个维度的取值。比如说，如果第一向量为(1,1,0,0,0)，第一向量第一个维度的取值为1，则第二向量中第一个维度以及第二个维度的取值均为1的独热编码值，即(0，1)；第一向量第二个维度的取值为1，则第二向量中第三个维度以及第四个维度的取值也均为1的独热编码值，即(0，1)；第一向量第三个维度的取值为0，则第二向量中第五个维度以及第六个维度的取值均为0的独热编码值，即(1，0)；依次类推，第二向量共计包括10个维度，第二向量为(0,1,0,1,1,0,1,0,1,0)。

需要说明的一点是，独热编码仅是编码的方式的一种示例，在另一些可能的实施例中，也可以采用独热编码以外的编码方式，对第一向量的每个维度的取值进行编码，本实施例对此不做限定。

步骤(2.2)计算机设备根据第二向量，生成候选级别的级别嵌入。

在一些可能的实施例中，可以将第二向量输入至少一个第三全连接层，输出候选级别的级别嵌入。其中，第三全连接层用于根据第二向量生成级别嵌入，第三全连接层可以根据预先执行的模型训练过程得到。至少一个第三全连接层的数量可以根据经验、需求或实验设置，本实施例对此不做限定。

上述步骤S14的功能可以通过分级级别嵌入模块实现，以将候选级别2转换为级别嵌入为例，参见图6，其示出了分级级别嵌入模块的工作流程图。

在步骤S15中，对于视频的至少一个候选级别中的每个候选级别，计算机设备获取候选级别的级别嵌入与目标特征之间的匹配度。

在一些可能的实施例中，匹配度可以记为分数，即根据级别嵌入与目标特征之间的匹配程度，对级别嵌入的打分。具体来说，如果级别嵌入共计有n个，可以分别获取n个级别嵌入中每个级别嵌入对应的匹配度，得到n个匹配度，其中n为正整数。

在一些可能的实施例中，匹配度的获取过程可以包括下述步骤一至步骤三：

步骤一、计算机设备对目标特征与级别嵌入进行叉积，得到第一结果。

第一结果是指目标特征与级别嵌入进行叉积后得到的结果。具体地，可以采用下述公式(1)对目标特征与级别嵌入进行运算，得到第一结果。

Cross_(i-1)*n+j＝F_i*R_j； (1)

其中，F_i表示目标特征，R_j表示级别嵌入，Cross_(i-1)*n+j表示第一结果，i表示目标特征中任一维度的索引，i属于{1,2，……n}，n为目标特征的维度的总数量，j表示级别嵌入中任一维度的索引，j属于{1,2，……m}，m为级别嵌入的维度的总数量，n和m为正整数。

步骤二、计算机设备将第一结果输入至少一个第一全连接层，输出第二结果。

第二结果是指将第一结果通过至少一个全连接层后得到的结果。第一全连接层用于根据第一结果获取第二结果，第一全连接层的数量可以根据实验、经验或需求配置。

步骤三、计算机设备根据第二结果，获取匹配度。

在一些可能的实施例中，可以采用迭代的方式，将叉积运算以及全连接运算作为一次基本过程，通过重复执行该基本过程若干次，根据若干次执行基本过程的结果，获取匹配度。其中，不同次执行基本过程之间的区别在于，在叉积运算的过程中，与级别嵌入进行叉积所使用的数据不同，第一次执行基本过程时，使用目标特征与级别嵌入进行叉积，第二次执行基本过程至最后一次执行基本过程时，使用上一次执行基本过程的结果与级别嵌入进行叉积.其中，第一次执行的基本过程即为上述步骤一以及步骤二。示例性地，参见图7以及图8，图7示出了第一次执行基本过程的流程，图8示出了第二次执行基本过程至最后一次执行基本过程的流程。

以执行基本过程两次为例，参见图2，在执行上述步骤一以及步骤二后，可以对第二结果与级别嵌入进行叉积，得到第三结果，该第三结果是指第二结果与级别嵌入进行叉积后得到的结果，获取第三结果与获取第一结果时使用的级别嵌入相同；可以将第三结果输入至少一个第二全连接层，输出第四结果；执行两次基本过程后，该方法可以包括：采用激活函数对第二结果以及第四结果进行运算，得到匹配度。

以执行基本过程三次为例，参见图2，在执行第一次基本过程以及第二次基本过程后，该方法可以包括：对第四结果与级别嵌入进行叉积，得到第五结果；可以将第五结果输入至少一个第四全连接层，输出第六结果；执行三次基本过程后，该方法可以包括：采用激活函数对第二结果、第四结果以及第六结果进行运算，得到匹配度。

需要说明的一点是，上述仅是以执行基本过程两次或三次为例进行描述，在一些可能的实施例中，可以执行四次或者更多次基本过程，执行基本过程的次数可以根据实验、经验或需求配置，本实施例对此不做限定。

通过上述实现方式，级别预测模型在预测级别的过程中，能够通过重复执行基本过程，来尽量多地使用级别嵌入，从而增加了嵌入级别在级别预测模型中的权重，能够有效地提高级别预测模型预测级别的准确性和可靠性。

需要说明的一点是，重复执行基本过程的方式仅是示例性实施例，并不用以限制本公开的范围。在另一些可能的实施例中，可以在执行一次基本过程后，采用激活函数对第二结果进行运算，得到匹配度。

需要说明的一点是，本实施例仅是以预测级别时执行步骤S14为例进行描述，在另一些可能的实施例中，可以在预测级别之前，预先执行步骤S14，存储得到的级别嵌入，则在预测级别的过程中，可以直接读取预存的级别嵌入。示例性地，可以将候选级别作为级别预测模型的输入参数，在运行级别预测模型的过程中，执行步骤S14。也可以在离线训练的过程中，执行步骤S14，将得到的级别嵌入内置在级别预测模型中，本实施例对生成级别嵌入的时机并不做具体限定。

在步骤S16中，计算机设备根据每个级别嵌入与目标特征之间的匹配度，从视频的至少一个候选级别中，选择匹配度最高的级别嵌入对应的候选级别，作为视频的级别。

通过执行上述步骤S15，计算机设备可以得到至少一个级别嵌入中每个级别嵌入对应的匹配度。对于任一级别嵌入来说，如果该级别嵌入对应的匹配度越高，表明该级别嵌入与融合了多个模态的目标特征最匹配，因此该级别嵌入对应的候选级别越可能是视频的准确的级别。因此，可以按照匹配度从高到低的顺序，对至少一个级别嵌入进行排序，选取排在首位的级别嵌入，将该级别嵌入对应的候选级别作为视频的级别。

在一些可能的实施例中，视频的级别可以为级别预测模型的输出结果，选择了视频的级别后，级别预测模型可以输出视频的级别，以便向用户反馈视频的级别，例如可以对视频的级别进行可视化，又如在图形用户界面中显示视频的级别等。

需要说明的一点是，本实施例仅是以视频分级的场景为例进行描述，在一些可能的实施例中，也可以应用于对视频以外的其他对象进行分级的场景中。另外，除了应用于分级的场景外，对于其他的有序回归场景，即预测的类别的取值范围中不同取值之间具有一定顺序的场景，也可以利用上述级别嵌入的方法，来预测该事物的类别。

以下示例性描述上述实施例提供的级别预测模型的训练过程。

步骤一、计算机设备获取样本视频的多个模态的样本特征以及样本视频的级别标签。

该级别标签可以为开发人员人工标注的级别。通过使用级别标签来进行模型训练，可以通过开发人员的经验，帮助模型学习到特征与级别之间的映射关系。

步骤二、计算机设备调用级别预测模型，将多个模态的样本特征以及级别标签输入级别预测模型。

步骤三、计算机设备在运行级别预测模型的过程中，对样本视频的多个模态的样本特征进行融合，得到样本目标特征。

在一些可能的实施例中，在模型训练的过程中，级别预测模型可以包括自编码器网络，计算机设备可以通过样本视频的多个模态的特征，采用无监督的方式，根据编码器网络还原出的样本视频的特征与输入的样本视频的特征之间的差距，对编码器网络进行训练，以便让编码器网络中的编码器学习到提取特征的能力，从而在上述步骤S13中，可以使用编码器来进行特征融合。

具体来说，步骤三可以包括以下步骤(3.1)至步骤(3.4)。

步骤(3.1)对于多个模态中的每个模态，计算机设备将样本视频的该模态的特征输入模态对应的第一神经层，输出该模态的隐层特征。

步骤(3.2)计算机设备对多个模态的隐层特征进行拼接，得到目标特征。

步骤(3.3)对于多个模态中的每个模态，计算机设备将该模态的目标特征输入该模态对应的第二神经层，输出模态的还原特征。

还原特征是指根据目标特征对特征进行还原得到的特征。具体地，第二神经层可以包括视频模态对应的第二神经层、音频模态对应的第二神经层以及文本模态对应的第二神经层。视频模态对应的第二神经层用于根据目标特征对视频特征进行还原，音频模态对应的第二神经层用于根据目标特征对音频特征进行还原，文本模态对应的第二神经层用于根据目标特征对文本特征进行还原。可以将目标特征输入视频模态对应的第二神经层，输出还原视频特征；将目标特征输入音频模态对应的第二神经层，输出还原音频特征；将目标特征输入文本模态对应的第二神经层，输出还原文本特征。

示例性地，参见图5，解码器包括神经层2-1、神经层2-2以及神经层2-3，可以将目标特征输入神经层2-1，神经层2-1可以输出还原视频特征；可以将目标特征输入神经层2-2，神经层2-2可以输出还原音频特征；可以将目标特征输入神经层2-3，神经层2-3可以输出还原文本特征。

步骤(3.4)计算机设备根据视频的多个模态的样本特征以及视频的多个模态的还原样本特征，获取多个模态的损失值。

对于多个模态中每一个模态来说，可以根据样本视频的该模态的特征与该模态的还原特征之间的差距，获取该模态的损失值，损失值表示样本视频的对应模态的特征与对应模态的还原特征之间的差距，损失值越大，表示对应模态的特征与对应模态的还原特征之间的差距越大，对应模态的编码器和/或解码器越不准确。通过多个模态的损失值对模型的参数进行调整，能让令模型的损失值逐渐减小，从而优化模型的参数。

在一些可能的实施例中，对于多个模态中的任一个模态，可以采用第一损失函数，对样本视频的该模态的特征与该模态的还原特征进行运算，得到该模态的损失值。其中，第一损失函数包括而不限于交叉熵损失函数、KL距离(Kullback-Leibler Divergence，也称相对熵)等。

示例性地，可以按照下式(2)对图像特征与还原图像特征进行运算，得到图像模态的损失值。按照下式(3)对视频特征与还原视频特征进行运算，得到视频模态的损失值。按照下式(4)对文本特征与还原文本特征进行运算，得到文本模态的损失值。

Loss_image＝KL(image_i ^output,image_i ^input)； (2)

Loss_audio＝KL(audio_i ^output,audio_i ^input)； (3)

Loss_text＝KL(text_i ^output,text_i ^input)； (4)

其中，Loss_image表示图像模态的损失值，KL表示求KL距离，image_i ^input表示图像特征，image_i ^output表示还原图像特征，Loss_audio表示视频模态的损失值，audio_i ^input表示视频特征，audio_i ^output表示还原视频特征，Loss_text表示文本模态的损失值，text_i ^input表示文本特征，text_i ^output表示还原文本特征。

通过上述方式，可以得到图像模态的损失值、音频模态的损失值以及视频模态的损失值，后续可以将这三个模态的损失值作为整体的损失函数的一部分，对级别预测模型进行联合优化。

步骤四、对于样本视频的至少一个候选级别中的每个候选级别，获取该候选级别的级别嵌入与该样本目标特征之间的匹配度。

以叉积运算以及全连接运算作为一次基本过程，以执行该基本过程两次为例，步骤四可以包括下述步骤(4.1)至步骤(4.6)：

(4.1)对于样本视频的至少一个候选级别中的每个候选级别，计算机设备对样本视频的目标特征与候选级别的级别嵌入进行叉积，得到第一结果。

(4.2)计算机设备将第一结果输入至少一个第一全连接层，输出第二结果。

(4.3)计算机设备根据第二结果，获取目标特征与候选级别之间的匹配度。

(4.4)计算机设备对第二结果与级别嵌入进行叉积，得到第三结果。

(4.5)计算机设备可以将第三结果输入至少一个第二全连接层，输出第四结果。

(4.6)计算机设备采用激活函数对第二结果以及第四结果进行运算，得到匹配度。

步骤五、计算机设备根据每个级别嵌入与样本视频的目标特征之间的匹配度，从该至少一个候选级别中，选择匹配度最高的级别嵌入对应的候选级别，作为该样本视频的级别。

步骤六、计算机设备根据样本视频的级别与样本视频的级别标签之间的差距，对级别预测模型的参数进行调整。

在一些可能的实施例中，可以采用第二损失函数，对级别与级别标签进行运算，得到级别的损失值；获取级别的损失值以及步骤三中获取的多个模态的损失值的和值，将和值作为级别预测模型的损失值，根据级别预测模型的损失值对级别预测模型中任一个或多个层的参数进行调整。具体地，可以对根据损失值，对多个模态对应的第一神经层的参数进行调整；另外，还可以对至少一个第一全连接层、至少一个第二全连接层以及至少一个第三全连接层中的任一项或多项的参数进行调整。当然，如果级别预测模型包括其他层，可以同理地对其他层的参数进行调整。其中，可以在调整一次后，重复执行上述步骤一至步骤六，直到损失值低于损失值阈值时，停止调整，得到分级预测模型。

示例性地，分级损失函数可以采用平方损失函数或者绝对值损失函数，以平方损失函数为例，可以按照下式(5)对图像特征与还原图像特征进行运算，得到图像模态的损失值。

Loss＝∑_i(r'_i-r_i)²+Loss_image+Loss_audio+Loss_text； (5)

其中，Loss表示级别预测模型的损失值，r’表示预测的级别，r表示级别标签，Loss_image表示图像模态的损失值，Loss_audio表示视频模态的损失值，Loss_text表示文本模态的损失值。

图9是根据一示例性实施例示出的一种视频分级装置的框图。参照图2，该装置包括获取模块901，特征融合模块902和选择模块903。

获取模块901，被配置为获取视频的多个模态的特征；

特征融合模块902，被配置为对该多个模态的特征进行融合，得到目标特征；

该获取模块901，还被配置为对于该视频的至少一个候选级别中的每个候选级别，获取该候选级别的级别嵌入与该目标特征之间的匹配度，该级别嵌入为表示该候选级别的向量；

选择模块903，被配置为根据每个级别嵌入与该目标特征之间的匹配度，从该至少一个候选级别中，选择匹配度最高的级别嵌入对应的候选级别，作为该视频的级别。

本实施例提供了一种基于视频的多个模态的特征以及级别嵌入的方式，来自动对视频进行分级的装置。通过融合视频的多个模态的特征，将视频的级别转换为向量空间中的级别嵌入，获取融合了多模态的目标特征与每个级别嵌入之间的匹配度，根据每个级别嵌入对应的匹配度，来预测出视频的级别，可以提高视频分级的效率以及准确性。

在一种可能的实现方式中，该获取模块901，具体包括：

叉积子模块，被配置为对该级别嵌入与该目标特征进行叉积，得到第一结果；

输入字模块，被配置为将该第一结果输入至少一个第一全连接层，输出第二结果；

获取子模块，被配置为根据该第二结果，获取该匹配度。

在一种可能的实现方式中，该获取子模块，被配置为对该第二结果与该级别嵌入进行叉积，得到第三结果，将该第三结果输入至少一个第二全连接层，输出第四结果，采用激活函数对该第二结果以及该第四结果进行运算，得到该匹配度；采用激活函数对该第二结果进行运算，得到该匹配度；

在一种可能的实现方式中，该装置还包括：

生成模块，被配置为根据该至少一个候选级别之间的顺序关系，生成该至少一个候选级别中每个候选级别的级别嵌入，该顺序关系表示目标年龄段的人群不宜观看该至少一个候选级别的视频的强弱程度。

在一种可能的实现方式中，该生成模块，被配置为对于该至少一个候选级别中的第i个候选级别，根据该i生成第一向量，该第一向量中i个维度的取值为第一取值，该i为正整数；根据该第一向量，生成该第i个候选级别的级别嵌入。

在一种可能的实现方式中，该第一向量包括m个维度，该m个维度中前i个维度的取值为该第一取值，后(m-i)个维度的取值为第二取值，该m表示该至少一个候选级别的总数量，该m为正整数，该m大于或等于该i。

在一种可能的实现方式中，该生成模块，被配置为对该第一向量中至少一个维度的取值进行编码，得到第二向量；根据该第二向量，生成该第i个候选级别的级别嵌入。

在一种可能的实现方式中，该生成模块，被配置为将该第二向量输入至少一个第三全连接层，输出该第i个候选级别的级别嵌入。

在一种可能的实现方式中，该生成模块，具体包括：

编码子模块，被配置为对于该第一向量中至少一个维度中的每个维度，对该维度的取值进行独热编码，得到该维度的独热编码值；

拼接子模块，被配置为对每个维度的独热编码值进行拼接，得到该第二向量。

在一种可能的实现方式中，该特征融合模块902，具体包括：

输入子模块，被配置为对于该多个模态中的每个模态，将该模态的特征输入该模态对应的第一神经层，输出该模态的隐层特征；

拼接子模块，被配置为对该多个模态的隐层特征进行拼接，得到该目标特征。

在一种可能的实现方式中，该获取模块901，还被配置为获取样本视频的多个模态的特征；

该特征融合模块902，还被配置为该对于该多个模态中的每个模态，将该样本视频的该模态的特征输入该模态对应的第一神经层，输出该模态的隐层特征；对该多个模态的隐层特征进行拼接，得到该样本视频的目标特征；对于该多个模态中的每个模态，将该样本视频的目标特征输入该模态对应的第二神经层，输出该样本视频的该模态的还原特征；

该获取模块901，还被配置为根据该样本视频的该模态的还原特征以及该模态的特征之间的差距，获取该模态的损失值；

该装置还包括：调整模块，被配置为根据该多个模态的损失值，对该多个模态对应的第一神经层的参数进行调整。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种计算机设备的结构示意图，该计算机设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1001和一个或一个以上的存储器1002，其中，该存储器1002中存储有至少一条指令，该至少一条指令由该处理器1001加载并执行以实现上述各个方法实施例提供的视频分级方法。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的视频分级方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序，包括一条或多条指令，该一条或多条指令可以由计算机设备的处理器执行，以完成上述实施例中提供的视频分级方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频分级方法，其特征在于，包括：

获取样本视频的多个模态的特征，所述多个模态包括音频、文本、图像、制作者、语义中的至少两项；

根据所述多个模态的损失值，对所述多个模态对应的第一神经层的参数进行调整；

获取视频的多个模态的特征；

对于所述多个模态中的每个模态，将所述视频的所述模态的特征输入所述模态对应的第一神经层，输出所述视频的所述模态的隐层特征；

对所述多个模态的隐层特征进行拼接，得到所述视频的目标特征；

对于所述视频的至少一个候选级别中的每个候选级别，对所述候选级别的级别嵌入与所述视频的所述目标特征进行叉积，得到第一结果；将所述第一结果输入至少一个第一全连接层，输出第二结果；根据所述第二结果，获取所述候选级别的级别嵌入与所述目标特征之间的匹配度，所述级别嵌入为表示所述候选级别的向量；

根据每个级别嵌入与所述视频的目标特征之间的匹配度，从所述至少一个候选级别中，选择匹配度最高的级别嵌入对应的候选级别，作为所述视频的级别。

2.根据权利要求1所述的视频分级方法，其特征在于，所述根据所述第二结果，获取所述候选级别的级别嵌入与所述目标特征之间的匹配度，具体包括下述任意一项：

采用激活函数对所述第二结果进行运算，得到所述匹配度。

3.根据权利要求1所述的视频分级方法，其特征在于，所述根据所述第二结果，获取所述候选级别的级别嵌入与所述目标特征之间的匹配度之前，所述方法还包括：

4.根据权利要求3所述的视频分级方法，其特征在于，所述根据所述至少一个候选级别之间的顺序关系，生成所述至少一个候选级别中每个候选级别的级别嵌入，包括：

根据所述第一向量，生成所述第i个候选级别的级别嵌入。

5.根据权利要求4所述的视频分级方法，其特征在于，所述第一向量包括m个维度，所述m个维度中前i个维度的取值为所述第一取值，后(m-i)个维度的取值为第二取值，所述m表示所述至少一个候选级别的总数量，所述m为正整数，所述m大于或等于所述i。

6.根据权利要求4或5所述的视频分级方法，其特征在于，所述根据所述第一向量，生成所述第i个候选级别的级别嵌入，包括：

根据所述第二向量，生成所述第i个候选级别的级别嵌入。

7.根据权利要求6所述的视频分级方法，其特征在于，所述根据所述第二向量，生成所述第i个候选级别的级别嵌入，包括：

8.根据权利要求6所述的视频分级方法，其特征在于，所述对所述第一向量中至少一个维度的取值进行编码，得到第二向量，包括：

对每个维度的独热编码值进行拼接，得到所述第二向量。

9.一种视频分级装置，其特征在于，包括：

获取模块，被配置为获取样本视频的多个模态的特征，所述多个模态包括音频、文本、图像、制作者、语义中的至少两项；

特征融合模块，还被配置为对于所述多个模态中的每个模态，将所述样本视频的所述模态的特征输入所述模态对应的第一神经层，输出所述模态的隐层特征；对所述多个模态的隐层特征进行拼接，得到所述样本视频的目标特征；对于所述多个模态中的每个模态，将所述样本视频的目标特征输入所述模态对应的第二神经层，输出所述样本视频的所述模态的还原特征；

调整模块，被配置为根据所述多个模态的损失值，对所述多个模态对应的第一神经层的参数进行调整；

所述获取模块，还被配置为获取视频的多个模态的特征；

所述特征融合模块，还被配置为对于所述多个模态中的每个模态，将所述视频的所述模态的特征输入所述模态对应的第一神经层，输出所述视频的所述模态的隐层特征；对所述多个模态的隐层特征进行拼接，得到所述视频的目标特征；

所述获取模块，还被配置为对于所述视频的至少一个候选级别中的每个候选级别，对所述候选级别的级别嵌入与所述视频的所述目标特征进行叉积，得到第一结果；将所述第一结果输入至少一个第一全连接层，输出第二结果；根据所述第二结果，获取所述候选级别的级别嵌入与所述目标特征之间的匹配度，所述级别嵌入为表示所述候选级别的向量；

选择模块，被配置为根据每个级别嵌入与所述视频的目标特征之间的匹配度，从所述至少一个候选级别中，选择匹配度最高的级别嵌入对应的候选级别，作为所述视频的级别。

10.根据权利要求9所述的视频分级装置，其特征在于，所述获取模块，被配置为执行下述任意一项：

采用激活函数对所述第二结果进行运算，得到所述匹配度。

11.根据权利要求9所述的视频分级装置，其特征在于，所述装置还包括：

生成模块，被配置为根据所述至少一个候选级别的顺序关系，生成所述至少一个候选级别中每个候选级别的级别嵌入，所述顺序关系表示目标年龄段的人群不宜观看所述至少一个候选级别的视频的强弱程度。

12.根据权利要求11所述的视频分级装置，其特征在于，所述生成模块，被配置为对于所述至少一个候选级别中的第i个候选级别，根据所述i生成第一向量，所述第一向量中i个维度的取值为第一取值，所述i为正整数；根据所述第一向量，生成所述第i个候选级别的级别嵌入。

13.根据权利要求12所述的视频分级装置，其特征在于，所述第一向量包括m个维度，所述m个维度中前i个维度的取值为所述第一取值，后(m-i)个维度的取值为第二取值，所述m表示所述至少一个候选级别的总数量，所述m为正整数，所述m大于或等于所述i。

14.根据权利要求12或13所述的视频分级装置，其特征在于，所述生成模块，被配置为对所述第一向量中至少一个维度的取值进行编码，得到第二向量；根据所述第二向量，生成所述第i个候选级别的级别嵌入。

15.根据权利要求14所述的视频分级装置，其特征在于，所述生成模块，被配置为将所述第二向量输入至少一个第三全连接层，输出所述第i个候选级别的级别嵌入。

16.根据权利要求14所述的视频分级装置，其特征在于，所述生成模块，具体包括：

17.一种计算机设备，其特征在于，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行权利要求1-8任一项所述的视频分级方法。

18.一种存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行权利要求1-8任一项所述的视频分级方法。