CN111291643B

CN111291643B - 视频的多标签分类方法、装置、电子设备与存储介质

Info

Publication number: CN111291643B
Application number: CN202010065804.5A
Authority: CN
Inventors: 何栋梁; 李甫; 龙翔; 周志超; 文石磊; 孙昊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-08-22
Anticipated expiration: 2040-01-20
Also published as: CN111291643A

Abstract

本申请公开了视频的多标签分类方法、装置、电子设备与存储介质，涉及视频处理领域。具体实现方案为：将待分类的视频和随机初始化的标签信息分别输入至预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块中，标签处理模块基于预先建立的多标签体系建模而成；将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合；获取视频处理模块在多标签体系下，基于融合后的特征信息，为待分类的视频打上的多个标签。本申请的技术方案，能够实现为视频打上多个标签，从而能够准确、全面地描述视频的内容，有效地提高视频的标签分类效果。

Description

视频的多标签分类方法、装置、电子设备与存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及视频处理技术领域，具体涉及视频的多标签分类方法、装置、电子设备与存储介质。

背景技术

视频理解的最主要的一个问题之一就是识别视频里面的内容。现有技术中通常采用为视频打标签的方式来标识视频的内容所属的类别。

例如，现有技术中，可以通过卷积神经网络(Convolutional Neural Networks；CNN)构建的视频分类模型，从多个分类中为视频打上一个分类的标签，来表示视频的内容所属的类别。

但是，一般来说，视频大都包含多重的主体内容或者信息，单一的标签很难描述完整视频的内容。比如，一个打篮球的视频，有极大的概率会出现篮球场，当一个视频分类成打篮球时它被分类为篮球场的可能性也很高。因此，现有的一个标签无法准确地描述视频的内容，亟需提供一种视频的多标签分类方案，以准确地描述视频的内容。

发明内容

为了解决上述技术问题，本申请提供一种视频的多标签分类方法、装置、电子设备与存储介质，用于实现对视频进行多标签分类，提高视频内容描述的准确性。

一方面，本申请提供一种视频的多标签分类方法，包括：

将待分类的视频和随机初始化的标签信息分别输入至预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块中，所述标签处理模块基于预先建立的多标签体系建模而成；

将所述标签处理模块的网络结构中至少一层的标签特征信息与所述视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合；

获取所述视频处理模块在所述标签处理模块的所述多标签体系下，基于融合后的特征信息，为所述待分类的视频打上的多个标签。

进一步可选地，如上所述的方法中，所述随机初始化的标签信息与所述标签处理模块训练时采用的随机初始化的标签信息相同。

进一步可选地，如上所述的方法中，所述标签处理模块采用图卷积网络结构，所述视频处理模块采用卷积神经网络结构。

另一方面，本申请还提供一种视频的多标签分类模型的训练方法，包括：

采集数条训练视频；

为各所述训练视频标注多个标签；

采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型，所述视频的多标签分类模型包括视频处理模块和标签处理模块。

进一步可选地，如上所述的方法中，采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型之前，所述方法包括：

基于预先建立的多标签体系，构建所述标签处理模块；和/或

为所述标签处理模块配置随机初始化的标签信息。

进一步可选地，如上所述的方法中，采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型，包括：

对于各所述训练视频，将所述训练视频输入和所述随机初始化的标签信息分别输入至所述视频处理模块和所述标签处理模块中；

将所述标签处理模块的网络结构中至少一层的训练标签特征信息与所述视频处理模块的网络结构中对应的至少一层的训练视频特征信息分别融合；

获取所述视频处理模块在所述标签处理模块的所述多标签体系下，基于融合后的训练特征信息，预测的所述训练视频的多个标签；

判断预测的所述多个标签与标注的所述多个标签是否一致；

若不一致，调整所述视频处理模块和所述标签处理模块中的参数，使得两者一致。

再一方面，本申请还提供了一种视频的多标签分类装置，其特征在于，包括：

输入模块，用于将待分类的视频和随机初始化的标签信息分别输入至预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块中，所述标签处理模块基于预先建立的多标签体系建模而成；

融合处理模块，用于将所述标签处理模块的网络结构中至少一层的标签特征信息与所述视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合；

获取模块，用于获取所述视频处理模块在所述标签处理模块的所述多标签体系下，基于融合后的特征信息，为所述待分类的视频打上的多个标签。

又一方面，本申请还提供了一种视频的多标签分类模型的训练装置，其特征在于，包括：

采集模块，用于采集数条训练视频；

标注模块，用于为各所述训练视频标注多个标签；

训练模块，用于采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型，所述视频的多标签分类模型包括视频处理模块和标签处理模块。

再另一方面，本申请还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的方法。

再又一方面，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一项所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合，从而能够在标签处理模块的多标签体系下，基于融合后的特征信息，更加准确地为待分类的视频打上多个标签。与现有技术相比，本申请通过包括视频处理模块和标签处理模块的视频的多标签分类模型，能够弥补现有技术的不足，实现为视频打上多个标签，从而能够准确、全面地描述视频的内容，有效地提高视频的标签分类效果。

进一步地，本申请中的标签处理模块可以采用GCN网络，视频处理模块可以采用CNN网络，处理过程中能够将GCN卷积得到的标签特征信息融合进CNN网络当中，能够使CNN网络学习到标签的敏感的特征，对多标签分类任务而言，使得CNN网络出了的视频的特征具有更强的表达能力，从而在多标签体系下识别多标签的性能也更好，因此，采用本申请的技术方案，能够更加准确地为待分类的视频打上多标签。

另外，本申请能够采用上述方案训练视频的多标签分类模型，使得训练的视频的多标签分类模型能够准确地为视频打上多标签。

进一步地，本申请中，标签处理模块可以采用GCN网络建模标签之间相关性，综合考虑了标签共同出现的条件概率等统计信息以及基于人类先验知识的知识图谱信息，使得GCN网络在捕获标签相关性的时候能更加鲁棒，从而能够更加准确地为视频打上多标签。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图。

图2为本申请实施例提供的视频的多标签分类模型的操作流程示意图。

图3为图2所示图中的LC操作的流程框图。

图4是根据本申请第二实施例的示意图。

图5是根据本申请第三实施例的示意图；

图6是根据本申请第四实施例的示意图；

图7是用来实现本申请实施例的上述相关方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请第一实施例所示的视频的多标签分类方法的流程图。如图1所示，本实施例的视频的多标签分类方法，具体可以包括如下步骤：

S101、将待分类的视频和随机初始化的标签信息分别输入至预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块中，其中，标签处理模块基于预先建立的多标签体系建模而成；

本实施例的视频的多标签分类方法的执行主体为视频的多标签分类装置，该视频的多标签分类装置为一个电子实体或者也可以为采用软件集成的应用系统，用于对待分类的视频打上多个标签。

使用时，向该视频的多标签分类装置输入一个待分类的视频即可，该视频的多标签分类装置可以基于预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块，为该待分类的视频打上多个标签，以对该视频的内容进行更加准确、更加全面地描述。

从另一个角度来讲，本实施例的视频的多标签分类方法，实质上也是视频的多标签分类模型的使用方法。该视频的多标签分类模型包括视频处理模块和标签处理模块两部分，其中视频处理模块用于采用CNN对视频特征进行处理，而标签处理模块采用图卷积网络(Graph Convolution Networks；GCN)对标签特征进行处理。其中该GCN基于预先建立的多标签体系建模而成。

在实际应用中，图一般可以表述为顶点与边的集合，而边的关系一般可以采用邻接矩阵A来描述，如其中第i行j列的元素A[ij]表示第i个顶点与第j个顶点的连接权重。在本实施例的多标签分类任务中，不同标签间相互关联，可以采用图结构来建模这些相关关系，在该问题中，标签体系中的每一个标签可以被视作一个顶点，A[ij]则代表该组顶点之间的相关性。本方法的邻接矩阵构建方案融合了统计信息所得图的A_S以及知识图谱信息构造的图对应的A_K。

其中，A_S的构造方式如下：

A_S[ij]＝P(i|j)＝F(i，j)/F(j)

F(i,j)代表训练数据集中样本同时包含标签i和标签j的视频的个数，F(j)表示训练数据集中出现标签j的样本的视频总数量。A_K的构建则需要通过人类已经构建的知识图谱的信息来得到。本方案利用ConceptNet【1】这个常用的开源知识图谱来抽取相关知识构建基于知识的邻接矩阵A_K，具体构建方式如下：

其中，S_ij是标签i与标签j之间的关系，例如可以为“属于”关系，“用于”关系等集合，该组关系集合可以是从ConceptNet中抽取出来标签i，j之间的所有关系，w_r为关系r的权重，|S_ij|表示集合中元素的个数。为了融合统计信息与基于知识图谱的信息，标签关系的邻接矩阵定义为A_KS：

A_KS[ij]＝λA′_S+(1-λ)A′_K

其中A′_S与A′_K分别为A_S与A_K的归一化形式，其中D_S为对角矩阵，[D_S]_ii＝∑_j[A_S]_ij，A′_K计算方式类似。λ为0到1之间的权重系数。

为了解决GCN常见的over-smoothing问题，本实施例中还可以对图卷积网络中的邻接矩阵进一步进行了修剪与调整，具体地，将邻接矩阵的元素进行过滤和对角元素增强，如：

A[ij]＝ηA′_KS[ij]+(1-η)I_N

其中τ为一个0到1之间的阈值，η为0到1之间的权重因子，I_N为N×N的单位矩阵，N表示顶点的个数，即标签体系中包括的标签的个数。

实际应用中的GCN有多种多样的形式，本实施例中可以采用的图卷积形式为：

E^(l+1)＝σ(AE^(l)W^(l))

其中，A为N×N的邻接矩阵，输入E^(l)为第l层所得的所有顶点(即标签)的特征矩阵，它的维度为N×C^(l)，C^(l)为第l层顶点特征向量的维度。W^(l)代表参数矩阵，维度为C^(l)×C^(l+1)，σ为非线性激活函数。初始值E⁽⁰⁾可以随机初始化，也可以从ConceptNet中获取每个标签的嵌入(embedding)向量作为初始化。

本实施例中，对视频的多标签分类模型的输入包括两部分信息：待分类的视频和随机初始化的标签信息。其中待分类的视频输入至视频处理模块中，而随机初始化的标签信息输入至标签处理模块中。可选地，该随机初始化的标签信息与训练时输入至标签处理模块中相应的随机初始化的标签信息相同。

S102、将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合；

S103、获取视频处理模块在标签处理模块的多标签体系下，基于融合后的特征信息，为待分类的视频打上的多个标签。

本实施例中，经过步骤S101的输入后，标签处理模块和视频处理模块能够分别基于各自输入的信息和各自训练好的网络参数进行处理。其中标签处理模块采用的GNC网络可以包括有多层，视频处理模块采用的CNN网络也可以包括有多层。本实施例中，可以将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合，使得在CNN网络的每一个进行融合处理的网络层中，可以基于标签特征信息和当前层的CNN网络的视频特征信息获取两者的相关性信息，并进一步将当前层的CNN网络的视频特征信息和参考了标签特征信息的相干性信息融合在一起，从而可以使得视频处理模块可以参考标签特征信息来处理视频的特征信息，从而能够在标签处理模块的多标签体系下，基于至少一层融合后的特征信息，为待分类的视频打上的多个标签。

由于本实施例采用了至少一层的融合处理，可以使得视频处理模块能够在标签处理模块的多标签的体系下，基于标签的特征信息，更加准确地为待分类视频打上多个标签，从而能够更加全面地表示待分类的视频的内容，提高视频的标签分类的效果。

例如，本实施例的CNN网络可以采用BN-Inception网络的I3D版本的模型，GCN网络可以设计为4层，分别通过横向连接(lateral connection；LC)操作，将对应GCN层的标签特征信息融入至CNN网络的Conv3d_2，Mixed_1，Mixed_2，以及Mixed_4的输出之中。例如，图2为本申请实施例提供的视频的多标签分类模型的操作流程示意图。

如图2所示，图中外圈表示视频处理模块对应的CNN网络的处理过程，内圈表示签处理模块对应的GCN网络的处理过程。其中Conv表示卷积网络层，Pool标识池化网络层，Inc.表示一个Inception Block，GConv表示图卷积网络层，L代表LeakyReLU激活函数，S代表sigmoid激活函数，LC为图卷积网络的特征融合进骨干网络即CNN网络的lateralconnection模块。其中initial Label Embeddings即为本实施例的随机初始化的标签信息。Predicted Labels即为本实施例的视频的多标签分类模型最终为待分类的视频预测的多个标签。

图3为图2所示图中的LC操作的流程框图。如图3所示，其中R代表Reshape操作，T代表转置，+代表element-wise相加，X代表矩阵相乘，g代表1x1x1的卷积操作，激活函数σ在此模块中采用的Tanh函数。

需要说明的是，本实施例中，该视频的多标签分类模型在训练时，将标签处理模块的网络结构中哪一层的标签特征信息与视频处理模块的网络结构中对应的哪一层的视频特征信息融合，对应地，在视频的多标签分类方法，也是将对应层的标签特征信息与视频特征信息融合。也就是说，融合发生的网络层在训练时和应用时必须是一致的。

另外，需要说明的是，本实施例的视频的多标签分类模型最终输出的多标签可以为一个多标签体系下的标签向量，标签向量中每个位置的值为该视频属于该位置的标签的概率。本实施例的目的是为该视频打上多标签，具体可以从该标签向量中取概率最大的TopN个值对应的位置的标签作为该视频的标签。其中N的具体数值可以根据实际需求来设置，例如可以为3、5或者其他数值，在此不再一一举例赘述。

本实施例的视频的多标签分类方法，通过采用上述技术方案，将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合，从而能够在标签处理模块的多标签体系下，基于融合后的特征信息，更加准确地为待分类的视频打上多个标签。与现有技术相比，本实施例通过包括视频处理模块和标签处理模块的视频的多标签分类模型，能够弥补现有技术的不足，实现为视频打上多个标签，从而能够准确、全面地描述视频的内容，有效地提高视频的标签分类效果。

进一步地，本实施例的标签处理模块采用GCN网络，视频处理模块采用CNN网络，处理过程中能够将GCN卷积得到的标签特征信息融合进CNN网络当中，能够使CNN网络学习到标签的敏感的特征，对多标签分类任务而言，使得CNN网络出了的视频的特征具有更强的表达能力，从而在多标签体系下识别多标签的性能也更好，因此，采用本实施例的技术方案，能够更加准确地为待分类的视频打上多标签。

需要说明的是，基于本实施例的技术方案，也可以在视频处理模块和标签处理模块的处理过程中，不进行融合，仅在视频处理模块结束后，基于标签处理模型的多标签体系对待分类的视频打上多标签，该实现方案与本实施例的上述技术方案相比，处理过程中没有参考标签的特征信息，使得视频处理模块无法准确地基于多标签体系，对视频打上多标签。

图4为本申请第二实施例提供的视频的多标签分类模型的训练方法的流程图。如图4所示，本实施例的视频的多标签分类模型的训练方法，具体可以包括如下步骤：

S200、采集数条训练视频；

S201、为各训练视频标注多个标签；

S202、采用数条训练视频以及为各训练视频标注的多个标签训练视频的多标签分类模型，其中视频的多标签分类模型包括视频处理模块和标签处理模块。

本实施例的视频的多标签分类模型的训练方法的执行主体为视频的多标签分类模型的训练装置，该训练装置可以为一电子实体，或者也可以为采用软件集成的应用，例如，使用时该应用可以运行在一计算机设备上，以对视频的多标签分类模型进行训练。

本实施例中在训练前，要先采集数条训练视频，并为各训练视频标注多个标签。

也就是说，在训练之前，本实施例的多标签体系已经建立，在为各训练视频标注多个标签时务必是基于多标签体系标注的，这样才能利用数条训练视频以及为各训练视频标注的多个标签来训练视频的多标签分类模型，即训练视频的多标签分类模型中的视频处理模块和标签处理模块。

另外，可选地，在该步骤S202之前，还可以包括：基于预先建立的多标签体系，构建标签处理模块；和/或为标签处理模块配置随机初始化的标签信息，该随机初始化的标签信息与图1所述实施例中视频的多标签分类方法中输入的随机初始化的标签信息相同。

进一步可选地，本实施例中，步骤S202采用数条训练视频以及为各训练视频标注的多个标签训练视频的多标签分类模型，需要将视频处理模块中至少一层网络层的标签特征信息和标签处理模块对应的至少一层网络层的视频特征信息进行融合处理，以联合对视频处理模块和标签处理模块进行训练，使得训练的视频的多标签分类模型能够按照上述图1的方式进行视频的多标签分类。例如，该步骤具体实现时，可以包括如下步骤：

(a)对于各训练视频，将训练视频输入和随机初始化的标签信息分别输入至视频处理模块和标签处理模块中；

(b)将标签处理模块的网络结构中至少一层的训练标签特征信息与视频处理模块的网络结构中对应的至少一层的训练视频特征信息分别融合；

如上述图2实施例所示，进行融合的网络层可以为3层，或者实际应用中，也可以仅取其中2层。或者在其他类型的CNN网络中，也可以为其他多层，在此不再一一举例赘述。

(c)获取视频处理模块在标签处理模块的多标签体系下，基于融合后的训练特征信息，预测的训练视频的多个标签；

(d)判断预测的多个标签与标注的多个标签是否一致；若不一致，执行步骤(e)；若一致，执行步骤(f)；

(e)调整视频处理模块和标签处理模块中的参数，使得两者一致，执行步骤(a)继续训练；

(f)判断在连续预设轮数的训练中预测的多个标签与标注的多个标签是否始终一致，若是，训练结束，确定视频处理模块和标签处理模块中的参数，进而确定视频的多标签分类模型，结束。否则，返回步骤(a)继续训练。

本实施例中采集的训练视频的条数可以达到百万级别以上，训练视频的条数越多，训练的视频的多标签分类模型越准确。

其中，连续预设轮数可以为连续50轮、80轮或者其他正整数，在连续预设轮数的训练中，若对于多个训练视频，预测的多个标签与标注的多个标签始终一致，则标识该视频的多标签分类模型中的参数都已经训练好了，已经能够成功预测各个训练视频的多个标签，此时便可以停止训练。

本实施例的视频的多标签分类模型的训练方法，能够采用上述方案训练视频的多标签分类模型，使得训练的视频的多标签分类模型能够准确地为视频打上多标签。

进一步可选地，本实施例的标签处理模块可以采用GCN网络建模标签之间相关性，综合考虑了标签共同出现的条件概率等统计信息以及基于人类先验知识的知识图谱信息，使得GCN网络在捕获标签相关性的时候能更加鲁棒，从而能够更加准确地为视频打上多标签。

图5为本申请第三实施例提供的视频的多标签分类装置的结构图。如图5所示，本实施例的视频的多标签分类装置500，包括：

输入模块501，用于将待分类的视频和随机初始化的标签信息分别输入至预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块中，标签处理模块基于预先建立的多标签体系建模而成；

融合处理模块502，用于将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合；

获取模块503，用于获取视频处理模块在标签处理模块的多标签体系下，基于融合后的特征信息，为待分类的视频打上的多个标签。

进一步可选地，随机初始化的标签信息与标签处理模块训练时采用的随机初始化的标签信息相同。

进一步可选地，标签处理模块采用图卷积网络结构，视频处理模块采用卷积神经网络结构。

本实施例的视频的多标签分类装置500，通过采用上述模块实现视频的多标签分类的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图6为本申请第四实施例提供的视频的多标签分类模型的训练装置的结构图。如图6所示，本实施例的视频的多标签分类模型的训练装置600，包括：

采集模块601，用于采集数条训练视频；

标注模块602，用于为各训练视频标注多个标签；

训练模块603，用于采用数条训练视频以及为各训练视频标注的多个标签训练视频的多标签分类模型，视频的多标签分类模型包括视频处理模块和标签处理模块。

进一步可选地，本实施例的视频的多标签分类模型的训练装置600中，还包括：

构建模块604用于基于预先建立的多标签体系，构建标签处理模块；和/或

配置模块605用于为标签处理模块配置随机初始化的标签信息。

图6中以同时包括构建模块604和配置模块605为例。

进一步可选地，本实施例的视频的多标签分类模型的训练装置600中，训练模块603用于：

对于各训练视频，将训练视频输入和随机初始化的标签信息分别输入至视频处理模块和标签处理模块中；

将标签处理模块的网络结构中至少一层的训练标签特征信息与视频处理模块的网络结构中对应的至少一层的训练视频特征信息分别融合；

获取视频处理模块在标签处理模块的多标签体系下，基于融合后的训练特征信息，预测的训练视频的多个标签；

判断预测的多个标签与标注的多个标签是否一致；

若不一致，调整视频处理模块和标签处理模块中的参数，使得两者一致。

本实施例的视频的多标签分类模型的训练装置600，通过采用上述模块实现视频的多标签分类模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的实现上述相关方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。例如，本实施例的电子设备，可以用于实现上述实施例中的视频的多标签分类方法，还可以用于实现上述实施例中的视频的多标签分类模型的训练方法。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频的多标签分类方法或者视频的多标签分类模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频的多标签分类方法或者视频的多标签分类模型的训练方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频的多标签分类方法或者视频的多标签分类模型的训练方法对应的程序指令/模块(例如，附图5或者图6所示的相关模块)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频的多标签分类方法或者视频的多标签分类模型的训练方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现视频的多标签分类方法或者视频的多标签分类模型的训练方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至实现视频的多标签分类方法或者视频的多标签分类模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现视频的多标签分类方法或者视频的多标签分类模型的训练方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与实现视频的多标签分类方法或者视频的多标签分类模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合，从而能够在标签处理模块的多标签体系下，基于融合后的特征信息，更加准确地为待分类的视频打上多个标签。与现有技术相比，本申请通过包括视频处理模块和标签处理模块的视频的多标签分类模型，能够弥补现有技术的不足，实现为视频打上多个标签，从而能够准确、全面地描述视频的内容，有效地提高视频的标签分类效果。

根据本申请实施例的技术方案，标签处理模块可以采用GCN网络，视频处理模块可以采用CNN网络，处理过程中能够将GCN卷积得到的标签特征信息融合进CNN网络当中，能够使CNN网络学习到标签的敏感的特征，对多标签分类任务而言，使得CNN网络出了的视频的特征具有更强的表达能力，从而在多标签体系下识别多标签的性能也更好，因此，采用本申请的技术方案，能够更加准确地为待分类的视频打上多标签。

根据本申请实施例的技术方案，能够采用上述方案训练视频的多标签分类模型，使得训练的视频的多标签分类模型能够准确地为视频打上多标签。

根据本申请实施例的技术方案，标签处理模块可以采用GCN网络建模标签之间相关性，综合考虑了标签共同出现的条件概率等统计信息以及基于人类先验知识的知识图谱信息，使得GCN网络在捕获标签相关性的时候能更加鲁棒，从而能够更加准确地为视频打上多标签。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频的多标签分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述随机初始化的标签信息与所述标签处理模块训练时采用的随机初始化的标签信息相同。

3.根据权利要求1或2所述的方法，其特征在于，所述标签处理模块采用图卷积网络结构，所述视频处理模块采用卷积神经网络结构。

4.一种视频的多标签分类模型的训练方法，其特征在于，所述视频的多标签分类模型为权利要求1-3中任一权利要求使用的视频的多标签分类模型，包括：

采集数条训练视频；

为各所述训练视频标注多个标签；

5.根据权利要求4所述的方法，其特征在于，采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型之前，所述方法包括：

基于预先建立的多标签体系，构建所述标签处理模块；和/或

为所述标签处理模块配置随机初始化的标签信息。

6.根据权利要求5所述的方法，其特征在于，采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型，包括：

判断预测的所述多个标签与标注的所述多个标签是否一致；

7.一种视频的多标签分类装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述随机初始化的标签信息与所述标签处理模块训练时采用的随机初始化的标签信息相同。

9.根据权利要求7或8所述的装置，其特征在于，所述标签处理模块采用图卷积网络结构，所述视频处理模块采用卷积神经网络结构。

10.一种视频的多标签分类模型的训练装置，其特征在于，所述视频的多标签分类模型为权利要求7-9中任一权利要求使用的视频的多标签分类模型，包括：

采集模块，用于采集数条训练视频；

标注模块，用于为各所述训练视频标注多个标签；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

构建模块，用于基于预先建立的多标签体系，构建所述标签处理模块；和/或

配置模块，用于为所述标签处理模块配置随机初始化的标签信息。

12.根据权利要求11所述的装置，其特征在于，所述训练模块，用于：

判断预测的所述多个标签与标注的所述多个标签是否一致；

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。