CN112101091A

CN112101091A - 视频分类方法、电子设备和存储介质

Info

Publication number: CN112101091A
Application number: CN202010754189.9A
Authority: CN
Inventors: 周晓晓; 李琳; 周冰; 陆彦良; 李东晓
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-12-18
Anticipated expiration: 2040-07-30
Also published as: CN112101091B

Abstract

本发明实施例提供了一种视频分类方法及装置，该方法包括根据目标视频的组成元素确定各组成元素对应的特征信息；将各组成元素对应的特征信息输入视频分类模型中，得到由视频分类模型输出的分类信息。本方法通过视频分类模型实现对视频的分类，该视频分类模型包括用于对特征信息进行升维处理的升维层和根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算的聚类运算层。通过对特征信息进行升维处理和聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性，提高了对视频分类的分类效率。

Description

视频分类方法、电子设备和存储介质

技术领域

本发明涉及机器学习和视频分析技术领域，尤其是涉及一种视频分类方法、电子设备和存储介质。

背景技术

视频分类有助于进行视频的检索和管理，通常通过对视频添加的标签表示视频所属的类别。传统的方法多通过人工标注的方式对视频进行分类。然而，随着互联网技术的发展，越来越多的视频，尤其是短视频，出现在网络，例如，个人用户上传的短视频。这些短视频涉及动漫、影视、饮食、文娱、体育、游戏等多个类别。如果通过人工标注的方式进行分类，不仅需要消耗大量人力成本，且容易被受个人主观因素影响导致分类不全面和不准确。

可见，通过人工标注的方式对视频进行分类不仅效率低，且容易导致分类不准确。

发明内容

针对现有技术存在的问题，本发明实施例提供一种视频分类方法、装置、电子设备及存储介质。

第一方面，本发明实施例提供一种视频分类方法，包括：

根据目标视频的组成元素确定各组成元素对应的特征信息，所述组成元素包括图像，声音，和/或字幕；

将各组成元素对应的特征信息输入视频分类模型中，得到由所述视频分类模型输出的分类信息，所述分类信息用于表征所述目标视频的类别；

其中，所述视频分类模型为将根据样本视频确定的特征信息和所述样本视频的类别标签作为输入，通过机器学习训练得到的，用于对视频进行分类的模型；

所述视频分类模型包括升维层和聚类运算层，所述升维层用于对所述特征信息进行升维处理，所述聚类运算层用于根据作为训练参数的聚类中心矩阵和升维后的所述特征信息进行运算。

进一步地，所述将各组成元素对应的特征信息输入视频分类模型中，得到由所述视频分类模型输出的分类信息，包括：

将各组成元素的所述特征信息输入到所述升维层，由所述升维层输出升维后的特征信息；

将升维后的所述特征信息输入到所述聚类运算层，由所述聚类运算层输出第一矩阵；

将所述第一矩阵输入到所述视频分类模型的权重聚合层，由所述权重聚合层输出第二矩阵；

将所述第二矩阵输入到所述视频分类模型的分类层，由所述分类层输出所述分类信息；

其中，所述权重聚合层包括至少一个卷积子层和至少一个激活函数，所述分类信息包括所述目标视频的多个类别标签。

进一步地，所述聚类运算层包括多个聚类子层，所述聚类子层的个数与视频的组成元素的个数相同，相应地，所述将升维后的所述特征信息输入到所述聚类运算层，由所述聚类运算层输出第一矩阵，包括：

将升维后的各组成元素对应的特征信息分别输入到对应的聚类子层，由各聚类子层输出各组成元素对应的聚类运算矩阵；

将各组成元素对应的聚类运算矩阵进行拼接，得到所述第一矩阵；

其中，所述聚类子层用于根据所述特征信息和属于所述聚类子层的聚类中心矩阵和初始权重矩阵进行运算。

进一步地，所述聚类子层包括第一运算单元、第二运算单元和聚类单元，相应地，所述将升维后的各组成元素对应的特征信息分别输入到对应的聚类子层，由各聚类子层输出各组成元素对应的聚类运算矩阵，包括：

将升维后的任一组成元素对应的特征信息输入到对应的第一运算单元，由所述第一运算单元根据所述特征信息和初始权重矩阵确定第一运算矩阵；

将所述的升维后的任一组成元素对应的特征信息输入到对应的第二运算单元，由所述第二运算单元根据所述特征信息、所述初始权重矩阵和聚类中心矩阵确定第二运算矩阵；

将所述第一运算矩阵和所述第二运算矩阵输入到对应的聚类单元，由所述聚类单元根据第一运算矩阵和所述第二运算矩阵确定聚类运算矩阵。

进一步地，升维后的任一组成元素对应的特征信息作为升维矩阵，相应地，所述将升维后的任一组成元素对应的特征信息输入到对应的第一运算单元，由所述第一运算单元根据所述特征信息和初始权重矩阵确定第一运算矩阵，包括：

将升维矩阵输入到第一运算单元，由所述第一运算单元进行以下处理：

将所述升维矩阵进行变换，得到第一变换矩阵；将所述升维矩阵采用激活函数激活，得到第一权重矩阵；将所述升维矩阵和初始权重矩阵进行相乘，得到第二权重矩阵；将所述第一权重矩阵和所述第二权重矩阵进行每行向量逐点相乘，得到第三权重矩阵；将所述第一变换矩阵和所述第三权重矩阵进行相乘，得到第一运算矩阵。

进一步地，升维后的任一组成元素对应的特征信息作为升维矩阵，相应地，所述将升维后的任一组成元素对应的特征信息输入到对应的第二运算单元，由所述第二运算单元根据所述特征信息、所述初始权重矩阵和聚类中心矩阵确定第二运算矩阵，包括：

将升维矩阵输入到第二运算单元，由所述第二运算单元进行以下处理：

将所述升维矩阵采用激活函数激活，得到第一权重矩阵；将所述升维矩阵和初始权重矩阵进行相乘，得到第二权重矩阵；将所述第一权重矩阵和所述第二权重矩阵进行每行向量逐点相乘，得到第三权重矩阵；将第三权重矩阵进行每列元素的总和，得到第四权重矩阵；将第四权重矩阵和聚类中心矩阵进行每行向量逐点相乘，得到第二运算矩阵。

进一步地，将所述第一运算矩阵和所述第二运算矩阵输入到对应的聚类单元，由所述聚类单元根据第一运算矩阵和所述第二运算矩阵确定聚类运算矩阵，包括：

将所述第一运算矩阵和所述第二运算矩阵输入到对应的聚类单元，由所述聚类单元根据所述第一运算矩阵和所述第二运算矩阵进行相减，得到残差矩阵，将所述残差矩阵进行归一化，得到聚类运算矩阵。

进一步地，所述将所述第一矩阵输入到所述视频分类模型的权重聚合层，由所述权重聚合层输出第二矩阵，包括：

将所述第一矩阵输入到所述视频分类模型的权重聚合层，由所述权重聚合层根据所述第一矩阵经卷积层和第一激活函数处理，得到图像特征矩阵，以及根据所述第一矩阵经卷积层和第二激活函数处理，得到图像特征权重，将所述图像特征矩阵和图像特征权重进行点乘，得到第二矩阵。

第二方面，本发明实施例提供一种视频分类装置，包括：

提取模块，用于根据目标视频的组成元素确定各组成元素对应的特征信息，所述组成元素包括图像，声音，和/或字幕；

分类模块，用于将各组成元素对应的特征信息输入视频分类模型中，得到由所述视频分类模型输出的分类信息，所述分类信息用于表征所述目标视频的类别；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上所述的视频分类方法的步骤。

第四方面，本发明实施例提供一种非暂态可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以上任一项所述的视频分类方法的步骤。

本发明的实施例提供了一种视频分类方法、电子设备和存储介质，通过视频分类模型实现对视频的分类，该视频分类模型包括用于对特征信息进行升维处理的升维层和根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算的聚类运算层。通过对特征信息进行升维处理和聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性。同时，通过视频分类模型实现视频的自动分类，提高了对视频分类的分类效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频分类方法的流程示意图；

图2是本发明实施例提供的视频分类方法的原理示意图；

图3是本发明实施例提供的聚类子层的信息处理过程示意图；

图4是本发明实施例提供的聚类运算矩阵的获取过程示意图；

图5是本发明实施例提供的视频分类装置的结构框图；

图6是本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的视频分类方法的流程示意图，参见图1，该方法包括：

S11、根据目标视频的组成元素确定各组成元素对应的特征信息，组成元素包括图像，声音，和/或字幕。

针对步骤S11，需要说明的是，在本发明实施例中，随着互联网技术的发展，越来越多的视频，尤其是短视频越来越受到大众喜欢，因此需要对大量的短视频进行类别划分。这些短视频会涉及动漫、影视、饮食、文娱、体育、游戏等多个类别。

一段视频由大量连续的图像帧、声音和/或字幕构成，故视频的组成元素包括图像，声音，和/或字幕，但不局限于此。

对图像帧进行特征提取，能够得到针对于图像的特征信息。

对声音进行特征提取，能够得到针对于声音的特征信息。

对字幕进行特征提取，能够得到针对于字幕的特征信息。

在本发明实施例中，该特征信息主要是以矩阵的形式呈现，故对视频进行特征提取可获得针对于图像、声音和/或字幕的特征矩阵。

在本发明实施例中，特征信息的提取包括：将从视频中提取的多帧图像输入Inception_v3模型，将Inception_v3模型输出的特征矩阵作为根据视频的图像提取的特征信息；将视频的声音片段输入vgg模型，将vgg模型输出的特征矩阵作为根据视频的声音提取的特征信息。将视频的字幕片段输入CTPN+CRNN模型，将CTPN+CRNN模型输出的特征矩阵作为根据视频的字幕提取的特征信息。

S12、将各组成元素对应的特征信息输入视频分类模型中，得到由视频分类模型输出的分类信息，分类信息用于表征所述目标视频的类别；

其中，视频分类模型为将根据样本视频确定的特征信息和样本视频的类别标签作为输入，通过机器学习训练得到的，用于对视频进行分类的模型；

视频分类模型包括升维层和聚类运算层，升维层用于对特征信息进行升维处理，聚类运算层用于根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算。

针对步骤S12，需要说明的是，在本发明实施例中，该视频分类模型是以从样本视频中提取的各组成元素对应的特征信息和样本视频的类别标签作为输入，以表征样本视频所属类别的分类信息作为期望输出，对预先构建的初始模型进行训练得到的模型。初始模型包括对特征信息进行升维处理的升维层和以聚类中心矩阵作为训练参数的聚类运算层。

在本发明实施例中，视频所属的类别包括动漫、影视、饮食、文娱、体育、游戏等等。该分类信息包括目标视频属于的多个类别标签，通常将类别概率排列在前几位对应的类别作为视频所属的类别。

升维层用于对特征信息(特征矩阵)进行升维处理，增加特征的信息量，便于后续处理中对矩阵的变换，进而提高构建的模型的拟合能力，实现对视频分类的准确性的提高。

聚类运算层中的聚类中心矩阵的每一列向量均表示一个聚类中心。经过模型的训练过程后，聚类运算层能够基于各聚类中心将视频的特征信息进行聚类式的分析，从而准确地确定视频所属的类别。

本实施例提供了一种视频分类方法，通过视频分类模型实现对视频的分类，该视频分类模型包括用于对特征信息进行升维处理的升维层和根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算的聚类运算层。通过对特征信息进行升维处理和聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性。同时，通过视频分类模型实现视频的自动分类，提高了对视频分类的分类效率。

其中，为了对视频标注标签，在上述步骤S12之后还包括：根据所述分类信息确定所述视频所属的类别，对目标视频标记与目标视频所属的类别对应的标签。

在上述实施例方法的进一步实施例中，主要是对将各组成元素对应的特征信息输入视频分类模型中，得到由视频分类模型输出的分类信息的过程进行解释说明，具体如下：

将各组成元素的特征信息输入到升维层，由升维层输出升维后的特征信息；

将升维后的特征信息输入到聚类运算层，由聚类运算层输出第一矩阵；

将第一矩阵输入到视频分类模型的权重聚合层，由权重聚合层输出第二矩阵；

将第二矩阵输入到视频分类模型的分类层，由分类层输出分类信息；

其中，权重聚合层包括至少一个卷积子层和至少一个激活函数，分类信息包括目标视频的多个类别标签。

对此，需要说明的是，本实施例方法先将提取到的各组成元素对应的特征信息进行升维处理，然后将升维后的特征信息在进行后续的聚类运算，接着在依次经过权重聚合层、分类层，最终由分类层输出分类信息。

其中，权重聚合层由卷积子层和激活函数(如Relu函数和sigmoid函数)组成，能够进一步地强化表示类别的特征之间的差异，有利于准确地确定视频的类别。

图2示出了本实施例提供的视频分类方法的原理示意图，参见图2，视频特征(即根据视频的图像提取的特征矩阵)和音频特征(即根据视频的音频提取的特征矩阵)输入到升维层21后，由升维层21输出升维后的视频特征或音频特征，将升维后的视频特征或音频特征输入到聚类运算层22后，由聚类运算层22确定第一矩阵，并将第一矩阵输入权重聚合层23。由权重聚合层23确定第二矩阵后，将第二矩阵输入分类层24，经过分类层24输出分类信息，根据该分类信息上的类别添加标签。

本实施例通过权重聚合层进一步强化了对应于各类别的特征之间的差异，从而有利于更为准确地预测视频所属的类别。

在上述实施例方法的进一步实施例中，主要是对第一矩阵的获取过程进行解释说明，聚类运算层包括多个聚类子层，聚类子层的个数与视频的组成元素的个数相同。

为此，将升维后的各组成元素对应的特征信息分别输入到对应的聚类子层，由各聚类子层输出各组成元素对应的聚类运算矩阵，将各组成元素对应的聚类运算矩阵进行拼接，得到第一矩阵；

其中，聚类子层用于根据特征信息和属于聚类子层的聚类中心矩阵和初始权重矩阵进行运算。

如上述图2所示，图2中的组成元素为视频和声音，聚类子层也为两个。两个聚类子层分别对视频特征和音频特征进行聚类运算。

需要说明的是，每一聚类子层中均包括一个聚类中心矩阵和初始权重矩阵，不同聚类子层中的聚类中心矩阵的大小可以不同也可以相同。例如，上述图2用于对视频特征进行处理的聚类子层中的聚类中心矩阵的大小为1024*64，用于对音频特征进行处理的聚类子层中的聚类中心矩阵的大小为128*32。

对根据不同种类的组成元素提取的特征矩阵分别进行聚类分析，避免不同种类特征矩阵之间的干扰，最后将各聚类运算矩阵进行拼接，使得后续分类过程基于各组成元素进行，分类过程对视频不同种类的特征进行了全面考虑。

在上述实施例方法的进一步实施例中，主要是对将升维后的各组成元素对应的特征信息分别输入到对应的聚类子层，由各聚类子层输出各组成元素对应的聚类运算矩阵的过程进行解释说明，具体如下：

每个聚类子层包括第一运算单元、第二运算单元和聚类单元。

A)将升维后的任一组成元素对应的特征信息输入到对应的第一运算单元，由第一运算单元根据特征信息和初始权重矩阵确定第一运算矩阵。

B)将升维后的任一组成元素对应的特征信息输入到对应的第二运算单元，由第二运算单元根据特征信息、初始权重矩阵和聚类中心矩阵确定第二运算矩阵。

C)将第一运算矩阵和第二运算矩阵输入到对应的聚类单元，由聚类单元根据第一运算矩阵和第二运算矩阵确定聚类运算矩阵。

下面分别对上述步骤A)、B)和C)进行解释说明，如图3所示为聚类运算矩阵的获取示意图，具体如下：

在解释说明前，将升维后的任一组成元素对应的特征信息作为升维矩阵。

为此，针对步骤A)，将升维矩阵输入到第一运算单元，由第一运算单元进行如下处理：

将升维矩阵进行矩阵变换，得到第一变换矩阵。

将升维矩阵经激活函数激活并进行矩阵变换，得到第一权重矩阵。

将升维矩阵和初始权重矩阵进行相乘并进行矩阵变换，得到第二权重矩阵。

将第一权重矩阵和第二权重矩阵进行每行向量逐点相乘，得到第三权重矩阵。

将第一变换矩阵和第三权重矩阵进行相乘，得到第一运算矩阵。

针对步骤B)，将升维矩阵输入到第二运算单元，由第二运算单元进行如下处理：

将升维矩阵经激活函数激活，得到第一权重矩阵。

将升维矩阵和初始权重矩阵进行相乘，得到第二权重矩阵。

将第三权重矩阵进行每列元素的总和，得到第四权重矩阵。

将第四权重矩阵和聚类中心矩阵进行每行向量逐点相乘，得到第二运算矩阵。

针对步骤C)，将第一运算矩阵和第二运算矩阵输入到对应的聚类单元，由聚类单元根据第一运算矩阵和第二运算矩阵进行相减，得到残差矩阵，将残差矩阵进行归一化，得到聚类运算矩阵。

本实施例通过聚类子层中的第一运算单元、第二运算单元和分类单元实现了对特征信息进行聚类性的分析，有利于根据分析对视频进行分类。

在上述实施例方法的进一步实施例中，主要是对将第一矩阵输入到视频分类模型的权重聚合层，由权重聚合层输出第二矩阵的过程进行解释说明，具体如下：

将第一矩阵输入到视频分类模型的权重聚合层，由权重聚合层根据第一矩阵经卷积层和第一激活函数(如Relu函数)处理，得到图像特征矩阵，以及根据第一矩阵经卷积层和第二激活函数(sigmoid函数)处理，得到图像特征权重，将图像特征矩阵和图像特征权重进行点乘，得到第二矩阵。

对此，需要说明的是，表1为由卷积子层、Relu函数和sigmoid函数组成的权重聚合层的结构。可理解的是，也可以根据需要构建其它结构的权重聚合层，在此不再赘述。

表1权重聚合层的结构信息

网络类型	输出大小	(滤波器个数,卷积大小)
			卷积子层1	1×1	2048，1×1，步长1,填充0
Relu	1×1
			卷积子层2	1×1	2048，1×1，步长1，填充0
Sigmoid	1×1

本实施例提供了一种结构较为简单的权重聚合层，通过该权重聚合层在不增加计算复杂度的前提下，进一步提高了分类效果。

在上述实施例方法的进一步实施例中，该方法可以用于对任意时长的视频进行分类，但是为了保证视频分类的效率，通常用于对短视频进行分类。其中，短视频为视频播放时长小于预设播放时长的视频。例如，所述预设播放时长为5分钟，预设帧数等于300，所述预设片段数量等于300。

以下提供一种具体的通过模型训练得到视频分类模型的过程，该过程以通过视频的图像提取特征矩阵作为特征信息(in_video)和通过视频的声音提取特征矩阵作为特征信息(in_audio)，该过程包括以下4个步骤：

步骤1：构建样本数据集

获取大量时长短于5分钟的视频，每个视频均匀采样300帧图片，将300张采样图像输入现有的Inception_v3模型，通过该模型最后一个隐层(隐层的维度是2048)的输出，得到2048×300的初始的特征矩阵。再采用PCA降维处理，得到300×1024的特征矩阵in_video。对声音进行均匀采样，得到300个音频片段，输入现有的vgg模型，得到300×128的特征矩阵in_audio。预设分类类别包括如下至少一种：自拍、搞笑、动画、游戏、篮球、足球、综艺、电影等。将视频特征矩阵、音频特征、以及视频标签label整合，得到视频标签数据集。

步骤2：构建深度学习模型

第一模块：实现in_video聚类

(1)定义视频特征聚类中心C_k为256×128的矩阵，k表示128个聚类中心。定义初始权重矩阵W_k为2048×1024的矩阵。

(2)对输入的特征矩阵做升维操作，将特征矩阵in_video通过升维层进行升维，得到300×2048的升维矩阵reshape_in_1；将升维矩阵reshape_in_1进行矩阵变换，得到2400×256的第一变换矩阵reshape_in_2。

(3)将升维矩阵reshape_in_1通过全连接层得到300×8大小的矩阵，将该矩阵经过sigmoid函数激活，得到300×8大小的矩阵，将该矩阵进行矩阵变换，得到2400×1的第一权重矩阵a1。

(4)将升维矩阵reshape_in_1与初始权重矩阵W_k相乘，得到300×1024大小的矩阵，将该矩阵经过矩阵变换得到2400×128的矩阵，经过softmax函数激活后，得到第二权重矩阵activation，大小为2400X128。

(5)将第二权重矩阵activation与第一权重矩阵a1的每行向量进行逐点相乘，得到2400×128的第三权重矩阵activation_1。

(6)将得到的第三权重矩阵activation_1，依次计算每列元素的总和，得到第四权重矩阵a_sum，维度为1×128。该第四权重矩阵表示图像特征到每个聚类中心的距离，若矩阵中的值越接近1，则表示图像特征距对应的聚类中心更近。反之，若值越接近0，则表示图像特征距对应的聚类中心越远。

(7)将第四权重矩阵a_sum与聚类中心矩阵C_k每行向量进行逐点相乘，得到大小为256×128的第二运算矩阵cl_2。

(8)将第三权重矩阵activation_1进行矩阵转置，得到128×2400的权重矩阵，将该权重矩阵与第一变换矩阵reshape_in_2相乘，得到大小为128×256的变换矩阵，将该变换矩阵进行转置，得到256×128的第一运算矩阵cl_1。

(9)将第二运算矩阵cl_2与第一运算矩阵cl_1相减，得到大小为256×128的残差矩阵output1。

(10)将残差矩阵output1作归一化处理，得到大小为1×32768的聚类运算矩阵cl_video。

第二模块：实现in_audio聚类(其中，第一模块与第二模块的处理过程相互独立)

(1)定义视频特征聚类中心C_k为64X64的矩阵，k表示64个聚类中心。定义初始权重矩阵W_k为256X256的矩阵。

(2)对输入的特征矩阵做升维操作，将特征矩阵in_video通过升维层进行升维，得到300×256的升维矩阵reshape_in_1；将升维矩阵reshape_in_1进行矩阵变换，得到1200×64的第一变换矩阵reshape_in_2。

(3)将升维矩阵reshape_in_1通过全连接层得到300×4大小的矩阵，将该矩阵经过sigmoid函数激活，得到300×4大小的矩阵，将该矩阵进行矩阵变换，得到1200×1的第一权重矩阵a1。

(4)将升维矩阵reshape_in_1与初始权重矩阵W_k相乘，得到300×256大小的矩阵，将该矩阵经过矩阵变换得到1200×64的矩阵，经过softmax函数激活后，得到第二权重矩阵activation，大小为1200×64。

(5)将第二权重矩阵activation与第一权重矩阵a1的每行向量进行逐点相乘，得到1200×64的第三权重矩阵activation_1。

(6)将得到的第三权重矩阵activation_1，依次计算每列元素的总和，得到第四权重矩阵a_sum，维度为1×64。该第四权重矩阵表示声音特征到每个聚类中心的距离，若矩阵中的值越接近1，则表示声音特征距对应的聚类中心更近。反之，若值越接近0，则表示声音特征距对应的聚类中心越远。

(7)将第四权重矩阵a_sum与聚类中心矩阵C_k每行向量进行逐点相乘，得到大小为64×64的第二运算矩阵cl_2。

(8)将第三权重矩阵activation_1进行矩阵转置，得到64×1200的权重矩阵，将该权重矩阵与第一变换矩阵reshape_in_2相乘，得到大小为64×64的矩阵，将该矩阵进行转置，得到64×64的第一运算矩阵cl_1。

(9)将第二运算矩阵cl_2与第一运算矩阵cl_1相减，得到大小为64×64的残差矩阵output1。

(10)将残差矩阵output1作归一化处理，得到大小为1×4096聚类运算矩阵cl_audio。

第三模块：WeightLayer实现特征权重聚合

(1)将针对图像的聚类运算矩阵c1_video与针对声音的聚类运算矩阵c1_audio按列拼接，得到大小为1×139264的输出矩阵fv。然后对矩阵fv通过权重聚合层进行处理：

(2)将矩阵fv输入到卷积组WeightLayer中，其中卷积组WeightLayer的网络结构定义如下。如下表所示，WeightLayer包含2个卷积层、1个Relu函数以及1个sigmoid函数，其中2个卷积层的卷积核大小均为1*1。WeightLayer的结构如上表1所示。

图4为本实施例提供的权重聚合层的实现原理示意图，参见图4，对于输入矩阵fv，获取经过Relu函数激活之后的图像特征P0以及经过sigmoid函数激活之后的对应权重W2，其中P0、W2都是大小为1×2048的矩阵。将P0与W2进行矩阵点乘，得到大小为1*2048的特征矩阵P1。其中，图4中的Snow、Tree和Ski均为用于表示视频类别的标签词。

第四模块：标签分类

将特征矩阵P1通过全连接层，得到输出predict(即分类信息)，其表现形式为视频在每个类别的概率，该值越大则表示更接近对应类别，反之，该值越小，则表示与对应类别差别越大。

步骤3：训练模型

(1)将样本数据输入到步骤2构建的模型中。一组样本数据包含图像特征、声音特征和类别标签label。

(2)采用交叉熵损失函数，将模型输出值predict与实际标签label进行交叉熵损失计算得到损失loss值。交叉熵损失函数公式如下，其中y代表实际值label，x代表输出值predict，w为初始化权重：

loss(x，y)＝-w[ylogx+(1-y)log(1-x)]

例如，短视频的预设类别为动漫、影视、饮食、文娱、体育、游戏，且短视频分类结果为[动漫(0.01)，影视(0.91)，饮食(0.87)，文娱(0.02)，体育(0.01)，游戏(0.01)]，生成的分类输出predict即为(0.01，0.98，0.95，0.02，0.01，0.01)。若短视频实际标签label为[动漫(0)，影视(1)，饮食(1)，文娱(0)，体育(0)，游戏(0)]，0代表不属于该分类，1代表属于对应分类，即(0，1，1，0，0，0)。依次计算每个类型的交叉熵损失，进行累加求平均，即得到最终的损失loss值。得到损失loss值后，通过反向传播算法对模型进行训练。

(3)训练完成后，得到深度学习模型。

步骤4：对短视频进行自动标签分类检测

抽取短视频的300帧,通过特征提取得到短视频的图像的特征信息以及声音的特征信息，将该特征信息输入训练好的视频分类模型，输出每个类别的对应概率，提取概率最大的前3个类别，作为短视频的类别输出。

本实施例提供的方法能够实现视频标签的自动分类，准确高效，且经过模拟，结果符合预期。

图5示出了本发明一实施例提供的视频分类装置的结构示意图，参见图5，所述视频分类装置包括提取模块51和分类模块52，其中，

在上述实施例装置的进一步实施例中，所述分类模块具体用于：

在上述实施例装置的进一步实施例中，所述聚类运算层包括多个聚类子层，所述聚类子层的个数与视频的组成元素的个数相同，相应地，所述分类模块在将升维后的所述特征信息输入到所述聚类运算层，由所述聚类运算层输出第一矩阵的过程中，具体用于：

在上述实施例装置的进一步实施例中，所述聚类子层包括第一运算单元、第二运算单元和聚类单元，相应地，所述分类模块在将升维后的各组成元素对应的特征信息分别输入到对应的聚类子层，由各聚类子层输出各组成元素对应的聚类运算矩阵的过程中，具体用于：

将升维后的任一组成元素对应的特征信息输入到对应的第二运算单元，由所述第二运算单元根据所述特征信息、所述初始权重矩阵和聚类中心矩阵确定第二运算矩阵；

在上述实施例装置的进一步实施例中，升维后的任一组成元素对应的特征信息作为升维矩阵，相应地，所述分类模块在将升维后的任一组成元素对应的特征信息输入到对应的第一运算单元，由所述第一运算单元根据所述特征信息和初始权重矩阵确定第一运算矩阵的过程中，具体用于：

在上述实施例装置的进一步实施例中，升维后的任一组成元素对应的特征信息作为升维矩阵，相应地，所述分类模块在将升维后的任一组成元素对应的特征信息输入到对应的第二运算单元，由所述第二运算单元根据所述特征信息、所述初始权重矩阵和聚类中心矩阵确定第二运算矩阵的过程中，包括：

在上述实施例装置的进一步实施例中，所述分类模块在将所述第一运算矩阵和所述第二运算矩阵输入到对应的聚类单元，由所述聚类单元根据第一运算矩阵和所述第二运算矩阵确定聚类运算矩阵的过程中，具体用于：

在上述实施例装置的进一步实施例中，所述分类模块在将所述第一矩阵输入到所述视频分类模型的权重聚合层，由所述权重聚合层输出第二矩阵的过程中，具体用于：

本发明的实施例提供了一种视频分类装置，通过视频分类模型实现对视频的分类，该视频分类模型包括用于对特征信息进行升维处理的升维层和根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算的聚类运算层。通过对特征信息进行升维处理和聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性。同时，通过视频分类模型实现视频的自动分类，提高了对视频分类的分类效率。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)61、通信接口(Communications Interface)62、存储器(memory)63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信。处理器61可以调用存储器63中的逻辑指令，以执行如下方法：根据目标视频的组成元素确定各组成元素对应的特征信息，组成元素包括图像，声音，和/或字幕；将各组成元素对应的特征信息输入视频分类模型中，得到由视频分类模型输出的分类信息，分类信息用于表征所述目标视频的类别；其中，视频分类模型为将根据样本视频确定的特征信息和所述样本视频的类别标签作为输入，通过机器学习训练得到的，用于对视频进行分类的模型；视频分类模型包括升维层和聚类运算层，所述升维层用于对特征信息进行升维处理，聚类运算层用于根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算。

此外，上述的存储器63中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据目标视频的组成元素确定各组成元素对应的特征信息，组成元素包括图像，声音，和/或字幕；将各组成元素对应的特征信息输入视频分类模型中，得到由视频分类模型输出的分类信息，分类信息用于表征所述目标视频的类别；其中，视频分类模型为将根据样本视频确定的特征信息和所述样本视频的类别标签作为输入，通过机器学习训练得到的，用于对视频进行分类的模型；视频分类模型包括升维层和聚类运算层，所述升维层用于对特征信息进行升维处理，聚类运算层用于根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算。

另一方面，本发明实施例还提供一种非暂态可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：根据目标视频的组成元素确定各组成元素对应的特征信息，组成元素包括图像，声音，和/或字幕；将各组成元素对应的特征信息输入视频分类模型中，得到由视频分类模型输出的分类信息，分类信息用于表征所述目标视频的类别；其中，视频分类模型为将根据样本视频确定的特征信息和所述样本视频的类别标签作为输入，通过机器学习训练得到的，用于对视频进行分类的模型；视频分类模型包括升维层和聚类运算层，所述升维层用于对特征信息进行升维处理，聚类运算层用于根据作为训练参数的聚类中心矩阵和升维后的特征信息进行运算。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频分类方法，其特征在于，包括：

2.根据权利要求1所述的视频分类方法，其特征在于，所述将各组成元素对应的特征信息输入视频分类模型中，得到由所述视频分类模型输出的分类信息，包括：

3.根据权利要求2所述的视频分类方法，其特征在于，所述聚类运算层包括多个聚类子层，所述聚类子层的个数与视频的组成元素的个数相同，相应地，所述将升维后的所述特征信息输入到所述聚类运算层，由所述聚类运算层输出第一矩阵，包括：

4.根据权利要求3所述的视频分类方法，其特征在于，所述聚类子层包括第一运算单元、第二运算单元和聚类单元，相应地，所述将升维后的各组成元素对应的特征信息分别输入到对应的聚类子层，由各聚类子层输出各组成元素对应的聚类运算矩阵，包括：

5.根据权利要求4所述的视频分类方法，其特征在于，升维后的任一组成元素对应的特征信息为升维矩阵，相应地，所述将升维后的任一组成元素对应的特征信息输入到对应的第一运算单元，由所述第一运算单元根据所述特征信息和初始权重矩阵确定第一运算矩阵，包括：

6.根据权利要求4所述的视频分类方法，其特征在于，升维后的任一组成元素对应的特征信息为升维矩阵，相应地，所述将升维后的任一组成元素对应的特征信息输入到对应的第二运算单元，由所述第二运算单元根据所述特征信息、所述初始权重矩阵和聚类中心矩阵确定第二运算矩阵，包括：

将所述升维矩阵采用激活函数激活，得到第一权重矩阵；将所述升维矩阵和初始权重矩阵进行相乘，得到第二权重矩阵；将所述第一权重矩阵和所述第二权重矩阵进行每行向量逐点相乘，得到第三权重矩阵；对第三权重矩阵求每列元素的总和，得到第四权重矩阵；将第四权重矩阵和聚类中心矩阵进行每行向量逐点相乘，得到第二运算矩阵。

7.根据权利要求4所述的视频分类方法，其特征在于，将所述第一运算矩阵和所述第二运算矩阵输入到对应的聚类单元，由所述聚类单元根据第一运算矩阵和所述第二运算矩阵确定聚类运算矩阵，包括：

8.根据权利要求2所述的视频分类方法，其特征在于，所述将所述第一矩阵输入到所述视频分类模型的权重聚合层，由所述权重聚合层输出第二矩阵，包括：

将所述第一矩阵输入到所述视频分类模型的权重聚合层，由所述权重聚合层将所述第一矩阵经卷积层和第一激活函数处理，得到图像特征矩阵，以及将所述第一矩阵经卷积层和第二激活函数处理，得到图像特征权重，将所述图像特征矩阵和图像特征权重进行点乘，得到第二矩阵。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的视频分类方法的步骤。

10.一种非暂态可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述的视频分类方法的步骤。