CN109190482A

CN109190482A - 多标签视频分类方法及系统、系统训练方法及装置

Info

Publication number: CN109190482A
Application number: CN201810885986.3A
Authority: CN
Inventors: 梁大为
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-01-11
Anticipated expiration: 2038-08-06
Also published as: CN109190482B

Abstract

本发明实施例提供了多标签视频分类方法及系统、系统训练方法及装置，其中多标签视频分类方法包括：获取待处理视频，提取待处理视频的初始特征；对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，生成聚合特征向量；利用聚合特征向量，生成待处理视频的多个分类标签以及各分类标签对应的置信度。本发明实施例提供的多标签视频分类方法，能够提高多标签视频分类的准确度。

Description

多标签视频分类方法及系统、系统训练方法及装置

技术领域

本发明涉及多标签视频分类技术领域，特别是涉及一种多标签视频分类方法及系统、系统训练方法及装置。

背景技术

随着互联网技术的发展，越来越多的人们选择通过网络观看视频。视频播放网站在展示视频信息时，会展示该视频的分类标签，也即，该视频所属的类别。通常情况下，一段视频不只具有一个标签，例如，一段视频可以同时具有战争标签和科幻标签。可以通过神经网络模型实现多标签视频分类。

基于神经网络模型的多标签视频分类技术，一般是将待打标签视频的特征信息输入至训练好的神经网络模型中，然后利用神经网络模型为视频打出标签信息。

例如，可以通过Gated NetVLAD方法，对公开数据集YouTube-8M进行多标签视频分类。其中，YouTube-8M是谷歌公司公开的目前最大的视频数据集，该数据集包含7百多万个YouTube视频数据。

然而，发明人在实现本发明的过程中发现，现有的基于Gated NetVLAD的多标签视频分类方法至少存在如下问题：

原始的视频和音频特征直接作为聚合操作NetVLAD的输入，没有考虑到初始特征空间是否适合多标签视频分类问题的更好的特征空间。

发明内容

本发明实施例的目的在于提供一种多标签视频分类方法及系统、系统训练方法及装置，以实现提高多标签视频分类的准确度。具体技术方案如下：

第一方面，本发明实施例提供了一种多标签视频分类方法，所述方法包括：

获取待处理视频，提取所述待处理视频的初始特征，所述初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵；

对所提取的所述初始视频特征矩阵和所述初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；所述新的视频特征矩阵中，不同的特征维度对应不同的权重；所述新的音频特征矩阵中，不同的特征维度对应不同的权重；

对所述新的视频特征矩阵和所述新的音频特征矩阵进行聚合处理，生成聚合特征向量，所述聚合特征向量中含有该向量不同特征维度间的相关性；

利用所述聚合特征向量，生成所述待处理视频的多个分类标签以及各分类标签对应的置信度。

可选地，所述获取待处理视频，提取所述待处理视频的初始特征的步骤，包括：

解码所述待处理视频；

按照预设时间间隔，对解码后的所述待处理视频进行视频采样，获得多张采样图片；

调节所述多张采样图片的分辨率至预设分辨率；

将经分辨率调节后的所述多张采样图片输入至第一卷积神经网络中，获得所述待处理视频的初始视频特征矩阵；

按照预设时间间隔，对解码后的所述待处理视频进行音频采样，获得多个音频采样片段；

将所述音频采样片段输入至第二卷积神经网络中，获得所述待处理视频的初始音频特征矩阵。

可选地，所述对所提取的所述初始视频特征矩阵和所述初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵的步骤，包括：

对所述初始视频特征矩阵进行卷积处理，得到第一视频特征矩阵，所述第一视频特征矩阵用于确定所述待处理视频的视频特征空间；

对所述第一视频特征矩阵进行时序平均池化处理，得到第一视频特征向量；

对所述第一视频特征向量进行瓶颈门控处理，得到第二视频特征向量，所述瓶颈门控处理用于获得所述第一视频特征向量中不同特征维度间的相关性；

将所述第二视频特征向量逐列地逐点乘以所述第一视频特征矩阵，得到所述新的视频特征矩阵；

对所述初始音频特征矩阵进行卷积处理，得到第一音频特征矩阵，所述第一音频特征矩阵用于确定所述待处理视频的音频特征空间；

对所述第一音频特征矩阵进行时序平均池化处理，得到第一音频特征向量；

对所述第一音频特征向量进行瓶颈门控处理，得到第二音频特征向量，所述瓶颈门控处理用于获得所述第一音频特征向量中不同特征维度间的相关性；

将所述第二音频特征向量逐列地逐点乘以所述第一音频特征矩阵，得到所述新的音频特征矩阵。

可选地，所述对所述新的视频特征矩阵和所述新的音频特征矩阵进行聚合处理，生成聚合特征向量的步骤，包括：

对所述新的视频特征矩阵进行基于注意力机制的池化处理，生成视频注意力矩阵，所述视频注意力矩阵中，各向量的权重不同于所述新的视频特征矩阵中各向量的权重；

对所述视频注意力矩阵逐列进行L2范数归一化处理；

将经L2范数归一化处理后的所述视频注意力矩阵进行层归一化LN处理；

将经LN处理后的所述视频注意力矩阵展开为对应的第三视频特征向量并对第三视频特征向量进行L2范数归一化处理；

对所述新的音频特征矩阵进行基于注意力机制的池化处理，生成音频注意力矩阵，所述音频注意力矩阵中，各向量的权重不同于所述新的音频特征矩阵中各向量的权重；

对所述音频注意力矩阵逐列进行L2范数归一化处理；

将经L2范数归一化处理后的所述音频注意力矩阵进行LN处理；

将经LN处理后的所述音频注意力矩阵展开为对应的第三音频特征向量并对第三音频特征向量进行L2范数归一化处理；

将经L2范数归一化处理后的所述第三视频特征向量和所述第三音频特征向量拼接为第一特征向量；

对所述第一特征向量进行降维处理，得到第二特征向量；

将所述第二特征向量输入第三瓶颈门控单元，得到第三特征向量，所述第三瓶颈门控单元用于获得所述第二特征向量中不同特征维度间的相关性；

将所述第三特征向量逐点乘以所述第二特征向量，得到所述聚合特征向量。

可选地，所述根据所述聚合特征向量，生成所述待处理视频的多个分类标签以及各分类标签对应的置信度的步骤，包括：

将所述聚合特征向量输入混合专家器MoE，得到第四特征向量；

将所述第四特征向量输入第四瓶颈门控单元，得到第五特征向量，所述第四瓶颈门控单元用于获得所述第四特征向量中不同特征维度间的相关性；

将所述第五特征向量逐点乘以所述第四特征向量，得到第六特征向量，所述第六特征向量中含有多个特征维度以及各特征维度对应的数值；

根据所述第六特征向量中的多个特征维度及各特征维度对应的数值，分别生成所述待处理视频的多个分类标签以及各分类标签对应的置信度。

可选地，所述对所述第一视频特征向量进行瓶颈门控处理，得到第二视频特征向量的步骤，包括：

将所述第一视频特征向量输入第一全连接单元，将所得结果经LN处理后，再通过修正线性单元ReLU函数激活；

将经ReLU函数激活后的所述第一视频特征向量输入第二全连接单元，将所得结果经LN处理后，再通过Sigmoid函数激活，生成所述第二视频特征向量；

所述对所述第一音频特征向量进行瓶颈门控处理，得到第二音频特征向量的步骤，包括：

将所述第一音频特征向量输入第三全连接单元，将所得结果经LN处理后，再通过ReLU函数激活；

将经ReLU函数激活后的所述第一音频特征向量输入第四全连接单元，将所得结果经LN处理后，再通过Sigmoid函数激活，生成所述第二音频特征向量。

可选地，所述对所述新的视频特征矩阵进行基于注意力机制的池化处理，生成视频注意力矩阵的步骤，包括：

将第一预设初始注意力矩阵与所述新的视频特征矩阵相乘，得到第一矩阵；

对所述第一矩阵进行LN处理，得到第二矩阵；

对所述第二矩阵逐行地进行softmax处理，得到第三矩阵；

对所述第三矩阵进行dropout处理，得到第四矩阵；

将所述第四矩阵进行转置操作，得到第五矩阵；

将所述第五矩阵与所述新的视频特征矩阵相乘，得到所述视频注意力矩阵；

所述对所述新的音频特征矩阵进行基于注意力机制的池化处理，生成音频注意力矩阵的步骤，包括：

将第二预设初始注意力矩阵与所述新的音频特征矩阵相乘，得到第六矩阵；

对所述第六矩阵进行LN处理，得到第七矩阵；

对所述第七矩阵逐行地进行softmax处理，得到第八矩阵；

对所述第八矩阵进行dropout处理，得到第九矩阵；

将所述第九矩阵进行转置操作，得到第十矩阵；

将所述第十矩阵与所述新的音频特征矩阵相乘，得到所述音频注意力矩阵。

可选地，所述利用所述聚合特征向量，生成所述待处理视频的多个分类标签以及各分类标签对应的置信度之后，所述方法还包括：

对所述各分类标签对应的置信度按照由高到低的顺序排序，将排序在前的预设个数的置信度确定为可靠置信度。

判断各分类标签对应的置信度与预设阈值的大小关系，将大于预设阈值的置信度确定为可靠置信度。

第二方面，本发明实施例提供了一种多标签视频分类系统，所述系统包括：

特征提取模块，用于获取待处理视频，提取所述待处理视频的初始特征，所述初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵；

特征处理模块，用于对所提取的所述初始视频特征矩阵和所述初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；所述新的视频特征矩阵中，不同的特征维度对应不同的权重；所述新的音频特征矩阵中，不同的特征维度对应不同的权重；

特征池化模块，用于对所述新的视频特征矩阵和所述新的音频特征矩阵进行聚合处理，生成聚合特征向量，所述聚合特征向量中含有该向量不同特征维度间的相关性；

输出模块，用于利用所述聚合特征向量，生成所述待处理视频的多个分类标签以及各分类标签对应的置信度。

可选地，所述特征提取模块，包括：视频特征提取子模块和音频特征提取子模块；

其中，所述视频特征提取子模块用于提取视频特征，包括：

解码单元，用于解码所述待处理视频；

视频采样单元，用于按照预设时间间隔，对解码后的所述待处理视频进行视频采样，获得多张采样图片；

分辨率调节单元，用于调节所述多张采样图片的分辨率至预设分辨率；

视频处理单元，用于将经分辨率调节后的所述多张采样图片输入至第一卷积神经网络中，获得所述待处理视频的初始视频特征矩阵；

所述音频特征提取子模块用于提取音频特征，包括：

音频采样单元，用于按照预设时间间隔，对解码后的所述待处理视频进行音频采样，获得多个音频采样片段；

音频处理单元，用于将所述音频采样片段输入至第二卷积神经网络中，获得所述待处理视频的初始音频特征矩阵。

可选地，所述特征处理模块，包括：

视频特征第一处理子模块，用于对所述初始视频特征矩阵进行卷积处理，得到第一视频特征矩阵，所述第一视频特征矩阵用于确定所述待处理视频的视频特征空间；

视频特征平均池化子模块，用于对所述第一视频特征矩阵进行时序平均池化处理，得到第一视频特征向量；

视频特征第二处理子模块，用于对所述第一视频特征向量进行瓶颈门控处理，得到第二视频特征向量，所述瓶颈门控处理用于获得所述第一视频特征向量中不同特征维度间的相关性；

视频特征第三处理子模块，用于将所述第二视频特征向量逐列地逐点乘以所述第一视频特征矩阵，得到所述新的视频特征矩阵；

音频特征第一处理子模块，用于对所述初始音频特征矩阵进行卷积处理，得到第一音频特征矩阵，所述第一音频特征矩阵用于确定所述待处理视频的音频特征空间；

音频特征平均池化子模块，用于对所述第一音频特征矩阵进行时序平均池化处理，得到第一音频特征向量；

音频特征第二处理子模块，用于对所述第一音频特征向量进行瓶颈门控处理，得到第二音频特征向量，所述瓶颈门控处理用于获得所述第一音频特征向量中不同特征维度间的相关性；

音频特征第三处理子模块，用于将所述第二音频特征向量逐列地逐点乘以所述第一音频特征矩阵，得到所述新的音频特征矩阵。

可选地，所述特征池化模块，包括：

视频特征注意力池化子模块，用于对所述新的视频特征矩阵进行基于注意力机制的池化处理，生成视频注意力矩阵，所述视频注意力矩阵中，各向量的权重不同于所述新的视频特征矩阵中各向量的权重；

视频特征L2范数归一化子模块，用于对所述视频注意力矩阵逐列进行L2范数归一化处理；

视频特征LN归一化子模块，用于将经L2范数归一化处理后的所述视频注意力矩阵进行层归一化LN处理；

视频特征矩阵展开子模块，用于将经LN处理后的所述视频注意力矩阵展开为对应的第三视频特征向量并对第三视频特征向量进行L2范数归一化处理；

音频特征注意力池化子模块，用于对所述新的音频特征矩阵进行基于注意力机制的池化处理，生成音频注意力矩阵，所述音频注意力矩阵中，各向量的权重不同于所述新的音频特征矩阵中各向量的权重；

音频特征L2范数归一化子模块，用于对所述音频注意力矩阵逐列进行L2范数归一化处理；

音频特征LN归一化子模块，用于将经L2范数归一化处理后的所述音频注意力矩阵进行LN处理；

音频特征矩阵展开子模块，用于将经LN处理后的所述音频注意力矩阵展开为对应的第三音频特征向量并对第三音频特征向量进行L2范数归一化处理；

拼接子模块，用于将经L2范数归一化处理后的所述第三视频特征向量和所述第三音频特征向量拼接为第一特征向量；

向量第一处理子模块，用于对所述第一特征向量进行降维处理，得到第二特征向量；

向量第二处理子模块，用于将所述第二特征向量输入第三瓶颈门控单元，得到第三特征向量，所述第三瓶颈门控单元用于获得所述第二特征向量中不同特征维度间的相关性；

向量第三处理子模块，用于将所述第三特征向量逐点乘以所述第二特征向量，得到所述聚合特征向量。

可选地，所述输出模块，包括：

向量第四处理子模块，用于将所述聚合特征向量输入混合专家器MoE，得到第四特征向量；

向量第五处理子模块，用于将所述第四特征向量输入第四瓶颈门控单元，得到第五特征向量，所述第四瓶颈门控单元用于获得所述第四特征向量中不同特征维度间的相关性；

向量第六处理子模块，用于将所述第五特征向量逐点乘以所述第四特征向量，得到第六特征向量，所述第六特征向量中含有多个特征维度以及各特征维度对应的数值；

生成子模块，用于根据所述第六特征向量中的多个特征维度及各特征维度对应的数值，分别生成所述待处理视频的多个分类标签以及各分类标签对应的置信度。

可选地，所述视频特征第二处理子模块，具体用于：

将经ReLU函数激活后的第一视频特征向量输入所述第二全连接单元，将所得结果经LN处理后，再通过Sigmoid函数激活，生成所述第二视频特征向量；

所述音频特征第二处理子模块，具体用于：

可选地，所述视频特征注意力池化子模块，包括：

矩阵第一处理单元，用于将第一预设初始注意力矩阵与所述新的视频特征矩阵相乘，得到第一矩阵；

矩阵第二处理单元，用于对所述第一矩阵进行LN处理，得到第二矩阵；

矩阵第三处理单元，用于对所述第二矩阵逐行地进行softmax处理，得到第三矩阵；

矩阵第四处理单元，用于对所述第三矩阵进行dropout处理，得到第四矩阵；

矩阵第五处理单元，用于将所述第四矩阵进行转置操作，得到第五矩阵；

视频注意力矩阵处理单元，用于将所述第五矩阵与所述新的视频特征矩阵相乘，得到所述视频注意力矩阵；

所述音频特征注意力池化子模块，包括：

矩阵第六处理单元，用于将第二预设初始注意力矩阵与所述新的音频特征矩阵相乘，得到第六矩阵；

矩阵第七处理单元，用于对所述第六矩阵进行LN处理，得到第七矩阵；

矩阵第八处理单元，用于对所述第七矩阵逐行地进行softmax处理，得到第八矩阵；

矩阵第九处理单元，用于对所述第八矩阵进行dropout处理，得到第九矩阵；

矩阵第十处理单元，用于将所述第九矩阵进行转置操作，得到第十矩阵；

音频注意力矩阵处理单元，将所述第十矩阵与所述新的音频特征矩阵相乘，得到所述音频注意力矩阵。

可选地，所述系统还包括：

第一确定模块，用于对所述各分类标签对应的置信度按照由高到低的顺序排序，将排序在前的预设个数的置信度确定为可靠置信度。

可选地，所述系统还包括：

第二确定模块，用于判断各分类标签对应的置信度与预设阈值的大小关系，将大于预设阈值的置信度确定为可靠置信度。

第三方面，本发明实施例提供了一种多标签视频分类系统的训练方法，所述方法包括：

获取样本视频以及样本视频预设的类别标签真值，所述样本视频至少具有一个类别标签；

将所述样本视频输入待训练的多标签视频分类系统中，获得预测的所述类别标签的置信度；

对所述样本视频的类别标签真值进行标签平滑处理，获得所述类别标签真值的置信度，所述类别标签真值的置信度中包含噪声；

利用所述预测的所述类别标签的置信度和所述类别标签真值的置信度，计算所述待训练多标签视频分类系统的损失；

利用得到的损失训练所述多标签视频分类系统。

可选地，所述将所述样本视频输入待训练的多标签视频分类系统中，获得预测的所述类别标签的置信度，包括：

提取所述样本视频的初始特征，所述初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵；

利用所述聚合特征向量，预测所述样本视频的类别标签的置信度。

第四方面，本发明实施例提供了一种多标签视频分类系统的训练装置，所述装置包括：

样本视频获取模块，用于获取样本视频以及样本视频预设的类别标签真值，所述样本视频至少具有一个类别标签；

预测置信度获取模块，用于将所述样本视频输入待训练的多标签视频分类系统中，获得预测的所述类别标签的置信度；

真值置信度获取模块，用于对所述样本视频的类别标签真值进行标签平滑处理，获得所述类别标签真值的置信度，所述类别标签真值的置信度中包含噪声；

损失计算模块，用于利用所述预测的所述类别标签的置信度和所述类别标签真值的置信度，计算所述待训练多标签视频分类系统的损失；

训练模块，用于利用得到的损失训练所述多标签视频分类系统。

可选地，所述预测置信度获取模块，包括：

特征提取子模块，用于提取所述样本视频的初始特征，所述初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵；

特征处理子模块，对所提取的所述初始视频特征矩阵和所述初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；所述新的视频特征矩阵中，不同的特征维度对应不同的权重；所述新的音频特征矩阵中，不同的特征维度对应不同的权重；

特征池化子模块，对所述新的视频特征矩阵和所述新的音频特征矩阵进行聚合处理，生成聚合特征向量，所述聚合特征向量中含有该向量不同特征维度间的相关性；

输出子模块，利用所述聚合特征向量，预测所述样本视频的类别标签的置信度。

第五方面，本发明实施例提供了一种多标签视频分类服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本发明实施例第一方面提供的多标签视频分类方法的方法步骤。

第六方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本发明实施例第三方面提供的多标签视频分类系统的训练方法的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的多标签视频分类方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的多标签视频分类方法。

本发明实施例提供的一种多标签视频分类方法及系统，通过对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，得到新的视频特征矩阵和新的音频特征矩阵，由于新的视频特征矩阵和新的音频特征矩阵中，不同的特征维度对应不同的权重，因此能够使所提取的特征更加适合进行视频分类处理；通过对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，从而生成聚合特征向量，由于聚合特征向量中含有该向量不同特征维度间的相关性，因此能够确定出更适合的视频特征空间和音频特征空间，因而能够使所生成的待处理视频的分类标签以及各分类标签对应的置信度更加准确，从而提高多标签视频分类的准确度。本发明实施例提供的多标签视频分类方法及系统，GAP(GlobalAverage Precision，全局平均精度)达到83.7％，在权威的测试集YouTube-8M上领先于目前已知的最佳单模型0.9个百分点。

本发明实施例提供的一种多标签视频分类系统的训练方法，通过对样本视频预设的类别标签真值进行标签平滑处理，得到类别标签真值的置信度，然后通过预测的类别标签的置信度和类别标签真值的置信度，计算待训练多标签视频分类系统的损失，并利用该损失训练多标签视频分类系统。由于对类别标签真值引入了标签平滑处理技术，使类别标签真值也具有置信度，因此能够抵抗由于样本视频的类别标签不正确而带来的噪声。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的多标签视频分类方法的一种流程示意图；

图2为本发明实施例中步骤S101的一种流程示意图；

图3为本发明实施例中对初始视频特征矩阵进行变换处理的流程示意图；

图4为本发明实施例中对初始音频特征矩阵进行变换处理的流程示意图；

图5为本发明实施例中对新的视频特征矩阵和新的音频特征矩阵进行聚合处理的流程示意图；

图6为本发明实施例中步骤S1031的一种流程示意图；

图7为本发明实施例中步骤S1031’的一种流程示意图；

图8为本发明实施例中步骤S104的一种流程示意图；

图9为本发明实施例提供的多标签视频分类系统的一种结构示意图；

图10为本发明实施例中特征提取模块的结构示意图；

图11为本发明实施例中特征处理模块的结构示意图；

图12为本发明实施例中特征池化模块的结构示意图；

图13为本发明实施例中输出模块的结构示意图；

图14为本发明实施例中视频特征注意力池化子模块的结构示意图；

图15为本发明实施例中音频特征注意力池化子模块的结构示意图；

图16为本发明实施例提供的多标签视频分类系统的另一种结构示意图；

图17为本发明实施例提供的多标签视频分类系统的训练方法的一种流程示意图；

图18为本发明实施中步骤S601的一种流程示意图；

图19为本发明实施例提供的多标签视频分类系统的训练装置的一种结构示意图；

图20为本发明实施例中预测置信度获取模块的一种结构示意图；

图21为本发明实施例提供的多标签视频分类服务器的一种结构示意图；

图22为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

基于神经网络模型的多标签视频分类技术，一般是将待打标签视频的特征信息输入至训练好的神经网络模型中，然后利用神经网络模型为视频打出标签信息。可以通过现有的Gated NetVLAD方法，对公开数据集YouTube-8M进行多标签视频分类。

YouTube-8M是谷歌公司公开的目前最大的视频数据集，该数据集包含7百多万个YouTube视频数据，对应4716个分类标签。Google同时还发布了这些视频的特征，包括视频和音频两部分。视频特征的提取过程如下：每间隔1秒采样一张图像，累计采样300张图像，然后对每一张图像提取Inception-v3神经网络的最后一个隐层的输出作为特征，为了节省存储空间，该特征进一步采用了主成分分析进行降维和白化以及量化处理最终压缩到原来的八分之一；音频特征和图像一样每间隔1秒进行采样，累计采样了300个音频片段，同样进行了主成分分析降维和白化以及量化处理压缩到原来的八分之一。其中，Inception-v3神经网络是谷歌公司开发的一个神经网络模型。

现有的Gated NetVLAD方法，其处理过程为：首先将视频特征和音频特征进行反量化操作，然后分别输入NetVLAD进行特征聚合操作，再将视频特征和音频特征的聚合结果拼接后输入一个全连接层进行降维操作，之后对降维的结果进行上下文门控(contextgating)操作，然后经过一个混合专家网络MoE，再对MoE的输出进行一次上下文门控操作作为整个视频片段的预测输出。

基于Gated NetVLAD的视频分类方法，在多标签视频分类的权威数据集YouTube-8M上取得了目前已知的最佳性能，但是其分类准确度仍有待提高。

为了进一步提高多标签视频分类的准确度，本发明实施例提供了一种多标签视频分类方法及系统、系统训练方法及装置，由于新的视频特征矩阵和新的音频特征矩阵中，不同的特征维度对应不同的权重，因此能够使所提取的特征更加适合进行视频分类处理；由于聚合特征向量中含有该向量不同特征维度间的相关性，因此能够确定出更适合的视频特征空间和音频特征空间，因而能够使所生成的待处理视频的分类标签以及各分类标签对应的置信度更加准确，从而提高多标签视频分类的准确度。

下面首先对本发明实施例所提供的多标签视频分类方法进行介绍。

本发明实施例提供了一种多标签视频分类方法，应用于基于Python语言的TensorFlow环境(TensorFlow是谷歌研发的人工智能学习系统，其命名来源于本身的运行原理)，如图1所示，该方法包括：

S101、获取待处理视频，提取待处理视频的初始特征，初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵。

本发明实施例中，待处理视频可以指待进行多标签视频分类的视频。可以通过现有的特征提取方法，提取待处理视频的初始特征。由于所提取的视频特征未经处理，因此可以称之为初始特征，并且，所提取的初始视频特征通常为特征矩阵，包括：初始视频特征矩阵和初始音频特征矩阵。

作为本发明实施例一种可选的实施方式，如图2所示，上述步骤S101具体可以为：

S1011、解码待处理视频。

可以通过现有的视频解码方法，对所获取的视频码流进行解码，从而得到待处理视频。

S1012、按照预设时间间隔，对解码后的待处理视频进行视频采样，获得多张采样图片。

可以将待处理视频的视频部分，每间隔1秒采样一张图像，对于时间较长的视频，采样张数可以设置为300张。

S1013、调节多张采样图片的分辨率至预设分辨率。

预设分辨率可以为神经网络输入需要的分辨率，该分辨率可以根据不同的神经网络设置。

S1014、将经分辨率调节后的多张采样图片输入至第一卷积神经网络中，获得待处理视频的初始视频特征矩阵。

卷积神经网络可以为二维或三维神经网络，通常而言，二维针对单张图像，三维针对一定长度的图像序列。

例如，可以将300张采样图像输入训练好的Inception-v3神经网络，通过该神经网络最后一个隐层的输出，该隐层的维度是2048，从而输出2048×300的初始视频特征矩阵。

S1015、按照预设时间间隔，对解码后的待处理视频进行音频采样，获得多个音频采样片段。

S1016、将音频采样片段输入至第二卷积神经网络中，获得待处理视频的初始音频特征矩阵。

上述第二卷积神经网络可以为另一个训练好的Inception-v3神经网络，与初始视频特征矩阵的提取方法类似，在此不再赘述。

作为一种可选的实施方式，对于所提取的初始特征，还可以进行主成分分析、降维、白化以及量化等一系列处理，以压缩其大小，从而节省存储空间。

S102、对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵。

为了得到不同特征维度对应不同权重的视频特征或者音频特征，可以对初始视频特征矩阵和初始音频特征矩阵分别进行变换处理。

作为本发明实施例一种具体的实施方式，如图3所示，对初始视频特征矩阵进行变换处理的过程包括：

S1021、对初始视频特征矩阵进行卷积处理，得到第一视频特征矩阵。

可以将初始视频特征矩阵输入经训练的第一线性投影层中进行卷积运算，经训练的第一线性投影层可以为一个1x1卷积层，具体可以采用TensorFlow中的1x1卷积操作来实现。由于第一线性投影层的参数是可学习的，是通过训练数据学习得到的，而不是固定的，因此能更好的反应数据本身的分布特点，从而可以用于确定待处理视频的视频特征空间。第一线性投影层的维数可以设置成和输入数据的维度相同。

S1022、对第一视频特征矩阵进行时序平均池化处理，得到第一视频特征向量。

时序平均池化处理，是指对特征矩阵中的向量进行相加，再将所得结果除以该特征矩阵中向量的个数，从而得到一个向量。

例如，第一视频特征矩阵为1024×300矩阵，则时序平均池化处理过程为：将该矩阵的300个向量相加，再将向量相加结果除以300，得到一个含有1024个元素的向量，即为第一视频特征向量。

S1023、对第一视频频特征向量进行瓶颈门控处理，得到第二视频特征向量。

瓶颈门控处理可以获得第一视频特征向量中不同特征维度间的相关性，可以利用第一瓶颈门控单元处理，第一瓶颈门控单元包括两部分：第一全连接单元和第二全连接单元，输入向量经过该瓶颈门控单元后可以得到一个和原来输入相同维度的向量。第一瓶颈门控单元对向量的具体处理过程包括：

将第一视频特征向量输入第一全连接单元，将所得结果经LN(layernormalization，层归一化)处理后，再通过ReLU函数激活。

其中，LN处理是为了方便参数的优化，加快收敛速度。第一全连接单元的维度小于输入向量的维度，例如设置为输入向量维度的一半，之所以称为瓶颈门控单元，正是因为该全连接层的输出比输入维度小。

将经ReLU函数激活后的第一视频特征向量输入第二全连接单元，将所得结果经LN处理后，再通过Sigmoid函数激活，生成第二视频特征向量。

第二全连接单元的维度等于输入向量的维度，也即，经ReLU函数激活后的第一视频特征向量的维度，并同样进行LN处理，然后采用Sigmoid函数激活。其中，ReLU函数和Sigmoid函数是卷积神经网络中常用的激活函数。

S1024、将第二视频特征向量逐列地逐点乘以第一视频特征矩阵，得到新的视频特征矩阵。

该处理过程为矩阵乘法的一种，即element-wise multiply。例如，假设第一视频特征矩阵是2x2矩阵，记为A，第二视频特征向量是2x1向量，记为B，新的视频特征矩阵记为C，则，C[0,0]＝A[0,0]*B[0],C[1,0]＝A[1,0]*B[1],C[0,1]＝A[0,1]*B[0],C[1,1]＝A[1,1]*B[1]。

所得到的新的视频特征矩阵中，不同的特征维度对应不同的权重。

如图4所示，对初始音频特征矩阵进行变换处理的过程包括：

S1021’、对初始音频特征矩阵进行卷积处理，得到第一音频特征矩阵。

可以将初始音频特征矩阵输入经训练的第二线性投影层中进行卷积运算，第二线性投影层是与第一线性投影层间结构相同的处理单元。

S1022’、对第一音频特征矩阵进行时序平均池化处理，得到第一音频特征向量。

S1023’、对第一音频特征向量进行瓶颈门控处理，得到第二音频特征向量。

瓶颈门控处理可以获得第一音频特征向量中不同特征维度间的相关性，可以利用第二瓶颈门控单元处理，第二瓶颈门控单元包括两部分：第三全连接单元和第四全连接单元。其中，第二瓶颈门控单元是与第一瓶颈门控单元结构相同的单元，并且，其中的第三全连接单元和第四全连接单元分别与第一全连接单元和第二全连接单元结构相同。

S1024’、将第二音频特征向量逐列地逐点乘以第一音频特征矩阵，得到新的音频特征矩阵。

上述S1021’～S1024’与S1021～S1024类似，不同点在于是对初始音频特征矩阵进行处理，得到新的音频特征矩阵，处理过程参考S1021～S1024。并且，新的音频特征矩阵中，不同的特征维度也对应不同的权重。

S103、对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，生成聚合特征向量。

为了获得向量中不同特征维度间的相关性，可以对新的视频特征矩阵和新的音频特征矩阵进行聚合处理。

作为本发明实施例一种具体的实施方式，如图5所示，对新的视频特征矩阵和新的音频特征矩阵进行聚合处理的过程包括：

S1031、对新的视频特征矩阵进行基于注意力机制的池化处理，生成视频注意力矩阵。

新的视频特征矩阵经过基于注意力机制的池化处理后，变成另一个矩阵，即视频注意力矩阵，其行数和新的视频特征矩阵的行数一致，列数取决于池化处理时采用的预设注意力向量的个数。并且，视频注意力矩阵中，各向量的权重不同于新的视频特征矩阵中各向量的权重。

S1032、对视频注意力矩阵逐列进行L2范数归一化处理。

得到视频注意力矩阵后，对其逐列进行L2范数归一化处理，目的是将视频注意力矩阵中的每一列的L2范数变成1，使每一个元素的值都在-1到1之间，更加有利于优化求解参数。

S1033、将经L2范数归一化处理后的视频注意力矩阵进行LN处理。

经L2范数归一化处理后的视频注意力矩阵进行LN处理的目的是方便参数的优化，加快模型收敛速度。LN处理综合考虑一层所有维度的输入，计算该层的平均输入值和输入方差，然后用同一个规范化操作来转换各个维度的输入。

S1034、将经LN处理后的视频注意力矩阵展开为对应的第三视频特征向量。

该过程将视频注意力矩阵逐列进行拉直操作，即，将视频注意力矩阵展开成对应的第三视频特征向量，并对第三视频特征向量进行L2范数归一化处理。将矩阵展开为向量的过程为现有技术，本发明实施例在此不再赘述。

S1031’、对新的音频特征矩阵进行基于注意力机制的池化处理，生成音频注意力矩阵。

新的音频特征矩阵经过基于注意力机制的池化处理后，变成另一个矩阵，即音频注意力矩阵，其行数和新的音频特征矩阵的行数一致，列数取决于池化处理时采用的预设注意力向量的个数。并且，音频注意力矩阵中，各向量的权重不同于新的音频特征矩阵中各向量的权重。

S1032’、对音频注意力矩阵逐列进行L2范数归一化处理。

得到音频注意力矩阵后，对其逐列进行L2范数归一化处理，目的是将音频注意力矩阵中的每一列的L2范数变成1，使每一个元素的值都在-1到1之间，更加有利于优化求解参数。

S1033’、将经L2范数归一化处理后的音频注意力矩阵进行LN处理。

经L2范数归一化处理后的音频注意力矩阵进行LN处理的目的是方便参数的优化，加快模型收敛速度。LN处理综合考虑一层所有维度的输入，计算该层的平均输入值和输入方差，然后用同一个规范化操作来转换各个维度的输入。

S1034’、将经LN处理后的音频注意力矩阵展开为对应的第三音频特征向量，并对第三音频特征向量进行L2范数归一化处理。

该过程将音频注意力矩阵逐列进行拉直操作，即，将音频注意力矩阵展开成对应的第三视频特征向量，然后进行L2范数归一化处理。将矩阵展开为向量的过程为现有技术，本发明实施例在此不再赘述。

S1035、将经L2范数归一化处理后的第三视频特征向量和第三音频特征向量拼接为第一特征向量。

本发明实施例中，可以将第三视频特征向量和第三音频特征向量首尾相连，例如，第三视频特征向量是一个100维向量，第三音频特征向量是一个100维向量，则拼接后的第一特征向量是一个200维向量。

S1036、对第一特征向量进行降维处理，得到第二特征向量。

可以将第一特征向量输入神经网络中的全连接层，从而对第一特征向量进行降维处理，得到第二特征向量。需要说明的是，输出向量的维度可以根据实际需求进行设置。

例如，输入的第一特征向量为2048维，则输出的第二特征向量可以为1024维。

S1037、将第二特征向量输入第三瓶颈门控单元，得到第三特征向量，第三瓶颈门控单元用于获得第二特征向量中不同特征维度间的相关性。

第三瓶颈门控单元可以用于获得第二特征向量中不同特征维度间的相关性，该瓶颈门控单元同样包含两个全连接层，其结构和数据处理流程与第一瓶颈门控单元相同，在此不再赘述。

S1038、将第三特征向量逐点乘以第二特征向量，得到聚合特征向量。

该处理过程为element-wise multiply，即，将第三特征向量逐点乘以第二特征向量，得到一个新的向量，即聚合特征向量。

作为本发明实施例一种可选的实施方式，如图6所示，上述步骤S1031，具体包括：

S10311、将第一预设初始注意力矩阵与新的视频特征矩阵相乘，得到第一矩阵。

其中，第一预设初始注意力矩阵可以由注意力向量构成，注意力向量的维度可以与上述新的视频特征矩阵中列向量的维度相同，并且，注意力向量的个数是可选的超参数，通常设置为64，128或256。第一预设初始注意力矩阵可以通过随机初始化得到。随机初始化是指：给注意力向量中的每一个参数一个随机的绝对值小于1的值，然后通过随机梯度下降算法来对这些参数进行动态更新。

S10312、对第一矩阵进行LN处理，即，进行层归一化处理，使矩阵中的参数优化，得到第二矩阵。

S10313、对第二矩阵逐行地进行softmax处理，即，利用softmax函数对第二矩阵中的元素进行映射，得到第三矩阵。

S10314、对第三矩阵进行dropout处理，得到第四矩阵。现有的Dropout技术，是指在模型训练时随机让神经网络某些隐含层节点的权重不工作，不工作的节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来，其目的是为了防止神经网络过拟合。

S10315、将第四矩阵进行转置操作，得到第五矩阵。

S10316、将第五矩阵与新的视频特征矩阵相乘，得到视频注意力矩阵。

作为本发明实施例一种可选的实施方式，如图7所示，上述步骤S1031’，具体包括：

S10311’、将第二预设初始注意力矩阵与新的音频特征矩阵相乘，得到第六矩阵；

S10312’、对第六矩阵进行LN处理，得到第七矩阵。

S10313’、对第七矩阵逐行地进行softmax处理，得到第八矩阵。

S10314’、对第八矩阵进行dropout处理，得到第九矩阵。

S10315’、将第九矩阵进行转置操作，得到第十矩阵。

S10316’、将第十矩阵与新的音频特征矩阵相乘，得到音频注意力矩阵。

上述步骤S10311’～S10316’与S10311～S10316相似，不同点在于是将第二预设初始注意力矩阵与新的音频特征矩阵相乘，最终得到音频注意力矩阵，对矩阵进行LN处理、softmax处理、dropout处理、转置操作以及矩阵相乘的部分参考S10311～S10316描述，在此不再赘述。

S104、利用聚合特征向量，生成待处理视频的多个分类标签以及各分类标签对应的置信度。

由于所得到的聚合特征向量中含有经聚合的待处理视频的特征，因此可以利用该向量生成待处理视频的多个分类标签以及各分类标签对应的置信度。

作为本发明实施例一种具体的实施方式，如图8所示，上述步骤S104具体可以为：

S1041、将聚合特征向量输入MoE，得到第四特征向量。

可以将上述聚合特征向量输入MoE(Mixture of Experts，混合专家分类器)进行处理，其中，MoE是一种现有的神经网络结构。

S1042、将第四特征向量输入第四瓶颈门控单元，得到第五特征向量，第四瓶颈门控单元用于获得第四特征向量中不同特征维度间的相关性。

第四瓶颈门控单元的结构和数据处理流程与第一瓶颈门控单元相同，在此不再赘述。

S1043、将第五特征向量逐点乘以第四特征向量，得到第六特征向量，第六特征向量中含有多个特征维度以及各特征维度对应的数值。

该处理过程同样为element-wise multiply。

S1044、根据第六特征向量中的多个特征维度及各特征维度对应的数值，分别生成待处理视频的多个分类标签以及各分类标签对应的置信度。

所生成的各分类标签对应的置信度，即为对待处理视频的多个分类标签的预测，分类标签的置信度越高，表明该分类标签越接近准确的分类类别。

作为本发明实施例一种可选的实施方式，还可以对得到的置信度进行排序，将排序在前，即数值高的置信度作为可靠置信度并输出，例如，得到6个置信度，预设个数为3个，则可以将这6个置信度按照由高到低的顺序排序，并保留前3个置信度，并将这3个置信度作为最终输出的置信度。

作为本发明实施例另一种可选的实施方式，还可以预先设置一个阈值，将得到的各置信度与该阈值比较，将大于预设阈值的置信度确定为可靠置信度并输出。例如，预设阈值为0.8，得到6个置信度，其中3个置信度大于0.8，则将这三个置信度作为最终输出的置信度。

本发明实施例提供的一种多标签视频分类方法，通过对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，得到新的视频特征矩阵和新的音频特征矩阵，由于新的视频特征矩阵和新的音频特征矩阵中，不同的特征维度对应不同的权重，因此能够使所提取的特征更加适合进行视频分类处理；通过对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，从而生成聚合特征向量，由于聚合特征向量中含有该向量不同特征维度间的相关性，因此能够确定出更适合的视频特征空间和音频特征空间，因而能够使所生成的待处理视频的分类标签以及各分类标签对应的置信度更加准确，从而提高多标签视频分类的准确度。本发明实施例提供的多标签视频分类方法及系统，GAP达到83.7％，在权威的测试集YouTube-8M上领先于目前已知的最佳单模型0.9个百分点。

本发明实施例提供的多标签视频分类系统的一种具体实施例，与图1所示流程相对应，参考图9，图9为本发明实施例的多标签视频分类系统的一种结构示意图，包括：

特征提取模块201，用于获取待处理视频，提取待处理视频的初始特征，初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵。

特征处理模块202，用于对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；新的视频特征矩阵中，不同的特征维度对应不同的权重；新的音频特征矩阵中，不同的特征维度对应不同的权重。

特征池化模块203，用于对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，生成聚合特征向量，聚合特征向量中含有该向量不同特征维度间的相关性。

输出模块204，用于利用聚合特征向量，生成待处理视频的多个分类标签以及各分类标签对应的置信度。

其中，如图10所示，特征提取模块201，包括：

视频特征提取子模块2011和音频特征提取子模块2012。

其中，视频特征提取子模块2011用于提取视频特征，可采用现有的Inception-v3神经网络构建，包括：

解码单元20111，用于解码待处理视频。

视频采样单元20112，用于按照预设时间间隔，对解码后的待处理视频进行视频采样，获得多张采样图片。

分辨率调节单元20113，用于调节多张采样图片的分辨率至预设分辨率。

视频处理单元20114，用于将经分辨率调节后的多张采样图片输入至第一卷积神经网络中，获得待处理视频的初始视频特征矩阵。

其中，音频特征提取子模块2012用于提取音频特征，可采用现有的Inception-v3神经网络构建，包括：

音频采样单元20121，用于按照预设时间间隔，对解码后的待处理视频进行音频采样，获得多个音频采样片段。

音频处理单元20122，用于将音频采样片段输入至第二卷积神经网络中，获得待处理视频的初始音频特征矩阵。

其中，如图11所示，特征处理模块202，包括：

视频特征第一处理子模块2021，用于对初始视频特征矩阵进行卷积处理，得到第一视频特征矩阵，第一视频特征矩阵用于确定待处理视频的视频特征空间。视频特征第一处理子模块2021可以为神经网络的线性投影层，例如，第一线性投影层。

视频特征平均池化子模块2022，用于对第一视频特征矩阵进行时序平均池化处理，得到第一视频特征向量。视频特征平均池化子模块202可以为神经网络的池化层。

视频特征第二处理子模块2023，用于对第一视频特征向量进行瓶颈门控处理，得到第二视频特征向量，瓶颈门控处理用于获得第一视频特征向量中不同特征维度间的相关性。

视频特征第三处理子模块2024，用于将第二视频特征向量逐列地逐点乘以第一视频特征矩阵，得到新的视频特征矩阵。

音频特征第一处理子模块2025，用于对初始音频特征矩阵进行卷积处理，得到第一音频特征矩阵，第一音频特征矩阵用于确定待处理视频的音频特征空间。

音频特征平均池化子模块2026，用于对第一音频特征矩阵进行时序平均池化处理，得到第一音频特征向量。

音频特征第二处理子模块2027，用于对第一音频特征向量进行瓶颈门控处理，得到第二音频特征向量，第二瓶颈门控单元用于获得第一音频特征向量中不同特征维度间的相关性。

音频特征第三处理子模块2028，用于将第二音频特征向量逐列地逐点乘以第一音频特征矩阵，得到新的音频特征矩阵。

其中，如图12所示，特征池化模块203，包括：

视频特征注意力池化子模块2031，用于对新的视频特征矩阵进行基于注意力机制的池化处理，生成视频注意力矩阵，视频注意力矩阵中，各向量的权重不同于新的视频特征矩阵中各向量的权重。

视频特征L2范数归一化子模块2032，用于对视频注意力矩阵逐列进行L2范数归一化处理。

视频特征LN归一化子模块2033，用于将经L2范数归一化处理后的视频注意力矩阵进行层归一化LN处理。

视频特征矩阵展开子模块2034，用于将经LN处理后的视频注意力矩阵展开为对应的第三视频特征向量，并对第三视频特征向量进行L2范数归一化处理。

音频特征注意力池化子模块2035，用于对新的音频特征矩阵进行基于注意力机制的池化处理，生成音频注意力矩阵，音频注意力矩阵中，各向量的权重不同于新的音频特征矩阵中各向量的权重。

音频特征L2范数归一化子模块2036，用于对音频注意力矩阵逐列进行L2范数归一化处理。

音频特征LN归一化子模块2037，用于将经L2范数归一化处理后的音频注意力矩阵进行LN处理。

音频特征矩阵展开子模块2038，用于将经LN处理后的音频注意力矩阵展开为对应的第三音频特征向量，并对第三音频特征向量进行L2范数归一化处理。

拼接子模块2039，用于将经L2范数归一化处理后的第三视频特征向量和第三音频特征向量拼接为第一特征向量。

向量第一处理子模块20310，用于对第一特征向量进行降维处理，得到第二特征向量。

向量第二处理子模块20311，用于将第二特征向量输入第三瓶颈门控单元，得到第三特征向量，第三瓶颈门控单元用于获得第二特征向量中不同特征维度间的相关性。

向量第三处理子模块20312，用于将第三特征向量逐点乘以第二特征向量，得到聚合特征向量。

其中，如图13所示，输出模块204，包括：

向量第四处理子模块2041，用于将聚合特征向量输入混合专家器MoE，得到第四特征向量。

向量第五处理子模块2042，用于将第四特征向量输入第四瓶颈门控单元，得到第五特征向量，第四瓶颈门控单元用于获得第四特征向量中不同特征维度间的相关性。

向量第六处理子模块2043，用于将第五特征向量逐点乘以第四特征向量，得到第六特征向量，第六特征向量中含有多个特征维度以及各特征维度对应的数值。

生成子模块2044，用于根据第六特征向量中的多个特征维度及各特征维度对应的数值，分别生成待处理视频的多个分类标签以及各分类标签对应的置信度。

其中，视频特征第二处理子模块203，具体用于：

将第一视频特征向量输入第一全连接单元，将所得结果经LN处理后，再通过修正线性单元ReLU函数激活；将经ReLU函数激活后的第一视频特征向量输入第二全连接单元，将所得结果经LN处理后，再通过Sigmoid函数激活，生成第二视频特征向量；

其中，音频特征第二处理子模块207，具体用于：

将第一音频特征向量输入第三全连接单元，将所得结果经LN处理后，再通过ReLU函数激活；将经ReLU函数激活后的第一音频特征向量输入第四全连接单元，将所得结果经LN处理后，再通过Sigmoid函数激活，生成第二音频特征向量。

其中，如图14所示，视频特征注意力池化子模块2031，包括：

矩阵第一处理单元301，用于将第一预设初始注意力矩阵与新的视频特征矩阵相乘，得到第一矩阵。

矩阵第二处理单元302，用于对第一矩阵进行LN处理，得到第二矩阵。

矩阵第三处理单元303，用于对第二矩阵逐行地进行softmax处理，得到第三矩阵。

矩阵第四处理单元304，用于对第三矩阵进行dropout处理，得到第四矩阵。

矩阵第五处理单元305，用于将第四矩阵进行转置操作，得到第五矩阵。

视频注意力矩阵处理单元306，用于将第五矩阵与新的视频特征矩阵相乘，得到视频注意力矩阵。

其中，如图15所示，音频特征注意力池化子模块2035，包括：

矩阵第六处理单元401，用于将第二预设初始注意力矩阵与新的音频特征矩阵相乘，得到第六矩阵。

矩阵第七处理单元402，用于对第六矩阵进行LN处理，得到第七矩阵。

矩阵第八处理单元403，用于对第七矩阵逐行地进行softmax处理，得到第八矩阵。

矩阵第九处理单元404，用于对第八矩阵进行dropout处理，得到第九矩阵。

矩阵第十处理单元405，用于将第九矩阵进行转置操作，得到第十矩阵。

音频注意力矩阵处理单元406，将第十矩阵与新的音频特征矩阵相乘，得到音频注意力矩阵。

如图16所示，在图9所示多标签视频分类系统结构的基础上，本发明实施例的系统还包括：

第一确定模块501，用于对各分类标签对应的置信度按照由高到低的顺序排序，将排序在前的预设个数的置信度确定为可靠置信度。

第二确定模块502，用于判断各分类标签对应的置信度与预设阈值的大小关系，将大于预设阈值的置信度确定为可靠置信度。

本发明实施例提供的一种多标签视频分类系统，通过对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，得到新的视频特征矩阵和新的音频特征矩阵，由于新的视频特征矩阵和新的音频特征矩阵中，不同的特征维度对应不同的权重，因此能够使所提取的特征更加适合进行视频分类处理；通过对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，从而生成聚合特征向量，由于聚合特征向量中含有该向量不同特征维度间的相关性，因此能够确定出更适合的视频特征空间和音频特征空间，因而能够使所生成的待处理视频的分类标签以及各分类标签对应的置信度更加准确，从而提高多标签视频分类的准确度。本发明实施例提供的多标签视频分类方法及系统，GAP达到83.7％，在权威的测试集YouTube-8M上领先于目前已知的最佳单模型0.9个百分点。

本发明实施例还提供了一种多标签视频分类系统的训练方法，如图17所示，包括以下步骤：

S601、获取样本视频以及样本视频预设的类别标签真值，样本视频至少具有一个类别标签。

对于样本视频而言，每个样本视频均可以至少具有一个预设的类别标签，通常认为每个预设类别标签的真值为1。但是，由人工标注的样本视频的预设类别标签难免出现错误，预设类别标签的真值实际不是1。如果将这些错误的类别标签输入至待训练的多标签视频分类系统，将会影响训练结果。

S602、将样本视频输入待训练的多标签视频分类系统中，获得预测的类别标签的置信度。

构建多标签视频分类系统的模型后，可以将样本视频输入待训练的多标签视频分类系统，该多标签视频分类系统的输出为：样本视频的预测的类别标签的置信度。

S603、对样本视频的类别标签真值进行标签平滑处理，获得类别标签真值的置信度，类别标签真值的置信度中包含噪声。

本发明实施例中，利用标签平滑处理技术，可以使原本的类别标签真值转换为置信度，从而降低人工标注错误的影响。其中，标签平滑(label smoothing)技术是一种现有的应用于图像识别领域的技术，其基本思想是对标签的真值引入一定程度的噪声，以抵抗噪声样本的干扰。

S604、利用预测的类别标签的置信度和类别标签真值的置信度，计算待训练多标签视频分类系统的损失。

可以通过预测的类别标签的置信度和类别标签真值的置信度，利用现有的交叉熵损失函数，求得一个二值交叉熵，即，待训练多标签视频分类系统的损失。

S605、利用得到的损失训练多标签视频分类系统。

得到损失后，即可利用该损失对多标签视频分类系统进行训练，例如，通过现有的小批量随机梯度下降算法，对该模型进行训练。

其中，上述步骤S601，如图18所示，具体可以为：

S6011、提取样本视频的初始特征，初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵；

S6012、对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；新的视频特征矩阵中，不同的特征维度对应不同的权重；新的音频特征矩阵中，不同的特征维度对应不同的权重；

S6013、对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，生成聚合特征向量，聚合特征向量中含有该向量不同特征维度间的相关性；

S6014、利用聚合特征向量，预测样本视频的类别标签的置信度。

上述步骤S6011～S6014与步骤S101～S104相似，不同处在于提取的是样本视频的初始特征，输出的是预测的样本视频的类别标签的置信度，相同之处在此不再赘述。

本发明实施例还提供了一种多标签视频分类系统的训练装置，与图17所示方法的流程对应，如图19所示，包括：

样本视频获取模块701，用于获取样本视频以及样本视频预设的类别标签真值，样本视频至少具有一个类别标签。

预测置信度获取模块702，用于将样本视频输入待训练的多标签视频分类系统中，获得预测的类别标签的置信度。

真值置信度获取模块703，用于对样本视频的类别标签真值进行标签平滑处理，获得类别标签真值的置信度，类别标签真值的置信度中包含噪声。

损失计算模块704，用于利用预测的类别标签的置信度和类别标签真值的置信度，计算待训练多标签视频分类系统的损失。

训练模块705，用于利用得到的损失训练多标签视频分类系统。

其中，如图20所示，上述预测置信度获取模块702，包括：

特征提取子模块7021，用于提取样本视频的初始特征，初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵。

特征处理子模块7022，对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；新的视频特征矩阵中，不同的特征维度对应不同的权重；新的音频特征矩阵中，不同的特征维度对应不同的权重。

特征池化子模块7023，对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，生成聚合特征向量，聚合特征向量中含有该向量不同特征维度间的相关性。

输出子模块7024，利用聚合特征向量，预测样本视频的类别标签的置信度。

本发明实施例提供的一种多标签视频分类系统的训练装置，通过对样本视频预设的类别标签真值进行标签平滑处理，得到类别标签真值的置信度，然后通过预测的类别标签的置信度和类别标签真值的置信度，计算待训练多标签视频分类系统的损失，并利用该损失训练多标签视频分类系统。由于对类别标签真值引入了标签平滑处理技术，使类别标签真值也具有置信度，因此能够抵抗由于样本视频的类别标签不正确而带来的噪声。

本发明实施例还提供了一种多标签视频分类服务器，如图21所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

获取待处理视频，提取待处理视频的初始特征，初始特征中至少包括：初始视频特征矩阵和初始音频特征矩阵；

对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵；新的视频特征矩阵中，不同的特征维度对应不同的权重；新的音频特征矩阵中，不同的特征维度对应不同的权重；

对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，生成聚合特征向量，聚合特征向量中含有该向量不同特征维度间的相关性；

利用聚合特征向量，生成待处理视频的多个分类标签以及各分类标签对应的置信度。

本发明实施例提供的一种多标签视频分类服务器，通过对所提取的初始视频特征矩阵和初始音频特征矩阵分别进行变换处理，得到新的视频特征矩阵和新的音频特征矩阵，由于新的视频特征矩阵和新的音频特征矩阵中，不同的特征维度对应不同的权重，因此能够使所提取的特征更加适合进行视频分类处理；通过对新的视频特征矩阵和新的音频特征矩阵进行聚合处理，从而生成聚合特征向量，由于聚合特征向量中含有该向量不同特征维度间的相关性，因此能够确定出更适合的视频特征空间和音频特征空间，因而能够使所生成的待处理视频的分类标签以及各分类标签对应的置信度更加准确，从而提高多标签视频分类的准确度。本发明实施例提供的多标签视频分类方法及系统，GAP达到83.7％，在权威的测试集YouTube-8M上领先于目前已知的最佳单模型0.9个百分点。

本发明实施例还提供了一种电子设备，如图22所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

获取样本视频以及样本视频预设的类别标签真值，样本视频至少具有一个类别标签；

将样本视频输入待训练的多标签视频分类系统中，获得预测的类别标签的置信度；

对样本视频的类别标签真值进行标签平滑处理，获得类别标签真值的置信度，类别标签真值的置信度中包含噪声；

利用预测的所述类别标签的置信度和类别标签真值的置信度，计算待训练多标签视频分类系统的损失；

利用得到的损失训练多标签视频分类系统。

本发明实施例提供的电子设备，通过对样本视频预设的类别标签真值进行标签平滑处理，得到类别标签真值的置信度，然后通过预测的类别标签的置信度和类别标签真值的置信度，计算待训练多标签视频分类系统的损失，并利用该损失训练多标签视频分类系统。由于对类别标签真值引入了标签平滑处理技术，使类别标签真值也具有置信度，因此能够抵抗由于样本视频的类别标签不正确而带来的噪声。

上述多标签视频分类服务器提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述多标签视频分类服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的多标签视频分类方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的多标签视频分类方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多标签视频分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频，提取所述待处理视频的初始特征的步骤，包括：

解码所述待处理视频；

调节所述多张采样图片的分辨率至预设分辨率；

3.根据权利要求1所述的方法，其特征在于，所述对所提取的所述初始视频特征矩阵和所述初始音频特征矩阵分别进行变换处理，生成新的视频特征矩阵和新的音频特征矩阵的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述新的视频特征矩阵和所述新的音频特征矩阵进行聚合处理，生成聚合特征向量的步骤，包括：

对所述视频注意力矩阵逐列进行L2范数归一化处理；

将经LN处理后的所述视频注意力矩阵展开为对应的第三视频特征向量，并对第三视频特征向量进行L2范数归一化处理；

对所述音频注意力矩阵逐列进行L2范数归一化处理；

将经L2范数归一化处理后的所述音频注意力矩阵进行LN处理；

将经LN处理后的所述音频注意力矩阵展开为对应的第三音频特征向量，并对第三音频特征向量进行L2范数归一化处理；

对所述第一特征向量进行降维处理，得到第二特征向量；

5.根据权利要求1所述的方法，其特征在于，所述根据所述聚合特征向量，生成所述待处理视频的多个分类标签以及各分类标签对应的置信度的步骤，包括：

6.根据权利要求3所述的方法，其特征在于，所述对所述第一视频特征向量进行瓶颈门控处理，得到第二视频特征向量的步骤，包括：

7.根据权利要求4所述的方法，其特征在于，所述对所述新的视频特征矩阵进行基于注意力机制的池化处理，生成视频注意力矩阵的步骤，包括：

对所述第一矩阵进行LN处理，得到第二矩阵；

对所述第二矩阵逐行地进行softmax处理，得到第三矩阵；

对所述第三矩阵进行dropout处理，得到第四矩阵；

将所述第四矩阵进行转置操作，得到第五矩阵；

对所述第六矩阵进行LN处理，得到第七矩阵；

对所述第七矩阵逐行地进行softmax处理，得到第八矩阵；

对所述第八矩阵进行dropout处理，得到第九矩阵；

将所述第九矩阵进行转置操作，得到第十矩阵；

8.根据权利要求1所述的方法，其特征在于，所述利用所述聚合特征向量，生成所述待处理视频的多个分类标签以及各分类标签对应的置信度之后，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述利用所述聚合特征向量，生成所述待处理视频的多个分类标签以及各分类标签对应的置信度之后，所述方法还包括：

10.一种多标签视频分类系统，其特征在于，所述系统包括：

11.根据权利要求10所述的系统，其特征在于，所述特征提取模块，包括：视频特征提取子模块和音频特征提取子模块；

其中，所述视频特征提取子模块用于提取视频特征，包括：

解码单元，用于解码所述待处理视频；

所述音频特征提取子模块用于提取音频特征，包括：

12.根据权利要求10所述的系统，其特征在于，所述特征处理模块，包括：

13.根据权利要求10所述的系统，其特征在于，所述特征池化模块，包括：

视频特征矩阵展开子模块，用于将经LN处理后的所述视频注意力矩阵展开为对应的第三视频特征向量，并对第三视频特征向量进行L2范数归一化操作；

音频特征矩阵展开子模块，用于将经LN处理后的所述音频注意力矩阵展开为对应的第三音频特征向量，并对第三音频特征向量进行L2范数归一化操作；

14.根据权利要求10所述的系统，其特征在于，所述输出模块，包括：

15.根据权利要求12所述的系统，其特征在于，所述视频特征第二处理子模块，具体用于：

将经ReLU函数激活后的第一视频特征向量输入第二全连接单元，将所得结果经LN处理后，再通过Sigmoid函数激活，生成所述第二视频特征向量；

所述音频特征第二处理子模块，具体用于：

16.根据权利要求13所述的系统，其特征在于，所述视频特征注意力池化子模块，包括：

所述音频特征注意力池化子模块，包括：

17.根据权利要求10所述的系统，其特征在于，所述系统还包括：

18.根据权利要求10所述的系统，其特征在于，所述系统还包括：

19.一种多标签视频分类系统的训练方法，其特征在于，所述方法包括：

利用得到的损失训练所述多标签视频分类系统。

20.根据权利要求19所述的方法，其特征在于，所述将所述样本视频输入待训练的多标签视频分类系统中，获得预测的所述类别标签的置信度，包括：

21.一种多标签视频分类系统的训练装置，其特征在于，所述系统包括：

22.根据权利要求21所述的装置，其特征在于，所述预测置信度获取模块，包括：

23.一种多标签视频分类服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。

24.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求19-20任一所述的方法步骤。