CN112464831B

CN112464831B - 视频分类方法、视频分类模型的训练方法及相关设备

Info

Publication number: CN112464831B
Application number: CN202011385575.1A
Authority: CN
Inventors: 赵幸福; 王洪斌; 周迅溢; 蒋宁; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-07-30
Anticipated expiration: 2040-12-01
Also published as: CN112464831A

Abstract

本申请提供一种视频分类方法、视频分类模型的训练方法及相关设备，该方法包括：将目标视频对应的图像帧序列输入到3D卷积网络层进行特征提取，获得第一特征图序列；利用第一混合神经网络对第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；利用第二混合神经网络对第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；利用分类网络层对第三特征图序列进行分类处理，获得目标视频的分类结果。相对于现有技术采用双流法进行视频分类，本申请实施例仅需要对深度神经网络进行训练即可实现对视频的分类，因此降低了视频分类的成本。

Description

视频分类方法、视频分类模型的训练方法及相关设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种视频分类方法、视频分类模型的训练方法及相关设备。

背景技术

随着通信技术的发展，视频的应用越来越广泛，与此同时，视频分类的需求也越来越广泛，无论是社交网络分享视频推荐，还是监控安防，都需要进行视频分类。视频分类时，不仅仅需要分析视频中目标体的空间信息，还要分析时间维度上的信息。目前，通常采用双流法进行视频分类，双流法包括两个通道，一个通道为RGB图像通道，用于建模空间信息，另一个通道为光流通道，用于建模时序信息。两者联合训练，并进行信息融合，实现对视频分类。然而，光流信息的提取在空间和时间上代价都很昂贵，从而使得视频分类的成本较高。

发明内容

本申请实施例提供一种视频分类方法、视频分类模型的训练方法及相关设备，以解决视频分类的成本较高的问题。

第一方面，本申请实施例提供了一种视频分类方法，包括：

将目标视频对应的图像帧序列输入到3D卷积网络层进行特征提取，获得第一特征图序列；

利用第一混合神经网络对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；

利用第二混合神经网络对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；

利用分类网络层对所述第三特征图序列进行分类处理，获得所述目标视频的分类结果。

第二方面，本申请实施例提供了一种视频分类模型的训练方法，包括：

利用预先进行分类标注的多个视频对待训练视频分类模型进行迭代训练；

利用损失函数对所述待训练视频分类模型输出的结果进行检测，确定损失值；

若所述损失值的变化小于预设值，则将当前训练的待训练视频分类模型确定为视频分类模型；

其中，所述视频分类模型包括3D卷积网络层、第一混合神经网络、第二混合神经网络和分类网络层，所述3D卷积网络层用于对每一视频对应的图像帧序列进行特征提取，获得第一特征图序列，所述第一混合神经网络用于对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；所述第二混合神经网络用于对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；所述分类网络层用于对所述第三特征图序列进行分类处理，获得所述视频的分类结果。

第三方面，本申请实施例提供了一种视频分类装置，包括：

第一输入模块，用于将目标视频对应的图像帧序列输入到3D卷积网络层进行特征提取，获得第一特征图序列；

特征提取模块，用于利用第一混合神经网络对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；利用第二混合神经网络对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；

分类处理模块，用于利用分类网络层对所述第三特征图序列进行分类处理，获得所述目标视频的分类结果。

第四方面，本申请实施例提供了一种视频分类模型的训练装置，包括：

训练模块，用于利用预先进行分类标注的多个视频对待训练视频分类模型进行迭代训练；

检测模块，用于利用损失函数对所述待训练视频分类模型输出的结果进行检测，确定损失值；

确定模块，用于若所述损失值的变化小于预设值，则将当前训练的待训练视频分类模型确定为视频分类模型；

第五方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述视频分类方法的步骤，或者，所述计算机程序被所述处理器执行时实现上述视频分类模型的训练方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被所述处理器执行时实现上述视频分类方法的步骤，或者，所述计算机程序被所述处理器执行时实现上述视频分类模型的训练方法的步骤。

本申请实施例通过将目标视频对应的图像帧序列输入到3D卷积网络层进行特征提取，获得第一特征图序列；利用第一混合神经网络对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；利用第二混合神经网络对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；利用分类网络层对所述第三特征图序列进行分类处理，获得所述目标视频的分类结果。相对于现有技术采用双流法进行视频分类，本申请实施例通过在第一混合神经网络中对第一特征图序列进行短时特征和空间特征提取，使得输出的第二特征图具有较好的空域表现能力，然后通过第二混合神经网络加强长时依赖特征的学习，增加了长时特征表现能力，同时增强了短时特征和空间特征的表现能力，进而达到一个更准确的结果。因此，本申请实施例仅需要对深度神经网络进行训练即可实现对视频的分类，因此降低了视频分类的成本。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频分类方法的流程图；

图2是本申请实施例提供的视频分类方法中视频分类模型的结构图；

图3是本申请实施例提供的视频分类方法中第一混合神经网络的结构图；

图4是本申请实施例提供的视频分类方法中第二混合神经网络的结构图；

图5是本申请实施例提供的视频分类模型的训练方法的流程图；

图6是本申请实施例提供的视频分类装置的结构图；

图7是本申请实施例提供的视频分类模型的训练装置的结构图；

图8是本申请实施例提供的电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的一种视频分类方法的流程图，如图1所示，包括以下步骤：

步骤101，将目标视频对应的图像帧序列输入到3D卷积网络层进行特征提取，获得第一特征图序列；

本申请实施例中，上述目标视频为待分类的视频。应理解，上述目标视频可以为一个视频，也可以为多个视频，也就是说，可以一次对一个或者多个视频进行分类。以下各实施例中，以目标视频为一个视频为例进行说明。

上述图像帧序列可以理解为多个图像帧按照顺序排列集合，例如，可以对目标视频的每一图像帧进行提取，并按照图像帧对应的时序排列得到图像帧序列。上述3D卷积网络层可以对每一图像帧进行特征提取，获得每一图像帧对应的特征图，上述第一特征图序列可以理解为3D卷积网络层对图像帧序列中的每一图像帧进行特征提取获得的特征图集合，上述特征图可以理解为特征矩阵，也可以理解为特征向量。

步骤102，利用第一混合神经网络对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；

本申请实施例中，可以将第一特征图序列输入到第一混合神经网络，此时，第一混合神经网络可以对第一特征图序列中的每一第一特征图进行特征提取，得到第二特征图序列。上述空间特征可以表示一图像帧中某一目标对象的空间信息，上述短时特征可以表示时间敏感性强的刻画对象的特征，例如，可以包括以下一项或者多项，从单帧图像中提取出的对象的位置、高度和形状特征、通过多帧图像计算得到对象的运动方向和运动幅度。采用3D卷积网络层进行特征提取可以产生一个混合了时空信息的2D特征图，即上述第二特征图序列中的每一第二特征图均为包含了时空信息的2D特征图，该时空信息可以理解为包括短时特征和空间特征。

步骤103，利用第二混合神经网络对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；

本申请实施例中，可以将第二特征图序列输入到第二混合神经网络，此时，第二混合神经网络可以对第二特征图序列中的每一第二特征图进行特征提取，得到第三特征图序列。上述长时特征可以表示一图像帧中的某一目标对象在长时间内反应的特征信息。

步骤104，利用分类网络层对所述第三特征图序列进行分类处理，获得所述目标视频的分类结果。

本申请实施例中，上述分类网络层可以包括全局池化网络层、全连接网络层和softmax函数。其中，全局池化网络层、全连接网络层和softmax函数依次串联，全局池化网络层的输入为所述第三特征图序列，上述全连接网络层的输入为全局池化网络层的输出，上述softmax函数用于对全连接网络层的输出进行计算，得到分类结果。在一可选实施例中，对目标视频的分类可以包括两个分类或者多种分类，具体的分类形式，例如可以包括搞笑、美食、时尚、旅游、娱乐、生活、资讯、亲子、知识、游戏、汽车、财经、萌宠、运动、音乐、动漫、科技和健康等等不同的分类形式，在此不做进一步的限定。

应理解，上述3D卷积网络层、第一混合神经网络、第二混合神经网络、全局池化网络层、全连接网络层和softmax函数可以组成视频分类模型，其网络结构的连接关系如图2所示。该视频分类模型可以通过预先训练进行深度学习，以实现视频分类。

需要说明的是，上述第一混合神经网络的结构可以根据实际需要进行设置，例如，在一实施例中，如图3所示，第一混合神经网络包括第一重塑网络层(reshape)、2D卷积网络层、第二重塑网络层和第一3D卷积网络层；

其中，所述第一重塑网络层用于对所述第一特征图序列进行特征提取，输出忽略时间维度的第一子特征图序列；所述2D卷积网络层用于对所述第一子特征图序列进行空间特征提取，输出第二子特征图序列；所述第二重塑网络层用于对所述第二子特征图序列进行特征提取，输出恢复时间维度的第三子特征图序列，所述第一3D卷积网络层用于对所述第一特征图序列进行短时特征和空间特征提取，并将输出结果与所述第三子特征图序列进行相加获得所述第二特征图序列。

本申请实施例中，上述第一特征图序列中的每一第一特征图可以通过如下矩阵进行表示：1x50x28x28x128，即上述第一特征图序列可以理解为包括多个1x50x28x28x128的第一特征图的特征图序列。换句话说，上述目标视频的图像帧序列输入至3D卷积网络层进行特征提取后，得到多个1x50x28x28x128的第一特征图。其中，1表示上述目标视频为一个视频，50表示时间维度信息，28x28表示空间维度信息，128表示通道数。

3D卷积网络层可以将多个1x50x28x28x128的第一特征图输入到第一重塑网络层和第一3D卷积网络层。

应理解，在通过第一混合神经网络对第一特征图序列进行处理时，每一网络层输出的通道数据可以根据实际需要进行设置，例如，在一可选实施例中，第一重塑网络层可以对每一个第一特征图进行特征提取得到1x28x28x6400的第一子特征图，从而获得包括多个1x28x28x6400的第一子特征图的第一子特征图序列，此时将时间维度信息融入到通道维度中，从而忽略时间维度。第一重塑网络层可以将该第一子特征图序列输入到2D卷积网络层，由2D卷积网络层对所述第一子特征图序列中的每一个1x28x28x6400的第一子特征图序列进行空间特征提取，得到1x28x28x6400的第二子特征图，从而获得包括多个1x28x28x6400的第二子特征图的第二子特征图序列。2D卷积网络层可以将该第二子特征图序列输入到第二重塑网络层，由第二重塑网络层对所述第二子特征图序列中的每一个1x28x28x6400的第二子特征图序列进行特征提取，得到1x50x28x28x128的第三子特征图，从而获得包括多个1x50x28x28x128的第三子特征图的第三子特征图序列。

上述第一3D卷积网络层可以对每一个第一特征图进行短时特征和空间特征提取得到1x50x28x28x128的子特征图，且第一3D卷积网络层输出的子特征图相对于输入的第一特征图具有更深层的短时特征和空间特征的表现能力。与此同时，将每一个第一特征图依次经过第一重塑网络层、2D卷积网络层和第二重塑网络层进行特征提取得到第三子特征图，该第三子特征图相对于第一特征图具有更深层的空间特征表现能力。最后，将第一3D卷积网络层的输出与第三子特征图进行相加后，得到的1x50x28x28x128的第二特征图具有较强的空间表现能力。由于2D卷积网络层的计算量相对于3D卷积网络层的计算量较小，从而可以在较小的计算量下，保证空间特征的表现能力。应理解空间特征的表现能力可以理解为空间特征的提取或学习能力，也可以称之为空域的学习能力，上述短时特征的表现能力可以理解为短时特征的提取或者学习能力。

本申请实施例中，通过在第一混合神经网络中采用了2D卷积网络层和3D卷积网络层分别对第一特征图序列进行特征提取，通过2D卷积网络层可以加强2D空域的学习能力，将2D卷积网络层提取的子特征图序列经过重塑网络层进行特征提取后，与3D卷积网络层输出的子特征图序列进行相加，最终输出的第二特征图具有较好的2D空域表现能力，从而可以有效提高后续3D短时特征提取能力。

应理解，上述第一混合神经网络的数量可以为一个也可以为多个，例如，在一可选实施例中，上述第一混合神经网络的数量至少为两个，且依次串联，其中，首个第一混合神经网络的输入为所述第一特征图序列，其余第一混合神经网络的输入为上一个第一混合神经网络输出的特征图序列。由于采用至少两个第一混合神经网络进行串联对第一特征图序列进行特征提取，从而可以提高特征的表现能力，进而提高感受野。

可选地，在一可选实施例中，所述第一混合神经网络还包括第一池化网络层，所述第一池化网络层用于对所述第一3D卷积网络层的输出结果与所述第三子特征图序列相加得到的特征图序列进行降维处理，并将降维后的特征图序列输入到下一网络层。

本申请实施例中，当采用多个第一混合神经网络时，多个第一混合神经网络依次串联，首个第一混合神经网络中的第一池化网络层和中间第一混合神经网络中的第一池化网络层的输出为下一个第一混合神经网络的输入，最后一个第一混合神经网络中的第一池化网络层的输出为第二混合神经网络的输入。

上述第一池化网络层可以用于对空间信息进行降维操作，例如，在一实施例中，将第一重塑网络层、2D卷积网络层、第二重塑网络层和第一3D卷积网络层理解为混合模块，以两个串联的第一混合神经网络为例进行说明。假设首个第一混合神经网络中的混合模块的输入为包括多个1x50x56x56x128的第一特征图的第一特征图序列，输出为包括多个1x50x56x56x128的特征图的特征图序列，经过第一混合神经网络的第一池化网络层后，得到包括多个1x50x28x28x128的特征图的特征图序列。然后将该特征图序列作为末个第一混合神经网络的输入，经过末个第一混合神经网络的混合模块后可以得到包括多个1x50x28x28x128的特征图的特征图序列，再经过末个第一混合神经网络的第一池化网络层后，得到包括多个1x50x14x14x128的特征图的特征图序列，该特征图序列即可作为第二特征图序列输入到第二混合神经网络中。由于在本申请实施例中，在第一混合神经网络中设置了第一池化网络层，从而可以减少空间维度信息，进而降低后续网络的参数，减少计算量，因此本申请实施例可以减少网络的训练难度。

应理解，上述混合模块的输入和输出的维度信息不变(例如通道数)，即将包括多个1x50x28x28x128的特征图的特征序列输入到第二混合神经网络后，输出包括多个1x50x28x28x128的特征图的特征序列后。这样，可以在串联多个第一混合神经网络时，可以避免输出的维度信息增加导致计算量较大。当然，在其他实施中，混合模块的输入和输出的维度信息可以是变化的，例如，混合模块输入的特征图序列包括多个1x50x28x28x128的特征图，输出的特征图序列包括多个1x50x28x28x256的特征图。需要说明的是，上述混合模块输入的特征图序列相对于混合模块输出的特征图序列增强了短时特征和空间特征的表现能力。

可选地，上述第二混合神经网络的结构可以根据实际需要进行设置，例如，在一可选实施例中，如图4所示，所述第二混合神经网络包括第二3D卷积网络层、卷积长短期记忆网络层(convlstm2D)、第三3D卷积网络层和第四3D卷积网络层；

其中，所述第二3D卷积网络层用于对所述第二特征图序列进行特征提取，输出第四子特征图序列，所述第二特征图序列的通道数据大于所述第四子特征图序列的通道数；所述卷积长短期记忆网络层用于对所述第四子特征图序列进行长时特征提取，输出第五子特征图序列；所述第三3D卷积网络层用于对所述第五子特征图序列进行特征提取，输出第六子特征图序列，所述第六子特征图序列的通道数与所述第四子特征图序列的通道数相同；所述第四3D卷积网络层用于对所述第二特征图序列进行短时特征和空间特征提取，并将输出结果与所述第六子特征图序列进行拼接获得所述第三特征图序列。

本申请实施例中，上述第二3D卷积网络层和第三3D卷积网络层均可以为1x1x1的3D卷积网络，由于设置第二3D卷积网络层，从而可以减少通道数，进而减小卷积长短期记忆网络层的计算量。上述第三3D卷积网络用于还原时间维度。

上述第一混合神经网络可以将多个1x50x14x14x128的第二特征图作为第二特征图序列输入到第二3D卷积网络层和第四3D卷积网络层。

应理解，在通过第二混合神经网络对第二特征图序列进行处理时，每一网络层输出的通道数据可以根据实际需要进行设置。例如，在一可选实施例中，第二3D卷积网络层可以对每一第二特征图进行特征提取，得到1x14x14x3200的第四子特征图，从而获得包括多个1x14x14x3200的第四子特征图的第四子特征图序列，此时将时间维度信息融入到通道维度中，从而忽略时间维度。第二3D卷积网络层将第四子特征图序列输入到卷积长短期记忆网络层，卷积长短期记忆网络层对第四子特征图中的每一第四子特征图进行特征提取，得到1x14x14x3200的第五子特征图，从而获得包括多个1x14x14x3200的第五子特征图的第五子特征图序列。卷积长短期记忆网络层将第五子特征图序列输入到第三3D卷积网络层，第三3D卷积网络层对第五子特征图序列中的每一第五子特征图进行特征提取，得到1x50x14x14x64的第六子特征图，从而获得包括多个1x50x14x14x64的第六子特征图的第六子特征图序列，此时，在第六子特征图中包含了时间维度信息，对时间维度进行了还原。

上述第四3D卷积网络层可以对，每一个第二特征图进行特征提取得到1x50x14x14x64的子特征图，最后通过拼接网络(concat)对1x50x14x14x64输出的每一子特征图与第三3D卷积网络层输出的第六子特图进行拼接得到1x50x14x14x128的第三特征图。应理解，本申请实施例中，进行子特征图拼接时，应当是每一第二特征图序列中的每一第二特征图依次经过第二3D卷积网络层、卷积长短期记忆网络层和第三3D卷积网络层得到的第六子特征图，与该第二特征图进过第四卷积网络层得到的子特征图进行拼接，从而使得输出的第三特征图具有短时特征、长时特征和空间特征的表现能力。

应理解，上述第二混合神经网络的输入和输出的维度信息(例如通道数)不变，即将包括多个第二特征图的第二特征序列输入到第二混合神经网络后，输出包括多个第三特征图的第三特征序列，第二特征图和第三特征图均为1x50x14x14x128的特征图。这样，在串联多个第二混合神经网络时，可以避免输出的维度信息增加导致计算量较大。当然，在其他实施中，第二混合神经网络的输入和输出的维度信息可以是变化的，例如，第二混合神经网络输入的第二特征图序列包括1x50x14x14x128的第二特征图，输出的第三特征图序列包括1x50x14x14x256的第三特征图。需要说明的是，上述第三特征图序列相对于第二特征图序列增加了长时特征表现能力，同时增强了短时特征和空间特征的表现能力。

本申请实施例中，通过在第二混合神经网络中采用了卷积长短期记忆网络层和3D卷积网络层，视频分类中所起作用的特征主要是有空间特征和时域特征，3D卷积由于其特性主要关心临帧之间的特征，也就是短时依赖特征，由于添加了对长时依赖特征提取能力较强的卷积长短期记忆网络层，而较好的短时依赖特征也有助于长时特征的学习提取。

此外，在第二混合神经网络前首先通过第一混合神经网络进行了空间特征和短时特征提取，加强2D空域的学习能力，从而生成更深更强的3D短时时域特征，然后通过第二混合神经网络加强长时依赖特征的学习，从而达到一个更准确的结果。

可选地，上述第二混合神经网络的数量可以根据实际需要进行设置，例如，在一可选实施例中，所述第二混合神经网络的数量至少为两个，且依次串联，其中，首个第二混合神经网络的输入为所述第二特征图序列，其余第二混合神经网络的输入为上一个第二混合神经网络输出的特征图序列。由于采用至少两个第二混合神经网络进行串联对第二特征图序列进行特征提取，从而可以提高特征的表现能力，进而提高感受野。

进一步地，在一实施例中，所述方法还包括：

利用第二池化网络层对所述首个第二混合神经网络输出的特征图序列进行降维处理；

将降维处理后的特征图序列输入至下一个第二混合神经网络。

本申请实施例中，还可以根据实际需要，例如，根据第二混合神经网络输出的特征图的通道数，设置多个第二池化网络层，其中每一个第二池化网络层的输入为一个第二神经混合网络的输出。该第二池化网络层用于对空间特征信息进行降维处理，例如收个第二混合神经网络输出为包括多个1x50x14x14x128的特征图的特征序列，则经过第二池化网络层后得到包括多个1x50x7x7x128的特征图的特征序列。由于采用了第二池化网络层对第二混合神经网络的输出进行降维处理，从而进一步的提高了后续网络的参数，减少网络计算量，进一步提升网络训练速度。

需要说明的是，本申请实施例中介绍的多种可选的实施方式，彼此可以相互结合实现，也可以单独实现，对此本申请实施例不作限定。

需要说明的是，在经过每一网络层时，可以增加特征图的通道数据，也可以保持特征图的通道数不变。假设特征图在经过3D卷积网络层、第一混合神经网络、第二混合神经网络和第二池化层中每一网络层后，通道数据都会增加，以图2为例，对3D卷积网络层、第一混合神经网络、第二混合神经网络和第二池化层中每一网络层输出的特征图的维度信息进行说明。

例如，输入视频帧序列中每一图片为1x100x224x224x3的特征图，在经过3D卷积网络层后，可以得到的特征图序列中每一特征图为1x50x56x56x64的特征图(即为上述第一特征图)；在经过第一个第一混合神经网络后，输出的特征图序列中每一特征图为1x50x28x28x96；在经过第二个第一混合神经网络后，输出的特征图序列中每一特征图为1x50x14x14x128的特征图；在经过第一个第二混合神经网络后，输出的特征图序列中每一特征图为1x50x14x14x256的特征图；在经过第二池化网络层后，输出的特征图序列中每一特征图为1x50x7x7x512的特征图；在经过第二个第二混合神经网络后，输出的特征图序列中每一特征图为1x50x7x7x1024的特征图。

应理解，在其他实施例中，以上各网络层可以有部分网络层从输入到输出，特征图序列中特征图的通道数增加，部分网络层输入和输入的特征图序列中的特征图的通道数保持不变。其中，上述3D卷积网络层内可以包括3D卷积层和池化网络层，该3D卷积网络层的输出为池化网络层的输出，上述第一混合网络层中包括第一池化网络层。

参照图5，本申请实施例还提供了一种视频分类模型的训练方法，包括：

步骤501，利用预先进行分类标注的多个视频对待训练视频分类模型进行迭代训练；

步骤502，利用损失函数对所述待训练视频分类模型输出的结果进行检测，确定损失值；

步骤503，若所述损失值的变化小于预设值，则将当前训练的待训练视频分类模型确定为视频分类模型；

本申请实施例中，可以由用户对多个视频进行标注，标注每一视频的分类。然后将多个视频进行分组，例如可以一个或者多个视频为一个分组，以一个分组为作为一次迭代的输入进行训练，通过损失函数确定待训练视频分类模型输出的结果与标注的分类之间的损失值，若损失值越小表示输出结果与真实值越接近，当损失值小于上述预设值时，可以将当前训练的待训练视频分类模型确定为视频分类模型。该预设值的大小可以根据实际需要进行设置，在此不做进一步的限定。

应理解，上述第一混合神经网络、第二混合神经网络和分类网络层的结构可以参照上述实施例，在训练过程中，各网络层的处理流程与上述实施例中各网络层的处理流程类似，具体可以参照上述实施例中的描述，在此不再赘述。

本申请实施例通过利用预先进行分类标注的多个视频对待训练视频分类模型进行迭代训练；利用损失函数对所述待训练视频分类模型输出的结果进行检测，确定损失值；若所述损失值的变化小于预设值，则将当前训练的待训练视频分类模型确定为视频分类模型；其中，所述视频分类模型包括3D卷积网络层、第一混合神经网络、第二混合神经网络和分类网络层，所述3D卷积网络层用于对每一视频对应的图像帧序列进行特征提取，获得第一特征图序列，所述第一混合神经网络用于对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；所述第二混合神经网络用于对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；所述分类网络层用于对所述第三特征图序列进行分类处理，获得所述视频的分类结果。相对于现有技术采用双流法进行视频分类，本申请实施例仅需要进行深度神经网络的训练即可实现对视频的分类，因此降低了视频分类的成本。

参见图6，图6是本申请实施例提供的视频分类装置的结构图，如图6所示，视频分类装置600包括：

第一输入模块601，用于将目标视频对应的图像帧序列输入到3D卷积网络层进行特征提取，获得第一特征图序列；

特征提取模块602，用于利用第一混合神经网络对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；利用第二混合神经网络对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；

分类处理模块603，用于利用分类网络层对所述第三特征图序列进行分类处理，获得所述目标视频的分类结果。

可选地，所述第一混合神经网络包括第一重塑网络层、2D卷积网络层、第二重塑网络层和第一3D卷积网络层；

可选地，所述第一混合神经网络的数量至少为两个，且依次串联，其中，首个第一混合神经网络的输入为所述第一特征图序列，其余第一混合神经网络的输入为上一个第一混合神经网络输出的特征图序列。

可选地，第一混合神经网络还包括第一池化网络层，所述第一池化网络层用于对所述第一3D卷积网络层的输出结果与所述第三子特征图序列相加得到的特征图序列进行降维处理，并降维后的特征图序列输入到下一网络层。

可选地，所述第二混合神经网络包括第二3D卷积网络层、卷积长短期记忆网络层、第三3D卷积网络层和第四3D卷积网络层；

可选地，所述第二混合神经网络的数量至少为两个，且依次串联，其中，首个第二混合神经网络的输入为所述第二特征图序列，其余第二混合神经网络的输入为上一个第二混合神经网络输出的特征图序列。

可选地，所述视频分类装置600还包括：

降维模块，用于利用第二池化网络层对所述首个第二混合神经网络输出的特征图序列进行降维处理；

第二输入模块，用于将降维处理后的特征图序列输入至下一个第二混合神经网络。

本申请实施例提供的视频分类装置能够实现图1至图4的方法实施例中各个过程，为避免重复，这里不再赘述。

参见图7，图7是本申请实施例提供的视频分类模型的训练装置的结构图，如图7所示，视频分类模型的训练装置700包括：

训练模块701，用于利用预先进行分类标注的多个视频对待训练视频分类模型进行迭代训练；

检测模块702，用于利用损失函数对所述待训练视频分类模型输出的结果进行检测，确定损失值；

确定模块703，用于若所述损失值的变化小于预设值，则将当前训练的待训练视频分类模型确定为视频分类模型；

本申请实施例提供的视频分类模型的训练装置能够实现图5的方法实施例中各个过程，为避免重复，这里不再赘述。

图8为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、处理器810、以及电源811等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器810，用于执行以下操作：

或者，处理器810，用于执行以下操作：

应理解的是，本申请实施例中，射频单元801可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器810处理；另外，将上行的数据发送给基站。通常，射频单元801包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元801还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块802为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元803可以将射频单元801或网络模块802接收的或者在存储器809中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元803还可以提供与电子设备800执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元803包括扬声器、蜂鸣器以及受话器等。

输入单元804用于接收音频或视频信号。输入单元804可以包括图形处理器(Graphics Processing Unit，GPU)8041和麦克风8042，图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元806上。经图形处理器8041处理后的图像帧可以存储在存储器809(或其它存储介质)中或者经由射频单元801或网络模块802进行发送。麦克风8042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元801发送到移动通信基站的格式输出。

电子设备800还包括至少一种传感器805，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板8061的亮度，接近传感器可在电子设备800移动到耳边时，关闭显示面板8061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器805还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元806用于显示由用户输入的信息或提供给用户的信息。显示单元806可包括显示面板8061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板8061。

用户输入单元807可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元807包括触控面板8071以及其他输入设备8072。触控面板8071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板8071上或在触控面板8071附近的操作)。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器810，接收处理器810发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板8071。除了触控面板8071，用户输入单元807还可以包括其他输入设备8072。具体地，其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板8071可覆盖在显示面板8061上，当触控面板8071检测到在其上或附近的触摸操作后，传送给处理器810以确定触摸事件的类型，随后处理器810根据触摸事件的类型在显示面板8061上提供相应的视觉输出。虽然在图8中，触控面板8071与显示面板8061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板8071与显示面板8061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元808为外部装置与电子设备800连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元808可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备800内的一个或多个元件或者可以用于在电子设备800和外部装置之间传输数据。

存储器809可用于存储软件程序以及各种数据。存储器809可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器809可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器810是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器809内的软件程序和/或模块，以及调用存储在存储器809内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器810可包括一个或多个处理单元；优选的，处理器810可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

电子设备800还可以包括给各个部件供电的电源811(比如电池)，优选的，电源811可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备800包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器810，存储器809，存储在存储器809上并可在所述处理器810上运行的计算机程序，该计算机程序被处理器810执行时实现上述视频分类方法实施例的各个过程，且能达到相同的技术效果，或者，该计算机程序被处理器810执行时实现上述视频分类模型的训练方法实施例的各个过程，且能达到相同的技术效果为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器810执行时实现上述视频分类方法实施例的各个过程，且能达到相同的技术效果，或者，该计算机程序被处理器810执行时实现上述视频分类模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频分类方法，其特征在于，包括：

利用分类网络层对所述第三特征图序列进行分类处理，获得所述目标视频的分类结果；

其中，所述第一混合神经网络包括第一重塑网络层、2D卷积网络层、第二重塑网络层和第一3D卷积网络层；所述第一重塑网络层用于对所述第一特征图序列进行特征提取，输出忽略时间维度的第一子特征图序列；所述2D卷积网络层用于对所述第一子特征图序列进行空间特征提取，输出第二子特征图序列；所述第二重塑网络层用于对所述第二子特征图序列进行特征提取，输出恢复时间维度的第三子特征图序列，所述第一3D卷积网络层用于对所述第一特征图序列进行短时特征和空间特征提取，并将输出结果与所述第三子特征图序列进行相加获得所述第二特征图序列；

所述第二混合神经网络包括第二3D卷积网络层、卷积长短期记忆网络层、第三3D卷积网络层和第四3D卷积网络层；所述第二3D卷积网络层用于对所述第二特征图序列进行特征提取，输出第四子特征图序列，所述第二特征图序列的通道数据大于所述第四子特征图序列的通道数；所述卷积长短期记忆网络层用于对所述第四子特征图序列进行长时特征提取，输出第五子特征图序列；所述第三3D卷积网络层用于对所述第五子特征图序列进行特征提取，输出第六子特征图序列，所述第六子特征图序列的通道数与所述第四子特征图序列的通道数相同；所述第四3D卷积网络层用于对所述第二特征图序列进行短时特征和空间特征提取，并将输出结果与所述第六子特征图序列进行拼接获得所述第三特征图序列。

2.根据权利要求1所述的方法，其特征在于，所述第一混合神经网络的数量至少为两个，且依次串联，其中，首个第一混合神经网络的输入为所述第一特征图序列，其余第一混合神经网络的输入为上一个第一混合神经网络输出的特征图序列。

3.根据权利要求1所述的方法，其特征在于，第一混合神经网络还包括第一池化网络层，所述第一池化网络层用于对所述第一3D卷积网络层的输出结果与所述第三子特征图序列相加得到的特征图序列进行降维处理，并降维后的特征图序列输入到下一网络层。

4.根据权利要求1所述的方法，其特征在于，所述第二混合神经网络的数量至少为两个，且依次串联，其中，首个第二混合神经网络的输入为所述第二特征图序列，其余第二混合神经网络的输入为上一个第二混合神经网络输出的特征图序列。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种视频分类模型的训练方法，其特征在于，包括：

其中，所述视频分类模型包括3D卷积网络层、第一混合神经网络、第二混合神经网络和分类网络层，所述3D卷积网络层用于对每一视频对应的图像帧序列进行特征提取，获得第一特征图序列，所述第一混合神经网络用于对所述第一特征图序列进行短时特征和空间特征提取，获得第二特征图序列；所述第二混合神经网络用于对所述第二特征图序列进行长时特征、短时特征和空间特征提取，获得第三特征图序列；所述分类网络层用于对所述第三特征图序列进行分类处理，获得所述视频的分类结果；

7.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的视频分类方法的步骤，或者，所述计算机程序被所述处理器执行时实现如权利要求6所述的视频分类模型的训练方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的视频分类方法的步骤，或者，所述计算机程序被所述处理器执行时实现如权利要求6所述的视频分类模型的训练方法的步骤。