CN110070067B

CN110070067B - 视频分类方法及其模型的训练方法、装置和电子设备

Info

Publication number: CN110070067B
Application number: CN201910359704.0A
Authority: CN
Inventors: 苏驰; 李凯; 陈宜航; 刘弘也
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2021-11-12
Anticipated expiration: 2039-04-29
Also published as: CN110070067A; WO2020221278A1

Abstract

本发明提供了一种视频分类方法及其模型的训练方法、装置和电子设备；其中，该训练方法包括：通过卷积神经网络提取多帧视频帧的初始特征；通过循环神经网络从初始特征中提取多帧视频帧的最终特征；将最终特征输入至输出网络，输出多帧视频帧的预测结果；通过预设的预测损失函数确定预测结果的损失值；根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频分类模型。本发明采用卷积神经网络和循环神经网络相结合，可以大幅降低运算量，从而提高了模型训练和识别效率；同时也可以在提取特征的过程中考虑视频帧之间的关联信息，因而提取出的特征能准确的表征视频类型，从而提高了视频分类的准确率。

Description

视频分类方法及其模型的训练方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种视频分类方法及其模型的训练方法、装置和电子设备。

背景技术

相关技术中，可以通过三维卷积神经网络对视频进行分类，通过三维卷积提取视频的时空特征，但是三维卷积神经网络的网络参数量较大，导致网络训练过程和识别过程的运算成本高，时间开销大；另外，三维卷积神经网络的层数较浅，难以挖掘高层次的语义特征，使得视频分类准确率较低。

发明内容

有鉴于此，本发明的目的在于提供一种视频分类方法及其模型的训练方法、装置和电子设备，以降低运算量，提高模型训练和识别效率，同时提高视频分类的准确率。

第一方面，本发明实施例提供了一种视频分类模型的训练方法，该方法包括：基于预设的训练集合确定当前的训练数据；训练数据包括多帧视频帧；将训练数据输入至初始模型；初始模型包括卷积神经网络、循环神经网络和输出网络；通过卷积神经网络提取多帧视频帧的初始特征；通过循环神经网络从初始特征中提取多帧视频帧的最终特征；将最终特征输入至输出网络，输出多帧视频帧的预测结果；通过预设的预测损失函数确定预测结果的损失值；根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频分类模型。

在本发明较佳的实施例中，上述卷积神经网络包括依次连接的多组子网络、全局平均池化层和分类全连接层；每组子网络包括依次连接的批归一化层、激活函数层、卷积层和池化层；卷积神经网络的初始参数通过预设的数据集训练得到。

在本发明较佳的实施例中，上述初始模型还包括全局平均池化网络；全局平均池化网络设置在卷积神经网络和循环神经网络之间；上述方法还包括：通过全局平均池化网络对初始特征进行降维处理，以使初始特征的维度与循环神经网络相匹配。

在本发明较佳的实施例中，上述循环神经网络包括长短时记忆网络。

在本发明较佳的实施例中，上述输出网络包括分类全连接层；初始模型还包括分类函数；上述将最终特征输入至输出网络，输出多帧视频帧的预测结果的步骤，包括：将最终特征输入至分类全连接层，输出分类结果向量；上述方法还包括：将分类结果向量输入至分类函数，输出分类结果向量对应的分类概率向量。

在本发明较佳的实施例中，上述预测损失函数包括分类损失函数；该分类损失函数为

其中，

p_l为预测结果中分类结果向量对应的分类概率向量的第l个元素；y_l为预先标注的多帧视频帧的标准概率向量的第l个元素；r_l为y_l对应的类别在训练集合中的比例；τ为预设的超参数。

在本发明较佳的实施例中，上述输出网络包括阈值全连接层；上述将最终特征输入至输出网络，输出多帧视频帧的预测结果的步骤，包括：将最终特征输入至阈值全连接层，输出阈值结果向量。

在本发明较佳的实施例中，上述预测损失函数包括阈值损失函数；该阈值损失函数为

y_l为预先标注的多帧视频帧的标准概率向量的第l个元素；δ_l＝σ(p_l-θ_l)；θ_l为预测结果中阈值结果向量的第l个元素。

在本发明较佳的实施例中，上述预测损失函数包括分类损失函数和阈值损失函数；上述通过预设的预测损失函数确定预测结果的损失值的步骤，包括：对分类损失函数的函数值和阈值损失函数的函数值进行加权求和，得到预测结果的损失值。

在本发明较佳的实施例中，上述根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频分类模型的步骤，包括：根据损失值更新初始模型中的参数；判断更新后的参数是否均收敛；如果更新后的参数均收敛，将参数更新后的初始模型确定为视频分类模型；如果更新后的参数没有均收敛，继续执行基于预设的训练集合确定当前的训练数据的步骤，直至更新后的参数均收敛。

在本发明较佳的实施例中，上述根据损失值更新初始模型中的参数的步骤，包括：按照预设规则，从初始模型确定待更新参数；计算损失值对初始模型中待更新参数的导数

其中，L为损失值；W为待更新参数；更新待更新参数，得到更新后的待更新参数

其中，α为预设系数。

第二方面，本发明实施例提供了一种视频分类方法，该方法包括：获取待分类的视频；按照预设的采样间隔从视频中获取多帧视频帧；将多帧视频帧输入至预先训练完成的视频分类模型，输出多帧视频帧的分类结果；视频分类模型通过上述视频分类模型的训练方法训练得到；根据多帧视频帧的分类结果确定视频的类别。

在本发明较佳的实施例中，上述多帧视频帧的分类结果包括：分类概率向量和阈值结果向量；上述根据多帧视频帧的分类结果确定视频的类别的步骤，包括：计算视频的类别向量

其中，p_l为分类概率向量的第l个元素；θ_l为阈值结果向量的第l个元素；将类别向量中，非零元素对应的类别确定为视频的类别。

第三方面，本发明实施例提供了一种视频分类模型的训练装置，该装置包括：训练数据确定模块，用于基于预设的训练集合确定当前的训练数据；训练数据包括多帧视频帧；训练数据输入模块，用于将训练数据输入至初始模型；初始模型包括卷积神经网络、循环神经网络和输出网络；初始特征提取模块，用于通过卷积神经网络提取多帧视频帧的初始特征；最终特征提取模块，用于通过循环神经网络从初始特征中提取多帧视频帧的最终特征；预测结果输出模块，用于将最终特征输入至输出网络，输出多帧视频帧的预测结果；损失值确定和训练模块，用于通过预设的预测损失函数确定预测结果的损失值；根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频分类模型。

在本发明较佳的实施例中，上述卷积神经网络包括依次连接的多组子网络、全局平均池化层和分类全连接层；每组子网络包括依次连接的批归一化层、激活函数层、卷积层和池化层；上述卷积神经网络的初始参数通过预设的数据集训练得到。

在本发明较佳的实施例中，上述初始模型还包括全局平均池化网络；全局平均池化网络设置在卷积神经网络和循环神经网络之间；上述装置还包括：降维模块，用于通过全局平均池化网络对初始特征进行降维处理，以使初始特征的维度与循环神经网络相匹配。

在本发明较佳的实施例中，上述输出网络包括分类全连接层；初始模型还包括分类函数；上述预测结果输出模块，用于：将最终特征输入至分类全连接层，输出分类结果向量；上述装置还包括：概率向量输出模块，用于将分类结果向量输入至分类函数，输出分类结果向量对应的分类概率向量。

其中，

在本发明较佳的实施例中，上述输出网络包括阈值全连接层；上述预测结果输出模块，用于：将最终特征输入至阈值全连接层，输出阈值结果向量。

在本发明较佳的实施例中，上述预测损失函数包括分类损失函数和阈值损失函数；上述损失值确定和训练模块，用于：对分类损失函数的函数值和阈值损失函数的函数值进行加权求和，得到预测结果的损失值。

在本发明较佳的实施例中，上述损失值确定和训练模块，用于：根据损失值更新初始模型中的参数；判断更新后的参数是否均收敛；如果更新后的参数均收敛，将参数更新后的初始模型确定为视频分类模型；如果更新后的参数没有均收敛，继续执行基于预设的训练集合确定当前的训练数据的步骤，直至更新后的参数均收敛。

在本发明较佳的实施例中，上述损失值确定和训练模块，用于：按照预设规则，从初始模型确定待更新参数；计算损失值对初始模型中待更新参数的导数

其中，α为预设系数。

第四方面，本发明实施例提供了一种视频分类装置，该装置包括：视频获取模块，用于获取待分类的视频；视频帧获取模块，用于按照预设的采样间隔从视频中获取多帧视频帧；分类模块，用于将多帧视频帧输入至预先训练完成的视频分类模型，输出多帧视频帧的分类结果；视频分类模型通过上述视频分类模型的训练方法训练得到；类别确定模块，用于根据多帧视频帧的分类结果确定视频的类别。

在本发明较佳的实施例中，上述多帧视频帧的分类结果包括：分类概率向量和阈值结果向量；上述类别确定模块，用于：计算视频的类别向量

第五方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述视频分类模型的训练方法，或者上述视频分类方法的步骤。

第六方面，本发明实施例提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频分类模型的训练方法，或者上述视频分类方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的视频分类方法及其模型的训练方法、装置和电子设备，首先通过卷积神经网络提取多帧视频帧的初始特征，通过循环神经网络从初始特征中提取多帧视频帧的最终特征；再通过输出网络输出多帧视频帧的预测结果；通过预测损失函数确定预测结果的损失值后，根据该损失值对初始模型进行训练，得到视频分类模型。该方式中，采用卷积神经网络和循环神经网络相结合，通过二维卷积和一维卷积相结合的方式提取特征，相对于三维卷积而言，可以大幅降低运算量，从而提高了模型训练和识别效率；该方式也可以在提取特征的过程中考虑视频帧之间的关联信息，因而提取出的特征可以准确的表征视频类型，从而提高了视频分类的准确率。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频分类模型的训练方法的流程图；

图2为本发明实施例提供的一种初始模型中卷积神经网络的结构示意图；

图3为本发明实施例提供的一种初始模型的结构示意图；

图4为本发明实施例提供的另一种初始模型的结构示意图；

图5为本发明实施例提供的另一种视频分类模型的训练方法的流程图；

图6为本发明实施例提供的一种视频分类方法的流程图；

图7为本发明实施例提供的一种视频分类模型的训练装置的结构示意图；

图8为本发明实施例提供的一种视频分类装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到三维卷积神经网络对视频进行分类，运算成本高，时间开销大且视频分类准确率较低的问题，本发明实施例提供一种视频分类方法及其模型的训练方法、装置和电子设备；该技术可以广泛应用于各种格式的常规视频、短视频文件的分类，可以用于视频监控、视频推送、视频管理等场景中。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频分类模型的训练方法进行详细介绍，如图1所示，该方法包括如下步骤：

步骤S102，基于预设的训练集合确定当前的训练数据；该训练数据包括多帧视频帧。

该训练集合中可以包含有多段视频，也可以包含有多组视频帧，每组中包含有多帧视频帧，每组中的多帧视频帧从同一个视频中采集到。每段视频或每组视频帧预先标注有类型标签，该类型标签可以从多角度划分，如视频主题、场景、动作、人物属性等，因而每段视频或每组视频帧可以从多个角度进行分类。例如，视频A的类型标签包括电视剧、都市、破案、偶像等。

在确定训练数据时，如果训练集合中包含的是多段视频，可以从中选择一段视频，进而从该视频中采集多帧视频帧，将采集出的多帧视频帧确定为训练数据；如果训练集合中包含的是多组视频帧，可以从中选择一组视频帧，将该组视频帧中的多帧视频帧确定为训练数据。

另外，还可以将上述训练集合按照预设比例划分为训练子集和交叉验证子集。在训练过程中，可以从训练子集确定当前的训练数据。训练完成后或到达训练的某一阶段，可以从交叉验证子集中获取测试数据，用于验证模型的性能。

步骤S104，将训练数据输入至初始模型；该初始模型包括卷积神经网络、循环神经网络和输出网络。

在输入至初始模型之前，可以将训练数据中的多帧视频帧分别调整至预设大小，如512*512，以使输入的视频帧与卷积神经网络相匹配。

步骤S106，通过卷积神经网络提取多帧视频帧的初始特征。

该卷积神经网络可以通过多层卷积层实现，当然还可以包含池化层、全连接层、激活函数等。卷积神经网络分别对输入的每帧视频帧进行卷积运算，得到每帧视频帧对应的特征图，即上述初始特征中包含有多张特征图，或者由多张特征图组成的一张大特征图。

步骤S108，通过循环神经网络从初始特征中提取多帧视频帧的最终特征。

由于多帧视频帧从同一个视频中采集，因而多帧视频帧彼此之间在内容上有所关联。而上述卷积神经网络通常单独处理每帧视频帧，提取出的每帧视频帧的特征图彼此之间没有关联。为了使训练出的模型能够更全面、准确地理解多帧视频帧对应视频的内容，可以通过循环神经网络继续对初始特征进行处理，根据多帧视频帧之间的时序，在特征处理过程中引入上下视频帧的关联信息，使最终特征更能表征视频类型。

步骤S110，将最终特征输入至输出网络，输出多帧视频帧的预测结果。

该输出网络可以通过全连接层实现，具体可以将二维多层的最终特征转化成一维向量形式的预测结果。该预测结果中的每个元素均对应有一个类别，该元素的值代表了视频属于该类别的可能性。

步骤S112，通过预设的预测损失函数确定预测结果的损失值；根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频分类模型。

如上文所述，训练数据中的多帧视频帧预先标注有类型标签，为了便于运算，可以将该类型标签转换为向量形式，该向量中，视频所属的类别对应的概率值通常为1，视频不属于的类别对应的概率值通常为0。预测损失函数可以比较预测结果与标注的类型标签之间的区别。通常区别越大，上述损失值越大。基于该损失值可以调整上述初始模型中各个部分的参数，以达到训练的目的。当模型中各个参数收敛时，训练结束，得到视频分类模型。

本发明实施例提供的视频分类模型的训练方法，首先通过卷积神经网络提取多帧视频帧的初始特征，通过循环神经网络从初始特征中提取多帧视频帧的最终特征；再通过输出网络输出多帧视频帧的预测结果；通过预测损失函数确定预测结果的损失值后，根据该损失值对初始模型进行训练，得到视频分类模型。该方式中，采用卷积神经网络和循环神经网络相结合，通过二维卷积和一维卷积相结合的方式提取特征，相对于三维卷积而言，可以大幅降低运算量，从而提高了模型训练和识别效率；该方式也可以在提取特征的过程中考虑视频帧之间的关联信息，因而提取出的特征可以准确的表征视频类型，从而提高了视频分类的准确率。

另外，上述模型可以采用从视频中采样出的多帧视频帧进行处理并识别视频类别，相对于三维卷积神经网络需要输入视频段的方式，处理的数据量较小，因而进一步降低了运算量，提高了训练和识别效率。

本发明实施例还提供另一种视频分类模型的训练方法，该方法在上述实施例所述方法的基础上实现；由上述实施例可知，初始模型包括卷积神经网络、循环神经网络和输出网络，本实施例中进一步描述初始模型的具体结构。

如图2所示的一种初始模型中卷积神经网络的结构示意图，卷积神经网络包括依次连接的多组子网络(图2中以三组子网络为例)、全局平均池化层和分类全连接层；每组子网络包括依次连接的批归一化层、激活函数层、卷积层和池化层。其中，每组子网络中的批归一化层用于对输入的视频帧或特征图中的数据进行归一化处理，该过程可以加快卷积神经网络以及初始模型的收敛速度，并且可以缓解在多层卷积网络中梯度弥散的问题，使得卷积神经网络。激活函数层可以对归一化处理后的视频帧或特征图进行函数变换，该变换过程打破卷积层输入的线性组合，可以提高卷积神经网络的特征表达能力。该激活函数层具体可以为Sigmoid函数、tanh函数、Relu函数等。卷积层用于对激活函数层变换后的视频帧或特征图进行卷积计算，输出相应的特征图；池化层可以为平均池化层(AveragePooling或mean-pooling)、全局平均池化层(Global Average Pooling)、最大池化层(max-pooling)等；池化层可以用于对卷积层输出的特征图进行压缩，保留特征图中的主要特征，删除非主要特征，以降低特征图的维度，以平均池化层为例，平均池化层可以对当前特征点的预设范围大小的邻域内的特征点值求平均，将平均值作为该当前特征点的新的特征点值。另外，池化层还可以帮助特征图保持一些不变形，例如旋转不变性、平移不变性、伸缩不变性等。

与子网络连接的全局平均池化层用于对最后一组子网络输出的特征图，每层特征子图求平均值，得到一维的特征向量，以进一步降低特征图的维度。分类全连接层对全局平均池化层输出的特征向量进行全连接计算，并通过softmax等函数对计算结果进行归一化处理。

为了提高模型的泛化能力，在执行上述视频分类模型的训练方法之前，可以预先通过大量的数据集对上述卷积神经网络进行预训练，从而得到卷积神经网络的初始参数。具体而言，该数据集可以包含物体识别数据集和场景识别数据集。首先，随机初始化卷积神经网络的权重，从上述数据集中随机抽取预设数量的训练图像，逐一输入至卷积神经网络中进行训练，如果训练后的卷积神经网络中的各个参数不能均收敛，则继续从数据集中随机抽取预设数量的训练图像进行训练，直至卷积神经网络中的各个参数收敛，训练完毕。作为一个示例，卷积神经网络在训练之前，可以设置批大小为256(即上述预设数量)、动量设置为0.9、权重衰减系数设置为0.0001。在训练过程中，该动量和权重衰减系数用于通过反向传播算法和随机梯度下降法更新卷积神经网络中的各个参数。训练完毕后，卷积神经网络的各个参数均收敛，这些参数可以作为执行上述视频分类模型的训练方法时，卷积神经网络的初始参数。

如图3所示的一种初始模型的结构示意图；该初始模型包括卷积神经网络、循环神经网络和输出网络，还包括全局平均池化网络；该全局平均池化网络设置在卷积神经网络和循环神经网络之间；通过该全局平均池化网络可以对初始特征进行降维处理，以使初始特征的维度与循环神经网络相匹配。该循环神经网络具体可以为长短时记忆网络(LongShort Term Memory Network，可以简称为LSTM网络)，该长短时记忆网络性能优于普通的循环神经网络，可以弥补普通的循环神经网络的梯度爆炸、梯度消失等缺陷。在LSTM网络中包含有输入门、输出门和遗忘门；输入门用于从初始特征中提起需要记忆的特征；输出门用于读取记忆的特征，遗忘门用于确定是否保留记忆中的特征。在将多帧视频帧对应的初始特征依次输入至LSTM网络中时，可以训练上述输入门、输出门和遗忘门的开启和关闭时机，从而使循环神经网络训练完成。

具体而言，以M个视频帧为例，初始特征中包含有M个特征向量，表示为z_t，t∈[1，...，M]，然后将这M个特征向量送入LSTM网络中可以得到多帧视频帧的最终特征，表示为h_M；LSTM网络对每个特征向量的计算过程如下：

f_t＝σ(W_f[h_t-1，z_t]+b_f)

i_t＝σ(W_i[h_t-1，z_t]+b_i)

o_t＝σ(W_o[h_t-1，z_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，W_f、W_i、W_C、W_o、b_f、b_i、b_C和b_o为LSTM的预设参数；将第M个特征向量输入至LSTM后，得到h_M；该h_M即最终特征，可输入至后续的输出网络中。

进一步地，上述输出网络包括分类全连接层；将上述最终特征输入至分类全连接层，可以输出分类结果向量。该分类全连接层包含有多个神经元，且该分类全连接层预设有权重向量；该权重向量中包含该分类全连接层各个神经元对应的权重元素；对于每个神经元，该神经元与最终特征的每个特征元素连接，该神经元将最终特征中的每个特征元素，与权重向量中对应的权重元素相乘，即可得到该神经元对应的预测值；由于全连接层中包含多个神经元，多个神经元对应的预测值组成上述分类结果向量。

另外，上述初始模型中还包括分类函数；将上述分类全连接层输出的分类结果向量输入至分类函数，可以输出分类结果向量对应的分类概率向量。该分类函数用于计算分类结果向量中每个元素的概率，该函数具体可以为Softmax函数，也可以为其他概率回归函数。

上述初始模型采用卷积神经网络和长短时记忆网络相结合，通过二维卷积和一维卷积相结合的方式提取特征，相对于三维卷积而言，可以大幅降低运算量，从而提高了模型训练和识别效率，该方式也可以在提取特征的过程中考虑视频帧之间的关联信息，因而提取出的特征可以准确的表征视频类型；且长短时记忆网络也可以避免网络层次较深时的梯度爆炸和梯度消失的问题，提高了模型的性能，有利于提取视频帧深层次的特征，从而进一步提高了视频分类的准确率。

本发明实施例还提供另一种视频分类模型的训练方法，该方法在上述实施例所述方法的基础上实现；本实施例重点描述输出网络和预测损失函数的具体内容。

首先，该预测损失函数包括分类损失函数；该分类损失函数可以通过公式表示为：

其中，

p_l为预测结果中分类结果向量对应的分类概率向量的第l个元素；y_l为预先标注的多帧视频帧的标准概率向量的第l个元素；r_l为y_l对应的类别在训练集合中的比例；τ为预设的超参数，可以设置为1。

需要说明的是，r_l为y_l对应的类别在训练集合中的比例，如果某一类别在训练集合中的比例较低，则该类别对应的r_l值会较小，而w_l值会较大，从而可以起到平衡的作用，缓解各类别样本分布不均匀的问题，进而可以提高模型的训练效率以及模型的识别准确率。

上述实施例中，描述了输出网络包括分类全连接层，本实施例中，输出网络还包括阈值全连接层，如图4所示；将最终特征输入至阈值全连接层，可以输出阈值结果向量。与分类全连接层相似，阈值全连接层包含有多个神经元，且该阈值全连接层预设有权重向量；该权重向量中包含该阈值全连接层各个神经元对应的权重元素；对于每个神经元，该神经元与最终特征的每个特征元素连接，该神经元将最终特征中的每个特征元素，与权重向量中对应的权重元素相乘，即可得到该神经元对应的预测值；由于全连接层中包含多个神经元，多个神经元对应的预测值组成上述阈值结果向量。

该阈值全连接层用于从最终特征中提取模型针对各个类别学习的阈值结果，即阈值结果向量，各类别均对应有各自的阈值，各类别的阈值彼此之间可以相同，也可以不同。相对于人工设置阈值的方式，模型学习的阈值更加准确、合理，有利于提高模型的分类准确率。

基于阈值全连接层输出的阈值结果向量，预测损失函数中还包括了阈值损失函数，用于评价阈值结果向量的准确率；该阈值损失函数可以通过公式表达为

当预测损失函数中包括分类损失函数和阈值损失函数时，通过预测损失函数确定预测结果的损失值的过程中，可以对分类损失函数的函数值和阈值损失函数的函数值进行加权求和，得到预测结果的损失值，如预测结果的损失值L＝αL1+βL2；其中，α+β＝1，α和β的值可以预设。

上述方式中，分类损失函数中考虑了各类别在训练集合中的比例，缓解了各类别样本分布不均匀的问题，进而可以提高模型的训练效率以及模型的识别准确率；输出网络中还设置有阈值全连接层，相对于人工设置阈值的方式，模型学习的阈值更加准确、合理，进一步提高了模型的分类准确率。

本发明实施例还提供另一种视频分类模型的训练方法，该方法在上述实施例所述方法的基础上实现；本实施例重点描述根据损失值对初始模型进行训练的具体过程；如图5所示，该方法包括如下步骤：

步骤S502，基于预设的训练集合确定当前的训练数据；该训练数据包括多帧视频帧；

步骤S504，将训练数据输入至初始模型；该初始模型包括卷积神经网络、循环神经网络和输出网络；

步骤S506，通过卷积神经网络提取多帧视频帧的初始特征；

步骤S508，通过循环神经网络从初始特征中提取多帧视频帧的最终特征；

步骤S510，将最终特征输入至输出网络，输出多帧视频帧的预测结果；

步骤S512，通过预设的预测损失函数确定预测结果的损失值；

步骤S514，根据损失值更新初始模型中的参数；

在实际实现时，可以预先设置函数映射关系，将原始参数和损失值输入至该函数映射关系中，即可计算得到更新的参数。不同参数的函数映射关系可以相同，也可以不同。

具体而言，可以按照预设规则，从初始模型中确定待更新参数；该待更新参数可以为初始模型中的所有参数，也可以随机从初始模型中确定部分参数；再计算损失值对待更新参数的导数

其中，L为概率矩阵的损失值；W为待更新参数；该待更新参数也可以称为各神经元的权值。该过程也可以称为反向传播算法；如果损失值较大，则说明当前的初始模型的输出与期望输出结果不符，则求出上述损失值对初始模型中待更新参数的导数，该导数可以作为调整待更新参数的依据。

得到各个待更新参数的导数后，再更新待更新参数，得到更新后的待更新参数

其中，α为预设系数。该过程也可以称为随机梯度下降算法；各个待更新参数的导数也可以理解为基于当前的待更新参数，损失值下降最快的方向，通过该方向调整参数，可以使损失值快速降低，使该参数收敛。另外，当初始模型经一次训练后，得到一个损失值，此时可以从初始模型中各个参数中随机选择一个或多个参数进行上述的更新过程，该方式的模型训练时间较短，算法较快；当然也可以对初始模型中所有参数进行上述的更新过程，该方式的模型训练更加准确。

步骤S516，判断更新后的参数是否均收敛；如果更新后的参数均收敛，执行步骤S518；如果更新后的参数没有均收敛，执行步骤S502；

如果更新后的参数没有均收敛，则继续执行基于预设的训练集合确定当前的训练数据的步骤，直至更新后的参数均收敛。

步骤S518，将参数更新后的初始模型确定为视频分类模型。

上述方式中，采用卷积神经网络和循环神经网络相结合，通过二维卷积和一维卷积相结合的方式提取特征，相对于三维卷积而言，可以大幅降低运算量，从而提高了模型训练和识别效率；该方式也可以在提取特征的过程中考虑视频帧之间的关联信息，因而提取出的特征可以准确的表征视频类型，从而提高了视频分类的准确率。

基于上述视频分类模型的训练方法，本发明实施例还提供一种视频分类方法；该方法在上述实施例所述的视频分类模型的训练方法的基础上实现，如图6所示，该方法包括如下步骤：

步骤S602，获取待分类的视频；

该视频可以为常规视频，也可以短视频；视频的具体格式可以为MPEG、AVI、MOV等，在此不做限定。

步骤S604，按照预设的采样间隔从视频中获取多帧视频帧；

该采样间隔可以预先设置，作为示例，该采样间隔可以为0.2秒，即1秒采样5帧。

步骤S606，将多帧视频帧输入至预先训练完成的视频分类模型，输出多帧视频帧的分类结果；该视频分类模型通过上述视频分类模型的训练方法训练得到；

步骤S608，根据多帧视频帧的分类结果确定视频的类别。

本发明实施例提供的一种视频分类方法，首先按照预设的采样间隔从待分类的视频中获取多帧视频帧；将该多帧视频帧输入至预先训练完成的视频分类模型，输出多帧视频帧的分类结果；进而根据多帧视频帧的分类结果确定视频的类别。由于视频分类模型采用卷积神经网络和循环神经网络相结合，通过二维卷积和一维卷积相结合的方式提取特征，相对于三维卷积而言，可以大幅降低运算量，从而提高了模型训练和识别效率；该方式也可以在提取特征的过程中考虑视频帧之间的关联信息，因而提取出的特征可以准确的表征视频类型，从而提高了视频分类的准确率。

进一步地，上述视频分类模型输出的多帧视频帧的分类结果中可以包含一种或多种类别，多帧视频帧的分类结果可以直接确定为视频的类别。另外一种方式中，多帧视频帧的分类结果包括分类概率向量和阈值结果向量，此时可以比较分类概率向量中各个类别的概率值与阈值结果向量中对应的阈值，进而确定视频的类别。具体而言，可以首先计算视频的类别向量

其中，p_l为分类概率向量的第l个元素；θ_l为阈值结果向量的第l个元素；再将类别向量中，非零元素对应的类别确定为视频的类别。由于非零元素对应的类别的概率值大于对应的阈值，所以可以将该类别作为视频的类别。

上述方式中，模型不仅输出了分类概率向量，还输出了阈值结果向量，基于两个向量的比较结果最终确定视频的类别，相对于人工设置阈值的方式，模数输出的阈值更加准确、合理，有利于提高视频分类准确率。基于该分类结果对视频标识标签，有利于用户快速发现自己感兴趣的内容，也有利于向用户推荐感兴趣的视频，提高了用户体验度。

需要说明的是，上述各方法实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对应于上述方法实施例，参见图7所示的一种视频分类模型的训练装置的结构示意图，该装置包括：

训练数据确定模块70，用于基于预设的训练集合确定当前的训练数据；训练数据包括多帧视频帧；

训练数据输入模块71，用于将训练数据输入至初始模型；初始模型包括卷积神经网络、循环神经网络和输出网络；

初始特征提取模块72，用于通过卷积神经网络提取多帧视频帧的初始特征；

最终特征提取模块73，用于通过循环神经网络从初始特征中提取多帧视频帧的最终特征；

预测结果输出模块74，用于将最终特征输入至输出网络，输出多帧视频帧的预测结果；

损失值确定和训练模块75，用于通过预设的预测损失函数确定预测结果的损失值；根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频分类模型。

本发明实施例提供的视频分类模型的训练装置，首先通过卷积神经网络提取多帧视频帧的初始特征，通过循环神经网络从初始特征中提取多帧视频帧的最终特征；再通过输出网络输出多帧视频帧的预测结果；通过预测损失函数确定预测结果的损失值后，根据该损失值对初始模型进行训练，得到视频分类模型。该方式中，采用卷积神经网络和循环神经网络相结合，通过二维卷积和一维卷积相结合的方式提取特征，相对于三维卷积而言，可以大幅降低运算量，从而提高了模型训练和识别效率；该方式也可以在提取特征的过程中考虑视频帧之间的关联信息，因而提取出的特征可以准确的表征视频类型，从而提高了视频分类的准确率。

在一些实施例中，上述卷积神经网络包括依次连接的多组子网络、全局平均池化层和分类全连接层；每组子网络包括依次连接的批归一化层、激活函数层、卷积层和池化层；上述卷积神经网络的初始参数通过预设的数据集训练得到。

在一些实施例中，上述初始模型还包括全局平均池化网络；全局平均池化网络设置在卷积神经网络和循环神经网络之间；上述装置还包括：降维模块，用于通过全局平均池化网络对初始特征进行降维处理，以使初始特征的维度与循环神经网络相匹配。

在一些实施例中，上述循环神经网络包括长短时记忆网络。

在一些实施例中，上述输出网络包括分类全连接层；初始模型还包括分类函数；上述预测结果输出模块，用于：将最终特征输入至分类全连接层，输出分类结果向量；上述装置还包括：概率向量输出模块，用于将分类结果向量输入至分类函数，输出分类结果向量对应的分类概率向量。

在一些实施例中，上述预测损失函数包括分类损失函数；该分类损失函数为

其中，

在一些实施例中，上述输出网络包括阈值全连接层；上述预测结果输出模块，用于：将最终特征输入至阈值全连接层，输出阈值结果向量。

在一些实施例中，上述预测损失函数包括阈值损失函数；该阈值损失函数为

在一些实施例中，上述预测损失函数包括分类损失函数和阈值损失函数；上述损失值确定和训练模块，用于：对分类损失函数的函数值和阈值损失函数的函数值进行加权求和，得到预测结果的损失值。

在一些实施例中，上述损失值确定和训练模块，用于：根据损失值更新初始模型中的参数；判断更新后的参数是否均收敛；如果更新后的参数均收敛，将参数更新后的初始模型确定为视频分类模型；如果更新后的参数没有均收敛，继续执行基于预设的训练集合确定当前的训练数据的步骤，直至更新后的参数均收敛。

在一些实施例中，上述损失值确定和训练模块，用于：按照预设规则，从初始模型确定待更新参数；计算损失值对初始模型中待更新参数的导数

其中，α为预设系数。

参见图8所示的一种视频分类装置的结构示意图；该装置包括：

视频获取模块80，用于获取待分类的视频；

视频帧获取模块81，用于按照预设的采样间隔从视频中获取多帧视频帧；

分类模块82，用于将多帧视频帧输入至预先训练完成的视频分类模型，输出多帧视频帧的分类结果；视频分类模型通过上述视频分类模型的训练方法训练得到；

类别确定模块83，用于根据多帧视频帧的分类结果确定视频的类别。

在一些实施例中，上述多帧视频帧的分类结果包括：分类概率向量和阈值结果向量；上述类别确定模块，用于：计算视频的类别向量

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，参见图9所示，该电子设备包括存储器100和处理器101，其中，存储器100用于存储一条或多条计算机指令，一条或多条计算机指令被处理器101执行，以实现上述视频分类模型的训练方法，或者视频分类方法的步骤。

进一步地，图9所示的电子设备还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。

其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频分类模型的训练方法，或者视频分类方法的步骤，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的视频分类方法及其模型的训练方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频分类模型的训练方法，其特征在于，所述方法包括：

基于预设的训练集合确定当前的训练数据；所述训练数据包括多帧视频帧；

将所述训练数据输入至初始模型；所述初始模型包括卷积神经网络、循环神经网络和输出网络；

通过所述卷积神经网络提取所述多帧视频帧的初始特征；

通过所述循环神经网络从所述初始特征中提取所述多帧视频帧的最终特征；

将所述最终特征输入至所述输出网络，输出所述多帧视频帧的预测结果；

通过预设的预测损失函数确定所述预测结果的损失值；根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到视频分类模型；

所述输出网络包括分类全连接层；所述初始模型还包括分类函数；

所述将所述最终特征输入至所述输出网络，输出所述多帧视频帧的预测结果的步骤，包括：将所述最终特征输入至所述分类全连接层，输出分类结果向量；

所述方法还包括：将所述分类结果向量输入至所述分类函数，输出所述分类结果向量对应的分类概率向量；

所述预测损失函数包括分类损失函数；

所述分类损失函数为

其中，

p_l为所述预测结果中分类结果向量对应的分类概率向量的第l个元素；y_l为预先标注的所述多帧视频帧的标准概率向量的第l个元素；r_l为y_l对应的类别在所述训练集合中的比例；τ为预设的超参数。

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括依次连接的多组子网络、全局平均池化层和分类全连接层；每组所述子网络包括依次连接的批归一化层、激活函数层、卷积层和池化层；

所述卷积神经网络的初始参数通过预设的数据集训练得到。

3.根据权利要求1所述的方法，其特征在于，所述初始模型还包括全局平均池化网络；所述全局平均池化网络设置在所述卷积神经网络和所述循环神经网络之间；

所述方法还包括：通过所述全局平均池化网络对所述初始特征进行降维处理，以使所述初始特征的维度与所述循环神经网络相匹配。

4.根据权利要求1所述的方法，其特征在于，所述循环神经网络包括长短时记忆网络。

5.根据权利要求1所述的方法，其特征在于，所述输出网络包括阈值全连接层；

所述将所述最终特征输入至所述输出网络，输出所述多帧视频帧的预测结果的步骤，包括：将所述最终特征输入至所述阈值全连接层，输出阈值结果向量。

6.根据权利要求5所述的方法，其特征在于，所述预测损失函数包括阈值损失函数；

所述阈值损失函数为

y_l为预先标注的所述多帧视频帧的标准概率向量的第l个元素；δ_l＝σ(p_l-θ_l)；θ_l为所述预测结果中阈值结果向量的第l个元素。

7.根据权利要求1所述的方法，其特征在于，所述预测损失函数包括分类损失函数和阈值损失函数；

通过预设的预测损失函数确定所述预测结果的损失值的步骤，包括：

对所述分类损失函数的函数值和所述阈值损失函数的函数值进行加权求和，得到所述预测结果的损失值。

8.根据权利要求1所述的方法，其特征在于，根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到视频分类模型的步骤，包括：

根据所述损失值更新所述初始模型中的参数；

判断更新后的所述参数是否均收敛；

如果更新后的所述参数均收敛，将参数更新后的所述初始模型确定为视频分类模型；

如果更新后的所述参数没有均收敛，继续执行基于预设的训练集合确定当前的训练数据的步骤，直至更新后的所述参数均收敛。

9.根据权利要求8所述的方法，其特征在于，根据所述损失值更新所述初始模型中的参数的步骤，包括：

按照预设规则，从所述初始模型确定待更新参数；

计算所述损失值对所述初始模型中所述待更新参数的导数

其中，L为所述损失值；W为所述待更新参数；

更新所述待更新参数，得到更新后的待更新参数

其中，α为预设系数。

10.一种视频分类方法，其特征在于，所述方法包括：

获取待分类的视频；

按照预设的采样间隔从所述视频中获取多帧视频帧；

将所述多帧视频帧输入至预先训练完成的视频分类模型，输出所述多帧视频帧的分类结果；所述视频分类模型通过权利要求1-9任一项所述的视频分类模型的训练方法训练得到；

根据所述多帧视频帧的分类结果确定所述视频的类别。

11.根据权利要求10所述的方法，其特征在于，所述多帧视频帧的分类结果包括：分类概率向量和阈值结果向量；

根据所述多帧视频帧的分类结果确定所述视频的类别的步骤，包括：

计算所述视频的类别向量

其中，p_l为所述分类概率向量的第l个元素；θ_l为所述阈值结果向量的第l个元素；

将所述类别向量中，非零元素对应的类别确定为所述视频的类别。

12.一种视频分类模型的训练装置，其特征在于，所述装置包括：

训练数据确定模块，用于基于预设的训练集合确定当前的训练数据；所述训练数据包括多帧视频帧；

训练数据输入模块，用于将所述训练数据输入至初始模型；所述初始模型包括卷积神经网络、循环神经网络和输出网络；

初始特征提取模块，用于通过所述卷积神经网络提取所述多帧视频帧的初始特征；

最终特征提取模块，用于通过所述循环神经网络从所述初始特征中提取所述多帧视频帧的最终特征；

预测结果输出模块，用于将所述最终特征输入至所述输出网络，输出所述多帧视频帧的预测结果；

损失值确定和训练模块，用于通过预设的预测损失函数确定所述预测结果的损失值；根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到视频分类模型；

所述预测结果输出模块，用于：将所述最终特征输入至所述分类全连接层，输出分类结果向量；

所述装置还包括：概率向量输出模块，用于将所述分类结果向量输入至所述分类函数，输出所述分类结果向量对应的分类概率向量；

所述预测损失函数包括分类损失函数；

所述分类损失函数为

其中，

13.根据权利要求12所述的装置，其特征在于，所述卷积神经网络包括依次连接的多组子网络、全局平均池化层和分类全连接层；每组所述子网络包括依次连接的批归一化层、激活函数层、卷积层和池化层；

所述卷积神经网络的初始参数通过预设的数据集训练得到。

14.根据权利要求12所述的装置，其特征在于，所述初始模型还包括全局平均池化网络；所述全局平均池化网络设置在所述卷积神经网络和所述循环神经网络之间；

所述装置还包括：降维模块，用于通过所述全局平均池化网络对所述初始特征进行降维处理，以使所述初始特征的维度与所述循环神经网络相匹配。

15.根据权利要求12所述的装置，其特征在于，所述循环神经网络包括长短时记忆网络。

16.根据权利要求12所述的装置，其特征在于，所述输出网络包括阈值全连接层；

所述预测结果输出模块，用于：将所述最终特征输入至所述阈值全连接层，输出阈值结果向量。

17.根据权利要求16所述的装置，其特征在于，所述预测损失函数包括阈值损失函数；

所述阈值损失函数为

18.根据权利要求12所述的装置，其特征在于，所述预测损失函数包括分类损失函数和阈值损失函数；

所述损失值确定和训练模块，用于：对所述分类损失函数的函数值和所述阈值损失函数的函数值进行加权求和，得到所述预测结果的损失值。

19.根据权利要求12所述的装置，其特征在于，所述损失值确定和训练模块，用于：

根据所述损失值更新所述初始模型中的参数；

判断更新后的所述参数是否均收敛；

20.根据权利要求19所述的装置，其特征在于，所述损失值确定和训练模块，用于：

按照预设规则，从所述初始模型确定待更新参数；

计算所述损失值对所述初始模型中所述待更新参数的导数

其中，L为所述损失值；W为所述待更新参数；

更新所述待更新参数，得到更新后的待更新参数

其中，α为预设系数。

21.一种视频分类装置，其特征在于，所述装置包括：

视频获取模块，用于获取待分类的视频；

视频帧获取模块，用于按照预设的采样间隔从所述视频中获取多帧视频帧；

分类模块，用于将所述多帧视频帧输入至预先训练完成的视频分类模型，输出所述多帧视频帧的分类结果；所述视频分类模型通过权利要求1-9任一项所述的视频分类模型的训练方法训练得到；

类别确定模块，用于根据所述多帧视频帧的分类结果确定所述视频的类别。

22.根据权利要求21所述的装置，其特征在于，所述多帧视频帧的分类结果包括：分类概率向量和阈值结果向量；

所述类别确定模块，用于：

计算所述视频的类别向量

23.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至9任一项所述的视频分类模型的训练方法，或者权利要求10或11所述的视频分类方法的步骤。

24.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1至9任一项所述的视频分类模型的训练方法，或者权利要求10或11所述的视频分类方法的步骤。