CN115131695B

CN115131695B - 视频检测模型的训练方法、视频检测方法及装置

Info

Publication number: CN115131695B
Application number: CN202210271469.3A
Authority: CN
Inventors: 毕泊
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2024-08-13
Anticipated expiration: 2042-03-18
Also published as: CN115131695A

Abstract

本发明实施例提供了一种视频检测模型的训练方法、视频检测方法及装置，涉及计算机技术领域。该方法包括：获取训练样本集，所述训练样本集包括多个训练样本；利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，不同时长的训练样本的初始特征向量的维度不同；针对每一训练样本，根据预设的加权聚合规则，对训练样本的初始特征向量进行加权聚合处理，得到训练样本的目标特征向量，每一训练样本的目标特征向量的维度相同；根据所有训练样本的目标特征向量，训练得到所述视频检测模型。该方法训练得到的视频检测模型能够准确识别出不同时长的目标视频，有效提高模型的准确性和鲁棒性，提高视频审核效率，有助于营造健康的网络环境。

Description

视频检测模型的训练方法、视频检测方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频检测模型的训练方法、视频检测方法及装置。

背景技术

随着多媒体和互联网技术的发展，视频的传播变得越来越简单。在某些场景中，需要对视频的内容进行检测，以检测出包含特定内容的视频，例如，在内容审核场景中，需要审核视频内容是否违规、是否包含敏感信息。其中，违规内容一般是指违反国家法律规定、行业规范的内容、违反社会公序良俗、价值观负面消极内容、低俗、不雅的内容等。对于视频内容的检测，可以通过人工审核以及机器学习算法例如神经网络来实现。然而，面对海量的视频，人工审核需要消耗大量的人力且效率较低。对于机器学习算法来说，在提取视频特征时，由于视频时长不同，所以将视频深度特征统一到同一维度也很困难，因此导致神经网络的检测效果不理想，准确率以及误检率不能达到预期要求。

发明内容

为解决上述技术问题或至少部分地解决上述技术问题，本发明实施例的目的在于提供一种视频检测模型的训练方法、视频检测方法、装置、电子设备及计算机可读存储介质。

在本发明实施的第一方面，首先提供了一种视频检测模型的训练方法，包括：

获取训练样本集，所述训练样本集中包括多个训练样本；

利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，其中，不同时长的训练样本的初始特征向量的维度不同；

针对每一训练样本，根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的目标特征向量，每一训练样本的目标特征向量的维度相同；

根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型。

可选地，所述利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量包括：针对每一训练样本，根据预设的切分规则对所述训练样本进行分段处理，得到多个子样本；所有训练样本切分后得到的子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W*C维的特征向量，W和C分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述训练样本的初始特征向量，所述训练样本的初始特征向量为H*W*C维的特征向量，其中，H表示所述训练样本切分后得到的子样本的数量；

根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到目标特征向量包括：根据所述训练样本集中所有训练样本的初始特征向量，计算各个通道的通道特征图的聚合值的方差，所述通道为所述初始特征向量的C维，所述通道特征图为所述初始特征向量中H维和W维构成的二维矩阵；按照由大到小的顺序对所述通道特征图的聚合值的方差进行排序，选取前N个方差对应的通道作为目标通道，N为大于或等于1的整数；根据所述目标通道的通道特征图中的特征图激活值和所有目标通道的通道特征图的特征图激活值素之和，确定所述目标通道的通道特征图的归一化权重；根据所述目标通道的通道特征图的归一化权重和所述训练样本的初始特征向量，确定所述目标通道的通道特征图的加权和；拼接N个所述目标通道的通道特征图的加权和，得到所述训练样本的目标特征向量。

可选地，根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型包括：根据所述训练样本集中所有训练样本的目标特征向量，对预设的对抗分类网络进行训练，得到所述图像识别模型；所述对抗分类网络包括自编码器和分类器，所述自编码器包括编码器和解码器；

根据所述训练样本集中所有训练样本的目标特征向量，对预设的对抗分类网络进行训练的过程包括：利用预设的样本重构损失函数，对所述训练样本集中所有训练样本的目标特征向量进行训练，确定所述编码器的第一网络参数以及所述解码器的第一网络参数，并获得所述编码器基于其第一网络参数对所述目标特征向量进行编码后得到的隐藏层特征向量；利用预设的对抗损失函数，对所述隐藏层特征向量进行训练，确定所述分类器的第二网络参数、所述编码器的第二网络参数以及所述解码器的第二网络参数。

可选地，所述多个训练样本包括正样本和负样本；根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型包括：在所述训练样本集中负样本所占比例大于正样本所占比例的情况下，在训练所述视频检测模型的当前迭代轮次中，对所述训练样本集中的负样本进行采样，获得多个采样负样本，所述采样负样本的数量与所述正样本的数量相同；根据所述采样负样本的目标特征向量和所述正样本的目标特征向量，执行当前迭代轮次的训练；在训练所述视频检测模型的下一迭代轮次时，对所述训练样本集中除所述采样负样本外的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；根据所述正样本的目标特征向量和所述新的采样负样本的目标特征向量，进行下一迭代轮次的训练。

可选地，所述训练样本的初始特征向量包括初始画面特征向量和初始音频特征向量；

利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量包括：针对每一子样本，利用第一3D卷积神经网络模型，提取所述子样本的初始画面特征向量和利用第二3D卷积神经网络模型，提取所述子样本的初始音频特征向量；拼接所述多个子样本的初始画面特征向量和初始音频特征向量，获得所述训练样本的初始画面特征向量和初始音频特征向量；

根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的目标特征向量包括：根据预设的加权聚合规则，分别对所述训练样本的初始画面特征向量和所述初始音频特征向量进行加权聚合处理，得到第一维度的目标画面特征向量和第二维度的目标音频特征向量；融合所述第一维度的目标画面特征向量和第二维度的目标音频特征向量，得到所述训练样本的目标音视频特征向量；

根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型包括：根据所述目标音视频特征向量，训练得到所述视频检测模型。

在本发明实施的第二方面，提供了一种视频检测方法，所述方法包括：获取待检测视频；利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量；根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量；根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果。

可选地，所述利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量包括：根据预设的切分规则对所述待检测视频进行分段处理，得到多个子样本；所述待检测视频切分后得到的子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的 3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W*C维的特征向量，W和C分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述训练样本的初始特征向量，所述待检测视频的初始特征向量为K*W*C维的特征向量，其中，K表示所述待检测视频对应的子样本的数量；

根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量包括：根据所述初始特征向量 K*W*C以及预确定的N个目标通道的通道特征图的归一化权重，确定所述N 个目标通道中的每一目标通道的通道特征图的加权和；其中，N为大于或等于 1的整数；拼接所述N个目标通道的通道特征图的加权和，得到所述待检测视频的目标特征向量。

可选地，所述预构建的视频检测模型包括自编码器和分类器；所述自编码器包括编码器和解码器；

根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果包括：将所述目标特征向量输入所述自编码器，获取所述自编码器的编码器对所述目标特征向量编码后的隐藏层特征向量；将所述隐藏层特征向量输入所述分类器，确定所述待检测视频的检测结果。

在本发明实施的第三方面，提供了一种视频检测模型的训练装置，包括：样本获取模块，用于获取训练样本集，所述训练样本集包括多个训练样本；特征提取模块，用于利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，其中，不同时长的训练样本的初始特征向量的维度不同；特征聚合模块，用于针对每一训练样本的初始特征向量，根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的目标特征向量，每一训练样本的目标特征向量的维度相同；模型训练模块，用于根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型。

在本发明实施的第四方面，提供了一种视频检测装置，包括：视频获取模块，用于获取待检测视频；特征获取模块，用于利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量；特征处理模块，用于根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量；检测模块，用于根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果。

在本发明实施的第五方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现本发明实施例的视频检测模型的训练方法或视频检测方法。

在本发明实施的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例的视频检测模型的训练方法或视频检测方法。

本发明实施例提供的视频检测模型的训练方法，通过预构建的3D卷积神经网络模型提取每一训练样本的初始特征向量，不同时长的训练样本的初始特征向量不同，然后根据预设的加权聚合规则，分别对训练样本集中的每一训练样本的初始特征向量进行加权聚合处理，得到每一训练样本的目标特征向量，而所有训练样本的目标特征向量的维度相同的技术手段，能够将不同时长的视频的特征统一到同一维度，方便后续的模型训练过程，并提高了模型的准确性和鲁棒性，训练得到的视频检测模型能够准确识别出包含特定内容的视频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1示意性示出了本发明实施例的视频检测模型的训练方法的主要流程的示意图；

图2示意性示出了本发明实施例的视频检测模型的训练方法的子流程的示意图；

图3示意性示出了本发明实施例的视频检测模型的训练方法中对抗分类网络的结构示意图；

图4示意性示出了本发明实施例视频检测方法的流程示意图；

图5示意性示出了本发明实施例的视频检测模型的训练装置的结构示意图；

图6示意性示出了本发明实施例的视频检测装置的结构示意图；

图7示意性示出了本发明实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1示意性示出了本发明一实施例的视频检测模型的训练方法的主要流程的示意图，如图1所示，该方法包括：

步骤101：获取训练样本集，所述训练样本集包括多个训练样本。

在本实施例中，每个训练样本都是一个视频，视频的类型可以是电影、电视剧、综艺节目或动画片等。训练样本集中的多个训练样本包括正样本和负样本。正样本为包含特定内容的视频，负样本为不包含特定内容的视频，其中，特定内容、正样本和负样本可以根据应用场景灵活选取。作为示例，在视频审核场景中，特定内容可以是违反国家法律规定、行业规范的内容、违反社会公序良俗、价值观负面消极内容、低俗、不雅的违规内容。

步骤102：利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，其中，不同时长的训练样本的初始特征向量的维度不同。

在本实施例中，初始特征向量用于表征该训练样本内容特征。该初始特征向量可以是该训练样本的画面特征向量，该画面特征向量用于表征该训练样本的视频画面特征。该初始特征向量也可以是该训练样本的音频特征向量，该音频特征向量用于表征该训练样本的音频特征。优选的，该初始特征向量可以同时包括该训练样本的画面特征向量和音频特征向量。

在本步骤中，可以通过预构建的3D卷积神经网络模型提取每一训练样本的初始特征向量，例如若该初始特征向量为画面特征向量，可以通过预构建的3D 卷积神经网络模型I3D进行提取，若该初始特征向量为音频特征向量，通过另一预构建的3D卷积神经网络模型VGG进行提取，不做具体限定。3D卷积神经网络模型的卷积核是3D的，使用3D卷积神经网络模型能够更好的捕获视频中的时间和空间的特征信息，即提取训练样本在时间维度上的特征信息和空间维度上的特征信息。3D卷积神经网络模型是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征图都会与上一层中多个邻近的连续帧相连，因此可以捕获训练样本在时间维度上的特征信息。对于不同时长的训练样本，其包含的视频帧的数量是不同的，因此，对于不同时长的训练样本，利用3D卷积神经网络模型提取的初始特征向量在时间维度上是不同的，即不同时长的训练样本的初始特征向量的维度不同。

步骤103：针对每一训练样本，根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的目标特征向量，每一训练样本的目标特征向量的维度相同。

本实施例考虑到，在实际应用中由于正样本与正样本以及正样本与负样本的时长不完全相同，而提取到的初始特征向量的维度不同的情况，所以通过预设的加权聚合规则，将不同时长的视频的特征统一到同一维度，即将正、负样本初始特征向量通过预设的加权聚合规则统一到同一维度，从而方便后续基于统一维度的目标特征向量进行训练，提高模型的准确性和鲁棒性。在本实施例中，训练样本的初始特征向量可以看作是多个通道的特征图的叠加，通过预设的加权聚合规则，对训练样本的初始特征向量进行加权聚合处理的目的在于根据所有通道的特征图，从所有通道中选出具有代表性、区分性的N个目标通道，基于具有代表性、区分性的N个目标通道的通道特征图，确定训练样本的目标特征向量，因此，所有训练样本的目标特征向量的维度相同。

步骤104：根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型。

在本步骤中可以通过预设的深度卷积神经网络以及预设的损失函数对目标特征向量进行训练，得到能够检测出视频内容是否包含违规内容的视频检测模型。其中，预设的深度卷积神经网络可以是决策树模型、随机森林模型、朴素贝叶斯模型等。

在可选的实施例中，所述利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量包括：

针对每一训练样本，根据预设的切分规则对所述训练样本进行分段处理，得到多个子样本；所有训练样本切分后得到的子样本的时长相同；

针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，子样本的初始特征向量为W*C维的特征向量，W和C分别为大于1的整数；

拼接所述多个子样本的初始特征向量W*C，得到所述训练样本的初始特征向量，所述训练样本的初始特征向量为H*W*C维的特征向量，其中，H表示所述训练样本切分后得到的子样本的数量。

在本实施中，预设的切分规则用于将训练样本进行分段处理，将一个训练样本切分成多个子样本，所有训练样本切分后得到的子样本的时长相同，即所有训练样本切分后的子样本包含的视频帧的数量相同，以及所有训练样本切分后的子样本包含的音频的时长相同。由于子样本的时长相同，所以不同时长的训练样本切分后的子样本的数量是不同的。例如训练样本A的时长是1920s，训练样本B的时长是3600s，假定子样本的时长是12.8s，则训练样本A切分后的子样本的数量是150，训练样本B的子样本的数量是281。在本实施例中，子样本是从时间维度上对训练样本进行切分得到的，子样本的数量是训练样本在时间维度上的特征。将子样本输入预构建的3D卷积神经网络模型，得到子样本的初始特征向量，3D卷积神经网络模型输出的特征为二维特征，将多个子样本的初始特征向量拼接，得到训练样本的初始特征向量H*W*C。作为示例，可以将时长为t的训练样本分为多个子样本，每个子样本具有64帧图像和12.8s音频。若该初始特征向量是该训练样本的画面特征向量，则将64帧图像序列输入预构建的深度学习骨干网络3D-CNN，提取出6*1024维的画面特征向量，若该初始特征向量是该训练样本的音频特征向量，则将12.8s音频通过另一深度学习骨干网络VGG，提取出8*128维的音频特征向量。最终每一训练样本得到H*6*1024维的画面特征向量和/或H*6*1024维的音频特征向量，其中，H表示子样本的数量。

在得到所有训练样本的初始特征向量H*W*C之后，可以通过PWA算法(Part-basedWeighting Aggregation，部分加权聚合操作，也可以称为基于部位的加权聚合)，对初始特征向量进行加权聚合处理，得到训练样本的目标特征向量。PWA算法是从所有通道中选出具有代表性、区分性的通道，并通过每个通道的特征图的聚合值的方差来衡量通道是否具有区分性，方差越大，区分性越大，然后基于区分性较大的N个通道的通道特征图，确定训练样本的目标特征向量。如图2所示，通过PWA算法对每一训练样本的初始特征向量进行加权聚合处理，得到训练样本的目标特征向量的过程包括：

步骤201：根据所述训练样本集中所有训练样本的初始特征向量H*W*C，计算各个通道的通道特征图的聚合值的方差，所述通道为所述初始特征向量的最后一维，即C维，所述通道特征图为所述初始特征向量中前两维构成的二维矩阵，即H维和W维构成的二维矩阵。一个通道是对某个特征的检测，通道中某一处数值的强弱就是对当前特征强弱的反映。例如，图像可能仅包含三个通道，其中包含有关图像中每个像素有多少红色、绿色或蓝色的信息，将这个概念映射到卷积上，获得具有三个通道的RGB数据。在卷积神经网络模型中，每个通道都会使用不同的过滤器，过滤器从每个通道获得不同的信息。3D卷积神经网络模型中的卷积层可以在通道与通道之间进行交互，之后在下一个卷积层生成新的通道。

在本步骤中通过训练样本集中所有训练样本的初始特征向量，来统计所有训练样本的通道特征图的聚合值的方差，从而来选择具有区分性的通道特征图，方差越大，通道特征图的区分性越大。计算方差的方法为：

假设共有D个初始特征向量H*W*C，沿着C维进行加池化操作，相当于把 H维和W维的特征值都加到一起。其中，D表示初始特征向量的数量，即训练样本集中训练样本的数量。对于其中第m个初始特征向量的第i个通道特征图，根据下式计算该通道特征图的聚合值：

其中，g_m，k表示第m个初始特征向量的第i个通道特征图的聚合值，f_i(x，y) 表示第i个通道的通道特征图中的元素。

针对每一通道特征图，根据上式计算聚合值，得到所有通道特征图的聚合值序列G＝{g₁，g₂…g_D}，然后根据下式计算方差：

其中，表示平均值，V_i表示第i个通道特征图的方差。

最终得到方差序列V＝{V₁，V₂…V_c}。

步骤202：按照由大到小的顺序对所述通道特征图的聚合值的方差进行排序，选取前N个方差对应的通道作为目标通道，N为大于或等于1的整数。

按照方差由大到小的顺序对所有的通道特征图进行排序，选取前N个，例如前10个方差对应的通道作为目标通道。例如，默认的通道索引为[0，1，2…1023]，按照方差由大到小的顺序排序后的通道索引为[5，109，233，17，......，89，10，602， 45]，然后选取前10个通道为目标通道。

步骤203：根据所述目标通道的通道特征图中的特征图激活值和所有目标通道的通道特征图的特征图激活值素之和，确定所述目标通道的通道特征图的归一化权重。

本步骤计算C维上的每一个H*W特征的归一化权重，该归一化权重由目标通道的特征响应计算得到，如下式所示：

其中，v_n(x，y)表示前N个目标通道中的第n个目标通道的特征图激活值，α，β分别为幂变换指数。作为示例，α的取值为2，β的取值也为2。

步骤204：根据所述目标通道的通道特征图的归一化权重和所述训练样本的初始特征向量，确定所述目标通道的通道特征图的加权和。

本步骤利用各个目标通道的归一化权重对各个目标通道的通道特征图加权求和，其计算公式如下式所示：

其中，ψ_n(I)表示第n个目标通道的通道特征图的加权和。

步骤205：拼接N个所述目标通道的通道特征图的加权和，得到所述训练样本的目标特征向量。

本步骤将N个目标通道的通道特征图的加权和进行拼接，得到N*C维的目标特征向量。

本实施例通过对筛选出的具有区分性、代表性的目标通道的通道特征图进行加权聚合处理，得到统一维度的目标特征向量，不仅方便了后续模型的训练，训练得到视频检测模型能够保证模型的准确性和鲁棒性，训练得到视频检测模型的准确性不受视频时长的影响，可以用于任何时长的视频检测。

在得到每一训练样本的T*6*1024维的画面特征向量和/或T*8*128维的音频特征向量之后，可以根据预设的加权聚合规则，将该T*6*1024维的画面特征向量加权聚合为10*1024维的目标画面特征向量，将T*8*128维的音频特征向量加权聚合为10*1024维的目标音频特征向量。

在可选的实施例中，上述步骤104，根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型的过程包括：

根据所述训练样本集中所有训练样本的目标特征向量，对预设的对抗分类网络进行训练，得到所述图像识别模型；其中，所述预设的对抗分类网络的网络参数通过对抗学习的方式进行更新。

本实施例通过对抗学习的方式对预设的对抗分类网络的网络参数进行训练，在通过对抗学习训练预设的对抗分类网络的过程中，针对当前网络产生对抗数据，然后通过更新当前网络的网络参数学习对抗数据，如此循环直至模型收敛或达到其他停止条件，从而得到视频检测模型，不仅能够识别包含目标内容的视频，还能减少对不包含目标内容的视频的误检。

在一实施例中，如图3所示，预设的对抗分类网络包括自编码器和分类器。其中，自编码器(Auto-encoder)是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)。自编码器的网络结构分为编码器E和解码器G，编码器的输入称为输入层，输出称为隐藏层，解码器的输入称为隐藏层，输出称为重构层。分类器可以是多层感知机结构的分类器，其中，多层感知机(MLP，Multilayer Perceptron)是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。自编码器会将隐藏层的特征数据输入分类器中，学习特定分布P(y)。

在本实施例中，自编码器和分类器的网络参数通过对抗学习的方式进行更新，即将正样本和负样本的目标特征向量经过编码器得到隐藏层值，然后将隐藏层值输入分类器中进行对抗学习。具体的，通过对抗学习更新自编码器和分类器的网络参数的过程包括：

利用预设的样本重构损失函数，对所述训练样本集中所有训练样本的目标特征向量进行训练，确定所述编码器的第一网络参数以及所述解码器的第一网络参数，并获得所述编码器基于其第一网络参数对所述目标特征向量进行编码后得到的隐藏层特征向量。本步骤用于构建结构对称的编码器和解码器，从而对训练样本的特征向量进行编码和解码，提高了对视频特征数据的表征能力。

利用预设的对抗损失函数，对所述隐藏层特征向量进行训练，确定所述分类器的第二网络参数、所述编码器的第二网络参数以及所述解码器的第二网络参数。

上述训练更新过程包括两个阶段：

样本重构阶段：更新编码器以及解码器的网络参数，使得预设的样本重构损失函数最小化。其中，可以通过梯度下降法更新编码器E以及解码器G的网络参数，预设的样本重构损失函数可以采用均方误差损失函数MSE(X，G(z))。

分布约束阶段：通过最小化预设的对抗损失函数更新分类器D的网络参数以及编码器E的网络参数，以提高对抗分类网络的能力。其中，预设的对抗损失函数可以是交叉熵损失函数。更具体的，预设的对抗损失函数如下式所示：

其中，loss(o，t)表示预设的对抗损失函数的值，n表示正样本和负样本的总数量，t表示样本标签，正样本的标签为0，负样本的标签为1，o表示分类器的输出。其中，分布约束是指：计算样本数据的真实分布和预测分布的差异，约束样本数据的真实分布和预测分布尽可能相似。损失函数就是用来衡量真实分布于预测分布之间的差异，损失函数越小模型越好。

本发明实施例的视频检测模型的训练方法，通过构建结构对称的编码器和解码器，从而对训练样本的目标特征向量进行编码，得到目标特征向量，提高了该目标特征向量对视频内容的表征能力，通过分类器学习该隐藏层特征向量，能够在保证有效识别包含违规内容的视频的同时降低对正常视频的误检。

在可选的实施例中，根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型还包括：

在所述训练样本集中负样本所占比例大于正样本所占比例的情况下，在训练所述预设的对抗分类网络的当前迭代轮次中，对所述训练样本集中的负样本进行采样，获得多个采样负样本，所述采样负样本的数量与所述正样本的数量相同；

根据所述采样负样本的目标特征向量和所述正样本的目标特征向量，执行当前迭代轮次的训练；

在训练所述预设的对抗分类网络的下一迭代轮次时，对所述训练样本集中除所述采样负样本外的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；

根据所述正样本的目标特征向量和所述新的采样负样本的目标特征向量，进行下一迭代轮次的训练。

在实际应用场景中，相对于海量的正常视频，包含违规内容的视频出现频次较低，因而，采集到的正样本的数量小于甚至远远小于负样本的数量，即训练样本集中的负样本所占的比例大于、甚至远远大于正样本所占的比例，例如，训练样本集中的正样本为3000个，负样本为10万个，正样本所占的比例远远小于负样本所占的比例。为了避免产生过拟合，提高视频检测的准确性，本发明实施例在迭代训练预设的对抗分类网络时，在每一轮次的迭代中都需要对负样本进行采样(例如无放回的均匀采样)，得到与正样本数量相同的多个采样负样本，然后根据采样负样本与正样本的目标特征向量训练该对抗分类网络，直至模型收敛或达到其他停止条件(例如达到最大迭代次数)。例如，在训练对抗分类网络的第一个迭代轮次时，从10万个负样本中均匀采样3000个采样负样本，根据该3000个采样负样本以及3000个正样本的目标特征向量进行当前轮次的迭代训练。在迭代训练对抗分类网络的第二个迭代轮次时，从剩余的97000个负样本中均匀采样3000个新的采样负样本，根据该3000个新的采样负样本以及 3000个正样本的目标特征向量进行当前迭代轮次的训练。重复上述训练的过程，直至模型收敛或达到其他的停止条件(例如达到最大迭代次数)，从而得到视频检测模型。

在可选的实施例中，本发明实施例中的训练样本的初始特征向量包括初始画面特征向量和初始音频特征向量。初始画面特征向量可以表征训练样本的画面特征，初始音频特征向量可以表征训练样本的音频特征。

上述步骤102提取每一训练样本的初始特征向量包括：针对每一子样本，提取所述子样本的初始画面特征向量和初始音频特征向量；拼接所述多个子样本的初始画面特征向量和初始音频特征向量，获得所述训练样本的初始画面特征向量和初始音频特征向量。其中，不同时长的训练样本的初始画面特征向量的维度不同，不同时长的训练样本的初始音频特征向量的维度不同。

上述步骤103根据预设的加权聚合规则，对所述初始特征向量根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的目标特征向量包括：根据预设的加权聚合规则，分别对所述初始画面特征向量和所述初始音频特征向量进行加权聚合处理，得到第一维度的目标画面特征向量和第二维度的目标音频特征向量；融合所述第一维度的目标画面特征向量和第二维度的目标音频特征向量，得到所述训练样本的目标音视频特征向量。其中，所有训练样本的目标画面特征向量的维度相同，所有训练样本的目标音频特征向量的维度相同，所有训练样本的目标音视频特征向量的维度相同，而目标画面特征向量与目标音频特征向量的维度可以相同也可以不相同，即第一维度与第二维度可以相同，也可以不相同，本发明在此不做限制。根据预设的加权聚合规则，对初始画面特征向量和初始音频特征向量进行加权聚合处理的过程如图2所示的实施例，本发明在此不再赘述。本步骤通过对目标画面特征向量和目标音频特征向量进行融合，实现了两种模态特征融合，得到了多模态的目标音视频特征向量，通过训练多模态的目标音视频特征向量得到视频检测模型，其准确性高于使用单一模态的特征进行训练得到的视频检测模型。作为示例，可以通过双线性池化(bilinear pooling)的方式融合目标画面特征向量和目标音频特征向量，得到目标音视频特征向量。

上述步骤104根据训练样本的目标特征向量训练得到视频检测模型的过程包括：根据所述目标音视频特征向量，训练得到所述视频检测模型。本步骤通过训练多模态的目标音视频特征向量得到视频检测模型，其准确性高于使用单一模态的特征进行训练得到的视频检测模型。

图4是本发明一实施例提供的视频检测方法的主要流程的示意图，如图4所示，该方法包括：

步骤401：获取待检测视频。

步骤402：利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量。

待检测视频的初始特征向量用于表征该待检测视频的内容特征。该初始特征向量可以是该待检测视频的画面特征向量，该画面特征向量用于表征该待检测视频的视频画面特征。该初始特征向量也可以是该待检测视频的音频特征向量，该音频特征向量用于表征该待检测视频的音频特征。优选的，该特征向量可以同时包括该待检测视频的画面特征向量和音频特征向量。

在本步骤中，可以通过预构建的3D卷积神经网络模型提取每一训练样本的初始特征向量，例如若该初始特征向量为画面特征向量，可以通过预构建的3D 卷积神经网络模型I3D进行提取，若该初始特征向量为音频特征向量，通过另一预构建的3D卷积神经网络模型VGG进行提取，不做具体限定。

步骤403：根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量。

本步骤的加权聚合规则为图1-图2所示的构建视频检测模型的加权聚合规则相同，根据该加权聚合规则将待检测视频的特征向量进行加权聚合处理，得到待检测视频的目标特征向量的过程如图1-图2所示的实施例，本发明在此不再赘述。在待检测视频的初始特征向量包括初始画面特征向量和初始音频特征向量的情况下，通过加权聚合规则分别对待检测视频的初始画面特征向量和初始音频特征向量进行加权聚合的过程，请参照训练样本的初始画面特征向量和初始音频特征向量进行加权聚合的过程，本发明在此不再赘述。

本步骤通过加权聚合规则对待检测视频的特征向量进行加权聚合处理得到目标特征向量，便于后续的视频检测模型进行检测识别。通过本步骤可以将不同时长的待检测视频的特征统一到同一维度，方便后续利用预构建的视频检测模型进行检测识别。

步骤404：根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果。

其中，该预构建的视频检测模型为根据本发明实施例的视频检测模型的训练方法训练得到的。该视频检测模型够准确识别出包含目标内容的视频。

本发明实施例的视频检测方法，通过将待检测视频的初始特征向量进行加权聚合处理，得到同一维度的目标特征向量，然后通过预构建的视频检测模型和该目标特征向量对待检测视频进行检测，能够准确识别出该待检测视频是否包含违规内容。

在可选的实施例中，所述利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量包括：根据预设的切分规则对所述待检测视频进行分段处理，得到多个子样本；所述待检测视频切分后得到的子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W*C维的特征向量，W和C分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述训练样本的初始特征向量，所述待检测视频的初始特征向量为K*W*C维的特征向量，其中，K表示所述待检测视频对应的子样本的数量；

根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量包括：根据所述初始特征向量 K*W*C以及预确定的N个目标通道的通道特征图的归一化权重，确定所述N个目标通道中的每一目标通道的通道特征图的加权和；其中，N为大于或等于1的整数；拼接所述N个目标通道的通道特征图的加权和，得到所述待检测视频的目标特征向量。其中，N个目标通道及该N个目标通道的通道特征图的归一化权重可以在训练视频检测模型的过程中确定。

在可选的实施例中，所述预构建的视频检测模型包括自编码器和分类器；所述自编码器包括编码器和解码器；

图5示意性示出了本发明实施例的视频检测模型的训练装置500的结构示意图，如图5所示，该视频检测模型的训练装置500包括：

样本获取模块501，用于获取训练样本集，所述训练样本集包括多个训练样本；

特征提取模块502，用于利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，其中，不同时长的训练样本的初始特征向量的维度不同；

特征聚合模块503，用于针对每一训练样本，根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的的目标特征向量，每一训练样本的目标特征向量的维度相同；

模型训练模块504，用于根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型。

可选地，所述特征提取模块502还用于：针对每一训练样本，根据预设的切分规则对所述训练样本进行分段处理，得到多个子样本；所有训练样本切分后得到的子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D 卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，子样本的初始特征向量为W*C维的特征向量，，W和C 分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述训练样本的初始特征向量，所述训练样本的初始特征向量为H*W*C维的特征向量，其中，H表示所述训练样本切分后得到的子样本的数量；

所述特征聚合模块503还用于：根据所述训练样本集中所有训练样本的初始特征向量，计算各个通道的通道特征图的聚合值的方差，所述通道为所述初始特征向量的C维，所述通道特征图为所述初始特征向量中H维和W维构成的二维矩阵；按照由大到小的顺序对所述通道特征图的聚合值的方差进行排序，选取前N个方差对应的通道作为目标通道，N为大于或等于1的整数；根据所述目标通道的通道特征图中的特征图激活值和所有目标通道的通道特征图的特征图激活值素之和，确定所述目标通道的通道特征图的归一化权重；根据所述目标通道的通道特征图的归一化权重和所述训练样本的初始特征向量，确定所述目标通道的通道特征图的加权和；拼接N个所述目标通道的通道特征图的加权和，得到所述训练样本的目标特征向量。

可选地，所述模型训练模块504还用于：根据所述训练样本集中所有训练样本的目标特征向量，对预设的对抗分类网络进行训练，所述对抗分类网络包括自编码器和分类器，所述自编码器包括编码器和解码器；

所述模型训练模块504还用于：利用预设的样本重构损失函数，对所述训练样本集中所有训练样本的目标特征向量进行训练，确定所述编码器的第一网络参数以及所述解码器的第一网络参数，并获得所述编码器基于其第一网络参数对所述目标特征向量进行编码后得到的隐藏层特征向量；利用预设的对抗损失函数，对所述隐藏层特征向量进行训练，确定所述分类器的第二网络参数、所述编码器的第二网络参数以及所述解码器的第二网络参数。

可选地，所述多个训练样本包括正样本和负样本；所述模型训练模块504 还用于：在所述训练样本集中负样本所占比例大于正样本所占比例的情况下，在训练所述预设的对抗分类网络的当前迭代轮次中，对所述训练样本集中的负样本进行采样，获得多个采样负样本，所述采样负样本的数量与所述正样本的数量相同；根据所述采样负样本的目标特征向量和所述正样本的目标特征向量，执行当前迭代轮次的训练；在训练所述预设的对抗分类网络的下一迭代轮次时，对所述训练样本集中除所述采样负样本外的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；根据所述正样本的目标特征向量和所述新的采样负样本的目标特征向量，进行下一迭代轮次的训练。

所述特征提取模块502还用于：针对每一子样本，提取所述子样本的初始画面特征向量和初始音频特征向量；融合所述多个子样本的初始画面特征向量和初始音频特征向量，获得所述训练样本的初始画面特征向量和初始音频特征向量；

所述特征聚合模块503还用于：根据预设的加权聚合规则，分别对所述初始画面特征向量和所述初始音频特征向量进行加权聚合处理，得到第一维度的目标画面特征向量和第二维度的目标音频特征向量；融合所述第一维度的目标画面特征向量和第二维度的目标音频特征向量，得到所述训练样本的目标音视频特征向量；

所述模型训练模块504还用于：根据所述目标音视频特征向量，训练得到所述视频检测模型。

上述视频检测模型的训练装置可执行本发明实施例所提供的视频检测模型的训练方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的视频检测模型的训练方法。

图6示意性示出了本发明实施例的视频检测装置600的结构示意图，如图6所示，该视频检测装置600包括：

视频获取模块601，用于获取待检测视频；

特征获取模块602，用于利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量；

特征处理模块603，用于根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量；

检测模块604，用于根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果。

可选地，所述特征获取模块602还用于：根据预设的切分规则对所述待检测视频进行分段处理，得到多个子样本；所述待检测视频切分后得到的子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W*C维的特征向量，W和C分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述训练样本的初始特征向量，所述待检测视频的初始特征向量为K*W*C维的特征向量，其中，K表示所述待检测视频对应的子样本的数量；

所述特征处理模块603还用于：根据所述初始特征向量以及预确定的N个目标通道的通道特征图的归一化权重，确定所述N个目标通道中的每一目标通道的通道特征图的加权和；其中，N为大于或等于1的整数；拼接所述N个目标通道的通道特征图的加权和，得到所述待检测视频的目标特征向量。

可选地，所述预设的视频检测模型包括自编码器和分类器；所述自编码器包括编码器和解码器；

所述检测模块604还用于：将所述目标特征向量输入所述自编码器，获取所述自编码器的编码器对所述目标特征向量进行编码后得到的隐藏层特征向量；将所述隐藏层特征向量输入所述分类器，确定所述待检测视频的检测结果。

上述视频检测装置可执行本发明实施例所提供的视频检测方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的视频检测方法。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704。其中，处理器701，通信接口702，存储器 703通过通信总线704完成相互间的通信。存储器703，用于存放计算机程序；处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：获取训练样本集，所述训练样本集包括多个训练样本；利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，其中，不同时长的训练样本的初始特征向量的维度不同；针对每一训练样本的初始特征向量，根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的的目标特征向量，每一训练样本的目标特征向量的维度相同；根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型；

或者，处理器701执行存储器703上所存放的程序时，实现如下步骤：获取待检测视频；利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量；根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量；根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频检测模型的训练方法或视频检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频检测模型的训练方法或视频检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句″包括一个......″限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频检测模型的训练方法，其特征在于，包括：

获取训练样本集，所述训练样本集包括多个训练样本；

根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型；

其中，所述利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，包括：

针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W*C维的特征向量，W和C分别为大于1的整数；

拼接所述多个子样本的初始特征向量W*C，得到所述训练样本的初始特征向量，所述训练样本的初始特征向量为H*W*C维的特征向量，其中，H表示所述训练样本切分后得到的子样本的数量；

所述根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的目标特征向量，包括：

根据所述训练样本集中所有训练样本的初始特征向量，计算各个通道的通道特征图的聚合值的方差，所述通道为所述初始特征向量的C维，所述通道特征图为所述初始特征向量中H维和W维构成的二维矩阵；

按照由大到小的顺序对所述通道特征图的聚合值的方差进行排序，选取前N个方差对应的通道作为目标通道，N为大于或等于1的整数；

根据所述目标通道的通道特征图中的特征图激活值和所有目标通道的通道特征图的特征图激活值之和，确定所述目标通道的通道特征图的归一化权重；

根据所述目标通道的通道特征图的归一化权重和所述训练样本的初始特征向量，确定所述目标通道的通道特征图的加权和；

拼接N个所述目标通道的通道特征图的加权和，得到所述训练样本的目标特征向量。

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型包括：

根据所述训练样本集中所有训练样本的目标特征向量，对预设的对抗分类网络进行训练，得到所述视频检测模型；所述对抗分类网络包括自编码器和分类器，所述自编码器包括编码器和解码器；

所述根据所述训练样本集中所有训练样本的目标特征向量，对预设的对抗分类网络进行训练的过程包括：

利用预设的样本重构损失函数，对所述训练样本集中所有训练样本的目标特征向量进行训练，确定所述编码器的第一网络参数以及所述解码器的第一网络参数，并获得所述编码器基于其第一网络参数对所述目标特征向量进行编码后得到的隐藏层特征向量；

3.根据权利要求1所述的方法，其特征在于，所述多个训练样本包括正样本和负样本；

所述根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型包括：

在所述训练样本集中负样本所占比例大于正样本所占比例的情况下，在训练所述视频检测模型的当前迭代轮次中，对所述训练样本集中的负样本进行采样，获得多个采样负样本，所述采样负样本的数量与所述正样本的数量相同；

在训练所述视频检测模型的下一迭代轮次时，对所述训练样本集中除所述采样负样本外的剩余负样本进行采样，得到多个新的采样负样本，所述新的采样负样本的数量与所述正样本的数量相同；

4.一种视频检测方法，其特征在于，所述方法包括：

获取待检测视频；

利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量；

根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量；

根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果；

其中，所述利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量包括：

根据预设的切分规则对所述待检测视频进行分段处理，得到多个子样本；所述待检测视频切分后得到的子样本的时长相同；针对每一子样本，将所述子样本输入预构建的3D卷积神经网络模型，将所述预构建的3D卷积神经网络模型的输出作为所述子样本的初始特征向量，所述子样本的初始特征向量为W*C维的特征向量，W和C分别为大于1的整数；拼接所述多个子样本的初始特征向量W*C，得到所述待检测视频的初始特征向量，所述待检测视频的初始特征向量为K*W*C维的特征向量，其中，K表示所述待检测视频对应的子样本的数量；

根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量包括：根据所述初始特征向量K*W*C以及预确定的N个目标通道的通道特征图的归一化权重，确定所述N个目标通道中的每一目标通道的通道特征图的加权和；其中，N为大于或等于1的整数；拼接所述N个目标通道的通道特征图的加权和，得到所述待检测视频的目标特征向量。

5.一种视频检测模型的训练装置，其特征在于，包括：

样本获取模块，用于获取训练样本集，所述训练样本集包括多个训练样本；

特征提取模块，用于利用预构建的3D卷积神经网络模型，提取每一训练样本的初始特征向量，其中，不同时长的训练样本的初始特征向量的维度不同；

特征聚合模块，用于针对每一训练样本的初始特征向量，根据预设的加权聚合规则，对所述训练样本的初始特征向量进行加权聚合处理，得到所述训练样本的目标特征向量，每一所述训练样本的目标特征向量的维度相同；

模型训练模块，用于根据所述训练样本集中所有训练样本的目标特征向量，训练得到所述视频检测模型；

其中，所述特征提取模块还用于：

所述特征聚合模块还用于：

6.一种视频检测装置，其特征在于，包括：

视频获取模块，用于获取待检测视频；

特征获取模块，用于利用预构建的3D卷积神经网络模型，提取所述待检测视频的初始特征向量；

特征处理模块，用于根据预设的加权聚合规则，对所述待检测视频的初始特征向量进行加权聚合处理，得到所述待检测视频的目标特征向量；

检测模块，用于根据所述目标特征向量和预构建的视频检测模型，确定所述待检测视频的检测结果；

其中，所述特征获取模块还用于：

所述特征处理模块还用于：

根据所述初始特征向量K*W*C以及预确定的N个目标通道的通道特征图的归一化权重，确定所述N个目标通道中的每一目标通道的通道特征图的加权和；其中，N为大于或等于1的整数；拼接所述N个目标通道的通道特征图的加权和，得到所述待检测视频的目标特征向量。

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4中任一所述的方法步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。