CN113158971B

CN113158971B - 一种事件检测模型训练方法及事件分类方法、系统

Info

Publication number: CN113158971B
Application number: CN202110511629.2A
Authority: CN
Inventors: 高于超; 赵泽园
Original assignee: China Hualu Group Co Ltd; Beijing E Hualu Information Technology Co Ltd
Current assignee: China Hualu Group Co Ltd; Beijing E Hualu Information Technology Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2024-03-08
Anticipated expiration: 2041-05-11
Also published as: CN113158971A

Abstract

本发明提供了一种事件检测模型训练方法及事件分类方法、系统，该事件检测模型训练方法包括：获取视频样本数据，并对视频样本数据进行标注，得到目标样本数据；将目标样本数据输入预设检测模型，得到目标样本数据的检测结果；利用满足预设要求的检测结果对应的目标样本数据更新预设检测模型中的参数，直至得到训练完成的事件检测模型。本发明利用预设检测模型中的损失函数增大类间距离，保证检测过程中适应与分类结果的时序变化情况，摆脱了传统深度学习算法中仅使用单帧图片的缺点，能够利用视频数据的前后关系和多尺度信息，提升算法的性能和模型检测的精度，并且降低了模型的误报率。

Description

一种事件检测模型训练方法及事件分类方法、系统

技术领域

本发明涉及计算机视觉领域，具体涉及一种事件检测模型训练方法及事件分类方法、系统。

背景技术

随着云服务、大数据、人工智能等新技术的发展以及应用，深度学习网络逐渐被引用到公共场所中，用来帮助提升公共场所的安全性。视频监控的一项重要任务就是及时发现摄像头画面中的目标事件，例如打架斗殴、交通事故等异常事件，而通常情况下，异常事件发生的频率较低，且异常事件和正常事件是复杂多样的，极大地提升了数据收集以及标注上的难度，同时对于复杂多样的事件需要采用有监督学习方法进行目标分类，然而数据收集及标准的难度增大也加大了有监督学习方法的构建难度，进而导致目标分类效果差、耗时长的问题。

发明内容

有鉴于此，本发明实施例提供了一种事件检测模型训练方法及事件分类方法、系统，解决现有技术中由于数据收集及标准的难度增大也加大了有监督学习方法的构建难度，进而导致目标分类效果差、耗时长的问题。

根据第一方面，本发明实施例提供了一种事件检测模型训练方法，包括：获取视频样本数据，并对所述视频样本数据进行标注，得到目标样本数据；将所述目标样本数据输入预设检测模型，得到目标样本数据的检测结果；利用满足预设要求的所述检测结果对应的所述目标样本数据更新所述预设检测模型中的参数，直至得到训练完成的事件检测模型，其中利用所述预设检测模型中的损失函数增大类间距离。

可选地，所述对所述视频样本数据进行标注，得到目标样本数据，包括：将所述视频样本数据切分成预设帧数的数据片段，以进行数据标注；将标注后的所述数据片段进行组合，确定数据样本包；对所述数据样本包进行数据增强，得到目标样本数据。

可选地，所述将所述目标样本数据输入预设检测模型，得到目标样本数据的检测结果，包括：将所述目标样本数据输入视频特征提取网络，输出所述目标样本数据的数据特征，所述视频特征提取网络为包含提取不同尺度特征的网络；对所述数据特征进行降维，以确定分类预测分值，输出所述检测结果。

可选地，通过以下公式表示损失函数：

其中，ε＝0.1；α表示可调参数，取值范围为[0,1]；ρ^p表示目标事件的数据样本包；ρⁿ表示非目标事件的数据样本包；i表示第i个数据样本包；Ф为事件检测模型；f表示softmax函数；ω表示L2正则；B^p表示目标事件的样本数量；Bⁿ表示非目标事件的样本数量。

可选地，所述事件检测模型训练方法，还包括：基于SGD+Momentum组合的优化器对所述预设检测模型进行训练，确定训练完成的事件检测模型。

根据第二方面，本发明实施例提供了一种事件分类方法，包括：获取待分类视频数据；采用本发明第一方面及任意一种可选方式所述的事件检测模型训练方法对预设检测模型进行训练，得到训练完成的事件检测模型；将所述待分类视频数据输入训练完成的事件检测模型，得到待分类视频数据的分类预测置信度；利用预设置信度阈值以及所述分类预测置信度，确定所述待分类视频数据的分类结果。

根据第三方面，本发明实施例提供了一种事件检测模型训练系统，包括：第一处理模块，用于获取视频样本数据，并对所述视频样本数据进行标注，得到目标样本数据；第二处理模块，用于将所述目标样本数据输入预设检测模型，得到目标样本数据的检测结果；第三处理模块，用于利用满足预设要求的所述检测结果对应的所述目标样本数据更新所述预设检测模型中的参数，直至得到训练完成的事件检测模型，其中利用所述预设检测模型中的损失函数增大类间距离。

根据第四方面，本发明实施例提供了一种事件分类系统，包括：视频数据获取模块，用于获取待分类视频数据；模型训练模块，用于采用本发明第三方面及任意一种可选方式所述的事件检测模型训练系统对预设检测模型进行训练，得到训练完成的事件检测模型；检测模块，用于将所述待分类视频数据输入训练完成的事件检测模型，得到待分类视频数据的分类预测置信度；分类模块，用于利用预设置信度阈值以及所述分类预测置信度，确定所述待分类视频数据的分类结果。

本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现本发明第一方面及任意一种可选方式所述的事件检测模型训练方法，或者，实现本发明第二方面及任意一种可选方式所述的事件分类方法。

本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明第一方面及任意一种可选方式所述的事件检测模型训练方法，或者，执行本发明第二方面及任意一种可选方式所述的事件分类方法。

本发明技术方案，具有如下优点：

1.本发明实施例提供了一种事件检测模型训练方法，通过对视频样本数据进行标注以确定目标样本数据，然后利用预设检测模型，得到目标样本数据的检测结果，进而对预设检测模型中的参数进行更新，直至得到训练完成的事件检测模型，其中利用所述预设检测模型中的损失函数增大类间距离，保证检测过程中适应与分类结果的时序变化情况，摆脱了传统深度学习算法中仅使用单帧图片的缺点，能够利用视频数据的前后关系和多尺度信息，提升算法的性能和模型检测的精度，并且降低了模型的误报率，提高了模型的性能。

2.本发明实施例提供了一种事件分类方法，通过事件检测模型训练方法对预设检测模型进行训练，得到训练完成的事件检测模型，将待分类视频数据及输入训练完成的事件检测模型中，得到最终的目标分类结果；从而提高了数据分类检测的精度，且分类检测过程中不需要人工参与，减少人为因素的同时，可以使得检测结果更好的应用于目标分类结果的判断，提供高效率的判断参考。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中事件检测模型训练方法的流程图；

图2为本发明实施例中视频特征提取网络的示意图；

图3为本发明实施例中3D-Inception模块的示意图；

图4为本发明实施例中全连接网络的示意图；

图5为本发明实施例中异常事件分类检测的网络模型的示意图；

图6为本发明实施例中事件分类方法的流程图；

图7为本发明实施例中事件检测模型训练系统的示意图；

图8为本发明实施例中事件分类系统的示意图；

图9为本发明实施例中的电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例中以视频监控中的异常事件的检测为例进行说明，视频监控的一项重要任务就是及时发现摄像头画面中的打架斗殴、交通事故等异常事件。而通常情况下，异常事件发生的频率较低，且异常事件和正常事件是复杂多样的，极大地提升了数据收集、标注上的难度，同时加大了有监督学习方法的构建难度。而无监督学习方法却存在着性能差，较难应对复杂场景等多种缺陷。需要说明的是，本实施例中仅以异常事件监控为例进行说明，在实际应用中还可以适用于其他类型视频数据的目标分类预测，本实施例并不以此为限。

基于弱监督的深度学习网络逐渐引用，避免了人眼观测耗费时间并且错误率高的问题；深度学习对数据集的大小有一定的要求，例如异常事件的分类检测结果会存在样本严重不平衡的情况，加大了极大数据收集、标注上的难度，因此，本发明实施例提供了一种基于弱监督学习的视频流异常事件检测的过程，通过对视频级数据进行粗粒度标注和预处理，设计多示例学习网络与改进型的损失函数，在提升模型预测效果的同时，减少实际应用的耗时，有利于管理人员及时发现视频中的异常事件，减缓事故的进一步恶化。

本发明实施例提供了一种事件检测模型训练方法，如图1所示，该事件检测模型训练方法具体包括：

步骤S1：获取视频样本数据，并对视频样本数据进行标注，得到目标样本数据。

本发明实施例中，首先获取视频样本数据，以上述异常事件的视频监控为例，此视频样本数据中的标注标签类别均为已知的，包含极少量的包含异常事件的视频片段，还包含大量正常事件的视频片段，为了后续的模型训练，对视频样本数据进行标注，得到目标样本数据，以实现对分类模型的训练。

步骤S2：将目标样本数据输入预设检测模型，得到目标样本数据的检测结果。

本发明实施例中，将目标样本数据输入预设检测模型中，以得到目标样本数据的检测结果，其中预设检测模型属于深度学习领域中的弱监督学习，模型整体可以分为视频特征提取网络和全连接网络。具体地，对于视频特征提取网络选择GoogleNet的Inception模块，全连接网络用语将异常事件检测任务转换成回归任务，把视频特征提取网络是获取了高维的视频特征信息进行降维，进而确定最终的目标样本数据的检测结果。

需要说明的是，本实施例中仅举例说明选择GoogleNet的Inception模块作为视频特征提取网络，在实际应用中可以选择其他能够进行视频特征提取的网络，本实施例并不以此为限。

步骤S3：利用满足预设要求的检测结果对应的目标样本数据更新预设检测模型中的参数，直至得到训练完成的事件检测模型，其中利用预设检测模型中的损失函数增大类间距离。

本发明实施例中，在对预设检测模型进行训练的过程中利用满足预设要求的检测结果进行，具体地本实施例中是选择检测结果的预测分值最大的视频片段进行训练，实质上训练的过程也就是更新预设检测模型中的相关参数的过程，直到得到训练完成的事件检测模型。

其中本实施例中，利用预设检测模型中的损失函数增大类间距离，以保证使两个分类的训练实例都尽量远离分界线(尽量远离模糊区域)，使形成的模型达到风险最小化的效果；具体地，损失函数是基于softmax损失与合页损失进行改进并应用，在训练中对于正样本包(至少一帧图片属于异常事件的数据样本包)和负样本包(所有的图片均属于正常事件的数据样本包)均只使用分类预测分值最大的样本进行训练，正负样本间的距离应尽可能远。但是大多数的损失函数缺乏对时序结构的考量，故本实施例的损失函数在训练中，不直接使用softmax损失，而是将softmax损失的结果输入到合页损失中使用，该方法可以增大异常事件与非异常事件的类间距离。

通过以下公式表示损失函数：

具体地，在模型训练阶段，可以选择基于SGD+Momentum组合的优化器对预设检测模型进行训练，并使用余弦退火的学习率衰减策略，速模型收敛，以快速准确的确定训练完成的事件检测模型。

本发明提供的事件检测模型训练方法，通过对视频样本数据进行标注以确定目标样本数据，然后利用预设检测模型，得到目标样本数据的检测结果，进而对预设检测模型中的参数进行更新，直至得到训练完成的事件检测模型，其中利用预设检测模型中的损失函数增大类间距离，保证检测过程中适应与分类结果的时序变化情况，摆脱了传统深度学习算法中仅使用单帧图片的缺点，能够利用视频数据的前后关系和多尺度信息，提升算法的性能和模型检测的精度，并且降低了模型的误报率，提高了模型的性能。

具体地，在一实施例中，上述的步骤S1中，具体包括如下步骤：

步骤S11：将视频样本数据切分成预设帧数的数据片段，以进行数据标注。本发明实施例中，采用粗粒度标注的方式，将每个视频样本数据切分成固定的预设帧数的数据片段(视频片段)，以对视频样本数据进行标注。需要说明的是，本实施例中选择粗粒度标注的方式是基于样本中异常事件的数据量不足的情况下确定的，可以保证标注过程的准确性与高效性。

步骤S12：将标注后的数据片段进行组合，确定数据样本包。本实施例中，上述切分标注后视频片段即为示例，这些示例构成了每个视频样本数据的数据样本包，其中正样本的视频片段中，至少有一帧图片属于异常事件；而负样本的视频片段中，所有的图片均属于正常事件。

步骤S13：对数据样本包进行数据增强，得到目标样本数据。

本发明实施例中，在数据预处理环节，根据数据和应用场景的实际特点，对视频样本数据整体上使用Resize、左右翻转、随机裁剪、图像归一化等数据增强策略。需要说明的是，可以通过对视频数据的平移、旋转、压缩、调整色彩等方式创造新的数据，具体的包括水平或者垂直翻转、90度旋转，增加一级或者二级亮度，增加对比度，改变色调，虽然，新的增强图像样本在一定程度上改变了外观，但是样本的标签类别是保持不变，并且利用有限的已知标注类别的数据，获取到更多的训练数据，减少网络中的过拟合现象，训练出泛化能力更强的模型。需要说明的是，本发明实施例中仅举例说明对图像样本进行数据增强的方法，在实际应用中还可以选择其他方法进行数据增强，本发明仅以此为例，并不以此为限。

具体地，在一实施例中，上述的步骤S2中，还包括如下步骤：

步骤S21：将目标样本数据输入视频特征提取网络，输出目标样本数据的数据特征，视频特征提取网络为包含提取不同尺度特征的网络。

在本发明实施例中，基于视频特征提取网络主要是对视频流中的特征信息进行提取，传统的做法是使用2D卷积对每帧图片提取特征信息，然后传入到循环神经网络中，但是传统的这种做法虽然可以较好的融合高层信息，但是由于每帧的特征是被卷积等算法独立提取出来的，所以无法捕捉底层特征信息，同时循环神经网络无法实现并行计算，使得运行性能较差。因此本实施例提出的的视频特征提取网络借鉴了GoogleNet的Inception模块如图2和图3所示，并将3D卷积应用到视频特征提取网络中，提出了基于3D-Inception模块的视频特征提取网络，视频流通过视频特征提取网络中的多个卷积、池化和3D-Inception层，最终输出目标样本数据的数据特征。其中，3D-Inception模块中使用不同的分支，且每一分支的感受也都不同，能够捕捉视频中不同尺度的特征，最后使用聚合操作，将每一分支的输出结果进行合并，实现视频多尺度信息的提取。同时每一分支中都使用了1*1*1卷积，提升网络跨通道组织信息的能力，降低模型的复杂度。

步骤S22：对数据特征进行降维，以确定分类预测分值，输出检测结果。在本发明实施例中，如图4所示，通过全连接网络对视频特征提取网络获取的高维的视频特征信息进行降维，进而保证输出结果为目标事件的分类预测分值。

在实际应用中，对于异常事件分类检测的网络模型如图5所示，其中将正样本包和负样本包输入到视频特征提取网络，输出高维度的数据特征，然后通过全连接网络对高维度的特征进行降维，确定目标的分类预测分值，即负样本包示例分值和正样本包示例分值。然后利用分值最高的样本包对多示例排序损失模块进行训练，以实现对事件检测模型训练。

本发明实施例提供了一种事件检测模型训练方法，通过对视频样本数据进行标注以确定目标样本数据，然后利用预设检测模型，得到目标样本数据的检测结果，进而对预设检测模型中的参数进行更新，直至得到训练完成的事件检测模型，其中利用预设检测模型中的损失函数增大类间距离，保证检测过程中适应与分类结果的时序变化情况，摆脱了传统深度学习算法中仅使用单帧图片的缺点，能够利用视频数据的前后关系和多尺度信息，提升算法的性能和模型检测的精度，并且降低了模型的误报率，提高了模型的性能。

本发明实施例还提供了一种事件分类方法，如图6所示，该事件分类方法具体包括：

步骤S01：获取待分类视频数据。详细内容参见上述事件检测模型训练方法实施例中进行数据获取的相关描述。

步骤S02：采用事件检测模型训练方法对预设检测模型进行训练，得到训练完成的事件检测模型。详细内容参见上述事件检测模型训练方法实施例中各个步骤的相关描述。

步骤S03：将待分类视频数据输入训练完成的事件检测模型，得到待分类视频数据的分类预测置信度。详细内容参见上述事件检测模型训练方法实施例中得到融合特征步骤的相关描述。

步骤S04：利用预设置信度阈值以及分类预测置信度，确定待分类视频数据的分类结果。也就是，事件预测模型输出的分类预测置信度，是一个0～1的置信度小数，在最终应用时，可通过实际经验预设一个置信度阈值，如：0.8，当异常事件检测模型最终的输出置信度小数大于0.8，即判定该视频画面中存在异常事件，否则不存在。

具体地，本实施例的采用弱监督学习的方法实现异常事件的分类检测，通过利用多示例学习的神经网络对视频中的异常事件进行粗粒度分类，可以大大提升模型的预测精度，同时减低模型的误报率。本实施例在异常事件的分类检测上的AUC(Area Under Curve为ROC曲线下与坐标轴围成的面积)值达到78.63％，误报率为1.36％。在同等条件下，基于深度投票机制的方法和Spatial Autoencoder方法的AUC分别为50.6％和65.51％，误报率分别为27.2％和3.1％。

并且本实施例中提出的3D-Inception视频特征提取网络是在GoogleNet网络结构的基础上引入了3D卷积，摆脱了传统深度学习算法中仅使用单帧图片的缺点，能够利用视频数据的前后关系和多尺度信息，提升算法的性能。同时，相比于使用CNN-LSTM算法能够更好地实现并行计算，模型在推理阶段降低了30ms的占用时长。

同时本实施例对视频级别的数据进行异常分类检测的，其时序信息对网络的影响是极为重要的，所以应该保持相对平滑，提出了多示例合页损失函数，更好地适应异常分值的时序变化，能够增大异常事件与正常事件的类间距离，相比于交叉熵损失，AUC值提升了2.67％，误报率降低了0.53％。

本发明实施例提供了一种事件分类方法，通过事件检测模型训练方法对预设检测模型进行训练，得到训练完成的事件检测模型，将待分类视频数据及输入训练完成的事件检测模型中，得到最终的目标分类结果；从而提高了数据分类检测的精度，且分类检测过程中不需要人工参与，减少人为因素的同时，可以使得检测结果更好的应用于目标分类结果的判断，提供高效率的判断参考。

本发明实施例还提供了一种事件检测模型训练系统，如图7所示，包括：

第一处理模块1，用于获取视频样本数据，并对视频样本数据进行标注，得到目标样本数据。详细内容参见上述方法实施例中步骤S1的相关描述。

第二处理模块2，用于将目标样本数据输入预设检测模型，得到目标样本数据的检测结果。详细内容参见上述方法实施例中步骤S2的相关描述。

第三处理模块3，用于利用满足预设要求的检测结果对应的目标样本数据更新预设检测模型中的参数，直至得到训练完成的事件检测模型，其中利用预设检测模型中的损失函数增大类间距离。详细内容参见上述方法实施例中步骤S3的相关描述。

通过上述各个组成部分的协同合作，本发明实施例提供了一种事件检测模型训练系统，通过对视频样本数据进行标注以确定目标样本数据，然后利用预设检测模型，得到目标样本数据的检测结果，进而对预设检测模型中的参数进行更新，直至得到训练完成的事件检测模型，其中利用预设检测模型中的损失函数增大类间距离，保证检测过程中适应与分类结果的时序变化情况，摆脱了传统深度学习算法中仅使用单帧图片的缺点，能够利用视频数据的前后关系和多尺度信息，提升算法的性能和模型检测的精度，并且降低了模型的误报率，提高了模型的性能。

本发明实施例还提供了一种事件分类系统，如图8所示，包括：

视频数据获取模块01，用于获取待分类视频数据。详细内容参见上述方法实施例中步骤S01的相关描述。

模型训练模块02，用于采用事件检测模型训练系统对预设检测模型进行训练，得到训练完成的事件检测模型。详细内容参见上述方法实施例中步骤S02的相关描述。

检测模块03，用于将待分类视频数据输入训练完成的事件检测模型，得到待分类视频数据的分类预测置信度。详细内容参见上述方法实施例中步骤S03的相关描述。

分类模块04，用于利用预设置信度阈值以及分类预测置信度，确定待分类视频数据的分类结果。详细内容参见上述方法实施例中步骤S04的相关描述。

通过上述各个组成部分的协同合作，本发明实施例提供了一种事件分类系统，通过事件检测模型训练方法对预设检测模型进行训练，得到训练完成的事件检测模型，将待分类视频数据及输入训练完成的事件检测模型中，得到最终的目标分类结果；从而提高了数据分类检测的精度，且分类检测过程中不需要人工参与，减少人为因素的同时，可以使得检测结果更好的应用于目标分类结果的判断，提供高效率的判断参考。

本发明实施例还提供了一种电子设备，如图9所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图9中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

实现上述实施例方法使用的GPU是Tesla K40m显卡。GPU的数量为1，类型为KeplerGK110，CUDA核心数量：2880，双精度浮点性能：1.43Tflops，单精度浮点性能：4.29Tflops，专用存储器总容量：12GB，显存带宽:288GB/s支持PCI-E 3.0，功耗：235W热设计功耗被动散热。需要说明的是，本发明实施例举例说明GPU选择Tesla K40m显卡，在实际应用中还可以根据实际需要选择其他类型显卡，本发明并不以此为限。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种事件检测模型训练方法，其特征在于，包括：

获取视频样本数据，并对所述视频样本数据进行标注，得到目标样本数据；

将所述目标样本数据输入预设检测模型，得到目标样本数据的检测结果；

利用满足预设要求的所述检测结果对应的所述目标样本数据更新所述预设检测模型中的参数，直至得到训练完成的事件检测模型，其中利用所述预设检测模型中的损失函数增大类间距离；

通过以下公式表示损失函数：

2.根据权利要求1所述的事件检测模型训练方法，其特征在于，所述对所述视频样本数据进行标注，得到目标样本数据，包括：

将所述视频样本数据切分成预设帧数的数据片段，以进行数据标注；

将标注后的所述数据片段进行组合，确定数据样本包；

对所述数据样本包进行数据增强，得到目标样本数据。

3.根据权利要求1所述的事件检测模型训练方法，其特征在于，所述将所述目标样本数据输入预设检测模型，得到目标样本数据的检测结果，包括：

将所述目标样本数据输入视频特征提取网络，输出所述目标样本数据的数据特征，所述视频特征提取网络为包含提取不同尺度特征的网络；

对所述数据特征进行降维，以确定分类预测分值，输出所述检测结果。

4.根据权利要求1所述的事件检测模型训练方法，其特征在于，还包括：基于SGD+Momentum组合的优化器对所述预设检测模型进行训练，确定训练完成的事件检测模型。

5.一种事件分类方法，其特征在于，包括：

获取待分类视频数据；

采用如权利要求1-4任一项所述的事件检测模型训练方法对预设检测模型进行训练，得到训练完成的事件检测模型；

将所述待分类视频数据输入训练完成的事件检测模型，得到待分类视频数据的分类预测置信度；

利用预设置信度阈值以及所述分类预测置信度，确定所述待分类视频数据的分类结果。

6.一种事件检测模型训练系统，其特征在于，包括：

第一处理模块，用于获取视频样本数据，并对所述视频样本数据进行标注，得到目标样本数据；

第二处理模块，用于将所述目标样本数据输入预设检测模型，得到目标样本数据的检测结果；

第三处理模块，用于利用满足预设要求的所述检测结果对应的所述目标样本数据更新所述预设检测模型中的参数，直至得到训练完成的事件检测模型，其中利用所述预设检测模型中的损失函数增大类间距离；

通过以下公式表示损失函数：

7.一种事件分类系统，其特征在于，包括：

视频数据获取模块，用于获取待分类视频数据；

模型训练模块，用于采用如权利要求6所述的事件检测模型训练系统对预设检测模型进行训练，得到训练完成的事件检测模型；

检测模块，用于将所述待分类视频数据输入训练完成的事件检测模型，得到待分类视频数据的分类预测置信度；

分类模块，用于利用预设置信度阈值以及所述分类预测置信度，确定所述待分类视频数据的分类结果。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现如权利要求1-4中任一项所述的事件检测模型训练方法，或者，实现如权利要求5所述的事件分类方法。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-4中任一项所述的事件检测模型训练方法，或者，执行如权利要求5所述的事件分类方法。