CN115049969B

CN115049969B - 一种改进YOLOv3和BiConvLSTM的不良视频检测方法

Info

Publication number: CN115049969B
Application number: CN202210971238.3A
Authority: CN
Inventors: 付强; 赵洪伟
Original assignee: Shandong Bim Information Technology Co ltd
Current assignee: Shandong Bim Information Technology Co ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-12-13
Anticipated expiration: 2042-08-15
Also published as: CN115049969A

Abstract

本发明提供一种改进YOLOv3和BiConvLSTM的不良视频检测方法；首先利用不良视频的定义：因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频；其次，改进YOLOv3模型进行不良视频帧的特征提取，添加多头注意力层来增强特征，根据注意力权重判断特征重要程度，得到关注增强特征的不良视频帧特征；然后，利用双向卷积长短时记忆模型双向全方位获取综合深层隐藏时空特征，全连接层改为平均池化层，进行不良视频检测分类；将改进YOLOv3模型得到的不良视频帧的图像特征输入到改进的BiConvLSTM得到综合全面的深层隐藏的不良时空特征，输入到全局平均池化层得到不良视频的检测分类结果。

Description

一种改进YOLOv3和BiConvLSTM的不良视频检测方法

技术领域

本发明涉及一种不良视频检测方法，属于图像处理与计算机视觉领域。

背景技术

目前的不良视频检测方法主要有基于机器学习的不良行为检测方法和基于深度学习的不良视频检测方法。以上方法虽然取得了一定的成果，但是仍存在传统的特征选择加机器学习的不良视频检测方法存在特征抽取繁琐，模型表征能力欠佳等弊端；基于深度学习的不良视频的检测方法虽然可以较好的提取视频的特征，但是输入的图片或者视频帧只能是固定大小，不但加重了数据预处理的使得模型的检测效果以及检测范围大打折扣。而且现有方法，在不良视频帧分类的过程中，往往采用softmax分类器，参数过多，可能造成模型过拟合的问题。现有的基于神经网络的方法，例如卷积神经网络-卷积长短时记忆（CNN-ConvLSTM）方法常用于不良视频的检测，但是该方法利用CNN提取特征的效果不够突出，长短时记忆用于分类时只关注最后时刻的隐层状态，而忽略了更加全面的隐含时序特征。

发明内容

本发明为了解决现有不良视频检测模型输入固定大小视频帧，模型灵活度不高，模型表征能力不佳，图像特征不突出，时序特征获取不全面的情况，以及现有不良行为检测模型分类器参数过多，模型过拟合等问题，为了同时序序列中提取同时考虑时间，空间以及周期等条件的不良行为特征，并对不同不良行为特征进行精准分类，本发明提供了一种改进YOLOv3和BiConvLSTM的不良视频检测方法。

本发明所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法，主要通过以下技术方案实现：

步骤一、利用不良视频的定义：因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频；对数据进行预处理，将处理后的数据集Hockey Fight，Mediaeval2015与自行获取的视频数据作为本发明的实验数据集；

步骤二、改进YOLOv3模型进行不良视频帧的特征提取方法，针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响，添加多头注意力层来增强特征，根据注意力权重判断特征重要程度；针对传统YOLO模型提取特征时限定图片大小的不灵敏性，利用1×1卷积策略代替全连接层；

步骤三、改进卷积长短时记忆模型进行不良视频的不良行为检测方法，针对改进卷积长短时记忆模型获取时空特征不全面的问题，采用双向卷积长短时记忆模型；针对改进卷积长短时记忆模型全连接层参数过多，可能造成过拟合的问题，将全连接层改为平均池化层；

步骤四、融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法，融合模型命名为YOLOv3-MHA-Bi改进卷积长短时记忆模型；将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中，最终输出不良视频的检测结果。

进一步的，步骤一中所述利用不良视频的定义：因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频；对数据进行预处理，将处理后的数据集Hockey Fight，Mediaeval2015与自行获取的视频数据作为本发明的实验数据集，具体过程如下：

首先，对数据集进行预处理；数据集Hockey Fight里包含不良视频500个，非不良视频500个，其中不良视频中包含的不良行为均为肢体接触冲突，数据集的每个不良视频大小为41帧，25fps帧率，360×288的分辨率；数据集Mediaeval2015包含不良视频502个，非不良视频10398个，其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为等；自行获取的视频大多是公共场所的监控视频的不良行为片段，利用LabelImage工具对视频帧进行人工标注；

其次，对数据集进行扩充，由于不良视频样本数远小于非不良视频样本数，数据集存在正反例不均衡的现状，因此，本发明将不良视频样本进行正放，倒放，镜像等处理，进而将是聚集进行扩充；

最后，进行数据集划分，将三种数据集进行融合，最终融合数据集包含不良视频样本2000个，并且从非不良视频样本中取2000个样本作为反例；按照7：3的比例将数据集划分为训练集和测试集，训练集包含2800个视频，测试集包含1200个视频样本。

进一步的，步骤二中所述改进YOLOv3模型进行不良视频帧的特征提取方法，针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响，添加多头注意力层（Multi-head Self-Attention）来增强特征，根据注意力权重判断特征重要程度；针对传统YOLO模型提取特征时限定图片大小的不灵敏性，利用1×1卷积策略代替全连接层，具体过程如下：

首先，利用YOLOv3模型获取视频帧的图像特征表示，YOLOv3一共有53层，该53层的结构命名为darknet-53，其中包括52层的卷积层和一层的全连接层，卷积层全都使用全卷积结构，由1×1卷积和3×3卷积构成一个Residual单元；YOLOv3模型包括若干的DBL组件和resN组件，resN组件中包含DBL组件结构，DBL组件的基本组成包括卷积层、DB层以及LeakyRELU激活函数层；resN组件是YOLOv3模型darknet-53核心结构的最大组件，N代表的是res这个块结构中包含几个res单元结构，resN组件包含res1、res2、res8、res8以及res4单元，此结构具有更深的层次，可以更加有效的提取不良视频帧的深层特征，首先，将大小为M×N的不良视频帧作为输入，输入到YOLOv3模型中，调整输入为256×256的维度；如在图3中，假设输入的视频帧的尺寸为416×416，则可得到3个特征尺度，分别是13×13，26×26，还有52×52，因此根据K-means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框；

其次，添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征，在 YOLOv3模型之前添加多头自注意力层，注意力层不改变输出向量的维度，将大小为M×N，通道数为T_in的视频帧图像平铺为一维输入

，根据单层注意力的计算公式，定义查询向量Q，键向量K，值向量V，如公式（1）~（3）所示：

（1）

（2）

（3）

其中，

，

，attention机制将投影到不同子空间的特征信息分配给值向量V；

多头注意力的实质则为多个单层注意力层的叠加，定义注意力的头数为H，输出的注意力得分S_h，将权重矩阵与多头注意力得分进行融合可得到融合视频帧上下文特征的融合向量W^o，如公式（4）所示：

（4）

其中，

，在输入YOLOv3模型之前，也就是卷积操作之前进行注意力的增强，有助于在最原始的输入帧进行增强，效果更好，将得到的不良视频帧的增强向量表示作为输入，输入到YOLOv3模型的darknet-53核心结构中，进行训练；

最后，YOLOv3模型的全连接层改成用1×1卷积来替代；传统的全连接层将各个卷积图得到的特征进行线性拼接得到一个独立的特征，之后输入传统的softmax分类器中可以得到相应的类别，但是YOLOv3模型有52层，模型结构错综复杂，全连接层拼接不良视频帧的图像特征时会将图像的空间结构破坏掉，使得其空间结构布局完整，而且还会固定限制输入视频帧的大小，有失灵活性，因此将全连接层替换成为1×1卷积层，不但可以保留完整的图像特征不再限制输入帧的大小，而且1×1卷积常用以降维以降低模型的复杂度，加速模型的收敛，最终得到增强的不良视频帧图像的深层特征。

进一步的，利用步骤三改进卷积长短时记忆模型进行不良视频的不良行为检测方法，将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为输入，利用双向卷积长短时记忆模型来获得双向综合全面的深层隐藏时序特征及空间特征，利用Global平均池化策略替代全连接层进行不良视频的检测分类，避免参数过多模型复杂造成的过拟合现象；具体的实现过程如下：

首先，利用双向卷积长短时记忆模型提取全方位深层时空特征；传统的LSTM模型会忽略对空间特征的处理，单向的改进卷积长短时记忆模型，只能够提取单向的时序和空间特征，为了同时获取正向和反向的时空特征，改进成为双向卷积长短时记忆Bi改进卷积长短时记忆模型，可以同时获得下一个时刻与当前时刻的状态依赖和上一个时刻与当前时刻的状态依赖，进而可以获取到双向的综合全面的深层隐藏时序特征和空间特征；

将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为Bi改进卷积长短时记忆模型的输入特征，记为A₁，…，A_t，代表使用多头注意力模型进行权重分配与增强的特征表示，则Bi改进卷积长短时记忆模型的工作原理则如公式（5）~（9）所示：

（5）

（6）

（7）

（8）

（9）

其中，A_t为输入，C_t为细胞输出，H_t为隐层特征，i_t，f_t，o_t为记忆模块的三个门，tanh 是非线性函数，*表示卷积操作，

表示矩阵元素相乘计算；

其次，使用Global平均池化层代替全连接层做不良视频检测的分类器，改进后的Bi改进卷积长短时记忆模型虽然可以提取双向的隐层特征，但是在最后的特征连接的时候依旧使用全连接层进行拼接，将会破坏特征的空间结构，还会使得模型的计算更加的复杂，参数过多可能会导致过拟合现象，因此，本发明利用全局平均池化层来替换全连接层；

传统分类任务在提取到深层隐层特征后，将卷积操作的每个特征图生成的特征进行拼接，然后输入到softmax分类器中进行分类，这样的分类任务是分成两步走的；而替换为全局平均池化层之后，直接省去了特征的拼接步骤，避免了特征的空间结构遭到破坏，直接进行分类操作，更不需要大量的参数计算，降低了模型的复杂度，提高了模型的稳定性；例如，卷积层输出的是M×D×N的维的特征图，M为特征图的高，N为特征图的宽，假设M=N=D=3，则卷积层输出的是3×3×3的三维特征，利用全局平均池化层将每一层的M×N取平均，则输出的是1×1×3的值，降低了模型复杂度，使得不良视频检测的二分类任务的置信度更高。

进一步的，利用步骤四融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法，构成YOLOv3-MHA-Bi改进卷积长短时记忆模型，具体步骤如下：将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中，通过YOLOv3-MHA模型得到增强关注特征的视频帧的图像特征，将改特征输入到Bi改进卷积长短时记忆模型中得到双向综合全面的深层隐藏特征，输入全局平均池化层进行分类，最终输出不良视频的检测结果。

本发明最为突出的特点和显著的有益效果是：

本发明所涉及的一种改进YOLOv3和BiConvLSTM的不良视频检测方法，利用YOLOv3模型提取视频帧特征，增加多头注意力层融合视频段的特征，根据视频帧图像的注意力权重关注更加重要的图像特征；改进YOLO模型的全连接层，替换为1×1卷积来提高不良行为特征提取的灵活性，不再受限于固定大小的图片输入，而且图像的空间结构也将不会被破坏；为了同时序序列中提取同时考虑时间，空间以及周期等条件的不良行为特征，并对不同不良行为特征进行精准分类，采用Bi改进卷积长短时记忆模型获取双向全方位综合隐层时序特征，解决了单向模型特征提取的片面性；针对改进卷积长短时记忆模型全连接层参数过多，模型过于复杂，可能导致过拟合的问题，将全连接层改为平均池化层，以中和模型的复杂程度，进而达到更好的不良视频检测效果。

附图说明

图1为本发明一种改进YOLOv3和BiConvLSTM的不良视频检测方法的整体流程图；

图2为本发明改进YOLOv3模型进行不良视频帧的特征提取结构图；

图3为本发明的ConvLSTM-GlobalAveragePooling模型结构图；

图4为本发明一种改进BiConvLSTM的不良视频检测方法的网络结构图；

图5为本发明的YOLOv3-MHA-BiConvLSTM融合模型整体结构图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

为了更好说明本实施例，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

实施例一

本实施方式给出的利用不良视频的定义：8岁小孩因为画面中的肢体接触与冲突而不能观看的视频；对数据进行预处理，将处理后的数据集Hockey Fight，Mediaeval2015与自行获取的视频数据作为本发明的实验数据集。

具体包括以下步骤：

步骤一、对数据集进行预处理；数据集Hockey Fight里包含不良视频500个，非不良视频500个，其中不良视频中包含的不良行为均为肢体接触冲突，数据集的每个不良视频大小为41帧，25fps帧率，360×288的分辨率；数据集Mediaeval2015包含不良视频502个，非不良视频10398个，其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为等；自行获取的视频大多是公共场所的监控视频的不良行为片段，利用LabelImage工具对视频帧进行人工标注；

步骤二、数据集扩充；由于不良视频样本数远小于非不良视频样本数，数据集存在正反例不均衡的现状；因此，本发明将不良视频样本进行正放，倒放，镜像等处理，进而将是聚集进行扩充；

步骤三、数据集划分；将三种数据集进行融合，最终融合数据集包含不良视频样本2000个，并且从非不良视频样本中取2000个样本作为反例；按照7：3的比例将数据集划分为训练集和测试集，训练集包含2800个视频，测试集包含1200个视频样本。

实施例二

结合图2对本实施方式进行说明，本实施方式给出的一种改进YOLOv3模型进行不良视频帧的特征提取方法；针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响，添加多头注意力层来增强特征，根据注意力权重判断特征重要程度；针对传统YOLO模型提取特征时限定图片大小的不灵敏性，利用1×1卷积策略代替全连接层，具体包括以下步骤：

步骤一、结合图2进行说明利用YOLOv3模型获取视频帧的图像特征表示，YOLOv3一共有53层，该53层的结构命名为darknet-53，其中包括52层的卷积层和一层的全连接层，卷积层全都使用全卷积结构，由1×1卷积和3×3卷积构成一个Residual单元；YOLOv3模型包括若干的DBL组件和resN组件，resN组件中包含DBL组件结构；DBL组件的基本组成包括卷积层、DB层以及Leaky RELU激活函数层；resN组件是YOLOv3模型darknet-53核心结构的最大组件，N代表的是res这个块结构中包含几个res单元结构，resN组件包含res1、res2、res8以及res4单元，此结构具有更深的层次，可以更加有效的提取不良视频帧的深层特征，首先，将大小为M×N（其中M=N的情况存在）的不良视频帧作为输入，输入到YOLOv3模型中，调整输入为256×256的维度；如在图3中，假设输入的视频帧的尺寸为416×416，则可得到3个特征尺度，分别是13×13，26×26，还有52×52，因此根据K-means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框；

步骤二、添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征，在 YOLOv3模型之前添加多头自注意力层，注意力层不改变输出向量的维度；将大小为M×N，通道数为T_in的视频帧图像平铺为一维输入

（1）

（2）

（3）

其中，

，

（4）

其中，

步骤三、YOLOv3模型的全连接层改成用1×1卷积来替代，传统的全连接层将各个卷积图得到的特征进行线性拼接得到一个独立的特征，之后输入传统的softmax分类器中可以得到相应的类别；但是YOLOv3模型有52层，模型结构错综复杂，全连接层拼接不良视频帧的图像特征时会将图像的空间结构破坏掉，使得其空间结构布局完整，而且还会固定限制输入视频帧的大小，有失灵活性，因此将全连接层替换成为1×1卷积层，不但可以保留完整的图像特征不再限制输入帧的大小，而且1×1卷积常用以降维以降低模型的复杂度，加速模型的收敛，最终得到增强的不良视频帧图像的深层特征。

本实施方式提出的改进YOLOv3模型进行不良视频帧的特征提取方法，引入多头注意力层，不但考虑到了视频帧上下文特征的关联关系，而且得到了同维度的不良视频帧的增强向量表示，利用1×1卷积替换全连接层，不再对输入的不良视频帧的图片大小进行限制，也不会使全连接层将完整的图像特征破坏掉，而且1×1卷积的使用，还会加快模型的计算与收敛速度，在不良视频图像特征提取方面取得了一定的成效。

实施例三

结合图3对本实施方式进行说明，本实施方式给出的一种改进卷积长短时记忆模型进行不良视频的不良行为检测方法，将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为输入，利用双向卷积长短时记忆模型来获得双向综合全面的深层隐藏时序特征及空间特征，利用Global平均池化策略替代全连接层进行不良视频的检测分类，避免参数过多模型复杂造成的过拟合现象；具体包括以下步骤：

步骤一、双向卷积长短时记忆模型提取全方位深层时空特征，传统LSTM模型输入状态以及状态转换之间用的由全连接层进行拼接的，对提取的时序特征可以有较好的结果，但是针对不良视频帧来说，单纯的时序特征并不能完全表示不良行为的特征，需要更进一步的空间特征来探究，然而传统的LSTM模型会忽略对空间特征的处理；因此施行健提出了改进卷积长短时记忆模型来解决此问题；ConvLSTM由一个编码网络和一个预测网络构成，两个网络均由堆叠多个卷积层构成的，编码网络的最后状态进行复制得到预测网络的初始状态和单元输出，全连接层将预测网络输出连接起来，利用softmax函数进行分类；改进卷积长短时记忆模型的输入为X₁…X_t，细胞输出为C₁…C_t，隐藏状态为H₁…H_t，该模型的作用原理如公式（5）~（9）所示：

（5）

（6）

（7）

（8）

（9）

其中，i_t，f_t，o_t均为记忆模块的各个门，i_t，f_t，o_t的最后两个维度是空间维度，代表不良视频帧图像像素的行和列的空间特征，tanh是非线性函数，*表示卷积操作，

表示矩阵相乘；

但是，单向的改进卷积长短时记忆模型，只能够提取单向的时序和空间特征，只能获取单一方向的深层隐藏特征，也就是正向的时空特征，为了同时获取正向和反向的时空特征，改进成为双向卷积长短时记忆Bi改进卷积长短时记忆模型，在正向和反向方向上均使用公式（5）~（9）的操作，可以同时获得下一个时刻与当前时刻的状态依赖和上一个时刻与当前时刻的状态依赖，进而可以获取到双向的综合全面的深层隐藏时序特征和空间特征；

结合图4进行说明，将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为Bi改进卷积长短时记忆模型的输入特征，记为A₁…A_t，代表使用多头注意力模型进行权重分配与增强的特征表示，则Bi改进卷积长短时记忆模型的工作原理则如公式（5）~（9）所示：

（5）

（6）

（7）

（8）

（9）

表示矩阵元素相乘计算；

步骤三、如图3所示，Global平均池化层代替全连接层做不良视频检测的分类器，改进后的Bi改进卷积长短时记忆模型虽然可以提取双向的隐层特征，但是在最后的特征连接的时候依旧使用全连接层进行拼接，将会破坏特征的空间结构，还会使得模型的计算更加的复杂，参数过多可能会导致过拟合现象，因此，本发明利用全局平均池化层来替换全连接层；

通过上述方案，利用Bi改进卷积长短时记忆模型双向全方位综合提取同时考虑时间，空间以及周期等条件的不良行为特征的深层赢藏特征，替换全连接层为全局平均池化层，将两步二分类问题之间简化成为一步分类问题，大大减少了模型参数计算，提升了模型的准确度和稳定性，避免出现过拟合现象，进而达到更好的不良视频检测效果。

实施例四

结合图5进行说明，融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法，构成YOLOv3-MHA-Bi改进卷积长短时记忆模型，将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中，通过YOLOv3-MHA模型得到增强关注特征的视频帧的图像特征，将改特征输入到Bi改进卷积长短时记忆模型中得到双向综合全面的深层隐藏特征，输入全局平均池化层进行分类，最终输出不良视频的检测结果。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种改进YOLOv3和BiConvLSTM的不良视频检测方法，其特征在于，具体包括以下步骤：

步骤一、利用不良视频的定义：因画面中包括持械斗殴、争吵打骂和肢体冲突行为而被认定为不适宜观看的视频；对数据进行预处理，将处理后的数据集Hockey Fight，Mediaeval2015与自行获取的视频数据作为实验数据集；

步骤三、改进卷积长短时记忆模型进行不良视频的不良行为检测方法，针对改进卷积长短时记忆模型获取时序特征不全面的问题，采用双向卷积长短时记忆模型；针对改进卷积长短时记忆模型全连接层参数过多，造成过拟合的问题，将全连接层改为平均池化层；

步骤四、融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法，融合模型命名为YOLOv3-MHA-Bi改进卷积长短时记忆模型；将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中，最终输出不良视频的检测结果；

步骤二中所述改进YOLOv3模型进行不良视频帧的特征提取方法，针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响，添加多头注意力层来增强特征，根据注意力权重判断特征重要程度；针对传统YOLO模型提取特征时限定图片大小的不灵敏性，利用1×1卷积策略代替全连接层，具体过程如下：

首先，利用YOLOv3模型获取视频帧的图像特征表示，YOLOv3一共有53层，该53层的结构命名为darknet-53，其中包括52层的卷积层和一层的全连接层，卷积层全都使用全卷积结构，由1×1卷积和3×3卷积构成一个Residual单元；YOLOv3模型包括若干的DBL组件和resN组件，resN组件中包含DBL组件结构，DBL组件的基本组成包括卷积层、DB层以及Leaky RELU激活函数层；resN组件是YOLOv3模型darknet-53核心结构的最大组件，N代表的是res这个块结构中包含几个res单元结构，resN组件包含res1、res2、res8、res8以及res4单元，此结构具有更深的层次，可以更加有效的提取不良视频帧的深层特征，首先，将大小为M₁×M₂的不良视频帧作为输入，输入到YOLOv3模型中，调整输入为256×256的维度；输入的视频帧的尺寸为416×416，则可得到3个特征尺度，分别是13×13，26×26，还有52×52，因此根据K-means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框；

其次，添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征，在YOLOv3模型之前添加多头自注意力层，注意力层不改变输出向量的维度，将大小为M₁×M₂，通道数为T_in的视频帧图像平铺为一维输入

根据单层注意力的计算公式，定义查询向量Q，键向量K，值向量V，如公式(1)～(3)所示：

Q＝XW_q (1)

K＝XW_k (2)

V＝XW_v (3)

其中，W_q，

attention机制将投影到不同子空间的特征信息分配给值向量V；

多头注意力的实质则为多个单层注意力层的叠加，定义注意力的头数为H，输出的注意力得分S_h，将权重矩阵与多头注意力得分进行融合可得到融合视频帧上下文特征的融合向量W^o，如公式(4)所示：

MHA(Q,K,V)＝[S₁,...,S_h]W^o (4)

其中，

在输入YOLOv3模型之前，也就是卷积操作之前进行注意力的增强，有助于在最原始的输入帧进行增强，效果更好，将得到的不良视频帧的增强向量表示作为输入，输入到YOLOv3模型的darknet-53核心结构中，进行训练；

最后，YOLOv3模型的全连接层改成用1×1卷积来替代，传统的全连接层将各个卷积图得到的特征进行线性拼接得到一个独立的特征，之后输入传统的softmax分类器中可以得到相应的类别，但是YOLOv3模型有52层，模型结构错综复杂，全连接层拼接不良视频帧的图像特征时会将图像的空间结构破坏掉，使得其空间结构布局完整，而且还会固定限制输入视频帧的大小，有失灵活性，因此将全连接层替换成为1×1卷积层，不但可以保留完整的图像特征不再限制输入帧的大小，而且1×1卷积常用以降维以降低模型的复杂度，加速模型的收敛，最终得到增强的不良视频帧图像的深层特征。

2.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法，其特征在于，步骤一中所述利用不良视频的定义：因画面中包括持械斗殴、争吵打骂和肢体冲突行为而被认定为不适宜观看的视频；对数据进行预处理，将处理后的数据集Hockey Fight，Mediaeval2015与自行获取的视频数据作为实验数据集，具体过程如下：

首先，对数据集进行预处理；数据集Hockey Fight里包含不良视频500个，非不良视频500个，其中不良视频中包含的不良行为均为肢体接触冲突，数据集的每个不良视频大小为41帧，25fps帧率，360×288的分辨率；数据集Mediaeval2015包含不良视频502个，非不良视频10398个，其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为；自行获取的视频大多是公共场所的监控视频的不良行为片段，利用LabelImage工具对视频帧进行人工标注；

其次，对数据集进行扩充；由于不良视频样本数远小于非不良视频样本数，数据集存在正反例不均衡的现状；因此，将不良视频样本进行正放，倒放，镜像处理，进而将数据集进行扩充；

最后，进行数据集划分；将三种数据集进行融合，最终融合数据集包含不良视频样本2000个，并且从非不良视频样本中取2000个样本作为反例；按照7：3的比例将数据集划分为训练集和测试集，训练集包含2800个视频，测试集包含1200个视频样本。

3.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法，其特征在于，利用步骤三改进卷积长短时记忆模型进行不良视频的不良行为检测方法，将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为输入，利用双向卷积长短时记忆模型来获得双向综合全面的深层隐藏时序特征及空间特征，利用Global平均池化策略替代全连接层进行不良视频的检测分类，避免参数过多模型复杂造成的过拟合现象；具体的实现过程如下：

首先，利用双向卷积长短时记忆模型提取全方位深层时空特征，传统的LSTM模型会忽略对空间特征的处理，单向的改进卷积长短时记忆模型，只能够提取单向的时序和空间特征，为了同时获取正向和反向的时空特征，改进成为双向卷积长短时记忆Bi改进卷积长短时记忆模型，可以同时获得下一个时刻与当前时刻的状态依赖和上一个时刻与当前时刻的状态依赖，进而可以获取到双向的综合全面的深层隐藏时序特征和空间特征；

将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为Bi改进卷积长短时记忆模型的输入特征，记为A₁，…，A_t，代表使用多头注意力模型进行权重分配与增强的特征表示，则Bi改进卷积长短时记忆模型的工作原理则如公式(5)～(9)所示：

其中，A_t为输入，C_t为细胞输出，H_t为隐层特征，i_t，f_t，O_t为记忆模块的三个门，tanh是非线性函数，*表示卷积操作，

表示矩阵元素相乘计算；

其次，使用Global平均池化层代替全连接层做不良视频检测的分类器，改进后的Bi改进卷积长短时记忆模型虽然可以提取双向的隐层特征，但是在最后的特征连接的时候依旧使用全连接层进行拼接，将会破坏特征的空间结构，还会使得模型的计算更加的复杂，参数过多会导致过拟合现象，因此，利用全局平均池化层来替换全连接层；

传统分类任务在提取到深层隐层特征后，将卷积操作的每个特征图生成的特征进行拼接，然后输入到softmax分类器中进行分类，这样的分类任务是分成两步走的，而替换为全局平均池化层之后，直接省去了特征的拼接步骤，避免了特征的空间结构遭到破坏，直接进行分类操作，更不需要大量的参数计算，降低了模型的复杂度，提高了模型的稳定性；卷积层输出的是M₁×D×M₂的维的特征图，M₁为特征图的高，M₂为特征图的宽，M₁＝M₂＝D＝3，则卷积层输出的是3×3×3的三维特征，利用全局平均池化层将每一层的M₁×M₂取平均，则输出的是1×1×3的值，降低了模型复杂度，使得不良视频检测的二分类任务的置信度更高。

4.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法，其特征在于，利用步骤四融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法，构成YOLOv3-MHA-Bi改进卷积长短时记忆模型，具体步骤如下：将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中，通过YOLOv3-MHA模型得到增强关注特征的视频帧的图像特征，将改特征输入到Bi改进卷积长短时记忆模型中得到双向综合全面的深层隐藏特征，输入全局平均池化层进行分类，最终输出不良视频的检测结果。