CN115049969B - 一种改进YOLOv3和BiConvLSTM的不良视频检测方法 - Google Patents

一种改进YOLOv3和BiConvLSTM的不良视频检测方法 Download PDF

Info

Publication number
CN115049969B
CN115049969B CN202210971238.3A CN202210971238A CN115049969B CN 115049969 B CN115049969 B CN 115049969B CN 202210971238 A CN202210971238 A CN 202210971238A CN 115049969 B CN115049969 B CN 115049969B
Authority
CN
China
Prior art keywords
model
bad
features
convolution
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210971238.3A
Other languages
English (en)
Other versions
CN115049969A (zh
Inventor
付强
赵洪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Bim Information Technology Co ltd
Original Assignee
Shandong Bim Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Bim Information Technology Co ltd filed Critical Shandong Bim Information Technology Co ltd
Priority to CN202210971238.3A priority Critical patent/CN115049969B/zh
Publication of CN115049969A publication Critical patent/CN115049969A/zh
Application granted granted Critical
Publication of CN115049969B publication Critical patent/CN115049969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种改进YOLOv3和BiConvLSTM的不良视频检测方法;首先利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;其次,改进YOLOv3模型进行不良视频帧的特征提取,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度,得到关注增强特征的不良视频帧特征;然后,利用双向卷积长短时记忆模型双向全方位获取综合深层隐藏时空特征,全连接层改为平均池化层,进行不良视频检测分类;将改进YOLOv3模型得到的不良视频帧的图像特征输入到改进的BiConvLSTM得到综合全面的深层隐藏的不良时空特征,输入到全局平均池化层得到不良视频的检测分类结果。

Description

一种改进YOLOv3和BiConvLSTM的不良视频检测方法
技术领域
本发明涉及一种不良视频检测方法,属于图像处理与计算机视觉领域。
背景技术
目前的不良视频检测方法主要有基于机器学习的不良行为检测方法和基于深度学习的不良视频检测方法。以上方法虽然取得了一定的成果,但是仍存在传统的特征选择加机器学习的不良视频检测方法存在特征抽取繁琐,模型表征能力欠佳等弊端;基于深度学习的不良视频的检测方法虽然可以较好的提取视频的特征,但是输入的图片或者视频帧只能是固定大小,不但加重了数据预处理的使得模型的检测效果以及检测范围大打折扣。而且现有方法,在不良视频帧分类的过程中,往往采用softmax分类器,参数过多,可能造成模型过拟合的问题。现有的基于神经网络的方法,例如卷积神经网络-卷积长短时记忆(CNN-ConvLSTM)方法常用于不良视频的检测,但是该方法利用CNN提取特征的效果不够突出,长短时记忆用于分类时只关注最后时刻的隐层状态,而忽略了更加全面的隐含时序特征。
发明内容
本发明为了解决现有不良视频检测模型输入固定大小视频帧,模型灵活度不高,模型表征能力不佳,图像特征不突出,时序特征获取不全面的情况,以及现有不良行为检测模型分类器参数过多,模型过拟合等问题,为了同时序序列中提取同时考虑时间,空间以及周期等条件的不良行为特征,并对不同不良行为特征进行精准分类,本发明提供了一种改进YOLOv3和BiConvLSTM的不良视频检测方法。
本发明所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法,主要通过以下技术方案实现:
步骤一、利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为本发明的实验数据集;
步骤二、改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1×1卷积策略代替全连接层;
步骤三、改进卷积长短时记忆模型进行不良视频的不良行为检测方法,针对改进卷积长短时记忆模型获取时空特征不全面的问题,采用双向卷积长短时记忆模型;针对改进卷积长短时记忆模型全连接层参数过多,可能造成过拟合的问题,将全连接层改为平均池化层;
步骤四、融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法,融合模型命名为YOLOv3-MHA-Bi改进卷积长短时记忆模型;将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中,最终输出不良视频的检测结果。
进一步的,步骤一中所述利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为本发明的实验数据集,具体过程如下:
首先,对数据集进行预处理;数据集Hockey Fight里包含不良视频500个,非不良视频500个,其中不良视频中包含的不良行为均为肢体接触冲突,数据集的每个不良视频大小为41帧,25fps帧率,360×288的分辨率;数据集Mediaeval2015包含不良视频502个,非不良视频10398个,其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为等;自行获取的视频大多是公共场所的监控视频的不良行为片段,利用LabelImage工具对视频帧进行人工标注;
其次,对数据集进行扩充,由于不良视频样本数远小于非不良视频样本数,数据集存在正反例不均衡的现状,因此,本发明将不良视频样本进行正放,倒放,镜像等处理,进而将是聚集进行扩充;
最后,进行数据集划分,将三种数据集进行融合,最终融合数据集包含不良视频样本2000个,并且从非不良视频样本中取2000个样本作为反例;按照7:3的比例将数据集划分为训练集和测试集,训练集包含2800个视频,测试集包含1200个视频样本。
进一步的,步骤二中所述改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层(Multi-head Self-Attention)来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1×1卷积策略代替全连接层,具体过程如下:
首先,利用YOLOv3模型获取视频帧的图像特征表示,YOLOv3一共有53层,该53层的结构命名为darknet-53,其中包括52层的卷积层和一层的全连接层,卷积层全都使用全卷积结构,由1×1卷积和3×3卷积构成一个Residual单元;YOLOv3模型包括若干的DBL组件和resN组件,resN组件中包含DBL组件结构,DBL组件的基本组成包括卷积层、DB层以及LeakyRELU激活函数层;resN组件是YOLOv3模型darknet-53核心结构的最大组件,N代表的是res这个块结构中包含几个res单元结构,resN组件包含res1、res2、res8、res8以及res4单元,此结构具有更深的层次,可以更加有效的提取不良视频帧的深层特征,首先,将大小为M×N的不良视频帧作为输入,输入到YOLOv3模型中,调整输入为256×256的维度;如在图3中,假设输入的视频帧的尺寸为416×416,则可得到3个特征尺度,分别是13×13,26×26,还有52×52,因此根据K-means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框;
其次,添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征,在 YOLOv3模型之前添加多头自注意力层,注意力层不改变输出向量的维度,将大小为M×N,通 道数为Tin的视频帧图像平铺为一维输入
Figure 210143DEST_PATH_IMAGE001
,根据单层注意力的计算公式,定义 查询向量Q,键向量K,值向量V,如公式(1)~(3)所示:
Figure 316771DEST_PATH_IMAGE002
(1)
Figure 826250DEST_PATH_IMAGE003
(2)
Figure 281502DEST_PATH_IMAGE004
(3)
其中,
Figure 994374DEST_PATH_IMAGE005
Figure 888381DEST_PATH_IMAGE006
,attention机制将投影到不同子空间的特 征信息分配给值向量V;
多头注意力的实质则为多个单层注意力层的叠加,定义注意力的头数为H,输出的注意力得分Sh,将权重矩阵与多头注意力得分进行融合可得到融合视频帧上下文特征的融合向量Wo,如公式(4)所示:
Figure 954163DEST_PATH_IMAGE007
(4)
其中,
Figure 455683DEST_PATH_IMAGE008
,在输入YOLOv3模型之前,也就是卷积操作之前进行注意力的 增强,有助于在最原始的输入帧进行增强,效果更好,将得到的不良视频帧的增强向量表示 作为输入,输入到YOLOv3模型的darknet-53核心结构中,进行训练;
最后,YOLOv3模型的全连接层改成用1×1卷积来替代;传统的全连接层将各个卷积图得到的特征进行线性拼接得到一个独立的特征,之后输入传统的softmax分类器中可以得到相应的类别,但是YOLOv3模型有52层,模型结构错综复杂,全连接层拼接不良视频帧的图像特征时会将图像的空间结构破坏掉,使得其空间结构布局完整,而且还会固定限制输入视频帧的大小,有失灵活性,因此将全连接层替换成为1×1卷积层,不但可以保留完整的图像特征不再限制输入帧的大小,而且1×1卷积常用以降维以降低模型的复杂度,加速模型的收敛,最终得到增强的不良视频帧图像的深层特征。
进一步的,利用步骤三改进卷积长短时记忆模型进行不良视频的不良行为检测方法,将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为输入,利用双向卷积长短时记忆模型来获得双向综合全面的深层隐藏时序特征及空间特征,利用Global平均池化策略替代全连接层进行不良视频的检测分类,避免参数过多模型复杂造成的过拟合现象;具体的实现过程如下:
首先,利用双向卷积长短时记忆模型提取全方位深层时空特征;传统的LSTM模型会忽略对空间特征的处理,单向的改进卷积长短时记忆模型,只能够提取单向的时序和空间特征,为了同时获取正向和反向的时空特征,改进成为双向卷积长短时记忆Bi改进卷积长短时记忆模型,可以同时获得下一个时刻与当前时刻的状态依赖和上一个时刻与当前时刻的状态依赖,进而可以获取到双向的综合全面的深层隐藏时序特征和空间特征;
将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为Bi改进卷积长短时记忆模型的输入特征,记为A1,…,At,代表使用多头注意力模型进行权重分配与增强的特征表示,则Bi改进卷积长短时记忆模型的工作原理则如公式(5)~(9)所示:
Figure 639540DEST_PATH_IMAGE009
(5)
Figure 696093DEST_PATH_IMAGE010
(6)
Figure 71842DEST_PATH_IMAGE011
(7)
Figure 681946DEST_PATH_IMAGE012
(8)
Figure 353099DEST_PATH_IMAGE013
(9)
其中,At为输入,Ct为细胞输出,Ht为隐层特征,it,ft,ot为记忆模块的三个门,tanh 是非线性函数,*表示卷积操作,
Figure 602290DEST_PATH_IMAGE014
表示矩阵元素相乘计算;
其次,使用Global平均池化层代替全连接层做不良视频检测的分类器,改进后的Bi改进卷积长短时记忆模型虽然可以提取双向的隐层特征,但是在最后的特征连接的时候依旧使用全连接层进行拼接,将会破坏特征的空间结构,还会使得模型的计算更加的复杂,参数过多可能会导致过拟合现象,因此,本发明利用全局平均池化层来替换全连接层;
传统分类任务在提取到深层隐层特征后,将卷积操作的每个特征图生成的特征进行拼接,然后输入到softmax分类器中进行分类,这样的分类任务是分成两步走的;而替换为全局平均池化层之后,直接省去了特征的拼接步骤,避免了特征的空间结构遭到破坏,直接进行分类操作,更不需要大量的参数计算,降低了模型的复杂度,提高了模型的稳定性;例如,卷积层输出的是M×D×N的维的特征图,M为特征图的高,N为特征图的宽,假设M=N=D=3,则卷积层输出的是3×3×3的三维特征,利用全局平均池化层将每一层的M×N取平均,则输出的是1×1×3的值,降低了模型复杂度,使得不良视频检测的二分类任务的置信度更高。
进一步的,利用步骤四融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法,构成YOLOv3-MHA-Bi改进卷积长短时记忆模型,具体步骤如下:将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中,通过YOLOv3-MHA模型得到增强关注特征的视频帧的图像特征,将改特征输入到Bi改进卷积长短时记忆模型中得到双向综合全面的深层隐藏特征,输入全局平均池化层进行分类,最终输出不良视频的检测结果。
本发明最为突出的特点和显著的有益效果是:
本发明所涉及的一种改进YOLOv3和BiConvLSTM的不良视频检测方法,利用YOLOv3模型提取视频帧特征,增加多头注意力层融合视频段的特征,根据视频帧图像的注意力权重关注更加重要的图像特征;改进YOLO模型的全连接层,替换为1×1卷积来提高不良行为特征提取的灵活性,不再受限于固定大小的图片输入,而且图像的空间结构也将不会被破坏;为了同时序序列中提取同时考虑时间,空间以及周期等条件的不良行为特征,并对不同不良行为特征进行精准分类,采用Bi改进卷积长短时记忆模型获取双向全方位综合隐层时序特征,解决了单向模型特征提取的片面性;针对改进卷积长短时记忆模型全连接层参数过多,模型过于复杂,可能导致过拟合的问题,将全连接层改为平均池化层,以中和模型的复杂程度,进而达到更好的不良视频检测效果。
附图说明
图1为本发明一种改进YOLOv3和BiConvLSTM的不良视频检测方法的整体流程图;
图2为本发明改进YOLOv3模型进行不良视频帧的特征提取结构图;
图3为本发明的ConvLSTM-GlobalAveragePooling模型结构图;
图4为本发明一种改进BiConvLSTM的不良视频检测方法的网络结构图;
图5为本发明的YOLOv3-MHA-BiConvLSTM融合模型整体结构图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
为了更好说明本实施例,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
实施例一
本实施方式给出的利用不良视频的定义:8岁小孩因为画面中的肢体接触与冲突而不能观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为本发明的实验数据集。
具体包括以下步骤:
步骤一、对数据集进行预处理;数据集Hockey Fight里包含不良视频500个,非不良视频500个,其中不良视频中包含的不良行为均为肢体接触冲突,数据集的每个不良视频大小为41帧,25fps帧率,360×288的分辨率;数据集Mediaeval2015包含不良视频502个,非不良视频10398个,其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为等;自行获取的视频大多是公共场所的监控视频的不良行为片段,利用LabelImage工具对视频帧进行人工标注;
步骤二、数据集扩充;由于不良视频样本数远小于非不良视频样本数,数据集存在正反例不均衡的现状;因此,本发明将不良视频样本进行正放,倒放,镜像等处理,进而将是聚集进行扩充;
步骤三、数据集划分;将三种数据集进行融合,最终融合数据集包含不良视频样本2000个,并且从非不良视频样本中取2000个样本作为反例;按照7:3的比例将数据集划分为训练集和测试集,训练集包含2800个视频,测试集包含1200个视频样本。
实施例二
结合图2对本实施方式进行说明,本实施方式给出的一种改进YOLOv3模型进行不良视频帧的特征提取方法;针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1×1卷积策略代替全连接层,具体包括以下步骤:
步骤一、结合图2进行说明利用YOLOv3模型获取视频帧的图像特征表示,YOLOv3一共有53层,该53层的结构命名为darknet-53,其中包括52层的卷积层和一层的全连接层,卷积层全都使用全卷积结构,由1×1卷积和3×3卷积构成一个Residual单元;YOLOv3模型包括若干的DBL组件和resN组件,resN组件中包含DBL组件结构;DBL组件的基本组成包括卷积层、DB层以及Leaky RELU激活函数层;resN组件是YOLOv3模型darknet-53核心结构的最大组件,N代表的是res这个块结构中包含几个res单元结构,resN组件包含res1、res2、res8以及res4单元,此结构具有更深的层次,可以更加有效的提取不良视频帧的深层特征,首先,将大小为M×N(其中M=N的情况存在)的不良视频帧作为输入,输入到YOLOv3模型中,调整输入为256×256的维度;如在图3中,假设输入的视频帧的尺寸为416×416,则可得到3个特征尺度,分别是13×13,26×26,还有52×52,因此根据K-means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框;
步骤二、添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征,在 YOLOv3模型之前添加多头自注意力层,注意力层不改变输出向量的维度;将大小为M×N,通 道数为Tin的视频帧图像平铺为一维输入
Figure 675288DEST_PATH_IMAGE015
,根据单层注意力的计算公式,定义查 询向量Q,键向量K,值向量V,如公式(1)~(3)所示:
Figure 659556DEST_PATH_IMAGE016
(1)
Figure 83584DEST_PATH_IMAGE017
(2)
Figure 326347DEST_PATH_IMAGE018
(3)
其中,
Figure 207846DEST_PATH_IMAGE019
Figure 674600DEST_PATH_IMAGE020
,attention机制将投影到不同子空间的特征 信息分配给值向量V;
多头注意力的实质则为多个单层注意力层的叠加,定义注意力的头数为H,输出的注意力得分Sh,将权重矩阵与多头注意力得分进行融合可得到融合视频帧上下文特征的融合向量Wo,如公式(4)所示:
Figure 789186DEST_PATH_IMAGE021
(4)
其中,
Figure 55213DEST_PATH_IMAGE022
,在输入YOLOv3模型之前,也就是卷积操作之前进行注意力的 增强,有助于在最原始的输入帧进行增强,效果更好,将得到的不良视频帧的增强向量表示 作为输入,输入到YOLOv3模型的darknet-53核心结构中,进行训练;
步骤三、YOLOv3模型的全连接层改成用1×1卷积来替代,传统的全连接层将各个卷积图得到的特征进行线性拼接得到一个独立的特征,之后输入传统的softmax分类器中可以得到相应的类别;但是YOLOv3模型有52层,模型结构错综复杂,全连接层拼接不良视频帧的图像特征时会将图像的空间结构破坏掉,使得其空间结构布局完整,而且还会固定限制输入视频帧的大小,有失灵活性,因此将全连接层替换成为1×1卷积层,不但可以保留完整的图像特征不再限制输入帧的大小,而且1×1卷积常用以降维以降低模型的复杂度,加速模型的收敛,最终得到增强的不良视频帧图像的深层特征。
本实施方式提出的改进YOLOv3模型进行不良视频帧的特征提取方法,引入多头注意力层,不但考虑到了视频帧上下文特征的关联关系,而且得到了同维度的不良视频帧的增强向量表示,利用1×1卷积替换全连接层,不再对输入的不良视频帧的图片大小进行限制,也不会使全连接层将完整的图像特征破坏掉,而且1×1卷积的使用,还会加快模型的计算与收敛速度,在不良视频图像特征提取方面取得了一定的成效。
实施例三
结合图3对本实施方式进行说明,本实施方式给出的一种改进卷积长短时记忆模型进行不良视频的不良行为检测方法,将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为输入,利用双向卷积长短时记忆模型来获得双向综合全面的深层隐藏时序特征及空间特征,利用Global平均池化策略替代全连接层进行不良视频的检测分类,避免参数过多模型复杂造成的过拟合现象;具体包括以下步骤:
步骤一、双向卷积长短时记忆模型提取全方位深层时空特征,传统LSTM模型输入状态以及状态转换之间用的由全连接层进行拼接的,对提取的时序特征可以有较好的结果,但是针对不良视频帧来说,单纯的时序特征并不能完全表示不良行为的特征,需要更进一步的空间特征来探究,然而传统的LSTM模型会忽略对空间特征的处理;因此施行健提出了改进卷积长短时记忆模型来解决此问题;ConvLSTM由一个编码网络和一个预测网络构成,两个网络均由堆叠多个卷积层构成的,编码网络的最后状态进行复制得到预测网络的初始状态和单元输出,全连接层将预测网络输出连接起来,利用softmax函数进行分类;改进卷积长短时记忆模型的输入为X1…Xt,细胞输出为C1…Ct,隐藏状态为H1…Ht,该模型的作用原理如公式(5)~(9)所示:
Figure 571645DEST_PATH_IMAGE023
(5)
Figure 209300DEST_PATH_IMAGE024
(6)
Figure 564845DEST_PATH_IMAGE025
(7)
Figure 149410DEST_PATH_IMAGE026
(8)
Figure 254769DEST_PATH_IMAGE027
(9)
其中,it,ft,ot均为记忆模块的各个门,it,ft,ot的最后两个维度是空间维度,代表 不良视频帧图像像素的行和列的空间特征,tanh是非线性函数,*表示卷积操作,
Figure 266588DEST_PATH_IMAGE028
表示矩 阵相乘;
但是,单向的改进卷积长短时记忆模型,只能够提取单向的时序和空间特征,只能获取单一方向的深层隐藏特征,也就是正向的时空特征,为了同时获取正向和反向的时空特征,改进成为双向卷积长短时记忆Bi改进卷积长短时记忆模型,在正向和反向方向上均使用公式(5)~(9)的操作,可以同时获得下一个时刻与当前时刻的状态依赖和上一个时刻与当前时刻的状态依赖,进而可以获取到双向的综合全面的深层隐藏时序特征和空间特征;
结合图4进行说明,将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为Bi改进卷积长短时记忆模型的输入特征,记为A1…At,代表使用多头注意力模型进行权重分配与增强的特征表示,则Bi改进卷积长短时记忆模型的工作原理则如公式(5)~(9)所示:
Figure 637657DEST_PATH_IMAGE029
(5)
Figure 25913DEST_PATH_IMAGE030
(6)
Figure 251358DEST_PATH_IMAGE031
(7)
Figure 184810DEST_PATH_IMAGE032
(8)
Figure 495706DEST_PATH_IMAGE033
(9)
其中,At为输入,Ct为细胞输出,Ht为隐层特征,it,ft,ot为记忆模块的三个门,tanh 是非线性函数,*表示卷积操作,
Figure 422074DEST_PATH_IMAGE034
表示矩阵元素相乘计算;
步骤三、如图3所示,Global平均池化层代替全连接层做不良视频检测的分类器,改进后的Bi改进卷积长短时记忆模型虽然可以提取双向的隐层特征,但是在最后的特征连接的时候依旧使用全连接层进行拼接,将会破坏特征的空间结构,还会使得模型的计算更加的复杂,参数过多可能会导致过拟合现象,因此,本发明利用全局平均池化层来替换全连接层;
传统分类任务在提取到深层隐层特征后,将卷积操作的每个特征图生成的特征进行拼接,然后输入到softmax分类器中进行分类,这样的分类任务是分成两步走的;而替换为全局平均池化层之后,直接省去了特征的拼接步骤,避免了特征的空间结构遭到破坏,直接进行分类操作,更不需要大量的参数计算,降低了模型的复杂度,提高了模型的稳定性;例如,卷积层输出的是M×D×N的维的特征图,M为特征图的高,N为特征图的宽,假设M=N=D=3,则卷积层输出的是3×3×3的三维特征,利用全局平均池化层将每一层的M×N取平均,则输出的是1×1×3的值,降低了模型复杂度,使得不良视频检测的二分类任务的置信度更高。
通过上述方案,利用Bi改进卷积长短时记忆模型双向全方位综合提取同时考虑时间,空间以及周期等条件的不良行为特征的深层赢藏特征,替换全连接层为全局平均池化层,将两步二分类问题之间简化成为一步分类问题,大大减少了模型参数计算,提升了模型的准确度和稳定性,避免出现过拟合现象,进而达到更好的不良视频检测效果。
实施例四
结合图5进行说明,融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法,构成YOLOv3-MHA-Bi改进卷积长短时记忆模型,将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中,通过YOLOv3-MHA模型得到增强关注特征的视频帧的图像特征,将改特征输入到Bi改进卷积长短时记忆模型中得到双向综合全面的深层隐藏特征,输入全局平均池化层进行分类,最终输出不良视频的检测结果。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (4)

1.一种改进YOLOv3和BiConvLSTM的不良视频检测方法,其特征在于,具体包括以下步骤:
步骤一、利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为实验数据集;
步骤二、改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1×1卷积策略代替全连接层;
步骤三、改进卷积长短时记忆模型进行不良视频的不良行为检测方法,针对改进卷积长短时记忆模型获取时序特征不全面的问题,采用双向卷积长短时记忆模型;针对改进卷积长短时记忆模型全连接层参数过多,造成过拟合的问题,将全连接层改为平均池化层;
步骤四、融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法,融合模型命名为YOLOv3-MHA-Bi改进卷积长短时记忆模型;将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中,最终输出不良视频的检测结果;
步骤二中所述改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1×1卷积策略代替全连接层,具体过程如下:
首先,利用YOLOv3模型获取视频帧的图像特征表示,YOLOv3一共有53层,该53层的结构命名为darknet-53,其中包括52层的卷积层和一层的全连接层,卷积层全都使用全卷积结构,由1×1卷积和3×3卷积构成一个Residual单元;YOLOv3模型包括若干的DBL组件和resN组件,resN组件中包含DBL组件结构,DBL组件的基本组成包括卷积层、DB层以及Leaky RELU激活函数层;resN组件是YOLOv3模型darknet-53核心结构的最大组件,N代表的是res这个块结构中包含几个res单元结构,resN组件包含res1、res2、res8、res8以及res4单元,此结构具有更深的层次,可以更加有效的提取不良视频帧的深层特征,首先,将大小为M1×M2的不良视频帧作为输入,输入到YOLOv3模型中,调整输入为256×256的维度;输入的视频帧的尺寸为416×416,则可得到3个特征尺度,分别是13×13,26×26,还有52×52,因此根据K-means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框;
其次,添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征,在YOLOv3模型之前添加多头自注意力层,注意力层不改变输出向量的维度,将大小为M1×M2,通道数为Tin的视频帧图像平铺为一维输入
Figure FDA0003915717740000021
根据单层注意力的计算公式,定义查询向量Q,键向量K,值向量V,如公式(1)~(3)所示:
Q=XWq (1)
K=XWk (2)
V=XWv (3)
其中,Wq
Figure FDA0003915717740000022
attention机制将投影到不同子空间的特征信息分配给值向量V;
多头注意力的实质则为多个单层注意力层的叠加,定义注意力的头数为H,输出的注意力得分Sh,将权重矩阵与多头注意力得分进行融合可得到融合视频帧上下文特征的融合向量Wo,如公式(4)所示:
MHA(Q,K,V)=[S1,...,Sh]Wo (4)
其中,
Figure FDA0003915717740000023
在输入YOLOv3模型之前,也就是卷积操作之前进行注意力的增强,有助于在最原始的输入帧进行增强,效果更好,将得到的不良视频帧的增强向量表示作为输入,输入到YOLOv3模型的darknet-53核心结构中,进行训练;
最后,YOLOv3模型的全连接层改成用1×1卷积来替代,传统的全连接层将各个卷积图得到的特征进行线性拼接得到一个独立的特征,之后输入传统的softmax分类器中可以得到相应的类别,但是YOLOv3模型有52层,模型结构错综复杂,全连接层拼接不良视频帧的图像特征时会将图像的空间结构破坏掉,使得其空间结构布局完整,而且还会固定限制输入视频帧的大小,有失灵活性,因此将全连接层替换成为1×1卷积层,不但可以保留完整的图像特征不再限制输入帧的大小,而且1×1卷积常用以降维以降低模型的复杂度,加速模型的收敛,最终得到增强的不良视频帧图像的深层特征。
2.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法,其特征在于,步骤一中所述利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为实验数据集,具体过程如下:
首先,对数据集进行预处理;数据集Hockey Fight里包含不良视频500个,非不良视频500个,其中不良视频中包含的不良行为均为肢体接触冲突,数据集的每个不良视频大小为41帧,25fps帧率,360×288的分辨率;数据集Mediaeval2015包含不良视频502个,非不良视频10398个,其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为;自行获取的视频大多是公共场所的监控视频的不良行为片段,利用LabelImage工具对视频帧进行人工标注;
其次,对数据集进行扩充;由于不良视频样本数远小于非不良视频样本数,数据集存在正反例不均衡的现状;因此,将不良视频样本进行正放,倒放,镜像处理,进而将数据集进行扩充;
最后,进行数据集划分;将三种数据集进行融合,最终融合数据集包含不良视频样本2000个,并且从非不良视频样本中取2000个样本作为反例;按照7:3的比例将数据集划分为训练集和测试集,训练集包含2800个视频,测试集包含1200个视频样本。
3.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法,其特征在于,利用步骤三改进卷积长短时记忆模型进行不良视频的不良行为检测方法,将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为输入,利用双向卷积长短时记忆模型来获得双向综合全面的深层隐藏时序特征及空间特征,利用Global平均池化策略替代全连接层进行不良视频的检测分类,避免参数过多模型复杂造成的过拟合现象;具体的实现过程如下:
首先,利用双向卷积长短时记忆模型提取全方位深层时空特征,传统的LSTM模型会忽略对空间特征的处理,单向的改进卷积长短时记忆模型,只能够提取单向的时序和空间特征,为了同时获取正向和反向的时空特征,改进成为双向卷积长短时记忆Bi改进卷积长短时记忆模型,可以同时获得下一个时刻与当前时刻的状态依赖和上一个时刻与当前时刻的状态依赖,进而可以获取到双向的综合全面的深层隐藏时序特征和空间特征;
将改进YOLOv3模型进行不良视频帧的特征提取方法提取到的图像特征作为Bi改进卷积长短时记忆模型的输入特征,记为A1,…,At,代表使用多头注意力模型进行权重分配与增强的特征表示,则Bi改进卷积长短时记忆模型的工作原理则如公式(5)~(9)所示:
Figure FDA0003915717740000031
Figure FDA0003915717740000032
Figure FDA0003915717740000033
Figure FDA0003915717740000035
Figure FDA0003915717740000034
其中,At为输入,Ct为细胞输出,Ht为隐层特征,it,ft,Ot为记忆模块的三个门,tanh是非线性函数,*表示卷积操作,
Figure FDA0003915717740000041
表示矩阵元素相乘计算;
其次,使用Global平均池化层代替全连接层做不良视频检测的分类器,改进后的Bi改进卷积长短时记忆模型虽然可以提取双向的隐层特征,但是在最后的特征连接的时候依旧使用全连接层进行拼接,将会破坏特征的空间结构,还会使得模型的计算更加的复杂,参数过多会导致过拟合现象,因此,利用全局平均池化层来替换全连接层;
传统分类任务在提取到深层隐层特征后,将卷积操作的每个特征图生成的特征进行拼接,然后输入到softmax分类器中进行分类,这样的分类任务是分成两步走的,而替换为全局平均池化层之后,直接省去了特征的拼接步骤,避免了特征的空间结构遭到破坏,直接进行分类操作,更不需要大量的参数计算,降低了模型的复杂度,提高了模型的稳定性;卷积层输出的是M1×D×M2的维的特征图,M1为特征图的高,M2为特征图的宽,M1=M2=D=3,则卷积层输出的是3×3×3的三维特征,利用全局平均池化层将每一层的M1×M2取平均,则输出的是1×1×3的值,降低了模型复杂度,使得不良视频检测的二分类任务的置信度更高。
4.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法,其特征在于,利用步骤四融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法,构成YOLOv3-MHA-Bi改进卷积长短时记忆模型,具体步骤如下:将预处理的视频帧图像输入到YOLOv3-MHA-Bi改进卷积长短时记忆模型中,通过YOLOv3-MHA模型得到增强关注特征的视频帧的图像特征,将改特征输入到Bi改进卷积长短时记忆模型中得到双向综合全面的深层隐藏特征,输入全局平均池化层进行分类,最终输出不良视频的检测结果。
CN202210971238.3A 2022-08-15 2022-08-15 一种改进YOLOv3和BiConvLSTM的不良视频检测方法 Active CN115049969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210971238.3A CN115049969B (zh) 2022-08-15 2022-08-15 一种改进YOLOv3和BiConvLSTM的不良视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210971238.3A CN115049969B (zh) 2022-08-15 2022-08-15 一种改进YOLOv3和BiConvLSTM的不良视频检测方法

Publications (2)

Publication Number Publication Date
CN115049969A CN115049969A (zh) 2022-09-13
CN115049969B true CN115049969B (zh) 2022-12-13

Family

ID=83167229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210971238.3A Active CN115049969B (zh) 2022-08-15 2022-08-15 一种改进YOLOv3和BiConvLSTM的不良视频检测方法

Country Status (1)

Country Link
CN (1) CN115049969B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758282A (zh) * 2022-04-28 2022-07-15 杭州电子科技大学 基于时序校正卷积的视频预测方法
CN114841968A (zh) * 2022-05-07 2022-08-02 黑龙江大学 一种基于YOLOv5的疲劳状态检测方法
CN114882585A (zh) * 2022-04-15 2022-08-09 陕西科技大学 基于双流网络的人体姿态估计方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985317B (zh) * 2018-05-25 2022-03-01 西安电子科技大学 一种基于可分离卷积和注意力机制的图像分类方法
US11275925B2 (en) * 2019-04-16 2022-03-15 Scylla Technologies Inc. Violence detection system
CN110633610B (zh) * 2019-05-17 2022-03-25 西南交通大学 一种基于yolo的学员状态检测方法
CN110852383B (zh) * 2019-11-12 2022-06-14 复旦大学 基于注意力机制深度学习网络的目标检测方法及装置
CN111062297B (zh) * 2019-12-11 2023-05-23 青岛科技大学 基于eann深度学习模型的暴力异常行为检测方法
CN111242183A (zh) * 2020-01-03 2020-06-05 北京交通大学 基于注意力机制的图像识别分类方法及装置
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN111475674A (zh) * 2020-04-22 2020-07-31 深圳市艾伯信息科技有限公司 用于暴力行为检测的深度学习模型训练数据集构造方法及系统
CN111312367A (zh) * 2020-05-11 2020-06-19 成都派沃智通科技有限公司 一种基于自适应云管理平台的校园人员异常心理预测方法
CN111428699B (zh) * 2020-06-10 2020-09-22 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统
CN111950467B (zh) * 2020-08-14 2021-06-25 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN112149504B (zh) * 2020-08-21 2024-03-26 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
CN112036379A (zh) * 2020-11-03 2020-12-04 成都考拉悠然科技有限公司 基于注意力时间池化图卷积的骨架动作识别方法
CN112488013B (zh) * 2020-12-04 2022-09-02 重庆邮电大学 基于时序不一致性的深度伪造视频检测方法及系统
CN113191182A (zh) * 2021-03-01 2021-07-30 哈尔滨理工大学 一种基于深度学习的暴力异常行为检测方法
CN112836676B (zh) * 2021-03-01 2022-11-01 创新奇智(北京)科技有限公司 一种异常行为检测方法、装置、电子设备及存储介质
CN114529462A (zh) * 2022-01-11 2022-05-24 重庆邮电大学 一种基于改进YOLO V3-Tiny的毫米波图像目标检测方法及系统
CN114743138A (zh) * 2022-04-01 2022-07-12 安徽建筑大学 基于3D SE-Densenet网络的视频暴力行为识别模型
CN114694080A (zh) * 2022-04-20 2022-07-01 河海大学 一种监控暴力行为检测方法、系统、装置及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882585A (zh) * 2022-04-15 2022-08-09 陕西科技大学 基于双流网络的人体姿态估计方法
CN114758282A (zh) * 2022-04-28 2022-07-15 杭州电子科技大学 基于时序校正卷积的视频预测方法
CN114841968A (zh) * 2022-05-07 2022-08-02 黑龙江大学 一种基于YOLOv5的疲劳状态检测方法

Also Published As

Publication number Publication date
CN115049969A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
US20210326597A1 (en) Video processing method and apparatus, and electronic device and storage medium
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN110852347B (zh) 采用改进YOLO v3的火灾检测方法
WO2022184117A1 (zh) 基于深度学习的视频剪辑方法、相关设备及存储介质
Kumar et al. An object detection technique for blind people in real-time using deep neural network
CN111797771B (zh) 一种基于迭代学习的弱监督视频行为检测方法及系统
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112307982B (zh) 基于交错增强注意力网络的人体行为识别方法
CN111460980A (zh) 基于多语义特征融合的小目标行人的多尺度检测方法
Sinha et al. Identity-preserving realistic talking face generation
WO2021243947A1 (zh) 对象再识别方法及装置、终端和存储介质
CN112149642A (zh) 一种文本图像识别方法和装置
CN111539445B (zh) 一种半监督特征融合的对象分类方法及系统
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN113297387B (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN114339362A (zh) 视频弹幕匹配方法、装置、计算机设备和存储介质
CN115049969B (zh) 一种改进YOLOv3和BiConvLSTM的不良视频检测方法
CN113572981A (zh) 视频配乐方法及装置、电子设备、存储介质
CN115965810A (zh) 一种基于多模态一致性的短视频谣言检测方法
CN110070018A (zh) 一种结合深度学习的地震灾害场景识别方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN114979801A (zh) 基于双向卷积长短期记忆网络的动态视频摘要算法及系统
CN113158735A (zh) 一种基于图神经网络的密集事件描述方法
CN114022938A (zh) 视素识别的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant