CN111259874B - 一种基于深度学习的校园安全视频监测方法 - Google Patents

一种基于深度学习的校园安全视频监测方法 Download PDF

Info

Publication number
CN111259874B
CN111259874B CN202010369796.3A CN202010369796A CN111259874B CN 111259874 B CN111259874 B CN 111259874B CN 202010369796 A CN202010369796 A CN 202010369796A CN 111259874 B CN111259874 B CN 111259874B
Authority
CN
China
Prior art keywords
feature
sample
action
feature maps
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010369796.3A
Other languages
English (en)
Other versions
CN111259874A (zh
Inventor
黄希
聂贻俊
刘翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Paiwo Zhitong Technology Co ltd
Original Assignee
Chengdu Paiwo Zhitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Paiwo Zhitong Technology Co ltd filed Critical Chengdu Paiwo Zhitong Technology Co ltd
Priority to CN202010369796.3A priority Critical patent/CN111259874B/zh
Publication of CN111259874A publication Critical patent/CN111259874A/zh
Application granted granted Critical
Publication of CN111259874B publication Critical patent/CN111259874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的校园安全视频监测方法,对用于视频识别的动作类别进行样本增强,从而得到更加丰富且均衡的样本,然后通过将2D与3D融合的方式实现了低消耗的情况下进行长时间的视频实时动作识别,同时事先提取出时域特征和空域特征中相关联的互补信息并融合回时域特征和空域特征中,实现了更加精准的训练。综上所述,本发明通过上述操作做到了低消耗下的长时间视频实时识别预警的同时,还通过丰富样本库和对提取的特征进行互补,实现了报警识别的更加精准。

Description

一种基于深度学习的校园安全视频监测方法
技术领域
本发明属于机器学习领域,具体地说,涉及一种基于深度学习的校园安全视频监测方法。
背景技术
安全一直是社会讨论的热点话题,尤其是校园安全,更是重中之重,孩子是世界的未来,更加需要社会用更多的精力去呵护。校园是学生的聚集之地,人员密集,对于中学及其以下的孩子来说,处于身体发育期,不够强壮,不能很好地保护自身;而对于高等院校来说,高等院校是一个较为开放的环境,除了学生以外,还会有更多社会人士的出入,由于没有实行封闭管理,更容易出现一些危险的事故。
现有的监控多为保安对着监控器进行探查,但人力有时尽,无法做到同一时间对所有的视频区域都做到关注,且人的精力有限无法做到24小时全神贯注到所有的视频内容,并进行判断;监控的作用,多数情况都是严重事故已经发生了,当事人或有关部门对于事发时的视频进行调取,来证明事故的发生,而非使用监控作为一个实时的事故警报。
而现有技术在此之上通过使用深度学习进行视频的异常动作识别的技术基于规则实现,需要在监控中画辅助线、当画面中有人进入指定区域,达到相关规则触发报警,或者说检测到单张画面有规定物品如火焰、烟雾等,才触发报警。对于纯3D的卷积网络,开销极大,无法做到长时间的信息识别。同时现有技术中对于视频动作类别的识别方法,都将时域特征和空域特征分开进行提取,然后在后端进行特征的融合,这样在样本中时域特征与空域特征中相关联的关键信息则在处理中被忽略掉了。且在深度学习中,因现有的图片样本非常丰富,而视频样本量远远少于图片样本量,对于视频中的动作类别进行训练识别的样本则更加匮乏,这对于实际训练的识别精度会有很大影响。
发明内容
本发明针对现有技术3D卷积网络对视频进行深度学习开销极大,不适用与实时视频监控的问题,提出了一种基于深度学习的校园安全视频监测方法,通过2D融合3D深度卷积网络,解决了纯粹3D卷积网络开销大的问题,且把2D的特征通过3D网络融合起来,不需要将视频保存后再分析,实现了在线实时监测。
本发明具体实现内容如下:
一种基于深度学习的校园安全视频监测方法,首先训练预训练模型,然后进行校园监控视频特征提取,最后进行异常分类打分;所述校园监控视频特征提取的具体步骤为:
步骤S1、以16帧为一组,将一段连续的监控视频分为多组小片段;
步骤S2、对每一组小片段中的16帧图像按照间隔1帧的原则进行采样得到8张采样图像,并将8张采样图像送入2D卷积网络进行预测处理,得到8张2D特征图;
步骤S3、将每8张2D特征图作为一组特征图进行保存,当收集满5组特征图时,按照1:1:2:4:8的比例,从5组特征图中进行随机采样,从5组特征图中,最先获得的两组特征图中各随机采样1张特征图,从第三个获得的一组特征图中随机抽样2张特征图,从第四个获得的一组特征图中随机抽样4张特征图,从最新获得的一组特征图中采样全部8张特征图;
步骤S4、将所述步骤S3中从五组特征图中采样获得的共16张特征图送入3D卷积网络进行异常分类打分;
步骤S5、将采样后的五组特征图丢弃,继续提取后续视频进行上述步骤S1-步骤S4的处理。
为了更好地实现本发明,进一步地,所述异常分类打分的具体操作为:
步骤SA、对送入3D卷积网络的16张特征图进行时域序列特征和空域序列特征的提取;
步骤SB、将提取后的时域序列特征和空域序列特征进行信息交互,得到时域序列特征和空域序列特征的互补信息;
步骤SC、将互补信息分别与时域序列特征和空域序列特征进行互补,得到互补后的时域序列特征和互补后的空域序列特征;
步骤SD、将互补后的时域特征和互补后的空域特征进行序列特征聚合,得到时域特征和空域特征。
为了更好地实现本发明,进一步地,将时域特征和空域特征同时进行正则化处理,再输入共享权值层,从而提取出时域特征分数和空域特征分数;然后将时域特征分数和空域特征分数进行融合,得到用于预测监控视频中动作类别的预测时空特征分类分数向量。
为了更好地实现本发明,进一步地,所述训练预训练模型的具体步骤为:
步骤Sa、先使用包含多种动作类别id的数据集进行第一次模型训练,并为每个动作类别id确定类中心;
步骤Sb、然后设定相似阈值t,筛选出数据集中每个动作类别id中与类中心相似度大于相似阈值t的样本;
步骤Sc、对筛选出的与类中心相似度大于相似阈值t的样本进行样本增强,所述样本增强包括投影变换、明暗调节、色彩变换;所述样本增强的力度根据实际情况调节;
步骤Sd、对进行了样本增强后的样本图片与对应的样本类中心进行比较,选出相似度在(a,b)区间范围内的增强后的样本,并使用选出的样本进行第二次模型训练,并将第二次训练后的模型用于后续异常操作。
为了更好地实现本发明,进一步地,在选出与类中心的相似度在(a,b)区间范围内的增强后的样本后,还要生成一项用于抽样的抽样序列,所述抽样序列的元素为各动作类别id的id序号;每个id序号在所述抽样序列中出现的次数为h,所述次数h为可变值,根据实际需要的样本数量及数据集的样本大小进行调节。
为了更好地实现本发明,进一步地,所述第二次模型训练时同样生成时域特征和空域特征,并计算出交叉熵损失函数L1、异构三连体对损失函数L2、判别嵌入限制损失函数L3,将三个函数结合为第二次模型训练的损失函数L进行模型训练,得到各动作类别id的类别索引。
为了更好地实现本发明,进一步地,将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序,值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。
为了更好地实现本发明,进一步地,事先设置报警动作类别,将实际的监控视频识别中每一个识别出的动作类别都送入缓存队列进行时间先后排序,对排序后的动作类别进行判断,当判断为报警动作类别时,将被判断为报警动作类别的样本进行保存,并进行报警推送。
为了更好地实现本发明,进一步地,设置阈值K,当识别为报警动作后,若在缓冲队列后续K个动作类别中再次出现了判断为报警动作识别的,将再次判断为报警动作类别的样本与前一次被判断为报警动作类别的样本进行识别,若两组样本的相似度高于或等于U,则继续判断后序的动作类别,若相似度低于U,则将再次判断为报警动作类别的样本进行保存,并再次进行报警推送。
为了更好地实现本发明,进一步地,对于保存的判断为报警动作识别的样本,在样本图片上使用圈选框将样本上对应的报警动作位置圈选出来。
本发明与现有技术相比具有以下优点及有益效果:
(1)采用2D与3D融合的方式,解决了纯3D卷积网络开销大,难以进行长时间的实时视频异常监控警报的问题;
(2)通过第一次模型训练和第二次模型训练,增强了样本的丰富度,解决了视频的动作类别样本库少的问题;
(3)通过事先提取时域特征和空域特征中的相关联的互补信息,相对提高了识别的精度。
附图说明
图1为训练模型的具体流程图;
图2为特征提取的具体流程图;
图3为视频动作类别异常打分的具体流程图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1:
本发明提供了一种基于深度学习的校园安全视频监测方法,首先需要训练模型,然后进行校园监控视频特征提取,最后进行异常分类打分;
如图1所示,所述训练模型的具体步骤为:
步骤Sa、先使用包含多种动作类别id的数据集进行第一次模型训练,并为每个动作类别id确定类中心;
步骤Sb、然后设定相似阈值t,筛选出数据集中每个动作类别id中与类中心相似度大于相似阈值t的样本;
步骤Sc、对筛选出的与类中心相似度大于相似阈值t的样本进行样本增强,所述样本增强包括投影变换、明暗调节、色彩变换;所述样本增强的力度根据实际情况调节;
步骤Sd、对进行了样本增强后的样本图片与对应的样本类中心进行比较,选出相似度在(a,b)区间范围内的增强后的样本,并使用选出的样本进行第二次模型训练,并将第二次训练后的模型用于后续异常操作;
在选出与类中心的相似度在(a,b)区间范围内的增强后的样本后,还要生成一项用于抽样的抽样序列,所述抽样序列的元素为各动作类别id的id序号;每个id序号在所述抽样序列中出现的次数为h,所述次数h为可变值,根据实际需要的样本数量及数据集的样本大小进行调节。
工作原理:首先通过第一次模型训练,可以确定每一个动作类别id的类中心,筛选出样本中与动作类别id的类中心相似度高于相似阈值t的样本;其中,t为可调值,t值越高,筛选出的样本相似度越高,但样本数量越低,故在不同的需求下可对相似阈值t进行适应性调节。在通过类中心筛选出与类中心相似度较高的样本后,对筛选出的样本进行样本增强,如增加或减少饱和度、调节样本亮度、调节样本对比度、通过仿射变换模拟运动模糊、随机噪声点、随机滤波、投影变换、色彩变换等操作;因为进行样本增强的样本都是与类中心相似度高于相似阈值t的,故进行样本增强后,会得到许多与类中心相似,但各自不完全一样样本,从而达到保证了原样本特征的情况下增加样本库的作用,对样本进行样本增强如增加或减少饱和度、调节样本亮度、调节样本对比度、通过仿射变换模拟运动模糊、随机噪声点、随机滤波、投影变换、色彩变换等操作,可以使得数据集很大的丰富,如原本的数据集中可能只有一个光线较暗的下午进行抢劫的,画面偏向右倾斜角度的暴力监控图片,经过样本增强后可以得到向左倾斜角度的、光线较亮就像是在中午的、光线更加暗就像是在傍晚的、画面比例改变原本是瘦子变成了较胖的人、镜像转换后的等等;进一步地,每个动作类别id都有独属于自己的id序号,生成一个抽样序列,在抽样序列给每一个动作类别id设置m个id序号,然后使用抽样序列进行抽取,若抽到了某个id序号,则对对应的动作类别id进行一次随机抽样,因为每个Id序号在抽样序列中出现的次数相等,从而确保了采样的均衡性,很大程度上避免了因为有的动作类别数据庞大而有的动作类别数据少,从而造成了训练的失衡。设置相似区间(a,b)的作用是将经过样本增强后的样本中严重失真的样本挑选出来,避免过度失真的样本对训练造成负面影响,其中x小于y,且x,y的值同样根据数据库的样本多少进行适应性调整,但根据多次实验,原则上,x的值不小于0.35,y的值不大于0.65,超过这个相似区间以后的样本与类中心的相似度不高,对于训练基本没有增强的意义。
实施例2:
本实施例在上述实施例1的基础上,为了更好地实现本发明,进一步地,如图2所示,所述校园监控视频特征提取的具体步骤为:
步骤S1、以16帧为一组,将一段连续的监控视频分为多组小片段;
步骤S2、对每一组小片段中的16帧图像按照间隔1帧的原则进行采样得到8张采样图像,并将8张采样图像送入2D卷积网络进行预测处理,得到8张2D特征图;
步骤S3、将每8张2D特征图作为一组特征图进行保存,当收集满5组特征图时,按照1:1:2:4:8的比例,从5组特征图中进行随机采样,从5组特征图中,最先获得的两组特征图中各随机采样1张特征图,从第三个获得的一组特征图中随机抽样2张特征图,从第四个获得的一组特征图中随机抽样4张特征图,从最新获得的一组特征图中采样全部8张特征图;
步骤S4、将所述步骤S3中从五组特征图中采样获得的共16张特征图送入3D卷积网络进行异常分类打分;
步骤S5、将采样后的五组特征图丢弃,继续提取后续视频进行上述步骤S1-步骤S4的处理。
工作原理:通过上述操作可以实现2D与3D的融合,从而在实现长时间的视频动作异常监控的同时,减少了数据的处理量和存储量,做到了实时的异常监控,可以对异常的动作或者异常的事故进行实时报警,如打架斗殴、抢劫、火灾烟雾等。同时对每次收集到的5组特征图进行1:1:2:4:8的采样,可以弱化时间久一点的样本的影响,增强时间近一点的样本的影响,使得预测更加精准。
本实施例的其他部分与上述实施例1相同,故不再赘述。
实施例3:
本实施例在上述实施例1-2任一项的基础上,为了更好地实现本发明,进一步地,如图3所示,所述异常分类打分的具体操作为:
步骤SA、对送入3D卷积网络的16张特征图进行时域序列特征和空域序列特征的提取;
步骤SB、将提取后的时域序列特征和空域序列特征进行信息交互,得到时域序列特征和空域序列特征的互补信息;
步骤SC、将互补信息分别与时域序列特征和空域序列特征进行融合,得到融合后的时域序列特征和融合后的空域序列特征;
步骤SD、将融合后的时域序列特征和融合后的空域序列特征进行序列特征聚合,得到时域特征和空域特征。
工作原理:将从视频帧中提取出的空域序列特征和从视频光流场中提取出的时域序列特征进行融合,具体公式为:
Figure DEST_PATH_IMAGE001
式中,
Figure DEST_PATH_IMAGE002
为度量变量相似性的函数,函数具体表达为
Figure DEST_PATH_IMAGE003
其中
Figure DEST_PATH_IMAGE004
,而
Figure DEST_PATH_IMAGE005
为需要学习的函数;Y为时空域特征的异构相关性矩阵,尺寸大小为一个行列数等于视频采样数的矩阵;
根据步骤一得到的异构相关性矩阵Y,从通过融合的空域序列特征和时域序列特征中分离出互补的时域序列特征和互补的空域序列特征,并将分离出的互补的时域序列特征和互补的空域序列特征分别融合回空域序列特征
Figure 710125DEST_PATH_IMAGE006
和时域序列特征
Figure DEST_PATH_IMAGE007
中得到融合后的时域序列特征和融合后的空域序列特征,具体公式为:
Figure 564949DEST_PATH_IMAGE008
式中,
Figure DEST_PATH_IMAGE009
为空域和时域分离互补特征的交互函数,分别为
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
为需要学习的参数,
Figure DEST_PATH_IMAGE012
为融合后的时域序列特征;
Figure DEST_PATH_IMAGE013
为融合后的空域序列特征;所述融合后的空域序列特征,表达式为
Figure DEST_PATH_IMAGE014
,所述融合后的时域序列特征,表达式为
Figure DEST_PATH_IMAGE015
所述融合后的空域序列特征被聚合为空域特征
Figure 466390DEST_PATH_IMAGE016
,所述融合后的时域序列特征被聚合为时域特征
Figure DEST_PATH_IMAGE017
本实施例的其他部分与上述实施例1-2任一项相同,故不再赘述。
实施例4:
本发明在上述实施例1-3任一项的基础上,为了更好地实现本发明,进一步地,所述第二次模型训练时同样生成时域特征和空域特征,并计算出交叉熵损失函数L1、异构三连体对损失函数L2、判别嵌入限制损失函数L3,将三个函数结合为第二次模型训练的损失函数L进行模型训练,得到各动作类别id的类别索引。将时域特征和空域特征同时进行正则化处理,再输入共享权值层,从而提取出时域特征分数和空域特征分数;然后将时域特征分数和空域特征分数进行融合,得到用于预测监控视频中动作类别的预测时空特征分类分数向量。将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序,值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。
工作原理:选取样本集进行预训练,训练一个分类器模型,引入交叉熵损失函数、异构三联体对损失函数、判别嵌入限制损失函数的结合函数作为训练的损失函数可以使得预训练得到的分类器模型更加的真实可靠,分类更加聚合。
所述共享权值层还将输入的时域特征
Figure 986233DEST_PATH_IMAGE018
和空域特征
Figure DEST_PATH_IMAGE019
分别构造出空域特征的异构三联体对和时域特征的异构三联体对;所述空域特征的异构三联体对表达式为
Figure DEST_PATH_IMAGE020
,时域特征的异构三联体对表达式为
Figure DEST_PATH_IMAGE021
,其中下标a、p、n分别表示锚点、正例点、和负例点,i和j表示样本对动作类别索引;所述异构三联体对损失函数具体为:
Figure 987556DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示三联对的损失值;
Figure DEST_PATH_IMAGE024
表示2范数距离度量;如果x大于0,则
Figure DEST_PATH_IMAGE025
,如果x小于等于0,则
Figure DEST_PATH_IMAGE026
为阈值;
同时还求出空域特征的类中心和时域特征的类中心;所述空域特征的类中心表达式为
Figure DEST_PATH_IMAGE027
,时域特征的类中心表达式为
Figure DEST_PATH_IMAGE028
,其中
Figure DEST_PATH_IMAGE029
为表类标签,
Figure DEST_PATH_IMAGE030
为第i个样本的标签,
Figure 872335DEST_PATH_IMAGE031
为指示函数;所述判别嵌入限制损失函数具体为:
Figure DEST_PATH_IMAGE032
式中,
Figure 139369DEST_PATH_IMAGE033
表示判别嵌入的损失值,
Figure DEST_PATH_IMAGE034
为阈值;
所述交叉熵损失函数表达式为:
Figure DEST_PATH_IMAGE035
式中,
Figure DEST_PATH_IMAGE036
表示交叉熵损失值,
Figure DEST_PATH_IMAGE037
表示第i个样本输出后真实的类别索引对应的最大时空特征分类分数,
Figure DEST_PATH_IMAGE038
表示第i个样本输出到j类时的预测的时空特征分类分数中最大值的分数;通过本损失函数,可以使真实分类类别的特征更加突出聚合;
所述对整个网络进行训练的损失函数表达式为:
Figure DEST_PATH_IMAGE039
此处由经验可得:
Figure DEST_PATH_IMAGE040
本实施例的其他部分与上述实施例1-3任一项相同,故不再赘述。
实施例5:
本发明在上述实施例1-4任一项的基础上,为了更好地实现本发明,进一步地,将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序,值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。
为了更好地实现本发明,进一步地,事先设置报警动作类别,将实际的监控视频识别中每一个识别出的动作类别都送入缓存队列进行时间先后排序,对排序后的动作类别进行判断,当判断为报警动作类别时,将被判断为报警动作类别的样本进行保存,并进行报警推送;
同时设置阈值K,当识别为报警动作后,若在缓冲队列后续K个动作类别中再次出现了判断为报警动作识别的,将再次判断为报警动作类别的样本与前一次被判断为报警动作类别的样本进行识别,若两组样本的相似度高于或等于U,则继续判断后序的动作类别,若相似度低于U,则将再次判断为报警动作类别的样本进行保存,并再次进行报警推送;
对于保存的判断为报警动作识别的样本,在样本图片上使用圈选框将样本上对应的报警动作位置圈选出来。
本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的校园安全视频监测方法,首先训练预训练模型,然后进行校园监控视频特征提取,最后进行异常分类打分,其特征在于,所述校园监控视频特征提取的具体步骤为:
步骤S1、以16帧为一组,将一段连续的监控视频分为多组小片段;
步骤S2、对每一组小片段中的16帧图像按照间隔1帧的原则进行采样得到8张采样图像,并将8张采样图像送入2D卷积网络进行预测处理,得到8张2D特征图;
步骤S3、将每8张2D特征图作为一组特征图进行保存,当收集满5组特征图时,按照1:1:2:4:8的比例,从5组特征图中进行随机采样,从5组特征图中,最先获得的两组特征图中各随机采样1张特征图,从第三个获得的一组特征图中随机抽样2张特征图,从第四个获得的一组特征图中随机抽样4张特征图,从最新获得的一组特征图中采样全部8张特征图;
步骤S4、将所述步骤S3中从五组特征图中采样获得的共16张特征图送入3D卷积网络进行异常分类打分;
步骤S5、将采样后的五组特征图丢弃,继续提取后续视频进行上述步骤S1-步骤S4的处理。
2.如权利要求1所述的一种基于深度学习的校园安全视频监测方法,其特征在于,所述异常分类打分的具体操作为:
步骤SA、对送入3D卷积网络的16张特征图进行时域序列特征和空域序列特征的提取;
步骤SB、将提取后的时域序列特征和空域序列特征进行信息交互,得到时域序列特征和空域序列特征的互补信息;
步骤SC、将互补信息分别与时域序列特征和空域序列特征进行互补,得到互补后的时域序列特征和互补后的空域序列特征;
步骤SD、将互补后的时域特征和互补后的空域特征进行序列特征聚合,得到时域特征和空域特征。
3.如权利要求2所述的一种基于深度学习的校园安全视频监测方法,其特征在于,将时域特征和空域特征同时进行正则化处理,再输入共享权值层,从而提取出时域特征分数和空域特征分数;然后将时域特征分数和空域特征分数进行融合,得到用于预测监控视频中动作类别的预测时空特征分类分数向量。
4.如权利要求3所述的一种基于深度学习的校园安全视频监测方法,其特征在于,所述训练预训练模型的具体步骤为:
步骤Sa、先使用包含多种动作类别id的数据集进行第一次模型训练,并为每个动作类别id确定类中心;
步骤Sb、然后设定相似阈值t,筛选出数据集中每个动作类别id中与类中心相似度大于相似阈值t的样本;
步骤Sc、对筛选出的与类中心相似度大于相似阈值t的样本进行样本增强,所述样本增强包括投影变换、明暗调节、色彩变换;所述样本增强的力度根据实际情况调节;
步骤Sd、对进行了样本增强后的样本图片与对应的样本类中心进行比较,选出相似度在(a,b)区间范围内的增强后的样本,并使用选出的样本进行第二次模型训练,并将第二次训练后的模型用于后续异常操作。
5.如权利要求4所述的一种基于深度学习的校园安全视频监测方法,其特征在于,在选出与类中心的相似度在(a,b)区间范围内的增强后的样本后,还要生成一项用于抽样的抽样序列,所述抽样序列的元素为各动作类别id的id序号;每个id序号在所述抽样序列中出现的次数为h,所述次数h为可变值,根据实际需要的样本数量及数据集的样本大小进行调节。
6.如权利要求4或5任一项所述的一种基于深度学习的校园安全视频监测方法,其特征在于,所述第二次模型训练时同样生成时域特征和空域特征,并计算出交叉熵损失函数L1、异构三连体对损失函数L2、判别嵌入限制损失函数L3,将三个函数结合为第二次模型训练的损失函数L进行模型训练,得到各动作类别id的类别索引。
7.如权利要求6所述的一种基于深度学习的校园安全视频监测方法,其特征在于,将生成的预测时空特征分类分数向量按照从大到小的顺序进行排序,值最大的预测时空特征分类分数向量对应的类别索引即代表了监控视频中的动作类别。
8.如权利要求7所述的一种基于深度学习的校园安全视频监测方法,其特征在于,事先设置报警动作类别,将实际的监控视频识别中每一个识别出的动作类别都送入缓存队列进行时间先后排序,对排序后的动作类别进行判断,当判断为报警动作类别时,将被判断为报警动作类别的样本进行保存,并进行报警推送。
9.如权利要求8所述的一种基于深度学习的校园安全视频监测方法,其特征在于,设置阈值K,当识别为报警动作后,若在缓冲队列后续K个动作类别中再次出现了判断为报警动作识别的,将再次判断为报警动作类别的样本与前一次被判断为报警动作类别的样本进行识别,若两组样本的相似度高于或等于U,则继续判断后序的动作类别,若相似度低于U,则将再次判断为报警动作类别的样本进行保存,并再次进行报警推送。
10.如权利要求9所述的一种基于深度学习的校园安全视频监测方法,其特征在于,对于保存的判断为报警动作识别的样本,在样本图片上使用圈选框将样本上对应的报警动作位置圈选出来。
CN202010369796.3A 2020-05-06 2020-05-06 一种基于深度学习的校园安全视频监测方法 Active CN111259874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010369796.3A CN111259874B (zh) 2020-05-06 2020-05-06 一种基于深度学习的校园安全视频监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010369796.3A CN111259874B (zh) 2020-05-06 2020-05-06 一种基于深度学习的校园安全视频监测方法

Publications (2)

Publication Number Publication Date
CN111259874A CN111259874A (zh) 2020-06-09
CN111259874B true CN111259874B (zh) 2020-07-28

Family

ID=70949999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010369796.3A Active CN111259874B (zh) 2020-05-06 2020-05-06 一种基于深度学习的校园安全视频监测方法

Country Status (1)

Country Link
CN (1) CN111259874B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381071A (zh) * 2021-01-11 2021-02-19 深圳市一心视觉科技有限公司 一种视频流中目标的行为分析方法、终端设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110866510A (zh) * 2019-11-21 2020-03-06 山东浪潮人工智能研究院有限公司 一种基于关键帧检测的视频描述系统和方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615019B (zh) * 2018-12-25 2022-05-31 吉林大学 基于时空自动编码器的异常行为检测方法
CN110032926B (zh) * 2019-02-22 2021-05-11 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备
CN110084202B (zh) * 2019-04-29 2023-04-18 东南大学 一种基于高效三维卷积的视频行为识别方法
CN110490078B (zh) * 2019-07-18 2024-05-03 平安科技(深圳)有限公司 监控视频处理方法、装置、计算机设备和存储介质
CN110689066B (zh) * 2019-09-24 2020-06-16 成都考拉悠然科技有限公司 一种人脸识别数据均衡与增强相结合的训练方法
CN110807369B (zh) * 2019-10-09 2024-02-20 南京航空航天大学 基于深度学习和注意力机制的短视频内容智能分类方法
CN110852303A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于OpenPose的吃东西行为识别方法
CN111079594B (zh) * 2019-12-04 2023-06-06 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110866510A (zh) * 2019-11-21 2020-03-06 山东浪潮人工智能研究院有限公司 一种基于关键帧检测的视频描述系统和方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统

Also Published As

Publication number Publication date
CN111259874A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
Aktı et al. Vision-based fight detection from surveillance cameras
Liu et al. Exploring background-bias for anomaly detection in surveillance videos
CN109670446B (zh) 基于线性动态系统和深度网络的异常行为检测方法
CN105868689B (zh) 一种基于级联卷积神经网络的人脸遮挡检测方法
CN107944359B (zh) 基于视频的火焰检测方法
CN108596041B (zh) 一种基于视频的人脸活体检测方法
CN108985192A (zh) 一种基于多任务深度卷积神经网络的视频烟雾识别方法
CN107506800A (zh) 一种基于无监督域适应的无标签视频人脸识别方法
Masurekar et al. Real time object detection using YOLOv3
TWI511058B (zh) 一種影片濃縮之系統及方法
CN111079594B (zh) 一种基于双流协同网络的视频动作分类识别方法
CN105243356B (zh) 一种建立行人检测模型的方法及装置及行人检测方法
KR102149832B1 (ko) 딥러닝 기반의 자동 폭력 감지 시스템
CN105847860A (zh) 一种视频中暴力内容的检测方法及装置
Aslan et al. Deep convolutional generative adversarial networks based flame detection in video
CN108198202A (zh) 一种基于光流和神经网络的视频内容检测方法
CN111259874B (zh) 一种基于深度学习的校园安全视频监测方法
US20130279803A1 (en) Method and system for smoke detection using nonlinear analysis of video
CN116152722A (zh) 基于残差注意力块和自选择学习结合的视频异常检测方法
CN115331135A (zh) 基于多域特征区域标准分数差异的Deepfake视频检测方法
Xu et al. Trajectory is not enough: Hidden following detection
Penet et al. Technicolor and inria/irisa at mediaeval 2011: learning temporal modality integration with bayesian networks
CN109614893B (zh) 基于情境推理的异常行为行踪智能识别方法及装置
Min et al. Online Fall Detection Using Attended Memory Reference Network
Patil et al. Analyze the Presence of Violence and a Particular Event of Violence by Weapon Detection using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant