CN110348312A - 一种区域视频人体动作行为实时识别方法 - Google Patents
一种区域视频人体动作行为实时识别方法 Download PDFInfo
- Publication number
- CN110348312A CN110348312A CN201910513640.5A CN201910513640A CN110348312A CN 110348312 A CN110348312 A CN 110348312A CN 201910513640 A CN201910513640 A CN 201910513640A CN 110348312 A CN110348312 A CN 110348312A
- Authority
- CN
- China
- Prior art keywords
- box
- defaulbox
- frame
- target
- personnel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Abstract
本发明提出了一种区域视频人体动作行为实时识别方法。使用opencv技术读取实时rtsp视频流,获取多帧视频图像,对每帧图像标出检测物体目标的真实边界框及类别作为标签,构建训练数据;将训练数据集输入到多目标检测网络进行训练,以目标损失最小为优化目标,通过使用自适应矩估计优化方法得到优化后超参数,通过以上训练过程就完成了训练后的多目标检测网络模型;将测试视频图像输入训练后的多目标检测网络模型获得检测结果,根据检测结果返回异常信息,由此异常信息触发警报。本发明优点在于,可以准确快速识别并掌握监控设备区域视频内的情况信息(人员入侵、进入、离岗、超时谈话和人员密度),有效实现事前预警、事中处理、事后及时取证的功能。
Description
技术领域
本发明涉及视频监控设备中目标人员检测的技术,涉及一种区域视频人体动作行为实时识别方法。
背景技术
在视频监督领域,准确而快速的对监控视频进行智能分析一直是一个技术难点。视频监督即借助计算机强大的数据处理能力过滤掉视频画面无用的或干扰信息,自动识别并掌握不同人物的动作、行为特性,抽取视频源中关键有用信息,快速准确的定位事故现场,判断监控画面中的异常情况,并以最快和最佳的方式发出警报或触发其它动作,从而有效实现事前预警、事中处理、事后及时取证的功能。与一般的分类问题不同,在视频监督过程中,由于场景的多变,场景中人、事、物的多变,以及视觉任务的多变,导致视频督察的难度相当的大,是一个亟需解决的问题。
视频监督过程中,如果画面中在某一时刻或者某一时间段出现了不符合常理的动作、行为,则判定为该时刻或时间段的工作区域出现问题,这称为全局监督。而在全局监督的基础上,对于同一个画面会同时出现不同事件的情况,不仅监测出是否有异常动作、行为发生,而且粗略计算出事件的位置,称为局部监督。本发明中对人员入侵、超时审讯和人员密度的监督属于全局监督,人员进入和人员离岗则属于局部监督。
视频监督的主要目的是对视频中的画面进行连续的监测,判断监控画面中的异常情况,快速准确的定位不符合规范的动作、行为的位置,并以最快和最佳的方式发出警报。由于需要进行快速准确的提示和预警,因此对算法的计算速度和准确度要求很高。
发明内容
为了解决上述技术问题,本发明提出了一种区域视频人体动作行为实时识别方法。当输入一个视频流时,通过opencv技术将视频流提取成多个视频帧图像,针对输入的视频帧图像获取多尺度特征图,同时在不同的特征图上面进行预测,在不同的特征层的特征图上的每个像素点同时获取6个不同的默认候选框,将其与真实的目标边界框进行匹配。然后将匹配成功的候选框结合起来,通过非极大值抑制算法(NMS)得到最具代表性的结果,以加快目标检测的效率。
本发明提出一种区域视频人体动作行为实时识别方法,可以快速的准确的对视频进行监督,适用于公共场所、公司家庭等多种应用场景,可以根据具体的需求进行相应的调整,其特征在于,包括以下步骤:
步骤1:使用opencv技术读取实时rtsp视频流,获取多帧视频图像,对每帧图像标出检测物体的目标的真实边界框及类别作为标签,以构建训练数据;
步骤2:将训练数据集输入到多目标检测网络模型中进行训练,以目标损失最小为优化目标,通过使用自适应矩估计优化方法得到优化后超参数,通过以上训练过程就完成了训练后的多目标检测网络模型;
步骤3:将测试视频图像输入训练后的多目标检测网络模型获得检测结果,根据检测结果返回异常信息,由此异常信息触发警报;
作为优选,步骤1中所述多帧图像为:
datai,i∈[1,K]
其中,K为视频流中图像帧的数量;
第i帧图像u行v列像素为:
datai(u,v),u∈[1,H],v∈[1,W]
其中,H为一帧图像中行的数量,W为一帧图像中列的数量;
对对每帧图像标出检测物体的目标的真实框及类别具体为:
目标的真实边界框为:truth boxj=[txj,tyj,twj,thj],j∈[1,K]
其中,txj表示第j帧图像中目标物的真实边界框在左上角的像素横坐标,tyj表示第j帧图像中目标物的真实边界框在左上角的像素纵坐标,twj表示第j帧图像中目标物的真实边界框的宽度,thj表示第j帧图像中目标物的真实边界框的高度;
类别为cati:cati∈[1,C],C表示总的类别数量;
步骤1中所述标签为:
labeli={truth boxi,cati},i∈[1,K]
其中,labeli第i帧图像的标签;
步骤1中所述训练数据集为:
train_datai={datai,labeli},i∈[1,k],k<=K,train_datai∈datai
作为优选,步骤2中所述多目标检测网络模型过程可表示为:
Y=F(datai,W)
其中,datai表示输入一帧图像,W表示函数F中的超参数,Y表示网络输出,即输入一帧图像中目标检测物的预测目标框Boxi以及类别Cati,输出结果Y*可具体表示为:
步骤2中所述将训练数据集train_datai输入到多目标检测网络模型中进行训练具体为:
步骤2.1,网络采用VGG16作为基础模型,采用大小分别是(38,38),(19,19),(10,10),(5,5),(3,3),(1,1)的六个不同的卷积核,通过卷积操作提取出不同大小的特征图,即多尺度特征图其中,表示C张H*W大小的特征图片的集合,Xi表示中的第i张特征图片,C由卷积核的参数决定,m每张特征图Xi共有H*W个像素点(u,v),u∈[1,H],v∈[1,W];
步骤2.2,在H*W大小的特征图Xi的每个像素点(u,v)上生成M个固定的边界框即Defalut box,每张特征图共有M*H*W个Defalut box,表示为集合DB,defaulboxi∈DB,表示DB中第i个Default box,i∈[1,M*H*W]
对于每个defaulboxi都需要通过卷积操作预测c个类别分数和4个偏移量即offset,所以这个特征图共有(c+4)*M*H*W个输出;
其中,c*M*H*W是置信度输出,表示每个defaulboxi的置信度,也就是类别的概率,数量4*M*H*W是位置输出,表示每个defaulboxi的坐标(cxi,cyi,wi,hi);
所述defalut box生成规则:
以特征图Xi上每个像素点的中点为中心(offset=0.5),生成大小有六种不同长宽比的defalut box;
所述defalut box的最小边长为:min_size;(对应六种不同大小的卷积核,min_size依次设为30,60,111,162,213,264)
所述defalut box的最大边长为:(对应六种不同大小的卷积核,max_size依次设为60,111,162,213,264,315)
设置一个扩大率ratio,会生成2个长方形,长为:和宽为:
而每个Xi对应defalut box的min_size和max_size由以下公式决定,其中m=6表示六种不同大小的Default box,
使用不同的ratio值,[1,2,3,1/2,1/3],通过下面的公式计算Default box的宽度w和高度h:
步骤2.3,将步骤2.2生成的边界框defaulboxi与真实的边界框truth boxi=[txi,tyi,twi,thi]匹配,符合匹配条件的边界框defaulboxi是有限的;
所述匹配的策略为:
truth box的集合TB,truth boxj∈TB,表示TB中第j个truth box,其中j<K,K是labeli的数量
default box的集合DB,defaulboxi∈DB,表示DB中第i个Default box.i∈[1,M*H*W]
在DB中寻找一个defaulboxi,使其能与TB中truth boxj有最大的IOU值,这样就能保证truth box至少有一个defaulboxi与之匹配;
之后将剩余还没有配对的defaulboxj(i≠j,且j∈[1,M*H*W])与任意一个truthboxi尝试配对,只要两者之间的IOU大于匹配阈值α=0.5,就认为匹配;
配对到truth box的所述defaulboxi就是正样本,没有配对的default box就是负样本;
图片上被标记的各种分类,所述default box和truthbox相互匹配后得到的结果;
通过计算每个defaulboxi和每个truth boxj的交并比IOU,筛选出最大值,就可以知道每个truthbox应该匹配哪个defaulboxi,而对于IOU>α=0.5的defaulboxi则被认为是真正匹配框truth box;
其中,交并比IOU表示的是预测的边界框defaulboxi和真实的边界框truth boxj的交集和并集的比值,即:
步骤2.4,将生成的所有defaulboxi集合起来,通过非极大值抑制模块,输出最终后的defaulboxi的集合,这样每个truth boxi对应的所有的defaulboxi就是最终的检测结果;
所述非极大值抑制的具体实现步骤为:
步骤2.4.1将所有边界框defaulboxi的IOU得分排序,选中IOU得分最高及其对应的defaulboxi;
步骤2.4.2遍历其余的default box,如果和当前IOU得分最高的边界框defaulboxi的重叠面积大于阈值α(α=0.5),就将上一步的defaulboxi删除。
步骤2.4.3从未处理的Default box中继续选一个IOU得分最高的,重复步骤2.4.1以及步骤2.4.2,直至遍历完DB中所有边界框;
步骤2中SSD网络模型的目标损失分为两部分:相应的Default box与目标类别的置信损失confidence loss以及相应的位置回归,具体为:
其中,N是匹配到truth box的defaulboxi的数量,N=0时,损失函数为0,为一个指示参数,当时表示目标第i个的default box与第j个truthbox匹配,并且类别Cati为p,c为置信度,s为目标的检测框defaulboxi的位置预测值[cxi,cyi,cwi,chi],而g是truth boxj的位置参数[txj,tyj,twj,thj],[cxi,cyi,cwi,chi]表示匹配到truth box的default box的坐标中心以及宽与高的数值,α表示两者的权重,设α=1;
优化求解方法:
自适应矩估计Adam是一种不同参数自适应不同学习速率方法,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,改善网络的训练方式,来最小化损失函数;
多目标检测网络模型使用自适应矩估计方法Adam优化损失函数L(x,c,s,g),找到局部最优值使其达到最小;
优化输出结果:
Min(L(x,c,l,g))得到局部最小值,以及这时Y*=F(datai,W*)中的超参数W*;
作为优选,步骤3中所述异常信息包括以下四个方面:
人员入侵:在视频图像中固定入侵区域边界框rbox[rx,ry,rw,rh],判断bbox[rx,ry,rw,rh]与SSD的预测目标框是否重合,若重合则判定为人员入侵;若没有重合,则视为没有人员入侵
进入:在视频图像中固定门的边界框mbox[mx,my,mw,mh],判断mbox[mx,my,mw,mh]与SSD的预测目标框是否重合,若重合则判定为人员进入;若没有重合,则视为没有人员进入;
离岗:在视频图像中固定岗位位置边界框gbox[gx,gy,gw,gh],判断gbox[gx,gy,gw,gh]与SSD的预测目标框是否重合,若没有重合,则判定为人员离岗;若重合,视为人员在岗;
超时谈话:从检测到人员进入门mbox[mx,my,mw,mh]开始计时,判断人员所在时间是否超过设定的某个计时时间,若超过,视为超时谈话;未超过,视为正常情况;
人员密度:检测到类别为人的目标预测框的数目即为人员密度。
本发明优点在于,可以准确而快速的对监控视频中的画面进行连续的监测,抽取视频中关键有用信息,自动识别并掌握监控设备区域视频内的五种情况信息(人员入侵、进入、离岗、超时谈话和人员密度),判断监控画面中的异常情况,快速准确的定位不符合规范的人员的位置,并以最快和最佳的方式发出警报信息,从而有效实现事前预警、事中处理、事后及时取证的功能。
附图说明
图1:是本算法的整体流程图;
图2:是本算法用于特征图提取阶段的网络结构图;
图3:是根据提取出的多尺度特征图进行预测。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明主要应用于办公场所、公共场所等安全监控,主要为了及时防范、处理突发公共事件。可具体应用于公司、小区住宅、商场、学校、医院等区域。公司应用此系统对员工的工作情况进行监控管理,小区住宅通过此系统实现对外来人员的监控,商场实现对客流量以及顾客人身安全的监控,学校应用此系统对学生异常行为进行监控。本发明的实施平台是通过计算机获取监控设备如摄像机的实时监控视频,并对其进行智能分析处理。
下面结合图1至图3介绍本发明的具体实施方式为:
步骤1:使用opencv技术读取实时rtsp视频流,获取多帧视频图像,对每帧图像标出检测物体的目标的真实边界框及类别作为标签,以构建训练数据;
步骤1中所述多帧图像为:
datai,i∈[1,K]
其中,K为视频流中图像帧的数量;
第i帧图像u行v列像素为:
datai(u,v),u∈[1,H],v∈[1,W]
其中,H为一帧图像中行的数量,W为一帧图像中列的数量;
对对每帧图像标出检测物体的目标的真实框及类别具体为:
目标的真实边界框为:truth boxj=[txj,tyj,twj,thj],j∈[1,K]
其中,txj表示第j帧图像中目标物的真实边界框在左上角的像素横坐标,tyj表示第j帧图像中目标物的真实边界框在左上角的像素纵坐标,twj表示第j帧图像中目标物的真实边界框的宽度,thj表示第j帧图像中目标物的真实边界框的高度;
类别为cati:cati∈[1,C],C表示总的类别数量;
步骤1中所述标签为:
labeli={truth boxi,cati},i∈[1,K]
其中,labeli第i帧图像的标签;
步骤1中所述训练数据集为:
train_datai={datai,labeli},i∈[1,k],k<=K,train_datai∈datai
步骤2:将训练数据集输入到多目标检测网络模型中进行训练,以目标损失最小为优化目标,通过使用自适应矩估计优化方法得到优化后超参数,通过以上训练过程就完成了训练后的多目标检测网络模型;
步骤2中所述SSD网络模型过程可表示为:
Y=F(datai,W)
其中,datai表示输入一帧图像,W表示函数F中的超参数,Y表示网络输出,即输入一帧图像中目标检测物的预测目标框Boxi以及类别Cati,输出结果Y*可具体表示为:
步骤2中所述将训练数据集train_datai输入到多目标检测网络模型中进行训练具体为:
步骤2.1,网络采用VGG16作为基础模型,采用大小分别是(38,38),(19,19),(10,10),(5,5),(3,3),(1,1)的六个不同的卷积核,通过卷积操作提取出不同大小的特征图,即多尺度特征图其中,表示C张H*W大小的特征图片的集合,Xi表示中的第i张特征图片,C由卷积核的参数决定,m每张特征图Xi共有H*W个像素点(u,v),u∈[1,H],v∈[1,W];
步骤2.2,在H*W大小的特征图Xi的每个像素点(u,v)上生成M个固定的边界框即Defalut box,每张特征图共有M*H*W个defalut box,表示为集合DB,defaulboxi∈DB,表示DB中第i个Default box,i∈[1,M*H*W];
对于每个defaulboxi都需要通过卷积操作预测c个类别分数和4个偏移量即offset,所以这个特征图共有(c+4)*M*H*W个输出;
其中,c*M*H*W是置信度输出,表示每个defaulboxi的置信度,也就是类别的概率,数量4*M*H*W是位置输出,表示每个defaulboxi的坐标(cxi,cyi,wi,hi);
所述defalut box生成规则:
以特征图Xi上每个像素点的中点为中心(offset=0.5),生成大小有六种不同长宽比的defalut box;
所述defalut box的最小边长为:min_size;
所述defalut box的最大边长为:
设置一个扩大率ratio,会生成2个长方形,长为:和宽为:
而每个Xi对应defalut box的min_size和max_size由以下公式决定,m=6表示六种不同大小的Default box
使用不同的ratio值,分别为[1,2,3,1/2,1/3],通过下面的公式计算default box的宽度w和高度h:
步骤2.3,将步骤2.2生成的边界框defaulboxi与真实的边界框truth boxi=[txi,tyi,twi,thi]匹配,符合匹配条件的边界框defaulboxi是有限的;
所述匹配的策略为:
truth box的集合TB,truth boxj∈TB,表示TB中第j个truth box,其中j<K,K是labeli的数量
default box的集合DB,defaulboxi∈DB,表示DB中第i个Default box.i∈[1,M*H*W]
在DB中寻找一个defaulboxi,使其能与TB中truth boxj有最大的IOU值,这样就能保证truth box至少有一个defaulboxi与之匹配;
之后将剩余还没有配对的defaulboxj(i≠j,且j∈[1,M*H*W])与任意一个truthboxi尝试配对,只要两者之间的IOU大于匹配阈值α=0.5,就认为匹配;
配对到truth box的所述defaulboxi就是正样本,没有配对的Default box就是负样本;
图片上被标记的各种分类,所述default box和truthbox相互匹配后得到的结果;
通过计算每个defaulboxi和每个truth boxj的交并比IOU,筛选出最大值,就可以知道每个truthbox应该匹配哪个defaulboxi,而对于IOU>α=0.5的defaulboxi则被认为是真正匹配框truthbox;
其中,交并比IOU表示的是预测的边界框defaulboxi和真实的边界框truth boxj的交集和并集的比值,即:
步骤2.4,将生成的所有defaulboxi集合起来,通过非极大值抑制模块,输出最终后的defaulboxi的集合,这样每个truth boxi对应的所有的defaulboxi就是最终的检测结果;
所述非极大值抑制的具体实现步骤为:
步骤2.4.1将所有边界框defaulboxi的IOU得分排序,选中IOU得分最高及其对应的defaulboxi;
步骤2.4.2遍历其余的default box,如果和当前IOU得分最高的边界框defaulboxi的重叠面积大于阈值α(α=0.5),就将上一步的defaulboxi删除。
步骤2.4.3从未处理的Default box中继续选一个IOU得分最高的,重复步骤2.4.1以及步骤2.4.2,直至遍历完DB中所有边界框;
步骤2中SSD网络模型的目标损失分为两部分:相应的default box与目标类别的置信损失confidence loss以及相应的位置回归,具体为:
其中,N是匹配到truth box的defaulboxi的数量,N=0时,损失函数为0,为一个指示参数,当时表示目标第i个的default box与第j个truthbox匹配,并且类别Cati为p,c为置信度,s为目标的检测框defaulboxi的位置预测值[cxj,cyj,cwj,chj],而g是truth boxj的位置参数[txj,tyj,twj,thj],[cxj,cyj,cwj,chj]表示匹配到truth box的default box的坐标中心以及宽与高的数值,α表示两者的权重,设为1;
优化求解方法:
自适应矩估计Adam是一种不同参数自适应不同学习速率方法,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,改善网络的训练方式,来最小化损失函数;
多目标检测网络模型使用自适应矩估计方法Adam优化损失函数L(x,c,l,g),找到局部最优值使其达到最小;
优化输出结果:
Min(L(x,c,l,g))得到局部最小值,以及这时Y*=F(datai,W*)中的超参数W*;
步骤3:将测试视频图像输入训练后的多目标检测网络模型获得检测结果,根据检测结果返回异常信息,由此异常信息触发警报;
异常信息包括以下四个方面:
人员入侵:在视频图像中固定入侵区域边界框rbox[rx,ry,rw,rh],判断bbox[rx,ry,rw,rh]与SSD的预测目标框是否重合,若重合则判定为人员入侵;若没有重合,则视为没有人员入侵
进入:在视频图像中固定门的边界框mbox[mx,my,mw,mh],判断mbox[mx,my,mw,mh]与SSD的预测目标框是否重合,若重合则判定为人员进入;若没有重合,则视为没有人员进入;
离岗:在视频图像中固定岗位位置边界框gbox[gx,gy,gw,gh],判断gbox[gx,gy,gw,gh]与SSD的预测目标框是否重合,若没有重合,则判定为人员离岗;若重合,视为人员在岗;
超时谈话:从检测到人员进入门mbox[mx,my,mw,mh]开始计时,判断人员所在时间是否超过设定的某个计时时间,若超过,视为超时谈话;未超过,视为正常情况;
人员密度:检测到类别为人的目标预测框的数目即为人员密度。
图3是根据训练过程中对提取出的多尺度特征图进行预测:
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种区域视频人体动作行为实时识别方法,其特征在于,包括以下步骤:
步骤1:使用opencv技术读取实时rtsp视频流,获取多帧视频图像,对每帧图像标出检测物体的目标的真实边界框及类别作为标签,以构建训练数据;
步骤2:将训练数据集输入到多目标检测网络模型中进行训练,以目标损失最小为优化目标,通过使用自适应矩估计优化方法得到优化后超参数,通过以上训练过程就完成了训练后的多目标检测网络模型;
步骤3:将测试视频图像输入训练后的多目标检测网络模型获得检测结果,根据检测结果返回异常信息,由此异常信息触发警报。
2.根据权利要求1所述的区域视频人体动作行为实时识别方法,其特征在于:步骤1中所述多帧图像为:
datai,i∈[1,K]
其中,K为视频流中图像帧的数量;
第i帧图像u行v列像素为:
datai(u,v),u∈[1,H],v∈[1,W]
其中,H为一帧图像中行的数量,W为一帧图像中列的数量;
对对每帧图像标出检测物体的目标的真实框及类别具体为:
目标的真实边界框为:truth boxj=[txj,tyj,twj,thj],j∈[1,K]
其中,txj表示第j帧图像中目标物的真实边界框在左上角的像素横坐标,tyj表示第j帧图像中目标物的真实边界框在左上角的像素纵坐标,twj表示第j帧图像中目标物的真实边界框的宽度,thj表示第j帧图像中目标物的真实边界框的高度;
类别为cati:cati∈[1,C],C表示总的类别数量;
步骤1中所述标签为:
labeli={truth boxi,cati},i∈[1,K]
其中,labeli第i帧图像的标签;
步骤1中所述训练数据集为:
3.根据权利要求1所述的区域视频人体动作行为实时识别方法,其特征在于:步骤2中所述多目标检测网络模型过程可表示为:
Y=F(datai,W)
其中,datai表示输入一帧图像,W表示函数F中的超参数,Y表示网络输出,即输入一帧图像中目标检测物的预测目标框Boxi以及类别Cati,输出结果Y*可具体表示为:
步骤2中所述将训练数据集train_datai输入到多目标检测网络模型中进行训练具体为:
步骤2.1,网络采用VGG16作为基础模型,采用大小分别是(38,38),(19,19),(10,10),(5,5),(3,3),(1,1)的六个不同的卷积核,通过卷积操作提取出不同大小的特征图,即多尺度特征图其中,表示C张H*W大小的特征图片的集合,Xi表示中的第i张特征图片,C由卷积核的参数决定,m每张特征图Xi共有H*W个像素点(u,v),u∈[1,H],v∈[1,W];
步骤2.2,在H*W大小的特征图Xi的每个像素点(u,v)上生成M个固定的边界框即Defalutbox,每张特征图共有M*H*W个Defalut box,表示为集合DB,defaulboxi∈DB,表示DB中第i个Default box,i∈[1,M*H*W]
对于每个defaulboxi都需要通过卷积操作预测c个类别分数和4个偏移量即offset,所以这个特征图共有(c+4)*M*H*W个输出;
其中,c*M*H*W是置信度输出,表示每个defaulboxi的置信度,也就是类别的概率,数量4*M*H*W是位置输出,表示每个defaulboxi的坐标(cxi,cyi,wi,hi);
所述defalut box生成规则:
以特征图Xi上每个像素点的中点为中心(offset=0.5),生成大小有六种不同长宽比的defalut box;
所述defalut box的最小边长为:min_size;(对应六种不同大小的卷积核,min_size依次设为30,60,111,162,213,264)
所述defalut box的最大边长为:(对应六种不同大小的卷积核,max_size依次设为60,111,162,213,264,315)
设置一个扩大率ratio,会生成2个长方形,长为:和宽为:
而每个Xi对应defalut box的min_size和max_size由以下公式决定,其中m=6表示六种不同大小的Default box,
使用不同的ratio值,[1,2,3,1/2,1/3],通过下面的公式计算Default box的宽度w和高度h:
步骤2.3,将步骤2.2生成的边界框defaulboxi与真实的边界框truth boxi=[txi,tyi,twi,thi]匹配,符合匹配条件的边界框defaulboxi是有限的;
所述匹配的策略为:
truth box的集合TB,truth boxj∈TB,表示TB中第j个truth box,其中j<K,K是labeli的数量
default box的集合DB,defaulboxi∈DB,表示DB中第i个Default box.i∈[1,M*H*W]
在DB中寻找一个defaulboxi,使其能与TB中truth boxj有最大的IOU值,这样就能保证truth box至少有一个defaulboxi与之匹配;
之后将剩余还没有配对的defaulboxj(i≠j,且j∈[1,M*H*W])与任意一个truth boxi尝试配对,只要两者之间的IOU大于匹配阈值α=0.5,就认为匹配;
配对到truth box的所述defaulboxi就是正样本,没有配对的default box就是负样本;
图片上被标记的各种分类,所述default box和truthbox相互匹配后得到的结果;
通过计算每个defaulboxi和每个truth boxj的交并比IOU,筛选出最大值,就可以知道每个truthbox应该匹配哪个defaulboxi,而对于IOU>α=0.5的defaulboxi则被认为是真正匹配框truth box;
其中,交并比IOU表示的是预测的边界框defaulboxi和真实的边界框truth boxj的交集和并集的比值,即:
步骤2.4,将生成的所有defaulboxi集合起来,通过非极大值抑制模块,输出最终后的defaulboxi的集合,这样每个truth boxi对应的所有的defaulboxi就是最终的检测结果;
所述非极大值抑制的具体实现步骤为:
步骤2.4.1 将所有边界框defaulboxi的IOU得分排序,选中IOU得分最高及其对应的defaulboxi;
步骤2.4.2 遍历其余的default box,如果和当前IOU得分最高的边界框defaulboxi的重叠面积大于阈值α(α=0.5),就将上一步的defaulboxi删除;
步骤2.4.3 从未处理的Default box中继续选一个IOU得分最高的,重复步骤2.4.1以及步骤2.4.2,直至遍历完DB中所有边界框;
步骤2中SSD网络模型的目标损失分为两部分:相应的Default box与目标类别的置信损失confidence loss以及相应的位置回归,具体为:
其中,N是匹配到truth box的defaulboxi的数量,N=0时,损失函数为0,为一个指示参数,当时表示目标第i个的default box与第j个truthbox匹配,并且类别Cati为p,c为置信度,s为目标的检测框defaulboxi的位置预测值[cxi,cyi,cwi,chi],而g是truth boxj的位置参数[txj,tyj,twj,thj],[cxi,cyi,cwi,chi]表示匹配到truth box的default box的坐标中心以及宽与高的数值,α表示两者的权重,设α=1;
优化求解方法:
自适应矩估计Adam是一种不同参数自适应不同学习速率方法,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,改善网络的训练方式,来最小化损失函数;
多目标检测网络模型使用自适应矩估计方法Adam优化损失函数L(x,c,s,g),找到局部最优值使其达到最小;
优化输出结果:
Min(L(x,c,l,g))得到局部最小值,以及这时Y*=F(datai,W*)中的超参数W*。
4.根据权利要求1所述的区域视频人体动作行为实时识别方法,其特征在于:步骤3中所述异常信息包括以下四个方面:
人员入侵:在视频图像中固定入侵区域边界框rbox[rx,ry,rw,rh],判断bbox[rx,ry,rw,rh]与SSD的预测目标框是否重合,若重合则判定为人员入侵;若没有重合,则视为没有人员入侵
进入:在视频图像中固定门的边界框mbox[mx,my,mw,mh],判断mbox[mx,my,mw,mh]与SSD的预测目标框是否重合,若重合则判定为人员进入;若没有重合,则视为没有人员进入;
离岗:在视频图像中固定岗位位置边界框gbox[gx,gy,gw,gh],判断gbox[gx,gy,gw,gh]与SSD的预测目标框是否重合,若没有重合,则判定为人员离岗;若重合,视为人员在岗;
超时谈话:从检测到人员进入门mbox[mx,my,mw,mh]开始计时,判断人员所在时间是否超过设定的某个计时时间,若超过,视为超时谈话;未超过,视为正常情况;
人员密度:检测到类别为人的目标预测框的数目即为人员密度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910513640.5A CN110348312A (zh) | 2019-06-14 | 2019-06-14 | 一种区域视频人体动作行为实时识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910513640.5A CN110348312A (zh) | 2019-06-14 | 2019-06-14 | 一种区域视频人体动作行为实时识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348312A true CN110348312A (zh) | 2019-10-18 |
Family
ID=68182076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910513640.5A Pending CN110348312A (zh) | 2019-06-14 | 2019-06-14 | 一种区域视频人体动作行为实时识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348312A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991312A (zh) * | 2019-11-28 | 2020-04-10 | 重庆中星微人工智能芯片技术有限公司 | 生成检测信息的方法、装置、电子设备和介质 |
CN111199199A (zh) * | 2019-12-27 | 2020-05-26 | 同济大学 | 一种基于自适应上下文区域选取的动作识别方法 |
CN111241940A (zh) * | 2019-12-31 | 2020-06-05 | 浙江大学 | 一种机器人的远程控制方法、人体边界框确定方法及系统 |
CN111461209A (zh) * | 2020-03-30 | 2020-07-28 | 深圳市凯立德科技股份有限公司 | 一种模型训练装置和方法 |
CN111462191A (zh) * | 2020-04-23 | 2020-07-28 | 武汉大学 | 一种基于深度学习的非局部滤波器无监督光流估计方法 |
CN111738218A (zh) * | 2020-07-27 | 2020-10-02 | 成都睿沿科技有限公司 | 人体异常行为识别系统及方法 |
CN111885349A (zh) * | 2020-06-08 | 2020-11-03 | 北京市基础设施投资有限公司(原北京地铁集团有限责任公司) | 一种管廊异常检测系统及方法 |
CN112084886A (zh) * | 2020-08-18 | 2020-12-15 | 眸芯科技(上海)有限公司 | 提升检测神经网络目标检测性能的方法及装置 |
CN112257568A (zh) * | 2020-10-21 | 2021-01-22 | 中国人民解放军国防科技大学 | 一种单兵队列动作智能实时监督纠错系统及方法 |
CN112287977A (zh) * | 2020-10-06 | 2021-01-29 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN113052127A (zh) * | 2021-04-09 | 2021-06-29 | 上海云从企业发展有限公司 | 一种行为检测方法、系统、计算机设备及机器可读介质 |
CN113139476A (zh) * | 2021-04-27 | 2021-07-20 | 山东英信计算机技术有限公司 | 一种面向数据中心的人体行为属性实时检测方法和系统 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN113673399A (zh) * | 2021-08-12 | 2021-11-19 | 新疆爱华盈通信息技术有限公司 | 区域监测的方法、装置、电子设备及可读存储介质 |
CN113822259A (zh) * | 2021-11-24 | 2021-12-21 | 深圳市万物云科技有限公司 | 一种离岗检测方法、装置、计算机设备及存储介质 |
US11270147B1 (en) | 2020-10-05 | 2022-03-08 | International Business Machines Corporation | Action-object recognition in cluttered video scenes using text |
CN114266999A (zh) * | 2021-12-29 | 2022-04-01 | 北京立思辰智汇科技有限公司 | 一种飞机轮档时间自动检测系统及方法 |
US11423252B1 (en) | 2021-04-29 | 2022-08-23 | International Business Machines Corporation | Object dataset creation or modification using labeled action-object videos |
CN115188466A (zh) * | 2022-07-08 | 2022-10-14 | 江苏优盾通信实业有限公司 | 一种基于特征分析的受询辅助方法及系统 |
CN115410136A (zh) * | 2022-11-01 | 2022-11-29 | 济钢防务技术有限公司 | 一种基于卷积神经网络的激光排爆系统紧急安全控制方法 |
CN117173639A (zh) * | 2023-11-01 | 2023-12-05 | 伊特拉姆成都能源科技有限公司 | 基于多源设备的行为分析及安全预警方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6700999B1 (en) * | 2000-06-30 | 2004-03-02 | Intel Corporation | System, method, and apparatus for multiple face tracking |
CN108345846A (zh) * | 2018-01-29 | 2018-07-31 | 华东师范大学 | 一种基于卷积神经网络的人体行为识别方法及识别系统 |
CN109145841A (zh) * | 2018-08-29 | 2019-01-04 | 武汉大学 | 一种基于视频监控的异常事件的检测方法及装置 |
CN109660761A (zh) * | 2018-12-21 | 2019-04-19 | 鞍钢集团自动化有限公司 | 基于ssd的皮带通廊复杂环境人员识别与报警系统及方法 |
CN109726741A (zh) * | 2018-12-06 | 2019-05-07 | 江苏科技大学 | 一种多目标物体的检测方法及装置 |
-
2019
- 2019-06-14 CN CN201910513640.5A patent/CN110348312A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6700999B1 (en) * | 2000-06-30 | 2004-03-02 | Intel Corporation | System, method, and apparatus for multiple face tracking |
CN108345846A (zh) * | 2018-01-29 | 2018-07-31 | 华东师范大学 | 一种基于卷积神经网络的人体行为识别方法及识别系统 |
CN109145841A (zh) * | 2018-08-29 | 2019-01-04 | 武汉大学 | 一种基于视频监控的异常事件的检测方法及装置 |
CN109726741A (zh) * | 2018-12-06 | 2019-05-07 | 江苏科技大学 | 一种多目标物体的检测方法及装置 |
CN109660761A (zh) * | 2018-12-21 | 2019-04-19 | 鞍钢集团自动化有限公司 | 基于ssd的皮带通廊复杂环境人员识别与报警系统及方法 |
Non-Patent Citations (1)
Title |
---|
XUE GAO等: "A Detection and Verification Model Based", 《IEEE ACCESS》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991312A (zh) * | 2019-11-28 | 2020-04-10 | 重庆中星微人工智能芯片技术有限公司 | 生成检测信息的方法、装置、电子设备和介质 |
CN111199199B (zh) * | 2019-12-27 | 2023-05-05 | 同济大学 | 一种基于自适应上下文区域选取的动作识别方法 |
CN111199199A (zh) * | 2019-12-27 | 2020-05-26 | 同济大学 | 一种基于自适应上下文区域选取的动作识别方法 |
CN111241940A (zh) * | 2019-12-31 | 2020-06-05 | 浙江大学 | 一种机器人的远程控制方法、人体边界框确定方法及系统 |
CN111241940B (zh) * | 2019-12-31 | 2022-07-26 | 浙江大学 | 一种机器人的远程控制方法、人体边界框确定方法及系统 |
CN111461209A (zh) * | 2020-03-30 | 2020-07-28 | 深圳市凯立德科技股份有限公司 | 一种模型训练装置和方法 |
CN111461209B (zh) * | 2020-03-30 | 2024-04-09 | 深圳市凯立德科技股份有限公司 | 一种模型训练装置和方法 |
CN111462191A (zh) * | 2020-04-23 | 2020-07-28 | 武汉大学 | 一种基于深度学习的非局部滤波器无监督光流估计方法 |
CN111462191B (zh) * | 2020-04-23 | 2022-07-19 | 武汉大学 | 一种基于深度学习的非局部滤波器无监督光流估计方法 |
CN111885349A (zh) * | 2020-06-08 | 2020-11-03 | 北京市基础设施投资有限公司(原北京地铁集团有限责任公司) | 一种管廊异常检测系统及方法 |
CN111885349B (zh) * | 2020-06-08 | 2023-05-09 | 北京市基础设施投资有限公司 | 一种管廊异常检测系统及方法 |
CN111738218B (zh) * | 2020-07-27 | 2020-11-24 | 成都睿沿科技有限公司 | 人体异常行为识别系统及方法 |
CN111738218A (zh) * | 2020-07-27 | 2020-10-02 | 成都睿沿科技有限公司 | 人体异常行为识别系统及方法 |
CN112084886A (zh) * | 2020-08-18 | 2020-12-15 | 眸芯科技(上海)有限公司 | 提升检测神经网络目标检测性能的方法及装置 |
CN112084886B (zh) * | 2020-08-18 | 2022-03-15 | 眸芯科技(上海)有限公司 | 提升检测神经网络目标检测性能的方法及装置 |
WO2022074483A1 (en) * | 2020-10-05 | 2022-04-14 | International Business Machines Corporation | Action-object recognition in cluttered video scenes using text |
US11270147B1 (en) | 2020-10-05 | 2022-03-08 | International Business Machines Corporation | Action-object recognition in cluttered video scenes using text |
GB2614170B (en) * | 2020-10-05 | 2023-12-13 | Ibm | Action-object recognition in cluttered video scenes using text |
US11928849B2 (en) | 2020-10-05 | 2024-03-12 | International Business Machines Corporation | Action-object recognition in cluttered video scenes using text |
GB2614170A (en) * | 2020-10-05 | 2023-06-28 | Ibm | Action-object recognition in cluttered video scenes using text |
CN112287977A (zh) * | 2020-10-06 | 2021-01-29 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN112287977B (zh) * | 2020-10-06 | 2024-02-09 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN112257568B (zh) * | 2020-10-21 | 2022-09-20 | 中国人民解放军国防科技大学 | 一种单兵队列动作智能实时监督纠错系统及方法 |
CN112257568A (zh) * | 2020-10-21 | 2021-01-22 | 中国人民解放军国防科技大学 | 一种单兵队列动作智能实时监督纠错系统及方法 |
CN113052127A (zh) * | 2021-04-09 | 2021-06-29 | 上海云从企业发展有限公司 | 一种行为检测方法、系统、计算机设备及机器可读介质 |
CN113139476A (zh) * | 2021-04-27 | 2021-07-20 | 山东英信计算机技术有限公司 | 一种面向数据中心的人体行为属性实时检测方法和系统 |
US11423252B1 (en) | 2021-04-29 | 2022-08-23 | International Business Machines Corporation | Object dataset creation or modification using labeled action-object videos |
CN113673399A (zh) * | 2021-08-12 | 2021-11-19 | 新疆爱华盈通信息技术有限公司 | 区域监测的方法、装置、电子设备及可读存储介质 |
CN113673489B (zh) * | 2021-10-21 | 2022-04-08 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN113822259B (zh) * | 2021-11-24 | 2022-03-15 | 深圳市万物云科技有限公司 | 一种离岗检测方法、装置、计算机设备及存储介质 |
CN113822259A (zh) * | 2021-11-24 | 2021-12-21 | 深圳市万物云科技有限公司 | 一种离岗检测方法、装置、计算机设备及存储介质 |
CN114266999B (zh) * | 2021-12-29 | 2024-02-02 | 北京航易智汇科技有限公司 | 一种飞机轮档时间自动检测系统及方法 |
CN114266999A (zh) * | 2021-12-29 | 2022-04-01 | 北京立思辰智汇科技有限公司 | 一种飞机轮档时间自动检测系统及方法 |
CN115188466B (zh) * | 2022-07-08 | 2023-12-12 | 江苏优盾通信实业有限公司 | 一种基于特征分析的受询辅助方法及系统 |
CN115188466A (zh) * | 2022-07-08 | 2022-10-14 | 江苏优盾通信实业有限公司 | 一种基于特征分析的受询辅助方法及系统 |
CN115410136A (zh) * | 2022-11-01 | 2022-11-29 | 济钢防务技术有限公司 | 一种基于卷积神经网络的激光排爆系统紧急安全控制方法 |
CN117173639A (zh) * | 2023-11-01 | 2023-12-05 | 伊特拉姆成都能源科技有限公司 | 基于多源设备的行为分析及安全预警方法及系统 |
CN117173639B (zh) * | 2023-11-01 | 2024-02-06 | 伊特拉姆成都能源科技有限公司 | 基于多源设备的行为分析及安全预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348312A (zh) | 一种区域视频人体动作行为实时识别方法 | |
CN107833221A (zh) | 一种基于多通道特征融合和机器学习的漏水监测方法 | |
CN110263686A (zh) | 一种基于深度学习的施工工地图像安全帽检测方法 | |
CN104166841B (zh) | 一种视频监控网络中指定行人或车辆的快速检测识别方法 | |
CN110569772B (zh) | 一种泳池内人员状态检测方法 | |
CN106412501B (zh) | 一种视频的施工安全行为智能监控系统及其监控方法 | |
CN105389567B (zh) | 基于稠密光流直方图的群体异常检测方法 | |
CN110502965A (zh) | 一种基于计算机视觉人体姿态估计的施工安全帽佩戴监测方法 | |
CN111881730A (zh) | 一种火电厂现场安全帽佩戴检测方法 | |
CN105160297B (zh) | 基于肤色特征的蒙面人事件自动检测方法 | |
CN105208325B (zh) | 基于图像定点抓拍及比对分析的国土资源监控预警方法 | |
CN110135374A (zh) | 采用图像块特征识别与回归分类的火灾烟雾检测方法 | |
CN105844245A (zh) | 一种伪装人脸检测方法及系统 | |
CN103390151B (zh) | 人脸检测方法及装置 | |
CN112183472A (zh) | 一种基于改进RetinaNet的试验现场人员是否穿着工作服检测方法 | |
CN111062303A (zh) | 图像处理方法、系统及计算机存储介质 | |
CN106709438A (zh) | 一种基于视频会议的人数统计方法 | |
CN113642474A (zh) | 一种基于yolov5的危险区域人员监控方法 | |
CN116310943B (zh) | 一种感知工人安全状况的方法 | |
Szczodrak et al. | Behavior analysis and dynamic crowd management in video surveillance system | |
CN109389105A (zh) | 一种基于多任务的虹膜检测和视角分类方法 | |
CN107481260A (zh) | 一种区域人群滞留检测方法、装置和存储介质 | |
CN106372566A (zh) | 一种基于数字标牌紧急疏散系统及方法 | |
CN106683077A (zh) | 一种扶梯口楼层板上大件物滞留检测方法 | |
CN113361968B (zh) | 基于人工智能和大数据的电网基建人员安全风险评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |
|
RJ01 | Rejection of invention patent application after publication |