CN115116132B - 一种物联网边缘服务环境下深度感知的人体行为分析方法 - Google Patents
一种物联网边缘服务环境下深度感知的人体行为分析方法 Download PDFInfo
- Publication number
- CN115116132B CN115116132B CN202210666969.7A CN202210666969A CN115116132B CN 115116132 B CN115116132 B CN 115116132B CN 202210666969 A CN202210666969 A CN 202210666969A CN 115116132 B CN115116132 B CN 115116132B
- Authority
- CN
- China
- Prior art keywords
- human body
- gesture
- point
- human
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种物联网边缘服务环境下深度感知的人体行为分析方法,包括:S1,图像预处理;S2,姿态点提取,提取出人体骨骼关键点;S3,基于姿态点置信度,对人体姿态进行预筛选;S4,通过人体两侧姿态点深度信息得到的不对称关系来确定出人体偏转角,通过所得偏转角来纠正人体姿态点二维坐标信息,得到正面人体姿态点二维坐标信息;S5,基于LSTM网络构建骨架行为识别模型,采用骨架行为识别模型对指定阶段内的人体关节数据序列进行处理,对其中包含的异常行为进行识别分析。本发明能够确保检测结果的实时性和精准性。
Description
技术领域
本发明属于人工智能目标识别,具体涉及一种物联网边缘服务环境下深度感知的人体行为分析方法。
背景技术
计算机视觉领域中的人体行为识别方向在生活的诸多领域中都有着重大的应用价值,很多学者也对此展开了崇论宏议。人体行为识别中最热门的研究领域之一便是人体异常行为识别/检测。现实生活中,异常行为的表现方式各式各样,比如地铁里人群踩踏、马路上乱闯红绿灯、校园里打架斗殴、深水区游泳等。除此以外,异常行为定义与场景和时间息息相关。不同的时间,不同的场景中,同一种行为的定义也会随着不同。比如在餐厅的吃饭属于正常行为,但是在课堂中的吃饭却属于异常行为。因此,异常行为检测需要因地因时制宜,具体问题具体对待,设计不同解决方案。
目前,常见的异常行为检测方法主要有3种:1)基于环境设备的检测方法,根据人体产生异常行为时形成的环境噪声进行检测,如感知物体压力和声音的变化检测,误报率较高,极少被采纳使用。2)基于穿戴式传感器的检测方法,利用加速度计和陀螺仪检测跌倒等异常行为,长时间配戴传感器影响人的生活舒适度,会增加老年人机体负担,从事复杂活动时误报率较高。3)基于视觉识别的检测方法,可分为两类:一类是传统机器视觉方法提取有效的异常行为特征,对硬件要求低,但易受背景、光线变化等环境因素的影响,鲁棒性差;一类是人工智能方法,将相机图像数据用于卷积神经网络的训练和推理,虽然识别精度高,但高效的性能往往伴随着高昂的硬件成本,极大的限制了落地应用。近年来移动终端和小型嵌入式设备也具备了令人青睐的算力,且价格低廉,为人工智能算法的迁移部署提供了可能性。
发明内容
解决的技术问题:针对在物联网边缘服务环境下当光线不足或不均匀的情况时拍摄的图像显示亮度低、对比度差、局部细节模糊、颜色保真度差、亮度突然变化;以及针对无法处理帧退化(快速运动造成的模糊)、视频散焦或姿势遮挡、检测目标过小等问题,本发明提出一种物联网边缘服务环境下的人体行为分析方法,依次进行图像预处理、姿态点提取、姿态预筛选、姿态点矫正、人体行为分析,确保检测结果的实时性和精准性。
技术方案:
一种物联网边缘服务环境下深度感知的人体行为分析方法,所述人体行为分析方法包括以下步骤:
S1,图像预处理:将采集得到的视频流转化为图像帧,针对不同环境参数下的图像的各个像素点灰度值的变化,对图像的对比度做出自适应调整;
S2,姿态点提取:基于YOLOv5s网络构建目标检测模型,采用目标检测模型进行目标检测,识别出图像中的人体目标,标记各个人体区域矩形框;对各个人体区域矩形框中的人体姿态进行估计,提取出人体骨骼关键点;
S3,姿态预筛选:基于姿态点置信度,对人体姿态进行预筛选,对于任意一个人体姿态,当其所对应的人体骨骼关键点置信度为0的数目大于预设阈值时,忽略此人体姿态;
S4,正面人体姿态点二维坐标信息计算:针对每个预筛选的人体姿态,获取其所对应的目标姿态点深度信息,通过人体两侧姿态点深度信息得到的不对称关系来确定出人体偏转角,通过所得偏转角来纠正人体姿态点二维坐标信息,得到正面人体姿态点二维坐标信息;
S5,异常行为识别:根据正面人体姿态点二维坐标信息统计得到人体关节数据序列,基于LSTM网络构建骨架行为识别模型,采用骨架行为识别模型对指定阶段内的人体关节数据序列进行处理,对其中包含的异常行为进行识别分析。
进一步地,步骤S1中,图像预处理的过程包括以下步骤:
S11,加载原始RGB彩色图像S(x,y),将其转化为HSI颜色模型,得到对应的强度图像SI(x,y);
S12,提高强度图像SI(x,y),具体地:
S121,估计强度的光照分量SIL(x,y):
式中,和/>都是以像素i为中心的wi窗口中的线性系数,i=1,2,3...N,N为窗口总个数;
S122,使用自适应伽马函数校正光照分量:
SILG(x,y)=SIL(x,y)φ(x,y);
通过光照分量各个像素点的灰度值计算得到自适应系数a的表达式:
式中,SILG(x,y)为纠正后的照明分量,φ(x,y)为伽马矫正函数,m和n为图像的高度和宽度,参数a由灰度值自适应导出;
S13,采用下述公式执行全局线性拉伸:
式中,min(SILG(x,y))和max(SILG(x,y))分别是图像中的最小和最大像素值;
S14,采用下述公式计算反射分量:
SIR(x,y)=SI(x,y)/SIL(x,y);
S15,使用WGIF去噪反射组件去除图像噪声:
S16,进行图像融合操作:
S161,采用下述公式计算增强的强度图像:
SIE(x,y)=SILGf(x,y)SIRH(x,y);
S162,利用s-双曲正切函数提高融合图像的亮度:
式中,b*是SIE的平均强度;
S17,进行颜色恢复,具体地:
S171,计算亮度增益系数α(x,y):
α(x,y)=SIEf(x,y)/SI(x,y);
S172,通过线性颜色恢复将增强的HSI图像转换为RGB:
R1(x,y)=α(x,y)R0(x,y);
G1(x,y)=α(x,y)G0(x,y);
B1(x,y)=α(x,y)B0(x,y);
式中,原始和增强彩色图像的RGB通道分别表示为[R0,G0,B0]和[R1,G1,B1]。
进一步地,步骤S2中,目标检测模型的损失函数为:
式中,M为所有正样本的集合,|M|为正样本数,b表真实目标,b′表示目标框,b∩表示两者之间的交集区域,b∪b′分别表示两者之间并集区域,FPIOU函数的计算公式如下:
式中,Sb∩表示经损失函数内核函数处理后,目标b和目标框b′交集的像素量数;Sb∪表示两者并集的像素量数。
进一步地,在目标检测模型中,FPN聚合相邻特征图层的方式公式如下:
式中,finner是1*1的卷积操作实现通道匹配,fupsample代表2倍上采样操作实现特征图大小匹配,利用数据集的统计信息计算平衡因子
式中,Npi+1和Npi分别代表pi+1和pi层的数量。
进一步地,步骤S2中,采用DCPose框架对各个人体区域矩形框中的人体姿态进行估计,提取出人体骨骼关键点;
所述DCPose框架包括姿态时间合并模块、姿态残差融合模块和姿态矫正模块;
所述姿态时间合并模块用于定位关键点的搜索范围,定位过程包括以下步骤:
将前一帧、这一帧和后一帧的预测热图结合得到新的热图,根据时间分配权重,得到初始的权重,时间上更接近当前帧的帧显式分配更高的权重:
式中hi(p)、hi(c)和hi(n*)表示初始关键点热图,p、c和n*表示帧索引;
利用神经网络对权值进行调整,对于每个关节,仅包括其自己特定时间信息的关键点热图,将15个关节点得到的热图进行拼接生成最后的热图:
式中,表示连接操作,上标j索引第j个关节,总共N个关节;
将热图输入到3*3的残差模块中,得到合并后的热图:
φi(p,c,n*)→Φi(p,c,n*);
所述态残差融合模块用于计算帧间关键点偏移,计算过程包括以下步骤:
计算姿态残差,将计算得到的姿态残差用作时间相关的线索,计算姿态残差特征的公式如下:
式中,表示原始姿态残差/>及其加权版本;
将热图输入到3*3的残差模块中,得到合并后的热图:
所述姿态矫正模块用于对姿态进行矫正,矫正过程包括以下步骤:
将合并的关节点热图和姿态残差特征/>两组特征合并,姿势校正网络用于细化初始关键点热图估计hi(c),产生调整后的最终关节点热图;
将合并的关节点热图Φi(p,c,n*)和偏移量输入到卷积层,获得五组mask;通过可变形卷积V2网络在各种膨胀系数d下实现姿态校正模块;
输出人i的姿势热图:
(Φi(p,c,n*),Oi,d,Mi,d)→Hi,d(c)。
进一步地,步骤S3中,根据下述公式进行姿态预筛选:
式中,I(p*)为p*的指示函数,表示p*是否忽略;K为p*中关键点的个数;表示p*的第k个关键点是否缺失,缺失为1,否则为0;x1和y1分别为人体脖子姿态点的横坐标和纵坐标,xi和yi分别为人体姿态点的横、纵坐标,i=0,1,...,n-1。
进一步地,步骤S4中,正面人体姿态点二维坐标信息计算的过程包括以下步骤:
S41,利用双目立体相机来估计人体骨架深度信息:
式中,对应于第t帧图像中人体第i个姿态点与左摄像头连线在成像图中的点,对应于第t帧图像中人体第i个姿态点与右摄像头连线在成像图中的点,b是为两个摄像头之间的距离,f为摄像头平面与成像平面之间的距离,/>是在第t帧图像中人体第i个姿态点的深度信息;
S42,通过人体两侧姿态点深度信息得到的不对称关系来确定出人体偏转角:
式中,为第t帧图像中人体第i个姿态点的横坐标,/>为第t帧图像中人体第i个姿态点的纵坐标,/>为对应于/>在人体另一侧的横坐标,/>为对应于/>在人体另一侧的纵坐标,/> 为偏转角对应的人体姿态点连接而成的封闭三角形的三边,/>为人体横截面与X轴的夹角,/>为摄像头与人体姿态点连线与Y轴的夹角;
S43,通过所得偏转角来纠正人体姿态点二维坐标信息:
式中,为纠正后的人体姿态点横坐标,/>为纠正后的人体姿态点纵坐标,
进一步地,步骤S5中,骨架行为识别模型包括依次连接的局部卷积神经网络、基于注意的LSTM网络和分类模块;
所述局部卷积神经网络基于输入序列X=(x1,x2,...xn),执行时空卷积网络,得到每个短期骨架序列的时空关系,获得n个特征值f=[f1,f2,...fn];xi代表在i阶段的人体关节数据,为一T×M×D维矩阵,D是人体关节数据的维度,M表示骨架关节的数量,T表示骨架序列的帧数量;
所述基于注意的LSTM网络对局部卷积神经网络输出的每个短期骨架序列的时空关系进行处理,得到相应的时间特征图,再对所有时间特征图进行平均,获得全局特征图:
hi=g(fi),i∈(1,n);
Q=[h1,h2,...,hn];
α=softmax(wTtanh(Q));
r=QαT;
式中,S是整个骨架序列的全局特征表示,h是LSTM网络输出的时空特征图,k是输入骨架序列的人数;g函数表示LSTM网络的特征提取过程,Q是LSTM网络输出的所有时间特征图的组合输出结果,使用时间序列的局部特征作为LSTM的输入,LSTM遗忘门意味着移除前一时间段中的无用段,并且输入门增加当前时间段中的有用段,LSTM门表示骨架序列中的选择过程,保留有用的时间段特征,并丢弃无用的时间段特征,以获得骨架序列中最有用的计时特征,α表示LSTM输出中n个特征的注意,w表示注意力学习的加权矩阵,r表示LSTM输出时的加权注意力总和,在这个等式中,更重要的特征会引起更高的关注;
所述分类模块包括全连接层和softmax层,全连接层与分类总类别相适配,对基于注意的LSTM网络输出的全局特征进行识别,得到相应的行为分类结果。
有益效果:
第一,与常用的图像增强算法相比,本发明的物联网边缘服务环境下深度感知的人体行为分析方法,使用了一种基于伽马函数的自适应图像对比度调整方法,避免了光线不足或不均匀的情况时拍摄的图像显示亮度低、对比度差、局部细节模糊、颜色保真度差、亮度突然变化等问题。
第二,与已有的常用的目标检测算法YOLOv3相比,本发明的物联网边缘服务环境下深度感知的人体行为分析方法,使用的YOLOv5检测速度快,检测精度高,鲁棒性强,有较好的可扩展性,既满足检测精度要求,又满足检测速度要求。
第三,本发明的物联网边缘服务环境下深度感知的人体行为分析方法,提出一种基于姿态点置信度的自适应姿态预筛选方法对人体姿态进行预筛选,减少了识别模型的工作量,增加了识别准确性。
第四,本发明的物联网边缘服务环境下深度感知的人体行为分析方法,提出一种基于双目摄像机的深度感知姿态点矫正算法得到目标姿态点深度信息,有效应对姿态遮挡等问题。
附图说明
图1为本发明实施例的物联网边缘服务环境下深度感知的人体行为分析方法流程图。
图2为PTM空间信息结构图。
图3为PRF时间信息结构图。
图4为PCN矫正模块结构图。
图5为基于时空关系的骨架行为识别网络模型图。
具体实施方式
下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
参见图1,本发明公开了一种物联网边缘服务环境下深度感知的人体行为分析方法,该人体行为分析方法包括:首先进行图像预处理,对采集到的视频流转化为图像帧,并提出一种基于伽马函数的自适应图像对比度调整方法,针对不同环境下图像各个像素点灰度值的变化对图像对比度做出自适应调整;其次进行姿态点提取,首先使用改进的YOLOv5s模型进行目标检测,识别出图像中的人体目标,并标记各个人体区域矩形框,之后使用DCPose框架对人体姿态进行估计,提取出人体骨骼关键点;然后进行姿态预筛选,提出一种基于姿态点置信度的自适应姿态预筛选方法对人体姿态进行预筛选;然后使用一种基于双目摄像机的深度感知姿态点矫正算法得到目标姿态点深度信息后,通过人体两侧姿态点深度信息得到的不对称关系来确定出人体偏转角,通过所得偏转角来纠正人体姿态点二维坐标信息,得到正面人体姿态点二维坐标信息;最后使用一种基于时空卷积和基于注意的LSTM的骨架行为识别模型对异常行为进行识别分析。本发明主要针对在物联网边缘服务环境下当光线不足或不均匀的情况时拍摄的图像显示亮度低、对比度差、局部细节模糊,以及视频散焦或姿势遮挡、检测目标过小等问题,可以对人体行为进行有效分析
下面结合附图和实施例对本发明的技术方案作进一步的说明。本发明的物联网边缘服务环境下深度感知的人体行为分析方法整体设计图如图1所示,包括以下步骤:
步骤1,采集视频并将其转化为图像帧,使用一种基于伽马函数的自适应图像对比度调整方法进行图像增强。具体地,基于伽马函数的自适应图像对比度调整方法如下:
首先加载原始RGB彩色图像S(x,y),将其转化为HSI颜色模型,选择强度图像SI(x,y)。
其次提高强度图像:
(1)使用WGIF估计强度的光照分量:
上式中,和/>都是以像素i为中心的wi窗口中的线性系数,N为窗口总个数。
(2)使用自适应伽马函数校正光照分量:
SILG(x,y)=SIL(x,y)φ(x,y);
由于在不同光照条件下图像对比度不断变化,我们通过将图像光照分量各个像素点的灰度值与中间像素点灰度值之差的总和与像素点平均灰度值之比来得到自适应系数a的表达式:
上式中,SILG(x,y)为纠正后的照明分量,φ(x,y)为伽马矫正函数,m和n为图像的高度和宽度,参数a由灰度值自适应导出,当光照较强时,a会变小,当光照较暗时,a会变大,从而使图像对比度维持在一定范围之内。
(3)执行全局线性拉伸:
上式中,min(SILG(x,y))和max(SILG(x,y))分别是图像中的最小和最大像素值。
(4)计算反射分量:
SIR(x,y)=SI(x,y)/SIL(x,y)。
(5)使用WGIF去噪反射组件:
(6)进行图像融合操作:
(6.1)计算增强的强度图像:
SIE(x,y)=SILGf(x,y)SIRH(x,y);
(6.2)利用s-双曲正切函数提高融合图像的亮度:
上式中b*是SIE的平均强度,m和n分别是SIE的高度和宽度。
(7)最后进行颜色恢复:
(7.1)计算亮度增益系数:
α(x,y)=SIEf(x,y)/SI(x,y);
(7.2)通过线性颜色恢复将增强的HSI图像转换为RGB:
B1(x,y)=α(x,y)B0(x,y);
上式中,原始和增强彩色图像的RGB通道分别表示为[R0,G0,B0]和[R1,G1,B1]。
步骤2,通过YOLOv5s模型对图像进行检测,识别出图像中的人体目标,采用DCPose算法对人体骨骼关键点进行提取。
其中YOLOv5模型优化方法如下:
(1)损失函数的改进
该函数通过设置了一个旋转参数,可旋转的矩形边界框能够更紧凑的贴合
倾斜与密集的物体,该损失函数使用“数像素点”的方法来计算两旋转框之间的IoU,因此其可以使用在水平框和旋转矩形框的场景上,其对于旋转框的定位具有较好的优化作用,特别是高纵横比的情况下。
PIOU损失计算公式如下:
公式中,M为所有正样本的集合,|M|为正样本数,b表真实目标,b′表示目标框,b∩表示两者之间的交集区域,b∪分别表示两者之间并集区域,FPIOU函数的计算公式如下:
公式中,Sb∩表示经损失函数内核函数处理后,目标b和目标框b′交集的像素量数,Sb∪则表示两者并集的像素量数。
(2)增加平衡因子
FPN聚合相邻特征图层的方式公式如下:
其中,finner是1*1的卷积操作实现通道匹配,fupsample代表2倍上采样操作实现特征图大小匹配,平衡因子在FPN中默认为1,我们基于统计的解决方法,利用数据集的统计信息计算/>的计算公式如下所示,其中Npi+1和Npi分别代表pi+1和pi层的数量:
DCPose算法中的框架主要包含三个模块:
(1)姿态时间合并模块(PTM):定位关键点的搜索范围
首先将前一帧、这一帧和后一帧的预测热图结合得到新的热图,根据时间分配权重,得到初始的权重,时间上更接近当前帧的帧显式分配更高的权重:
式中hi(p)、hi(c)和hi(n*)表示初始关键点热图,p、c和n*表示帧索引;
利用神经网络对权值进行调整,对于每个关节,仅包括其自己特定时间信息的关键点热图,将15个关节点得到的热图进行拼接生成最后的热图:
式中,表示连接操作,上标j索引第j个关节,总共N个关节;
将热图输入到3*3的残差模块中,得到合并后的热图:
φi(p,c,n*)→Φi(p,c,n*);
所述态残差融合模块用于计算帧间关键点偏移,计算过程包括以下步骤:
计算姿态残差,将计算得到的姿态残差用作时间相关的线索,计算姿态残差特征的公式如下:
式中,表示原始姿态残差/>及其加权版本;
将热图输入到3*3的残差模块中,得到合并后的热图:
所述姿态矫正模块用于对姿态进行矫正,矫正过程包括以下步骤:
将合并的关节点热图和姿态残差特征/>两组特征合并,姿势校正网络用于细化初始关键点热图估计hi(c),产生调整后的最终关节点热图;
将合并的关节点热图Φi(p,c,n*)和偏移量输入到卷积层,获得五组mask;通过可变形卷积V2网络在各种膨胀系数d下实现姿态校正模块;
输出人i的姿势热图:
(Φi(p,c,n*),Oi,d,Mi,d)→Hi,d(c)。
步骤3,采用一种基于姿态点置信度的自适应姿态预筛选方法对人体姿态进行预筛选。
具体地,基于姿态点置信度的自适应姿态预筛选方法如下:
由于在姿态点提取过程中,某些无效的姿态点会造成识别模型工作量的加大以及造成相关姿态对于人体行为分析无效,因此采用一些方法来对人体姿态进行有效筛选是必要的,具体实施步骤如下:
对于某个人体姿态p来说,当其所有关键点置信度为0的数目大于设定的阈值N时,即关键点缺失超过设定的阈值N时,忽略此人体姿态,我们将N定义为人体各个姿态点与脖子的欧氏距离与这些姿态点个数之比的最小值,N表示为完整表示这个人体姿态的需要的除脖子之外的最小姿态点个数,如下公式所示:
/>
式中,I(p*)为p*的指示函数,表示p*是否忽略;K为p*中关键点的个数;表示p*的第k个关键点是否缺失,缺失为1,否则为0;x1和y1分别为人体脖子姿态点的横坐标和纵坐标,xi和yi分别为人体姿态点的横、纵坐标,i=0,1,...,n-1。
步骤4,使用一种基于双目摄像机的深度感知姿态点矫正算法来得到目标姿态点深度信息,根据所得深度信息来纠正人体姿态点二维坐标信息。具体地,基于双目摄像机的深度感知姿态点矫正算法如下:
由于在拍摄过程中不能保证拍摄的是人体正面视角,不可避免地会造成姿态遮挡以及判决结果的不准确,因此我们可以利用得到的深度信息来确定人体的这种不对称性,然后求得人体偏转角,反推得到姿态点的正面视角二维坐标。
该方法利用双目立体相机来估计人体骨架深度信息,如下公式所示:
上式中对应于第t帧图像中人体第i个姿态点与左摄像头连线在成像图中的点,类似地/>对应于第t帧图像中人体第i个姿态点与右摄像头连线在成像图中的点,b是为两个摄像头之间的距离,f为摄像头平面与成像平面之间的距离,/>是在第t帧图像中人体第i个姿态点的深度信息。
通过人体两侧姿态点深度信息得到的不对称关系来确定出人体偏转角,如下公式所示:
上式中为第t帧图像中人体第i个姿态点的横坐标,/>为第t帧图像中人体第i个姿态点的纵坐标,/>为对应于/>在人体另一侧的横坐标,/>为对应于/>在人体另一侧的纵坐标,/> 为偏转角对应的人体姿态点连接而成的封闭三角形的三边,/>为人体横截面与X轴的夹角,/>为摄像头与人体姿态点连线与Y轴的夹角。
通过所得偏转角来纠正人体姿态点二维坐标信息,如下公式所示:
/>
上式中为纠正后的人体姿态点横坐标,/>为纠正后的人体姿态点纵坐标,
步骤5,使用一种基于时空卷积和基于注意的LSTM的骨架行为识别模型对异常行为进行识别分析。具体地,基于时空卷积和基于注意的LSTM的骨架行为识别模型如下:
在ST-CNN部分,基于输入数据执行时空卷积网络,通过该网络,可以得到每个短期骨架序列的时空关系,骨架序列被分成n个连续的组,这些组是网络的输入,我们把输入序列设为X=(x1,x2,...xn),xi代表在i阶段的人体关节数据,这是一个T×M×D维矩阵,D是人体关节数据的维度,因为输入是2D骨骼数据,所以我们将D设置为2,M表示骨架关节的数量,T表示骨架序列的帧数量。滤波器的维数为3×3×t,其中t是内核的时间深度,第一个池层的大小设置为3×3×1,其余为3×3×3,最后一个数字是时间深度,将其设置为1意味着在单个帧上共享,这将有助于保留时间功能。
对于注意网络,我们首先将X重塑为另一个表示形式Y=[y1,y2,...ym],其中yi∈RNK然后,我们采用前馈神经网络为每个关节生成注意权重ai,如下式所示:
其中σ(.)表示激活函数,Wa和表示注意学习的加权矩阵和偏差项,注意被表示为satt=[s1,s2,...sm],以匹配输入X的形状,X∈RN×M×K,复制注意图K次,得到最终的注意图A∈RN×M×K,最后,我们通过元素相乘获得加权特征:
fn=A·X;
式中FNN是前馈神经网络,是骨架序列的加权特征。
在基于注意的LSTM部分,我们通过局部卷积神经网络获得N个特征值,并将其设置为f=[f1,f2,...fn],并将N个特征用作ATT-LSTM网络的输入,每次ATT-LSTM接收到时空特征图时,ATT-LSTM的前半部分是LSTM网络,每个输入时刻都有一个高级特征图可用,组合LSTM输出的所有时间特征图,可以用以下公式表示:
hi=g(fi),i∈(1,n);
Q=[h1,h2,...,hn];
α=softmax(wTtanh(Q));
r=QαT;
式中,g函数表示LSTM的特征提取过程,Q是LSTM输出的所有时间特征图的组合输出结果,使用时间序列的局部特征作为LSTM的输入,LSTM遗忘门意味着移除前一时间段中的无用段,并且输入门增加当前时间段中的有用段,LSTM门表示骨架序列中的选择过程,保留有用的时间段特征,并丢弃无用的时间段特征,以获得骨架序列中最有用的计时特征,α表示LSTM输出中n个特征的注意,w表示注意力学习的加权矩阵,r表示LSTM输出时的加权注意力总和,在这个等式中,更重要的特征会引起更高的关注。
为了使网络平均获得所有有用信息,ATT-LSTM设计对所有输出进行平均,以获得作为网络后半部分的全局特征图,公式如下式所示:
式中,S是整个骨架序列的全局特征表示,h是LSTM网络输出的时空特征图,k是输入骨架序列的人数。
网络的第三部分通过softmax连接到完全连接的层,完全连接层的大小是要分类的类别的大小,全局特征映射被输入到零件中以获得最终行为分类的结果。
Claims (5)
1.一种物联网边缘服务环境下深度感知的人体行为分析方法,其特征在于,所述人体行为分析方法包括以下步骤:
S1,图像预处理:将采集得到的视频流转化为图像帧,针对不同环境参数下的图像的各个像素点灰度值的变化,对图像的对比度做出自适应调整;
S2,姿态点提取:基于YOLOv5s网络构建目标检测模型,采用目标检测模型进行目标检测,识别出图像中的人体目标,标记各个人体区域矩形框;对各个人体区域矩形框中的人体姿态进行估计,提取出人体骨骼关键点;
S3,姿态预筛选:基于姿态点置信度,对人体姿态进行预筛选,对于任意一个人体姿态,当其所对应的人体骨骼关键点置信度为0的数目大于预设阈值时,忽略此人体姿态;
S4,正面人体姿态点二维坐标信息计算:针对每个预筛选的人体姿态,获取其所对应的目标姿态点深度信息,通过人体两侧姿态点深度信息得到的不对称关系来确定出人体偏转角,通过所得偏转角来纠正人体姿态点二维坐标信息,得到正面人体姿态点二维坐标信息;
S5,异常行为识别:根据正面人体姿态点二维坐标信息统计得到人体关节数据序列,基于LSTM网络构建骨架行为识别模型,采用骨架行为识别模型对指定阶段内的人体关节数据序列进行处理,对其中包含的异常行为进行识别分析;
步骤S1中,图像预处理的过程包括以下步骤:
S11,加载原始RGB彩色图像S(x,y),将其转化为HSI颜色模型,得到对应的强度图像SI(x,y);
S12,提高强度图像SI(x,y),具体地:
S121,估计强度的光照分量SIL(x,y):
式中,和/>都是以像素i为中心的wi窗口中的线性系数,i=1,2,3...N,N为窗口总个数;
S122,使用自适应伽马函数校正光照分量:
SILG(x,y)=SIL(x,y)φ(x,y);
通过光照分量各个像素点的灰度值计算得到自适应系数a的表达式:
式中,SILG(x,y)为纠正后的照明分量,φ(x,y)为伽马矫正函数,m和n为图像的高度和宽度,参数a由灰度值自适应导出;
S13,采用下述公式执行全局线性拉伸:
式中,min(SILG(x,y))和max(SILG(x,y))分别是图像中的最小和最大像素值;
S14,采用下述公式计算反射分量:
SIR(x,y)=SI(x,y)/SIL(x,y);
S15,使用WGIF去噪反射组件去除图像噪声:
S16,进行图像融合操作:
S161,采用下述公式计算增强的强度图像:
SIE(x,y)=SILGf(x,y)SIRH(x,y);
S162,利用s-双曲正切函数提高融合图像的亮度:
式中,b*是SIE的平均强度;
S17,进行颜色恢复,具体地:
S171,计算亮度增益系数α(x,y):
α(x,y)=SIEf(x,y)/SI(x,y);
S172,通过线性颜色恢复将增强的HSI图像转换为RGB:
R1(x,y)=α(x,y)R0(x,y);
G1(x,y)=α(x,y)G0(x,y);
B1(x,y)=α(x,y)B0(x,y);
式中,原始和增强彩色图像的RGB通道分别表示为[R0,G0,B0]和[R1,G1,B1];
步骤S3中,根据下述公式进行姿态预筛选:
式中,I(p*)为p*的指示函数,表示p*是否忽略;K为p*中关键点的个数;表示p*的第k个关键点是否缺失,缺失为1,否则为0;x1和y1分别为人体脖子姿态点的横坐标和纵坐标,xi和yi分别为人体姿态点的横、纵坐标,i=0,1,...,n-1;
步骤S4中,正面人体姿态点二维坐标信息计算的过程包括以下步骤:
S41,利用双目立体相机来估计人体骨架深度信息:
式中,对应于第t帧图像中人体第i个姿态点与左摄像头连线在成像图中的点,/>对应于第t帧图像中人体第z个姿态点与右摄像头连线在成像图中的点,b是为两个摄像头之间的距离,f为摄像头平面与成像平面之间的距离,/>是在第t帧图像中人体第i个姿态点的深度信息;
S42,通过人体两侧姿态点深度信息得到的不对称关系来确定出人体偏转角:
式中,为第t帧图像中人体第i个姿态点的横坐标,/>为第t帧图像中人体第i个姿态点的纵坐标,/>为对应于/>在人体另一侧的横坐标,/>为对应于/>在人体另一侧的纵坐标,为偏转角对应的人体姿态点连接而成的封闭三角形的三边,/>为人体横截面与X轴的夹角,/>为摄像头与人体姿态点连线与Y轴的夹角:
S43,通过所得偏转角来纠正人体姿态点二维坐标信息:
式中,为纠正后的人体姿态点横坐标,/>为纠正后的人体姿态点纵坐标,
2.根据权利要求1所述的物联网边缘服务环境下深度感知的人体行为分析方法,其特征在于,步骤S2中,目标检测模型的损失函数为:
式中,M为所有正样本的集合,|M|为正样本数,b表真实目标,b′表示目标框,b∩b′表示两者之间的交集区域,b∪b′分别表示两者之间并集区域,FPIOU函数的计算公式如下:
式中,Sb∩b′表示经损失函数内核函数处理后,目标b和目标框b′交集的像素量数;Sb∪b′表示两者并集的像素量数。
3.根据权利要求1所述的物联网边缘服务环境下深度感知的人体行为分析方法,其特征在于,在目标检测模型中,FPN聚合相邻特征图层的方式公式如下:
式中,finner是1*1的卷积操作实现通道匹配,fupsample代表2倍上采样操作实现特征图大小匹配,利用数据集的统计信息计算平衡因子
式中,和Npi分别代表Pi+1和pi层的数量。
4.根据权利要求3所述的物联网边缘服务环境下深度感知的人体行为分析方法,其特征在于,步骤S2中,采用DCPose框架对各个人体区域矩形框中的人体姿态进行估计,提取出人体骨骼关键点;
所述DCPose框架包括姿态时间合并模块、姿态残差融合模块和姿态矫正模块;
所述姿态时间合并模块用于定位关键点的搜索范围,定位过程包括以下步骤:
将前一帧、这一帧和后一帧的预测热图结合得到新的热图,根据时间分配权重,得到初始的权重,时间上更接近当前帧的帧分配更高的权重:
式中hi(p)、hi(c)和hi(n*)表示初始关键点热图,p、c和n*表示帧索引;
利用神经网络对权值进行调整,对于每个关节,仅包括其自己特定时间信息的关键点热图,将15个关节点得到的热图进行拼接生成最后的热图:
式中,表示连接操作,上标j索引第j个关节,总共N个关节;
将热图输入到3*3的残差模块中,得到合并后的热图:
φi(p,c,n*)→Φi(p,c,n*);
所述姿态残差融合模块用于计算帧间关键点偏移,计算过程包括以下步骤:
计算姿态残差,将计算得到的姿态残差用作时间相关的线索,计算姿态残差特征的公式如下:
式中,表示原始姿态残差/>及其加权版本;
将热图输入到3*3的残差模块中,得到合并后的热图:
所述姿态矫正模块用于对姿态进行矫正,矫正过程包括以下步骤:
将合并的关节点热图和姿态残差特征Ψi(p,c,n*)两组特征合并,姿势校正网络用于细化初始关键点热图估计hi(c),产生调整后的最终关节点热图;
将合并的关节点热图Φi(p,c,n*)和偏移量输入到卷积层,获得五组掩码;通过可变形卷积V2网络在各种膨胀系数d下实现姿态校正模块;
输出人i的姿势热图:
(Φi(p,c,n*),Oi,d,Mi,d)→Hi,d(c)。
5.根据权利要求1所述的物联网边缘服务环境下深度感知的人体行为分析方法,其特征在于,步骤S5中,骨架行为识别模型包括依次连接的局部卷积神经网络、基于注意的LSTM网络和分类模块;
所述局部卷积神经网络基于输入序列X=(x1,x2,...xN),执行时空卷积网络,得到每个短期骨架序列的时空关系,获得N个特征值f=[f1,f2,...fN];xp代表在p阶段的人体关节数据,为一T×M×D维矩阵,D是人体关节数据的维度,M表示骨架关节的数量,T表示骨架序列的帧数量;
所述基于注意的LSTM网络对局部卷积神经网络输出的每个短期骨架序列的时空关系进行处理,得到相应的时间特征图,再对所有时间特征图进行平均,获得全局特征图:
hp=g(fp),p∈(1,N);
Q=[h1,h2,...,hN];
α=softmax(wTtanh(Q));
r=QαT;
式中,S是整个骨架序列的全局特征表示,h是LSTM网络输出的时空特征图,k是输入骨架序列的人数;g函数表示LSTM网络的特征提取过程,Q是LSTM网络输出的所有时间特征图的组合输出结果,使用时间序列的局部特征作为LSTM的输入,LSTM遗忘门意味着移除前一时间段中的无用段,并且输入门增加当前时间段中的有用段,LSTM门表示骨架序列中的选择过程,保留有用的时间段特征,并丢弃无用的时间段特征,以获得骨架序列中最有用的计时特征,α表示LSTM输出中N个特征的注意,w表示注意力学习的加权矩阵,r表示LSTM输出时的加权注意力总和,在这个等式中,更重要的特征会引起更高的关注;
所述分类模块包括全连接层和softmax层,全连接层与分类总类别相适配,对基于注意的LSTM网络输出的全局特征进行识别,得到行为分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210666969.7A CN115116132B (zh) | 2022-06-13 | 2022-06-13 | 一种物联网边缘服务环境下深度感知的人体行为分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210666969.7A CN115116132B (zh) | 2022-06-13 | 2022-06-13 | 一种物联网边缘服务环境下深度感知的人体行为分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115116132A CN115116132A (zh) | 2022-09-27 |
CN115116132B true CN115116132B (zh) | 2023-07-28 |
Family
ID=83329229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210666969.7A Active CN115116132B (zh) | 2022-06-13 | 2022-06-13 | 一种物联网边缘服务环境下深度感知的人体行为分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116132B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497596B (zh) * | 2022-11-18 | 2023-04-07 | 深圳聚邦云天科技有限公司 | 一种基于物联网的人体运动过程姿态纠正方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085003A (zh) * | 2020-09-24 | 2020-12-15 | 湖北科技学院 | 公共场所异常行为自动识别方法及装置、摄像机设备 |
CN112101247A (zh) * | 2020-09-18 | 2020-12-18 | 济南博观智能科技有限公司 | 一种人脸姿态估计方法、装置、设备及存储介质 |
CN112633220A (zh) * | 2020-12-30 | 2021-04-09 | 浙江工商大学 | 一种基于双向序列化建模的人体姿态估计方法 |
CN113992860A (zh) * | 2021-12-28 | 2022-01-28 | 北京国电通网络技术有限公司 | 基于云边协同的行为识别方法、装置、电子设备和介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10019629B2 (en) * | 2016-05-31 | 2018-07-10 | Microsoft Technology Licensing, Llc | Skeleton-based action detection using recurrent neural network |
WO2019198696A1 (ja) * | 2018-04-11 | 2019-10-17 | 株式会社アジラ | 行動推定装置 |
US20210202090A1 (en) * | 2019-12-26 | 2021-07-01 | Teladoc Health, Inc. | Automated health condition scoring in telehealth encounters |
US20210232810A1 (en) * | 2020-01-24 | 2021-07-29 | University Of Washington | Automated monitoring system for biomechanical postural assessment |
-
2022
- 2022-06-13 CN CN202210666969.7A patent/CN115116132B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101247A (zh) * | 2020-09-18 | 2020-12-18 | 济南博观智能科技有限公司 | 一种人脸姿态估计方法、装置、设备及存储介质 |
CN112085003A (zh) * | 2020-09-24 | 2020-12-15 | 湖北科技学院 | 公共场所异常行为自动识别方法及装置、摄像机设备 |
CN112633220A (zh) * | 2020-12-30 | 2021-04-09 | 浙江工商大学 | 一种基于双向序列化建模的人体姿态估计方法 |
CN113992860A (zh) * | 2021-12-28 | 2022-01-28 | 北京国电通网络技术有限公司 | 基于云边协同的行为识别方法、装置、电子设备和介质 |
Non-Patent Citations (2)
Title |
---|
LSTM with bio inspired algorithm for action recognition in sports videos;Jun Chen et al.;《Image and Vision Computing》;全文 * |
基于复杂场景的跌倒行为检测研究;朱泽宇;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115116132A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hambarde et al. | UW-GAN: Single-image depth estimation and image enhancement for underwater images | |
Wang et al. | Static and moving object detection using flux tensor with split Gaussian models | |
CN109074652B (zh) | 图像识别装置、移动体装置以及图像识别程序 | |
US6937744B1 (en) | System and process for bootstrap initialization of nonparametric color models | |
CN109299643B (zh) | 一种基于大姿态对准的人脸识别方法及系统 | |
US6757571B1 (en) | System and process for bootstrap initialization of vision-based tracking systems | |
CN107248174A (zh) | 一种基于tld算法的目标跟踪方法 | |
Liu et al. | Image de-hazing from the perspective of noise filtering | |
KR100572768B1 (ko) | 디지탈 영상 보안을 위한 사람 얼굴 객체 자동검출 방법 | |
Ali et al. | Multiple object tracking with partial occlusion handling using salient feature points | |
CN113744315B (zh) | 一种基于双目视觉的半直接视觉里程计 | |
CN107808140B (zh) | 一种基于图像融合的单目视觉道路识别算法 | |
CN115116132B (zh) | 一种物联网边缘服务环境下深度感知的人体行为分析方法 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
Kadim et al. | Deep-learning based single object tracker for night surveillance. | |
Kim et al. | Cross fusion-based low dynamic and saturated image enhancement for infrared search and tracking systems | |
CN108345835A (zh) | 一种基于仿复眼感知的目标识别方法 | |
Lien et al. | Moving target tracking based on CamShift approach and Kalman filter | |
Nosheen et al. | Efficient Vehicle Detection and Tracking using Blob Detection and Kernelized Filter | |
CN115147450B (zh) | 基于运动帧差图像的移动目标检测方法及检测装置 | |
CN110766093A (zh) | 一种基于多帧特征融合的视频目标重识别方法 | |
CN103345762B (zh) | 基于流形学习的贝叶斯视觉跟踪方法 | |
Cyganek et al. | Virtual high dynamic range imaging for underwater drone navigation | |
Brinkworth et al. | Bio-inspired model for robust motion detection under noisy conditions | |
Morawski et al. | Detection of Moving Heat-Emitting Object Using Single IR Camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |