CN112926522A - 一种基于骨骼姿态与时空图卷积网络的行为识别方法 - Google Patents
一种基于骨骼姿态与时空图卷积网络的行为识别方法 Download PDFInfo
- Publication number
- CN112926522A CN112926522A CN202110339729.1A CN202110339729A CN112926522A CN 112926522 A CN112926522 A CN 112926522A CN 202110339729 A CN202110339729 A CN 202110339729A CN 112926522 A CN112926522 A CN 112926522A
- Authority
- CN
- China
- Prior art keywords
- node
- pixel
- frame
- video
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000010586 diagram Methods 0.000 title claims abstract description 11
- 230000006399 behavior Effects 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 210000000988 bone and bone Anatomy 0.000 claims description 9
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000009776 industrial production Methods 0.000 abstract description 5
- 238000012423 maintenance Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 20
- 206010000117 Abnormal behaviour Diseases 0.000 description 9
- 238000000605 extraction Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010009 beating Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20224—Image subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于骨骼姿态与时空图卷积网络的行为识别方法,包括如下步骤:建立包含若干视频段的数据集;利用改进的ViBe算法,提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心;采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标,计算所述质心与所述节点的距离,根据距离优先原则分配节点置信度;将经处理的数据送入ST_GCN算法模型中进行训练;利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。利用本发明能够对视频中的人物行为有效识别,保证识别的准确性与实时性,能够应用于工业生产、公共安防、智慧养老等领域,具有广泛的推广价值。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于骨骼姿态与时空图卷积网络的行为识别方法。
背景技术
行为识别是计算机视觉技术中的重要研究分支,它在公共安防、智慧养老、工业生产、自动驾驶等方面具有广阔的应用前景。虽然行为识别在各个领域的不同场景都有很大的应用,但是其受到检测背景的复杂性、光照分布、目标遮挡等问题的限制。
如今,随着计算机视觉在各行各业取得的极大进展,使得行为识别在工业生产、公共安防、智慧养老等领域的研究也日益增加,行为识别从传统方法上的DT算法、IDT算法到如今深度学习上的单/双流法、基于骨架数据的行为识别方法。而基于骨骼数据的行为识别具备对不同的环境有着很强的鲁棒性、数据量级小、实现端到端系统的优点,因此许多科研人员进行基于骨骼数据的行为识别相关研究。可是在现有的相关研究中基于LSTM的方法、基于图卷积的方法中没有充分发挥基于骨骼数据集的行为识别优势,动作识别的准确率低;同时以往的图卷积网络存在计算量大,检测速度慢等问题,导致在各个领域应用受限,难以发挥实际效果。
发明内容
本发明针对现有技术的缺陷,提供一种基于骨骼姿态与时空图卷积网络的行为识别方法,能够利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务,保证识别的准确性与实时性。
本发明首先提供了一种基于骨骼姿态与时空图卷积网络的行为识别方法,包括如下步骤:
步骤S1,建立包含若干视频段的数据集;
步骤S2,利用改进的ViBe算法,提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心;
步骤S3,采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标,计算所述质心与所述节点的距离,根据距离优先原则分配节点置信度;
步骤S4,将经所述步骤S3处理的数据送入ST_GCN算法模型中进行训练;
步骤S5,利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。
进一步地,在所述步骤S1中,所述数据集包括训练集、测试集和验证集。
进一步地,所述步骤S2包括:
步骤S21、计算当前帧与上一帧之间像素的波动差,当两帧之间的像素波动数量大于设定阈值时,确定所述当前帧为关键帧并提取;
步骤S22、初始化所述关键帧中每个像素点的背景模型,使时刻t=0,随机挑选每个像素点的邻域像素点作为背景模型;
步骤S23、对后续的图像序列进行前景目标分割处理,确定前景点区域;
步骤S24、对前景点区域求质心。
进一步地,在所述步骤S21中,当当前帧与上一帧之间的像素波动数量大于5%时,确定此帧为关键帧C0并提取,所述关键帧的判断公式为:
其中S为当前帧与上一帧之间的像素波动数量总数,Fn(i,j),Fn-1(i,j)分别为当前帧与上一帧在(i,j)处的像素值,n为视频中帧的索引,依次对视频进行关键帧的提取得到关键帧C0,C1,C2,C3,C4,…Cn。
进一步地,在所述步骤S22中,时刻t=0时的背景模型公式如下:
BKM0=f0(xi,yi)|(xi,yi)∈NG(x,y),
其中,D用于计算当前像素点fk(x,y)与其对应的背景模型中的像素点fi(x,y)距离,R、G、B为每个像素点的像素值,T为预设的距离阈值,fk(x,y)为待判断像素点,若背景模型中的像素点fi(x,y)与当前像素点fk(x,y)的距离D小于预设的距离阈值T,则使N=N+1,N的初始值为0,当N达到一设定阈值时,判断当前像素点fk(x,y)为背景点,否则判断该像素点为前景点;遍历单帧图像的所有像素点以确定前景点。
进一步地,所述步骤S24包括:
步骤S241、计算图像中所有前景点的像素灰度值之和,计算公式如下:
步骤S242、计算图像中每个像素点与对应的X坐标的乘积之和及每个像素点与其对应的Y坐标的乘积之和,计算公式如下:
步骤S243、分别计算质心坐标的x和y,计算公式如下:
进一步地,所述步骤S3包括:
步骤S31、将所述提取的关键帧送入Openpose算法模型中进行骨骼数据提取,输出五维张量(N,C,T,V,M),其中N表示一次批处理视频的个数,C表示关节特征,C=(x,y,acc),所述关节特征包括节点坐标及节点置信度,T表示视频帧数,V表示单帧图像中节点数,M表示单帧图像行人的个数;
步骤S32、计算所述提取的关键帧的前景区域的质心与节点的距离,计算公式如下:
其中(x0,y0)为质心坐标,(xi,yj)为各个节点坐标,得到各节点与质心的距离d1,d2,d3.....dv,V为单帧图像的节点数;
步骤S33、对所述质心与节点的距离d1,d2,d3.....dv进行归一化处理,得到新的节点与质心的距离e1,e2,e3,e4,…ev,经过归一化处理使得0≤e*<1,该e*用于后续节点置信度重分配,归一化公式式如下:
其中dmax、dmin为所述质心与节点的距离最大值、距离最小值;
步骤S34、对节点置信度进行重分配,得到新的节点置信度ACC1,ACC2,...ACCv,分配公式如下:
ACCi=acci+(1-acci)*ei,其中i=1,2…V。
进一步地,所述步骤S4包括:
步骤S41、搭建ST_GCN算法模型;
步骤S42、对经所述步骤S3生成的骨骼数据从时间和空间两个维度进行归一化处理,使同一节点在不同帧下的位置特征归一化;
步骤S43、将经步骤S42归一化处理的数据送入ST_GCN单元,进行图卷积和时间卷积处理,并根据步骤S3生成的节点置信度进行训练;
步骤S44、采用随机梯度下降SGD算法优化网络参数,得到经训练的模型。
进一步地,所述步骤S5包括:
步骤S51,对实时视频进行预处理,提取时域上的关键帧与空域上的前景区域的质心;
步骤S52,将处理后的视频送入openpose模型中进行骨骼数据提取,然后送入经训练的ST_GCN算法模型中进行行为分类,输出行为识别结果。
本发明提供的基于骨骼姿态与时空图卷积网络的行为识别方法能够对监控中的视频图像首先进行视频预处理,通过改进的ViBe算法对实时监控的视频进行关键帧的提取,并获取关键帧中运动区域的质心,提高检测效率,改善网络的检测精度;再通过人体姿态估计算法OpenPose对处理后的视频进行骨骼数据提取,去除视频中的冗杂信息,再次改善网络检测的速度;计算质心与骨骼节点间的坐标距离,并根据距离优先原则提高节点置信度;最后将处理后的骨骼数据送入时空图卷积网络ST-GCN进行特征提取实现行为分类,该网络具有准确性高,速度快的特点,同时利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务,针对检测到的异常行为能够及时生成结果,保证识别的准确性与实时性,能够应用于工业生产、公共安防、智慧养老等领域,具有广泛的推广价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法的实现流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
此外,以下各实施例的说明是参考附加的图示,用以例示本发明可用以实施的特定实施例。本发明中所提到的方向用语,例如,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”、“侧面”等,仅是参考附加图式的方向,因此,使用的方向用语是为了更好、更清楚地说明及理解本发明,而不是指示或暗指所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
请参阅图1,本发明的实施例公开了一种基于骨骼姿态与时空图卷积网络的行为识别方法,包括如下步骤:
步骤S1,建立包含若干视频段的数据集;
步骤S2,利用改进的ViBe算法,提取视频段中的关键帧并计算关键帧中的前景区域的质心;
步骤S3,采用OpenPose算法对关键帧进行骨骼数据提取得到若干个节点坐标,计算质心与节点的距离,根据距离优先原则分配节点置信度;
步骤S4,将经步骤S3处理的数据送入ST_GCN算法模型中进行训练,优化训练参数;
步骤S5,利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。
本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法主要包括基于时序的视频关键帧提取、人体运动区域(即前景区域)检测、人体骨骼姿态估计、骨骼姿态关节点置信度重分配、基于时空图卷积网络的行为分类五个部分。首先通过改进的ViBe算法对实时监控的视频进行关键帧的提取,并获取关键帧中运动区域的质心,提高检测效率,改善网络的检测精度;再通过人体姿态估计算法OpenPose对处理后的视频进行骨骼数据提取,去除视频中的冗杂信息,再次改善网络检测的速度;计算质心与骨骼节点间的坐标距离,并根据距离优先原则提高节点置信度;最后将处理后的骨骼数据送入经训练的时空图卷积网络ST-GCN进行特征提取实现行为分类,该网络具有准确性高,速度快的特点,同时利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务,针对检测到的异常行为能够及时生成结果,保证识别的准确性与实时性,能够应用于工业生产、公共安防、智慧养老等领域,具有广泛的推广价值。
在步骤S1中,在目标区域安装摄像头,并设置镜头角度采集实时视频。数据集采用至少三台摄像机同时捕获,视频分辨率不低于1920*1080,并在不同时刻、不同地点进行视频采集,将采集的视频分为训练集、测试集和验证集。其中训练集用于送入ST_GCN算法模型中进行训练,测试集用于输入经过训练的ST_GCN算法模型进行测试,验证集用于对测试结果进行验证。
在步骤S2中,针对检测到的前景区域计算质心,通过改进的ViBe算法对视频进行预处理,去除视频中冗杂重复的信息,提高模型检测速度并改善模型的检测精度。ViBe算法是一种基于背景更新的前景检测算法,该算法基于提取像素点(x,y)周围的像素值和先前像素值,创建一组样本像素,然后将另一帧(x,y)处的像素值与样本集中的像素值进行对比,如果结果与样本集中的像素值的距离大于某个阈值,则将该像素定为前景像素,否则定为背景像素点。
在本实施例中,步骤S2包括:
步骤S21、计算当前帧与上一帧之间像素的波动差,当两帧之间的像素波动数量大于设定阈值时,确定当前帧为关键帧并提取;
步骤S22、初始化关键帧中每个像素点的背景模型,使时刻t=0,随机挑选每个像素点的邻域像素点作为背景模型;
步骤S23、对后续的图像序列进行前景目标分割处理,确定前景点区域;
步骤S24、对前景点区域求质心。
在本实施例中,在步骤S21中,当当前帧与上一帧之间的像素波动数量大于5%时,确定此帧为关键帧C0并提取,关键帧的判断公式为:
其中S为当前帧与上一帧之间的像素波动数量总数,Fn(i,j),Fn-1(i,j)分别为当前帧与上一帧在(i,j)处的像素值,n为视频中帧的索引,依次对视频进行关键帧的提取得到关键帧C0,C1,C2,C3,C4,...Cn。
在本实施例中,采用改进的ViBe算法对视频进行预处理,在步骤S22中,时刻t=0时的背景模型公式如下:
BKM0=f0(xi,yi)|(xi,yi)∈NG(x,y),
其中,f0(x,y)表示当前像素点的像素值,NG(x,y)表示空域上相邻的像素值,为当前像素点的背景模型,在N次的初始化的过程中,NG(x,y)中的像素点(xi,yi)被选中的可能次数L=1,2,3,…,N。
其中,第一个式子中,R,G,B为每个像素点的像素值,D用来计算当前像素点fk(x,y)与其对应的背景模型中的像素点fi(x,y)距离。第二个式子中,T为预设的距离阈值,fk(x,y)为待判断像素点。若背景模型中的像素点fi(x,y)与当前像素点fk(x,y)的距离D小于预设的距离阈值T,则使N=N+1,N的初始值为0,当N达到一设定阈值时,判断当前像素点fk(x,y)为背景点,否则判断该像素点为前景点。根据此计算过程,遍历单帧图像的所有像素点以确定前景点。
进一步地,步骤S24包括:
步骤S241、计算图像中所有前景点的像素灰度值之和,计算公式如下:
步骤S242、计算图像中每个像素点与对应的X坐标的乘积之和及每个像素点与其对应的Y坐标的乘积之和,计算公式如下:
步骤S243、分别计算质心坐标的x和y,计算公式如下:
所述步骤S3包括:
步骤S31、将所述提取的关键帧送入Openpose算法模型中进行骨骼数据提取,输出五维张量(N,C,T,V,M),其中N表示一次批处理视频的个数,C表示关节特征,C=(x,y,acc),所述关节特征包括节点坐标及节点置信度,T表示视频帧数,V表示单帧图像中节点数,M表示单帧图像行人的个数;
步骤S32、计算所述提取的关键帧的前景区域的质心与节点的距离,计算公式如下:
其中(x0,y0)为质心坐标,(xi,yj)为各个节点坐标,得到各节点与质心的距离d1,d2,d3.....dv,V为单帧图像的节点数;
步骤S33、对所述质心与节点的距离d1,d2,d3.....dv进行归一化处理,得到新的节点与质心的距离e1,e2,e3,e4,…ev,经过归一化处理使得0≤e*<1,该e*用于后续节点置信度重分配,归一化公式式如下:
其中dmax、dmin为所述质心与节点的距离最大值、距离最小值;
步骤S34、对节点置信度进行重分配,得到新的节点置信度ACC1,ACC2,...ACCv,分配公式如下:
ACCi=acci+(1-acci)*ei,其中i=1,2…V。
在步骤S3中,将提取的关键帧送入Openpose算法模型中进行骨骼数据提取,去除视频中的冗杂信息,根据前景区域的质心与各个节点的距离增加相应节点的权重,有利于异常行为动作的识别精度,提高模型的准确性。openpose算法是一种自底向上的算法,首先检测出图像中所有人的关节(关键点),然后将检出的关键点分配给每个对应的人。OpenPose人体姿态识别算法项目是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以Caffe为框架开发的开源库,可以实现人体动作、面部表情、手指运动等姿态估计,适用于单人和多人,具有极好的鲁棒性。
在步骤S4中,将得到的数据送入构建好的模型中进行训练,得到训练好的模型。其中,ST_GCN算法模型即时空图卷积网络模型。步骤S4包括:
步骤S41、搭建ST_GCN算法模型;
步骤S42、对经所述步骤S3生成的骨骼数据从时间和空间两个维度进行归一化处理,使同一节点在不同帧下的位置特征归一化;
步骤S43、将经步骤S42归一化处理的数据送入ST_GCN单元,进行图卷积和时间卷积处理,并根据步骤S3生成的节点置信度进行训练;
步骤S44、采用随机梯度下降SGD算法优化网络参数,得到经训练的模型。
在本实施例中,具体地,ST_GCN算法模型的训练过程可包括以下步骤:
步骤S401,采用批处理的方式一次从数据集中抽取256个视频用于模型的训练;
步骤S402,将视频先送入ViBe算法中进行前景区域检测,并通过分支计算区域区域的质心以及提取关键帧;
步骤S403,将提取的关键帧送入openpose中进行骨骼提取,生成骨骼数据;
步骤S404,对生成的骨骼数据从时间和空间两个维度进行归一化处理,即同一节点在不同帧下的位置特征归一化;
步骤S405,将归一化的数据送入ST_GCN单元,连续进行图卷积、时间卷积处理,增加关节维度同时降低关键帧的维度;
步骤S406,计算质心到节点的距离,并根据质心与节点距离调整节点数据的训练权重进行训练,具体地,可将距离较近的前五个节点在训练时增加权重;
步骤S407,采用随机梯度下降SGD算法,对网络参数进行优化。
在步骤S5中,通过训练好的模型对采集的实时视频进行检测,对视频中异常行为进行判断,并生成相应的检测框与行为类别。其中,步骤S5包括:
步骤S51,对实时视频进行预处理,提取时域上的关键帧与空域上的前景区域的质心;
步骤S52,将处理后的视频送入openpose模型中进行骨骼数据提取,然后送入经训练的ST_GCN算法模型中进行行为分类,输出行为识别结果。
在本发明的一种实施方式中,本发明可应用于基于行为识别的ATM提款机智能安防系统,通过对ATM提款区域下的异常行为的视频制作训练数据,通过基于骨骼行为识别的时空图卷积网络对模型进行数据优化,作为控制模块的检测单元对监控区域下的异常行为及时警告或报警。与其它骨骼行为识别方法相比,此方法针对场景的适用性更强、准确度更高。在此应用场景下,步骤S52之后,还可包括:
步骤S53,接收检测结果,针对异常行为中的“拍打机器”、“踢机器”进行语音警告、连续警告两次后,若仍监测到拍打机器或踢机器的异常行为选择报警;
步骤S54,针对异常行为中的“持刀”、“偷窃”、“抢东西”直接选择报警;
本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法通过建立数据集,将数据集进行预处理提取关键帧,然后对关键帧进行骨骼数据提取并调整节点置信度,再将处理后的数据送入模型进行训练,最后将整个模型采取端到端的方式进行反向传播训练,优化模型参数完成训练,将训练好的模型进行实时视频检测,将生成的检测框与行为类别输出,极大地提高了检测精度与检测速度,对多个领域具有可见的应用价值。
以上并不限于本发明的实施方式,以上具体实施方式的描述旨在描述与说明本发明的技术方案,以上具体实施方式仅仅是示意式的,并不是限制式的。任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及发明专利构思加以同等替换或改变,都属于本发明专利的保护范围之内。
Claims (10)
1.一种基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,包括如下步骤:
步骤S1,建立包含若干视频段的数据集;
步骤S2,利用改进的ViBe算法,提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心;
步骤S3,采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标,计算所述质心与所述节点的距离,根据距离优先原则分配节点置信度;
步骤S4,将经所述步骤S3处理的数据送入ST_GCN算法模型中进行训练;
步骤S5,利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。
2.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,在所述步骤S1中,所述数据集包括训练集、测试集和验证集。
3.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S2包括:
步骤S21、计算当前帧与上一帧之间像素的波动差,当两帧之间的像素波动数量大于设定阈值时,确定所述当前帧为关键帧并提取;
步骤S22、初始化所述关键帧中每个像素点的背景模型,使时刻t=0,随机挑选每个像素点的邻域像素点作为背景模型;
步骤S23、对后续的图像序列进行前景目标分割处理,确定前景点区域;
步骤S24、对前景点区域求质心。
6.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,在所述步骤S23中,当t=k时,像素点(x,y)的背景模型为当前像素值为fk(x,y),根据如下公式判断该像素点是否为前景点:
8.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S3包括:
步骤S31、将所述提取的关键帧送入Openpose算法模型中进行骨骼数据提取,输出五维张量(N,C,T,V,M),其中N表示一次批处理视频的个数,C表示关节特征,C=(x,y,acc),所述关节特征包括节点坐标及节点置信度,T表示视频帧数,V表示单帧图像中节点数,M表示单帧图像行人的个数;
步骤S32、计算所述提取的关键帧的前景区域的质心与节点的距离,计算公式如下:
其中(x0,y0)为质心坐标,(xi,yj)为各个节点坐标,得到各节点与质心的距离d1,d2,d3......dv,V为单帧图像的节点数;
步骤S33、对所述质心与节点的距离d1,d2,d3.....dv进行归一化处理,得到新的节点与质心的距离e1,e2,e3,e4,...ev,经过归一化处理使得0≤e*<1,该e*用于后续节点置信度重分配,归一化公式式如下:
其中dmax、dmin为所述质心与节点的距离最大值、距离最小值;
步骤S34、对节点置信度进行重分配,得到新的节点置信度ACC1,ACC2,...ACCv,分配公式如下:
ACCi=acci+(1-acci)*ei,其中i=1,2...V。
9.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S4包括:
步骤S41、搭建ST_GCN算法模型;
步骤S42、对经所述步骤S3生成的骨骼数据从时间和空间两个维度进行归一化处理,使同一节点在不同帧下的位置特征归一化;
步骤S43、将经步骤S42归一化处理的数据送入ST_GCN单元,进行图卷积和时间卷积处理,并根据步骤S3生成的节点置信度进行训练;
步骤S44、采用随机梯度下降SGD算法优化网络参数,得到经训练的模型。
10.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S5包括:
步骤S51,对实时视频进行预处理,提取时域上的关键帧与空域上的前景区域的质心;
步骤S52,将处理后的视频送入openpose模型中进行骨骼数据提取,然后送入经训练的ST_GCN算法模型中进行行为分类,输出行为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339729.1A CN112926522B (zh) | 2021-03-30 | 2021-03-30 | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339729.1A CN112926522B (zh) | 2021-03-30 | 2021-03-30 | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926522A true CN112926522A (zh) | 2021-06-08 |
CN112926522B CN112926522B (zh) | 2023-11-24 |
Family
ID=76176563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110339729.1A Active CN112926522B (zh) | 2021-03-30 | 2021-03-30 | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926522B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642525A (zh) * | 2021-09-02 | 2021-11-12 | 浙江大学 | 一种基于骨骼点的婴儿神经发育评估方法和系统 |
CN114282593A (zh) * | 2021-11-22 | 2022-04-05 | 南京信息工程大学 | 一种基于机器视觉的手语识别方法 |
CN114565882A (zh) * | 2022-04-29 | 2022-05-31 | 深圳航天信息有限公司 | 基于多视频摄像头智能联动的异常行为分析方法及装置 |
CN117831136A (zh) * | 2024-03-04 | 2024-04-05 | 贵州省种畜禽种质测定中心 | 基于远程监控的牛异常行为检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682302A (zh) * | 2012-03-12 | 2012-09-19 | 浙江工业大学 | 一种基于关键帧的多特征融合的人体姿态识别方法 |
CN107844779A (zh) * | 2017-11-21 | 2018-03-27 | 重庆邮电大学 | 一种视频关键帧提取方法 |
CN107943837A (zh) * | 2017-10-27 | 2018-04-20 | 江苏理工学院 | 一种前景目标关键帧化的视频摘要生成方法 |
CN109460702A (zh) * | 2018-09-14 | 2019-03-12 | 华南理工大学 | 基于人体骨架序列的乘客异常行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN111046789A (zh) * | 2019-12-10 | 2020-04-21 | 哈尔滨工程大学 | 一种行人重识别方法 |
CN111310668A (zh) * | 2020-02-18 | 2020-06-19 | 大连海事大学 | 一种基于骨架信息的步态识别方法 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN111931701A (zh) * | 2020-09-11 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的姿态识别方法、装置、终端和存储介质 |
CN112101176A (zh) * | 2020-09-09 | 2020-12-18 | 元神科技(杭州)有限公司 | 一种结合用户步态信息的用户身份识别方法及系统 |
CN112395945A (zh) * | 2020-10-19 | 2021-02-23 | 北京理工大学 | 基于骨骼关节点的图卷积行为识别方法及装置 |
-
2021
- 2021-03-30 CN CN202110339729.1A patent/CN112926522B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682302A (zh) * | 2012-03-12 | 2012-09-19 | 浙江工业大学 | 一种基于关键帧的多特征融合的人体姿态识别方法 |
CN107943837A (zh) * | 2017-10-27 | 2018-04-20 | 江苏理工学院 | 一种前景目标关键帧化的视频摘要生成方法 |
CN107844779A (zh) * | 2017-11-21 | 2018-03-27 | 重庆邮电大学 | 一种视频关键帧提取方法 |
CN109460702A (zh) * | 2018-09-14 | 2019-03-12 | 华南理工大学 | 基于人体骨架序列的乘客异常行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN111046789A (zh) * | 2019-12-10 | 2020-04-21 | 哈尔滨工程大学 | 一种行人重识别方法 |
CN111310668A (zh) * | 2020-02-18 | 2020-06-19 | 大连海事大学 | 一种基于骨架信息的步态识别方法 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112101176A (zh) * | 2020-09-09 | 2020-12-18 | 元神科技(杭州)有限公司 | 一种结合用户步态信息的用户身份识别方法及系统 |
CN111931701A (zh) * | 2020-09-11 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的姿态识别方法、装置、终端和存储介质 |
CN112395945A (zh) * | 2020-10-19 | 2021-02-23 | 北京理工大学 | 基于骨骼关节点的图卷积行为识别方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642525A (zh) * | 2021-09-02 | 2021-11-12 | 浙江大学 | 一种基于骨骼点的婴儿神经发育评估方法和系统 |
CN114282593A (zh) * | 2021-11-22 | 2022-04-05 | 南京信息工程大学 | 一种基于机器视觉的手语识别方法 |
CN114565882A (zh) * | 2022-04-29 | 2022-05-31 | 深圳航天信息有限公司 | 基于多视频摄像头智能联动的异常行为分析方法及装置 |
CN114565882B (zh) * | 2022-04-29 | 2022-07-19 | 深圳航天信息有限公司 | 基于多视频摄像头智能联动的异常行为分析方法及装置 |
CN117831136A (zh) * | 2024-03-04 | 2024-04-05 | 贵州省种畜禽种质测定中心 | 基于远程监控的牛异常行为检测方法 |
CN117831136B (zh) * | 2024-03-04 | 2024-05-07 | 贵州省种畜禽种质测定中心 | 基于远程监控的牛异常行为检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112926522B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN109344725B (zh) | 一种基于时空关注度机制的多行人在线跟踪方法 | |
CN112926522B (zh) | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 | |
Mohandes et al. | Arabic sign language recognition using the leap motion controller | |
Du et al. | Hierarchical recurrent neural network for skeleton based action recognition | |
CN104008370B (zh) | 一种视频人脸识别方法 | |
CN111611905B (zh) | 一种可见光与红外融合的目标识别方法 | |
Owens et al. | Application of the self-organising map to trajectory classification | |
US8855363B2 (en) | Efficient method for tracking people | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN111797771B (zh) | 一种基于迭代学习的弱监督视频行为检测方法及系统 | |
KR20160096460A (ko) | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 | |
CN112836640A (zh) | 一种单摄像头多目标行人跟踪方法 | |
CN104063719A (zh) | 基于深度卷积网络的行人检测方法及装置 | |
CN112434599B (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
CN115880784A (zh) | 基于人工智能的景区多人动作行为监测方法 | |
CN113065431B (zh) | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 | |
CN112149616A (zh) | 基于动态信息的人物交互行为识别方法 | |
CN111860117A (zh) | 一种基于深度学习的人体行为识别方法 | |
CN112616023A (zh) | 复杂环境下的多摄像机视频目标追踪方法 | |
KR100390569B1 (ko) | 크기와 회전에 무관한 지능형 얼굴검출 방법 | |
CN103971100A (zh) | 基于视频并针对自动提款机的伪装与偷窥行为的检测方法 | |
CN111626197A (zh) | 一种人体行为识别网络模型及识别方法 | |
CN110766093A (zh) | 一种基于多帧特征融合的视频目标重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |