CN112926522A - 一种基于骨骼姿态与时空图卷积网络的行为识别方法 - Google Patents

一种基于骨骼姿态与时空图卷积网络的行为识别方法 Download PDF

Info

Publication number
CN112926522A
CN112926522A CN202110339729.1A CN202110339729A CN112926522A CN 112926522 A CN112926522 A CN 112926522A CN 202110339729 A CN202110339729 A CN 202110339729A CN 112926522 A CN112926522 A CN 112926522A
Authority
CN
China
Prior art keywords
node
pixel
frame
video
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110339729.1A
Other languages
English (en)
Other versions
CN112926522B (zh
Inventor
吴亮生
李辰潼
黄天仑
黄凯
雷欢
卢杏坚
何峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Original Assignee
Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Intelligent Manufacturing of Guangdong Academy of Sciences filed Critical Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority to CN202110339729.1A priority Critical patent/CN112926522B/zh
Publication of CN112926522A publication Critical patent/CN112926522A/zh
Application granted granted Critical
Publication of CN112926522B publication Critical patent/CN112926522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于骨骼姿态与时空图卷积网络的行为识别方法,包括如下步骤:建立包含若干视频段的数据集;利用改进的ViBe算法,提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心;采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标,计算所述质心与所述节点的距离,根据距离优先原则分配节点置信度;将经处理的数据送入ST_GCN算法模型中进行训练;利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。利用本发明能够对视频中的人物行为有效识别,保证识别的准确性与实时性,能够应用于工业生产、公共安防、智慧养老等领域,具有广泛的推广价值。

Description

一种基于骨骼姿态与时空图卷积网络的行为识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于骨骼姿态与时空图卷积网络的行为识别方法。
背景技术
行为识别是计算机视觉技术中的重要研究分支,它在公共安防、智慧养老、工业生产、自动驾驶等方面具有广阔的应用前景。虽然行为识别在各个领域的不同场景都有很大的应用,但是其受到检测背景的复杂性、光照分布、目标遮挡等问题的限制。
如今,随着计算机视觉在各行各业取得的极大进展,使得行为识别在工业生产、公共安防、智慧养老等领域的研究也日益增加,行为识别从传统方法上的DT算法、IDT算法到如今深度学习上的单/双流法、基于骨架数据的行为识别方法。而基于骨骼数据的行为识别具备对不同的环境有着很强的鲁棒性、数据量级小、实现端到端系统的优点,因此许多科研人员进行基于骨骼数据的行为识别相关研究。可是在现有的相关研究中基于LSTM的方法、基于图卷积的方法中没有充分发挥基于骨骼数据集的行为识别优势,动作识别的准确率低;同时以往的图卷积网络存在计算量大,检测速度慢等问题,导致在各个领域应用受限,难以发挥实际效果。
发明内容
本发明针对现有技术的缺陷,提供一种基于骨骼姿态与时空图卷积网络的行为识别方法,能够利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务,保证识别的准确性与实时性。
本发明首先提供了一种基于骨骼姿态与时空图卷积网络的行为识别方法,包括如下步骤:
步骤S1,建立包含若干视频段的数据集;
步骤S2,利用改进的ViBe算法,提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心;
步骤S3,采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标,计算所述质心与所述节点的距离,根据距离优先原则分配节点置信度;
步骤S4,将经所述步骤S3处理的数据送入ST_GCN算法模型中进行训练;
步骤S5,利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。
进一步地,在所述步骤S1中,所述数据集包括训练集、测试集和验证集。
进一步地,所述步骤S2包括:
步骤S21、计算当前帧与上一帧之间像素的波动差,当两帧之间的像素波动数量大于设定阈值时,确定所述当前帧为关键帧并提取;
步骤S22、初始化所述关键帧中每个像素点的背景模型,使时刻t=0,随机挑选每个像素点的邻域像素点作为背景模型;
步骤S23、对后续的图像序列进行前景目标分割处理,确定前景点区域;
步骤S24、对前景点区域求质心。
进一步地,在所述步骤S21中,当当前帧与上一帧之间的像素波动数量大于5%时,确定此帧为关键帧C0并提取,所述关键帧的判断公式为:
Figure BDA0002998845940000031
其中S为当前帧与上一帧之间的像素波动数量总数,Fn(i,j),Fn-1(i,j)分别为当前帧与上一帧在(i,j)处的像素值,n为视频中帧的索引,依次对视频进行关键帧的提取得到关键帧C0,C1,C2,C3,C4,…Cn
进一步地,在所述步骤S22中,时刻t=0时的背景模型公式如下:
BKM0=f0(xi,yi)|(xi,yi)∈NG(x,y),
其中,f0(x,y)表示当前像素点的像素值,NG(x,y)表示空域上相邻的像素值,
Figure BDA0002998845940000032
为当前像素点的背景模型。
进一步地,在所述步骤S23中,当t=k时,像素点(x,y)的背景模型为
Figure BDA0002998845940000033
当前像素值为fk(x,y),根据如下公式判断该像素点是否为前景点:
Figure BDA0002998845940000034
Figure BDA0002998845940000035
其中,D用于计算当前像素点fk(x,y)与其对应的背景模型
Figure BDA0002998845940000036
中的像素点fi(x,y)距离,R、G、B为每个像素点的像素值,T为预设的距离阈值,fk(x,y)为待判断像素点,若背景模型中的像素点fi(x,y)与当前像素点fk(x,y)的距离D小于预设的距离阈值T,则使N=N+1,N的初始值为0,当N达到一设定阈值时,判断当前像素点fk(x,y)为背景点,否则判断该像素点为前景点;遍历单帧图像的所有像素点以确定前景点。
进一步地,所述步骤S24包括:
步骤S241、计算图像中所有前景点的像素灰度值之和,计算公式如下:
Figure BDA0002998845940000041
步骤S242、计算图像中每个像素点与对应的X坐标的乘积之和及每个像素点与其对应的Y坐标的乘积之和,计算公式如下:
Figure BDA0002998845940000042
Figure BDA0002998845940000043
步骤S243、分别计算质心坐标的x和y,计算公式如下:
Figure BDA0002998845940000044
Figure BDA0002998845940000045
进一步地,所述步骤S3包括:
步骤S31、将所述提取的关键帧送入Openpose算法模型中进行骨骼数据提取,输出五维张量(N,C,T,V,M),其中N表示一次批处理视频的个数,C表示关节特征,C=(x,y,acc),所述关节特征包括节点坐标及节点置信度,T表示视频帧数,V表示单帧图像中节点数,M表示单帧图像行人的个数;
步骤S32、计算所述提取的关键帧的前景区域的质心与节点的距离,计算公式如下:
Figure BDA0002998845940000046
其中(x0,y0)为质心坐标,(xi,yj)为各个节点坐标,得到各节点与质心的距离d1,d2,d3.....dv,V为单帧图像的节点数;
步骤S33、对所述质心与节点的距离d1,d2,d3.....dv进行归一化处理,得到新的节点与质心的距离e1,e2,e3,e4,…ev,经过归一化处理使得0≤e*<1,该e*用于后续节点置信度重分配,归一化公式式如下:
Figure BDA0002998845940000051
其中dmax、dmin为所述质心与节点的距离最大值、距离最小值;
步骤S34、对节点置信度进行重分配,得到新的节点置信度ACC1,ACC2,...ACCv,分配公式如下:
ACCi=acci+(1-acci)*ei,其中i=1,2…V。
进一步地,所述步骤S4包括:
步骤S41、搭建ST_GCN算法模型;
步骤S42、对经所述步骤S3生成的骨骼数据从时间和空间两个维度进行归一化处理,使同一节点在不同帧下的位置特征归一化;
步骤S43、将经步骤S42归一化处理的数据送入ST_GCN单元,进行图卷积和时间卷积处理,并根据步骤S3生成的节点置信度进行训练;
步骤S44、采用随机梯度下降SGD算法优化网络参数,得到经训练的模型。
进一步地,所述步骤S5包括:
步骤S51,对实时视频进行预处理,提取时域上的关键帧与空域上的前景区域的质心;
步骤S52,将处理后的视频送入openpose模型中进行骨骼数据提取,然后送入经训练的ST_GCN算法模型中进行行为分类,输出行为识别结果。
本发明提供的基于骨骼姿态与时空图卷积网络的行为识别方法能够对监控中的视频图像首先进行视频预处理,通过改进的ViBe算法对实时监控的视频进行关键帧的提取,并获取关键帧中运动区域的质心,提高检测效率,改善网络的检测精度;再通过人体姿态估计算法OpenPose对处理后的视频进行骨骼数据提取,去除视频中的冗杂信息,再次改善网络检测的速度;计算质心与骨骼节点间的坐标距离,并根据距离优先原则提高节点置信度;最后将处理后的骨骼数据送入时空图卷积网络ST-GCN进行特征提取实现行为分类,该网络具有准确性高,速度快的特点,同时利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务,针对检测到的异常行为能够及时生成结果,保证识别的准确性与实时性,能够应用于工业生产、公共安防、智慧养老等领域,具有广泛的推广价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法的实现流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
此外,以下各实施例的说明是参考附加的图示,用以例示本发明可用以实施的特定实施例。本发明中所提到的方向用语,例如,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”、“侧面”等,仅是参考附加图式的方向,因此,使用的方向用语是为了更好、更清楚地说明及理解本发明,而不是指示或暗指所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
请参阅图1,本发明的实施例公开了一种基于骨骼姿态与时空图卷积网络的行为识别方法,包括如下步骤:
步骤S1,建立包含若干视频段的数据集;
步骤S2,利用改进的ViBe算法,提取视频段中的关键帧并计算关键帧中的前景区域的质心;
步骤S3,采用OpenPose算法对关键帧进行骨骼数据提取得到若干个节点坐标,计算质心与节点的距离,根据距离优先原则分配节点置信度;
步骤S4,将经步骤S3处理的数据送入ST_GCN算法模型中进行训练,优化训练参数;
步骤S5,利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。
本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法主要包括基于时序的视频关键帧提取、人体运动区域(即前景区域)检测、人体骨骼姿态估计、骨骼姿态关节点置信度重分配、基于时空图卷积网络的行为分类五个部分。首先通过改进的ViBe算法对实时监控的视频进行关键帧的提取,并获取关键帧中运动区域的质心,提高检测效率,改善网络的检测精度;再通过人体姿态估计算法OpenPose对处理后的视频进行骨骼数据提取,去除视频中的冗杂信息,再次改善网络检测的速度;计算质心与骨骼节点间的坐标距离,并根据距离优先原则提高节点置信度;最后将处理后的骨骼数据送入经训练的时空图卷积网络ST-GCN进行特征提取实现行为分类,该网络具有准确性高,速度快的特点,同时利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务,针对检测到的异常行为能够及时生成结果,保证识别的准确性与实时性,能够应用于工业生产、公共安防、智慧养老等领域,具有广泛的推广价值。
在步骤S1中,在目标区域安装摄像头,并设置镜头角度采集实时视频。数据集采用至少三台摄像机同时捕获,视频分辨率不低于1920*1080,并在不同时刻、不同地点进行视频采集,将采集的视频分为训练集、测试集和验证集。其中训练集用于送入ST_GCN算法模型中进行训练,测试集用于输入经过训练的ST_GCN算法模型进行测试,验证集用于对测试结果进行验证。
在步骤S2中,针对检测到的前景区域计算质心,通过改进的ViBe算法对视频进行预处理,去除视频中冗杂重复的信息,提高模型检测速度并改善模型的检测精度。ViBe算法是一种基于背景更新的前景检测算法,该算法基于提取像素点(x,y)周围的像素值和先前像素值,创建一组样本像素,然后将另一帧(x,y)处的像素值与样本集中的像素值进行对比,如果结果与样本集中的像素值的距离大于某个阈值,则将该像素定为前景像素,否则定为背景像素点。
在本实施例中,步骤S2包括:
步骤S21、计算当前帧与上一帧之间像素的波动差,当两帧之间的像素波动数量大于设定阈值时,确定当前帧为关键帧并提取;
步骤S22、初始化关键帧中每个像素点的背景模型,使时刻t=0,随机挑选每个像素点的邻域像素点作为背景模型;
步骤S23、对后续的图像序列进行前景目标分割处理,确定前景点区域;
步骤S24、对前景点区域求质心。
在本实施例中,在步骤S21中,当当前帧与上一帧之间的像素波动数量大于5%时,确定此帧为关键帧C0并提取,关键帧的判断公式为:
Figure BDA0002998845940000091
其中S为当前帧与上一帧之间的像素波动数量总数,Fn(i,j),Fn-1(i,j)分别为当前帧与上一帧在(i,j)处的像素值,n为视频中帧的索引,依次对视频进行关键帧的提取得到关键帧C0,C1,C2,C3,C4,...Cn
在本实施例中,采用改进的ViBe算法对视频进行预处理,在步骤S22中,时刻t=0时的背景模型公式如下:
BKM0=f0(xi,yi)|(xi,yi)∈NG(x,y),
其中,f0(x,y)表示当前像素点的像素值,NG(x,y)表示空域上相邻的像素值,
Figure BDA0002998845940000092
为当前像素点的背景模型,在N次的初始化的过程中,NG(x,y)中的像素点(xi,yi)被选中的可能次数L=1,2,3,…,N。
在所述步骤S23中,当t=k时,像素点(x,y)的背景模型为
Figure BDA0002998845940000093
当前像素值为fk(x,y),根据如下公式判断该像素点是否为前景点:
Figure BDA0002998845940000094
Figure BDA0002998845940000095
其中,第一个式子中,R,G,B为每个像素点的像素值,D用来计算当前像素点fk(x,y)与其对应的背景模型
Figure BDA0002998845940000096
中的像素点fi(x,y)距离。第二个式子中,T为预设的距离阈值,fk(x,y)为待判断像素点。若背景模型中的像素点fi(x,y)与当前像素点fk(x,y)的距离D小于预设的距离阈值T,则使N=N+1,N的初始值为0,当N达到一设定阈值时,判断当前像素点fk(x,y)为背景点,否则判断该像素点为前景点。根据此计算过程,遍历单帧图像的所有像素点以确定前景点。
进一步地,步骤S24包括:
步骤S241、计算图像中所有前景点的像素灰度值之和,计算公式如下:
Figure BDA0002998845940000101
步骤S242、计算图像中每个像素点与对应的X坐标的乘积之和及每个像素点与其对应的Y坐标的乘积之和,计算公式如下:
Figure BDA0002998845940000102
Figure BDA0002998845940000103
步骤S243、分别计算质心坐标的x和y,计算公式如下:
Figure BDA0002998845940000104
Figure BDA0002998845940000105
所述步骤S3包括:
步骤S31、将所述提取的关键帧送入Openpose算法模型中进行骨骼数据提取,输出五维张量(N,C,T,V,M),其中N表示一次批处理视频的个数,C表示关节特征,C=(x,y,acc),所述关节特征包括节点坐标及节点置信度,T表示视频帧数,V表示单帧图像中节点数,M表示单帧图像行人的个数;
步骤S32、计算所述提取的关键帧的前景区域的质心与节点的距离,计算公式如下:
Figure BDA0002998845940000111
其中(x0,y0)为质心坐标,(xi,yj)为各个节点坐标,得到各节点与质心的距离d1,d2,d3.....dv,V为单帧图像的节点数;
步骤S33、对所述质心与节点的距离d1,d2,d3.....dv进行归一化处理,得到新的节点与质心的距离e1,e2,e3,e4,…ev,经过归一化处理使得0≤e*<1,该e*用于后续节点置信度重分配,归一化公式式如下:
Figure BDA0002998845940000112
其中dmax、dmin为所述质心与节点的距离最大值、距离最小值;
步骤S34、对节点置信度进行重分配,得到新的节点置信度ACC1,ACC2,...ACCv,分配公式如下:
ACCi=acci+(1-acci)*ei,其中i=1,2…V。
在步骤S3中,将提取的关键帧送入Openpose算法模型中进行骨骼数据提取,去除视频中的冗杂信息,根据前景区域的质心与各个节点的距离增加相应节点的权重,有利于异常行为动作的识别精度,提高模型的准确性。openpose算法是一种自底向上的算法,首先检测出图像中所有人的关节(关键点),然后将检出的关键点分配给每个对应的人。OpenPose人体姿态识别算法项目是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以Caffe为框架开发的开源库,可以实现人体动作、面部表情、手指运动等姿态估计,适用于单人和多人,具有极好的鲁棒性。
在步骤S4中,将得到的数据送入构建好的模型中进行训练,得到训练好的模型。其中,ST_GCN算法模型即时空图卷积网络模型。步骤S4包括:
步骤S41、搭建ST_GCN算法模型;
步骤S42、对经所述步骤S3生成的骨骼数据从时间和空间两个维度进行归一化处理,使同一节点在不同帧下的位置特征归一化;
步骤S43、将经步骤S42归一化处理的数据送入ST_GCN单元,进行图卷积和时间卷积处理,并根据步骤S3生成的节点置信度进行训练;
步骤S44、采用随机梯度下降SGD算法优化网络参数,得到经训练的模型。
在本实施例中,具体地,ST_GCN算法模型的训练过程可包括以下步骤:
步骤S401,采用批处理的方式一次从数据集中抽取256个视频用于模型的训练;
步骤S402,将视频先送入ViBe算法中进行前景区域检测,并通过分支计算区域区域的质心以及提取关键帧;
步骤S403,将提取的关键帧送入openpose中进行骨骼提取,生成骨骼数据;
步骤S404,对生成的骨骼数据从时间和空间两个维度进行归一化处理,即同一节点在不同帧下的位置特征归一化;
步骤S405,将归一化的数据送入ST_GCN单元,连续进行图卷积、时间卷积处理,增加关节维度同时降低关键帧的维度;
步骤S406,计算质心到节点的距离,并根据质心与节点距离调整节点数据的训练权重进行训练,具体地,可将距离较近的前五个节点在训练时增加权重;
步骤S407,采用随机梯度下降SGD算法,对网络参数进行优化。
在步骤S5中,通过训练好的模型对采集的实时视频进行检测,对视频中异常行为进行判断,并生成相应的检测框与行为类别。其中,步骤S5包括:
步骤S51,对实时视频进行预处理,提取时域上的关键帧与空域上的前景区域的质心;
步骤S52,将处理后的视频送入openpose模型中进行骨骼数据提取,然后送入经训练的ST_GCN算法模型中进行行为分类,输出行为识别结果。
在本发明的一种实施方式中,本发明可应用于基于行为识别的ATM提款机智能安防系统,通过对ATM提款区域下的异常行为的视频制作训练数据,通过基于骨骼行为识别的时空图卷积网络对模型进行数据优化,作为控制模块的检测单元对监控区域下的异常行为及时警告或报警。与其它骨骼行为识别方法相比,此方法针对场景的适用性更强、准确度更高。在此应用场景下,步骤S52之后,还可包括:
步骤S53,接收检测结果,针对异常行为中的“拍打机器”、“踢机器”进行语音警告、连续警告两次后,若仍监测到拍打机器或踢机器的异常行为选择报警;
步骤S54,针对异常行为中的“持刀”、“偷窃”、“抢东西”直接选择报警;
本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法通过建立数据集,将数据集进行预处理提取关键帧,然后对关键帧进行骨骼数据提取并调整节点置信度,再将处理后的数据送入模型进行训练,最后将整个模型采取端到端的方式进行反向传播训练,优化模型参数完成训练,将训练好的模型进行实时视频检测,将生成的检测框与行为类别输出,极大地提高了检测精度与检测速度,对多个领域具有可见的应用价值。
以上并不限于本发明的实施方式,以上具体实施方式的描述旨在描述与说明本发明的技术方案,以上具体实施方式仅仅是示意式的,并不是限制式的。任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及发明专利构思加以同等替换或改变,都属于本发明专利的保护范围之内。

Claims (10)

1.一种基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,包括如下步骤:
步骤S1,建立包含若干视频段的数据集;
步骤S2,利用改进的ViBe算法,提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心;
步骤S3,采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标,计算所述质心与所述节点的距离,根据距离优先原则分配节点置信度;
步骤S4,将经所述步骤S3处理的数据送入ST_GCN算法模型中进行训练;
步骤S5,利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。
2.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,在所述步骤S1中,所述数据集包括训练集、测试集和验证集。
3.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S2包括:
步骤S21、计算当前帧与上一帧之间像素的波动差,当两帧之间的像素波动数量大于设定阈值时,确定所述当前帧为关键帧并提取;
步骤S22、初始化所述关键帧中每个像素点的背景模型,使时刻t=0,随机挑选每个像素点的邻域像素点作为背景模型;
步骤S23、对后续的图像序列进行前景目标分割处理,确定前景点区域;
步骤S24、对前景点区域求质心。
4.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,在所述步骤S21中,当前帧与上一帧之间的像素波动数量大于5%时,确定此帧为关键帧C0并提取,所述关键帧的判断公式为:
Figure FDA0002998845930000021
其中S为当前帧与上一帧之间的像素波动数量总数,Fn(i,j),Fn-1(i,j)分别为当前帧与上一帧在(i,j)处的像素值,n为视频中帧的索引,依次对视频进行关键帧的提取得到关键帧C0,C1,C2,C3,C4,…Cn
5.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,在所述步骤S22中,时刻t=0时的背景模型公式如下:
Figure FDA0002998845930000022
其中,f0(xi,yi)表示当前点的像素值,NG(x,y)表示空域上相邻的像素值,
Figure FDA0002998845930000023
为t=0时刻当前像素点的背景模型。
6.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,在所述步骤S23中,当t=k时,像素点(x,y)的背景模型为
Figure FDA0002998845930000024
当前像素值为fk(x,y),根据如下公式判断该像素点是否为前景点:
Figure FDA0002998845930000025
Figure FDA0002998845930000026
其中,D用于计算当前像素点fk(x,y)与其对应的背景模型
Figure FDA0002998845930000027
中的像素点fi(x,y)距离,R、G、B为每个像素点的像素值,T为预设的距离阈值,fk(x,y)为待判断像素点,若背景模型中的像素点fι(x,y)与当前像素点fk(x,y)的距离D小于预设的距离阈值T,则使N=N+1,N的初始值为0,当N达到一设定阈值时,判断当前像素点fk(x,y)为背景点,否则判断该像素点为前景点;遍历单帧图像的所有像素点以确定前景点。
7.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S24包括:
步骤S241、计算图像中所有前景点的像素灰度值之和,计算公式如下:
Figure FDA0002998845930000031
步骤S242、计算图像中每个像素点与对应的X坐标的乘积之和及每个像素点与其对应的Y坐标的乘积之和,计算公式如下:
Figure FDA0002998845930000032
Figure FDA0002998845930000033
步骤S243、分别计算质心坐标的x和y,计算公式如下:
Figure FDA0002998845930000034
Figure FDA0002998845930000035
8.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S3包括:
步骤S31、将所述提取的关键帧送入Openpose算法模型中进行骨骼数据提取,输出五维张量(N,C,T,V,M),其中N表示一次批处理视频的个数,C表示关节特征,C=(x,y,acc),所述关节特征包括节点坐标及节点置信度,T表示视频帧数,V表示单帧图像中节点数,M表示单帧图像行人的个数;
步骤S32、计算所述提取的关键帧的前景区域的质心与节点的距离,计算公式如下:
Figure FDA0002998845930000041
其中(x0,y0)为质心坐标,(xi,yj)为各个节点坐标,得到各节点与质心的距离d1,d2,d3......dv,V为单帧图像的节点数;
步骤S33、对所述质心与节点的距离d1,d2,d3.....dv进行归一化处理,得到新的节点与质心的距离e1,e2,e3,e4,...ev,经过归一化处理使得0≤e*<1,该e*用于后续节点置信度重分配,归一化公式式如下:
Figure FDA0002998845930000042
其中dmax、dmin为所述质心与节点的距离最大值、距离最小值;
步骤S34、对节点置信度进行重分配,得到新的节点置信度ACC1,ACC2,...ACCv,分配公式如下:
ACCi=acci+(1-acci)*ei,其中i=1,2...V。
9.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S4包括:
步骤S41、搭建ST_GCN算法模型;
步骤S42、对经所述步骤S3生成的骨骼数据从时间和空间两个维度进行归一化处理,使同一节点在不同帧下的位置特征归一化;
步骤S43、将经步骤S42归一化处理的数据送入ST_GCN单元,进行图卷积和时间卷积处理,并根据步骤S3生成的节点置信度进行训练;
步骤S44、采用随机梯度下降SGD算法优化网络参数,得到经训练的模型。
10.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法,其特征在于,所述步骤S5包括:
步骤S51,对实时视频进行预处理,提取时域上的关键帧与空域上的前景区域的质心;
步骤S52,将处理后的视频送入openpose模型中进行骨骼数据提取,然后送入经训练的ST_GCN算法模型中进行行为分类,输出行为识别结果。
CN202110339729.1A 2021-03-30 2021-03-30 一种基于骨骼姿态与时空图卷积网络的行为识别方法 Active CN112926522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110339729.1A CN112926522B (zh) 2021-03-30 2021-03-30 一种基于骨骼姿态与时空图卷积网络的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110339729.1A CN112926522B (zh) 2021-03-30 2021-03-30 一种基于骨骼姿态与时空图卷积网络的行为识别方法

Publications (2)

Publication Number Publication Date
CN112926522A true CN112926522A (zh) 2021-06-08
CN112926522B CN112926522B (zh) 2023-11-24

Family

ID=76176563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110339729.1A Active CN112926522B (zh) 2021-03-30 2021-03-30 一种基于骨骼姿态与时空图卷积网络的行为识别方法

Country Status (1)

Country Link
CN (1) CN112926522B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642525A (zh) * 2021-09-02 2021-11-12 浙江大学 一种基于骨骼点的婴儿神经发育评估方法和系统
CN114282593A (zh) * 2021-11-22 2022-04-05 南京信息工程大学 一种基于机器视觉的手语识别方法
CN114565882A (zh) * 2022-04-29 2022-05-31 深圳航天信息有限公司 基于多视频摄像头智能联动的异常行为分析方法及装置
CN117831136A (zh) * 2024-03-04 2024-04-05 贵州省种畜禽种质测定中心 基于远程监控的牛异常行为检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682302A (zh) * 2012-03-12 2012-09-19 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法
CN109460702A (zh) * 2018-09-14 2019-03-12 华南理工大学 基于人体骨架序列的乘客异常行为识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN111046789A (zh) * 2019-12-10 2020-04-21 哈尔滨工程大学 一种行人重识别方法
CN111310668A (zh) * 2020-02-18 2020-06-19 大连海事大学 一种基于骨架信息的步态识别方法
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN111931701A (zh) * 2020-09-11 2020-11-13 平安国际智慧城市科技股份有限公司 基于人工智能的姿态识别方法、装置、终端和存储介质
CN112101176A (zh) * 2020-09-09 2020-12-18 元神科技(杭州)有限公司 一种结合用户步态信息的用户身份识别方法及系统
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682302A (zh) * 2012-03-12 2012-09-19 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN109460702A (zh) * 2018-09-14 2019-03-12 华南理工大学 基于人体骨架序列的乘客异常行为识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN111046789A (zh) * 2019-12-10 2020-04-21 哈尔滨工程大学 一种行人重识别方法
CN111310668A (zh) * 2020-02-18 2020-06-19 大连海事大学 一种基于骨架信息的步态识别方法
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN112101176A (zh) * 2020-09-09 2020-12-18 元神科技(杭州)有限公司 一种结合用户步态信息的用户身份识别方法及系统
CN111931701A (zh) * 2020-09-11 2020-11-13 平安国际智慧城市科技股份有限公司 基于人工智能的姿态识别方法、装置、终端和存储介质
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642525A (zh) * 2021-09-02 2021-11-12 浙江大学 一种基于骨骼点的婴儿神经发育评估方法和系统
CN114282593A (zh) * 2021-11-22 2022-04-05 南京信息工程大学 一种基于机器视觉的手语识别方法
CN114565882A (zh) * 2022-04-29 2022-05-31 深圳航天信息有限公司 基于多视频摄像头智能联动的异常行为分析方法及装置
CN114565882B (zh) * 2022-04-29 2022-07-19 深圳航天信息有限公司 基于多视频摄像头智能联动的异常行为分析方法及装置
CN117831136A (zh) * 2024-03-04 2024-04-05 贵州省种畜禽种质测定中心 基于远程监控的牛异常行为检测方法
CN117831136B (zh) * 2024-03-04 2024-05-07 贵州省种畜禽种质测定中心 基于远程监控的牛异常行为检测方法

Also Published As

Publication number Publication date
CN112926522B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109344725B (zh) 一种基于时空关注度机制的多行人在线跟踪方法
CN112926522B (zh) 一种基于骨骼姿态与时空图卷积网络的行为识别方法
Mohandes et al. Arabic sign language recognition using the leap motion controller
Du et al. Hierarchical recurrent neural network for skeleton based action recognition
CN104008370B (zh) 一种视频人脸识别方法
CN111611905B (zh) 一种可见光与红外融合的目标识别方法
Owens et al. Application of the self-organising map to trajectory classification
US8855363B2 (en) Efficient method for tracking people
CN114220176A (zh) 一种基于深度学习的人体行为的识别方法
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN111797771B (zh) 一种基于迭代学习的弱监督视频行为检测方法及系统
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN112836640A (zh) 一种单摄像头多目标行人跟踪方法
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
CN112434599B (zh) 一种基于噪声通道的随机遮挡恢复的行人重识别方法
CN115880784A (zh) 基于人工智能的景区多人动作行为监测方法
CN113065431B (zh) 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法
CN112149616A (zh) 基于动态信息的人物交互行为识别方法
CN111860117A (zh) 一种基于深度学习的人体行为识别方法
CN112616023A (zh) 复杂环境下的多摄像机视频目标追踪方法
KR100390569B1 (ko) 크기와 회전에 무관한 지능형 얼굴검출 방법
CN103971100A (zh) 基于视频并针对自动提款机的伪装与偷窥行为的检测方法
CN111626197A (zh) 一种人体行为识别网络模型及识别方法
CN110766093A (zh) 一种基于多帧特征融合的视频目标重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant