CN114898471A - 一种基于人体骨架特征的行为检测方法及存储介质 - Google Patents
一种基于人体骨架特征的行为检测方法及存储介质 Download PDFInfo
- Publication number
- CN114898471A CN114898471A CN202210812319.9A CN202210812319A CN114898471A CN 114898471 A CN114898471 A CN 114898471A CN 202210812319 A CN202210812319 A CN 202210812319A CN 114898471 A CN114898471 A CN 114898471A
- Authority
- CN
- China
- Prior art keywords
- human
- skeleton
- human body
- target
- behavior detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000006399 behavior Effects 0.000 claims description 72
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 210000003423 ankle Anatomy 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 210000003127 knee Anatomy 0.000 claims description 8
- 210000000707 wrist Anatomy 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/426—Graphical representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/04—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
- G08B21/0438—Sensor means for detecting
- G08B21/0476—Cameras to detect unsafe condition, e.g. video cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/04—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
- G08B21/0407—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis
- G08B21/043—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis detecting an emergency event, e.g. a fall
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Emergency Management (AREA)
- Gerontology & Geriatric Medicine (AREA)
- Business, Economics & Management (AREA)
- Psychology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人体骨架特征的行为检测方法及存储介质,属于计算机视觉技术领域,包括:提取视频流各帧内各人物目标的一系列人体关键点,作为人体骨架特征;对于每一帧中的每一个人物目标,利用其人体骨架特征计算人体结构中心点和近似刚性运动区域,作为骨架特征状态计算值,并估计下一帧中各人物目标的骨架特征状态估计值;根据骨架特征状态的估计值和计算值进行人物目标匹配后,将属于同一个人物目标的人体骨架特征关联到一起,得到各人物目标的骨架特征序列,并将其中的各关键点的特征在时间域上进行关联,得到时空域骨架特征;将时空域骨架特征输入至行为检测模型,得到对应的行为类别。本发明能够提高多人场景下行为检测的精度。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于人体骨架特征的行为检测方法及存储介质。
背景技术
随着人口老龄化程度的加剧,对老人的安全监护逐渐成为整个社会的重要课题。意外跌倒是导致老人意外死亡的重要原因,若能够及时地检测出跌倒的行为,对挽救老人的生命有很大帮助。近年来随着网络摄像头的普及,人们可以通过网络远程查看老人的生活情况,但仅依靠人工的方式对老人的行为进行实时监测依然是不现实的,对于跌倒等危险行为而言,发现的越及时则获救的可能性越大。因此,为了尽可能地避免安全事故的发生,提出有效的行为检测方法对老人的跌倒等危险行为进行实时监测是非常有必要的。
传统的行为检测方法是基于穿戴式传感器或环境传感器的部署,抗噪声能力很差,应用范围非常有限。随着智能终端设备的快速普及,基于视频的行为检测方法逐渐成为了领域内的主流,深度学习相关技术的发展也为实现视频数据的自动分析处理提供了巨大的帮助。
在目前行为检测方法的设计中,光流特征作为对视频中目标运动信息的表示被广泛采用,然而,由于得到光流特征需要使用较多的计算资源与存储资源,难以满足行为检测方法在应用场景中的高实时性要求。随着计算机视觉技术领域中人体姿态估计技术的发展,为设计高效的行为检测方法提供了新的思路,不同于传统基于光流特征的行为检测方法,基于人体关键点的行为检测方法数据量小,计算成本低,并且训练过程不需要人工标注的数据,大大提高了异常检测的适用性和实时性。
但是,由于人体姿态估计提取到的人体骨架特征中仅包含多个人体关键点,特征信息较少、表达能力弱,最终的行为检测精度往往较低。此外,在多目标监控场景下,为了实现对不同人物的行为检测,需要进行视频帧间相同人物的匹配,而人体骨架特征中不同关键点的运动幅度不同,直接基于人体骨架特征进行人物匹配,匹配结果会受到运动噪声的影响,最终的行为检测精度也会受到影响。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于人体骨架特征的行为检测方法及存储介质,其目的在于,提高多人场景下行为检测的精度。
为实现上述目的,按照本发明的一个方面,提供了一种基于人体骨架特征的行为检测方法,包括:(S1)提取输入的视频流中每一帧图像内各人物目标的一系列人体关键点,作为各人物目标的人体骨架特征;(S2)对于每一帧图像中的每一个人物目标,利用其人体骨架特征计算人体结构中心点和近似刚性运动区域,作为骨架特征状态计算值,并根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域,作为骨架特征状态估计值;人体结构中心点和近似刚性运动区域分别为人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点的平均坐标点和最小外接矩形;(S3)根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配,基于匹配结果将各帧图像中属于同一个人物目标的人体骨架特征关联到一起,得到各人物目标的骨架特征序列,并将骨架特征序列中的每一个关键点的特征在时间域上进行关联,得到时空域骨架特征;(S4)将人物目标的时空域骨架特征输入至已训练好的行为检测模型,得到对应的行为类别;行为检测模型为深度学习模型,以人物目标的时空域骨架特征为输入,用于预测对应的行为类别。
进一步地,人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点,为人体骨架特征中剔除了属于运动噪声列表的人体关键点后,剩余的人体关键点;运动噪声列表包括:左肘、右肘、左腕、右腕、左膝、右膝、左踝和右踝。
进一步地,步骤(S2)还包括:对于每一帧图像中的每一个人物目标,计算各人体关键点的邻域的空间特征;并且,步骤(S3)中,各人物目标的时空域骨架特征包括各关键点的邻域的空间特征。
进一步地,空间特征为SIFT特征。
进一步地,步骤(S3)还包括:对人体骨架特征中的人体关键点进行划分,得到多个划分组;每个划分组中的人体关键点在空间和运动上相互关联。
进一步地,行为检测模型为图卷积神经网络模型。
进一步地,步骤(S2)中,根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域,由卡尔曼滤波器完成。
进一步地,步骤(S3)中,根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配,所使用的算法为匈牙利匹配算法。
进一步地,步骤(S4)还包括:若检测得到的行为类别为跌倒,则发出预警信息。
按照本发明的另一个方面,本发明提供了一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行本发明提供的基于人体骨架特征的行为检测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:(1)本发明对于输入的视频流,提取每一帧图像中的人物目标的人体骨架特征,并基于人体骨架特征完成行为检测,由于人体骨架特征能够很好地编码人体的结构信息,不受图像中光照、衣着等因素的影响,因此具有更强的鲁棒性;由于人体骨架特征相比于光流特征具有更为稀疏的结构,因此,能够有效提升行为检测的效率。本发明在进行视频帧间相同人物的匹配时,会先剔除人体骨架特征中在帧间运动幅度较大的人体关键点,而仅利用在视频帧间运动幅度相对稳定的人体关键点计算人体结构中心点和近似刚性运动区域,并基于所计算的人体结构中心点和近似刚性运动区域,由此能够有效降低人物匹配过程中运动噪声的干扰,提高人物目标的匹配准确度,从而有效提高多人场景下行为检测的精度。
(2)本发明提取到人体骨架特征之后,会计算各人体关键点的邻域的空间特征,该空间特征会连同人物目标的时空域骨架特征一起作为行为检测模型的输入,由于空间特征也包含了一定的人体结构信息,因此,相比于传统的基于人体骨架特征的行为检测方法,本发明中,模型的输入包含为了更多的特征信息,能够有效提高模型输出的行为检测结果的精度。
(3)由于人体的结构特点,部分关键点在空间和运动上相关联,本发明基于这一特点,将人体骨架特征中的人体关键点规划分为多个划分组,使得所得到的时空域骨架特征同时包含了骨架点在空间和运动上的关联信息,从而进一步丰富了行为检测模型的输入特征,有利于提高行为检测的精度。
(4)在本发明的一些优选方案中,利用卡尔曼滤波器估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域,利用匈牙利匹配算法进行人物目标匹配,在多人场景下行为检测中,具有较高的计算精度,并这些算法都属于轻量级算法,能够有效提高计算效率。
附图说明
图1为本发明实施例提供的基于人体骨架特征的行为检测方法。
图2为本发明实施例提供的人体结构中心点和近似刚性运动区域。
图3为本发明实施例提供的视频帧间相同人物的匹配示意图。
图4为本发明实施例提供的人体骨架特征和时空域骨架特征示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了解决现有的基于人体骨架特征的行为检测方法由于运动噪声干扰而导致多人场景下行为检测精度低的技术问题,本发明提供了一种基于人体骨架特征的行为检测方法及存储介质,其整体思路在于:在进行帧间相同人物的匹配时,从人体骨架特征中剔除在帧间运动幅度较大的人体骨架点,以降低运动噪声的干扰,利用剩余的人体关键点计算人体结构中心和近似刚性运动区域,作为帧间相同人物匹配的依据,由此提高匹配精度,进而提高多人场景下行为检测的精度;在此基础上,通过在行为检测模型的输入中附加人体关键点的邻域的空间特征,以及人体关键点间的结构关联信息,丰富模型输入特征的信息量,进一步提高模型输出的行为检测结果的精度。
以下为实施例。
实施例1:一种基于人体骨架特征的行为检测方法,如图1所示,包括:(S1)提取输入的视频流中每一帧图像内各人物目标的一系列人体关键点,作为各人物目标的人体骨架特征;本实施例中,输入的视频流中共包括30帧图像。
本实施例可以采用任意一种人体姿态估计方法提取输入视频流中每一帧图像内人物目标的人体骨架特征;作为一种可选的实施方式,本实施例具体使用已训练好的人体姿态估计模型进行人体骨架特征的提取,该模型为一个卷积神经网络,在Microsoft COCO数据集上进行训练,因此人体的骨架特征是由数据集中定义的17个人体关键点构成,如图2所示,分别有左眼、右眼、左耳、右耳、鼻子、左肩、右肩、左肘、右肘、左腕、右腕、左臀、右臀、左膝、右膝、左踝、右踝。
(S2)对于每一帧图像中的每一个人物目标,利用其人体骨架特征计算人体结构中心点和近似刚性运动区域,作为骨架特征状态计算值,并根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域,作为骨架特征状态估计值;人体结构中心点和近似刚性运动区域分别为人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点的平均坐标点和最小外接矩形。
考虑到不同的人体关键点在帧间的运动幅度不同,基于人体特征以及人体运动时各人体关键点的运动特性,本实施例中,将人体关键点分为两个部分,其中一个部分为在帧间运动幅度相对稳定的人体关键点,包括:左眼、右眼、左耳、右耳、鼻子、左肩、右肩、左臀和右臀;另一个部分为在帧间运动幅度较大的人体关键点,包括:左肘、右肘、左腕、右腕、左膝、右膝、左踝和右踝,这一部分人体关键点中包含了运动噪声,会影响视频帧间相同人物匹配的准确度。
本实施例中,对于一个人物目标,所计算的人体结构中心点和近似刚性运动区域,如图2所示。
考虑到人体姿态估计提取到的人体骨架特征中仅包含多个人体关键点的位置信息,特征量较少,本实施例在提取到人体骨架特征后,会进一步计算各人体关键的邻域的空间特征,该空间特征将连同人体骨架特征一起作为行为检测模型的输入;本实施例所提取的空间特征为SIFT特征。
在实际应用中,基于运动状态方程即可完成骨架特征状态的估计;为了高效、准确地获取骨架特征状态估计值,如图3所示,本实施例中,具体使用卡尔曼滤波器估计下一帧图像中各人物目标的人体结构中心点和近似刚性运动区域;卡尔曼滤波器中构建了运动状态方程并利用估计结果与计算结果的差异来不断优化方程;估计过程中,人体结构中心点由其坐标进行表示,近似刚性运动区域由其宽高比、宽和高进行表示。
(S3)根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配,基于匹配结果将各帧图像中属于同一个人物目标的人体骨架特征关联到一起,得到各人物目标的骨架特征序列,并将骨架特征序列中的每一个关键点的特征在时间域上进行关联,得到时空域骨架特征。
由于一帧图像中的骨架特征状态估计值中包含了该帧与其上一帧图像中人物目标之间的对应关系,因此,通过骨架特征状态计算值和骨架特征状态估计值的匹配,可实现相邻两帧之间的人物匹配。
本实施例进行相同人物匹配的过程,如图3所示;为了高效、准确地完成骨架特征状态计算值和骨架特征状态估计值之间的匹配,以实现视频帧间相同人物目标的匹配,如图3所示,本实施例中,具体使用匈牙利匹配算法完成骨架特征状态计算值和骨架特征状态估计值之间的匹配。
为了丰富行为检测模型的输入特征的信息量,本实施例中,所得到的时空域骨架特征除了包含建立了时域关联的人体关键点,还包括各关键点的邻域的SIFT特征。
为了进一步丰富行为检测模型的输入特征的信息量,本实施例的步骤(S3)还包括:对人体骨架特征中的人体关键点进行划分,得到多个划分组;每个划分组中的人体关键点在空间和运动上相互关联,由此使得模型输入同时包含了人体关键在空间上的关联信息;图4所示为根据人体骨架特征获取时空域骨架特征的示例,其中左侧为人体骨架特征,右侧为时空域骨架特征;本实施例中,人体骨架特征序列的长度固定为30。
(S4)将人物目标的时空域骨架特征输入至已训练好的行为检测模型,得到对应的行为类别;行为检测模型为深度学习模型,以人物目标的时空域骨架特征为输入,用于预测对应的行为类别。
作为一种可选的实施方式,本实施例中,所使用的行为检测模型具体为图卷积神经网络,其中图结构内点的数目与人体骨架特征中关键点的数目保持相同,在本实施例中该数目为17;将输入视频流中人物目标的时空域骨架特征输入至行为检测模型,图卷积运算中权重是基于邻接子集划分的形式来进行分配,具体过程为:在图卷积运算的过程中,将运算的中心点映射为一个子集,将与其在空间上相邻接的点映射为另一个子集,依据不同的子集分配不同的权重大小;最终,模型将输出视频流中人物目标的行为类别,如坐、跌倒等。
容易理解的是,建立图卷积神经网络后,利用已知人物行为类别的视频流,按照上述步骤(S1)~(S3)获取各任务目标的时空域骨架特征,即可构建相应的数据集,利用该数据集对图卷积神经网络进行训练后,即可得到行为检测模型。
考虑到在健康监护、安全监控、幼儿园、养老院等视频监控场景中,跌倒行为是需要及时发现的行为,因此,本实施例的步骤(S4)还包括:若检测得到的行为类别为跌倒,则发出预警信息。
总的来说,本实施例基于人体结构中心点和近似刚性运动区域进行帧间人物匹配,克服了人体骨架特征在匹配的过程中发生的误匹配问题,提高了跌倒行为的检测方法在多人场景下的性能。
实施例2:一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行上述实施例1提供的基于人体骨架特征的行为检测方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于人体骨架特征的行为检测方法,其特征在于,包括:
(S1)提取输入的视频流中每一帧图像内各人物目标的一系列人体关键点,作为各人物目标的人体骨架特征;
(S2)对于每一帧图像中的每一个人物目标,利用其人体骨架特征计算人体结构中心点和近似刚性运动区域,作为骨架特征状态计算值,并根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域,作为骨架特征状态估计值;人体结构中心点和近似刚性运动区域分别为人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点的平均坐标点和最小外接矩形;
(S3)根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配,基于匹配结果将各帧图像中属于同一个人物目标的人体骨架特征关联到一起,得到各人物目标的骨架特征序列,并将骨架特征序列中的每一个关键点的特征在时间域上进行关联,得到时空域骨架特征;
(S4)将人物目标的时空域骨架特征输入至已训练好的行为检测模型,得到对应的行为类别;所述行为检测模型为深度学习模型,以人物目标的时空域骨架特征为输入,用于预测对应的行为类别。
2.如权利要求1所述的基于人体骨架特征的行为检测方法,其特征在于,人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点,为人体骨架特征中剔除了属于运动噪声列表的人体关键点后,剩余的人体关键点;
所述运动噪声列表包括:左肘、右肘、左腕、右腕、左膝、右膝、左踝和右踝。
3.如权利要求1所述的基于人体骨架特征的行为检测方法,其特征在于,所述步骤(S2)还包括:对于每一帧图像中的每一个人物目标,计算各人体关键点的邻域的空间特征;
并且,所述步骤(S3)中,各人物目标的时空域骨架特征包括各关键点的邻域的空间特征。
4.如权利要求3所述的基于人体骨架特征的行为检测方法,其特征在于,所述空间特征为SIFT特征。
5.如权利要求1所述的基于人体骨架特征的行为检测方法,其特征在于,所述步骤(S3)还包括:
对人体骨架特征中的人体关键点进行划分,得到多个划分组;每个划分组中的人体关键点在空间和运动上相互关联。
6.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法,其特征在于,所述行为检测模型为图卷积神经网络模型。
7.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法,其特征在于,所述步骤(S2)中,根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域,由卡尔曼滤波器完成。
8.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法,其特征在于,所述步骤(S3)中,根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配,所使用的算法为匈牙利匹配算法。
9.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法,其特征在于,所述步骤(S4)还包括:若检测得到的行为类别为跌倒,则发出预警信息。
10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1~9任一项所述的基于人体骨架特征的行为检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812319.9A CN114898471B (zh) | 2022-07-12 | 2022-07-12 | 一种基于人体骨架特征的行为检测方法及存储介质 |
US18/344,877 US11948400B2 (en) | 2022-07-12 | 2023-06-30 | Action detection method based on human skeleton feature and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812319.9A CN114898471B (zh) | 2022-07-12 | 2022-07-12 | 一种基于人体骨架特征的行为检测方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898471A true CN114898471A (zh) | 2022-08-12 |
CN114898471B CN114898471B (zh) | 2022-09-30 |
Family
ID=82729596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210812319.9A Active CN114898471B (zh) | 2022-07-12 | 2022-07-12 | 一种基于人体骨架特征的行为检测方法及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11948400B2 (zh) |
CN (1) | CN114898471B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670474A (zh) * | 2018-12-28 | 2019-04-23 | 广东工业大学 | 一种基于视频的人体姿态估计方法、装置及设备 |
CN110706791A (zh) * | 2019-09-30 | 2020-01-17 | 杭州依图医疗技术有限公司 | 一种医学影像处理方法及装置 |
CN112052786A (zh) * | 2020-09-03 | 2020-12-08 | 上海工程技术大学 | 一种基于网格划分骨骼的行为预测方法 |
CN112464847A (zh) * | 2020-12-07 | 2021-03-09 | 北京邮电大学 | 视频中人体动作切分方法及装置 |
WO2021119408A1 (en) * | 2019-12-11 | 2021-06-17 | Snap Inc. | Skeletal tracking using previous frames |
CN114220176A (zh) * | 2021-12-22 | 2022-03-22 | 南京华苏科技有限公司 | 一种基于深度学习的人体行为的识别方法 |
CN114399838A (zh) * | 2022-01-18 | 2022-04-26 | 深圳市广联智通科技有限公司 | 基于姿态估计和二重分类的多人行为识别方法及系统 |
CN114612526A (zh) * | 2022-03-02 | 2022-06-10 | 南京邮电大学 | 一种关节点追踪方法、帕金森辅助诊断方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250867B (zh) * | 2016-08-12 | 2017-11-14 | 南京华捷艾米软件科技有限公司 | 一种基于深度数据的人体骨骼跟踪系统的实现方法 |
US11179064B2 (en) * | 2018-12-30 | 2021-11-23 | Altum View Systems Inc. | Method and system for privacy-preserving fall detection |
CN112422863B (zh) * | 2019-08-22 | 2022-04-12 | 华为技术有限公司 | 一种视频拍摄方法、电子设备和存储介质 |
EP4003164A1 (de) * | 2019-08-30 | 2022-06-01 | MetraLabs GmbH Neue Technologien und Systeme | System zur erfassung von bewegungsabläufen und/oder vitalparametern einer person |
GB2589843B (en) * | 2019-11-19 | 2022-06-15 | Move Ai Ltd | Real-time system for generating 4D spatio-temporal model of a real-world environment |
US20220066544A1 (en) * | 2020-09-01 | 2022-03-03 | Georgia Tech Research Corporation | Method and system for automatic extraction of virtual on-body inertial measurement units |
CN112379773B (zh) * | 2020-11-12 | 2024-05-24 | 深圳市洲明科技股份有限公司 | 多人三维动作捕捉方法、存储介质及电子设备 |
-
2022
- 2022-07-12 CN CN202210812319.9A patent/CN114898471B/zh active Active
-
2023
- 2023-06-30 US US18/344,877 patent/US11948400B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670474A (zh) * | 2018-12-28 | 2019-04-23 | 广东工业大学 | 一种基于视频的人体姿态估计方法、装置及设备 |
CN110706791A (zh) * | 2019-09-30 | 2020-01-17 | 杭州依图医疗技术有限公司 | 一种医学影像处理方法及装置 |
WO2021119408A1 (en) * | 2019-12-11 | 2021-06-17 | Snap Inc. | Skeletal tracking using previous frames |
CN112052786A (zh) * | 2020-09-03 | 2020-12-08 | 上海工程技术大学 | 一种基于网格划分骨骼的行为预测方法 |
CN112464847A (zh) * | 2020-12-07 | 2021-03-09 | 北京邮电大学 | 视频中人体动作切分方法及装置 |
CN114220176A (zh) * | 2021-12-22 | 2022-03-22 | 南京华苏科技有限公司 | 一种基于深度学习的人体行为的识别方法 |
CN114399838A (zh) * | 2022-01-18 | 2022-04-26 | 深圳市广联智通科技有限公司 | 基于姿态估计和二重分类的多人行为识别方法及系统 |
CN114612526A (zh) * | 2022-03-02 | 2022-06-10 | 南京邮电大学 | 一种关节点追踪方法、帕金森辅助诊断方法及装置 |
Non-Patent Citations (2)
Title |
---|
YI CHEN 等: "《Robust Activity Recognition for Aging Society》", 《JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》 * |
曹建荣 等: "《基于关节点特征的跌倒检测算法》", 《计算机应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114898471B (zh) | 2022-09-30 |
US20240021019A1 (en) | 2024-01-18 |
US11948400B2 (en) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647663B (zh) | 基于深度学习和多层次图结构模型的人体姿态估计方法 | |
CN103279737B (zh) | 一种基于时空兴趣点的打架行为检测方法 | |
CN107527351A (zh) | 一种融合fcn和阈值分割的哺乳母猪图像分割方法 | |
CN108416266A (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN107256386A (zh) | 基于深度学习的人类行为分析方法 | |
CN111753747B (zh) | 基于单目摄像头和三维姿态估计的剧烈运动检测方法 | |
CN114582030B (zh) | 一种基于服务机器人的行为识别方法 | |
CN107220596A (zh) | 基于级联纠错机制的人体姿态估计方法 | |
CN109033955A (zh) | 一种人脸跟踪方法和系统 | |
CN110929687A (zh) | 一种基于关键点检测的多人行为识别系统及工作方法 | |
JP2020135747A (ja) | 行動分析装置および行動分析方法 | |
CN112489129A (zh) | 位姿识别模型训练方法、装置、位姿识别方法和终端设备 | |
CN115346272A (zh) | 基于深度图像序列的实时摔倒检测方法 | |
Wang et al. | Video anomaly detection method based on future frame prediction and attention mechanism | |
CN111626109A (zh) | 一种基于双流卷积神经网络的跌倒行为分析检测方法 | |
CN114792429A (zh) | 多视角摔倒检测方法、装置及存储介质 | |
CN114898471B (zh) | 一种基于人体骨架特征的行为检测方法及存储介质 | |
CN112801009A (zh) | 基于双流网络的面部情感识别方法、装置、介质及设备 | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 | |
CN112487926A (zh) | 一种基于时空图卷积网络的景区投喂行为识别方法 | |
CN116403285A (zh) | 动作识别方法、装置、电子设备以及存储介质 | |
CN112508135B (zh) | 模型训练方法、行人属性预测方法、装置及设备 | |
CN115546491A (zh) | 一种跌倒报警方法、系统、电子设备及存储介质 | |
CN113255514B (zh) | 基于局部场景感知图卷积网络的行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |