CN116311497A - 一种基于机器视觉的隧道工人异常行为检测方法及系统 - Google Patents
一种基于机器视觉的隧道工人异常行为检测方法及系统 Download PDFInfo
- Publication number
- CN116311497A CN116311497A CN202310089921.9A CN202310089921A CN116311497A CN 116311497 A CN116311497 A CN 116311497A CN 202310089921 A CN202310089921 A CN 202310089921A CN 116311497 A CN116311497 A CN 116311497A
- Authority
- CN
- China
- Prior art keywords
- behavior
- frame
- time
- tunnel
- behaviors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及异常行为检测技术领域,尤其涉及一种基于机器视觉的隧道工人异常行为检测方法及系统。基于机器视觉的隧道工人异常行为检测方法,包括:提取隧道工人的人体骨架三维位置信息;将所述人体骨架三维位置信息导入分层模型中训练、测试,完成分类,获得帧特征集合;从所述帧特征集合中提取聚类中心构成的向量空间来表示每一类行为实现在线实时的行为识别,获得行为识别结果;根据训练的隧道工人正常行为和所述行为识别结果实时检测判断异常行为。该方法基于机器视觉理论准确的在线实时检测隧道现场工人的异常行为并预警,能够检测工人异常行为,对隧道工人可能发生的生命健康问题及时预警,保障生命安全。
Description
技术领域
本发明涉及异常行为检测技术领域,尤其涉及一种基于机器视觉的隧道工人异常行为检测方法及系统。
背景技术
公开该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。
进入21世纪,我国隧道发展愈发迅速,面对越来越多的长距离、深开挖、地质复杂的隧道施工条件,对于工人突发的生命健康问题,外界医疗支援往往无法及时到达,因此实时检测保障隧道工人生命安全十分必要。
在目前的施工管理中,隧道工人实时行为状态都是由相关负责人员人工检测,但处于隧道内压抑单调的环境,人工检测受限于人的能动局限性,无法实时检测工人健康状态及异常行为。随着机器视觉的进步,利用先进的电子技术手段实时检测人体行为识别越来越广泛。作为机器视觉和增强现实领域一个新兴的研究方向,人体行为识别具有极高的理论研究价值。而在智能家居,运动分析,游戏娱乐和医疗康复等应用领域,人体行为识别取得了良好的效果。
早期的人体行为识别研究是基于视频序列分析的,尽管提出各种各样的视频分析算法,但是由于复杂背景、光照变化、遮挡等因素的影响,精确的人体行为识别在应用领域受到了很大的限制,仍存在以下困难:
(1)局部描述符的方法存在一个很大的缺陷,检测的兴趣点的数量极大地依赖于人体的外表和尺寸,因此在某些情况下,兴趣点数量不足的问题极大地影响行为的识别率。
(2)使用骨架点的相对位置和深度图作为分类特征,尽管该方法的识别率很高,但是却极大地依赖于深度图的质量和交互物体的形状和大小,这就严重影响了此方法的实用性。同时由于硬件设备的限制,深度图经常包含很多噪声,也会影响识别率。
(3)传统的序列分割算法精确度不高,手工分割工作量太大;对于行为开始和结束状态不一致的话,像传统的动态时间调整(DTW)等序列匹配方法也会失效;传统的行为识别系统中,很大一部分仅仅考虑完整的甚至非周期的行为。对于在线实时识别,难以达到识别率与鲁棒性要求。
发明内容
针对现有技术存在的不足,本发明实施例的目的是提供一种基于机器视觉的隧道工人异常行为检测方法,该方法提出了人体行为识别的分层模型,模型给出两个分类过程,通过减小分类器的分类空间,从而有效地提升识别率;提出了基于聚类中心向量空间的人体行为识别算法,由于行为的周期性和不完整性造成匹配困难的问题,行为序列本身的时间动态性问题,该算法能鲁棒地进行人体行为识别,能有效地描述隧道工人人体姿态和运动信息并实现在线实时识别,从而对隧道工人异常行为准确稳定地实时检测与预警。
为了实现上述目的,本发明实施例提供了如下技术方案:
一种基于机器视觉的隧道工人异常行为检测方法,包括:
提取隧道工人的人体骨架三维位置信息;
将所述人体骨架三维位置信息导入分层模型中训练、测试,完成分类,获得帧特征集合;
从所述帧特征集合中提取聚类中心构成的向量空间来表示每一类行为实现在线实时的行为识别,获得行为识别结果;
根据训练的隧道工人正常行为和所述行为识别结果实时检测判断异常行为。
根据另一些实施例,本公开还采用如下技术方案:
一种基于机器视觉的隧道工人异常行为检测系统,包括:
提取模块,被配置为提取隧道工人的人体骨架三维位置信息;
分类模块,被配置为将所述人体骨架三维位置信息导入分层模型中训练、测试,完成分类,获得帧特征集合;
聚类模块,被配置为从所述帧特征集合中提取聚类中心构成的向量空间来表示每一类行为实现在线实时的行为识别,获得行为识别结果;
检测模块,被配置为根据训练的隧道工人正常行为和所述行为识别结果实时检测判断异常行为。
根据另一些实施例,本公开还采用如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行所述的基于机器视觉的隧道工人异常行为检测方法。
根据另一些实施例,本公开还采用如下技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于机器视觉的隧道工人异常行为检测方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、目前大部分隧道施工单位对于施工人员的安全管理缺乏有效技术手段,对于施工中的工人安全健康情况无法做到实时监测、心中有数,这导致施工安全管理上出现漏洞,在工人出现危险时,也没有办法立即判断情况和工人位置以及时开展救援。本发明通过商用深度相机设备提取隧道施工时工人人体运动三维信息,利用提出的人体行为识别的分层模型学习隧道工人正常行为,反向判断异常行为,立即判断情况和工人位置以及时开展救援。
2、本发明可以基于机器视觉理论准确的在线实时检测隧道现场工人的异常行为并预警,能够检测工人异常行为,对隧道工人可能发生的生命健康问题及时预警,保障生命安全,提高隧道施工管理质量。
3、本发明采用人体行为识别的分层模型,模型给出两个分类过程,通过减小分类器的分类空间,从而有效地提升识别率。
4、本发明采用基于聚类中心向量空间的人体行为识别算法,能鲁棒地进行人体行为识别,能有效地描述隧道工人人体姿态和运动信息并实现在线实时识别。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1本发明主流程图;
图2分层模型算法流程图;
图3左图:人体骨架连接点;右图:4个人体分块:头,胸腹部,左右胳膊,左右腿;
图4DailyActivity3D人体行为骨架数据库;
图5在DailyActivity3D数据库上,识别率的混淆矩阵;
图6实时识别算法流程图;
图7左图为三类行为的帧特征集合,右图为同一类行为不同序列提取的帧特征构成的集合;
图8基于聚类中心构成的向量子空间,左图不同类行为,右图相同类行为;
图9特征轨迹序列,左图不同类行为,右图为相同类行为;
图10UCFKinect人体行为骨架数据库;
图11在UCFKinect数据库上,识别率的混淆矩阵(案例);
图12在UCFKinect数据库上,我们方法和最新方法识别率的比较;
图13在UCFKinect数据库上,鲁棒性测试;
图14在UCFKinect数据库上,不同的值对识别率的影响;
图15MSRC-12手势数据库;
图16MSRC-12手势数据库识别率的混淆矩阵;
图17在MSRC-12手势数据库中,我们方法和最新方法识别率的比较;
图18在MSRC-12手势数据库中,鲁棒性测试;
为显示各部位位置而夸大了互相间间距或尺寸,示意图仅作示意使用。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
鲁棒性:这里的鲁棒性指的是,在下面三种状况下,识别系统仍能保持高识别率。首先,行为的重复度是不同的。在一次识别过程中,行为被重复完成的次数是不一样的。第二,行为开始和结束的状态是不同的。第三,执行某一动作,不同用户使用的时间可能是不同的。第一点和第二点会造成序列匹配困难的问题。而第三点就是我们常说的序列存在时间动态性的问题。当一个识别系统在上述三种情况下都能工作的很好,我们就说这个系统是鲁棒的。
在线实时识别:在用户进行某一行为期间,识别系统就能实时地给出识别结果,而不是等到这个行为完全结束。
高识别率:识别系统能够精确地识别每类行为,这是每个系统所应具备最基础、也是最重要的能力。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提出的总体思路:
通过深感相机实时采集检测人员空间信息;通过分层模型训练和分类人体行为;通过聚类中心向量空间的人体行为识别算法,有效地描述隧道工人人体姿态和运动信息并实现在线实时识别。由此实现检测隧道施工人员异常行为与预警功能。
实施例一
如图1所示,一种基于机器视觉的隧道工人异常行为检测方法,包括:
(1)通过Kinect等商用深度相机监测工人,并结合人体运动捕捉技术和微软的骨架提取框架,提取人体骨架三维位置信息:每一帧中获取20个骨架连接点,每个连接点可以用它的三维坐标来表示:其中,/>表示第i个连接点在时间t的坐标,xi(t)表示第i个连接点的横坐标,yi(t)表示第i个连接点的纵坐标,zi(t)表示第i个连接点的竖坐标。
(2)将步骤(1)中人体骨架三维信息导入分层模型中训练、测试,完成分类。图2展示分层模型的整个流程。分层模型的流程:
第一层:
如图3所示,把人体划分成4个部分:头、胸腹部、左右胳膊和左右腿,粗略地把行为分成若干组,首先计算人体各个分块j的方差:其中,ej表示第j个人体分块的方差,Nj表示第j个人体分块中骨架连接点的集合,/>
通过计算人体每个分块连接点的方差,能够判定每个分块的运动状态:其中,cj表示第j个分块的运动状态,τ表示方差阈值,大于τ表示人体对应块运动,用1来表示;小于等于τ表示人体对应块静止,用0来表示。每个骨架序列都有自己的运动向量:(c1,c2,c3,c4),它是一个用于表示人体运动情况的4维向量,每个分量表示人体对应分块的运动状态。当两个行为有相同的运动向量时,它们被认为属于同一个组。根据运动向量的维度和每一维的取值,行为最多可以分为16个组。对于每一组,需要训练一个SVM分类器用于第二层的识别。
第二层:
对于每一个关节点i,我们计算它和其他关节点i'之间的三维位置差值Pi,i':Pi,i'=Pi-Pi',其中,Pi,i'表示第i个关节点与其他关节点i'之间的三维位置差值,Pi表示第i个关节点的三维位置,Pi`表示第i`个关节点的三维位置。那么所有差值构成的集合为关节点i的相对位置特征:Ri={Pi,i'|i≠i'},当人体发生运动时,相应的关节点也会产生位置变化,那么关节点之间的相对位置也会有所改变,我们利用这些变化来构造相对位置特征。为了捕获运动的时间信息,我们把相对位置特征在时间上连成一条轨迹序列Ti,通过衡量轨迹序列之间的相似性来分类行为。图9左图为不同类行为的特征轨迹序列,右图为相同类行为的特征轨迹序列。
通过从三维骨架序列提取的轨迹序列Ti,使用三层傅里叶时间金字塔对轨迹序列进行处理:第一层,把整个轨迹序列使用短时傅里叶变换计算傅里叶系数。第二层中,把轨迹序列分成等长的两段,分别使用短时傅里叶变换计算出傅里叶系数;第三层中,把轨迹序列分成等长的四段,分别使用短时傅里叶变换计算出傅里叶系数。把每一层中计算的低频傅里叶系数用作最终的分类特征。连接点i的傅里叶时间金字塔特征被定义为金字塔所有层的低频系数,用Si表示。使用已训练的多类SVM分类器分类特征Si,获得最终的行为标签l。
图7左图为三类行为的帧特征集合,右图为同一类行为不同序列提取的帧特征构成的集合。
对提出的分层模型和特征使用DailyActivity3D数据集进行测试。这个测试数据集用一个Kinect v1深度感应器在室内拍摄得到的。如图4所示,这个数据集总共有16个行为。在数据集内,10个人进行表演,每个人把所有的16个动作做两遍,分别处于站着和坐着的姿势进行。总共有16×10×2=320个骨架序列,对于每个序列的每一帧,是由20个骨架连接点构成的。该数据库描述了一些日常行为,大部分行为包含人和物体的交互,因此是一个富有挑战性的数据库。使用2折交叉验证法,即把数据库平均分成两部分,其中5个人的骨架序列作为训练集,其他5人的骨架序列作为测试集。图5给出了每一个行为的识别率,可以看出对于一些没有遮挡的行为,例如站起来,坐下,坐着不动,和一些轻微遮挡的行为,例如喝水,吃薯片,通过此模型和特征能够得到一个相当高的识别率。而对严重遮挡的行为,例如使用笔记本,玩游戏,玩吉他,此模型得到的识别率相当低,这是因为严重的遮挡导致被跟踪的骨架连接点发生严重的错误,从而严重影响了特征的判定力。
表2-1分层模型和非分层模型识别率比较
表2-1给出了使用分层模型和直接使用FTP特征进行识别的比较结果。从表中可以看出,打电话、书写、躺下、和玩吉他等行为的识别率都有一定的提高,总体来讲,分层模型提高了大约4%的平均识别率。
表2-2不同方法识别率的比较
方法 | 识别率 |
动态时间扭曲方法[107] | 0.54 |
数据最小化方法[57] | 0.68 |
分层模型方法 | 0.725 |
表2-2给出不同方法的识别率,使用动态时间调整模型得到54%的识别率;数据最小化算法,找到连接点的子集来表示行为,在未使用深度数据的情况下识别率达到68%,本文应用分层模型,能够获得72.5%的识别率。本实验充分证明本文所提出的分层模型能够提高日常复杂行为下人体行为识别的识别率。
(3)提出聚类中心向量空间法,从步骤(2)中所得帧特征集合中提取聚类中心构成的向量空间来表示每一类行为实现在线实时的行为识别。帧特征集合是指:视频由多个帧组成,视频中每一帧的图像都可通过商用深度相机提取人体三维骨架信息,每一帧人体三维骨架信息均包含运动特征和相对位置特征,将人体行为的视频所有连续帧中提取的三维骨架信息所形成的几何坐标点集合,定义为某人体行为后,即为某人体行为的帧特征集合。由步骤(2)中分层模型第二层得出,形式呈现如图7。图6给出了该识别方法的流程图。图8是基于聚类中心构成的向量子空间,左图不同类行为,右图相同类行为。聚类中心向量空间法具体步骤:
对每一帧三维骨架数据,提取运动特征和相对位置特征,联合两类特征构成新的时空帧特征。
为了实时行为识别的需求和消除不稳定关节点对识别的影响,对帧特征集合使用Kmeans聚类算法进行聚类,用聚类中心构成的向量空间表示行为。我们从帧特征集合中提取聚类中心,帧特征的好坏直接决定了聚类中心的判定能力,因此时空帧特征的提取方式对最终分类结果起到了至关重要的作用。
考虑到人体的运动信息和姿态信息,一个结合运动特征和相对位置特征的时空帧特征被提出。由于每一帧骨架就能够提取一个时空特征,因此数据量大的骨架数据库提取的时空帧特征数目相对过多,采用最近邻算法(KNN)需要承受大量的计算花费。为了在线实时的识别目的,我们采用Kmeans对帧特征进行聚类,用稀疏的聚类中心表示行为。每个骨架序列中的每一帧,都是由J个三维骨架连接点构成的。每个连接点可以用它的3D坐标来表示:其中,t表示时间点,而i表示关节点,J表示每一帧中关节点的个数。
运动特征:为了提取当前帧的运动特征,我们计算当前帧和相邻帧对应关节点位置的差值:其中,/>表示第i个关节点当前帧和相邻帧的位置差值,/>表示第i个关节点在时间t-n的坐标,n表示相邻帧之间的时间差值(如果t小于n,那么就用第一帧代替/>)。那么运动特征定义为:/>其中,J表示骨架中关节点的个数,运动特征的维度为J×3。
相对位置:我们使用每个关节点相对于一个中心点的位置信息作为每一帧的相对位置特征,其中中心点/>指的是人体所有关节点运动变化最小的点。相对位置特征可以表示为:/>其中,Rt表示相对位置特征,/>表示中心点的位置,相对位置特征向量的维度为J×3。对于相对位置特征,一些工作使用任意两点之间的欧式距离来表示,这导致得到的特征维度太高,严重影响了识别速度。尽管提取的运动特征和相对位置特征都比较简单,但是实验结果显示这两类特征结合构成的时空帧特征具有很强的判定能力。实际上,我们不一定要提取完整的轨迹信息去识别行为,完整的轨迹会存在时间动态性的问题,处理不好,反而会导致更低的识别率。
使用两个特征加权方法,方差加权算法和熵加权算法,加权每一个聚类中心,权重大小代表了聚类中心的判定能力。
方差加权法:由于遮挡问题,提取的骨架点是错误的并且存在很大的扰动,如果某个聚类中心包含这些点,那么属于这个聚类中心帧特征的方差会很大,根据这个特性,我们提出简单且实用的方差加权法。权重的计算具体如下:其中,α1是一个常数,var(c)表示属于聚类中心c所有帧特征的方差。方差越大,说明特征分布越散乱,权重就越小。
熵加权法:由于不同行为可能拥有相同的子行为,提取的帧特征在向量空间发生重叠,由这些帧特征提取的聚类中心会影响到最终的分类结果。为了消除这些聚类中心所产生的消极影响,我们设计了一种新的熵加权法。熵加权法的原理是,如果某些行为拥有相同的子行为,那么由这些子行为的骨架帧提取的特征在向量空间中会混杂在一起,根据聚集在一起的帧特征类别的混杂程度,给聚类中心进行加权。首先,对于每一个聚类中心,确定所有属于这个中心的时空帧特征。然后,计算每类行为在所有属于这个中心的时空帧特征中所占的比例最后每个聚类中心的权重为:/>其中,α2为常数。
使用最近邻算法(KNN)进行分类。如图6所示,分类指的是图中的测试阶段,是对人体三维骨架序列的识别。具体过程如下:
对于需要识别的三维骨架序列中的每一帧提取包含运动特征和相对位置特征的时空帧特征。
对于每一个帧特征,使用最近邻分类器(KNN)在聚类中心构成的向量空间中提取K个最近的中心。因为每个聚类中心属于不同行为类别有一定的概率所以整个测试序列的类别为:/>其中,ωc表示聚类中心c的权重,t表示当前帧,t′表示当前帧t之前的第T帧,Nt'表示在第t′帧,基于最近邻分类器提取的K个聚类中心。
把最大概率对应的行为类别作为测试序列的类别。为了在线实时识别的目的,我们用T帧作为一个单元来实时判定测试序列的类别。
在实验阶段,我们使用两个具有代表性的骨架数据库:UCFKinect行为数据库和微软的MSRC-12手势数据库去评估我们的模型和特征。实验结果表明,该算法优于当前最新的一些算法,高识别率证明算法对行为的时间动态性有很强的鲁棒性。
在实验阶段,我们使用两个具有代表性的骨架数据库:UCFKinect行为数据库和微软的MSRC-12手势数据库去评估我们的模型和特征。实验结果表明,该算法优于当前最新的一些算法,高识别率证明算法对行为的时间动态性有很强的鲁棒性。
1.UCFKinect行为数据库:
这个数据库中的骨架序列是使用单个Kinect和OpenNi框架采集获取的。如图10所示,一共有16个行为,都是为游戏场景所设计的。对于每一类行为,16个受试者(13个男性和3个女性,年龄分布在20到35岁之间)被要求执行5次,总共得到1280个行为序列。受试者被要求两手自然垂在身体两边,放松站立。在每个行为开始执行之前,每个受试者会被告知关于这个行为的详细信息,如果有必要,每个行为会被展示一次。对每一帧数据,会采集15个关节点的三维坐标。并且可以得到每个关节点的方向向量和二值置信度,其中二值置信度可用于辅助选择准确的和判定力强的姿态用于行为识别,而我们仅仅使用了关节点的三维坐标信息。
实际上,我们的算法对于噪声甚至是不准确的关节点都能保持较好的鲁棒性。对于噪声骨架关节点,提取的时空帧特征会影响到一个聚类中心的位置,但是对由聚类中心构成的向量空间的大小和位置影响不大。而对于错误的骨架关节点,我们提出的加权算法能很好的降低他们的权重,从而减少他们对识别结果造成的不利影响。
对于UCFKinect数据库,我们使用二折交叉验证的方法去处理所有的数据,从而得到最终的识别结果。也就是说,我们把整个数据集分成两个大小一样的子集,一个子集用来训练,另一个子集用来测试,然后换过来重复此过程再做一遍。最终的识别结果为两次识别结果的平均值。
图11给出了UCFKinect数据库的混淆矩阵。从此图中我们可以看出,每个行为的识别率全都超过95%,平均识别率为98%,这是相当高的一个识别率,完全满足应用需求。识别结果也能表明我们提取的时空帧特征结合加权算法能有效地识别人体行为。
在图12中,我们的算法和目前最新算法进行了比较。LAL(latency awarelearning,延时感知学习)方法通过学习一个单一权威姿态用于行为识别,从而减少观测延时。为了一个相对公平的比较,我们用我们的结果和他们最好的识别结果相比较。图12中我们可以看出,在16个行为中,其中10个行为取得了更高的识别率(包括100%完全识别正确)。而平均识别率比LAL高了大约2%。EBAR识别方法(EigenJoints based actionrecognition,基于本征关节点的行为识别方法),设计了最新的行为特征描述符,基于累积运动能量图(AME)选择信息量更大的帧数据。我们也在图12中也展现了我们和EBAR的比较结果,16个行为中9个行为,我们取得了更好的识别结果。使用我们方法的平均识别率比EBAR高0.9%。
为了进一步证实算法的鲁棒性,对于每一个行为序列,我们提取他们的一部分用来测试,最终的识别率在图13中显示。其中,水平轴表示测试部分占整个行为序列的比例,而竖直轴表示识别率。如图所示,随着测试所用帧数的增加,识别率变得越来越高。当帧数比例大于等于0.6时,识别率趋于稳定。这些曲线显示,当仅仅使用前几帧的时候,所有行为的识别率都很低,这是由于所有的行为都是从一个放松姿态开始的,从这些帧提取的特征位于向量空间的重叠区域,不具有很强的判定性。
在计算运动特征时,相邻帧之间的时间差值我们用n表示,这里我们讨论了不同的n值对最终识别率的影响,如图14所示。相比较而言,大一点的n值比小一点的n值会产生更高的识别率。如果n值太小,运动特征很难在行为识别中起到作用。实验表明,当n取值为5的时候,识别率最高。实验表明,适当的参数选择最终的结果影响很大。
表3-1给出了不同组合方式的识别率。仅仅使用时空帧特征,我们获得了96.7%的识别率。当结合加权方法,我们得到了97.7%的识别率。结合上一步的分层模型,最终的识别率为98.1%。通过分析结果可以看出,高的识别率主要是由提出的时空帧特征决定的,相应的加权算法和分层模型对识别率也有小幅度的提升。
表3-1在UCFKinect数据库上,不同组合识别率的比较
2.MSRC-12手势数据库:
MSRC-12手势数据库是由单个Kinect深度设备和微软平台采集获取的。数据库包含12类手势,由30个人采集,总共594个骨架序列。对于每个行为,每个受试者会执行多次,形成一个骨架序列。在每一帧中,使用Kinect姿态估计框架可以估计20个三维关节点。MSRC-12手势数据库的12类手势如图15所示。此数据库给出了不同类型的指令对受试者手势的影响。因此,MSRC-12手势数据库不仅用于衡量识别系统的性能,也能用于评估一些指令信息对不同人的影响,比如文本,图片和视频。
由于个人习性,对于某些动作,不同受试者展现的方式也是多种多样。例如,一些人习惯用右胳膊挥手,而其他人习惯用左胳膊挥手。因此,为了尽可能增加训练数据的多样性,我们使用留一法交叉验证。我们忽略了不同的指令信息,结合所有的骨架序列用于识别。
图16给出了MSRC-12手势数据库识别率的混淆矩阵。从图中我们可以看出,大部分行为的识别率都是相当高。一些行为的识别率甚至为100%。
如图17所示,对于每一个行为,我们的方法和目前最好方法识别率的比较。Negin等人介绍了一个基于判定森林的特征选择框架,它能在时空区域内选择最有效的特征子集。我们的结果和他们最好结果做了比较。图17能够看出,12个行为中的8个行为,我们取得了更好的识别结果。我们方法的平均识别率为94.6%,比他们方法识别率多1.6%。Chatis等人使用阈值法的条件随机场用来描述行为,同时结合Kinect采集的三维深度信息,克服了固定阈值方法的缺点。图17也给出了比较结果。从图中可以看出,12个手势行为中8个行为,我们取得了更好的结果。我们算法的平均识别率比基于阈值法条件随机场方法的识别率高出2.7%。
在这个数据库中,我们使用部分行为数据测试我们方法的鲁棒性。图18展示了对于每一类手势行为,不同比例的数据对最终识别率的影响。水平轴和竖直轴和图13的定义一致。如图所示,随着数据的增多,识别率也是越来越高。然而,和UCF数据库相比,识别率稳定的更快。当使用的数据比例大约在0.3的时候,识别率趋于稳定。这是由于对于每个骨架序列来说,每个行为被执行了多次。所以当使用数据的比例很低的时候,判定性的数据已经足够多了。
为了进一步显示Kmeans聚类算法在实时行为识别上的有效性,在表3-2和表3-3中,我们给出了识别速率的比较结果。表3-2展示了UCFKinect数据库的识别速率。当我们使用Kmeans聚类算法时,识别速率为658fps,其中聚类中心个数为5000。而仅仅使用原始帧特征的时候,识别速率为127fps。我们发现,使用原始数据的识别速率低于使用聚类算法。由于UCFKinect的数据量相对较小,使用原始数据也能实现实时识别。而对于MSRC-12手势数据库,仅仅使用原始真数据不能满足实时要求。在表3-3中,我们发现使用原始数据时,识别速率仅仅为5fps。
表3-2在UCFKinect数据库上,识别速率的比较
使用Kmeans聚类 | 原始帧数据 | |
帧数 | 70627 | 70627 |
总时间(秒) | 107.5 | 555.3 |
每秒帧数 | 657.8 | 127.2 |
表3-3在MSRC-12数据库上,识别速率的比较
(4)将根据所训练的隧道工人正常行为实时检测判断异常行为并预警。
实施例二
一种基于机器视觉的隧道工人异常行为检测系统,包括:
提取模块,被配置为提取隧道工人的人体骨架三维位置信息;
分类模块,被配置为将所述人体骨架三维位置信息导入分层模型中训练、测试,完成分类,获得帧特征集合;
聚类模块,被配置为从所述帧特征集合中提取聚类中心构成的向量空间来表示每一类行为实现在线实时的行为识别,获得行为识别结果;
检测模块,被配置为根据训练的隧道工人正常行为和所述行为识别结果实时检测判断异常行为。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实施例一中方法的步骤。
实施例四
本公开的一种实施例中提供一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行实施例一中方法的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种基于机器视觉的隧道工人异常行为检测方法,其特征在于,包括:
提取隧道工人的人体骨架三维位置信息;
将所述人体骨架三维位置信息导入分层模型中训练、测试,完成分类,获得帧特征集合;
从所述帧特征集合中提取聚类中心构成的向量空间来表示每一类行为实现在线实时的行为识别,获得行为识别结果;
根据训练的隧道工人正常行为和所述行为识别结果实时检测判断异常行为。
2.如权利要求1所述的基于机器视觉的隧道工人异常行为检测方法,其特征在于,将所述人体骨架三维位置信息导入分层模型中训练、测试包括:
第一层:
计算人体各个分块的方差;
根据人体各个分块的方差判定每个分块的运动状态;
第二层:
计算每一个关节点和其他关节点之间的三维位置差值,所有差值构成的集合为关节点的相对位置特征,把相对位置特征在时间上连成一条轨迹序列;
使用三层傅里叶时间金字塔对轨迹序列进行处理,连接点的傅里叶时间金字塔特征被定义为金字塔所有层的低频系数;使用已训练的多类SVM分类器分类傅里叶时间金字塔特征,获得最终的行为标签。
4.如权利要求1所述的基于机器视觉的隧道工人异常行为检测方法,其特征在于,从所述帧特征集合中提取聚类中心构成向量空间包括:
对每一帧三维骨架数据,提取运动特征和相对位置特征,联合两类特征构成新的时空帧特征;
对时空帧特征集合使用Kmeans聚类算法进行聚类,用聚类中心构成的向量空间表示行为;
使用方差加权算法和熵加权算法加权每一个聚类中心;
使用最近邻算法进行分类。
8.一种基于机器视觉的隧道工人异常行为检测系统,其特征在于,包括:
提取模块,被配置为提取隧道工人的人体骨架三维位置信息;
分类模块,被配置为将所述人体骨架三维位置信息导入分层模型中训练、测试,完成分类,获得帧特征集合;
聚类模块,被配置为从所述帧特征集合中提取聚类中心构成的向量空间来表示每一类行为实现在线实时的行为识别,获得行为识别结果;
检测模块,被配置为根据训练的隧道工人正常行为和所述行为识别结果实时检测判断异常行为。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时执行如权利要求1-7任一项所述的基于机器视觉的隧道工人异常行为检测方法。
10.一种终端设备,其特征在于,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如权利要求1-7任一项所述的基于机器视觉的隧道工人异常行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310089921.9A CN116311497A (zh) | 2023-02-02 | 2023-02-02 | 一种基于机器视觉的隧道工人异常行为检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310089921.9A CN116311497A (zh) | 2023-02-02 | 2023-02-02 | 一种基于机器视觉的隧道工人异常行为检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311497A true CN116311497A (zh) | 2023-06-23 |
Family
ID=86829606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310089921.9A Pending CN116311497A (zh) | 2023-02-02 | 2023-02-02 | 一种基于机器视觉的隧道工人异常行为检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311497A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011946A (zh) * | 2023-10-08 | 2023-11-07 | 武汉海昌信息技术有限公司 | 一种基于人体行为识别的无人救援方法 |
CN117495867A (zh) * | 2024-01-03 | 2024-02-02 | 东莞市星火齿轮有限公司 | 小模数齿轮精度的视觉检测方法及系统 |
-
2023
- 2023-02-02 CN CN202310089921.9A patent/CN116311497A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011946A (zh) * | 2023-10-08 | 2023-11-07 | 武汉海昌信息技术有限公司 | 一种基于人体行为识别的无人救援方法 |
CN117011946B (zh) * | 2023-10-08 | 2023-12-19 | 武汉海昌信息技术有限公司 | 一种基于人体行为识别的无人救援方法 |
CN117495867A (zh) * | 2024-01-03 | 2024-02-02 | 东莞市星火齿轮有限公司 | 小模数齿轮精度的视觉检测方法及系统 |
CN117495867B (zh) * | 2024-01-03 | 2024-05-31 | 东莞市星火齿轮有限公司 | 小模数齿轮精度的视觉检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Fall detection based on dual-channel feature integration | |
Yu et al. | An online one class support vector machine-based person-specific fall detection system for monitoring an elderly individual in a room environment | |
Wang et al. | Human posture recognition based on images captured by the kinect sensor | |
US8935195B2 (en) | Method of identification and devices thereof | |
CN110287825B (zh) | 一种基于关键骨骼点轨迹分析的摔倒动作检测方法 | |
CN116311497A (zh) | 一种基于机器视觉的隧道工人异常行为检测方法及系统 | |
CN103279768B (zh) | 一种基于增量学习人脸分块视觉表征的视频人脸识别方法 | |
Jensen et al. | Classification of kinematic swimming data with emphasis on resource consumption | |
CN103942577A (zh) | 视频监控中基于自建立样本库及混合特征的身份识别方法 | |
CN113378649A (zh) | 身份、位置和动作识别方法、系统、电子设备及存储介质 | |
CN106611158A (zh) | 人体3d特征信息的获取方法及设备 | |
Batool et al. | Telemonitoring of daily activities based on multi-sensors data fusion | |
Iazzi et al. | Fall detection based on posture analysis and support vector machine | |
CN115346272A (zh) | 基于深度图像序列的实时摔倒检测方法 | |
Qian et al. | Home environment fall detection system based on a cascaded multi-SVM classifier | |
Hung et al. | Fall detection with two cameras based on occupied area | |
Yoo et al. | Deep learning-based action classification using one-shot object detection | |
Abedi et al. | Modification of deep learning technique for face expressions and body postures recognitions | |
More et al. | Gait-based human recognition using partial wavelet coherence and phase features | |
Chen et al. | Skeleton moving pose-based human fall detection with sparse coding and temporal pyramid pooling | |
Lee et al. | Self-updatable database system based on human motion assessment framework | |
Hagui et al. | A new framework for elderly fall detection using coupled hidden markov models. | |
CN111914798B (zh) | 基于骨骼关节点数据的人体行为识别方法 | |
Gao | Abnormal behavior detection and warning based on deep intelligent video analysis for geriatric patients | |
Gupta et al. | A novel framework for multi-person temporal gaze following and social gaze prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |