CN116229560B

CN116229560B - 一种基于人体姿态的异常行为识别方法及系统

Info

Publication number: CN116229560B
Application number: CN202211093097.6A
Authority: CN
Inventors: 王涵; 赵永兵
Original assignee: Guangdong Taiweisi Information Technology Co ltd
Current assignee: Guangdong Taiweisi Information Technology Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2024-03-19
Anticipated expiration: 2042-09-08
Also published as: CN116229560A

Abstract

发明公开一种基于人体姿态的异常行为识别方法及系统，通过建立异常行为视频数据集，对所述异常行为视频数据集进行预处理和基于像素点的行为不当数据标记，得到训练数据集；使用姿态识别算法对训练数据集中的每张图像进行骨架信息提取，得到骨架序列数据；将骨架序列数据输入联邦学习模型中进行预训练，基于半监督学习机制，得到训练后的分类识别模型；获取实时输入的待检测视频，经过数据处理后输入至训练后的所述分类识别模型，得到预测分类结果。利用公开的异常行为数据库或者观察室历史数据建立异常行为视频数据集，在训练后的分类识别模型中预测待检测视频，对多个观察室并行预测，实现有效及时预警。

Description

一种基于人体姿态的异常行为识别方法及系统

技术领域

本发明涉及图像检测技术领域，尤其涉及一种基于人体姿态的异常行为识别方法及系统。

背景技术

在观察室中，常有被观察对象、目击者与观察人员共处一室的情况，部分被观察对象可能会在观察室作出不当行为，进而危害观察人员、目击者等人身安全，或者其破坏公物，造成财产损伤，甚至被观察对象或目击者会作出自残行为，影响观察过程。

由于观察室内的环境比较复杂，例如，有些被观察对象是性情比较乖张，屡教不改者较容易在观察室内作出不当行为；被观察对象在观察室内的时间较短，有时作出不当行为是在一瞬之间，留给观察人员反应和处理的时间太短，无法对其行为作出预测判断；在多个观察室的情况下，也无法联合学习和预测，无法实现并行预测，管控能力有限。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的目的在于提供一种基于人体姿态的异常行为识别方法及系统，以解决现有技术中对观察室内人体行为检测不够及时、无法实现并行预测等问题。

为达到上述目的，本发明采用如下技术方案：

第一方面，本申请实施例提供一种基于人体姿态的异常行为识别方法，用于观察室中人体行为检测，包括：

建立异常行为视频数据集，对所述异常行为视频数据集进行预处理和基于像素点的行为不当数据标记，得到训练数据集；

使用姿态识别算法对训练数据集中的每张图像进行骨架信息提取，得到骨架序列数据；

将骨架序列数据输入联邦学习模型中进行预训练，基于半监督学习机制，得到训练后的分类识别模型；

获取实时输入的待检测视频，经过数据处理后输入至训练后的所述分类识别模型，得到预测分类结果。

在一些实施例中，在将骨架序列数据输入联邦学习模型中进行预训练时，包括：

在所述联邦学习模型中包括两个及以上与观察室对应分布式布置的LSTM-GCN模型，利用每个所述LSTM-GCN模型对骨架序列数据进行特征值提取，利用目标函数将各特征值进行归一化处理，特征融合形成统一大小的矩阵，再线性处理成单一维度，训练得到分类识别模型。

在一些实施例中，所述分类识别模型为LSTM-GCN模型，包括两个以上的transfer层，利用每个所述transfer层对线性处理后的单一维度数据进行预测分类，分类结果包括威胁观察人员生命安全类别、破坏公物行为类别、自残危险行为类别和正常行为类别中的一种或一种以上。

在一些实施例中，在特征融合形成统一大小的矩阵并线性处理成单一维度后，将单一维度数据与被观察对象人口学结构化数据合并处理，得到预训练输入数据，再输入至各所述transfer层。

在一些实施例中，在建立异常行为视频数据集时：

将视频样本分割成正常行为数据样本和异常行为数据样本，将异常行为数据样本按3:2的比例分成异常行为视频数据集和测试数据集，所述视频样本包括但不限于公开的坐在被观察座椅上的异常行为数据、观察室历史异常行为数据；

利用异常行为视频数据集进行模型训练，利用测试数据集校验模型的预测分类结果。

在一些实施例中，在进行基于像素点的行为不当数据标记时：

接收描点指令，将图像中被选中的像素点标记为特定颜色，该像素点标记为1，其余像素点标记为0；

按描点顺序，将各被选中的像素点连线，形成行为不当数据标记，所述行为不当数据标记的最终形式为开环线段集或闭环线段集。

在一些实施例中，在完成行为不当数据标记后：

基于GAN对原标记数据进行数据增强，得到合成标记数据；

将合成标记数据与原标记数据合并，得到训练数据集。

在一些实施例中，在使用姿态识别算法对训练数据集中的每张图像进行骨架信息提取时：

利用人体姿态识别算法OpenPose获取图像中的人体关键骨骼点和骨架数据；

将所述关键骨骼点和骨架数据进行骨架归一化处理，切割出设定大小的图片；

利用AlphaPose算法进行精准躯干识别，得到骨架序列数据。

在一些实施例中，在获取实时输入的待检测视频，经过数据处理后输入至训练后的所述分类识别模型时：

获取观察视频时长为S的待检测视频，经预处理和基于像素点的行为不当数据标记后得到[X_t-s，···，X_t-1]和各个像素之间的空间关系A，预测下一个时刻t的行为X_t，即：

X_t＝F([X_t-s，···，X_t-1],A)

式中，X_t表示t时刻观察视频对应观察室中人体行为预测分类结果；A表示各个像素之间的空间关系；F表示LSTM-GCN模型。

第二方面，本申请实施例提供一种基于人体姿态的异常行为识别系统，用于观察室中人体行为检测，包括：

数据收集模块，用于建立异常行为视频数据集，对所述异常行为视频数据集进行预处理和基于像素点的行为不当数据标记，得到训练数据集；

骨架识别模块，用于使用姿态识别算法对训练数据集中的每张图像进行骨架信息提取，得到骨架序列数据；

预训练模块，用于将骨架序列数据输入联邦学习模型中进行预训练，基于半监督学习机制，得到训练后的分类识别模型；

预测分类模块，用于获取实时输入的待检测视频，经过数据处理后输入至训练后的所述分类识别模型，得到预测分类结果。

相比现有技术，本发明至少包括以下有益效果：

本申请实施例提供的基于人体姿态的异常行为识别方法及系统，利用公开的异常行为数据库或者观察室历史数据，建立异常行为视频数据集，经过预处理和像素点标记后，利用得到的训练数据集进行姿态识别，提取骨架信息，并利用联邦学习模型进行预训练，在训练后的分类识别模型中预测待检测视频，对多个观察室并行预测，实现有效及时预警。

下面结合附图和具体实施方式对本发明作进一步详细说明。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明提供的一种基于人体姿态的异常行为识别方法的流程框架示意图。

图2为本发明提供的一种基于人体姿态的异常行为识别方法的模型训练处理示意图。

图3为本发明提供的一种基于人体姿态的异常行为识别方法的整体流程示意图。

图4为本发明提供的一种基于人体姿态的异常行为识别系统的框架示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，当描述到特定器件位于第一器件和第二器件之间时，在该特定器件与第一器件或第二器件之间可以存在居间器件，也可以不存在居间器件。当描述到特定器件连接其它器件时，该特定器件可以与所述其它器件直接连接而不具有居间器件，也可以不与所述其它器件直接连接而具有居间器件。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

发明人发现，在观察室中，常有被观察对象、目击者与观察人员共处一室的情况，往往被观察对象、目击者会被放置在一个特定的被观察座椅或者被观察设备上接受观察，当被观察对象、目击者想从这一被观察座椅或者被观察设备上发起不当行为，例如想做出危害观察人员、目击者等人身安全，或者想破坏公物，造成财产损伤，甚至被观察对象或目击者想作出自残行为，在被观察座椅的约束下，其动作会出现一致性和雷同性，这就给发明人提供了一个可以预测的基础。

由于被观察对象或目击者在观察室内逗留的时间比较短，作出不当行为往往在一瞬之间，能采集用于分析预测的数据较少，考虑到有些被观察对象或目击者有可能是性情乖张之徒，屡教不改的人可能会更容易在观察室内作出不当行为，所以导致观察室中的预测场景变得更复杂多样，也更需要对这一场景进行异常行为的识别和预测。

第一方面，参照图1，本实施例提供一种基于人体姿态的异常行为识别方法，用于观察室中人体行为检测，包括：

步骤S1：建立异常行为视频数据集，对异常行为视频数据集进行预处理和基于像素点的行为不当数据标记，得到训练数据集，在训练数据集包括经过肢体标记后的图像；

步骤S2：使用姿态识别算法对训练数据集中的每张图像进行骨架信息提取，得到骨架序列数据，即获得较为精准的体态坐标数据；

步骤S3：将骨架序列数据输入联邦学习模型中进行预训练，基于半监督学习机制，得到训练后的分类识别模型，分类识别模型将训练数据集中包括的多种情况进行分类；

步骤S4：获取实时输入的待检测视频，经过数据处理后输入至训练后的分类识别模型，得到预测分类结果。

在本实施例中，利用异常行为视频数据集中的数据，可以通过联邦学习模型进行预训练，由于异常行为视频数据集的数据量较多，观察人员无法一一进行全部标记，鉴于经标记的图像数据有限，所以采用半监督学习机制，以扩大训练的数据量，提高训练后的分类识别模型的迭代次数和精度，当有新的实时输入的待检测视频输入时，能更精准地预测出其分类结果，并执行对应的处理策略。

结合图2和图3，作为一种实施方式，在将骨架序列数据输入联邦学习模型中进行预训练时，包括：

在联邦学习模型中包括两个及以上与观察室对应分布式布置的LSTM-GCN模型，由于联邦学习模型是一种机器学习设置模型，LSTM-GCN模型的数量与布置于观察室中的摄像头数量相同，即在一个观察室中，可能会存在多个摄像头，分别从不同的角度和视角对被观察对象进行拍摄，每个角度和视角下都会产生不一样的数据特征，所以其所应用的训练模型也不一样，故每个摄像头对应配置一个LSTM-GCN模型，也根据不同的角度和视角形成不同类型的异常行为视频数据子集，利用每个LSTM-GCN模型对骨架序列数据进行特征值提取，提取出来的特征值为碎片性质，长度大小不一，再利用目标函数将各特征值进行归一化处理，即进行补零，使特征融合形成统一大小的矩阵，再线性处理成单一维度，处理成统一长度的数据形式，再训练得到分类识别模型。

其中，LSTM-GCN模型中，SLTM在时间维度上对视觉数据进行卷积运算，提取躯干像素的时间特征，GCN在空间维度上对数据进行卷积运算，提取躯干像素间的空间特征，再将两种特征进行融合。

作为一种实施方式，分类识别模型为LSTM-GCN模型，包括两个以上的transfer层，transfer层的数量与LSTM-GCN模型数量一致，利用每个transfer层对线性处理后的单一维度数据进行预测分类，分类结果包括威胁观察人员生命安全类别、破坏公物行为类别、自残危险行为类别和正常行为类别中的一种或一种以上，其中，正常行为类别中的图像不需标记，威胁观察人员生命安全类别、破坏公物行为类别和自残危险行为类别这三种类别的图像都经过基于像素点的标记。

优选地，为了在LSTM-GCN模型中可以训练分类出更精准、更能解决复杂场景的预测结果，在特征融合形成统一大小的矩阵并线性处理成单一维度后，将单一维度数据与被观察对象人口学结构化数据合并处理，得到预训练输入数据，再输入至各transfer层；由于被观察对象人口学结构化数据包括了各种被观察对象的异常动作数据，特别地，还有其在相同类型被观察座椅上的数据，当被观察对象都处于同类型被观察座椅上，其所作的动作会受此被观察座椅的约束，例如当其在手臂限位在被观察座椅上时，想做出自残等行为，其手臂只能抬起一定角度和距离，然后手掌上翻，并与头部接触，而这一动作就属于结构化数据，具有同质性，而被观察对象人口学结构化数据除了包含这一动作特征，还可包含被观察对象的身份识别特征，提前使用被观察对象的动作数据进行训练和预测，当真正有历史被观察对象进观察室时，能提前做好预防，降低风险。

所以，相应地，在建立异常行为视频数据集时：

将视频样本分割成正常行为数据样本和异常行为数据样本，提取出只包含异常行为的数据样本，将异常行为数据样本按3:2的比例分成异常行为视频数据集和测试数据集，其中视频样本包括但不限于公开的坐在被观察座椅上的异常行为数据、观察室历史异常行为数据；

先利用异常行为视频数据集进行模型训练，再利用测试数据集校验模型的预测分类结果，根据最终测试输出的预测分类结果，判断是否达标，如果是，则完成训练，如果否，则重新优化模型，再多次迭代训练。

作为一种实施方式，由于观察室可能会存在多间，当观察室同时使用时，需要对多个观察室并行预测，所以在训练阶段，利用联邦学习的机制，保持各观察室的特性，在LSTM-GCN模型和分类识别模型的结构形式上，结合观察室中各摄像头的布局形式，使得每个LSTM-GCN模型都能结合对应角度和视角下的摄像头的视频数据进行训练，能更好地预测被观察对象的异常行为。

作为一种实施方式，在对异常行为视频数据集进行预处理时，包括：

1)将视频片段统一分辨率和帧速率；

2)数据清洗：添加缺失值、平滑噪声数据、分离视频信号轮廓；

3)根据视频信号轮廓进行数据异常值/信号不佳值处理。以5s视频数据为截断，对每段视频的各帧数据进行异常值/信号不佳值处理(删除)。基于MAD统计方法，设定阈值(一般设定为0.96)实现信号轮廓异常值的识别，并对相对应的视频数据进行处理(删除)。

作为一种实施方式，在进行基于像素点的行为不当数据标记时，包括：

接收描点指令，描点指令由工作人员通过操作鼠标等下发，将图像中被选中的像素点标记为特定颜色，比如绿色，该像素点标记为1，其余像素点标记为0；

按描点顺序，将各被选中的像素点连线，形成行为不当数据标记，行为不当数据标记的最终形式为开环线段集或闭环线段集，其中，开环线段集相当于是各线段按一定规则前后连接，但是不形成闭环，这种方式适合在观察室中摄像头能拍摄人身全体的情况；而闭环线段集相当于是各线段围绕人体的某个部位，形成一个闭环的圈，这种方式适合观察室中摄像头拍摄人体局部的情况。当然地，以上的说明不应作为开环线段集和闭环线段集应用场景限定条件，开环线段集和闭环线段集可根据实际需要应用在具体的场景中。

作为一种实施方式，为了提高数据样本的多样性，在完成行为不当数据标记后：

基于GAN对原标记数据进行数据增强，得到合成标记数据；

将合成标记数据与原标记数据合并，得到训练数据集。

需要说明的是，由于各个观察室的形式不尽相同，针对每一个观察室，其布置的摄像头位置都可能有差别，在特定角度和视角下，摄像头对被观察对象的全体或者局部进行拍摄，所以在这种情况下，可用于进行模型训练的数据样本比较少，为了提高针对每个摄像头的预测分类精准度，对每个摄像头对应的异常行为视频数据子集，都进行GAN数据增强，自动生成在特定角度和视角下的合成标记数据，以此增加数据样本，并将合成标记数据与原标记数据合并后，形成最终的训练数据集。

作为一种实施方式，在使用姿态识别算法对训练数据集中的每张图像进行骨架信息提取时：

利用人体姿态识别算法OpenPose获取图像中的人体关键骨骼点和骨架数据；其中，OpenPose网络使用损失函数来预测置信度，计算骨骼关节的PAFs，该算法首先获取图像中所有骨骼的关键点，然后对关键点进行聚类，最后将关键点连接起来得到人体骨架。该方法实现了对于像素点的PAFs值，以及像素中骨骼节点的概率；

将关键骨骼点和骨架数据进行骨架归一化处理，切割出设定大小的图片，使所有躯干都有归一化的长度，切割后图片的大小相同；

利用AlphaPose算法进行精准躯干识别，得到骨架序列数据；其中，AlphaPose的姿态估计方法是一种自上而下的方法，该算法研究了复杂环境下人体骨骼的提取，AlphaPose的主要问题是通过人类行为识别来处理错误和冗余数据。在人体行为检测中，AlphaPose采用非对称时空变异网络来提高行为检测的准确率，并采用参数姿态非最大值抑制方法来处理冗余数据。非对称时空变化网络从RGB图像开始，在对帧进行人体标记后，对每个帧区域进行空间变换，最终得到位姿估计结果，获得人体检测中精准的体态坐标数据，也即骨架序列数据。

在观察室中进行异常行为识别，具有数据样本少、反应时间短、安全风险大等问题，因此对于训练数据集的骨架信息提取精度要求很高，直接影响后续模型的学习程度及分类准确度，而为了提高处于一定观察约束条件下被观察对象的姿态识别精度，以上的OpenPose粗人体姿态识别、骨架归一化和AlphaPose细人体姿态识别作为一个整体的技术方案存在，很好地实现了被观察对象体态坐标数据的建立，保证识别精度。

在本实施例中，在获取实时输入的待检测视频，经过数据处理后输入至训练后的分类识别模型时：

X_t＝F([X_t-s，···，X_t-1],A)

式中，X_t表示t时刻观察视频对应观察室中人体行为预测分类结果，包括包括威胁观察人员生命安全类别、破坏公物行为类别、自残危险行为类别和正常行为类别；A表示各个像素之间的空间关系，即各个像素之间是否数据肢体相连部位；F表示LSTM-GCN模型。

LSTM-GCN模型由图卷积神经网络和长短期记忆单元两部分组成，本实施例中将长度为s的历史时间序列数据输入模型，利用双层GCN结构解析网格化拓扑结构，提取空间特征；然后将具备空间特征的时间序列数据输入LSTM中学习时间特征，最后通过一个线性回归层得到预测数据，即X_t，得到t时刻观察视频对应的预测分类结果。

第二方面，参照图4，本实施例提供一种基于人体姿态的异常行为识别系统，用于观察室中人体行为检测，用于实现如上实施例中所述的一种基于人体姿态的异常行为识别方法，包括：

数据收集模块，用于建立异常行为视频数据集，对异常行为视频数据集进行预处理和基于像素点的行为不当数据标记，得到训练数据集；

预测分类模块，用于获取实时输入的待检测视频，经过数据处理后输入至训练后的分类识别模型，得到预测分类结果。

优选地，数据收集模块包括摄像头和收集处理器，摄像头分布在不同的观察室中，分别从特定的角度和视角拍摄被观察对象，所收集的所有视频数据传输至收集处理器，收集处理器还接收被观察对象人口学结构化数据、坐在被观察座椅上的异常行为数据和观察室历史异常行为数据等。

相对于现有技术，上述实施例提供一种基于人体姿态的异常行为识别方法及系统，利用公开的异常行为数据库或者观察室历史数据，建立异常行为视频数据集，经过预处理和像素点标记后，利用得到的训练数据集进行姿态识别，提取骨架信息，并利用联邦学习模型进行预训练，在训练后的分类识别模型中预测待检测视频，对多个观察室并行预测，实现有效及时预警。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人体姿态的异常行为识别方法，用于观察室中人体行为检测，其特征在于，包括：

获取实时输入的待检测视频，经过数据处理后输入至训练后的所述分类识别模型，得到预测分类结果；

在进行基于像素点的行为不当数据标记时：

按描点顺序，将各被选中的像素点连线，形成行为不当数据标记，所述行为不当数据标记的最终形式为开环线段集或闭环线段集；

在将骨架序列数据输入联邦学习模型中进行预训练时，包括：

在所述联邦学习模型中包括两个及以上与观察室对应分布式布置的LSTM-GCN模型，LSTM-GCN模型的数量与布置于观察室中的摄像头数量相同，利用每个所述LSTM-GCN模型对骨架序列数据进行特征值提取，其中，SLTM在时间维度上对视觉数据进行卷积运算，提取躯干像素的时间特征，GCN在空间维度上对数据进行卷积运算，提取躯干像素间的空间特征；利用目标函数将各特征值进行归一化处理，特征融合形成统一大小的矩阵，再线性处理成单一维度，训练得到分类识别模型。

2.如权利要求1所述的一种基于人体姿态的异常行为识别方法，其特征在于，所述分类识别模型为LSTM-GCN模型，包括两个以上的transfer层，利用每个所述transfer层对线性处理后的单一维度数据进行预测分类，分类结果包括威胁观察人员生命安全类别、破坏公物行为类别、自残危险行为类别和正常行为类别中的一种或一种以上。

3.如权利要求2所述的一种基于人体姿态的异常行为识别方法，其特征在于，在特征融合形成统一大小的矩阵并线性处理成单一维度后，将单一维度数据与被观察对象人口学结构化数据合并处理，得到预训练输入数据，再输入至各所述transfer层。

4.如权利要求1至3任一项所述的一种基于人体姿态的异常行为识别方法，其特征在于，在建立异常行为视频数据集时：

5.如权利要求4所述的一种基于人体姿态的异常行为识别方法，其特征在于，在完成行为不当数据标记后：

基于GAN对原标记数据进行数据增强，得到合成标记数据；

将合成标记数据与原标记数据合并，得到训练数据集。

6.如权利要求5所述的一种基于人体姿态的异常行为识别方法，其特征在于，在使用姿态识别算法对训练数据集中的每张图像进行骨架信息提取时：

利用AlphaPose算法进行精准躯干识别，得到骨架序列数据。

7.如权利要求6所述的一种基于人体姿态的异常行为识别方法，其特征在于，在获取实时输入的待检测视频，经过数据处理后输入至训练后的所述分类识别模型时：

X_t＝F([X_t-s，···，X_t-1],A)

8.一种基于人体姿态的异常行为识别系统，应用如权利要求1至7中任一项的异常行为识别方法，用于观察室中人体行为检测，其特征在于，包括：