CN111666857B

CN111666857B - 基于环境语义理解的人体行为识别方法、装置及存储介质

Info

Publication number: CN111666857B
Application number: CN202010475795.7A
Authority: CN
Inventors: 冯颖龙; 付佐毅; 周宸; 周宝; 陈远旭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-07-04
Anticipated expiration: 2040-05-29
Also published as: CN111666857A; WO2021114892A1

Abstract

本发明涉及视频图像处理及人工智能技术领域，尤其涉及一种基于环境语义理解的人体行为识别方法、装置及存储介质。该方法包括：检测视频流中各帧图像包含的人体和物品；对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态；将人体的姿态输入第一卷积神经网络获取各人体不同动作类别的发生概率；将人体的姿态和人体周围的物品输入第二卷积神经网络获取各人体摔倒的发生概率；输出行为识别结果。通过上述方式，避免了姿态识别过程中将物品作为人体进行误识别，提高了人体姿态识别的准确性和实时性；第二卷积神经网络利用人体的姿态和周围的物品进行摔倒识别，提高了检测动作的准确度，对于不稳定的人体的姿态识别具有良好的鲁棒性。

Description

基于环境语义理解的人体行为识别方法、装置及存储介质

【技术领域】

本发明涉及视频图像处理技术领域，还涉及人工智能领域，尤其涉及一种基于环境语义理解的人体行为识别方法、装置及存储介质。

【背景技术】

现有技术中人体姿态识别的主流方案是采用自上而下和自下而上的算法，采用自下而上的算法识别人体姿态时，会有很大的概率产生误识别，例如，误将椅子或仓库摆放的机器人等物品作为人体并从中预测出人体的姿态，误识别会严重影响到算法的识别准确度以及使用场景，并且模型的不稳定性会给算法的应用增加较大的不确定性；同时，自下而上的算法增加了计算的时间复杂度和空间复杂度；另外，自上而下的算法对多人存在的复杂场景中估计位姿的准确率以及速度都较低。

估计出人体位姿后，需要根据人体位姿进行动作分类以识别人体行为，现有技术中大多采用基于端到端的算法模型进行动作分类，该算法模型对输入的人体位姿的准确度要求很高，也对标注的数据的质量要求很高，从而使得端到端的动作识别容易产生较大的偏差，识别的准确率较低。

因此，有必要提供一种新的人体行为识别方法以解决上述技术问题。

【发明内容】

本发明的目的在于提供一种基于环境语义理解的人体行为识别方法、装置及存储介质，能够解决现有技术中人体姿态识别的准确性低以及检测动作的准确度低的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于环境语义理解的人体行为识别方法，包括：

检测视频流中各帧图像包含的人体和物品；

对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态；

将所述视频流中连续的多帧图像中各人体的姿态输入到预先训练完成的第一卷积神经网络中，获取第一动作识别结果，所述第一卷积神经网络用于动作识别，所述第一动作识别结果包括各人体不同动作类别的发生概率；

获取各人体周围的物品，将所述视频流中连续的多帧图像中各人体的姿态以及各人体周围的物品输入到预先训练完成的第二卷积神经网络中，获取第二动作识别结果，所述人体周围的物品为每帧图像中与所述人体的距离小于或等于预设阈值的物品，所述第二卷积神经网络用于摔倒动作识别，所述第二动作识别结果包括各人体摔倒的发生概率；

根据所述第一动作识别结果和所述第二动作识别结果输出各人体的行为识别结果。

优选地，所述检测视频流中各帧图像包含的人体和物品，包括：

按照预设的划分方式，将所述视频流中各帧图像划分为多个网格；

在每个网格中，通过预先设置的不同类型的检测框进行目标预测，针对每个检测框，获取所述检测框预测的目标的坐标参数、检测框的宽度和高度以及检测框的置信度，将置信度最高的检测框作为预测结果，所述预测结果包括所述目标、所述检测框、所述目标的坐标参数以及所述目标的类别，所述检测框为框选出所述目标的外接区域，所述目标的类别包括人体和物品；

根据所述预测结果确定所述视频流中各帧图像包含的人体和物品。

优选地，所述人体的姿态包括关节点的位置和关节点之间的连线；所述对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态，包括：

对每帧图像中包含的人体进行高维特征提取；

根据所述高维特征确定所述人体的关节点的位置；

根据所述关节点的位置确定关节点之间的连线，将所述关节点的位置以及所述关节点之间的连线作为所述人体的姿态。

优选地，所述根据所述关节点的位置确定关节点之间的连线，包括：

针对每两个关节点，根据所述两个关节点的位置获取所述两个关节点的方向向量，将所述两个关节点的方向向量分解为平行方向向量和垂直方向向量；

针对所述两个关节点之间的每个像素点，根据所述像素点的位置以及所述两个关节点的方向向量判断所述像素点是否位于第一关节上；

若所述像素点位于所述第一关节上，根据相关性函数计算所述两个关节点的相关度，将相关度最高的所述两个关节点作为所述第一关节的两端，生成所述两个关节点之间的连线。

优选地，所述对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态，还包括：

针对每个人体的检测框，当所述检测框内包含多个人体时，基于位于所述检测框内的各人体的姿态，获取所述检测框中的多组关节点组，每组所述关节点组包括属于同一人体的多个关节点，所述人体的检测框为框选出每帧图像中包含的所述人体的外接区域；

从多组关节点组中获取左肩关节点和右肩关节点位于所述检测框内的关节点组；

从左肩关节点和右肩关节点位于所述检测框内的关节点组中选择关节点数量最多的关节点组标记为目标关节点组，将所述检测框内除目标关节点组外的关节点组标记为被遮挡关节点组，将所述目标关节点组对应的人体的姿态作为动作识别的对象。

优选地，所述将所述视频流中连续的多帧图像中各人体的姿态输入到预先训练完成的第一卷积神经网络中，获取所述人体的第一动作识别结果，包括：

利用注意力网络从所述视频流的每帧图像中提取感兴趣区域；

对所述视频流的每帧图像中各人体的不同关节点进行图卷积操作；

对所述视频流中连续的多帧图像中各人体的相同关节点进行时间卷积操作；

利用全连接层根据图卷积操作输出的特征和时间卷积操作输出的特征进行动作分类，获取各人体不同动作类别的出现概率。

优选地，所述人体行为识别方法还包括：将所述各人体的姿态及各人体的行为识别结果上传至区块链中，以使得所述区块链对所述各人体的姿态及各人体的行为识别结果进行加密存储；

所述利用注意力网络从所述视频流的每帧图像中提取感兴趣区域之前，还包括：

对所述视频流中连续的多帧图像中各人体的姿态进行归一化处理。

优选地，所述第二卷积神经网络的训练过程包括：

获取包含发生摔倒动作的人体的第一样本图像，检测所述第一样本图像包含的人体和物品；

对检测到的所述第一样本图像中包含的人体进行姿态识别，得到所述人体的姿态；

获取与所述人体的距离小于或等于所述预设阈值的物品，作为所述人体周围的物品，根据所述人体的位置以及所述人体周围的物品的位置确定所述物品相对于所述人体的位置；

将所述人体的姿态、所述人体周围的物品以及所述物品相对于所述人体的位置作为摔倒训练特征在所述第一样本图像中进行标注，得到第一标注样本图像；

将所述第一标注样本图像输入预设的初始神经网络中进行训练，以获得第二卷积神经网络。

优选地，所述方法还包括：将所述的人体的行为识别结果上传至区块链中。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于环境语义理解的人体行为识别装置，包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有用于实现上述的基于环境语义理解的人体行为识别方法的程序指令；所述处理器用于执行所述存储器存储的所述程序指令以进行基于环境语义理解的人体行为识别。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种存储介质，所述存储介质内存储有能够实现上述的基于环境语义理解的人体行为识别方法的程序指令。

本发明的有益效果在于：本发明的基于环境语义理解的人体行为识别方法、装置及存储介质，先检测视频流中各帧图像包含的人体和物品，再对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态；将人体的姿态输入第一卷积神经网络获取各人体不同动作类别的发生概率，将人体的姿态和人体周围的物品输入第二卷积神经网络获取各人体摔倒的发生概率，再根据人体不同动作类别的发生概率和人体摔倒的发生概率输出行为识别结果，通过上述方式，避免了姿态识别过程中将物品作为人体进行误识别，提高了人体姿态识别的准确性和实时性；第一卷积神经网络进行通用动作识别，第二卷积神经网络利用人体的姿态和周围的物品进行摔倒识别，提高了检测动作的准确度，对于不稳定的人体的姿态识别具有良好的鲁棒性。

【附图说明】

图1为本发明第一实施例的基于环境语义理解的人体行为识别方法的流程图；

图2为本发明第二实施例的基于环境语义理解的人体行为识别方法的流程图；

图3为本发明第三实施例的基于环境语义理解的人体行为识别装置的结构示意图；

图4为本发明第四实施例的基于环境语义理解的人体行为识别装置的结构示意图；

图5为本发明实施例的存储介质的结构示意图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的基于环境语义理解的人体行为识别方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该基于环境语义理解的人体行为识别方法包括步骤：

S101，检测视频流中各帧图像包含的人体和物品。

在步骤S101中，视频流包括机器人拍摄的连续多个视频帧，或者视频流包括机器人拍摄的连续多个视频帧中的任意几个视频帧。

在步骤S101中，基于环境语义信息理解，检测出环境中的人体和物品，将视频流输入到预先训练完成的深度学习网络中，获取该视频流中各帧图像包含的人体和物品，该深度学习网络用于目标预测，该目标包括人体和物品，该端到端的深度学习网络包括多层卷积神经网络、多层最大池化层以及全连接层，例如为23层卷积神经网络、5层最大池化层以及最后采用全连接层进行分类和回归，具体地，按照预设的划分方式，将该视频流中各帧图像划分为多个网格；在每个网格中，通过预先设置的不同类型的检测框进行目标预测，针对每个检测框，获取该检测框预测的目标的坐标参数(x,y)、检测框的宽度和高度(w,h)以及检测框的置信度(Ptr)，将置信度最高的检测框作为检测结果，该预测结果包括目标、检测框、该目标的坐标参数以及该目标的类别，该检测框为框选出所述目标的外接区域，该目标的类别包括人体和物品；根据所述预测结果确定所述视频流中各帧图像包含的人体和物品。

其中，可以将每帧图像分成s×s个网格，在每个网格中，按照不同类型的检测框进行目标预测，实现目标的位置和类别的预测，对于每个网格共有n个类型的检测框，目标预测的类别共有m种，包括人体、床、桌子、椅子、机器人、瑜伽垫等m种。对于不同类型的检测框，检测结果包括坐标参数(x,y)、宽度和高度(w,h)以及置信度(Ptr)，共有5个参数，则参数数量为(s×s×n×(m+5))。

为了预测图像中目标的类别和位置，对该深度学习网络进行训练，具体过程如下：针对样本图像集合中的每个样本图像，采用矩形的检测框标注目标；利用深度学习网络对该样本图像中目标的位置和类别进行预测，根据预测结果和目标的标注信息确定该深度学习网络的误差，该误差采用深度学习网络的损失函数进行确定，深度学习网络的损失函数包括坐标预测损失函数、置信度损失函数以及类别损失函数，分别如下所示：

(1)坐标预测损失函数：

其中，P_ij表示预测的第j个检测框内目标的中心点是否位于第i个网格内，u_i为预测的目标的中心点在第i个网格的横坐标，

为标注的目标的中心点在第i个网格的横坐标，v_i为预测的目标的中心点在第i个网格的纵坐标，/>

为标注的目标的中心点在第i个网格的纵坐标，w_i为预测的中心点在第i个网格内的目标所在检测框的宽度，/>

为标注的中心点在第i个网格内的目标所在检测框的宽度，h_i为预测的中心点在第i个网格内的目标所在检测框的高度，/>

为标注的中心点在第i个网格内的目标所在检测框的高度；

(2)置信度损失函数：

其中，P_ij表示预测的第j个检测框内目标的中心点是否位于第i个网格内，Conf_i为预测的置信度，

为标注的置信度；

(3)类别损失函数：

其中，P_i表示预测的第i个网络是否存在目标的中心点，p_i(m)为预测的第i个网格内的目标归属于类别m的概率，

为标注的第i个网格内的目标归属于类别m的概率。

S102，对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态。

在本实施例中，人体的姿态包括关节点的位置和关节点之间的连线，关节点包括头、左肩关节点、右肩关节点、颈关节点、腰关节点、左膝关节点、右膝关节点、左手腕关节点、右手腕关节点、左手肘关节点、右手肘关节点、左脚腕关节点、右脚腕关节点。

在本实施例中，将每帧图像中包含的各人体输入到预先训练完成的人体姿态检测网络中，获取人体的姿态，具体地，人体姿态检测网络包括用于提取高维特征的前馈神经网络、关节点位置预测网络以及关节点关系预测网络，其中，前馈神经网络包括10层卷积网络和2层池化网络，对每帧图像中包含的人体进行高维特征提取；关节点位置预测网络包括5层卷积网络，输出结果为每帧图像中第K个人体第j种关节点的置信度

用于根据该高维特征确定该人体的关节点的位置；关节点关系预测网络用于估计两个关节点之间的连接方向，根据该关节点的位置确定关节点之间的连线，将属于同一人体的关节点的位置以及该关节点之间的连线作为该人体的姿态。

在对多个人体关节点进行连线时，由于多个关节点之间是可以建立多种连线方式的，但是符合人体的构造，保证连线是可以表示人体的某个结构的连线方式只有一种，例如，只有将腕关节点和肘关节点连线才可以表示人体的胳膊，因此，按照人体构造对多个人体关节点进行连线只会有一种方式，这样，在连线后，便可以基于人体关节点和连线表现出人体的姿态。具体地，根据该关节点的位置确定关节点之间的连线的步骤包括：

第一步，针对每两个关节点，根据该两个关节点的位置获取该两个关节点的方向向量，并将该两个关节点的方向向量分解为平行方向向量和垂直方向向量。

具体地，判断第一关节点(位置为a1)和第二关节点(位置为a2)是否为第一关节(例如为左臂或右臂)的两端，第一关节点和第二关节点的方向向量

将方向向量/>

分解为平行方向向量/>

和垂直方向向量/>

其中，/>

第二步，针对该两个关节点之间的每个像素点，根据该像素点的位置以及该两个关节点的方向向量判断该像素点是否位于第一关节上。

具体地，第一关节的长度为L，第一关节的宽度为w，第一关节点(a1)和第二关节点(a2)之间的像素点p，p为该像素点的位置，当像素点p满足

时，像素点p位于该第一关节上，第一关节点(a1)和第二关节点(a2)具有相关性。

第三步，若该像素点位于该第一关节上，根据相关性函数计算该两个关节点与该第一关节的相关度，将相关度最高的该两个关节点作为该第一关节的两端，生成该两个关节点之间的连线。

具体地，相关性函数为

其中，p(u)为对从第一关节点(a1)和第二关节点(a2)之间的像素进行采样，p(u)＝(1-u)a₁+ua₂。

S103，将该视频流中连续的多帧图像中各人体的姿态输入到预先训练完成的第一卷积神经网络中，获取第一动作识别结果，该第一卷积神经网络用于动作识别，该第一动作识别结果包括各人体不同动作类别的发生概率。

在本实施例中，第一卷积神经网络针对通用动作进行分类，第一卷积神经网络为图卷积神经网络，步骤S103具体包括如下步骤：

对该视频流中连续的多帧图像中各人体的姿态进行归一化处理；

利用注意力网络从该视频流的每帧图像中提取感兴趣区域；

对该视频流的每帧图像中各人体的不同关节点进行图卷积操作；

对该视频流中连续的多帧图像中各人体的相同关节点进行时间卷积操作；

具体地，动作分类的公式如下：

其中：g_out为分类结果；fi_in为特征图；

为采样函数，/>

即当前关节点v_ti距离最近的关节点v_tj；x为关节点位置；w为权重；/>

为加权函数；K为卷积核大小；空间域中，/>

时间域中，

其中，r_i为当前关节点v_ti到人体中心的距离；r_j为相邻关节点v_tj到人体中心的距离；Γ为采样时间窗口大小；q为采样时间；t为当前时间。

S104，获取各人体周围的物品，将该视频流中连续的多帧图像中各人体的姿态以及各人体周围的物品输入到预先训练完成的第二卷积神经网络中，获取第二动作识别结果，该第二卷积神经网络用于摔倒动作识别，该第二动作识别结果包括各人体摔倒的发生概率。

在本实施例中，该人体周围的物品为每帧图像中与该人体的距离小于或等于预设阈值的物品。

在本实施例中，根据人体的姿态、该人体周围的物品以及该物品相对于该人体的位置进行摔倒识别，例如识别出要摔倒的人体以及周围的桌子，椅子的语义信息和位置信息，然后判断，如果该摔倒的人距离桌椅很近，很可能没有摔倒，如果距离桌椅很远，则有较大的概率可能摔倒。如果检测到摔倒的人体的下方是床铺或者瑜伽垫，此时可以判断出该行人没有摔倒，只是躺下或者做一些运动，配合周围环境的语义信息，大大提高了检测动作的准确度。

在本实施例中，该第二卷积神经网络是以发生摔倒时人体的姿态、该人体周围的物品以及该物品相对于该人体的位置作为样本集训练得到的。具体地，在本实施例中，第二卷积神经网络的训练过程包括：

S1041，分别获取包含发生摔倒动作的人体的第一样本图像以及包含发生类摔倒动作的人体的第二样本图像，分别检测第一样本图像包含的人体和物品以及第二样本图像包含的人体和物品；

S1042，分别对检测到的第一样本图像及第二样本图像中包含的人体进行姿态识别，得到所述人体的姿态；

S1043，在第一样本图像中，获取与所述人体的距离小于或等于所述预设阈值的物品，作为所述人体周围的物品，根据所述人体的位置以及所述人体周围的物品的位置确定所述物品相对于所述人体的位置；将所述人体的姿态、所述人体周围的物品以及所述物品相对于所述人体的位置作为摔倒训练特征在所述第一样本图像中进行标注，得到第一标注样本图像；

S1044，在第二样本图像中，获取与所述人体的距离小于或等于所述预设阈值的物品，作为所述人体周围的物品，根据所述人体的位置以及所述人体周围的物品的位置确定所述物品相对于所述人体的位置；将所述人体的姿态、所述人体周围的物品以及所述物品相对于所述人体的位置作为非摔倒训练特征在所述第二样本图像中进行标注，得到第二标注样本图像；

S1045，将所述第一标注样本图像和所述第二样本标注图像输入预设的初始神经网络中进行训练，以获得第二卷积神经网络。

S105，根据该第一动作识别结果和该第二动作识别结果输出各人体的行为识别结果。

在本实施例中，通过分别对第一动作识别结果和第二动作识别结果设置对应权重，根据第一动作识别结果中人体不同动作类别的发生概率与第一动作识别结果的权重以及第二识别结果中人体摔倒的发生概率与第二识别结果的权重计算人体不同动作类别的调整概率以及人体摔倒的调整概率，将调整概率最大的动作类别作为人体的行为识别结果输出。

图2是本发明第二实施例的基于环境语义理解的人体行为识别方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该基于环境语义理解的人体行为识别方法包括步骤：

S201，检测视频流中各帧图像包含的人体和物品。

S202，对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态。

S203，对识别到的每帧图像中包含的各人体的姿态进行去遮挡操作。

S204，将该视频流中连续的多帧图像中各人体的姿态输入到预先训练完成的第一卷积神经网络中，获取第一动作识别结果，该第一卷积神经网络用于动作识别，该第一动作识别结果包括各人体不同动作类别的发生概率。

S205，获取各人体周围的物品，将该视频流中连续的多帧图像中各人体的姿态以及各人体周围的物品输入到预先训练完成的第二卷积神经网络中，获取第二动作识别结果，该第二卷积神经网络用于摔倒动作识别，该第二动作识别结果包括各人体摔倒的发生概率。

S206，根据该第一动作识别结果和该第二动作识别结果输出各人体的行为识别结果。

步骤S201、步骤S202、步骤S204至S206分别参见第一实施例的步骤S101至步骤S105，在此不进行一一赘述。

在步骤S203中，针对每个检测框，当所述检测框内包含多个人体时，基于位于所述检测框内的各人体的姿态，获取该检测框中的多组关节点组，每组关节点组包括属于同一人体的多个关节点，该人体的检测框为框选出每帧图像中包含的该人体的外接区域；从多组关节点组中获取左肩关节点和右肩关节点位于该检测框内的关节点组；从左肩关节点和右肩关节点位于该检测框内的关节点组中选择关节点数量最多的关节点组标记为目标关节点组，将该检测框内除目标关节点组外的关节点组标记为被遮挡关节点组。在本实施例中，每组关节点组对应一个人体，当检测框中存在多个人体时，通过步骤S203的去遮挡操作去除被遮挡人体的关节点组，将该目标关节点组对应的人体的姿态作为动作识别的对象，在后续步骤S204和步骤S205中，根据目标关节点组对应的人体的姿态进行动作分类。在步骤S205中，在本实施例中，该人体周围的物品为每帧图像中与该人体的距离小于或等于预设阈值的物品。

在本实施例中，多人重叠场景设计算法来去遮挡，从而进一步避免利用被遮挡的人的位姿信息识别未被遮挡人的行为动作，增加了算法的可靠性，提高了算法的准确率，从而使之可以在实际复杂场景之中应用。

在一个可选的实施方式中，步骤S206之后还包括如下步骤：

所述人体行为识别方法还包括：将所述各人体的姿态及各人体的行为识别结果上传至区块链中，以使得所述区块链对所述各人体的姿态及各人体的行为识别结果进行加密存储。

具体地，基于各人体的姿态或各人体的行为识别结果得到对应的摘要信息，具体来说，摘要信息由各人体的姿态或各人体的行为识别结果进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证人体的行为识别结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

图3是本发明第三实施例的基于环境语义理解的人体行为识别装置的结构示意图。如图3所示，该装置30包括目标检测模块301、姿态识别模块302、通用动作分类模块303、摔倒动作识别模块304和输出模块305。

其中，目标检测模块301用于检测视频流中各帧图像包含的人体和物品；姿态识别模块302用于对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态；通用动作分类模块303用于将该视频流中连续的多帧图像中各人体的姿态输入到预先训练完成的第一卷积神经网络中，获取第一动作识别结果，该第一卷积神经网络用于动作识别，该第一动作识别结果包括各人体不同动作类别的发生概率；摔倒动作识别模块304用于获取各人体周围的物品，将该视频流中连续的多帧图像中各人体的姿态以及各人体周围的物品输入到预先训练完成的第二卷积神经网络中，获取第二动作识别结果，人体周围的物品为每帧图像中与人体的距离小于或等于预设阈值的物品，该第二卷积神经网络用于摔倒动作识别，该第二动作识别结果包括各人体摔倒的发生概率；输出模块305用于根据该第一动作识别结果和该第二动作识别结果输出各人体的行为识别结果。

图4是本发明第四实施例的基于环境语义理解的人体行为识别装置的结构示意图。如图4所示，该人体行为识别装置40包括处理器41及和处理器41耦接的存储器42。

存储器42存储有用于实现上述任一实施例该基于环境语义理解的人体行为识别的程序指令。

处理器41用于执行存储器42存储的程序指令以进行基于环境语义理解的人体行为识别。

其中，处理器41还可以称为CPU(Central Processing Unit，中央处理单元)。处理器41可能是一种集成电路芯片，具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图5，图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令51，其中，该程序指令51可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

1.一种基于环境语义理解的人体行为识别方法，其特征在于，所述方法包括：

检测视频流中各帧图像包含的人体和物品；

根据所述第一动作识别结果和所述第二动作识别结果输出各人体的行为识别结果；其中，所述检测视频流中各帧图像包含的人体和物品，包括：

根据所述预测结果确定所述视频流中各帧图像包含的人体和物品；

所述将所述视频流中连续的多帧图像中各人体的姿态输入到预先训练完成的第一卷积神经网络中，获取所述人体的第一动作识别结果，包括：

2.根据权利要求1所述的人体行为识别方法，其特征在于，所述人体的姿态包括关节点的位置和关节点之间的连线；所述对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态，包括：

对每帧图像中包含的人体进行高维特征提取；

根据所述高维特征确定所述人体的关节点的位置；

3.根据权利要求2所述的人体行为识别方法，其特征在于，所述根据所述关节点的位置确定关节点之间的连线，包括：

4.根据权利要求1所述的人体行为识别方法，其特征在于，所述对检测到的每帧图像中包含的各人体进行姿态识别，得到各人体的姿态之后，还包括：

5.根据权利要求1所述的人体行为识别方法，其特征在于，所述人体行为识别方法还包括：将所述各人体的姿态及各人体的行为识别结果上传至区块链中，以使得所述区块链对所述各人体的姿态及各人体的行为识别结果进行加密存储；

所述利用注意力网络从所述视频流的每帧图像中提取感兴趣区域之前，还包括：对所述视频流中连续的多帧图像中各人体的姿态进行归一化处理。

6.根据权利要求1所述的人体行为识别方法，其特征在于，所述第二卷积神经网络的训练过程包括：

7.一种基于环境语义理解的人体行为识别装置，其特征在于，所述装置包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有用于实现如权利要求1～6中任一项所述的基于环境语义理解的人体行为识别方法的程序指令；所述处理器用于执行所述存储器存储的所述程序指令以进行基于环境语义理解的人体行为识别。

8.一种存储介质，其特征在于，所述存储介质内存储有能够实现如权利要求1～6中任一项所述的基于环境语义理解的人体行为识别方法的程序指令。