CN115713715A

CN115713715A - 一种基于深度学习的人体行为识别方法及识别系统

Info

Publication number: CN115713715A
Application number: CN202211465984.1A
Authority: CN
Inventors: 庞文魁; 李梦鸽; 郑亚娟; 张艺楠; 武进军
Original assignee: Tianjin Anjie Wulian Science And Technology Co ltd
Current assignee: Tianjin Anjie Wulian Science And Technology Co ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-02-24
Anticipated expiration: 2042-11-22
Also published as: CN115713715B

Abstract

本发明公开了一种基于深度学习的人体行为识别方法及识别系统，属于行为识别技术领域，其特征在于，包括如下步骤：S1、获取基础数据；S2、数据预处理；S3、训练人体行为识别网络；具体包括：S301、目标检测：S302、姿态识别；S303、动作分类；S304、进行后处理，利用S301中对香烟和电话的识别结果，结合S303的摔倒和抬手的动作标签，生成人体行为识别模型的最终预测结果，最终预测结果包括正常人、打电话、抽烟、摔倒四类；S4、利用人体行为识别网络进行图像识别。本发明采用了轻量化的模型，提升了模型的速度。人体行为识别网络可以端到端地训练，并自动快速准确地预测固定场景下抽烟，打电话和摔倒的危险行为。

Description

一种基于深度学习的人体行为识别方法及识别系统

技术领域

本发明属于行为识别技术领域，尤其涉及一种基于深度学习的人体行为识别方法及识别系统。

背景技术

众所周知，行为识别研究的是视频中目标的动作，比如判断一个人是在走路，跳跃还是挥手。在视频监督，视频推荐和人机交互中有重要的应用。近几十年来，随着神经网络的兴起，发展出了很多处理行为识别问题的方法。不同于目标识别，行为识别除了需要分析目标的空间依赖关系，还需要分析目标变化的历史信息。这就为行为识别的问题增加了难度。输入一系列连续的视频帧，机器首先面临的问题是如何将这一系列图像依据相关性进行分割，比如一个人可能先做了走路的动作，接下来又做了挥手，然后又跳跃。机器要判断这个人做了三个动作，并且分离出对应时间段的视频单独进行判断。其次机器要解决的问题是从一幅图像中分离出要分析的目标，比如一个视频中有一个人和一条狗，需要分析人的行为而忽略狗的行为。最后是将一个人在一个时间段的行为进行特征提取，进行训练，对动作做判断。这些问题是机器需要面临的问题，当然在实际运用中，这些问题的解决可能会被统一解决，或者被人为地控制。接下来我们将详细介绍以下内容：兴趣点提取，密集轨迹，光流和表观并举，3D卷积网络，循环神经网络(LSTM)，图卷积网络(GCN)几种方法以及对应发展出来的方法。人体行为识别技术近年来发展迅速，包括目标检测、人体关键点检测和人体姿态识别等技术都得到了广泛地应用。

显然，视觉行为识别技术在当前生产生活中具有重要意义，有效的行为识别能应用于安防监控和网络视频监测等诸多领域，能够有效地节省人工，对潜在的安全风险进行监测和预警，因此视觉行为识别已成为近年研究的热点。

传统的人体行为识别技术存在如下的缺陷：

固定场景下，传统的人体行为识别算法只关注人员自身行为，无法识别重点区域(如加油站、加气站、燃气储配站等)中的人员接打手机、抽烟和摔倒的危险行为。

发明内容

针对现有技术的缺陷，本发明提供一种基于深度学习的人体行为识别方法及识别系统，在基于人体关键点检测的人体行为识别任务中引入目标检测机制，采用人工智能的技术手段代替传统人工监督的方式，识别重点区域(如加油站、加气站、燃气储配站等)中人员跌倒、抽烟、接打电话的危险行为并智能预警，用于提升重点区域内的安全等级，保证人员和生产安全，预防财产损失。

本发明所采用的具体技术方案为：

本专利的第一发明目的是提供一种基于深度学习的人体行为识别方法，包括如下步骤：

S1、获取基础数据；所述基础数据包括：

具有人、香烟、电话目标的目标检测数据集；将目标检测数据集存储为COCO标注格式，并划分为训练集和测试集；

具有抬手动作、正常动作、摔倒动作的动作识别数据集；将动作识别数据集存储为COCO标注格式，并划分为训练集和测试集；

具有正常人姿态、打电话姿态、抽烟姿态、摔倒姿态的姿态识别数据集；按照COCO标注格式手工标注姿态识别数据集；

S2、数据预处理；对目标检测数据集的训练集进行的数据预处理操作包括：数据增强(如图像裁剪、翻转、扭曲等)、像素变换(MixUp和Mosaic方法)、引入多尺度机制、添加噪声和扰动；

S3、训练人体行为识别网络；具体包括：

S301、目标检测：采用YOLOv3模型，Darknet53-CSP作为backbone，识别出人、香烟、电话的bounding box；

S302、姿态识别；使用mmpose框架的自顶向下的HRNet模型，采用MobileNetv2作为backbone；以S301识别出的人的bounding box作为输入，输出人体关键点的heatmap；

S303、动作分类；设计分类神经网络，以S302中生成的heatmap作为输入，输出为人体的动作，动作包括摔倒、抬手、其他动作；

S304、进行后处理，利用S301中对香烟和电话的识别结果，结合S303的摔倒和抬手的动作标签，生成人体行为识别模型的最终预测结果，最终预测结果包括正常人、打电话、抽烟、摔倒四类；

S4、利用人体行为识别网络进行图像识别。

优选地：所述目标检测数据集的获取过程为：

首先从COCO2017数据集中搜索所有包含人、电话目标的图像得到人物数据集和电话数据集，在人物数据集当中加入网络上收集的摔倒图片数据集，并获取对应标签文件；

其次，从网络收集第三方数据集以及爬取香烟图片，并进行框级标注；

最后，将目标检测数据集存储为COCO标注格式，并按照设定的比例划分为训练集和测试集；设定的比例可以为：18221:3964。

优选地：所述动作识别数据集的获取过程为：从所述目标检测数据集中，选取具有抬手动作、正常动作和摔倒动作的图片制作动作识别数据集，将动作识别数据集存储为COCO标注格式，并按照设定比例划分为训练集和测试集。

优选地：所述姿态识别数据集的获取过程为：从所述目标检测数据集的测试集中采集正常人姿态、打电话姿态、抽烟姿态和摔倒姿态的图像，并构成姿态识别数据集。

优选地：图像预处理中：

数据增强是对图像进行翻转。对图像平移和裁剪。对图像实施色彩变化；

像素变换是从目标检测数据集的训练集图像中随机选取2个样本进行随机加权求和，样本的标签也对应于加权求和；从训练集中随机选取四张图片，进行随机裁剪，再拼接到一张图像上作为训练数据；

引入多尺度机制是将目标检测数据集的训练集图像等比缩放到320和608的尺寸；

添加噪声和扰动是对目标检测数据集的训练集添加高斯、椒盐噪声；对图像施加对抗扰动。

优选地：在S301中，在神经网络架构中加入特征金字塔，以分治的策略处理小、中、大型目标，所述YOLOv3模型在mmdetection框架上进行实现，在数据预处理部分使用最小IoU随机裁切、随机翻转、图像扭曲三种数据增强方案，同时使用多尺度训练的策略，分别将图像等比缩放到320和608的尺寸进行训练，在验证过程中，将图像等比缩放到608的尺寸；

训练过程使用mmdetection提供的YOLOv3权重作为预训练权重，并设置迭代次数为50次；采用SGD优化器，初始学习率设置为0.0002，momentum设置为0.9，weight_decay设置为0.0005；采用step方式更新学习率，并设置了线性的warmup，迭代次数为2000，warmup_ratio设置为0.1；

模型验证使用mmdetection框架的评估工具，评价模型在人、香烟和电话三类样本上的AP值。

优选地：在S304中，评价标准如下：对于任意一张输入图像，首先使用S301中的目标检测网络预测出人体的bounding box，然后使用S303的动作分类网络对bounding box中的人体动作类别进行识别。如果该bounding box对应的动作类别为抬手，则判断boundingbox内是否存在香烟和电话，若存在则最终识别结果为对应的物体类别；如果该boundingbox对应的动作类别为no_pick_up，则最终的识别结果为正常人；如果该bounding box对应的动作类别为摔倒，则最终的识别结果标记为摔倒；

验证过程使用pycocotools评估识别结果的AP指标，作为最终人体行为识别模型的端到端验证结果。

本专利的第二发明目的是提供一种基于深度学习的人体行为识别系统，包括：

获取基础数据获取模块；所述基础数据包括：

数据预处理模块；对目标检测数据集的训练集进行的数据预处理操作包括：数据增强(如图像裁剪、翻转、扭曲等)、像素变换(MixUp和Mosaic方法)、引入多尺度机制、添加噪声和扰动；

训练模块：训练人体行为识别网络；具体包括：

执行模块：利用人体行为识别网络进行图像识别。

本专利的第三发明目的是提供一种实现上述基于深度学习的人体行为识别方法的计算机程序。

本专利的第四发明目的是提供一种实现上述基于深度学习的人体行为识别方法的信息数据处理终端。

本专利的第五发明目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于深度学习的人体行为识别方法。

本发明的优点及积极效果为：

通过采用上述技术方案，本发明具有如下的技术效果：

本发明采用了轻量化的模型，提升了模型的速度。人体行为识别网络可以端到端地训练，并自动预测固定场景下抽烟，打电话和摔倒的危险行为。实验结果表明，本发明在识别危险行为时，处理单张图片所需时间在43.60ms-65.38ms之间，花费时间短；动作识别子任务的Top-1分类准确度为93.35％，人体姿态识别任务的mAP(0.5)达到了0.956。因此，本发明能够快速准确地识别出固定场景下抽烟，打电话和摔倒的危险行为。具体为：

1、本发明能够识别固定场景下打手机、抽烟和摔倒这三种危险行为。

2、本发明所建立的人体行为识别网络可在数据集上端到端训练。给定一副输入图像可以自动判断图像中是否存在打手机、抽烟和摔倒的危险行为。

3、在识别危险行为时，本发明处理单张图片所需时间在43.60ms-65.38ms之间，花费时间短；动作识别子任务的Top-1分类准确度为93.35％，人体姿态识别任务的mAP(0.5)达到了0.956，准确率高。

附图说明

图1为人体姿态识别算法的流程图；

图2为Yolov3网络结构示意图；

图3展示了分类网络的结构图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图1至图3对本发明的技术方案作详细的描述。

术语解释

1、人体动作识别：通过计算机视觉技术对人体动作特征进行提取、分类，识别出人体动作，得到动作信息，让机器“读懂”人的肢体语言。

人体关键点识别：利用计算机视觉技术实时检测分析人体肢体、手部、头部等肢体信息，计算得出核心关键点三维坐标数据。在姿态识别、行为分析、体感游戏、动作捕捉等领域有着广泛应用。

一种基于深度学习的人体行为识别方法，由目标检测、姿态识别和动作分类三个阶段组成。本发明所使用的神经网络模型可在数据集上端到端训练。在识别危险行为时，该模型处理单张图片所需时间在43.60ms-65.38ms之间，花费时间短；动作识别子任务的Top-1分类准确度为93.35％，人体姿态识别任务的mAP(0.5)达到了0.956，准确率高。包括如下步骤：

步骤一、基础数据采集：

本发明使用自建数据集，该数据集包含三个部分：

1、包含人、香烟、电话的目标检测数据集：首先，编写脚本从COCO2017数据集中搜索所有人person、电话cellphone图片，在person数据集当中加入了网络上收集的摔倒图片数据集，并获取对应标签文件。其次，由于COCO2017数据集并没有香烟类的数据，所以本发明从网络收集了第三方数据集以及爬取香烟图片共4800张，并做好框级标注。最后，将目标检测数据集存储为COCO标注格式，并按照18221:3964的比例划分为训练集和测试集。

2、包含抬手动作、正常动作、摔倒动作的动作识别数据集：从包含人、香烟、电话的目标检测数据集中，选取了含有抬手动作(pickup)、正常动作(nopickup)和摔倒动作(down)的图片制作动作识别数据集。将动作识别数据集存储为COCO标注格式，并按照11477:1875的比例划分为训练集和测试集。

3、包含正常人姿态、打电话姿态、抽烟姿态、摔倒姿态的姿态识别数据集：从目标检测数据集的测试集中采集正常人姿态(person)、打电话姿态(calling)、抽烟姿态(smoking)和摔倒(lying)的姿态识别数据集。按照COCO标注格式手工标注姿态识别数据集，用来评估人体行为识别算法的准确度和速度等性能。

步骤二、数据预处理：

深度学习通常对训练数据的规模有较高的要求，数据增广能够在数据集规模一定的情况下对原始数据规模进行一定的提升，从而提高模型的性能。本项目尝试使用了如下数据增广算法：

1、数据增强：对目标检测数据集的训练集图像进行任意方向的翻转；对图像平移和裁剪；对图像实施色彩变化；

2、像素增强：从目标检测数据集的训练集图像中随机选取2个样本进行随机加权求和，样本的标签也对应于加权求和；从训练集中随机选取四张图片，进行随机裁剪，再拼接到一张图像上作为训练数据；

3、引入多尺度机制：使用Multi-scale融合不同尺度的图片进行数据增强，将目标检测数据集的训练集图像等比缩放到320和608的尺寸；

4、添加噪声和扰动：对目标检测数据集的训练集图像添加高斯、椒盐噪声；对图像施加对抗扰动；

步骤三：训练人体行为识别网络：

人体姿态识别算法共分为三个阶段，即目标检测、姿态识别和动作分类。

1、第一阶段为目标检测，采用YOLOv3模型，Darknet53-CSP作为backbone。该阶段识别出人、香烟、电话的bounding box。

由于场景中的电话、香烟目标可能很大也可能较小，所以在神经网络架构中加入特征金字塔，以分治的策略处理小、中、大型目标，用于提高算法对小目标的检测准确率。

本发明在第一阶段采用的YOLOv3模型在mmdetection框架上进行实现。在数据预处理部分使用了最小IoU随机裁切、随机翻转、图像扭曲等数据增强方案，还使用了多尺度训练的策略，分别将图像等比缩放到320和608的尺寸进行训练。在验证过程中，将图像等比缩放到608的尺寸。

训练过程读取mmdetection提供的YOLOv3权重作为预训练，设置迭代次数为50。采用SGD优化器，初始学习率设置为0.0002，momentum设置为0.9，weight_decay设置为0.0005。采用step方式更新学习率，并设置了线性的warmup，迭代次数为2000，warmup_ratio设置为0.1。

模型验证使用mmdetection框架自带的评估工具，评价模型在人、香烟和电话三类样本上的AP值。

2、第二阶段为姿态识别，姿态识别部分直接使用了mmpose框架提供的自顶向下的HRNet模型，采用MobileNetv2作为backbone。

采用HRNet模型，MobileNetv2作为backbone。该阶段以第一阶段识别出的人的bounding box作为输入，输出人体关键点的heatmap。

3、第三阶段为动作分类，本发明手工设计了一个简单的分类神经网络，以第二阶段中生成的heatmap作为输入。输出为人体的动作，包括摔倒(lying)、抬手(pickup)、其他动作(other)。动作分类网络采用了全局平均池化层替代全连接层，减少参数防止过拟合，同时使用通道和空间注意力机制，使网络关注重要的姿态通道，提升特征提取能力。

动作分类网络使用PyTorch框架自行编写实现，设置最大迭代次数为50。训练过程采用Adam优化器，初始学习率设置为0.0001，weight_decay设置为1e-6。采用StepLR作为学习率更新策略，每3个epoch将学习率乘以0.5。损失函数采用二元交叉熵损失。

验证过程根据网络输出结果计算Top-1准确率，即计算分类正确的个数占总样本个数的比例。

4、最后进行后处理，利用第一阶段(目标检测)中对香烟和电话的识别结果，结合第三阶段(动作分类)的pickup和lying的动作标签，生成人体行为识别模型的最终预测结果，包括：正常人(person)、打电话(cellphone)、抽烟(smoke)、摔倒(down)四类。

评价标准如下：对于任意一张输入图像，首先使用第一阶段的目标检测网络预测出人体的bounding box，然后使用第三阶段的动作分类网络对bounding box中的人体动作类别进行识别。如果该bounding box对应的动作类别为抬手，则判断bounding box内是否存在香烟和电话，若存在则最终识别结果为对应的物体类别；如果该bounding box对应的动作类别为no_pick_up，则最终的识别结果为person；如果该bounding box对应的动作类别为lying，则最终的识别结果标记为lying。

人体姿态识别算法可以在本发明的自建数据集上进行端到端的精度验证。该算法根据输入图像得出person、cellphone、smoking、lying四类目标的bounding box，最终结果保存在json文件中。验证过程使用pycocotools评估识别结果的AP指标，作为最终人体行为识别模型的端到端验证结果。

步骤四：使用人体姿态识别算法预测未知图像中的正常人姿态、打电话姿态、抽烟姿态和摔倒姿态。

上述实施例使用自建数据集来验证，具体步骤包括：

1、初始化模型并读取权重；

2、根据指定文件夹名和文件名生成待处理图片列表；

3、第一阶段为目标检测，采用YOLOv3模型，Darknet53-CSP作为backbone。该阶段识别出人、香烟、电话的bounding box。

本发明尝试采用轻量化后的模型替换目前的YOLOv3模型和HRNet模型，对模型进行提速。例如，采用通道剪枝的方法对第一阶段检测部分的YOLOv3模型进行轻量化，在保证精度的情况下，尽可能提升速度。剪枝后，YOLOv3模型参数量减少70％，速度提升了9ms，精度存在一定程度的下降。

目标检测模型在mmdetection框架上进行实现。在数据预处理部分使用了最小IoU随机裁切、随机翻转、图像扭曲等数据增强方案，还使用了多尺度训练的策略，分别将图像等比缩放到320和608的尺寸进行训练。

训练过程通过前向传播得到网络输出，输出结果为检测到每一个目标的boundingbox坐标、该目标的类别以及置信度。预训练权重采用mmdetection提供的YOLOv3权重，设置迭代次数为50。采用SGD优化器，初始学习率设置为0.0002，momentum设置为0.9，weight_decay设置为0.0005。采用step方式更新学习率，并设置了线性的warmup，迭代次数为2000，warmup_ratio设置为0.1。

在验证过程中，将图像等比缩放到608的尺寸。本发明使用了mmdetection自带的anchor优化方法，根据数据集中目标的大小自动得出合适的anchor。

4、第二阶段为姿态识别，姿态识别部分直接使用了mmpose框架提供的自顶向下的HRNet模型，采用MobileNetv2作为backbone。第二阶段以第一阶段识别出的人的boundingbox作为输入，输出人体关键点的heatmap。

5、第三阶段为动作分类，本发明手工设计了一个简单的分类神经网络，将heatmap输入分类神经网络，得到该bounding box对应的动作类别，包括摔倒(lying)、抬手(pickup)、其他动作(other)。

6、最后进行后处理，利用第一阶段香烟、电话的结果，结合第三阶段pickup、lying的动作标签，生成人体行为识别模型的最终结果，包括：person、cellphong、smoke、down四类。

根据程序运行的参数，对本发明建立的人体行为识别网络的识别结果进行后处理，包括：保存识别结果的可视化输出文件；将识别结果保存为json文件，以用于评价mAP指标。

本发明建立的人体行为识别算法可以在我们人工自建的数据集上进行端到端的精度验证。算法根据输入图像得出person、cellphone、smoking、lying四类目标的boundingbox，最终结果保存在json文件中。我们在mmpose框架中编写代码，使用pycocotools评估识别结果的AP指标，作为最终人体行为识别模型的端到端验证结果。

7、使用人体姿态识别模型预测未知图像中的正常人姿态、打电话姿态、抽烟姿态和摔倒姿态。

8、人体动作识别算法在1080显卡下处理单张图片的时间为65.38ms，在3090显卡下处理单张图片的时间为43.60ms，在3090显卡上部署后处理单张图片的时间为56.51ms。

9、本发明在第一阶段(目标检测)的评价指标如表1所示，目标识别任务中对人和香烟的mAP(0.5)均超过了0.81，目标检测效果较好；第二阶段(动作分类)的动作识别子任务的Top-1分类准确度达到了93.35％；本发明在第三阶段(姿态识别)的评价指标如表2所示，人体姿态识别任务的mAP(0.5)达到了0.956，准确率高。

表1目标检测子任务

一种基于深度学习的人体行为识别系统，用于实现上述基于深度学习的人体行为识别方法，包括：

基础数据获取模块；所述基础数据包括：

具有人、香烟、电话信息的目标检测数据集；将目标检测数据集存储为COCO标注格式，并划分为训练集和测试集；

数据预处理模块；对目标检测数据集的训练集进行的数据预处理操作包括：数据增强(如图像裁剪、翻转、扭曲等)、像素变换(MixUp和Mosaic方法)、引入多尺度机制、添加噪声和扰动、引入多尺度机制、添加噪声和扰动；

训练模块：训练人体行为识别网络；具体包括：

S302、姿态识别；使用mmpose框架的自顶向下的HRNet模型，采用MobileNetv2作为backbone；以S301识别出的人的bounding box作为输入，输出人体关键点heatmap；

执行模块：利用人体行为识别网络进行图像识别。

一种实现上述优选实施例中基于深度学习的人体行为识别方法的计算机程序。

一种实现上述优选实施例中基于深度学习的人体行为识别方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述优选实施例中的基于深度学习的人体行为识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的人体行为识别方法，其特征在于，包括如下步骤：

S1、获取基础数据；所述基础数据包括：

具有正常人姿态、打电话姿态、抽烟姿态、摔倒姿态的姿态识别数据集；按照COCO格式手工标注姿态识别数据集；

S2、数据预处理；对目标检测数据集的训练集进行的数据预处理包括：数据增强、像素变换、引入多尺度机制、添加噪声和扰动；

S3、训练人体行为识别网络；具体包括：

S4、利用人体行为识别网络进行图像识别。

2.根据权利要求1所述的基于深度学习的人体行为识别方法，其特征在于：所述目标检测数据集的获取过程为：

首先从COCO2017数据集中搜索所有人、电话图片得到人物数据集和电话数据集，在人物数据集当中加入网络上收集的摔倒图片数据集，并获取对应标签文件；

最后，将目标检测数据集存储为COCO标注格式，并按照设定的比例划分为训练集和测试集。

3.根据权利要求2所述的基于深度学习的人体行为识别方法，其特征在于：所述动作识别数据集的获取过程为：从所述目标检测数据集中，选取具有抬手动作、正常动作和摔倒动作的图片制作动作识别数据集，将动作识别数据集存储为COCO标注格式，并按照设定比例划分为训练集和测试集。

4.根据权利要求3所述的基于深度学习的人体行为识别方法，其特征在于：所述姿态识别数据集的获取过程为：从所述目标检测数据集的测试集中采集正常人姿态、打电话姿态、抽烟姿态和摔倒的姿态识别数据集。

5.根据权利要求4所述的基于深度学习的人体行为识别方法，其特征在于：图像预处理中：

数据增强是对目标检测数据集的训练集图像进行翻转，对图像平移和裁剪，对图像实施色彩变化；

添加噪声和扰动是对目标检测数据集的训练集图像添加高斯、椒盐噪声；对图像施加对抗扰动。

6.根据权利要求4所述的基于深度学习的人体行为识别方法，其特征在于：在S301中，在神经网络架构中加入特征金字塔，以分治的策略处理小、中、大型目标，所述YOLOv3模型在mmdetection框架上进行实现，在数据预处理部分使用最小IoU随机裁切、随机翻转、图像扭曲三种数据增强方案，同时使用多尺度训练的策略，分别将图像等比缩放到320和608的尺寸进行训练，在验证过程中，将图像等比缩放到608的尺寸；

7.根据权利要求5所述的基于深度学习的人体行为识别方法，其特征在于：在S304中，评价标准如下：对于任意一张输入图像，首先使用S301中的目标检测网络预测出人体的bounding box，然后使用S303的动作分类网络对bounding box中的人体动作类别进行识别，如果该bounding box对应的动作类别为抬手，则判断bounding box内是否存在香烟和电话，若存在则最终识别结果为对应的物体类别；如果该bounding box对应的动作类别为no_pick_up，则最终的识别结果为正常人；如果该bounding box对应的动作类别为摔倒，则最终的识别结果标记为摔倒；

8.一种基于深度学习的人体行为识别系统，其特征在于，包括：

获取基础数据获取模块；所述基础数据包括：

数据预处理模块；对目标检测数据集的训练集进行的数据预处理操作包括：数据增强、像素变换、引入多尺度机制、添加噪声和扰动；

训练模块：训练人体行为识别网络；具体包括：

执行模块：利用人体行为识别网络进行图像识别。

9.一种信息数据处理终端，其特征在于：用于实现权利要求1-7任一项所述基于深度学习的人体行为识别方法。

10.一种计算机可读存储介质，其特征在于：包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的基于深度学习的人体行为识别方法。