CN114596532A

CN114596532A - 行为检测方法、装置、设备及存储介质

Info

Publication number: CN114596532A
Application number: CN202110835686.6A
Authority: CN
Inventors: 李佳琳; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2022-06-07

Abstract

本发明涉及图像处理领域，公开了一种行为检测方法、装置、设备及存储介质。本方法包括：通过识别历史视频图像中的目标对象，得到包含有目标对象的标注图像；根据标注图像生成模型训练样本图像，并将模型训练样本图像输入YOLO模型进行训练，得到面部识别模型；获取至少两帧包含目标对象的实时视频图像，将实时视频图像输入面部识别模型，得到图像中各目标对象的区域范围；根据区域范围从实时视频图像中提取对应的手部图像和面部图像，并确定图像的类型；基于边缘计算规则和图像类型，调用与图像类型对应的图像处理模型对目标对象进行行为检测。本方案通过对场景视频数据进行预处理，根据图像识别模型对场景数据进行识别，提升了检测的效率。

Description

行为检测方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种行为检测方法、装置、设备及存储介质。

背景技术

随着时代不断发展，我国经济及人民生活水平不断提升，人民群众的努力工作为社会带来了更好的条件，为个人带去了更富足的个人资源。在生活水平日益提升的当下，生活方式的多样性派生出了各种不良习惯，其中日益严重的相关场所违规行为便是其中一种。包括但不限于，在某些特定场景进食，吸烟，违规坐姿等。这些行为不仅为可能对自身生命安全健康带来影响，也会造成预设场景污染甚至降低公共交通效率的问题。这些违规行为不仅影响环境，影响他人，更容易造成环境风气不正的不良行为。

目前，有管控方案的相关部门主要通过人力形式及监控系统管控及制止违规行为。然而，人力管控所需资源多，耗时长，并不是一种可行的管控方案。违规行为发生的可能性仍然存在。针对目前的各类人工智能识别模型的运算能力需求，云计算方案为大部分系统的必选项，而云计算方案对各类数据流的要求非常严格。将实时数据上传到相关数据库的流程所产生的巨大的网络压力及维护成本将会超出相关部门管控违规行为取得的收益。对违规行为进行制止需要及时性，而网络带来延迟将使其及时性无法得到保障。

发明内容

本发明的主要目的是通过边缘计算系统对预设场景视频数据进行存储，同时根据图像识别模型对预设场景中目标对象的行为进行识别检测及预警，提升了监管的效率。

本发明第一方面提供了一种行为检测方法，包括：采集预设场景的视频流，提取所述视频流中的历史视频图像，并将所述历史视频图像存储至边缘计算平台的边缘硬件设备群内，其中，所述视频流中包括至少两帧包含目标对象的历史视频图像；识别所述历史视频图像中的目标对象，并对所述目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；根据所述标注图像生成模型训练样本图像，并将所述模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；获取至少两帧包含目标对象的实时视频图像，并将所述实时视频图像输入所述面部识别模型输出人脸识别结果，并根据所述人脸识别结果得到所述实时视频图像中各目标对象的区域范围；根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定所述手部图像和所述面部图像对应的图像类型；基于预置边缘计算规则和所述图像类型，分别从预置模型数据库中调用与所述图像类型对应的图像处理模型对所述目标对象进行行为检测。

可选地，在本发明第一方面的第一种实现方式中，所述识别所述历史视频图像中的目标对象，并对所述目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据包括：圈定所述历史视频图像中工位的区域范围，从所述历史视频图像中提取各工位对应的第一工位图像；将所述第一工位图像输入预置工位识别模型，得到第二工位图像；对所述第二工位图像进行实例分割标注，得到包含有目标对象的标注图像；将所述标注图像存储至预设格式的空白文件中，得到标注数据。

可选地，在本发明第一方面的第二种实现方式中，所述根据所述标注图像生成模型训练样本图像，并将所述模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型包括：将所述训练样本图像输入所述YOLO模型的特征提取网络，并通过所述特征提取网络对所述训练样本图像进行特征提取，得到所述训练样本图像的第一特征图像；将所述第一特征图像输入所述YOLO模型的RPN网络，并通过所述RPN网络对所述第一特征图像进行预测，生成所述第一特征图像对应的预测框；将所述第一特征图像和所述预测框输入所述YOLO 模型的ROI Align层，并通过所述ROI Align层对所述预测框和所述第一特征图像进行融合，得到包含所述预测框的第二特征图像；将所述第二特征图像输入所述YOLO模型的分类网络，并通过所述分类网络生成所述第二特征图像对应的预测结果；根据所述预测结果和所述标注数据，对所述YOLO模型的参数进行调整，直至所述YOLO模型收敛，得到面部识别模型。

可选地，在本发明第一方面的第三种实现方式中，所述RPN网络包括第一分类器，所述将所述第一特征图像输入所述YOLO模型的RPN网络，并通过所述RPN网络对所述第一特征图像进行预测，生成所述第一特征图像对应的预测框包括：将所述第一特征图像输入所述YOLO模型的RPN网络，并获取预置锚框信息；根据所述锚框信息，生成所述第一特征图像的锚框；根据所述第一分类器判断所述锚框中是否存在目标对象；若是，则对所述锚框进行进行边框回归，得到所述第一特征图像对应的预测框。

可选地，在本发明第一方面的第四种实现方式中，所述根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定所述手部图像和所述面部图像对应的图像类型包括：根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像；分别对所述手部图像和所述面部图像进行识别，并根据识别结果确定所述手部图像和所述面部图像的图像类型。

可选地，在本发明第一方面的第五种实现方式中，所述基于预置边缘计算规则和所述图像类型，分别从预置模型数据库中调用与所述图像类型对应的图像处理模型对所述目标对象进行行为检测包括：根据所述图像类型，从所述实时视频图像中筛选出所有包含手部的第一图像和所有包含面部的第二图像；将所述第一图像输入预置手部侦测模型中，通过所述手部侦测模型分别对所述第一图像进行识别，得到识别结果；将所述第二图像输入预置面部识别模型中，通过所述面部识别模型解析所述第二图像中的区块和视频帧；基于预置边缘计算规则和所述识别结果、所述区块及所述视频帧，对所述第一图像和所述第二图像进行边缘计算，并根据计算结果对所述目标对象进行行为检测。

可选地，在本发明第一方面的第六种实现方式中，在所述基于预置边缘计算规则和所述识别结果、所述区块及所述视频帧，对所述第一图像和所述第二图像进行边缘计算，并根据计算结果对所述目标对象进行行为检测之后，还包括：若所述目标对象的行为检测结果异常，则触发告警信息至预设监控中心，并生成监控报告；根据所述监控报告对所述目标对象进行提醒。

本发明第二方面提供了一种行为检测装置，包括：采集模块，用于采集预设场景的视频流，提取所述视频流中的历史视频图像，并将所述历史视频图像存储至边缘计算平台的边缘硬件设备群内，其中，所述视频流中包括至少两帧包含目标对象的历史视频图像；标注模块，用于识别所述历史视频图像中的目标对象，并对所述目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；训练模块，用于根据所述标注图像生成模型训练样本图像，并将所述模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；识别模块，用于获取至少两帧包含目标对象的实时视频图像，并将所述实时视频图像输入所述面部识别模型输出人脸识别结果，并根据所述人脸识别结果得到所述实时视频图像中各目标对象的区域范围；第一确定模块，用于根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定所述手部图像和所述面部图像对应的图像类型；检测模块，用于基于预置边缘计算规则和所述图像类型，分别从预置模型数据库中调用与所述图像类型对应的图像处理模型对所述目标对象进行行为检测。

可选地，在本发明第二方面的第一种实现方式中，所述标注模块具体用于：圈定所述历史视频图像中工位的区域范围，从所述历史视频图像中提取各工位对应的第一工位图像；将所述第一工位图像输入预置工位识别模型，得到第二工位图像；对所述第二工位图像进行实例分割标注，得到包含有目标对象的标注图像；将所述标注图像存储至预设格式的空白文件中，得到标注数据。

可选地，在本发明第二方面的第二种实现方式中，所述训练模块包括：特征提取单元，用于将所述训练样本图像输入所述YOLO模型的特征提取网络，并通过所述特征提取网络对所述训练样本图像进行特征提取，得到所述训练样本图像的第一特征图像；预测单元，用于将所述第一特征图像输入所述YOLO 模型的RPN网络，并通过所述RPN网络对所述第一特征图像进行预测，生成所述第一特征图像对应的预测框；融合单元，用于将所述第一特征图像和所述预测框输入所述YOLO模型的ROI Align层，并通过所述ROI Align层对所述预测框和所述第一特征图像进行融合，得到包含所述预测框的第二特征图像；分类单元，用于将所述第二特征图像输入所述YOLO模型的分类网络，并通过所述分类网络生成所述第二特征图像对应的预测结果；调整单元，用于根据所述预测结果和所述标注数据，对所述YOLO模型的参数进行调整，直至所述YOLO 模型收敛，得到面部识别模型。

可选地，在本发明第二方面的第三种实现方式中，所述预测单元具体用于：将所述第一特征图像输入所述YOLO模型的RPN网络，并获取预置锚框信息；根据所述锚框信息，生成所述第一特征图像的锚框；根据所述第一分类器判断所述锚框中是否存在目标对象；若是，则对所述锚框进行进行边框回归，得到所述第一特征图像对应的预测框。

可选地，在本发明第二方面的第四种实现方式中，所述第一确定模块具体用于：根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像；分别对所述手部图像和所述面部图像进行识别，并根据识别结果确定所述手部图像和所述面部图像的图像类型。

可选地，在本发明第二方面的第五种实现方式中，所述检测模块还包括：根据所述图像类型，从所述实时视频图像中筛选出所有包含手部的第一图像和所有包含面部的第二图像；将所述第一图像输入预置手部侦测模型中，通过所述手部侦测模型分别对所述第一图像进行识别，得到识别结果；将所述第二图像输入预置面部识别模型中，通过所述面部识别模型解析所述第二图像中的区块和视频帧；基于预置边缘计算规则和所述识别结果、所述区块及所述视频帧，对所述第一图像和所述第二图像进行边缘计算，并根据计算结果对所述目标对象进行行为检测。

可选地，在本发明第二方面的第六种实现方式中，所述行为检测装置还包括：生成模块，用于若所述目标对象的行为检测结果异常，则触发告警信息至预设监控中心，并生成监控报告；第二确定模块，用于根据所述监控报告对所述目标对象进行提醒。

本发明第三方面提供了一种行为检测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述行为检测设备执行上述的行为检测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的行为检测方法。

本发明提供的技术方案中，通过对采集的预设场景的视频流进行提取得到历史视频图像；识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；根据标注图像生成模型训练样本图像，并将模型训练样本图像输入YOLO模型进行训练，得到面部识别模型；获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型进行识别检测，确定实时视频图像中是否存在违规行为。本方案通过图像识别模型对预设场景视频数据进行识别检测及预警，提升了监管的效率。

附图说明

图1为本发明行为检测方法的第一个实施例示意图；

图2为本发明行为检测方法的第二个实施例示意图；

图3为本发明行为检测方法的第三个实施例示意图；

图4为本发明行为检测方法的第四个实施例示意图；

图5为本发明行为检测方法的第五个实施例示意图；

图6为本发明行为检测装置的第一个实施例示意图；

图7为本发明行为检测装置的第二个实施例示意图；

图8为本发明行为检测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种行为检测方法、装置、设备及存储介质，本发明的技术方案中，首先通过对采集的预设场景的视频流进行提取得到历史视频图像；识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；根据标注图像生成模型训练样本图像，并将模型训练样本图像输入YOLO模型进行训练，得到面部识别模型；获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型进行识别检测，确定实时视频图像中是否存在违规行为。本方案通过对图像识别模型对预设场景视频数据进行识别检测及预警，提升了监管的效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中行为检测方法的第一个实施例包括：

101、采集预设场景的视频流，提取视频流中的历史视频图像，并将历史视频图像存储至边缘计算平台的边缘硬件设备群内；

本实施例中，预设场景的视频是指某一特定场景对应区域在预设时间段内的视频流。其中，所述预设场景可以是道路货物运输场景，也可以是指物流包裹分拣场景。通过摄像机或其他设备拍摄物流车辆装载场景的视频数据。比如所有的监控录像都接入在一个局域网，因此通过DSS平台可以访问到所有摄像头，DSS自带截图功能，将截图拍摄到的历史视频图像以bmp的形式保存，取大概900张(或者更多)样本图像，根据图像中待识别工位的范围，对待识别工位的区域范围进行图像识别检测，判断所述场景中是否存在违规行为。

102、识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；

本实施例中，对视频图像进行识别得到视频图像中的工位信息，将视频图像输入预置的图像标注软件中以进行展示。优选Labelme软件作为图像标注软件。采用人工的方式，通过交互设备，使用首位连接的闭合线条选中图像中的目标对象。服务器根据闭合线条所对应的位置坐标圈定视频图像对应工位信息中的目标对象区域，得到包含标注目标对象区域范围的图像，即标注信息。最后将标注信息写入预置JSON格式的空白文件中，从而得到JSON格式的标注数据。

103、根据标注图像生成模型训练样本图像，并将模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；

本实施例中，YOLO模型是一个实例分割(Instance segmentation)模型，可以用来做“目标检测”、“目标实例分割”、“目标关键点检测”。

在本实施例中，YOLO模型依次由特征提取网络、RPN网络、ROI Align层和分类网络连接构成。特征提取是卷积神经网络ResNet系列的一员。ResNet除学习特征提取外，还学习上一层特征到下一层特征之间的损失，从而能够提取更多的特征。将训练样本图像输入特征提取网络后，通过卷积层提取其中的特征，得到第一特征图。

RPN(Regin Proposal Network，区域生成网络)，“Regin Proposal”是“区域选取”。通过预置的锚框信息，RPN网络生成第一特征图中各个像素点的锚框，然后通过一定的规则，筛选出包含目标对象的锚框，并通过边框回归得到预选框。

ROI Align(Region of Interest Align)是一种区域特征聚集方式。用于将预选框与特征图进行精确融合。

分类网络包括全连接网络、全卷积网络和分类器，全连接网络和分类器用于对预选框进行分类，判断其是否包含目标对象，全卷积网络用于生成目标对象对应的目标掩码。

104、获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型输出人脸识别结果，并根据人脸识别结果得到实时视频图像中各目标对象的区域范围；

本实施例中，训练得到图像识别模型之后，通过实施抓拍的方式，获得当前预设场景中包含有目标对象的历史视频图像，历史视频图像中包含有正在工作的目标对象。然后将历史视频图像输入图像识别模型中。

图像识别模型能够通过人脸，手脚等人体部位将历史视频图像中的目标对象识别出来，得到得到历史视频图像中各目标对象的区域范围。

105、根据各目标对象的区域范围，从实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定手部图像和面部图像对应的图像类型；

本实施例中，根据各目标对象的区域范围，从实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定手部图像和面部图像对应的图像类型，图像类型包括包含目标对象面部的面部图像，包含目标对象手部的手部图像和目标对象的全身图像(身体姿势图像)。

106、基于预置边缘计算规则和图像类型，分别从预置模型数据库中调用与图像类型对应的图像处理模型对目标对象进行行为检测。

本实施例中，共采用两种基本识别模型，分别为YOLO-v3手部识别算法和面部识别模型算法。本系统采用面部识别(Faced)算法以提取可能检测出违规行为的各类对象。

本发明实施例中，通过对采集的预设场景的视频流进行提取得到历史视频图像；识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；根据标注图像生成模型训练样本图像，并将模型训练样本图像输入YOLO模型进行训练，得到面部识别模型；获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型进行识别检测，确定实时视频图像中是否存在违规行为。本方案通过对图像识别模型对预设场景视频数据进行识别检测及预警，提升了监管的效率。

请参阅图2，本发明实施例中行为检测方法的第二个实施例包括：

201、采集预设场景的视频流，提取视频流中的历史视频图像，并将历史视频图像存储至边缘计算平台的边缘硬件设备群内；

202、圈定历史视频图像中工位的区域范围，从历史视频图像中提取各工位对应的第一工位图像；

本实施例中，对训练样本图像进行标注一般采用两种方式，一种是模型标注，一种是人工标注。由于目前缺乏能够准确标注工位的模型，因此本步骤采用人工标注的方式。

将训练样本图像输入预置的图像标注软件中以进行展示。在本实施例中，优选Labelme软件作为图像标注软件。Lableme软件是一个图像标注工具，可以使用该工具创建定制化标注任务或执行图像标注。采用人工的方式，通过交互设备，使用首位连接的闭合线条选中图像中的工位。交互设备再将闭合线条所对应的位置坐标发送跟服务器。服务器根据位置坐标圈定训练样本图像中的工位区域，得到包含标注工位区域范围的图像，从而实现对训练样本图像的实例分割标注。而包含标注工位区域范围的图像就是所需要的标注信息。

203、将第一工位图像输入预置工位识别模型，得到第二工位图像；

本实施例中，通过面部(人脸)识别模型对得到的工位图像进行人脸识别，筛选出包含有目标对象的工位图像，并对工位图像中的人物(目标对象)进行标注，得到包含有目标对象的第二工位图像。

204、对第二工位图像进行实例分割标注，得到包含有目标对象的标注图像；

本实施例中，实例分割标注是数据标注方法中的一种。目标检测或定位是数字图像从粗到细的一个渐进过程。它不仅提供了图像对象的类，还提供了已分类图像中对象的位置。位置以边框或中心的形式给出。语义分割通过对输入图像中每个像素的标签进行预测，给出了较好的推理。每个像素都根据其所在的对象类进行标记。为了进一步发展，实例分割为属于同一类的对象的单独实例提供了不同的标签。因此，实例分割可以定义为同时解决目标检测问题和语义分割问题的技术。

本实施例中，可以使用图像标注工具创建定制化标注任务或执行图像标注。采用人工的方式，通过交互设备，使用首位连接的闭合线条选中图像中的人物。交互设备再将闭合线条所对应的位置坐标发送跟服务器。服务器根据位置坐标圈定第一工位图像中的目标对象区域，得到包含标注目标对象区域范围的第二工位图像，从而实现对第二工位图像的实例分割标注。而包含标注目标对象区域范围的图像就是所需要的标注信息。

205、将标注信息存储至预设格式的空白文件中，得到标注数据；

本实施例中，可以将标注信息写入预置JSON格式的空白文件中，其中， JSON格式是一种轻量级的数据交换格式，易于机器解析和生成，并能够有效提升网络传输效率。

206、根据标注图像生成模型训练样本图像，并将模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；

207、获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型输出人脸识别结果，并根据人脸识别结果得到实时视频图像中各目标对象的区域范围；

208、根据各目标对象的区域范围，从实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定手部图像和面部图像对应的图像类型；

209、基于预置边缘计算规则和图像类型，分别从预置模型数据库中调用与图像类型对应的图像处理模型对目标对象进行行为检测。

本实施例中步骤201、206-209与第一实施例中的步骤101、103-106类似，此处不再赘述。

请参阅图3，本发明实施例中行为检测方法的第三个实施例包括：

301、采集预设场景的视频流，提取视频流中的历史视频图像，并将历史视频图像存储至边缘计算平台的边缘硬件设备群内；

302、识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；

303、将训练样本图像输入YOLO模型的特征提取网络，并通过特征提取网络对训练样本图像进行特征提取，得到训练样本图像的第一特征图像；

本实施例中，常用的特征提取网络有很多，比如Resnett-101，特征提取是卷积神经网络ResNet系列的一员。ResNet通过增加了恒等快捷链接的方式，除学习特征提取外，还学习上一层特征到下一层特征之间的损失，即残差，使得堆积层在输入特征基础上能学习到新的特征，从而能够提取更多的特征。而特征提取的深度为101层，因此其提取的特征更加细致，在实例分割方面精确度更高。

将训练样本图像输入特征提取网络之后，特征提取网络会通过卷积提取其中的特征，得到第一特征图。由于图像由一个个像素点构成，而每一个像素点都可以用数值进行表示，如RGB类型图像，可通过R、G、B三个通道的三个数值进行表示，因此可表示为3x a x b的数学矩阵。而特征提取的本质是使用一定大小，如c x d，的卷积核，对每个像素点的数值进行卷积。因此第一特征图也可以用m x k的矩阵表示。

304、将第一特征图像输入YOLO模型的RPN网络，并获取预置锚框信息；

本实施例中，以往采用滑动窗口进行目标识别，然而一个窗口只能检测一个目标，而且存在多尺寸问题。因此提出了锚框(Anchor boxes)。预先设置好锚框信息，如锚框的数量为9、包括3x1，3x2等九种规格。

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：它以每个像素为中心生成多个大小和宽高比 (aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。305、根据锚框信息，生成第一特征图像的锚框；

305、根据锚框信息，生成第一特征图像的锚框；

本实施例中，由于通过卷积后得到的第一特征图可用m x k的矩阵表示，因此可根据锚框信息，对该矩阵中每个数值生成对应的9个锚框，规格分别为3x1， 3x2等九种规格。

306、根据第一分类器判断锚框中是否存在目标对象；

本实施例中，RPN网络包括第一分类器，本实施例优选采用softmax作为第一分类器进行判断。softmax又叫归一化指数函数，是通过有线离散概率分布的梯度对数归一化，从而得到对应的概率值。通过对各个锚框计算包含目标对象的分值，再进行归一化，从而得到其包含目标对象的概率。若该概率大于预置阈值，则确定其存在目标对象，若小于，则确定该锚框不存在目标对象。

307、当锚框中否存在目标对象时，对锚框进行进行边框回归，得到第一特征图像对应的预测框；

本实施例中，边框回归(Bounding Box Regression)是指目标检测过程中对产生的候选框以标注好的真实框为目标进行逼近的过程。由于一幅图像上的框可以由中心点坐标(Xc，Yc)和宽W高H唯一确定，所以这种逼近的过程可以建模为回归问题。通过对候选框做边框回归，可以使最终检测到的目标定位更加接近真实值，提高定位准确率。

进一步地，边框回归也叫BB回归，是指对保留下来的锚框通过回归分析，对其进行位置微调。通过分类器，可以筛选出存在目标对象的锚框，但是由于锚框的大小都是由预置的锚框信息所固定的，因此其不一定准确包含目标对象，因此需要对其进行微调。

常常采用的微调方式是平移和尺寸缩放。由于这两种方式都可通过简单的线性映射完成，因此可预先设定好线性变换公式，再通过训练对线性变换公式进行学习。若锚框中存在目标对象，则将包含目标对象的锚框保留下来，并通过边框回归对保留下来的锚框进行微调，从而得到第一特征图对应的预选框。

308、将第一特征图像和预测框输入YOLO模型的ROI Align层，并通过ROI Align层对预测框和第一特征图像进行融合，得到包含预测框的第二特征图像；

本实施例中，ROI Align是一种区域特征聚集方式。由于后续网络要求的网格大小一般较特征图要小，因此在ROI Pooling层中采用两次量化，因此他们的位置可能存在出现小数点，而特征图中的数值的数量是整数，因此采用取整的方式进行匹配。然而这种匹配并不完全契合，故存在不匹配现象。而ROI Align 可解决该问题。

首先遍历每一个预选框在第一特征图中对应的区域，保持浮点数边界不做量化，然后将该区域分割成k x k个单元，最后在每个单元中计算固定四个位置坐标，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。从而得到包含预选框的第二特征图像。

309、将第二特征图像输入YOLO模型的分类网络，并通过分类网络生成第二特征图像对应的预测结果；

本实施例中，将第二特征图输入全连接层，以通过全连接层得到第二特征图对应的目标向量，其中，分类网络包括全连接层和第二分类器。其中，全连接层(fullyconnected layers，FC)中每一个节点与上一层的所有节点进行连接，从而将前面提取到的所有特征进行综合。

在本实施例中，全连接层为一个一维向量。将前面所有的特征提取整合，然后加上激活函数进行非线性映射，从而将所有特征映射到这个一维向量上，得到第二特征图对应的目标向量。

在本实施例中，优选的第二分类器为softmax分类器。得到目标向量后，通过softmax分类器，得到各个预选框中包含目标对象或不包含目标对象的概率值。若包含目标对象的概率值大于预置包含目标对象的阈值，则判断该预选框包含目标对象。然后将预测框对应的区域范围作为存在目标对象的预测区域，并将预测区域作为预测结果输出。

310、根据预测结果和标注数据，对YOLO模型的参数进行调整，直至YOLO 模型收敛，得到面部识别模型；

本实施例中，YOLO算法模型借鉴了GoogLeNet算法网络结构，首先将输入图像划分为若干格子，每个格子负责检测中心位置坐标位于该格子中的目标物体，包括预测出含目标物体的边界框信息及目标物体类别的概率信息。因此，输入图像只要经过一次检测，就会得到图像中所有物体的位置及其所属类别的概率，由于每个格子只能预测两个边框信息和一种物体类别，因此会引起相邻目标间检测的准确率下降。YOLO算法基础版的检测速度可达45FPS的实时检测，快速版检测速度可高达155FPS，并且背景误差率低。

与其它目标检测识别方法将目标检测划分成区域预测和类别预测等多个流程相比，YOLO将区域预测和类别预测整合在一个网络中，以提高检测速率。 YOLO的网络结构类似于Google Net，网络中卷积层用于特征提取，全连接层用于输出类别分数以及目标所在位置。网络系统可以读取任何大小的图像，并反馈到网络中。

本实施例中，YOLO将输入的图像划分为个格子，每个格子会预测是否有物体的中心位置坐标落入格子内部。如果某个物体的中心位置坐标落入了某个格子，那么这个格子就负责识别出这个物体。

通过反向传播，将损失值传递回YOLO模型中，并根据随机梯度下降法，对其中各个网络进行参数的调整。若YOLO模型收敛，则将此时的YOLO模型作为图像识别模型。

311、获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型输出人脸识别结果，并根据人脸识别结果得到实时视频图像中各目标对象的区域范围；

312、根据各目标对象的区域范围，从实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定手部图像和面部图像对应的图像类型；

313、基于预置边缘计算规则和图像类型，分别从预置模型数据库中调用与图像类型对应的图像处理模型对目标对象进行行为检测。

本实施例中步骤301-302、311-313与第一实施例中的步骤101-102、104-106 类似，此处不再赘述。

请参阅图4，本发明实施例中行为检测方法的第四个实施例包括：

401、采集预设场景的视频流，提取视频流中的历史视频图像，并将历史视频图像存储至边缘计算平台的边缘硬件设备群内；

402、识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；

403、根据标注图像生成模型训练样本图像，并将模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；

404、获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型输出人脸识别结果，并根据人脸识别结果得到实时视频图像中各目标对象的区域范围；

405、根据各目标对象的区域范围，从实时视频图像中提取各目标对象对应的手部图像和面部图像；

本实施例中，将第二工位图像中各人物的区域范围从第二工位图像中裁剪出来，从而提取对应预设场景中各个目标对象对应的目标对象行为图像。

406、分别对手部图像和面部图像进行识别，并根据识别结果确定手部图像和面部图像的图像类型；

本实施例中，对收集到的行为图像进行识别，确定各个图像中目标对象对应的图像类型，此处图像类型主要包括面部图像，手部图像和身体姿态。

407、基于预置边缘计算规则和图像类型，分别从预置模型数据库中调用与图像类型对应的图像处理模型对目标对象进行行为检测。

本实施例中步骤401-404、407与第一实施例中的步骤101-106类似，此处不再赘述。

请参阅图5，本发明实施例中行为检测方法的第五个实施例包括：

501、采集预设场景的视频流，提取视频流中的历史视频图像，并将历史视频图像存储至边缘计算平台的边缘硬件设备群内；

502、识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；

503、根据标注图像生成模型训练样本图像，并将模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；

504、获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型输出人脸识别结果，并根据人脸识别结果得到实时视频图像中各目标对象的区域范围；

505、根据各目标对象的区域范围，从实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定手部图像和面部图像对应的图像类型；

506、根据图像类型，从实时视频图像中筛选出所有包含手部的第一图像和所有包含面部的第二图像；

本实施例中，实时视频图像通过图像识别模型进行识别，可以得到图像中人物的面部图像、手部图像和人体整个的身体姿势图像。根据这些图像类型的不同，对所有实时视频图像进行分类，得到所有包含手部的手部图像和所有包含面部的面部图像，以及图像中人物整个的身体姿势图像。进一步地，根据图像的不同，调用与图像类型对应的图像处理模型对图像进行行为检测识别。

507、将第一图像输入预置手部侦测模型中，通过手部侦测模型分别对第一图像进行识别，得到识别结果；

本实施例中，使用31层卷积层，1层池化层及2层全连接层组成的resnet-32 作为手部识别模型(Hand)。将手部图像输入所述手部识别模型(Hand)此模型的bounding box以x1，y1显示左上角坐标，x2，y2显示右下角坐标，具体公式：

BBox_Hk＝(x₁，y₁，x₂，y₂)

508、将第二图像输入预置面部识别模型中，通过面部识别模型解析第二图像中的区块和视频帧；

本实施例中，当图像类型为面部图像时，从预置模型库中调用面部识别模型。其中，面部识别模型(Faced)为预设场景中视频数据的目标对象提供识别结果数据，分为17层卷积层，1层池化层及2个全连接层。面部识别算法将定位出兴趣部位中心点Cx，Cy，及bounding box的宽与高w，h：

BBox_Fk＝(c_x，c_y，w，h)

509、基于预置边缘计算规则和识别结果、区块及视频帧，对第一图像和第二图像进行边缘计算，并根据计算结果对目标对象进行行为检测；

本实施例中，算法将首先识别手部姿势，模型将按照手部摆放姿势与睡眠姿势进行匹配并返还置信度数值；随后，将对面部识别模型对睡觉行为的姿势进行匹配，若手部识别置信度达到阈值，则模型将未识别到面部进行赋值(趴桌睡姿一般识别不到面部)，对两者标注的最终结果进行加权，并根据计算结果对目标对象进行行为检测。

510、当目标对象的行为检测结果异常，则触发告警信息至预设监控中心，并生成监控报告；

本实施例中，在管理人员的端口中，如果显示未检测到目标对象的行为异常且显示绿色框，则表示在预设场景中的目标对象无违规行为。如果对象显示红色框，则表示检测到违规行为，框外会对该违规行为进行标注，可以是一种也可以是多种，并触发告警信息至预设监控中心，生成监控报告。

511、根据监控报告对目标对象进行提醒。

本实施例中，系统检测到违规行为后将触发警告提示框并标注该违规人员，提示管理人员进行劝阻管理。并且，因所有预设场景内的设备皆属于边缘计算设备的一部分，系统可以直接在检测到违规行为的场景的具体设备上弹出提示，对目标对象进行提醒。

本实施例中步骤501-504、509与第一实施例中的101-104、106类似，此处不再赘述。

在本发明实施例中，通过对采集的预设场景的视频流进行提取得到历史视频图像；识别历史视频图像中的目标对象，并对目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；根据标注图像生成模型训练样本图像，并将模型训练样本图像输入YOLO模型进行训练，得到面部识别模型；获取至少两帧包含目标对象的实时视频图像，并将实时视频图像输入面部识别模型进行识别检测，确定实时视频图像中是否存在违规行为。本方案通过对图像识别模型对预设场景视频数据进行识别检测及预警，提升了监管的效率。

上面对本发明实施例中行为检测方法进行了描述，下面对本发明实施例中行为检测装置进行描述，请参阅图6，本发明实施例中行为检测装置的第一个实施例包括：

采集模块601，用于采集预设场景的视频流，提取所述视频流中的历史视频图像，并将所述历史视频图像存储至边缘计算平台的边缘硬件设备群内，其中，所述视频流中包括至少两帧包含目标对象的历史视频图像；

标注模块602,，用于识别所述历史视频图像中的目标对象，并对所述目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；

训练模块603，用于根据所述标注图像生成模型训练样本图像，并将所述模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；

识别模块604，用于获取至少两帧包含目标对象的实时视频图像，并将所述实时视频图像输入所述面部识别模型输出人脸识别结果，并根据所述人脸识别结果得到所述实时视频图像中各目标对象的区域范围；

第一确定模块605，用于根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定所述手部图像和所述面部图像对应的图像类型；

检测模块606，用于基于预置边缘计算规则和所述图像类型，分别从预置模型数据库中调用与所述图像类型对应的图像处理模型对所述目标对象进行行为检测。

请参阅图7，本发明实施例中行为检测装置的第二个实施例，该行为检测装置具体包括：

本实施例中，所述标注模块602具体用于：

圈定所述历史视频图像中工位的区域范围，从所述历史视频图像中提取各工位对应的第一工位图像；

将所述第一工位图像输入预置面部识别模型，得到包含目标对象的第二工位图像；

对所述第二工位图像进行实例分割标注，得到对应的标注信息；将所述标注信息存储至预设格式的空白文件中，得到标注数据。

本实施例中，所述训练模块603包括：

特征提取单元6031，用于将所述训练样本图像输入所述特征提取网络，并通过所述特征提取网络对所述训练样本图像进行特征提取，得到所述训练样本图像的第一特征图像；

预测单元6032，用于将所述第一特征图像输入所述RPN网络，并通过所述 RPN网络对所述第一特征图像进行预测，生成所述第一特征图像对应的预测框；

融合单元6033，用于将所述第一特征图像和所述预测框输入所述ROI Align 层，并通过所述ROI Align层对所述预测框和所述第一特征图像进行融合，得到包含所述预测框的第二特征图像；

分类单元6034，用于将所述第二特征图像输入所述分类网络，并通过所述分类网络生成所述第二特征图像对应的预测结果；

调整单元6035，用于根据所述预测结果和所述标注数据，对所述YOLO模型的参数进行调整，直至所述YOLO模型收敛，得到所述图像识别模型。

本实施例中，所述预测单元6032具体用于：

将所述第一特征图像输入所述RPN网络，并获取预置锚框信息；根据所述锚框信息，生成所述第一特征图像的锚框；

根据所述第一分类器判断所述锚框中是否存在目标对象；

若是，则对所述锚框进行进行边框回归，得到所述第一特征图像对应的预测框。

本实施例中，所述第一确定模块605具体用于：

根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像；

分别对所述手部图像和所述面部图像进行识别，并根据识别结果确定所述手部图像和所述面部图像的图像类型。

本实施例中，所述检测模块606还包括：

根据所述图像类型，从所述实时视频图像中筛选出所有包含手部的第一图像和所有包含面部的第二图像；

将所述第一图像输入预置手部侦测模型中，通过所述手部侦测模型分别对所述第一图像进行识别，得到识别结果；

将所述第二图像输入预置面部识别模型中，通过所述面部识别模型解析所述第二图像中的区块和视频帧；

基于预置边缘计算规则和所述识别结果、所述区块及所述视频帧，对所述第一图像和所述第二图像进行边缘计算，并根据计算结果对所述目标对象进行行为检测。

本实施例中，所述行为检测装置还包括：

生成模块607，用于若所述目标对象的行为检测结果异常，则触发告警信息至预设监控中心，并生成监控报告；

第二确定模块608，用于根据所述监控报告对所述目标对象进行提醒。

上面图6和图7从模块化功能实体的角度对本发明实施例中的行为检测装置进行详细描述，下面从硬件处理的角度对本发明实施例中行为检测设备进行详细描述。

图8是本发明实施例提供的一种行为检测设备的结构示意图，该行为检测设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对行为检测设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在行为检测设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的行为检测方法的步骤。

行为检测设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD 等等。本领域技术人员可以理解，图8示出的行为检测设备结构并不构成对本申请提供的行为检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述行为检测方法的步骤。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行为检测方法，其特征在于，所述行为检测方法包括：

采集预设场景的视频流，提取所述视频流中的历史视频图像，并将所述历史视频图像存储至边缘计算平台的边缘硬件设备群内，其中，所述视频流中包括至少两帧包含目标对象的历史视频图像；

识别所述历史视频图像中的目标对象，并对所述目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；

根据所述标注图像生成模型训练样本图像，并将所述模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；

获取至少两帧包含目标对象的实时视频图像，并将所述实时视频图像输入所述面部识别模型输出人脸识别结果，并根据所述人脸识别结果得到所述实时视频图像中各目标对象的区域范围；

根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定所述手部图像和所述面部图像对应的图像类型；

基于预置边缘计算规则和所述图像类型，分别从预置模型数据库中调用与所述图像类型对应的图像处理模型对所述目标对象进行行为检测。

2.根据权利要求1所述的行为检测方法，其特征在于，所述识别所述历史视频图像中的目标对象，并对所述目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据包括：

圈定所述历史视频图像中工位的区域范围，从所述视频图像中提取各工位对应的第一工位图像；

将所述第一工位图像输入预置工位识别模型，得到第二工位图像；

对所述第二工位图像进行实例分割标注，得到包含有目标对象的标注图像；

将所述标注图像存储至预设格式的空白文件中，得到标注数据。

3.根据权利要求1所述的行为检测方法，其特征在于，所述根据所述标注图像生成模型训练样本图像，并将所述模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型包括：

将所述训练样本图像输入所述YOLO模型的特征提取网络，并通过所述特征提取网络对所述训练样本图像进行特征提取，得到所述训练样本图像的第一特征图像；

将所述第一特征图像输入所述YOLO模型的RPN网络，并通过所述RPN网络对所述第一特征图像进行预测，生成所述第一特征图像对应的预测框；

将所述第一特征图像和所述预测框输入所述YOLO模型的ROIAlign层，并通过所述ROIAlign层对所述预测框和所述第一特征图像进行融合，得到包含所述预测框的第二特征图像；

将所述第二特征图像输入所述YOLO模型的分类网络，并通过所述分类网络生成所述第二特征图像对应的预测结果；

根据所述预测结果和所述标注数据，对所述YOLO模型的参数进行调整，直至所述YOLO模型收敛，得到面部识别模型。

4.根据权利要求3所述的行为检测方法，其特征在于，所述RPN网络包括第一分类器，所述将所述第一特征图像输入所述YOLO模型的RPN网络，并通过所述RPN网络对所述第一特征图像进行预测，生成所述第一特征图像对应的预测框包括：

将所述第一特征图像输入所述YOLO模型的RPN网络，并获取预置锚框信息；

根据所述锚框信息，生成所述第一特征图像的锚框；

根据所述第一分类器判断所述锚框中是否存在目标对象；

5.根据权利要求1所述的行为检测方法，其特征在于，所述根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定所述手部图像和所述面部图像对应的图像类型包括：

6.根据权利要求1所述的行为检测方法，其特征在于，所述基于预置边缘计算规则和所述图像类型，分别从预置模型数据库中调用与所述图像类型对应的图像处理模型对所述目标对象进行行为检测包括：

7.根据权利要求6所述的行为检测方法，其特征在于，在所述基于预置边缘计算规则和所述识别结果、所述区块及所述视频帧，对所述第一图像和所述第二图像进行边缘计算，并根据计算结果对所述目标对象进行行为检测之后，还包括：

若所述目标对象的行为检测结果异常，则触发告警信息至预设监控中心，并生成监控报告；

根据所述监控报告对所述目标对象进行提醒。

8.一种行为检测装置，其特征在于，所述行为检测装置包括：

采集模块，用于采集预设场景的视频流，提取所述视频流中的历史视频图像，并将所述历史视频图像存储至边缘计算平台的边缘硬件设备群内，其中，所述视频流中包括至少两帧包含目标对象的历史视频图像；

标注模块，用于识别所述历史视频图像中的目标对象，并对所述目标对象进行标注，得到包含有目标对象的标注图像并保存为标注数据；

训练模块，用于根据所述标注图像生成模型训练样本图像，并将所述模型训练样本图像输入预置YOLO模型进行训练，得到面部识别模型；

识别模块，用于获取至少两帧包含目标对象的实时视频图像，并将所述实时视频图像输入所述面部识别模型输出人脸识别结果，并根据所述人脸识别结果得到所述实时视频图像中各目标对象的区域范围；

第一确定模块，用于根据所述各目标对象的区域范围，从所述实时视频图像中提取各目标对象对应的手部图像和面部图像，并确定所述手部图像和所述面部图像对应的图像类型；

检测模块，用于基于预置边缘计算规则和所述图像类型，分别从预置模型数据库中调用与所述图像类型对应的图像处理模型对所述目标对象进行行为检测。

9.一种行为检测设备，其特征在于，所述行为检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述行为检测设备执行如权利要求1-7中任一项所述的行为检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的行为检测方法的步骤。