CN115188049A

CN115188049A - 一种基于在线强化学习的小区人脸姿态检测系统及方法

Info

Publication number: CN115188049A
Application number: CN202210814542.7A
Authority: CN
Inventors: 张卫山; 孙浩云; 李晓哲; 公凡奎
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-10-14

Abstract

本发明提供了一种基于在线强化学习的小区人脸姿态检测系统及方法，系统包括监控设备、AI服务器和前端显示设备，AI服务器内部署有视频检测服务模块和在线强化学习服务模块，视频检测服务模块包括视频流获取单元、视频流解码单元和部署于视频检测服务模块的训练后的FacePose‑RCNN模型，FacePose‑RCNN模型包括人脸检测网络分支网络Faster RCNN和人脸姿态识别分支网络FacePose‑Net；在线强化学习服务模块包括在线校验单元、人脸姿态数据库、在线学习单元和在线更新单元；通过上述系统，可以在人脸姿态数据库的新增数据超过一定数量后，在线快速对人脸检测网络模型进行持续强化学习。本发明通过在线强化学习不断增强网络模型对人脸姿态的识别能力，提高了人脸姿态检测的准确率。

Description

一种基于在线强化学习的小区人脸姿态检测系统及方法

技术领域

本发明属于小区智能监控技术领域，尤其涉及一种基于在线强化学习的小区人脸姿态检测系统及方法。

背景技术

当前社会人工智能飞速发展，被广泛应用到社会生产和生活的各个领域，包括智能交通、智慧社区安防和其他智能物联网应用领域。这主要得益于深度神经网络技术的崛起和GPU硬件设备的迅速发展。深度神经网络技术在众多领域中都取得了目前最好的效果，包括目标检测、图像分类，图像分割，图像识语音识别等。

随着小区智慧化程度的加深，物联网设备，尤其是摄像头和监控设备被广泛部署，每天产生大量的监控视频数据，小区监控视频数据分析已成为当前视频分析领域的热点。人脸姿态检测作为小区监控视频分析的重要任务，对人脸识别、注意力检测、行为分析、人机互动、实现追踪等工作具有重要意义。当前的人脸姿态检测方法在小区监控场景中面临小区背景复杂、监控摄像头角度不固定、人脸姿态多样等挑战，在实际应用中算法精度不高，存在大量的误检，当前急需一种高精度的人脸姿态检测方法，提高人脸姿态检测的准确率。

发明内容

针对上述问题，本发明第一方面提供了一种基于在线强化学习的小区人脸姿态检测系统，包括监控设备、AI服务器和前端显示设备；所述监控设备用于获取小区视频流；所述AI服务器内部署有视频检测服务模块和在线强化学习服务模块；所述视频检测服务模块包括视频流获取单元、视频流解码单元和部署于视频检测服务模块的训练后的FacePose-RCNN模型；所述视频流获取单元用于获取监控设备获取的视频流并发送到视频流解码单元进行解码，所述FacePose-RCNN模型用于对解码后的视频帧并进行人脸姿态检测，所述FacePose-RCNN模型包括人脸检测网络分支网络Faster RCNN和人脸姿态识别分支网络FacePose-Net；所述在线强化学习服务模块包括在线校验单元、人脸姿态数据库、在线学习单元和在线更新单元；所述在线校验单元用于获取FacePose-RCNN模型处理后的人脸姿态检测结果并在前端显示设备进行显示和校验，所述的校验结果发送至所述人脸姿态数据库，所述人脸姿态数据库的新增数据超过一定数量后，执行所述在线学习单元的在线强化学习训练功能，用人脸姿态新增数据样本对人脸姿态识别分支网络FacePose-Net进行强化训练，训练完成后执行在线更新单元的更新功能，并将训练后的模型参数更新至FacePose-RCNN模型中。

在一种可能的设计中，所述人脸检测网络分支网络Faster RCNN包括RPN层、ROIAlign层、特征分类层和边框回归层；

所述RPN层用于提取候选框，所述ROI Align层用于对候选框特征进行特征对齐，所述特征分类层用于对候选框进行分类生成目标类别，所述边框回归层用于对候选框进行回归生成人脸目标框；

所述人脸姿态识别分支网络FacePose-Net包括ROI对齐层、卷积池化层和SoftMax分类器；

所述ROI对齐层用于提取人脸在基础特征层上的基础特征，所述卷积池化层用于通过大步长卷积核的卷积池化层对目标特征进行卷积池化处理得到人脸姿态特征，所述SoftMax分类器用于对人脸姿态特征进行强化学习。

在一种可能的设计中，所述人脸姿态数据库的新增数据超过1000张后，执行所述在线学习单元的在线强化学习训练功能。

在一种可能的设计中，所述部署于视频检测服务模块的训练后的FacePose-RCNN模型的训练过程为：

步骤一，采集数据；收集小区历史监控人脸数据，从现场监控设备中获取监控视频流并解码；

步骤二，数据标注；筛选有效数据并对人脸目标标注和人脸姿态进行标注；

步骤三，模型训练；用人脸目标标注数据对Faster RCNN模型中的人脸姿态识别分支网络FacePose-Net进行训练，并对对中间训练结果进行调参，直至取得最优模型参数。

本发明第二方面还提供了一种基于在线强化学习的小区人脸姿态检测方法，主要包括以下步骤：

步骤1，通过视频流获取单元获取监控设备的视频流并发送至视频流解码单元进行解码；

步骤2，将解码后的视频帧发送至训练后的人脸姿态检测模型FacePose-RCNN模型中进行人脸姿态检测；

步骤3，将步骤2中的人脸姿态检测结果发送至在线校验单元，并在前端进行显示，并在前端显示设备进行显示和校验，同时将校验结果发送至人脸姿态数据库；

步骤4，当人脸姿态数据库中新增数据超过一定数量时，执行在线学习单元的在线强化学习训练功能，并用人脸姿态新增数据样本对人脸姿态识别分支网络FacePose-Net进行强化训练；

步骤5，训练完成后执行在线更新单元的更新功能，并将训练后的模型参数更新至FacePose-RCNN模型中。

在一种可能的设计中，所述训练后的人脸姿态检测模型FacePose-RCNN模型的训练过程为：

本发明第三方面还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序或指令，所述程序或指令被处理器执行时，使得计算机执行如第二方面所述的方法。

本发明的有益效果：本发明提供了一种基于在线强化学习的小区人脸姿态检测系统及方法，通过在线强化学习不断增强网络模型对人脸姿态的识别能力，提高了人脸姿态检测的准确率。本发明提出的一种人脸姿态检测网络FacePose-RCNN，在Faster RCNN的基础上增加人脸姿态识别分支FacePose-Net,可以在增加极小计算量的情况下实现人脸姿态的检测；本发明提出的一种人脸姿态识别分支FacePose-Net，实现对人脸姿态特征的提取和分类，并且可以很方便的迁移到其他RCNN网络；本发明提出的一种基于在线强化学习的小区人脸姿态检测方法，可以在线快速对人脸检测网络模型进行持续强化学习。

附图说明

图1为本发明小区人脸姿态检测系统的结构框图。

图2为本发明中人脸姿态检测网络FacePose-RCNN网络结构图；

图3为本发明中人脸姿态识别网络分支FacePose-Net的网络结构图；

图4为本发明基于在线强化学习的小区人脸姿态检测方法的流程图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

实施例1：

本实施例提供了一种基于在线强化学习的小区人脸姿态检测系统及方法，其中系统包括监控设备、AI服务器和前端显示设备，系统的具体结构如图1所示；监控设备可以是高清摄像头等小区监控常用设备，用于获取小区的视频流；AI服务器内部署有视频检测服务模块和在线强化学习服务模块。

视频检测服务模块包括视频流获取单元、视频流解码单元和部署于视频检测服务模块的训练后的FacePose-RCNN模型；视频流获取单元用于获取监控设备获取的视频流并发送到视频流解码单元进行解码，FacePose-RCNN模型用于对解码后的视频帧并进行人脸姿态检测，FacePose-RCNN模型包括人脸检测网络分支网络Faster RCNN和人脸姿态识别分支网络FacePose-Net，其中人脸检测网络分支网络Faster RCNN的结构如图2所示，包括RPN层、ROI Align层、特征分类层和边框回归层；RPN层用于提取候选框，所述ROI Align层用于对候选框特征进行特征对齐，所述特征分类层用于对候选框进行分类生成目标类别，边框回归层用于对候选框进行回归生成人脸目标框；人脸姿态识别分支网络FacePose-Net的结构如图3所示，包括ROI对齐层、卷积池化层和SoftMax分类器；ROI对齐层用于提取人脸在基础特征层上的基础特征，所述卷积池化层用于通过大步长卷积核的卷积池化层对目标特征进行卷积池化处理得到人脸姿态特征，SoftMax分类器用于对人脸姿态特征进行强化学习。

在线强化学习服务模块包括在线校验单元、人脸姿态数据库、在线学习单元和在线更新单元；在线校验单元用于获取FacePose-RCNN模型处理后的人脸姿态检测结果并在前端显示设备进行显示和校验，前端显示设备可以为PC终端电脑，由物业人员进行人工校验；校验结果发送至所述人脸姿态数据库，人脸姿态数据库的新增数据超过一定数量后(比如1000张)，执行所述在线学习单元的在线强化学习训练功能，用人脸姿态新增数据样本对人脸姿态识别分支网络FacePose-Net进行强化训练，训练完成后执行在线更新单元的更新功能，并将训练后的模型参数更新至FacePose-RCNN模型中。

基于上述系统，本发明提供了一种基于在线强化学习的小区人脸姿态检测方法，如图4所示，包括以下步骤：

其中，初始的训练后的人脸姿态检测模型FacePose-RCNN模型的具体训练过程为：

S1，采集数据：收集小区历史监控人脸数据，从现场监控设备中获取监控视频流并解码

S2，数据标注：筛选有效数据并对人脸目标标注和人脸姿态进行标注，人脸姿态分类标签及依据包括：

S3，模型训练：用人脸目标标注数据对Faster RCNN模型中的人脸姿态识别分支网络FacePose-Net进行训练，并对对中间训练结果进行调参，直至取得最优模型参数。

实施例2：

本发明还提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质中存储有程序或指令，所述程序或指令被处理器执行时，使得计算机执行如实施例1所述基于在线强化学习的小区人脸姿态检测方法。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘(如CD-ROM、CD-R、CD-RW、DVD-20ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于在线强化学习的小区人脸姿态检测系统，其特征在于：包括监控设备、AI服务器和前端显示设备；所述监控设备用于获取小区视频流；所述AI服务器内部署有视频检测服务模块和在线强化学习服务模块；所述视频检测服务模块包括视频流获取单元、视频流解码单元和部署于视频检测服务模块的训练后的FacePose-RCNN模型；所述视频流获取单元用于获取监控设备获取的视频流并发送到视频流解码单元进行解码，所述FacePose-RCNN模型用于对解码后的视频帧并进行人脸姿态检测，所述FacePose-RCNN模型包括人脸检测网络分支网络Faster RCNN和人脸姿态识别分支网络FacePose-Net；所述在线强化学习服务模块包括在线校验单元、人脸姿态数据库、在线学习单元和在线更新单元；所述在线校验单元用于获取FacePose-RCNN模型处理后的人脸姿态检测结果并在前端显示设备进行显示和校验，所述的校验结果发送至所述人脸姿态数据库，所述人脸姿态数据库的新增数据超过一定数量后，执行所述在线学习单元的在线强化学习训练功能，用人脸姿态新增数据样本对人脸姿态识别分支网络FacePose-Net进行强化训练，训练完成后执行在线更新单元的更新功能，并将训练后的模型参数更新至FacePose-RCNN模型中。

2.如权利要求1所述的一种基于在线强化学习的小区人脸姿态检测系统，其特征在于：所述人脸检测网络分支网络Faster RCNN包括RPN层、ROIAlign层、特征分类层和边框回归层；

3.如权利要求1所述的一种基于在线强化学习的小区人脸姿态检测系统，其特征在于：所述人脸姿态数据库的新增数据超过1000张后，执行所述在线学习单元的在线强化学习训练功能。

4.如权利要求1所述的一种基于在线强化学习的小区人脸姿态检测系统，其特征在于，所述部署于视频检测服务模块的训练后的FacePose-RCNN模型的训练过程为：

5.一种基于在线强化学习的小区人脸姿态检测方法，其特征在于，包括以下步骤：

6.如权利要求5所述的一种基于在线强化学习的小区人脸姿态检测方法，其特征在于：所述人脸检测网络分支网络Faster RCNN包括RPN层、ROIAlign层、特征分类层和边框回归层；

7.如权利要求5所述的一种基于在线强化学习的小区人脸姿态检测方法，其特征在于：所述人脸姿态数据库的新增数据超过1000张后，执行所述在线学习单元的在线强化学习训练功能。

8.如权利要求5所述的一种基于在线强化学习的小区人脸姿态检测方法，其特征在于，所述训练后的人脸姿态检测模型FacePose-RCNN模型的训练过程为：

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有程序或指令，所述程序或指令被处理器执行时，使得计算机执行如权利要求5至8中任意一项所述的方法。