CN111601088B

CN111601088B - 一种基于单目摄像头坐姿识别技术的坐姿监控系统

Info

Publication number: CN111601088B
Application number: CN202010462939.5A
Authority: CN
Inventors: 刘兴宝
Original assignee: Dalian Czur Tech Co Ltd
Current assignee: Shenzhen Chengzhe Creative Technology Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-12-21
Anticipated expiration: 2040-05-27
Also published as: CN111601088A; WO2021237914A1

Abstract

本发明提供一种基于单目摄像头坐姿识别技术的坐姿监控系统，包括坐姿监控装置端和坐姿监控应用端；其中，所述坐姿监控装置端主要包括：用于提取视频图像的单目摄像头；对所述视频图像进行分析运算从而得到坐姿评估结果以及行为识别结果的人体坐姿估计与行为识别模块；接收所述视频图像、姿态评估结果以及行为识别结果并与所述坐姿监控应用端通信的主控单元；以及通过响应坐姿评估结果进行坐姿提示的提示单元。本系统能够从单目图像中直接获取3维人体姿态，利用多帧图像序列，抗遮挡和光线变化，鲁棒性好，利用行为识别过滤非静态行为，结合桌面位姿信息，提高准确度。

Description

一种基于单目摄像头坐姿识别技术的坐姿监控系统

技术领域

本发明涉及本发明涉及视频图像处理、计算机视觉和人体姿态识别领域，具体而言，尤其涉及一种基于单目摄像头坐姿识别技术的坐姿监控系统。

背景技术

随着生活节奏的不断加快，人们每天的大部分时间处于工作和学习之中。长时间的维持不规范的坐姿，容易养成驼背、身体歪扭等不良习惯，严重的会引发颈椎病、腰椎间盘突出和近视等疾病，对身体造成不可逆转的伤害，从而在极大程度上影响日常学习、工作和生活。坐姿识别算法通常利用传感器对识别对象的半身姿态进行提取，并依据坐姿标准程度的算法，帮助用户及时调整不正确的坐姿，保证人们的健康。

目前的坐姿识别算法基于的无接触传感器主要分为以下几种：

超声波传感器。利用超声波发射和返回的时间差来计算监控装置与使用者之间的距离，用来监控使用者是否有低头、趴、侧歪过大等场景来提示使用者注意坐姿。但是超声波对测量面有一定要求。测量面密度较低，超声波穿透物体，会有多个回波；测量面凹凸不平，超声波被打散，同样会有多个回波；测量面倾斜，超声波没有正确反射；测量面过小，超声波反射回的量不够。所以超声波的测量效果较差。

红外线传感器。利用红外发射和接收阻断或者发射与返回的时间差来计算监控装置与使用者之间的空间关系，用来监控使用者是否有异常坐姿等场景来提示使用者注意坐姿。但是红外定位原理也与反射系数、阻挡物体透光性等有较大关联，检测准确度较低，可以应对的场景有限，对于使用者歪头、低头等动作难有检测能力。

双目视觉传感器。这种传感器制作工艺要求高，对环境光照非常敏感，对缺乏纹理场景表现差，计算复杂度高，相机基线限制了测量范围，使用中存在死角。

此外，大部分的坐姿识别方法仅考虑相对静态的打字、书写、阅读行为，但是实际应用场景中识别对象还可能存在舒展、摆头、喝水、接电话等动态行为。上述动态行为发生时，很容易被识别成错误的坐姿。现有的坐姿识别方法也没有结合具体场景下桌面位置信息，严重限制了坐姿识别精度的提升。

发明内容

根据上述提出的现有坐姿监控系统坐姿识别误差较大且成本较高的技术问题，而提供一种基于单目摄像头坐姿识别技术的坐姿监控系统。本发明本发明旨在提高坐姿识别的准确性，以及所述方法在遮挡、光照突变等异常使用情况下的鲁棒性。同时，本发明可以改善当识别对象存在动态行为时的识别精度，而不需要额外的外部检测结果。

本发明采用的技术手段如下：

一种基于单目摄像头坐姿识别技术的坐姿监控系统，其特征在于，包括坐姿监控装置端和坐姿监控应用端；其中，所述坐姿监控装置端主要包括：

用于提取视频帧图像的单目摄像头；

对所述视频图像进行分析运算从而得到坐姿评估结果以及行为识别结果的人体坐姿估计与行为识别单元；

接收所述视频图像、姿态评估结果以及行为识别结果并与所述坐姿监控应用端通信的主控单元；

以及通过响应坐姿评估结果进行坐姿提示的提示单元。

进一步地，所述提示单元包括声音提示模块和静音提示模块，所述声音提示模块和静音提示模块均响应于所述主控单元的控制而启动或关闭。

进一步地，系统还包括统计与分析单元，所述统计与分析单元通过与所述主控单元通信存储所述单目摄像头采集的视频数据以及提示单元发出的坐姿提示数据，并能够通过可视化方法对上述数据进行统计和分析。

进一步地，系统还包括用于对监控环境进行实时监测的移动监测传感器，所述移动监测传感器与所述主控单元连接；当所述移动监测传感器监测到所述坐姿监控装置端被移动后，所述主控单元启动标准坐姿录入程序。

进一步地，所述人体姿态估计与行为识别单元主要包括：

视频序列提取模块，从单目摄像头获取当前视频帧并更新视频帧序列，所述视频帧序列的容量固定；

视频图像处理模块，通过获取关键点的3维坐标进行人体姿态的估计和行为类型的识别；

坐姿评价模块，同时接收人体姿态的估计结果和行为类型的识别结果，依据二者进行坐姿评估，并根据评估结果给出相应提示。

进一步地，所述行为类型包括静态行为和动态行为；

进行坐姿评估之前，所述视频图像处理模块还要判断所述行为类型的识别结果是否属于静态行为，如果是则通过坐姿评价模块根据人体姿态的估计结果进行坐姿评估，否则所述视频图像处理模块再次获取关键点的3维坐标。

进一步地，所述视频图像处理模块包括：

低级特征提取子模块，将所述视频帧序列中各帧图像处理为低级特征图；

以及至少一级估计与识别工作组所述估计与识别工作组包括并行工作的三维姿态估计部和行为识别部，其中：

第一级估计与识别工作组的三维姿态估计部以所述低级特征图作为输入特征，并输出人体姿态估计结果，

行为识别部以本级人体姿态估计结果和低级特征图作为输入特征，并输出行为识别结果；

其他估计与识别工作组的三维姿态估计部均以所述低级特征图作和上一级人体姿态估计结果为输入特征，并输出人体姿态估计结果，

行为识别部以本级人体姿态估计结果和上一级行为识别结果作为输入特征，并输出行为识别结果。

进一步地，系统还包括桌面检测模块，根据所述单目摄像头提取的图像信息识别桌面位姿，以校正因为拍摄角度造成的坐姿识别误差。

较现有技术相比，本发明具有以下优点：

1、本发明提供了一种坐姿监控的低成本方案，基于单目视频图像序列开发，利用多任务端到端网络结构实现了人体姿态估计与行为识别，通过精确的姿态估计结果辅助行为识别准确性。

2、本发明基于单目视频图像序列的坐姿识别技术以及设备端图像处理系统是的与使用者间的空间关系限制宽松，可以适应更多场景下应用。

3、本发明能够依托坐姿统计与分析系统以及应用端连接的方式向使用者提供科学、直观的坐姿统计数据。

4、本发明应用端自动连接设备可以使用户方便的查看坐姿数据、精确设置符合个人习惯的监控相关设置。

5、本发明提供多种提示模式，能够设定系统在公共办公场景下提供静默提示方式。

基于上述理由本发明可在办公设备、教学设备中广泛应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明系统结构示意图。

图2为本发明系统坐姿监控装置端结构示意图。

图3为本发明实施例中系统工作流程图。

图4为本发明实施例中人体姿态估计与行为识别模块结构示意图。

图5为实施例中坐姿状态下11个关键点分布示意图。

图6为实施例中低级特征提取子模块结构示意图。

图7为实施例中SACAM网络结构示意图。

图8为实施例中姿态估计热图解码流程图。

图9为实施例中行为识别部的视频序列的姿态估计结果输入示意图。

图10为实施例中SRLRTM网络结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-2所示，本发明提供了一种基于单目摄像头坐姿识别技术的坐姿监控系统，包括坐姿监控装置端和坐姿监控应用端，可选地，二者可以通过USB、Ethernet、Uart、SPI等有线方式连接，也可以通过BT、WiFi等无线连接。其中，所述坐姿监控装置端主要包括单目摄像头、人体坐姿估计与行为识别单元、主控单元以及提示单元。在进一步的实施方式中，系统还可以包括桌面检测单元，其能够根据所述单目摄像头提取的图像信息识别桌面位姿，以校正因为拍摄角度造成的坐姿识别误差。在更进一步的实施方式中，系统还可以包括移动监测传感器，所述移动监测传感器与所述主控单元连接；当所述移动监测传感器监测到所述坐姿监控装置端被移动后，所述主控单元启动标准坐姿录入程序。

本发明在工作时，首先通过单目摄像头获取当前视频帧并更新视频帧序列，其能够存储T帧图像。单目摄像头与主控单元可以通过MIPI-DSI，HDMI，CVBS，USB等多种方式连接。通过主控单元将当前视频帧以及视频帧序列送入人体坐姿估计与行为识别单元进行分析处理，并进行坐姿评估，将评估结果送至主控单元，由主控单元控制提示单元做出相应的坐姿提示。在进一步的实施方式中，主控单元还用于将当前视频帧送入桌面检测单元进行桌面位姿检测。在更进一步的实施方式中，主控单元还用于接收移动监测传感器的监测结果，一旦移动监测传感器监测到所述坐姿监控装置端被移动后，所述主控单元启动标准坐姿录入程序。可选的，所述移动监测传感器为能够进行移动监测的重力感应器、地磁感应器、红外感应器等中的一种或几种的组合。

在本发明中，提示单元能够提供包括声音、灯光在内的多种形式的坐姿提醒模式，具体包括显示器提醒、语音提醒、灯光提醒、震动提醒等，以适应不同应用场景的提示需求，例如针对办公等有静音需要的场景下提供设定静默提示途径，包括灯光震动等。在一个较佳的实施方式中，提示单元包括声音提示模块和静音提示模块，所述声音提示模块和静音提示模块均响应于所述主控单元的控制而启动或关闭。进一步地，系统还包括统计与分析单元，所述统计与分析单元通过与所述主控单元通信存储所述单目摄像头采集的视频数据以及提示单元发出的坐姿提示数据，并能够通过可视化方法对上述数据进行统计和分析。

进一步地，所述人体姿态估计与行为识别单元主要包括视频序列提取模块、视频图像处理模块以及坐姿评价模块。

其中，视频序列提取模块用于获取当前视频帧并更新视频帧序列。具体来说，视频序列提取模块从单目摄像头获取当前视频帧Frame_k并更新视频帧序列，所述视频帧序列为VideoClip＝{Frame_i|i∈k-T+1,...,k}，其能够存储T帧图像。

视频图像处理模块用于通过获取关键点的3维坐标进行人体姿态的估计和行为类型的识别，其中行为类型包括静态行为和动态行为；进行坐姿评估之前，所述视频图像处理模块还要判断所述行为类型的识别结果是否属于静态行为，如果是则通过坐姿评价模块根据人体姿态的估计结果进行坐姿评估，否则所述视频图像处理模块再次获取关键点的3维坐标，如图3所示。

坐姿评价模块同时接收人体姿态的估计结果和行为类型的识别结果，依据二者进行坐姿评估，并根据评估结果给出相应提示。相应的该模块还可以用于接收桌面位姿检测结果，辅助进行坐姿评估。行为识别结果表示被识别对象处于打字、书写、阅读等相对静态的状态时，对其坐姿进行评价。本发明中坐姿评价可以采用但不限于以下方式：1)提前录入标准坐姿，计算当前坐姿和标准坐姿下各关节向量的相似度；2)判断头部和桌面距离；3)做分类任务，使用神经网络进行训练来判别。

作为本发明一种较佳的实施方式，优选采用一种针对人体姿态估计和行为识别的多任务端到端网络结构作为视频图像处理模块使用。其与常规使用的分阶段、多任务网络相比，能够更精确的利用姿态估计结果辅助提升行为识别精度，而由于坐姿识别精度很大程度上依赖于人体姿态估计的精度和行为的准确性，因此能够进一步提高坐姿识别精度。而以往使用的分段串联的识别算法，其输入只有人体姿态，而这样的输入特征，导致相近姿态的行为，在识别中互相混淆，比如喝水和抽烟这两种情形下的姿态非常类似。

为了解决上述问题，本实施方式中，视频图像处理模块进一步包括低级特征提取子模块和至少一级估计与识别工作组。如图4所示，其中低级特征提取子模块主要用以将所述视频帧序列中各帧图像处理为低级特征图。估计与识别工作组包括并行工作的三维姿态估计部和行为识别部。其中第一级估计与识别工作组的三维姿态估计部以所述低级特征图作为输入特征，并输出人体姿态估计结果，行为识别部以本级人体姿态估计结果和低级特征图作为输入特征，并输出行为识别结果；其他估计与识别工作组的三维姿态估计部均以所述低级特征图作和上一级人体姿态估计结果为输入特征，并输出人体姿态估计结果，行为识别部以本级人体姿态估计结果和上一级行为识别结果作为输入特征，并输出行为识别结果。作为本发明较佳的实施方式，人体姿态估计与行为识别模块以最后一级估计与识别工作组得到的人体姿态估计结果和行为识别结果作为输出。本发明通过各级估计与识别工作组间三维姿态估计部和行为识别部之间、以及估计与识别工作组内部三维姿态估计部和行为识别部之间之间引入重注入机制，显著提高了姿态估计和行为识别结果的准确性。

具体来说，低级特征提取子模块是网络输入部分，即网络的根茎(stem)，T帧视频帧序列resize到同一的尺寸，然后被送入此网络，此部分的输出是一个低级特征。本实施例主要侧重于网络的效率，并非要求此时提取的特征就能够有很好的拟合能力，因此为了提升该特征的有效性，在网络中引入了重注入机制(re-injection)对这一特征进行提炼调整(refine)，同时姿态估计部分和行为识别部分还专门设计了网络结构分别对空域和时间域进行建模。本发明以残差网络Resnet瓶颈层为基础，对网络结构进行优化以提高网络的速度。优选地，将原网络1×1卷积替换为1×1分组卷积(1×1groupconv)+通道混叠(channelshuffle)的形式，它在实现1×1卷积的功能的同时减小了计算量；将3×3卷积替换为步长为2的3×3深度卷积(depthwise conv)，同样能够减小计算量。将最后的相加操作改为通道拼接(concate)操作，每个恒等映射都进行步长为2的最大池化操作，如图6所示。上述优化设计能保证原始图像能够通过很少的几个更改后的瓶颈层得到希望的特征图形状。

另外，本发明在实现功能时，同时对三维姿态估计和行为识别引入重注入机制(re-injection)构成整个图像处理模块的结构，如图4所示。每个三维姿态估计模块将低级特征和上一个三维姿态估计模块特征相加作为输入特征，行为识别模块将当前输入特征和上一个行为识别模块全局池化前的特征相加，作为新的输入特征。通过这种重注入机制，特征会不断的调整，网络的结果也会随之逐渐趋于精确。

在进一步的实施方式中，三维姿态估计部用于执行：热图提取步骤和热图解码步骤。具体地，本实施方式中，将坐姿状态下的3维姿态估计定义为11个关键点的3维坐标，一旦确定这些坐标，就可以按照人体拓扑结构连接出人体姿态。11个关键点分别为左眼1、有眼2、鼻子3、左嘴角4、右嘴角5、左肩6、右肩7、左肘8、右肘9、左手腕10、右手腕11，如图5所示。

在热图提取步骤中，同样基于Resnet网络对3维姿态估计部分的结构进行优化，而提出了一种新的网络结构SACAM(sptial attention and channel attention module)。此结构中沿着通道进行最大池化，对池化后结果进行3x3卷积，得到空间域的注意力，即不同像素位置的权重，对特征精炼。然后引入SE layer学习不同通道的权重，即通道级的注意力，对不同通道特征重新精炼。SACAM结构如图7所示。由于前述低级特征提取部分已经快速的将特征图尺寸调整成需要的分辨率，SACAM块中不进行下采样，卷积步长均为1，池化操作也只是为了提取注意力，SACAM的输入和输出特征图的分辨率保持一致。

进一步地，在热图解码步骤中，姿态估计输入特征连续经过一个或多个SACAM堆叠的结构之后，生成关键点热图Heatmap，其尺寸为(hw,hh,hc)。通过reshape操作转换为(hx,hy,hz,hk)，hx和hy为二维姿态估计结果，hz为关键点深度值，hc为关键点类别数，本实施例中设置为11，hc＝hz*hk，hw＝hx，hh＝hy。

然后，对Heatmap的第三个维度做全局最大池化，得到热图Hxy，尺寸为(hx,hy,hk)；对Heatmap的前两个维度做全局最大池化，得到热图Hz，尺寸为(hz,hk)。本实施例中采用soft-argmax从两个热图中分别解析出二维关键点坐标和深度坐标，共同形成三维关键点坐标。传统算法从热图获取坐标值往往采用argmax，次运算结果不可导，使反向传播链遭到破坏。而本发明中使用soft-argmax，其本质上是把事件定义为最大值落在坐标(x,y)上，这样热图Hxy和Hz自然就成为了对应的概率质量函数，求取最大值坐标就转换为了求取期望，公式如下：

对于关键点的置信度，我们对热图Hxy前两个维度做全局最大池化得到Cxy，对热图Hz的第一个维度做全局池化得到Cz，二者按通道相加，得到置信度Conf。整个姿态估计热图解码的流程如图8所示。

在本发明进一步的实施方式中，行为识别部用于执行行为识别模型搭建步骤、识别输入特征构建步骤以及行为识别步骤和分类步骤。

行为识别模型搭建步骤

在设计模型时，主要利用所述行为识别输入特征对短时间信息和长时间信息分别进行建模，将两模型串联后形成识别模型。作为进一步优选的实施方案，针对输入特征的形状设计了SRLRTM块结构，采用普通的2维卷积就能对短时间信息和长时间信息进行建模。如图10所示，SRLRTM分为两个部分。SRLRTM的左半部分对短时间信息进行建模。它采用1×1卷积增强通道间信息的流动并降低通道数，hk×3卷积目的是对短时间的信息进行建模。因为特征的第二个维度代表时间T，所以卷积核第二维设置为3的目的是对相邻的3帧进行建模。然后进行通道最大池化，以获取到一个时空注意力，将它和恒等映射特征进行自相关，得到局部增强特征，同时为了保留信息的完整性，这里跳跃连接，将原有特征和局部增强特征进行相加。SRLRTM的右半部分对长时间信息进行建模。第一个1×1卷积也是为了增强通道间信息的流动并降低通道数，hk×T卷积是对T帧信息同时建模，用它和1×1卷积配合能获取到一个通道注意力，然后和恒等映射特征在通道维度上做乘法，获得一个全局增强特征，再和恒等映射特征相加，保留原有信息。通过左半部分和右半部分串联，构成一个SRLRTM块。将多个堆叠的SRLRTM块后，连接一个全局最大池化层，一个全连接，再接一个softmax，得到识别分类结果。

识别输入特征构建步骤

该步骤主要用于提取姿态估计特征和场景上下文特征，将二者拼接形成行为识别输入特征。行为识别部分的输入包括两个部分，一个是姿态估计的结果，另一个是低级特征提取子模块提取到的低级特征。在本实施方式中将人体表观和环境上下文结合起来进行行为识别，能够解决只通过姿态来对行为进行判断是不够准确的问题。

对于姿态估计的结果，需要对其格式进行转换，方便网络对其处理。本实施例中将时间维度作为水平轴，关键点类别作为垂直轴，3维关键点的x,y,z坐标对应3个通道，这样的特征可以直接利用2维普通卷积进行处理。特征如图9所示，其形状为(hk,T,3)。

对于人体表观和场景上下文特征，本实施例通过将低级特征和热图做外积来进行提取。具体地，提取热图Hxy为(hx,hy,hk)，即(hw,hh,hk)，而低级特征到热图Hxy的过程中没有进行下采样，记低级特征为F，其尺寸为(hw,hh,hd)，其中hd为通道数。对Hxy的每个通道和F的每个通道计算外积，得到的结果为(hx,hy,hk*hd)。由于两个向量的外积等于两个向量组成平行四边形的面积，外积的结果可以两个向量的相似度，也可以体现两个向量的长度值，而矩阵的外积本质就是矩阵中对应列的外积。本实施例中计算外积的目的是利用一个时刻的所有关键点位置在热图上提取人体表观信息和上下文信息。得到外积结果之后，对前两个轴进行全局平均池化，特征形状变为(hk*hd)，然后拼接T个视频帧的特征，得到人体表观和场景上下文特征Representf，其形状为(T,hk*hd)，将第二个通道拆分，调整顺序，特征形状最后变为(hk,T,hd)。由于姿态估计特征的形状为(hk,T,3)，人体表观和场景上下文特征的形状为(hk,T,hd)，二者前两个维度尺寸一致，按通道拼接，形成行为识别的输入特征(hk,T,3+hd)。

行为识别和分类步骤

在该步骤将所述识别输入特征输入到识别模型中，得到识别分类结果。在本实施方式中，将识别结果分为针对坐姿状态的静态行为和动态行为，其中动态行为包括但不限于：舒展、起立、坐下、伸手取物、摇头晃脑、转身、打电话以及与他人交谈等。静态行为包括但不限于：书写、打字及阅读等。

下面通过一个具体的应用实例，对本发明的方案做进一步说明。

如图1-2所示，公开了一种应用本系统的坐姿监控设备，包括坐姿监控装置端和坐姿监控应用端。其中坐姿监控应用端可以是移动终端或者计算机，主要用于查看坐姿监控的当前和历史数据。坐姿监控装置端上单目摄像头、人体坐姿估计与行为识别单元、主控单元以及提示单元。本实施方式中，提示单元优选采用提供静默提示功能的指示灯和提供语音提示的喇叭。此外，机身上还设置有与主控单元连接，用以控制切换实现系统功能的机身按键。进一步地，机身上还有能够表征系统运行状态的系统指示灯。上述设备工作过程如下：

1、从单目图像中不断获取512×512大小的视频帧，并做以下两方面处理：a)更新容量为T＝10的视频队列，将整个视频队列送入人体姿态估计与行为识别单元的图像处理模块；b)将当前视频帧直接送入人体姿态估计与行为识别单元的桌面检测模块。

2、人体姿态估计与行为识别单元的图像处理模块开始工作，低级特征提取子模块采用如图6所示的瓶颈层结构，堆叠4次。输出低级特征分辨率为32×32，通道数从3扩增为576。其中，第一个瓶颈层通道扩增为12，第二个瓶颈层通道扩增为48，第三个瓶颈层通道扩增为192，第四个瓶颈层通道扩增为576。姿态评估部将T个视频帧中的每一帧送入SACAM结构进行三维姿态估计。SACAM块堆叠5次，其中所有的卷积步长均为1，得到姿态估计特征。然后，将姿态估计特征送入热图解码模块，得到Pxy，Pz和Conf，三者都是11通道，对应11个关键点的结果。由于对T个视频帧分别处理，所以这里会得到T帧的人体姿态结果。行为识别部首先构造行为识别输入特征，构造后的特征尺寸为(hk,T,3+hd)＝(11,10,579))，然后送入SRLRTM块结构。行为识别输入特征经过5个堆叠的SRLRTM块后，连接一个全局最大池化层，一个全连接，再接一个softmax，得到识别分类结果。

3、引入重注入机制，如图4所示，每个三维姿态估计模块将低级特征和上一个三维姿态估计模块特征相加作为输入特征，行为识别模块将当前输入特征和上一个行为识别模块全局池化前的特征相加，作为新的输入特征，以提高网络识别精度。

4、进行桌面检测，桌面检测本质是平面检测问题，目的是从图像中获得桌面的位置和姿态。桌面检测模块对单目图像进行3d平面检测，获取描述各个平面的深度图和法向量，作为平面的位置信息和姿态信息。然后根据相机的摆放位置，从图像下部向上搜索确定桌面范围。

5、进行坐姿评价及提示，行为识别部识别到被识别对象处于打字、书写、阅读等相对静态的状态时，对其坐姿进行评价，根据评价结果给出相应的提示。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于单目摄像头坐姿识别技术的坐姿监控系统，其特征在于，包括坐姿监控装置端和坐姿监控应用端；其中，所述坐姿监控装置端主要包括：

用于提取视频帧图像的单目摄像头；

对视频图像进行分析运算从而得到坐姿评估结果以及行为识别结果的人体坐姿估计与行为识别单元，所述人体坐姿估计与行为识别单元包括：

视频序列提取模块，从单目摄像头获取当前视频帧并更新视频帧序列，所述视频帧序列的容量固定，

视频图像处理模块，通过获取关键点的3维坐标进行人体姿态的估计和行为类型的识别，所述视频图像处理模块包括：

低级特征提取子模块，将所述视频帧序列中各帧图像处理为低级特征图，

以及至少一级估计与识别工作组，所述估计与识别工作组包括并行工作的三维姿态估计部和行为识别部，其中：

行为识别部以本级人体姿态估计结果和低级特征图作为输入特征，并输出行为识别结果，

行为识别部以本级人体姿态估计结果和上一级行为识别结果作为输入特征，并输出行为识别结果，

坐姿评价模块，同时接收人体姿态的估计结果和行为类型的识别结果，依据二者进行坐姿评估，并根据评估结果给出相应提示；

接收视频图像、姿态评估结果以及行为识别结果并与所述坐姿监控应用端通信的主控单元；

以及通过响应坐姿评估结果进行坐姿提示的提示单元。

2.根据权利要求1所述的坐姿监控系统，其特征在于，所述提示单元包括声音提示模块和静音提示模块，所述声音提示模块和静音提示模块均响应于所述主控单元的控制而启动或关闭。

3.根据权利要求1所述的坐姿监控系统，其特征在于，系统还包括统计与分析单元，所述统计与分析单元通过与所述主控单元通信存储所述单目摄像头采集的视频数据以及提示单元发出的坐姿提示数据，并能够通过可视化方法对上述数据进行统计和分析。

4.根据权利要求1所述的坐姿监控系统，其特征在于，系统还包括用于对监控环境进行实时监测的移动监测传感器，所述移动监测传感器与所述主控单元连接；当所述移动监测传感器监测到所述坐姿监控装置端被移动后，所述主控单元启动标准坐姿录入程序。

5.根据权利要求1所述的坐姿监控系统，其特征在于，所述行为类型包括静态行为和动态行为；

6.根据权利要求1所述的坐姿监控系统，其特征在于，系统还包括桌面检测单元，根据所述单目摄像头提取的图像信息识别桌面位姿，以校正因为拍摄角度造成的坐姿识别误差。