CN115552487A

CN115552487A - 人体躺姿检测方法及使用该方法的移动机器

Info

Publication number: CN115552487A
Application number: CN202280003636.4A
Authority: CN
Inventors: 董初桥; 邵丹; 修震; 郭德骏; 谭欢
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2021-06-30
Filing date: 2022-03-04
Publication date: 2022-12-30
Also published as: WO2023273389A1; US20230004740A1

Abstract

一种人体躺姿检测方法及使用该方法的移动机器，应用于人体姿态检测技术领域。通过以下步骤来检测躺在床上的人：通过深度相机获取图像；通过深度学习检测该图像中的物体、并使用多个2D边界框来标记该图像中的该些物体；若该人所对应的该2D边界框的宽度和高度满足预定条件，则确定该人处于躺姿；以及若该皮肤区域2D边界框和该床所对应的2D边界框满足预定位置关系，则使用皮肤检测算法来检测该图像中的皮肤区域、并生成皮肤区域2D边界框以分别标记各皮肤区域。

Description

人体躺姿检测方法及使用该方法的移动机器

技术领域

本申请涉及人体姿态检测，尤其涉及一种人体躺姿检测方法及使用该方法的移动机器。

背景技术

在医疗保健行业，借助了蓬勃发展的人工智能(AI)技术，机器人已经拥有包括移动助行机器人和医疗机器人在内的多种应用。助行机器人通常被设计成轮椅或助行器等设备而对行走等进行辅助，以提高行动不便人士的行动能力。

为实现助行器等功能，助行机器人不可避免地需要具备自动导航能力，从而以更加自动化、便捷的方式辅助用户。而要想实现自动导航，就需要检测其用户以进行路径规划，甚至需要检测用户的姿势，从而以更合适的方式进行相应的服务。

基于骨骼的姿势检测是在机器人中实现人体姿态检测的一种普遍的技术，它根据在估计出的人体骨骼上识别出的关键点来检测人体的姿态。在识别出的关键点足够多的情况下，有效且能准确检测；否则，在由于例如人体被障碍物或衣服遮挡很多而使得所能识别出的关键点不够的情况下，甚至可能无法识别人体的姿态。尤其是当人躺在床上、盖着被子时，被子、以至于床都可能遮挡住身体，而影响检测效果。因此，需要一种独立于基于骨骼的姿势检测的人体躺姿检测方法。

发明内容

本申请提供一种人体躺姿检测方法及使用该方法的移动机器，用以检测躺在床上的人，解决前述的现有技术中的人体姿态检测技术所存在的问题。

本申请的实施例提供了一种人体躺姿检测方法，包括：

通过深度相机获取至少一图像；

通过深度学习检测该图像中的多个物体、并使用多个2D边界框来分别标记该图像中的该些物体；

响应于该图像中的一个该物体被检测为人，若该人所对应的该2D边界框的宽度和高度满足预定条件，则确定该人处于躺姿；

响应于该图像中的一个该物体未被检测为人，若该人所对应的该2D边界框的宽度和高度不满足该预定条件、且该图像中的另一个该物体被检测为床，则使用皮肤检测算法来检测该图像中的一或多个皮肤区域、并生成一或多个皮肤区域2D边界框以分别标记各该皮肤区域；以及

响应于该一或多个皮肤区域2D边界框和该床所对应的2D边界框满足预定位置关系，而确定该人处于躺姿。

本申请的实施例还提供了一种移动机器，包括：

深度相机；

一或多个处理器；以及

一或多个存储器，存储有一或多个计算机程序，该一或多个计算机程序由该一或多个处理器执行，其中该一或多个计算机程序包括多个指令用于：

通过深度相机获取至少一图像；

响应于该图像中的其中一个该物体被检测为人，若该人所对应的该2D边界框的宽度和高度满足预定条件，则确定该人处于躺姿；

响应于该图像中的其中一个该物体未被检测为人，若该人所对应的该2D边界框的宽度和高度不满足该预定条件、且该图像中的另一个该物体被检测为床，则使用皮肤检测算法来检测该图像中的一或多个皮肤区域、并生成以一或多个皮肤区域2D边界框以分别标记各该皮肤区域：以及

从上述本申请的实施例可知，本申请提供的人体躺姿检测方法结合了家具和人体皮肤的检测，能够在所能识别出的关键点不够的情况下检测出人体的躺姿，从而解决现有技术中所能识别出的关键点不够的情况下可能无法识别人体的姿态等问题。

附图说明

为了更清楚地说明本申请的实施例中的技术方案，下面对实施例中或现有技术的描述中所使用的附图进行简要的介绍。在以下的附图中，相同的附图标记在整个图中表示相应的部分。应当理解的是，以下描述中的附图仅为本申请的例子。对于本领域的技术人员来说，在没有创造性劳动的情况下，可以基于这些附图来获得其他的附图。

图1A是本申请的一些实施例中使用移动机器检测人体姿态的场景示意图。

图1B是使用图1A的移动机器的相机来检测人的姿势的示意图。

图2是说明图1A的移动机器的示意框图。

图3是本申请的一些实施例中的人体躺姿检测方法的流程图。

图4是在图1A的移动机器的相机所拍摄的图像中标记人的示意图。

图5是在图1A的移动机器的相机所拍摄的图像中标记人和床的示意图。

图6A是图3的人体躺姿检测方法中检测皮肤区域的例子的流程图。

图6B是图3的人体躺姿检测方法中检测皮肤区域的示意图。

图7A是在图3的人体躺姿检测方法中使用基于骨骼的姿势检测的例子的流程图。

图7B是图7A的人体躺姿检测方法中对应于躺着的人的基于骨骼的姿势检测的结果的示意图。

图7C是图7A的人体躺姿检测方法中对应于坐着的人的基于骨骼的姿势检测的结果的示意图。

具体实施方式

为使本申请的目的、特征和优点更加明显易懂，下面将结合附图对本申请的实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都在本申请所保护的范围内。

应当理解的是，当在本申请和所附的权利要求中使用时，术语“包括”、“包含”、“具有”及其变体表示所述特征、整体、步骤、操作、元素和/或组件的存在，但不排除可以存在或添加一或多个其他特征、整体、步骤、操作、元素、组件和/或其集合。

还应当理解的是，在本申请的说明书中所使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请的范围。如同在本申请的说明书和所附的权利要求中所使用的那样，除非上下文清楚地指明了其他情况，否则单数形式的“一”、“一个”以及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附的权利要求中所使用的术语“和/或”是指相关列出的项中的一或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请中的术语“第一”、“第二”、“第三”仅仅是出于描述的目的，而不能理解为指示或暗示了相对重要性、或是暗示了所指的技术特征的数量。由此，由“第一”、“第二”、“第三”所限定的特征可以显式或隐式地包括其中的至少一个技术特征。在本申请的描述中，“多个”的含义是至少两个，例如两个、三个等，除非另有明确的定义。

在本申请的说明书中叙述的“一个实施例”或“一些实施例”等意味着在本申请的一或多个实施例中可以包括与该实施例的描述内容相关的特定特征、结构或特点。由此，在说明书的不同地方出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是意味着所描述的实施例应该被所有其他实施例所引用，而是被“一或多个但不是所有其他实施例所引用”，除非另有特别强调。

本申请涉及人体姿态检测。如本文所用的，术语“人类”是指地球上数量最多、分布最广的灵长类动物。人的身体包括头部、颈部、躯干、手臂、手掌、腿和脚掌。术语“姿势”是指人的站姿、坐姿和卧姿，而术语“卧姿”是指人体由其下方的表面沿其长度方向支撑的一种姿势。术语“床”是指可供人在其上休息的家具。床(架)的上面可能包括比如枕头和毯子等典型的物品。床也可以是例如沙发、长凳和吊床等形式。术语“检测”是指与计算机视觉和图像处理相关的计算机技术，用于检测数字图像中某类语义对象(例如人类和家具)的实例。术语“移动机器”是指机器例如移动机器人或能够在其环境中四处移动的车辆。术语“轨迹规划”是指找到一系列有效配置，将移动机器从源头移动到目的地并按时间参数化，其中“轨迹”表示带有时间戳的姿势序列(参见“路径”表示不带时间戳的姿势或位置序列)。术语“姿势”指的是位置(例如x和y轴上的x和y坐标)和姿态(例如沿z轴的偏航角)。术语“导航”是指监视和控制移动机器人从一个地方到另一个地方的运动的过程。术语“防撞”是指防止或减少碰撞的严重程度。术语“传感器”是指设备、模块、机器或子系统，例如环境光传感器和图像传感器(例如相机)，其目的是检测其环境中的事件或变化并将信息发送到其他电子设备(例如处理器)。

图1A是本申请的一些实施例中使用移动机器检测人体姿态的场景示意图。图1B是使用图1A的移动机器100的相机C来检测人的姿势的示意图。如图1A和图1B所示，移动机器100在其环境(例如房间)中被导航的同时进行人体姿势(即用户U在床O上的姿势)的检测。床O还可以是长凳等家具。移动机器100是移动机器人(如移动助行机器人)，其包括相机C和轮子E。相机C可以朝向移动机器100直线移动时的向前方向D_f而设置，使得相机C的镜头直线面向向前方向D_f。相机C具有摄像机坐标系，而移动机器100的坐标与相机C的坐标一致。在相机坐标系中，x轴与向前方向D_f一致，y轴与地平线平行，z轴与地平线垂直。相机C的视野V覆盖了用户U和床O。移动机器100上的相机C的高度(例如1米)可以根据实际需要改变(例如高度越大视场使得V越大、高度越小使得视场V越小)，而且相机C相对于地面的俯仰角也可以根据实际需要改变(例如俯仰角越大使得视场V越近，俯仰角越小使得视场V越远)。根据相机C的高度和俯仰角，可以得到用户U在移动机器100附近的相对位置，也可以判断用户U是否躺着、或用户U所躺的床O。需要说明的是，移动机器100只是移动机器的一个例子，移动机器100可以具有比上面或下面所示更多、更少或不同的部件(例如具有腿而不是轮子E)，或者可以具有不同的部件配置或布置(例如将相机C设置在移动机器100的顶部)。在其他实施例中，移动机器100可以是另一种移动机器，例如车辆。

在一些实施例中，移动机器100在其所处环境中被导航，同时可以防止诸如碰撞和不安全状态(例如坠落、极端温度、辐射和暴露)之类的危险情况。在该室内导航中，移动机器1000从起点(例如移动机器100最初所在的位置)被导航到(用户U或移动机器100的导航/操作系统所指定的)目的地，并且可避开障碍物(例如墙壁、家具、人、宠物和垃圾)以防止上述危险情况。必需规划能使移动式机器100从起点移动到目的地的轨迹(例如轨迹T)，以便根据轨迹来移动移动机器100。每个轨迹包括一系列位姿(例如轨迹T的位姿S_n-1-S_n)。需要说明的是，起点和终点仅代表移动机器100在如图所示的场景中的位置，而不是轨迹的真正开始和结束(轨迹的真正开始和结束应该分别是一个位姿)。在一些实施例中，为了实现移动设备100的导航，需要构建环境地图、(使用例如惯性测量单元(IMU)1331来)确定移动机器100在环境中的当前位置，而后基于所构建的地图和所确定的移动机器100的当前位置来规划轨迹。期望位姿S_d是轨迹T(图中仅部分显示)中的姿态序列中的最后一个，即轨迹T的末端。轨迹T是根据例如所构建的地图中到达用户U的最短路径而规划的。另外，在规划时需要考虑避免与所构建的地图中的障碍物(例如墙壁和家具)或实时检测到的障碍物(例如人和宠物)的碰撞，以便更准确且安全地导航移动机器100。

在一些实施例中，移动机器100的导航可以通过移动机器100本身(例如移动机器100上的控制界面)或诸如遥控器、智能手机、平板电脑、笔记本电脑、台式电脑或其他电子设备等控制设备所提供的移动机器100的导航请求来启动。移动机器100和控制设备可以通过网络进行通信，而该网络可以包括例如因特网、内联网(intranet)、外联网(extranet)、局域网(LAN)、广域网(WAN)、有线网络、无线网络(例如Wi-Fi网络、蓝牙网络和移动网络)或其他合适的网络，或两个或多个此类网络的任意组合。

图2是说明图1A的移动机器100的示意框图。移动机器100可以包括通过一条或多条通信总线或信号线L进行通信的处理单元110、存储单元120和控制单元130。需要说明的是，移动机器100只是移动机器的一个例子。移动机器100可以具有比上面或下面所示更多或更少的组件(例如单元、子单元和模块)，可以组合两个或更多个组件，或者可以具有不同的组件配置或排列。处理单元110执行存储在存储单元120中的各种(各组)指令，这些指令可以是软件程序的形式，以执行移动机器100的各种功能和处理相关数据，其可以包括一或多个处理器(例如中央处理器(CPU))。存储单元120可以包括一或多个存储器(例如高速随机存取存储器(RAM)和非暂时性存储器)、一或多个存储器控制器，以及一或多个非暂时性计算机可读存储介质(例如固态状态驱动器(SSD)或硬盘)。控制单元130可以包括各种控制器(例如相机控制器、显示控制器和物理按钮控制器)和用于耦合移动机器100的输入/输出外围设备到处理单元110和存储单元120的外围设备接口，例如外部端口(如USB)、无线通信电路(如RF通信电路)、音频电路(如扬声器电路)、传感器(如IMU)。在一些实施例中，存储单元120可以包括用于实现与移动机器100的导航(和轨迹规划)相关的导航功能(例如地图构建和轨迹规划)的导航模块121，其可以存储在一或多个存储器(以及一或多种非暂时性计算机可读存储介质)中。

移动设备100的存储单元120中的导航模块121可以是(移动机器100的操作系统的)软件模块，其具有指令I_n(例如用来致动移动机器100的轮子E的电机1321以移动移动机器100的指令)，以实现移动机器100的导航、地图构建器1211和轨迹规划器1212。地图构建器1211可以是具有用于为移动机器100构建地图的指令I_b的软件模块，轨迹规划器1212可以是具有用于为移动机器100规划轨迹的指令I_p的软件模块。轨迹规划器1212可以包括用于为移动机器100规划全局轨迹(例如轨迹T)的全局轨迹规划器、以及用于为移动机器100规划局部轨迹(例如包括图1A中的轨迹T的一部分)的局部轨迹规划器。全局轨迹规划器可以是例如基于Dijkstra算法的轨迹规划器，其基于由地图构建器1211通过同时定位与地图构建(simultaneous localization and mapping，SLAM)等方式所构建的地图来规划全局轨迹。局部轨迹规划器可以是基于TEB(timed elastic band)算法的轨迹规划器，其基于全局轨迹和移动机器100收集的其他数据来规划局部轨迹。例如可以是通过移动机器100的相机C采集图像，对采集到的图像进行分析，以识别障碍物，从而可以参考所识别出的障碍物来规划局部轨迹，并且可以根据所规划的局部轨迹来移动移动机器100、以避开障碍物。

地图构建器1211和轨迹规划器1212可以是与用于实现动移动机器100的导航的指令I_n分离的子模块、或是导航模块121的其他子模块，或是指令I_n的一部分。轨迹规划器1212还可具有与移动机器100的轨迹规划相关的数据(例如输入/输出数据和临时数据)，其可存储在一或多个存储器中并由处理单元110访问。在一些实施例中，每个轨迹规划器1212可以是存储单元120中与导航模块121分离的模块。

在一些实施例中，指令I_n可以包括用于实现移动机器100的碰撞避免(例如障碍物检测和轨迹重新规划)的指令。此外，全局轨迹规划器可以重新规划全局轨迹(即规划新的全局轨迹)，以响应例如原始全局轨迹被阻挡(例如被一或多个意外障碍物阻挡)或不足以避免碰撞(例如在采用时无法避开所检测到的障碍物)。在其他实施例中，导航模块121可以是通过一或多条通信总线或信号线L与处理单元110、存储单元120和控制单元130通信的导航单元，还可以包括一或多个存储器(例如高速随机存取存储器(RAM)和非暂时性存储器)，用于存储指令I_n、地图构建器1211和轨迹规划器1212；以及一或多个处理器(例如微處理器(MPU)和微控制器(MCU))，用于执行存储的指令I_n、I_b和I_p，以实现移动机器100的导航。

移动设备100还可以包括通信子单元131和致动子单元132。通信子单元131和致动子单元132通过一条或多条通信总线或信号线与控制单元130通信。该一或多条通信总线或信号线可以与上述一或多条通信总线或信号线L相同、或至少部分不同。通讯子单元131耦接至移动机器100的通讯接口，诸如供移动机器100通过网络与控制装置进行通信的网络接口1311、I/O接口1312(例如物理按钮)等。致动子单元132耦合到用于实现移动机器100的运动的组件/设备，以驱动移动机器100的车轮E和/或关节的电机1321。通信子单元131可以包括用于移动机器100的上述通信接口的控制器，致动子单元132可以包括用于实现移动机器100的运动的上述组件/设备的控制器。在其他实施例中，通信子单元131和/或致动子单元132可以只是抽象组件，用以表示移动机器100的组件之间的逻辑关系。

移动机器1 00还可以包括传感器子单元133，传感器子单元133可以包括一组传感器和相关控制器，例如RGB-D相机C和IMU 1331(或加速度计和陀螺仪)，用于检测其所在的环境以实现其导航。传感器子单元133通过一或多条通信总线或信号线与控制单元130通信，该一或多条通信总线或信号线可以与上述的一或多条通信总线或信号线L相同、或至少部分不同。在其他实施例中，在导航模块121为上述导航单元的情况下，传感器子单元133可以通过一或多条通信总线或信号线与导航单元进行通信，该通信总线或信号线可以与上述的一或多条通信总线或信号线L相同、或至少部分不同。此外，传感器子单元133可以只是抽象组件，用以表示移动机器100的组件之间的逻辑关系。

在一些实施例中，地图构建器1211、轨迹规划器1212、传感器子单元133和电机1321(以及连接到电机1321的移动机器100的轮子E和/或关节)共同组成一个(导航)系统，实现地图构建、(全局和局部)轨迹规划和电机驱动，以实现移动机器100的导航。此外，图2B中所示的各种组件可以以硬件、软件或硬件和软件的组合来实现。处理单元110、存储单元120、控制单元130、导航模块121和其他单元/子单元/模块中的两个或更多个可以实现在单个芯片或电路上。在其他实施例中，它们中的至少一部分可以在单独的芯片或电路上实现。

图3是本申请的一些实施例中的人体躺姿检测方法的流程图。在一些实施例中，以例如将对应于移动机器100的导航方法的指令(组)I_n存储为存储单元120中的导航模块121、并通过处理单元110执行所存储的指令I_n的方式在移动机器100中实现该人体躺姿检测方法，而后移动机器100可以利用相机C进行检测、以判断用户U是否躺下。可以响应于来自例如移动机器100本身或控制装置(的导航/操作系统)的检测用户U的姿势的请求来执行该人体躺姿检测方法，然后也可以例如每隔预定的时间间隔(例如1秒)重新执行一次，以重新判断用户U是否躺下、从而检测用户U的姿势变化。因此，在步骤3110中，可以通过相机C获取图像I。由于相机C是深度相机(例如RGB-D相机)，因此相机C所拍摄的图像I包括代表距离的像素值。可以获取多个图像I，以便从中选择一个图像I(例如满足一定质量的图像I)来使用。

在步骤3120中，通过深度学习检测和以2D(二维)边界框(bounding box，BBox)标记图像I中的物体(例如人和床)。生成人的2D边界框B₁来标记人，即用户U，生成床的2D边界框B₂来标记床O。2D边界框B₁由深度学习模型输出。深度学习模型可以是基于例如YOLO(youonly look once)算法的计算机模型，其可以使用人类检测相关的标记数据来进行训练。图4是在图1A的移动机器100的相机C所拍摄的图像I中标记人(即用户U)的示意图。在图4的上部的图像I中，包括床O和躺在其上的用户U。在图4下部的图像I中，2D边界框B₁是图像I中的矩形区域，显示为带有虚线框架的矩形框、以标记用户U。由于用户U的整个身体(即头部、颈部、躯干、两条手臂、两只手、两条腿和两条脚)显示在图像I中，因此2D边界框B₁标记了图像I中用户U的整个身体。在其他实施例中，2D边界框B₁可以是图像I中的另一个形状(例如对用户U合身的不规则形状)的区域，其可以被显示为另一种形状(例如用户U合身的不规则形状)而具有其他形式的框架(例如实线框架)的框。床的2D边界框B₂可以由上述的深度学习模型输出，该模型基于YOLO算法、使用床检测相关的标记数据来进行进一步训练。在其他实施例中，床的2D边界框B₂可以由另一个深度学习模型输出。图5是在图1A的移动机器100的相机C所拍摄的图像I中标记人(即用户U)和床(即床O)的示意图。在图5上部的图像I中，由于用户U的身体上覆盖着被子Q，因此只有身体的一部分(即头部、颈部、躯干的一部分、两条手臂、用户U的两只手)显示在图像I中，而床的2D边界框B₂只标记了图像I中用户U的身体的该部分。

在步骤3130中，判断图像I中是否存在用户U。使用上述深度学习模型检测图像I中的用户U。深度学习模型是通过使用大量人类检测相关的标记数据(例如不同场景中的超过10,000张人类图像的数据集)，以及包含多个层的神经网络架构来进行训练，从而直接从所输入的图像I中学习执行分类任务，以检测出图像I中的用户U。如果确定图像I中有用户U，则执行步骤3140；否则，将执行步骤3160。

在步骤3140中，判断2D边界框B₁的宽度和2D边界框B₁的高度是否满足预定条件。预定条件可以是宽高比大于预定比值(例如5∶1)且宽度大于高度超过预定倍数(例如5倍)。若确定2D边界框B₁的宽度和高度满足预定条件(即2D边界框B₁的宽度大于2D边界框B₁的高度、且超过预定倍数)，则将执行步骤3150；否则，将执行步骤3160。例如在预定条件为5∶1的情况下，在图4下半部的图像I中，因为2D边界框B₁的宽度W₁大于2D边界框B₁的高度H₁在5倍以上，则将判断2D边界框B₁的宽度和高度满足预定条件。如图5所示，由于床2D边界框B₂的宽度W₂大于2D边界框B₂的高度H₂在5倍以下，则将判断第二2D边界框B₂的宽度W₂和高度H₂不满足预定条件，因此将执行步骤3160。在一些实施例中，第一2D边界框B₁的宽度由第一2D边界框B₁在水平方向D_h上的特征向量表示，第一2D边界框B₁的高度由第一2D边界框B₁在垂直方向D_v的另一个特征向量表示。在步骤3150中，人(即用户U)被确定为处于躺姿，这意味着用户U是躺着的。

在步骤3160中，判断图像I中是否存在床O。使用上述深度学习模型来检测图像I中的床O。深度学习模型通过使用大量床检测相关的标记数据(例如10,000多个不同场景的床图像的数据集)和包含多个层的神经网络架构来训练，从而直接从输入的图像I中学习执行分类任务，以检测出图像I中的床O。若确定图像I中有床O，则执行步骤3170；否则，将执行步骤3200。在图5的下部的图像I中，虽然在图像I中显示了用户U的整个床O(即座、背和腿)，为了在该人体躺姿检测方法的后续步骤中检测可能在床O上的用户U的躺姿，2D边界框B₂可以只标记图像I中床O的上部(即座和背)。2D边界框B₂是图像I中的一个矩形区域，显示为带有虚线框架的矩形框，用于标记用户U。在其他实施例中，2D边界框B₂可以是图像I中的其他形状的区域(例如适应于床O体的不规则形状)，其被显示为具有其他形式的框架(例如实线框架)的形状的框。

在步骤3170中，判断图像I中是否存在皮肤区域A。可以从图像I的所有像素中检测出皮肤区域A。使用皮肤检测算法来检测图像I中的皮肤区域A，该算法可以是CV(computervision，计算机视觉)算法、具有内部开发的包含多个层的架构，从而直接从输入的图像I中学习执行分类任务，以检测出图像I中的皮肤区域A。图6A是图3的人体躺姿检测方法中检测皮肤区域A的例子的流程图，图6B是图3的人体躺姿检测方法中检测皮肤区域A的示意图。步骤3171-3174是执行上述皮肤检测算法，因此，在步骤3171，对图像内的所有像素进行基于纹理的分割以获取纹理片段S_t。可以基于人类皮肤的HSV(hue、saturation、value，色调、饱和度、值)颜色图中的像素值的阈值来进行基于纹理的分割。在图6B上部的基于纹理的分割T中，每个纹理片段S_t代表人的皮肤的潜在像素的区域。在步骤3172，对纹理片段S_t进行基于区域的分割以获取置信片段S_c。通过计算段纹理片段S_t之间的相似度来得到人皮肤的置信片段S_c，置信片段S_c通常小于纹理片段S_t。在图6B中部的基于区域的分割R中，置信片段S_c小于对应的纹理片段S_t。在步骤3173，通过增长置信片段S_c来获取皮肤区域A。皮肤区域A可以通过将对应的置信片段S_c作为种子、并应用分水岭算法(watershed algorithm)将置信片段S_c增长成皮肤区域A来获取。在步骤3174，判断图像I中是否存在皮肤区域A。若已经获取至少两个皮肤区域A，则可以确定图像I中有皮肤区域A。若判断图像I中存在皮肤区域A，则执行步骤3180；否则，将执行步骤3200。

在步骤3180中，使用上述的皮肤检测算法来生成皮肤区域2D边界框B₃，以标记皮肤区域A。在图6B下部的图像I中，皮肤区域2D边界框B₃是图像I中的矩形区域，其显示为带有虚线框架的矩形框、以标记用户U。在其他实施例中，皮肤区域2D边界框B₃可以是图像I中的其他形状的区域(例如适应于皮肤区域A的不规则形状)，其显示为具有其他形式的框架(例如实线框架)的形状的框。在步骤3190中，判断对应于皮肤区域A的皮肤区域2D边界框B₃和2D边界框B₂是否满足预定位置关系。在一些实施例中，预定位置关系为所有皮肤区域A所对应的每个皮肤区域2D边界框B₃有至少一部分在2D边界框B₂内，即所有的皮肤区域2D边界框B₃都在2D边界框B₂内、或每个皮肤区域2D边界框B₃的整个或一部分在2D边界框B₂之内，其涵盖了用户U的身体的一部分(例如头、手臂、手掌、腿或脚掌)伸出床O的边缘的状况。

若判断皮肤区域A所对应的皮肤区域2D边界框B₃与2D边界框B₂满足预定位置关系，则执行步骤3150；否则，将执行步骤3200。例如在图6B下部的图像I中，因为与用户U的手掌的皮肤区域A所对应的整个皮肤区域2D边界框B₃、和用户U的面部的皮肤区域A所对应的部分皮肤区域2D边界框B₃都在2D边界框B₂中，而判断皮肤区域A所对应的皮肤区域2D边界框B₃与2D边界框B₂满足预定位置关系，因此将执行步骤3150。

在步骤3200中，人(即用户U)被确定为不处于躺姿。在一些实施例中，在该人体躺姿检测方法中，可以增加一个时间窗来过滤掉无效的结果，以实现更准确、更具鲁棒性的检测。例如在获取时间窗口内的多个相邻帧(即图像I)、且所有图像I中的用户U都被确定为处于躺姿后，确定用户U处于躺姿。需要说明的是，时间窗的大小可以根据实际需要(例如使用环境)来定义。

在一些实施例中，基于骨骼的姿势检测也可以用于该人体躺姿检测方法中。当能够检测到足够多的关键点时，可以提供更准确的躺姿检测，并且可以进一步提供更全面的人体姿态检测(例如除了检测用户U的躺姿之外，还可提供人体姿态检测、以检测用户U的站姿和坐姿)。图7A是在图3的人体躺姿检测方法中使用基于骨骼的姿势检测的例子的流程图；图7A的人体躺姿检测方法中对应于躺着的人的基于骨骼的姿势检测的结果的示意图；图7C是图7A的人体躺姿检测方法中对应于坐着的人的基于骨骼的姿势检测的结果的示意图。步骤3211和步骤3212的用于进行基于骨骼的姿势检测可以在确定图像I中存在人(步骤3130)之后被执行。

因此，在步骤3211中，识别人(即用户U)身体上的关键点P以获取人的估计骨骼B上的关键点P的位置。在图7B的上部的图像I中，由于在图像I中显示了躺下的用户U的整个身体，获取用户U的整个身体的估计骨骼B上的关键点P的位置。在图7B的下部的图像I中，由于躺下的用户U只有身体的一部分(即头部、颈部、躯干的一部分、两条手臂和两只手)，而且被图像I中所示的被子Q覆盖，只获取了用户U的身体的该部分的估计骨骼B上的关键点P的位置。在图7C的图像I中，由于坐着的用户U的整个身体显示在图像I，可以获取用户U的整个身体的估计骨骼B上的关键点P的位置。在步骤3212中，判断人(即用户U)的身体的上部的倾斜角度θ(例如图7B的上部的图像I中的角度θ₁和图7C的图像I中的角度θ₂)是否大于预定角度。身体的上半部分可以是躯干。预设角度(例如60°)是用户U处于躺姿时身体的上部的最小倾斜角度θ。用户U的身体的上部的倾斜角度θ是根据人体估计骨骼B上关键点P的位置来确定的。例如基于对应于身体的颈部和臀部的关键点P的位置来估计身体的上部的轴X(例如图7B的上部的图像I中的轴X₁和图7C的图像I中的轴X₂)，并取X轴与相机C的坐标系的z轴的夹角为倾角θ。若判断用户U的身体的上部的倾斜角度θ大于预定角度，则执行步骤3150；否则，将执行步骤3160或步骤3200。例如在预定角度为60°的情况下，在图7B上部的图像I中，由于身体的上部的角度θ₁大于60°，将执行步骤3150；由于身体的上部的角度θ₂(与相机C的坐标系的z轴重叠，为0°)小于60°，因此执行步骤3160。

该人体躺姿检测方法结合了家具和人体皮肤的检测，能够在识别出的关键点不够的情况下检测用户U的躺姿。该人体躺姿检测方法可以实时地实现，只需要很少的计算资源，而且因为只需要一个深度相机、而非多个传感器来进行检测，因此经济高效。在移动机器100为助行机器人的情况下，可实现该人体躺姿检测方法以检测用户U的躺姿、并据以选择合适的方式与用户U进行交互。举例来说，当用户U是老人、而且被侦测到躺在床上时，移动机器100在提供进一步的协助之前可以先要求用户U坐起来。

本领域技术人员可以理解，上述实施例中的方法的全部或部分可以通过一或多个计算机程序来指示相关硬件而实现。此外，一个或多个程序可以存储在非暂时性计算机可读存储介质中。当执行一个或多个程序时，执行上述实施例中对应的方法的全部或部分。对存储、存储器、数据库或其他介质的任何引用可以包括非暂时性和/或暂时性存储器。非暂时性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、固态驱动器(SSD)等。易失性存储器可以包括随机存取存储器(RAM)、外部高速缓存存储器等。

处理单元110(和上述处理器)可以包括中央处理单元(CPU)，或者是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)，或者是其他可编程逻辑器件、分立门、晶体管逻辑器件和分立硬件组件。通用处理器可以是微处理器，可以是任何常规处理器。存储单元120(以及上述存储器)可以包括诸如硬盘和内部存储器的内部存储单元。存储单元120还可以包括外部存储设备，例如插入式硬盘、智能媒体卡(SMC)、安全数字(SD)卡和闪存卡。

实施例中描述的示例性单元/模块和方法/步骤可以通过软件、硬件或者软件和硬件的结合来实现。这些功能究竟是通过软件实现还是通过硬件实现，取决于技术方案的具体应用和设计约束。上述的人体躺姿检测方法及移动机器100可以通过其他方式实现。例如单元/模块的划分仅仅是逻辑上的功能划分，实际实现中还可以采用其他划分方式，即可以将多个单元/模块组合或集成到另一个系统中，或者某些特征可以被忽略或不执行。此外，上述相互耦合/连接可以是直接耦合/连接或通信连接，也可以是通过一些接口/设备的间接耦合/连接或通信连接，还可以是电气、机械或其他形式。

上述实施例仅用于说明本发明的技术方案，并不用于限制本发明的技术方案。虽然本发明已经结合上述实施例进行了详细说明，但是上述各个实施例中的技术方案仍然可以进行修改，或者部分技术特征可以等效替换，从而使这些修改或替换没有使相应技术方案的实质脱离本发明各实施例的技术方案的精神和范围，均应包含在本发明保护的范围之内。

Claims

1.一种人体躺姿检测方法，包括：

通过深度相机获取至少一图像；

2.如权利要求1所述的方法，其中检测该图像中的该一或多个皮肤区域、并生成该一或多个皮肤区域2D边界框以分别标记各该皮肤区域，还包括：对该图像内的所有像素进行基于纹理的分割，以获取一或多个纹理片段；对该一或多个纹理片段进行基于区域的分割，以获取一或多个置信片段；通过增长该一或多个置信片段来获取该一或多个皮肤区域；以及

使用该皮肤检测算法生成该一或多个皮肤区域2D边界框以分别标记各该皮肤区域。

3.如权利要求1所述的方法，其中该预定位置关系包括对应于所有该一或多个皮肤区域的各该皮肤区域2D边界框的至少一部分在该床所对应的该2D边界框内。

4.如权利要求1所述的方法，其中该人的该2D边界框的该宽度由该人所对应的该2D边界框在水平方向上的一个特征向量表示，该人的该2D边界框的该高度由该人所对应的该2D边界框在垂直方向上的另一个特征向量表示。

5.如权利要求1所述的方法，在确定该人处于该躺姿之前，还包括：

响应于该图像中的其中一个该物体被检测为人，而识别该人的身体上的多个关键点，从而在该人的估计骨骼上获取该些关键点的位置；

基于该些关键点在该估计骨骼上的该位置来确定该人的该身体的上部的倾斜角度；

响应于该人的该身体的该上半部的该倾斜角度大于预定角度，而确定该人处于该躺姿；以及

响应于该人的该身体的上半部的该倾斜角度不大于该预定角度，若该人所对应的该2D边界框的该宽度和该高度满足该预定条件，则确定该人处于该躺姿。

6.如权利要求1所述的方法，还包括：

响应于该图像中没有物体被检测为该床、没有检测到该一或多个皮肤区域、或对应于该一或多个皮肤区域的各该皮肤区域2D边界框与该床所对应的该2D边界框未满足该预定位置关系，而判断该人未处于该躺姿。

7.根据权利要求1所述的方法，其中该床是床架、沙发、长凳和吊床中的一种。

8.一种移动机器，包括：

深度相机；

一或多个处理器；以及

通过该深度相机获取至少一图像；

响应于该图像中的一个该物体未被检测为人，若该人所对应的该2D边界框的宽度和高度不满足该预定条件、且该图像中的另一个该物体被检测为床，则使用皮肤检测算法来检测该图像中的一或多个皮肤区域、并生成以一或多个皮肤区域2D边界框以分别标记各该皮肤区域；以及

9.如权利要求8所述的移动机器，其中检测该图像中的该一或多个皮肤区域、并生成该一或多个皮肤区域2D边界框以分别标记各该皮肤区域，还包括：

对该图像内的所有像素进行基于纹理的分割，以获取一或多个纹理片段；

对该一或多个纹理片段进行基于区域的分割，以获取一或多个置信片段；

通过增长该一或多个置信片段来获取该一或多个皮肤区域；以及

10.如权利要求8所述的移动机器，其中该预定位置关系包括对应于所有该一或多个皮肤区域的各该皮肤区域2D边界框的至少一部分在该床所对应的该2D边界框内。