CN117557633A

CN117557633A - 清洁方法、清洁展示方法、清洁设备及可读存储介质

Info

Publication number: CN117557633A
Application number: CN202311342297.5A
Authority: CN
Inventors: 张天亮; 高跃超; 朱文轩; 竺浩; 宋昱慧
Original assignee: Shenzhen 3irobotix Co Ltd
Current assignee: Shenzhen 3irobotix Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-13

Abstract

本申请公开一种清洁方法、清洁展示方法、清洁设备及非易失性计算机可读存储介质。清洁方法应用于清洁设备，清洁设备包括视觉传感器，视觉传感器配置为采集场景图像，方法包括基于预设的关键点识别模型，识别场景图像中的目标对象的二维关键点；基于预设的关键点映射模型，将二维关键点映射为三维关键点，三维关键点为视觉传感器的相机坐标系下的第一三维坐标；基于相机坐标系和清洁设备的世界坐标系的标定参数，将第一三维坐标转换第二三维坐标；根据第二三维坐标，确定目标对象的指向位置，并移动到指向位置，以对指向位置对应的待清洁区域进行清洁，使清洁设备准确地识别出指向位置，从而使得清洁设备实现指哪扫哪功能，准确地满足用户需求。

Description

清洁方法、清洁展示方法、清洁设备及可读存储介质

技术领域

本申请涉及清洁技术领域，更具体而言，涉及一种清洁方法、清洁展示方法、清洁设备及非易失性计算机可读存储介质。

背景技术

目前，清洁设备在执行清洁工作时，大都是基于对清洁场景的全局建图后形成预定路径进行工作的，此时清洁设备可通过视觉传感器获取清洁场景的信息来设计出清扫路线进行工作。然而，清洁设备只能够按照预定轨迹前进当用户需要对特定的区域进行清洁时，清洁设备无法根据用户的需求进行清扫，只能在按照预设路径移动到特定的区域时，才能对其进行清洁，从而导致清洁设备无法准确地满足用户需求。

发明内容

本申请实施方式提供一种清洁方法、清洁展示方法、清洁设备和非易失性计算机可读存储介质。

本申请实施方式的清洁方法应用于清洁设备，所述清洁设备包括视觉传感器，所述视觉传感器配置成采集场景图像，所述方法包括：基于预设的关键点识别模型，识别所述场景图像中的目标对象的二维关键点；基于预设的关键点映射模型，将所述二维关键点映射为三维关键点，所述三维关键点为所述视觉传感器的相机坐标系下的第一三维坐标；基于所述相机坐标系和所述清洁设备的世界坐标系的标定参数，将所述第一三维坐标转换成第二三维坐标；根据所述第二三维坐标，确定所述目标对象的指向位置，并移动到所述指向位置，以对所述指向位置对应的待清洁区域进行清洁。

在某些实施方式中，所述二维关键点至少包括2个，所述指向位置为2个所述二维关键点的连线在地面的交点，2个所述二维关键点位于所述目标对象的目标部位。

在某些实施方式中，所述关键点映射模型的生成方法包括获取训练集，所述训练集包括第一训练样本和第二训练样本，所述第一训练样本包括第一训练图像的二维关键点、及标签信息，所述标签信息包括所述第一训练图像的二维关键点对应的三维关键点，所述第二训练样本包括第二训练图像的二维关键点；根据所述训练集训练预设的神经网络模型，以得到训练至收敛的所述关键点映射模型；所述第一训练样本和所述第二训练样本均包括多个，多个所述第一训练样本至少对应多个不同姿态的目标对象，多个所述第二训练样本至少对应多个不同姿态的目标对象。

在某些实施方式中，所述根据所述训练集训练预设的神经网络模型，以得到训练至收敛的所述关键点映射模型，包括：根据所述第一训练图像的所述标签信息，及所述神经网络模型根据所述第一训练图像的二维关键点生成的第一训练三维关键点，计算第一损失值；获取所述神经网络模型根据所述第二训练图像的二维关键点生成的第二训练三维关键点，并根据所述摄像头视觉传感器的内参将所述第二训练三维关键点映射为训练二维关键点；根据所述训练二维关键点和所述第二训练图像的二维关键点，计算第二损失值；根据所述第一损失值、所述第二损失值，调整所述神经网络模型的模型参数，直至所述神经网络模型收敛，以得到训练至收敛的所述关键点映射模型。

在某些实施方式中，所述清洁方法还包括：根据第一训练三维关键点确定第一预测身高及身体各个部位的第一预测尺寸，并根据所述第一预测尺寸和所述第一预测身高对应的第一预设尺寸，计算第三损失值；根据第二训练三维关键点确定第二预测身高及身体各个部位的第二预测尺寸，并根据所述第二预测尺寸和所述第二预测身高对应的第二预设尺寸，计算第四损失值；所述根据所述第一损失值、所述第二损失值，调整所述神经网络模型的模型参数，直至所述神经网络模型收敛，以得到训练至收敛的所述关键点映射模型，包括：根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值，调整所述神经网络模型的模型参数，直至所述神经网络模型收敛，以得到训练至收敛的所述关键点映射模型。

在某些实施方式中，所述获取训练集，包括获取预设的开源数据集，所述开源数据集包括多个不同视角的样本图像的二维关键点、采集所述样本图像的视觉传感器的外参、及所述样本图像的二维关键点对应的世界坐标；对所述样本图像对应的外参进行处理，以生成与所述清洁设备适配的外参；根据与所述清洁设备适配的外参对所述样本图像的世界坐标系坐标进行转换，以得到所述清洁设备视角下，所述样本图像的二维关键点对应的三维关键点；根据所述样本图像的二维关键点对应的三维关键点和所述清洁设备的内参，生成所述清洁设备视角下所述样本图像的二维关键点；根据所述清洁设备视角下，所述样本图像的二维关键点对应的三维关键点和所述清洁设备视角下所述样本图像的二维关键点，生成所述第一训练样本。

在某些实施方式中，所述清洁方法还包括在所述指向位置和所述目标对象的位置之间的距离大于预设阈值的情况下，发出提示信息，以提示所述目标对象向待清洁位置移动，并重新指向所述待清洁位置；在所述目标对象移动完成后，重新进入所述基于预设的关键点识别模型，识别所述场景图像中的目标对象的二维关键点的步骤。

本申请实施方式的清洁展示方法包括获取目标对象在清洁设备的世界坐标系中的三维坐标及所述清洁设备的位置信息；在场景图像对应的三维地图中，根据所述三维坐标显示所述目标对象的当前位置信息及所述目标对象的指向位置，并根据所述位置信息显示所述清洁设备的当前位置信息。

本申请实施方式的清洁设备包括处理器、存储器及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的清洁方法的指令。

本申请实施方式的非易失性计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一实施方式所述的清洁方法和清洁展示方法。

本申请实施方式的清洁方法、清洁展示方法、清洁设备和计算机可读存储介质，在目标对象需要指向待清洁区域的情况下，清洁设备可利用视觉传感器采集包含目标对象的场景图像，并基于预设的关键点识别模型，来识别场景图像中的目标对象的二维关键点，以便于确定目标对象在场景图像中的位置和姿态。然后，再基于预设的关键点映射模型，将二维关键点转化为视觉传感器的相机坐标系下的第一三维坐标，从而获取二维关键点对应的深度信息，完成二维关键点和三维坐标之间的转换。紧接着，基于相机坐标系和清洁设备的世界坐标系的标定参数，将第一三维坐标转化为清洁设备的世界坐标系下的第二三维坐标，可以理解第二三维坐标能够反应二维关键点在真实场景下对应的三维位置。然后根据第二三维坐标，能够确定目标用户的位置和姿态，从而确定指向位置(如指向位置为经过任意两个不同的第二三维坐标的直线在地面的交点)，指向位置即为目标对象指定需要清洁的待清洁位置。最后，控制清洁设备移动到指向位置对应的待清洁区域进行清洁。如此，在拍摄到目标对象指向待清洁位置的场景图像后，清洁设备可利用关键点识别模型和对应的坐标转化，准确地识别出指向位置在世界坐标系下的三维坐标，并准确地移动到指向位置进行打扫，从而使得清洁设备实现指哪扫哪功能，准确地满足用户需求。

本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的清洁方法的应用场景示意图；

图2是本申请某些实施方式的清洁方法的流程示意图；

图3是本申请某些实施方式的清洁方法的场景示意图；

图4是本申请某些实施方式的清洁方法的场景示意图；

图5是本申请某些实施方式的清洁方法的流程示意图；

图6是本申请某些实施方式的清洁方法的流程示意图；

图7是本申请某些实施方式的清洁方法的流程示意图；

图8是本申请某些实施方式的清洁方法的流程示意图；

图9是本申请某些实施方式的清洁方法的场景示意图；

图10是本申请某些实施方式的清洁方法的流程示意图；

图11是本申请某些实施方式的清洁展示方法的流程示意图；

图12是本申请某些实施方式的非易失性计算机可读存储介质和处理器的连接状态示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

为方便理解本申请，下面对本申请出现的名词进行解释：

自移动机器人：自动执行工作的机器装置。它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动。

扫地机器人就是自移动机器人的一种。扫地机器人，又称自动打扫机、智能吸尘、机器人吸尘器等，是智能家电的一种，能凭借人工智能，自动在房间内完成地板清理工作。一般采用刷扫和真空方式，将地面杂物先吸纳进入自身的垃圾收纳盒，从而完成地面清理的功能。一般来说，将完成清扫、吸尘、擦地工作的机器人，统一归为扫地机器人。

本申请的自移动机器人可以是扫地机器人、也可以是自主移动机器人(AutomaticMobile Robot，AMR)等等，为了简洁，本申请以自移动机器人为扫地机器人为例进行说明，自移动机器人为其他类型的机器人的原理类似，在此不再赘述。

目标对象在临时起意需要对特定的区域进行打扫时，传统的清洁设备只能按照预设的清洁路径进行清洁，清洁设备不能按照目标对象的意愿对特定的区域进行清洁，从而导致清洁设备无法准确地满足用户需求。

为解决上述技术问题，本申请实施例提供一种清洁方法。

下面先对本申请的技术方案的一种应用场景进行介绍，如图1所示，本申请提供的清洁方法，可以应用于如图1所示的应用场景中。该清洁方法应用于清洁系统1000中，该清洁系统1000包括扫地机器人和基站200。

本申请的清洁设备100可仅包括扫地机器人，或者清洁设备100包括扫地机器人和基站200(或者称集尘站)，清洁设备100和基站200之间可以通过网络进行连接，以确定对端的当前状态(例如，电量状态、工作状态、位置信息等)。为了简洁，本申请以清洁设备100为扫地机器人为例进行说明。

其中，扫地机器人包括视觉传感器10、雷达传感器20、处理器30、存储器40和机身50；处理器30分别与视觉传感器10和雷达传感器20通过网络进行通信，视觉传感器10、雷达传感器20和处理器30设置在机身50上。

视觉传感器10配置为采集场景图像。例如视觉传感器10可为摄像头；摄像头可以是可见光摄像头(Red-Green-Blue，RGB)、可见光深度摄像头(Red-Green-Blue-Depth，RGBD)、红外摄像头、热成像摄像头、深度摄像头等，RGB摄像头和RGBD摄像头可采集场景的可见光图像，红外摄像头可采集场景的红外图像，热成像摄像头可采集场景的热成像图像，深度摄像头可采集深度图像。

可选地，视觉传感器10包括一个或多个。视觉传感器10可设置在机身50的侧壁，如视觉传感器10设置在扫地机器人的正前方向，以采集扫地机器人正前方的场景图像，或者视觉传感器10设置在扫地机器人的两侧，以获取扫地机器人前进过程中两侧的场景图像。

雷达传感器20用于采集场景中的物体的点云信息。雷达传感器20可以是激光雷达(Laser Direct Structuring，LDS)，如基于飞行时间雷达(Time of Flight，TOF)原理的TOF雷达、基于结构光原理结构光雷达等。

雷达传感器20设置在扫地机器人的顶壁。雷达传感器20可凸出顶壁设置，或者雷达传感器20可设置在机身50内，不凸出于机身50，也即是说，雷达传感器20的高度可低于顶壁的高度。

清洁设备100在接收到语音召唤信息的情况下，通过处理器30获取包含目标对象M(如图3(a)所示)的场景图像。处理器30基于预设的关键点识别模型，确定场景图像中，目标对象M的二维关键点。然后处理器30基于预设的关键点映射模型，将二维关键点映射为三维关键点，三维关键点为视觉传感器10的相机坐标系下的第一三维坐标；并基于相机坐标系和扫地机器人的世界坐标系的标定参数，将第一三维坐标转换第二三维坐标；再根据第二三维坐标，确定目标对象M的指向位置P(如图4所示)，从而控制清洁设备100移动到指向位置P，以对指向位置P对应的待清洁区域S1(如图4所示)进行清洁。

在一个实施例中，扫地机器人还包括存储器40，存储器40用于存储视觉传感器10拍摄的场景图像，以及二维关键点、第一三维坐标、第二三维坐标和指向位置P。

在一个实施例中，清洁系统1000还包括服务器400，服务器400和清洁设备100通过网络进行通信；服务器400用于接收扫地机器人或基站200发送的视觉传感器10采集的场景图像，获取二维关键点，然后依次确定第一三维坐标和第二三维坐标，最后再根据第二三维坐标来确定指向位置P，从而控制清洁设备100移动到指向位置P，以对指向位置P对应的待清洁区域S1进行清洁。

在一个实施例中，服务器400可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例对此不做限制。

基站200可包括显示屏201，基站200能够与扫地机器人进行通信，来获取扫地机器人传输的数据，并可以利用基站200的处理能力，来对数据进行处理，从而实现扫地机器人的控制(如控制扫地机器人移动到指向位置P进行清洁)，扫地机器人的相关内容的显示等功能。

在一个实施例中，所述系统还包括终端300，终端300包括显示器301。终端300能够与扫地机器人进行通信，从而获取扫地机器人传输的数据，并可以利用终端300的处理能力，来对数据进行处理，从而实现扫地机器人的控制(如控制扫地机器人移动到指向位置P进行清洁)，扫地机器人的相关内容的显示等功能。

在一个实施例中，终端300可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。

例如，基站200的显示屏201和终端300的显示器301中至少一个，可对扫地机器人传输的目标对象M在扫地机器人的世界坐标系中的三维坐标及扫地机器人的位置信息进行处理，以确定扫地机器人、目标对象M及指向位置P在地图中的位置，然后实时显示扫地机器人在地图中的当前位置信息、目标对象M的当前位置信息以及目标对象M的指向位置P等。再例如，对扫地机器人传输的状态信息进行处理，以确定扫地机器人的当前状态，然后实时显示扫地机器人当前状态。

在一个实施例中，扫地机器人、基站200、终端300和服务器400之间均通过网络进行通信，如扫地机器人、基站200、终端300和服务器400任意两者之间可通过无线方式通信(如无线局域网(Wireless Fidelity，wifi)通信、蓝牙通信、红外通信等)。可以理解，扫地机器人、基站200、终端300和服务器400之间的通信并不限于上述通信方式，对此不作限制。

如通过wifi通信时，扫地机器人和基站200分别与云端服务器400通信，然后由云端服务器400实现扫地机器人和基站200(或终端300)的通信；如通过蓝牙通信或红外通信时，扫地机器人和基站200(或终端300)各自设置有对应的通信模块，以直接实现两者之间的通信。

在一个实施例中，清洁方法可以通过扫地机器人与基站200、终端300和服务器400三者中至少一者实现。如通过扫地机器人与基站200、终端300和服务器400实现，或者，通过扫地机器人和基站200配合实现，或者扫地机器人和终端300配合实现等。

请参阅图1、图2及图4，本申请实施方式的清洁方法应用于清洁设备100，清洁设备100包括视觉传感器10，视觉传感器10用于采集场景图像，方法包括：

步骤011：基于预设的关键点识别模型，识别场景图像中的目标对象M的二维关键点；

具体地，清洁设备100在接收到语音召唤信息、并且目标对象M做出指向需要清洁的位置的情况下，处理器30能够控制视觉传感器10对目标对象M进行拍摄，从而清洁设备100能够生成包含目标对象M的场景图像，并存储在存储器40中。

例如，目标对象M在发现需要清洁的区域时，通过发出语音召唤信息，如“这里需要打扫”、“开始打扫”等，并且目标对象M的手指指向需要清洁的位置的情况下，处理器30能够控制清洁设备100的机身50上安装的视觉传感器10对目标对象M进行拍摄，从而生成包含目标对象M的场景图像，并将场景图像存储在存储器40中。

预设的关键点识别模型应用了二维关键点检测技术，可对图像进行二维关键点识别，其中二维关键点为图像的像素坐标系或图像坐标系下的二维坐标。在获取到场景图像后，处理器30可基于关键点识别模型，识别场景图形中的目标对象M的二维关键点，以便于确定目标对象M在场景图像中的位置和姿态。

二维关键点至少包括两个，且2个二维关键点位于目标对象M的同一个目标部位上，以使得处理器30可根据同一个目标部位上的2个二维关键点确定指向位置P。其中，目标部位可为手部、头部或腿部，目标部位至少要有两个二维关键点位于场景图像中。当目标对象M使用手部指向待清洁位置时，目标部位为手部，此时二维关键点可为肩膀关键点M3、肘部关键点或手部关键点M2。当目标对象M使用头部指向待清洁位置时，目标部位为头部，二维关键点可为下巴关键点和额头关键点。当目标对象M使用腿部指向待清洁位置时，目标部位为腿部，二维关键点可为脚部关键点和膝盖关键点。例如，图3(a)中目标对象M身上的点即为根据目标对象M识别出的二维关键点。

为了清楚描述本申请的清洁方法，下面以目标部位为手部为例进行阐述。手臂关键点M1可为手臂上任一位置的关键点，例如肘部关键点，手部关键点M2可为手上任意位置的关键点，例如指尖关键点。可以理解，处理器30可根据手臂和手部的位置确定目标对象M的指向方向，接着处理器30便可根据指向方向来确定指向位置P。因此处理器30在获取到视觉传感器10拍摄生成的场景图像后，可识别场景图像中的目标对象M抬起的手臂对应的手臂关键点M1和手部关键点M2，从而确定二维关键点。特别地，处理器30可规定目标对象M抬起的手臂为左手臂还是右手臂，以便于二维关键点的识别。同时，为了便于清洁设备100的推理，处理器30可规定目标对象M在指向待清洁位置时手臂伸直，用手臂所在直线代替手指所指的方向。

处理器30也可根据肩膀和手部的位置确定目标对象M的指向方向。因此处理器30在获取到视觉传感器10拍摄生成的场景图像后，可识别场景图像中的目标对象M抬起的手臂对应的肩膀关键点M3和手部关键点M2，从而确定二维关键点。

当然，二维关键点的数量可为多个，例如根据手臂关键点M1、手部关键点M2和肩膀关键点M3确定二维关键点。但是二维关键点的数量至少为两个，且其中一个为手部关键点M2，这样处理器30才能够根据至少两个二维关键点确定目标对象M的指向方向，从而确定指向位置P。

步骤012：基于预设的关键点映射模型，将二维关键点映射为三维关键点，三维关键点为视觉传感器10的相机坐标系下的第一三维坐标；

具体地，二维关键点无法反应出目标对象M在真实场景下的三维坐标。且深度信息的确实会导致视觉传感器10获取目标对象M的位置和姿态产生极大的误差，例如，目标对象M与清洁设备100距离为1.7米和2.5米时分别都指向自身右前方1米处，这两张情况下目标对象M在相机中的姿态几乎是相同的，如此处理器30便无法准确地判断指向位置P。

预设的关键点映射模型可根据二维关键点，获取二维关键点在视觉传感器10的相机坐标系下的深度信息，从而将二维关键点转化为三维关键点。因此，在获取目标对象M的二维关键点后，处理器30可根据关键点映射模型和二维关键点获取目标对象M在相机坐标系下的深度信息，以获取二维关键点在相机坐标系下的三维坐标，从而减少了处理器30对目标对象M的姿态估计的误差，便于后续根据三维关键点准确地判断指向位置P。例如，图3(b)中目标对象M身上的点即为映射后的三维关键点。

步骤013：基于相机坐标系和清洁设备100的世界坐标系的标定参数，将第一三维坐标转换成第二三维坐标；

具体地，清洁设备100的世界坐标系为三维世界坐标系，用以描述三维空间中物体的绝对坐标，其中的原点可根据使用情况来设置，清洁设备100的世界坐标系可根据真实的清洁场景建立，如此清洁设备100在工作时可明确自己处于清洁场景中的哪个位置，以便于清洁工作的进行。相机坐标系则是视觉传感器10在自己角度上的坐标系，原点在视觉传感器10的光心上。

可以理解，在相机坐标系下的第一三维坐标并不一定能够表示二维关键点在清洁场景中的三维位置，此时需要将第一三维坐标转换成清洁设备100的世界坐标系下的坐标。相机坐标系和世界坐标系的转换需要根据标定参数，例如视觉传感器10在世界坐标系中的外参，如旋转矩阵和平移矩阵来完成。处理器30可获取相机坐标系和世界坐标系转换时对应的标定参数，以将第一三维坐标转换为第二三维坐标，从而确定二维关键点在清洁场景下的三维位置，进而确定目标对象M的位置和姿态。例如，图4中的目标对象M由各个关键点组成，此时处理器30可获取每个关键点的第二三维坐标，从而确定目标对象M在清洁场景下的位置和姿态。

步骤014：根据第二三维坐标，确定目标对象M的指向位置P，并移动到指向位置P，以对指向位置P对应的待清洁区域S1进行清洁。

具体地，处理器30在确定每个二维关键点对应的第二三维坐标后，便可根据至少两个第二三维坐标来确定目标对象M的指向位置P，其中指向位置P为2个二维关键点的连线在地面的交点，例如图4将目标对象M的2个第二三维坐标点的连线(即图4中的虚线)与地面的交点作为指向位置P。

在确定指向位置P之后，处理器30能够规划出从清洁设备100的当前位置到指向位置P的路径，从而处理器30能够控制清洁设备100移动到指向位置P，并对指向位置P对应的待清洁区域S1进行清洁，进而实现局部精确清扫，提高清洁功能的准确性和便利性。其中待清洁区域S1可以是以指向位置P为圆心的圆形区域、或者待清洁区域S1可以是以指向位置P为对称中心的矩形区域。

例如，世界坐标系包括相互垂直的第一坐标轴X、第二坐标轴Y和第三坐标轴Z，第一坐标轴X轴可为垂直于目标对象M与视觉传感器10所在直线的轴，第二坐标轴Y轴可为平行于目标对象M与视觉传感器10所在直线的轴，第三坐标轴Z垂直地面。第一坐标轴X和第二坐标轴Y形成的平面一般与地面重合。

处理器30在根据预设的关键点映射模型及相机坐标系和世界坐标系的标定参数，将手臂关键点M1和手部关键点M2转换为对应的第二三维坐标后，可根据手臂关键点M1对应的第二三维坐标和手部关键点M2对应的第二三维坐标的连线(例如图4中的虚线)，确定目标对象M的指向方向，可以理解，该连线与地面的交点即为指向位置P。处理器30可提取出手臂关键点M1坐标M₁[X₁,Y₁,Z₁]与手部关键点M2坐标M₂[X₂,Y₂,Z₂]，因此处理器30需要求得的指向地面的坐标即为M₁与M₂的连线与地面的交点P[X₀,Y₀,0]。如此，处理器30可将目标对象M的手臂从场景图像中的平面直线，转换为立体空间下的直线，从而实现根据两个关键点的第二三维坐标准确地确定指向位置P。

本申请实施方式的清洁方法在目标对象M需要指向待清洁区域S1的情况下，清洁设备100可利用视觉传感器10采集包含目标对象M的场景图像，并基于预设的关键点识别模型，来识别场景图像中的目标对象M的二维关键点，以便于确定目标对象M在场景图像中的位置和姿态。然后，再基于预设的关键点映射模型，将二维关键点转化为视觉传感器10的相机坐标系下的第一三维坐标，从而获取二维关键点对应的深度信息，完成二维关键点和三维坐标之间的转换。紧接着，基于相机坐标系和清洁设备100的世界坐标系的标定参数，将第一三维坐标转化为清洁设备100的世界坐标系下的第二三维坐标，可以理解第二三维坐标能够反应二维关键点在真实场景下对应的三维位置。然后根据第二三维坐标，能够确定目标用户的位置和姿态，从而确定指向位置P(如指向位置P为经过任意两个不同的第二三维坐标的直线在地面的交点)，指向位置P即为目标对象M指定需要清洁的待清洁位置。最后，控制清洁设备100移动到指向位置P对应的待清洁区域S1进行清洁。如此，在拍摄到目标对象M指向待清洁位置的场景图像后，清洁设备100可利用关键点识别模型和对应的坐标转化，准确地识别出指向位置P在世界坐标系下的三维坐标，并准确地移动到指向位置P进行打扫，从而使得清洁设备100实现指哪扫哪功能，准确地满足用户需求。

请参阅图1、图4及图5，在某些实施方式中，关键点映射模型的生成方法包括：

步骤015：获取训练集，训练集包括第一训练样本和第二训练样本，第一训练样本包括第一训练图像的二维关键点、及标签信息，标签信息包括第一训练图像的二维关键点对应的三维关键点，第二训练样本包括第二训练图像的二维关键点；

步骤016：根据训练集训练预设的神经网络模型，以得到训练至收敛的关键点映射模型。

具体地，处理器30在使用关键点映射模型之前，还需要获取关键点映射模型，而关键点映射模型需要根据预设的神经网络模型和训练集训练得到。

处理器30还需要获取训练集，其中训练集包括第一训练样本和第二训练样本。第一训练样本包括第一训练图像的二维关键点和标签信息，其中标签信息包括第一训练图像的二维关键点对应的三维关键点。第二训练样本包括第二训练图像的二维关键点。可以理解，第一训练样本为已标注数据(即已经有对应的标签信息)，而第二训练样本为未标注数据。

然后，处理器30根据训练集训练预设的神经网络模型，以得到训练至收敛的关键点映射模型。例如将训练集输入到神经网络模型中，然后根据神经网络模型的输出值和对应的参考值来调整神经网络模型的模型参数。

处理器30在根据第一训练样本进行训练时，由于第一训练样本包括标签信息，在神经网络模型根据第一训练图像的二维关键点，输出第一训练图像对应的三维关键点后，处理器30可根据标签信息和神经网络模型输出的三维关键点来进行比较，以调整神经网络模型的模型参数，该过程可称为全监督训练策略。处理器30在根据第二训练样本进行训练时，由于第二训练样本没有包括标签信息，只有第二训练图像的二维关键点，在神经网络模型输出第二训练图像对应的三维关键点后，处理器30还需要将三维关键点转换为二维关键点，然后与第二训练图像的二维关键点进行比较，从而对神经网络模型的模型参数进行调整，该过程可称为半监督训练策略。

在不断的训练和调整下，处理器30可得到训练至收敛的神经网络模型，即训练至收敛的关键点映射模型，如此便可确保关键点映射模型能够准确地将二维关键点映射成三维关键点。需要说明的是，神经网络模型的网络结构可由一个基于时序卷积的全卷积层神经网络模型(backbone)与共享权重的检测头组成。

此外，第一训练样本和第二训练样本均包括多个，多个第一训练样本至少对应多个不同姿态(正对、侧对等)的目标对象M，多个第二训练样本至少对应多个不同姿态(正对、侧对等)的目标对象M。如此，才可保证训练得到的关键点映射模型在目标对象M为不同的姿态下，都能准确地将二维关键点映射成三维关键点。

请参阅图1、图4及图6，在某些实施方式中，步骤016：根据训练集训练预设的神经网络模型，以得到训练至收敛的关键点映射模型，包括：

步骤0161：根据第一训练图像的标签信息，及神经网络模型根据第一训练图像的二维关键点生成的第一训练三维关键点，计算第一损失值；

步骤0162：获取神经网络模型根据第二训练图像的二维关键点生成的第二训练三维关键点，并根据视觉传感器10的内参将第二训练三维关键点映射为训练二维关键点；

步骤0163：根据训练二维关键点和第二训练图像的二维关键点，计算第二损失值；

步骤0164：根据第一损失值、第二损失值，调整神经网络模型的模型参数，直至神经网络模型收敛，以得到训练至收敛的关键点映射模型。

具体地，由于对清洁设备100视角下的数据进行大量标注，重制数据集的资源消耗量过大，处理器30可将第二训练集更换为清洁设备100视角下的二维关键点。处理器30可采取半监督的训练策略，对于未标注的数据(即第二训练集)，处理器30会将根据二维关键点生成的第二训练三维关键点重新映射回二维维度，并与初始的二维关键点进行比较并计算损失值。如此，通过这种训练策略(即半监督训练策略)，处理器30能够在无标注的情况下适应清洁设备100视角下的目标对象M的姿态投影，获得估计清洁设备100视角下的目标对象M的姿态的能力。

对于已标注的数据(即第二训练集)，在对神经模型进行训练的过程中，处理器30可将第一训练图像的二维关键点输入到神经网络模型中，以生成第一训练三维关键点。然后处理器30可根据第一训练图像的标签信息和第一训练三维关键点来计算第一损失值，以根据第一损失值确定神经网络模型的映射准确度。

处理器30也可将第二训练图像的二维关键点输入到神经网络模型中，以生成第二训练三维关键点。此时由于第二训练集中并标签信息，处理器30无法根据第二训练三维关键点来确定处理器30对第二训练图像的二维关键点的映射准确度。因此，处理器30还会根据视觉传感器10的内参(即视觉传感器10的内参)，将第二训练三维关键点映射为训练二维关键点。此时，处理器30便可根据训练二维关键点和第二训练图像的二维关键点来计算第二损失值，以根据第二损失值确定神经网络模型的映射准确度。

然后处理器30可根据第一损失值和第二损失值不断地调整神经网络模型的模型参数。当第一损失值和第二损失值都小于预设损失值阈值的情况下，处理器30可判断神经网络模型收敛，此时训练至收敛的神经网络模型便可确认为关键点映射模型。如此，便可确保关键点映射模型的映射准确度。

请参阅图1、图4及图7，在某些实施方式中，清洁方法还包括：

步骤017：根据第一训练三维关键点确定第一预测身高及身体各个部位的第一预测尺寸，并根据第一预测尺寸和第一预测身高对应的第一预设尺寸，计算第三损失值；

步骤018：根据第二训练三维关键点确定第二预测身高及身体各个部位的第二预测尺寸，并根据第二预测尺寸和第二预测身高对应的第二预设尺寸，计算第四损失值；

步骤0164：根据第一损失值、第二损失值，调整神经网络模型的模型参数，直至神经网络模型收敛，以得到训练至收敛的关键点映射模型，包括：

步骤01641：根据第一损失值、第二损失值、第三损失值和第四损失值，调整神经网络模型的模型参数，直至神经网络模型收敛，以得到训练至收敛的关键点映射模型。

具体地，处理器30可根据三维关键点确定目标对象M的预测身高以及目标对象M的各个预测尺寸。在同一身高下，目标对象M的各个身体部位的真实尺寸都有对应的合理范围，此时可根据合理范围来确定每个部位对应的预设尺寸。一旦预测尺寸和预设尺寸的差距较大，则代表此时得到的三维关键点的准确度较低。例如，处理器30根据目标对象M的第一训练三维关键点来预测目标对象M的身高，并根据手臂对应的第一训练三维关键点来预测目标对象M的手臂长度，然后再获取该预测身高对应的预设手臂长度。若预测的手臂长度和预设手臂长度之间的差距较大，则代表三维关键点的准确度较低。

因此处理器30可根据第一训练三维关键点来确定目标对象M的第一预测身高及身体各个部位的第一预测尺寸。然后处理器30再获取第一预测身高对应的各个身体部位的第一预设尺寸。接着处理器30可根据同一身体部位的第一预设尺寸和第一预测尺寸来计算第三损失值，以便于根据第三损失值来确定第一训练三维关键点的合理性，从而确定神经网络模型的映射准确度。

类似的，处理器30可根据第二训练三维关键点来确定目标对象M的第二预测身高及身体各个部位的第二预测尺寸。然后处理器30再获取第二预测身高对应的各个身体部位的第二预设尺寸。接着处理器30可根据同一身体部位的第二预设尺寸和第二预测尺寸来计算第四损失值，以便于根据第四损失值来确定第二训练三维关键点的合理性，从而确定神经网络模型的映射准确度。

然后处理器30可根据第一损失值、第二损失值、第三损失值和第四损失值不断地调整神经网络模型的模型参数。当第一损失值、第二损失值、第三损失值和第四损失值都小于预设损失值阈值的情况下，处理器30可判断神经网络模型收敛，此时训练至收敛的神经网络模型便可确认为关键点映射模型。如此，处理器可将骨长因素加入到训练模型的训练当中，以进一步提高关键点映射模型的映射准确度。

请参阅图1、图4及图8，在某些实施方式中，步骤015：获取训练集，包括：

步骤0151：获取预设的开源数据集，开源数据集包括多个不同视角的样本图像、采集样本图像的视觉传感器10的外参、及样本图像的二维关键点对应的世界坐标；

步骤0152：对样本图像对应的外参进行处理，以生成与清洁设备100适配的外参；

步骤0153：根据与清洁设备100适配的外参对样本图像的世界坐标系坐标进行转换，以得到清洁设备100视角下样本图像的二维关键点对应的三维关键点；

步骤0154：根据样本图像的二维关键点对应的三维关键点和清洁设备100的内参，生成清洁设备100视角下样本图像的二维关键点；

步骤0155：根据清洁设备100视角下样本图像的二维关键点对应的三维关键点和清洁设备100视角下样本图像的二维关键点，生成第一训练样本。

具体地，处理器30可根据开源数据集来对神经网络模型进行训练。处理器30可从开源数据集中选取合适的开源数据集(即预设的开源数据集)，预设的开源数据集包括多个不同视角的样本图像的二维关键点、采集样本图像的视觉传感器10的外参及样本图像的二维关键点对应的世界坐标。

开源数据集中包括多种外参不同的视觉传感器10对应的样本图像的二维关键点，而外参的作用是确定相机坐标与世界坐标系之间相对位置关系。因此此时还需要对样本图像对应的外参进行处理，以生成与清洁设备100适配的外参，使得神经网络模型提前适应了清洁设备100视角下的关键点信息，从而使得关键点映射模型在清洁设备100视角场景中能够获得更高的性能，提高关键点映射模型的映射准确度。

请结合图9，例如，外参包括旋转矩阵和平移矩阵，处理器30可根据样本图像对应的旋转矩阵R，样本图像对应的清洁设备相对于地面的俯仰角及清洁设备100的俯仰角，得到清洁设备100适配的新的旋转矩阵R′。处理器可根据样本图像对应的平移矩阵，和清洁设备100与地面的距离，得到与清洁设备100适配的新的平移矩阵。

接着，处理器30可根据与清洁设备100适配的外参对样本图像的世界坐标系坐标进行转换，以得到清洁设备100视角下，样本图像的二维关键点对应的三维关键点，即将样本图像的世界坐标系下的三维关键点转换为位于清洁设备100的世界坐标系下的三维关键点。例如，对于样本图像的世界坐标系下的坐标，代入对应的坐标转换公式，便得到了样本图像的世界坐标系下的三维关键点在清洁设备100的世界坐标系下对应的坐标。

然后，处理器30根据清洁设备100视角下，样本图像的二维关键点对应的三维关键点和清洁设备100的内参，带入对应的转换公式，生成清洁设备100视角下样本图像的二维关键点，即利用内参将三维关键点转换为对应的二维关键点。最后，处理器30便可根据清洁设备100视角下，样本图像的二维关键点对应的三维关键点和清洁设备100视角下样本图像的二维关键点，生成第一训练样本。

如此，处理器30可将开源数据集中的样本图像的二维关键点，转换为清洁设备100视角下对应的二维关键点和三维关键点，并生成第一训练样本，以一方面增加第一训练样本的数量，提高训练次数，从而提高神经网络模型的训练效果，另一方面确保第一训练样本与清洁设备100适配，从而进一步提高神经网络模型的训练效果，进而确保关键点映射模型的映射准确度。

请参阅图1、图4及图10，在某些实施方式中，清洁方法还包括：

步骤019：在指向位置P和目标对象M的位置之间的距离大于预设阈值的情况下，发出提示信息，以提示目标对象M向待清洁位置移动，并重新指向待清洁位置。

在目标对象M移动完成后，重新进入基于预设的关键点识别模型，识别场景图像中的目标对象M的二维关键点的步骤。

具体地，指向位置P和目标对象M的位置之间的距离过远，可能会导致目标对象M的手部关键点M2无法被拍摄进场景图像内，使得处理器30难以准确地判断目标对象M的姿态，从而导致指向位置P的识别准确度较低。其中，目标对象M的位置可根据三维关键点确定，或者也可根据雷达传感器20获取目标对象M的点云信息，以根据点云信息确定。

预设阈值为指向位置P和目标对象M的位置之间的距离上限值，一旦指向位置P和目标对象M的位置之间的距离大于预设阈值，就代表处理器30无法准确地确定指定位置的第二三维坐标。目标对象M可在靠近待清洁位置或调整面向角度后再控制清洁设备100进行清洁。例如，预设阈值为2米。同时，处理器30还可限制目标对象M的姿态，如限制手臂与指向位置P的面向角度，例如限制指向位置P在目标对象M的右前方0-90°以内，以便于初步确认指向位置P所处的范围。

在指向位置P和目标对象M的位置之间的距离大于预设阈值的情况下，处理器30可发出提示信息，例如语音播报“距离过远，请靠近待清洁位置”，以提醒目标对象M向待清洁位置移动，并重新指向待清洁位置，从而减少目标对象M和待清洁位置之间的距离。

在目标对象M移动完成或者调整完姿态后，目标对象M可以通过发出语音召唤信息，如“这里需要打扫”、“开始打扫”等，来使得处理器30获取目标对象M移动完成或调整完成的信息。此时处理器30可再次控制视觉传感器10采集场景图像，并重新进入基于预设的关键点识别模型，识别场景图像中的目标对象M的二维关键点的步骤，从而计算指向位置P在世界坐标系下的第二三维坐标。

如此，处理器30可在指向位置P和目标对象M的位置之间的距离过远的情况下，提醒目标对象M靠近待清洁位置，以将场景图像中目标对象M与指向位置P之间的距离减少至预设阈值或预设阈值以下，确保处理器30能够准确地判断目标对象M的姿态，从而确保指向位置P的识别准确度。

请参阅图1及图4，在某些实施方式中，处理器30还可调整清洁设备100的位姿，以使清洁设备100和目标对象M之间的距离位于预设距离范围，位于预设距离范围内的目标对象M的手臂关键点M1和手部关键点M2位于场景图像内。

具体地，由于清洁设备100对目标对象M的角度为仰视视角，当目标对象M指向较远位置时，处理器30很难对目标对象M的姿态进行准确判断，导致处理器30的推理难度过大，产生较大误差。预设距离范围为清洁设备100和目标对象M的位置之间的距离上限值，一旦清洁设备100和目标对象M的位置之间的距离大于预设阈值，就代表处理器30无法准确地确定指定位置的第二三维坐标。

处理器30在控制视觉传感器10获取场景图像之前，可调整清洁设备100的位姿，使得清洁设备100和目标对象M之间的距离位于预设范围内，且位于预设距离范围内的目标对象M的手臂关键点M1和手部关键点M2都位于场景图像内，以确保能够处理器30能够根据手臂关键点M1和手部关键点M2准确地识别出指向位置P的第二三维坐标。

请参阅图1、图4及图11，本申请实施方式中的清洁展示方法包括：

步骤031：获取目标对象M在清洁设备100的世界坐标系中的三维坐标及清洁设备100的位置信息；

步骤032：在场景图像对应的三维地图中，根据三维坐标显示目标对象M的当前位置信息及目标对象M的指向位置P，并根据位置信息显示清洁设备100的当前位置信息。

具体地，清洁展示方法的执行主体是与清洁设备100对应的非易失性计算机可读存储介质，非易失性计算机可读存储介质可以设置在终端300，也可以设置在基站200；如非易失性计算机可读存储介质为安装在终端300或基站200的应用程序等。

例如，非易失性计算机可读存储介质运行在基站200，以实现清洁展示方法时，清洁设备100能够将目标对象M在清洁设备100的世界坐标系中的三维坐标及清洁设备100的位置信息传输给基站200，基站200对信息进行处理后，能够在基站200的显示屏中展示场景图像对应的三维地图中，并在三维地图中，根据三维坐标显示目标对象M的当前位置信息(即目标对象M的位置和姿态)及目标对象M的指向位置P，并根据位置信息显示清洁设备100的当前位置信息(即清洁设备100的位置和姿态)。

再例如，非易失性计算机可读存储介质运行在终端300，以实现清洁展示方法时，清洁设备100能够目标对象M在清洁设备100的世界坐标系中的三维坐标及清洁设备100的位置信息(即目标对象M的位置和姿态)上传到服务器400，然后由终端300从服务器400获取信息，以展示场景图像对应的三维地图，并在三维地图中，根据三维坐标显示目标对象M的位置和姿态及目标对象M的指向位置P，并根据位置信息显示清洁设备100的位置和姿态。

具体地，清洁设备100设置有无线通信模块，能够与目标对象M的终端300进行无线通信(如通过蓝牙通信、wifi通信等)，目标对象M可通过终端300显示屏对清洁设备100进行清洁展示。

根据清洁设备100的当前位姿信息，能够在目标对象M的终端300显示屏上显示场景图像对应的三维地图，并在三维地图中，根据三维坐标显示目标对象M的当前位置信息及目标对象M的指向位置P，并根据位置信息显示清洁设备100的当前位置信息。

例如，清洁设备100能够与目标对象M的智能手机进行蓝牙通信，目标对象M能够在智能手机的显示屏上看到清洁设备100在三维地图中的当前位置；在清洁设备100接收到语音召唤信息后，在智能手机的显示屏上能够显示清洁设备100当前所在的位置以及清洁设备100的姿态(如清洁设备100的姿态可以是清洁设备100的正前方与目标对象M相对、清洁设备100的正前方与目标对象M偏差)、目标对象M的位置和姿态，以及目标对象M的指向位置P。

如此，通过在显示屏上实时更新并显示清洁设备100在地图中的当前位置及姿态、以及清洁设备100的视觉传感器10中的目标对象M的当前位置和姿态，以及目标对象M的指向位置P，目标对象M能够通过显示屏清楚地了解清洁设备100和指向位置P的位置，清洁设备100的姿态和清洁设备100与目标对象M的相对位置，从而使得目标对象M可以更加直观地操作清洁设备100进行准确清扫，并提升目标对象M与清洁设备100的交互性。

可选地，显示清洁设备100在待清洁区域S1进行清洁时的实时清洁路径，待清洁区域S1根据指向位置P确定。处理器30通过目标对象M指向位置P能够确定待清洁区域S1，并且在控制清洁设备100移动到需要清洁的待清洁区域S1后，与清洁设备100进行通信的终端300显示屏上能够显示清洁设备100在待清洁区域S1移动的规划清洁路径，以及在进行清洁时的实时清洁路径。

例如，处理器30通过对目标对象M指向位置P进行识别，能够确定待清洁区域S1为以声源对象为对称中心的矩形区域，并且在智能手机的显示屏上显示清洁设备100在矩形区域的规划清洁路径(如规划清洁路径为弓字型)。在清洁设备100沿规划清洁路径开始进行清洁时，智能手机的显示屏上能够显示清洁设备100的实时清洁路径，即用户能够看到清洁设备100已经清洁的区域。

如此，通过在显示屏上显示清洁设备100在待清洁区域S1清洁时的实时清洁路径，能够让用户清楚地知道清洁设备100清洁的进度。

请再次参阅图1，本申请实施方式的清洁设备100包括处理器30、存储器40及计算机程序41，其中，计算机程序41被存储在存储器40中，并且被处理器30执行，计算机程序41包括用于执行上述任一实施方式的清洁方法的指令，为了简洁，在此不在赘述。

请参阅图12，本申请实施方式的非易失性计算机可读存储介质500包括计算机程序510，计算机程序510处理器30执行的情况下，实现上述任一实施方式的清洁方法和清洁展示方法，为了简洁，在此不在赘述。

在本说明书的描述中，参考术语“某些实施方式”、“一个例子中”、“示例地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种清洁方法，其特征在于，应用于清洁设备，所述清洁设备包括视觉传感器，所述视觉传感器配置成采集场景图像，所述方法包括：

基于预设的关键点识别模型，识别所述场景图像中的目标对象的二维关键点；

基于预设的关键点映射模型，将所述二维关键点映射为三维关键点，所述三维关键点为所述视觉传感器的相机坐标系下的第一三维坐标；

基于所述相机坐标系和所述清洁设备的世界坐标系的标定参数，将所述第一三维坐标转换成第二三维坐标；

根据所述第二三维坐标，确定所述目标对象的指向位置，并移动到所述指向位置，以对所述指向位置对应的待清洁区域进行清洁。

2.根据权利要求1所述的清洁方法，其特征在于，所述二维关键点至少包括2个，所述指向位置为2个所述二维关键点的连线在地面的交点，2个所述二维关键点位于所述目标对象的目标部位。

3.根据权利要求1所述的清洁方法，其特征在于，所述关键点映射模型的生成方法包括：

获取训练集，所述训练集包括第一训练样本和第二训练样本，所述第一训练样本包括第一训练图像的二维关键点、及标签信息，所述标签信息包括所述第一训练图像的二维关键点对应的三维关键点，所述第二训练样本包括第二训练图像的二维关键点；

根据所述训练集训练预设的神经网络模型，以得到训练至收敛的所述关键点映射模型；所述第一训练样本和所述第二训练样本均包括多个，多个所述第一训练样本至少对应多个不同姿态的目标对象，多个所述第二训练样本至少对应多个不同姿态的目标对象。

4.根据权利要求3所述的清洁方法，其特征在于，所述根据所述训练集训练预设的神经网络模型，以得到训练至收敛的所述关键点映射模型，包括：

根据所述第一训练图像的所述标签信息，及所述神经网络模型根据所述第一训练图像的二维关键点生成的第一训练三维关键点，计算第一损失值；

获取所述神经网络模型根据所述第二训练图像的二维关键点生成的第二训练三维关键点，并根据所述视觉传感器的内参将所述第二训练三维关键点映射为训练二维关键点；

根据所述训练二维关键点和所述第二训练图像的二维关键点，计算第二损失值；

根据所述第一损失值、所述第二损失值，调整所述神经网络模型的模型参数，直至所述神经网络模型收敛，以得到训练至收敛的所述关键点映射模型。

5.根据权利要求4所述的清洁方法，其特征在于，还包括：

根据第一训练三维关键点确定第一预测身高及身体各个部位的第一预测尺寸，并根据所述第一预测尺寸和所述第一预测身高对应的第一预设尺寸，计算第三损失值；

根据第二训练三维关键点确定第二预测身高及身体各个部位的第二预测尺寸，并根据所述第二预测尺寸和所述第二预测身高对应的第二预设尺寸，计算第四损失值；

所述根据所述第一损失值、所述第二损失值，调整所述神经网络模型的模型参数，直至所述神经网络模型收敛，以得到训练至收敛的所述关键点映射模型，包括：

根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值，调整所述神经网络模型的模型参数，直至所述神经网络模型收敛，以得到训练至收敛的所述关键点映射模型。

6.根据权利要求3所述的清洁方法，其特征在于，所述获取训练集，包括：

获取预设的开源数据集，所述开源数据集包括多个不同视角的样本图像的二维关键点、采集所述样本图像的视觉传感器的外参、及所述样本图像的二维关键点对应的世界坐标；

对所述样本图像对应的外参进行处理，以生成与所述清洁设备适配的外参；

根据与所述清洁设备适配的外参对所述样本图像的世界坐标系坐标进行转换，以得到所述清洁设备视角下，所述样本图像的二维关键点对应的三维关键点；

根据所述样本图像的二维关键点对应的三维关键点和所述清洁设备的内参，生成所述清洁设备视角下所述样本图像的二维关键点；

根据所述清洁设备视角下，所述样本图像的二维关键点对应的三维关键点和所述清洁设备视角下所述样本图像的二维关键点，生成所述第一训练样本。

7.根据权利要求1所述的清洁方法，其特征在于，还包括：

在所述指向位置和所述目标对象的位置之间的距离大于预设阈值的情况下，发出提示信息，以提示所述目标对象向待清洁位置移动，并重新指向所述待清洁位置；

在所述目标对象移动完成后，重新进入所述基于预设的关键点识别模型，识别所述场景图像中的目标对象的二维关键点的步骤。

8.一种清洁展示方法，其特征在于，包括：

获取目标对象在清洁设备的世界坐标系中的三维坐标及所述清洁设备的位置信息；

在场景图像对应的三维地图中，根据所述三维坐标显示所述目标对象的当前位置信息及所述目标对象的指向位置，并根据所述位置信息显示所述清洁设备的当前位置信息。

9.一种清洁设备，其特征在于，包括：

处理器、存储器；及

计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行权利要求1至7任意一项所述的清洁方法的指令。

10.一种包含计算机程序的非易失性计算机可读存储介质，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1-7任意一项所述的清洁方法及权利要求8所述的清洁展示方法。