CN116228867A

CN116228867A - 位姿确定方法、装置、电子设备、介质

Info

Publication number: CN116228867A
Application number: CN202310269233.0A
Authority: CN
Inventors: 刘豪杰; 李丰果; 陈睿智; 赵晨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-06
Anticipated expiration: 2043-03-15
Also published as: CN116228867B

Abstract

本公开提供了一种位姿确定方法、装置、电子设备和介质，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、数字人等场景。位姿确定方法可以包括获得关于目标人体的第一图像帧；至少部分地基于所述第一图像帧，确定所述目标人体的第一位姿数据；确定第一人体状态，所述第一人体状态表示在所述第一图像帧中所述目标人体的足部是否接触地面；至少部分地基于所述第一人体状态确定第一平滑参数；以及基于所述第一平滑参数对所述第一位姿数据进行平滑，以获得经平滑的第一位姿数据。

Description

位姿确定方法、装置、电子设备、介质

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、数字人等场景，具体涉及一种位姿确定方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

在计算机视觉、关键点识别、动态捕捉等技术中，抖动问题一直是业界的关键性问题。所确定的位姿中存在的抖动会非常影响实时动态捕捉的效果。希望获得一种更为有效的位姿确定方法。

发明内容

本公开提供了一种位姿确定方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种位姿确定方法，包括：获得关于目标人体的第一图像帧；至少部分地基于所述第一图像帧，确定所述目标人体的第一位姿数据；确定第一人体状态，所述第一人体状态表示在所述第一图像帧中所述目标人体的足部是否接触地面；至少部分地基于所述第一人体状态确定第一平滑参数；以及基于所述第一平滑参数对所述第一位姿数据进行平滑，以获得经平滑的第一位姿数据。

根据本公开的另一方面，提供了一种位姿确定装置，包括：图像帧获得单元，用于获得关于目标人体的第一图像帧；位姿数据确定单元，用于至少部分地基于所述第一图像帧，确定所述目标人体的第一位姿数据；人体状态确定单元，用于确定第一人体状态，所述第一人体状态表示在所述第一图像帧中所述目标人体的足部是否接触地面；平滑参数确定单元，用于至少部分地基于所述第一人体状态确定第一平滑参数；以及平滑单元，用于基于所述第一平滑参数对所述第一位姿数据进行平滑，以获得经平滑的第一位姿数据。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据本公开的一个或多个实施例的位姿确定方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开的一个或多个实施例的位姿确定方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据本公开的一个或多个实施例的位姿确定方法。

根据本公开的一个或多个实施例，可以基于触地信息语义调整平滑参数，从而获得更好的平滑效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图2示出了根据本公开的实施例的位姿确定方法的流程图；

图3示出了根据本公开的示例性实施例的数据流的示意图；

图4示出了根据本公开的示例性实施例的触地状态检测的网络结构图；

图5示出了根据本公开的示例性实施例的滤波模块的网络结构示意图；

图6示出了根据本公开的实施例的位姿确定装置的结构框图；

图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行根据本公开的位姿确定方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供其他服务或软件应用，这些服务或软件应用可以包括非虚拟环境和虚拟环境。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来确定位姿等。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统，例如MICROSOFT Windows、APPLE iOS、类UNIX操作系统、Linux或类Linux操作系统(例如GOOGLE Chrome OS)；或包括各种移动操作系统，例如MICROSOFT WindowsMobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器(诸如智能眼镜)和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、区块链网络、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。

在一些实施方式中，服务器120可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。

系统100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据库130可以驻留在各种位置。例如，由服务器120使用的数据库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库130可以是不同的类型。在某些实施例中，由服务器120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

下面参考图2描述根据本公开的示例性实施例的位姿确定方法200。

在步骤S201处，获得关于目标人体的第一图像帧。

在步骤S202处，至少部分地基于所述第一图像帧，确定所述目标人体的第一位姿数据。

在步骤S203处，确定第一人体状态，所述第一人体状态表示在所述第一图像帧中所述目标人体的足部是否接触地面。

在步骤S204处，至少部分地基于所述第一人体状态确定第一平滑参数。

在步骤S205处，基于所述第一平滑参数对所述第一位姿数据进行平滑，以获得经平滑的第一位姿数据。

根据本公开的实施例所述的方法，能够基于触地信息语义调整平滑参数，从而获得更好的平滑效果。

具体地，根据本公开的实施例，增加了“足部触地”的先验知识。例如，在足部触地和不触地的情况下，抖动状态可能是不同的，因而可以应用不同的平滑参数。因此，基于语义知识调整平滑参数能够获得更好的平滑效果。

根据一些实施例，至少部分地基于第一图像帧，确定所述目标人体的第一位姿数据包括：基于所述第一图像帧以及所述第一图像帧之前的至少一个图像帧确定所述目标人体的第一位姿数据。

在这样的示例中，可以基于先前帧来确定当前帧的位姿数据，使得位姿数据能够反应动态知识，从而更加准确。

根据一些实施例，确定第一人体状态包括基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态。

在这样的示例中，可以通过识别足部关键点，来确定第一人体状态。

例如，足部关键点可以被包括在“第一位姿数据”中。例如，第一位姿数据可以包括关键点位置和关节角度等，并且在这样的示例中，确定第一人体触地状态包括基于所述第一位姿数据确定所述第一人体触地状态，并且其中，所述第一位姿数据包括所述第一人体的至少两个足部关键点的关键点位置。

根据一些实施例，基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态包括：响应于确定所述目标人体的所述至少两个足部关键点的关键点位置均与地面接触，将所述第一人体状态确定为触地状态；以及响应于确定所述目标人体的所述至少两个足部关键点中的至少一个足部关键点的关键点位置未与地面接触，将所述第一人体状态确定为未触地状态。

在这样的示例中，可以在当全部关键点触地时，才认为人体状态是平稳触地状态，而如果有一个关键点未触地，则认为人体未触地(例如，未平稳触地)，并且因此可能会有较大移动，因而与触地时应用不同的平滑策略。

例如，每个足部可以有多于一个的关键点，例如脚掌、脚跟、多个脚趾等，以更精确识别足部位置。在这样的示例中，可以当全部关键点触地时，才认为人体状态是平稳触地状态。

根据一些实施例，所述第一平滑参数至少包括第一平滑窗口尺寸D，所述第一平滑窗口尺寸表示用于对所述第一位姿数据进行平滑的图像帧的数量，D为正整数，并且其中，基于所述第一平滑参数对所述第一位姿数据进行平滑包括：响应于确定D大于1，获得所述第一图像帧之前的(D-1)个在先图像帧的相应的(D-1)个位姿数据；以及基于所述(D-1)个位姿数据对所述第一位姿数据进行平滑以获得经平滑的第一位姿数据。

在这样的示例中，可以在当人体触地时，由此认为人体的波动较小，因而使用更大的平滑窗口，利用先验语义作为辅助，获得更好的平滑效果，消除抖动。

作为一个更具体的非限制性示例，可以仅对下半身应用平滑窗口T，而对上半身应用不同的平滑参数(更小的平滑窗口)等。例如，可以为每个确定的关键点和关节进行标注，以指示其属于“上半身”还是“下半身”，并且对下半身的关键点、关节等应用改变的(例如，较大的)平滑窗口尺寸，并且对上半身的关键点、关节等应用例如恒定的较小窗口尺寸等。

根据一些实施例，至少部分地基于所述第一人体状态确定第一平滑参数包括：基于所述第一人体状态和第二图像帧的第二人体状态确定所述第一平滑参数，其中，所述第二图像帧紧接在所述第一图像帧之前，所述第二人体状态表示所述第二图像帧中所述目标人体的足部是否接触地面。

在这样的示例中，可以不仅考虑当前帧的触地状态，还考虑前一帧的触地状态，以获得更丰富的先验语义。

根据一些实施例，基于所述第一人体状态和第二图像帧的第二人体状态确定所述第一平滑参数包括：响应于确定所述第一人体状态是触地状态，获得连续触地帧数，所述连续触地帧数表示直至所述第二图像帧为止连续保持触地状态的图像帧的数量；通过将所述连续触地帧数递增1，获得经更新的连续触地帧数；以及响应于确定所述经更新的连续触地帧数状态满足第一阈值，确定所述第一平滑参数，所述第一平滑参数对应于所述第一阈值。

在这样的示例中，可以基于连续触地帧数来确定平滑参数。由此，可以在刚从未触地到触地时，应用较小的平滑参数，在一直触地时，应用较大的平滑参数，以实现更好的消除抖动效果。

根据一些实施例，方法200还可以包括：获得关于目标人体的第三图像帧，所述第三图像帧晚于所述第一图像帧；至少部分地基于第三图像帧，确定所述目标人体的第三位姿数据；确定第三人体状态，所述第三人体状态表示在所述第三图像帧中所述目标人体的足部是否接触地面；至少部分地基于所述第三人体状态确定第二平滑参数；以及基于所述第二平滑参数对所述第三位姿数据进行平滑，以获得经平滑的第三位姿数据。在这样的实施例中，至少部分地基于所述第三人体状态确定第二平滑参数包括：更新连续触地帧数，使得经更新的连续触地帧数表示直至所述第三图像帧为止连续保持触地状态的图像帧的数量；以及响应于所述经更新的连续触地帧数满足第二阈值，确定所述第二平滑参数，所述第二平滑参数对应于所述第二阈值，其中所述第二阈值大于所述第一阈值，并且所述第二平滑状态指示比所述第一平滑状态更大的平滑度。

示例性地，可以有多个不同的平滑“档位”。作为一个具体的非限制性示例，可以在满足连续3帧触地时，将窗口调整为3，并且随后每增加一帧，窗口增加1，直至连续16帧为止，使用最大的T＝16的平滑窗口以达到最好的平滑效果。

根据一些实施例，基于所述第一人体状态和第二图像帧的第二人体状态确定当前平滑状态包括：响应于确定所述第二人体状态是触地状态并且所述第一人体状态是非触地状态，将所述当前平滑状态确定为第三平滑状态。

在这样的示例中，可以一旦进入非触地状态，即改变平滑参数，以使得能够反应人体下肢的移动而不会过度平滑。示例性地，还可以在进入非触地状态时，将连续触地帧数置零。

根据本公开的一个或多个实施例，可以引入触地检测模块，并且基于触地检测模块的结果选择利用多少平滑窗口，从而能够利用语义实现更好的平滑。

在动态捕捉技术中，抖动问题一直是业界的关键性问题，非常影响实时动态捕捉的效果。一般而言，滤波总是面临着延时和抖动的权衡。尤其是，传统滤波器仅能在抖动和延迟两者取平衡，滤波效果一般，没有语义信息的辅助先验信息。根据本公开的实施例，提出了一种基于触地信息语义的数据平滑滤波，在解决抖动问题的并可以达到相对实时的状态，使动态捕捉效果非常的平稳和流畅。

根据本公开的一个或多个实施例，提出了一种基于语义信息的深度学习滤波系统架构。在该系统架构中，将语义信息与深度学习滤波方法相结合，并且改进数据窗口的利用方式，能够实现抖动较小的实时动捕结果。

本公开的实施例阐述的基于触地信息语义的数据平滑滤波可以主要包括人体位姿感知操作和触地预测操作。对于人体位姿感知操作，随着深度学习的发展，基于采集图像获取的人体的关节位姿数据的方法很多(HRNET、VIBE、SPIN、TCMR等)，并且本公开可以采用开源的人体位姿感知，而跟据本公开的实施例的基于触地信息语义的数据平滑可以应用于不同的人体位姿感知模块后面。

下面结合图3描述根据本公开的示例性实施例的数据流的示意图300。参考图3，输入310可以是图像帧或者图像帧序列，经过人体位姿感知模块301，获得位姿数据(例如，第一位姿数据)320，其例如可以包括关键点坐标、关节角度等。之后，例如基于所获得的关键点，通过触地检测模块302进行触地预测。

关于触地预测，脚部的运动状态可以提升单目动捕的整体表现力，这里将具体介绍如何实现触地状态。其中关于脚部的运动对于整体的表现非常重要。根据一些实施例，滤波算法可以依赖脚部的接地状态进行优化关节数据。

示例性地，训练数据可以来自采集的视频。使用原始像素训练跟据本公开的实施例的触地检测模型对实际的场景没有很好的泛化能力，深度学习网络很难学习起来比较困难，很难学习到图像到脚部状态的映射关系。因此，本公开提出了基于人体关节点的触地状态预测网络，进行感知脚部的运动状态。在人体位姿感知模块中往往都可以得到人体的2d和3d关节位置。本公开的实施例提出一套基于人体关节点的触地状态检测网络，进行感知脚部的运动状态，提升单目动捕的整体表现力。

在下文中，将主要分为三个部分来论述该示例性实施例的技术方案：1)训练和评估数据集的构建和预处理；2)触地预测网络的搭建；和3)网络的训练损失

1)训练和评估数据集的构建和预处理

相关技术中，并没有开源可用的带有地面接触注释的现有数据集。因此本公开通过采集了视频(例如，约6万的数据量级)，构建新数据集。根据本公开的实施例，设计了一种半自动方法来获取真实的标签。根据本公开的实施例，在所有视频上运行人体关节点检测器，以提取脚上的2D/3D关键点(左脚和右脚)。根据本公开的实施例，通过测量两个连续帧之间2d、3d的距离，并且与一定的阈值进行比较，来确定每个关键点的地面接触状态。由此，可以获得真实(ground truth)数据。基于这样的ground truth数据，可以进行手动筛选和过滤。例如，在约6万的数据量级上，最终获取了大约5万帧的训练集和大约1万帧的验证集。为了更好的表示脚部的状态，根据本公开的实施例，可以对每只脚进行建模，使得每个脚为6个关节点组成：脚踝(1)、脚趾(2)、脚掌(1)和脚跟(2)。在这样的示例中，网络的输入可以是单目动捕感知的三维模型投影的32个关节点(smpl的24关节点-2*2+2*按照跟据本公开的实施例的脚部建模的6个关节点)。可以理解的是，以上数字仅为示例，并且本公开不限于此。例如，可以为每个脚设置更多、更少或位置不同的关节点，并且由此，网络输入的维度也会因此改变。

2)触地预测网络的搭建

可以使用原始像素训练跟据本公开的实施例的触地检测模型302。示例性地，为了进一步提升对实际的场景的泛化能力和减轻深度学习网络的学习难度，根据本公开的实施例，可以选择人体关节点特征作为触地检测模型302的输入。因相邻帧提供了一定的先验信息，根据示例性实施例，可以使用多帧数据作为输出的策略。

参考图4描述根据本公开的示例形式示例的触地状态检测网络结构示意图。如图4所示，本公开提出了一种时间卷积网络400。通过输出前4帧和当前连续帧的人体关节位置预测当前帧的触地状态，这样的方式可以应用于实时的任务，因为动捕任务大部分对实时性要求较高。示例性地，输入410可以是B×W×K×C张量，其中B是训练的批量，W是窗口大小，K是人体关键点数，C是关节点的维数。作为一个具体的非限制性示例，B可以是128，W可以是5，K可以是32，C可以是2。网络可以包括四个类似的块，其中每个块包括填充(pad)层(411、421、431、441)、卷积层(412、422、432、442，其可以例如是conv1d)、批量归一化(bn)层(413、423、433、443)、激活(例如，relu)层(414、424、434、444)和暂退(dropout)层(415、425、435、445)。作为一个示例，时间卷积层412、422、432、442的内核大小可以相等，例如都是3。网络400还可以包括额外的卷积层451、激活层452和全连接层453。由此，能够输出足部状态460。卷积层451的内核可以设置为窗口的大小，以将大小减少到1。输出可以例如是四维的向量，代表左脚前、左脚后、右脚前、右脚后的脚部的触地状态。或者，输出可以是更多维或者更少维，并且本公开不限于此。可以将输出经过sigmoid单元，然后阈值分割映射到二进制的状态表示。可以理解的是，以上模块数量和参数大小仅为示例，并且本公开不限于此。

3)网络的训练损失

本公开采用了广泛使用的多分类的交叉熵损失来对跟据本公开的实施例的神经网络进行训练。通过计算预测值和标签值的损失，进行迭代训练。作为一个示例，跟据本公开的实施例的触地检测网络，在优化器采用了Adam优化和训练约使用300epoch的情况下，在GTX1060显卡上花费约2个小时。

返回参考图3，其中还示出了语义滤波模块303。下面在以下三个方面对语义滤波模块进行描述：1)基于数据驱动的深度学习滤波；2)改进数据窗口的利用方式；以及3)针对下半身抖动问题，基于触地信息语义进行滤波，消除下半身抖动。

1)基于数据驱动的深度学习滤波

传统滤波器都需要仔细调校滤波强度，而过强的不可避免地会造成输出结果的滞后，在一些对实时性要求高的场景下不够适用。

本申请提出了一种基于深度学习的解决方法，可以用一个非常轻量的神经网络(smoothnet)来代替传统滤波器，而且最难能可贵的一点在于，这个模型与输入端的耦合度非常低，可以任意地插入到崭新的姿态估计模型、数据集、模态信息中。

参考图5，其中示出了滤波模块的网络结构示意图。网络500可以包括全连接(fc)层511和泄漏激活(Leaky Relu)层512。随后，网络500可以包括N个块构成的模块520，其例如可以包括全连接层(521-1，……521-N)、暂退(dropout)层(522-1，……522-N)和泄露激活层(523-1，……523-N)。网络500还可以包括全连接层531。如图所示，输入可以是T(窗口大小)帧的数据，每帧的数据维度为C，经过滤波网络算法之后最后得到平滑后的数据维度和输入一致。该模块里的窗口大小T可调，例如一般可以是16/32等，在实际在线使用的时候，可以选为3，也即延后三帧输出。根据一些实施例，触地预测的窗口和语义滤波模块的窗口无关，并且是否触地不影响此处的窗口T大小，仅影响如下文所述的整合模块中参与的窗口数。根据其他实施例，可以根据是否触地来调节语义滤波模块的参数(例如，窗口T)，也即，“平滑参数”可以包括语义滤波模块的一个或多个参数。可以理解的是，本公开不限于此。

可以理解的是，虽然上文参考滤波网络smoothnet进行了描述，但是也可以采用其他网络，并且由此弥补了传统滤波的能够消除高频信息但可能难以消除低频信息的缺陷。

2)改进数据窗口的利用方式

离线动捕中由于离线下可以获取所有的时间窗口结果，在离线动捕情况下接入会效果非常稳且无延迟，但是实时动捕中下仅能获取到1个时间窗口结果，实际中，由于动捕的帧率为30+帧，为了降低动作延迟和达到平滑的效果，滤波算法通过改进多窗口的数据进行平滑，利用约3个窗口的平滑结果，提升了整体的稳定性和流畅度，如果允许在动作延后的情况下，可达到在线动捕实现离线的平滑效果。

3)基于触地信息语义进行滤波，消除下半身抖动

针对下半身抖动问题，基于触地信息语义进行滤波，消除下半身抖动，当触地网络给出了触地的信息，因此就得到了先验信息，例如当双脚触地时，下半身不应该有抖动。本公开利用触地信息的意义进行动态调整本公开利用平滑数据的窗口大小，进而当触地时，消除下半身抖动。

根据本公开的一个或多个实施例，提出了一种基于触地信息语义的数据平滑滤波，在解决抖动问题的并可以达到实时的状态，跟据本公开的实施例的滤波方法使动捕效果非常的平稳和流畅。根据本公开的一个或多个实施例，还提出了一种触地信息的获取方法流程。

根据本公开的一个或多个实施例的方法不仅适用于触地信息语义的场景，而且适用于目前能提取语义的场景。

根据本公开的一个或多个实施例，最终输出可以是位姿数据，例如人体关节角度(每个关节相对于x、y、z轴的旋转角)和关键点数据(每个关键点的x、y、z坐标)，例如在存在m个关节和n个关键点的情况下，是3m+3n的数据维度。触地预测模块的输入可以是感知出的关键点的2D、3D点。触地预测模块的输出可以是四个值，分别代表左右脚的前脚和后脚，例如接地为1，漂浮为0。语义滤波模块的输入可以是关节角度或者关键点或两者。

示例性地，可以设置额外的整合模块(未示出)，触地预测结果输入到整合模块。整合模块可以基于触地预测结果判断何时开始触发和结束触发，例如连续16帧触地时触发，并且在出现一个不触地帧时结束触发。触发后，对于下半身数据，使用更多的语义滤波模块的窗口进行平滑，对于上半身数据无影响。例如，触发后可以逐渐增加平滑窗口(例如，平滑窗口尺寸D))，从一开始的三个窗口逐渐增加至最大窗口数量，并且在不触地后马上改为3。在这样的情况下，能够利用语义信息，实现像离线平滑一样的大窗口平滑效果。

现在参考图6描述根据本公开的实施例的位姿确定装置600。位姿确定装置600可以包括图像帧获得单元601、位姿数据确定单元602、人体状态确定单元603、平滑参数确定单元604和平滑单元605。图像帧获得单元601可以用于获得关于目标人体的第一图像帧。位姿数据确定单元602可以用于至少部分地基于所述第一图像帧，确定所述目标人体的第一位姿数据。人体状态确定单元603可以用于确定第一人体状态，所述第一人体状态表示在所述第一图像帧中所述目标人体的足部是否接触地面。平滑参数确定单元604可以用于至少部分地基于所述第一人体状态确定第一平滑参数。平滑单元605可以用于基于所述第一平滑参数对所述第一位姿数据进行平滑，以获得经平滑的第一位姿数据。

根据本公开的实施例所述的装置，能够基于触地信息语义调整平滑参数，从而获得更好的平滑效果。

根据一些实施例，所述位姿数据确定单元包括用于执行以下操作的单元：基于所述第一图像帧以及所述第一图像帧之前的至少一个图像帧确定所述目标人体的第一位姿数据。

根据一些实施例，所述人体状态确定单元包括用于基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态的单元。

根据一些实施例，用于基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态的单元包括用于执行以下操作的单元：响应于确定所述目标人体的所述至少两个足部关键点的关键点位置均与地面接触，将所述第一人体状态确定为触地状态；以及响应于确定所述目标人体的所述至少两个足部关键点中的至少一个足部关键点的关键点位置未地面接触，将所述第一人体状态确定为未触地状态。

根据一些实施例，所述第一平滑参数至少包括第一平滑窗口尺寸D，所述第一平滑窗口尺寸表示用于对所述第一位姿数据进行平滑的图像帧的数量，D为正整数，并且其中，所述平滑单元包括用于执行以下操作的单元：响应于确定D大于1，获得所述第一图像帧之前的(D-1)个在先图像帧的相应的(D-1)个位姿数据；以及基于所述(D-1)个位姿数据对所述第一位姿数据进行平滑以获得经平滑的第一位姿数据。

根据一些实施例，所述平滑参数确定单元包括用于执行以下操作的单元：基于所述第一人体状态和第二图像帧的第二人体状态确定所述第一平滑参数，其中，所述第二图像帧紧接在所述第一图像帧之前，所述第二人体状态表示所述第二图像帧中所述目标人体的足部是否接触地面。

根据一些实施例，装置600还可以包括用于执行以下操作的单元：获得关于目标人体的第三图像帧，所述第三图像帧晚于所述第一图像帧；至少部分地基于第三图像帧，确定所述目标人体的第三位姿数据；确定第三人体状态，所述第三人体状态表示在所述第三图像帧中所述目标人体的足部是否接触地面；至少部分地基于所述第三人体状态确定第二平滑参数；以及基于所述第二平滑参数对所述第三位姿数据进行平滑，以获得经平滑的第三位姿数据。至少部分地基于所述第三人体状态确定第二平滑参数包括：更新连续触地帧数，使得经更新的连续触地帧数表示直至所述第三图像帧为止连续保持触地状态的图像帧的数量；以及响应于所述经更新的连续触地帧数满足第二阈值，确定所述第二平滑参数，所述第二平滑参数对应于所述第二阈值，其中所述第二阈值大于所述第一阈值，并且所述第二平滑状态指示比所述第一平滑状态更大的平滑度。

本公开的技术方案中，所涉及的用户个人信息的收集、获取，存储、使用、加工、传输、提供和公开应用等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法200及其变型例等。例如，在一些实施例中，方法200及其变型例等可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法200及其变型例等的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200及其变型例等。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种位姿确定方法，包括：

获得关于目标人体的第一图像帧；

至少部分地基于所述第一图像帧，确定所述目标人体的第一位姿数据；

确定第一人体状态，所述第一人体状态表示在所述第一图像帧中所述目标人体的足部是否接触地面；

至少部分地基于所述第一人体状态确定第一平滑参数；以及

基于所述第一平滑参数对所述第一位姿数据进行平滑，以获得经平滑的第一位姿数据。

2.根据权利要求1所述的方法，其中，至少部分地基于第一图像帧，确定所述目标人体的第一位姿数据包括：

基于所述第一图像帧以及所述第一图像帧之前的至少一个图像帧确定所述目标人体的第一位姿数据。

3.根据权利要求1或2所述的方法，其中，确定第一人体状态包括基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态。

4.根据权利要求3所述的方法，其中，基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态包括：

响应于确定所述目标人体的所述至少两个足部关键点的关键点位置均与地面接触，将所述第一人体状态确定为触地状态；以及

响应于确定所述目标人体的所述至少两个足部关键点中的至少一个足部关键点的关键点位置未与地面接触，将所述第一人体状态确定为未触地状态。

5.根据权利要求1-4中任一项所述的方法，其中，所述第一平滑参数至少包括第一平滑窗口尺寸D，所述第一平滑窗口尺寸表示用于对所述第一位姿数据进行平滑的图像帧的数量，D为正整数，并且其中，基于所述第一平滑参数对所述第一位姿数据进行平滑包括：

响应于确定D大于1，获得所述第一图像帧之前的(D-1)个在先图像帧的相应的(D-1)个位姿数据；以及

基于所述(D-1)个位姿数据对所述第一位姿数据进行平滑以获得经平滑的第一位姿数据。

6.根据权利要求1-5中任一项所述的方法，其中，至少部分地基于所述第一人体状态确定第一平滑参数包括：

基于所述第一人体状态和第二图像帧的第二人体状态确定所述第一平滑参数，其中，所述第二图像帧紧接在所述第一图像帧之前，所述第二人体状态表示所述第二图像帧中所述目标人体的足部是否接触地面。

7.根据权利要求6所述的方法，其中，基于所述第一人体状态和第二图像帧的第二人体状态确定所述第一平滑参数包括：

响应于确定所述第一人体状态是触地状态，获得连续触地帧数，所述连续触地帧数表示直至所述第二图像帧为止连续保持触地状态的图像帧的数量；

通过将所述连续触地帧数递增1，获得经更新的连续触地帧数；以及

响应于确定所述经更新的连续触地帧数状态满足第一阈值，确定所述第一平滑参数，所述第一平滑参数对应于所述第一阈值。

8.根据权利要求7所述的方法，还包括：

获得关于目标人体的第三图像帧，所述第三图像帧晚于所述第一图像帧；

至少部分地基于第三图像帧，确定所述目标人体的第三位姿数据；

确定第三人体状态，所述第三人体状态表示在所述第三图像帧中所述目标人体的足部是否接触地面；

至少部分地基于所述第三人体状态确定第二平滑参数；以及

基于所述第二平滑参数对所述第三位姿数据进行平滑，以获得经平滑的第三位姿数据，

其中，至少部分地基于所述第三人体状态确定第二平滑参数包括：

更新连续触地帧数，使得经更新的连续触地帧数表示直至所述第三图像帧为止连续保持触地状态的图像帧的数量；以及

响应于所述经更新的连续触地帧数满足第二阈值，确定所述第二平滑参数，所述第二平滑参数对应于所述第二阈值，其中所述第二阈值大于所述第一阈值，并且所述第二平滑状态指示比所述第一平滑状态更大的平滑度。

9.根据权利要求6所述的方法，其中，基于所述第一人体状态和第二图像帧的第二人体状态确定当前平滑状态包括：

响应于确定所述第二人体状态是触地状态并且所述第一人体状态是非触地状态，将所述当前平滑状态确定为第三平滑状态。

10.一种位姿确定装置，包括：

图像帧获得单元，用于获得关于目标人体的第一图像帧；

位姿数据确定单元，用于至少部分地基于所述第一图像帧，确定所述目标人体的第一位姿数据；

人体状态确定单元，用于确定第一人体状态，所述第一人体状态表示在所述第一图像帧中所述目标人体的足部是否接触地面；

平滑参数确定单元，用于至少部分地基于所述第一人体状态确定第一平滑参数；以及

平滑单元，用于基于所述第一平滑参数对所述第一位姿数据进行平滑，以获得经平滑的第一位姿数据。

11.根据权利要求10所述的装置，其中，所述位姿数据确定单元包括用于执行以下操作的单元：

12.根据权利要求10或11所述的装置，其中，所述人体状态确定单元包括用于基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态的单元。

13.根据权利要求12所述的装置，其中，用于基于所述目标人体的至少两个足部关键点的关键点位置确定所述第一人体状态的单元包括用于执行以下操作的单元：

响应于确定所述目标人体的所述至少两个足部关键点中的至少一个足部关键点的关键点位置未地面接触，将所述第一人体状态确定为未触地状态。

14.根据权利要求10-13中任一项所述的装置，其中，所述第一平滑参数至少包括第一平滑窗口尺寸D，所述第一平滑窗口尺寸表示用于对所述第一位姿数据进行平滑的图像帧的数量，D为正整数，并且其中，所述平滑单元包括用于执行以下操作的单元：

15.根据权利要求10-14中任一项所述的装置，其中，所述平滑参数确定单元包括用于执行以下操作的单元：

16.根据权利要求15所述的装置，其中，基于所述第一人体状态和第二图像帧的第二人体状态确定所述第一平滑参数包括：

17.根据权利要求16所述的装置，还包括用于执行以下操作的单元：

至少部分地基于所述第三人体状态确定第二平滑参数；以及

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。