CN116129472B

CN116129472B - 网格点生成方法、存储介质及系统

Info

Publication number: CN116129472B
Application number: CN202310401572.XA
Authority: CN
Inventors: 李力骏
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-21
Anticipated expiration: 2043-04-07
Also published as: CN116129472A

Abstract

本申请公开了一种网格点生成方法、存储介质及系统。其中，该方法包括：获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。本申请解决了现有技术中仅依赖预设的神经网络模型进行网格点预测造成的网格点准确度低、对待识别部位姿态变化的跟随能力差的技术问题。

Description

网格点生成方法、存储介质及系统

技术领域

本申请涉及计算机技术及人工智能技术领域，具体而言，涉及一种网格点生成方法、存储介质及系统。

背景技术

对图像或图像序列中的生物部位（如手部、四肢、头部等）进行姿态识别和网格构建是目前计算机技术和人工智能技术领域中的重要任务之一。现有技术中提供的姿态识别和网格点生成方法的技术构思通常为：对图像进行分割，利用一个神经网络模型对分割后的图像进行预测得到二维姿态关键点，进而基于二维姿态关键点利用另一神经网络模型生成对应的三维网格点。然而上述方法的缺陷在于：对生物部位的姿态预测准确度低，所生成的网格点准确度低难以准确跟随图像序列中的生物部位的姿态变化。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种网格点生成方法、存储介质及系统，以至少解决现有技术中仅依赖预设的神经网络模型进行网格点预测造成的网格点准确度低、对待识别部位姿态变化的跟随能力差的技术问题。

根据本申请实施例的一个方面，提供了一种网格点生成方法，包括：获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。

根据本申请实施例的另一方面，还提供了一种网格点生成方法，包括：接收来自于客户端的待识别图像，其中，待识别图像中的显示内容包括：生物对象的待识别部位；对待识别图像和第一点集进行噪声预测以得到第一预测结果，以及基于第一预测结果对第一点集进行去噪处理以生成待识别部位对应的目标网格点，其中，第一点集用于生成与待识别部位适配的网格点，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；将目标网格点反馈至客户端。

根据本申请实施例的另一方面，还提供了一种虚拟模型的展示方法，包括：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型的第一姿态，其中，目标虚拟模型为初始帧图像中待识别部位对应的虚拟模型，第一姿态基于第一时刻的目标网格点对待识别部位进行模型重建得到，第一时刻的目标网格点通过初始预测结果对随机点集进行去噪处理后得到，初始预测结果通过对初始帧图像与随机点集进行噪声预测得到；响应于接收到的控制指令，驱动VR设备或AR设备由展示第一姿态切换为展示目标虚拟模型的第二姿态，其中，第二姿态基于第二时刻的目标网格点对待识别部位进行模型重建得到，第二时刻的目标网格点通过目标预测结果对随机点集进行去噪处理后得到，目标预测结果通过对目标帧图像与随机点集进行噪声预测得到。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在上述程序运行时控制上述计算机可读存储介质所在设备执行上述的网格点生成方法或者虚拟模型的展示方法。

根据本申请实施例的另一方面，还提供了一种网格点生成系统，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。

在本申请实施例中，获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；通过对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；进一步基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点，达到了通过连续多个时刻的噪声预测以及对带噪点集的去噪处理生成待识别图像中待识别部位的目标网格点的目的，从而实现了提升所生成的网格点的准确度，进而实现提升对待识别部位姿态变化的跟随能力的技术效果，由此解决了现有技术中仅依赖预设的神经网络模型进行网格点预测造成的网格点准确度低、对待识别部位姿态变化的跟随能力差的技术问题。

容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了一种用于实现网格点生成方法的计算机终端（或移动设备）的硬件结构框图；

图2是根据本申请实施例1的一种网格点生成方法的虚拟现实设备的硬件环境的示意图；

图3是根据本申请实施例1的一种网格点生成方法的计算环境的结构框图

图4是根据本申请实施例1的一种网格点生成方法的流程图；

图5是根据本申请实施例1的一种可选的目标噪声预测模型的训练过程的示意图；

图6是根据本申请实施例1的一种可选的网格点生成过程的示意图；

图7是根据本申请实施例1的一种可选的特征变换过程的示意图；

图8是根据本申请实施例1的一种可选的目标虚拟模型的示意图；

图9是根据本申请实施例2的一种网格点生成方法的流程图；

图10是根据本申请实施例2的一种在云端服务器进行网格点生成的示意图；

图11是根据本申请实施例3的一种虚拟模型的展示方法的流程图；

图12是根据本申请实施例4的一种网格点生成装置的结构示意图；

图13是根据本申请实施例5的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

网格（Mesh）：是指计算机制作的三维模型的模型网格，模型网格把一个三维模型分割成若干小的三角形片，由若干个顶点和面来表示这些小的三角形片。

Transformer架构：一种基于注意力机制的序列到序列（Sequence to Sequence）神经网络。Transformer架构采用注意力机制、多头注意力以及位置强化三个步骤，在不减少深度的情况下实施端到端的采样和变换。

自注意力（Self-attention）机制：是指一种解决注意力模型中各个位置之间的依赖关系的方式。利用神经网络来识别注意力模型中不同位置之间最重要的信息，从而帮助机器学习更好地注意到重要信息和忽略不重要信息。

实施例1

根据本申请实施例，还提供了一种网格点生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现网格点生成方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备10）可以包括一个或多个（图中采用102a，102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器（Microcontroller Unit，MCU）或可编程逻辑器件（Field Programmable Gate Array，FPGA）等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，计算机终端10还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（Universal Serial Bus，USB）端口（可以作为计算机总线的端口中的一个端口被包括）、网络接口、光标控制设备（如鼠标、触控板等）、键盘、电源和/或相机。

本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的网格点生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的网格点生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接口与网络连接以接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的有线和/或无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

如图1所示的显示器可以例如触摸屏式的液晶显示器（Liquid Crystal Display，LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

此处需要说明的是，在一些实施例中，上述图1所示的计算机设备（或移动设备）具有触摸显示器（也被称为“触摸屏”或“触摸显示屏”）。在一些实施例中，上述图1所示的计算机设备（或移动设备）具有图像用户界面（Graphical User Interface，GUI），用户可以通过触摸触敏表面上的手指接触和/或手势来与GUI进行人机交互，此处的人机交互功能可选的包括如下交互：创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。

本申请实施例一所提供的方法实施例可以在虚拟现实（Virtual Reality，VR）设备或增强现实（Augmented Reality，AR）设备中执行。以VR设备为例，图2是根据本申请实施例1的一种网格点生成方法的虚拟现实设备的硬件环境的示意图。如图2所示，虚拟现实设备204与终端206相连接，终端206与服务器202通过网络进行连接，上述虚拟现实设备204并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端204并不限定于个人计算机（Personal Computer，PC）、手机、平板电脑等，服务器202可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

可选地，本申请实施例的虚拟现实设备204包括：存储器2041、处理器2042和传输装置2043（图2中未示出）。存储器2041用于存储应用程序，该应用程序可以用于执行本申请实施例提供的网格点生成方法。处理器2042可以调用并执行存储器2041中存储的应用程序，以通过本申请实施例提供的网格点生成方法得到待识别部位对应的目标网格点。

可选地，本申请实施例的终端206也可以用于执行网格点生成方法，并通过VR设备或AR设备的显示画面展示待识别部位对应的目标网格点，或者通过VR设备或AR设备关联的图像输出设备显示执行网格点生成方法生成的待识别部位对应的目标网格点。

图2示出的硬件结构框图，不仅可以作为上述AR/VR设备（或移动设备）的硬件环境的示例性框图，还可以作为上述服务器的示例性框图。

图3是根据本申请实施例1的一种网格点生成方法的计算环境的结构框图，图3以框图示出了使用上述图2所示的VR设备（或移动设备）作为计算环境301中计算节点的一种实施例。

仍然如图3所示，计算环境301包括运行在分布式网络上的多个（图3中采用310-1，310-2，…，来示出）计算节点（如服务器）。每个计算节点都包含本地处理和内存资源，终端用户302可以在计算环境301中远程运行应用程序或存储数据。应用程序可以作为计算环境301中的多个服务320-1（代表服务A），320-2（代表服务D），320-3（代表服务E）和320-4（代表服务H）进行提供。

仍然如图3所示，终端用户302可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务，在一些实施例中，可以将终端用户302的供应和/或请求提供给入口网关330。入口网关330可以包括一个相应的代理来处理针对服务320（计算环境301中提供的一个或多个服务）的供应和/或请求。

仍然如图3所示，服务320是根据计算环境301支持的各种虚拟化技术来提供或部署的。在一些实施例中，可以根据基于虚拟机（Virtual Machine，VM）的虚拟化、基于容器的虚拟化和/或类似的方式提供服务320。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机，在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时，根据基于容器的虚拟化，可以启动容器来虚拟化整个操作系统（Operating System，OS），以便多个工作负载可以在单个操作系统实例上运行。

在基于容器虚拟化的一个实施例中，服务320的若干容器可以被组装成一个POD（例如，Kubernetes POD）。举例来说，如图3所示，服务320-2可以配备一个或多个POD 340-1，340-2，…，340-N（统称为POD 340）。每个POD 340可以包括代理345和一个或多个容器342-1，342-2，…，342-M（统称为容器342）。POD 340中一个或多个容器342处理与服务的一个或多个相应功能相关的请求，代理345通常控制与服务相关的网络功能，如路由、负载均衡等。其他服务320也可以类似于POD 340的POD。

在操作过程中，执行来自终端用户302的用户请求可能需要调用计算环境301中的一个或多个服务320，执行一个服务320的一个或多个功能可能需要调用另一个服务320的一个或多个功能。如图3所示，服务320-1（代表服务A）从入口网关330接收终端用户302的用户请求，服务320-1（代表服务A）可以调用服务320-2（代表服务D），服务320-2（代表服务D）可以请求服务320-3（代表服务E）执行一个或多个功能。

上述的计算环境可以是云计算环境，资源的分配由云服务提供上管理，允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能，而不是扩展单个硬件设备来处理潜在的负载。

在上述运行环境下，本申请提供了如图4所示的网格点生成方法。图4是根据本申请实施例1的一种网格点生成方法的流程图，如图4所示，该网格点生成方法包括：

步骤S41，获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；

步骤S42，对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；

步骤S43，基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。

上述待识别图像的来源可以但不限于：实时拍摄的图像，数据库中存储的图像，从视频的多个图像帧中采样的图像，用户实时输入客户端的图像。上述待识别图像的显示内容至少包括生物对象的待识别部位，例如，人体的手部、四肢等。上述第一点集用于生成待识别部位适配的网格点。上述待识别部位适配的网格点为上述待识别部位对应的虚拟生物部位模型的三维网格上的网格点。

上述第一点集为预先生成的带噪点集。例如，上述第一点集可以是随机点集。上述带噪点集的生成过程包括对初始点集（可以是初始随机点集或者初始规则点集）的多次加噪，多次加噪中每次加噪对应的噪声为随机噪声。基于该第一点集生成与待识别部位适配的网格点时，需要对待识别图像和第一点集进行多次噪声预测，得到的第一预测结果包括上述第一点集在连续多个时刻的第一特征向量对应的预测噪声，上述第一特征向量用于表征连续多个时刻中当前时刻对应的点集特征。

基于上述第一预测结果对上述第一点集进行去噪处理可以包括：基于第一预测结果中第一点集在连续多个时刻的第一特征向量对应的预测噪声，对第一点集进行多次去噪处理。上述去噪处理能够从第一点集中确定生成目标网格点的待使用点，从而基于待使用点生成待识别部位对应的目标网格点。由此，针对连续多个时刻进行噪声预测和多次去噪处理，能够得到更加准确的目标网格点，还能够使得所生成的待识别部位对应的目标网格点对待识别图像中待识别部位的姿态变化进行准确地跟随。

在本申请实施例中，获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；通过对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；进一步基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点，达到了通过连续多个时刻的噪声预测以及对带噪点集的去噪处理生成待识别图像中待识别部位的目标网格点的目的，从而实现了提升所生成的网格点的准确度以及对待识别部位姿态变化的跟随能力的技术效果，进而解决了现有技术中仅依赖预设的神经网络模型进行网格点预测造成的网格点准确度低、对待识别部位姿态变化的跟随能力差的技术问题。

本申请实施例提供的上述网格点生成方法可以但不限于适用于对基于人手部生成手部网格点的应用场景中，以下以该场景为例对本申请实施例的技术方案进行进一步说明。在生成手部网格点的应用场景中，首先获取待识别手部图像和预先生成的随机点集，随机点集用于生成与手部适配的网格点。

在一种可选的实施例中，在步骤S42中，对待识别图像和第一点集进行噪声预测，得到第一预测结果，包括如下方法步骤：

步骤S421，采用目标噪声预测模型对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，目标噪声预测模型由多组数据通过深度学习训练得到，多组数据包括：样本图像和第二点集，第二点集为样本图像中显示部位适配的真实网格点。

在上述可选的实施例中，上述目标噪声预测模型为采用Transformer架构的神经网络模型，目标噪声预测模型包括特征提取部分和噪声预测部分，其中，特征提取部分可以包括图像编码器（Image encoder），噪声预测部分包括多个Transformer层。上述目标噪声预测模型用于对待识别图像和第一点集进行噪声预测，得到第一预测结果。用于训练目标噪声预测模型的多组数据包括：样本图像和真实网格点，其中，样本图像中显示有手部，真实网格点为样本图像中对应的着手部模型适配的网格点。

在一种可选的实施例中，网格点生成方法还包括如下方法步骤：

步骤S441，采用初始噪声预测模型对样本图像、第二点集和随机噪声进行噪声预测，得到第二预测结果，其中，第二预测结果为第二点集在预设时刻的第二特征向量对应的预测噪声；

步骤S442，通过第二预测结果与随机噪声计算得到目标损失；

步骤S443，基于目标损失对初始噪声预测模型的参数进行更新，得到目标噪声预测模型。

基于初始噪声预测模型，利用多组数据通过多轮深度学习训练得到目标噪声预测模型。图5是根据本申请实施例1的一种可选的目标噪声预测模型的训练过程的示意图，如图5所示，以多轮深度学习训练（与样本图像的数量相对应，对每个样本图像进行一次训练）中的第t轮深度学习训练为例，对深度学习训练过程进行说明，图中待训练的噪声预测模型为对初始噪声预测模型进行（t-1）轮深度学习训练过程之后的噪声预测模型。

如图5所示，深度学习训练过程包括如下步骤：

步骤E51，从用于训练目标噪声预测模型的多组数据中获取当前轮深度学习训练的样本图像、样本图像对应的真实网格点以及预先生成的随机噪声；

步骤E52，利用待训练的噪声预测模型对样本图像、真实网格点和随机噪声进行噪声预测，得到上述第二预测结果，其中，第二预测结果为神经网络模型所预测的中间信号x(t)（即上述第二特征向量）对应的预测噪声Ec[x(t) , t , img]，img表示样本图像的图像标识；

步骤E53，基于预测噪声Ec和随机噪声E进行计算，得到目标损失L；

步骤E54，利用目标损失L对待训练的噪声预测模型进行参数优化，得到第t轮深度学习训练的训练结果。

上述多轮深度学习训练中最后一轮深度学习训练的训练结果为目标噪声预测模型。

在一种可选的实施例中，在步骤S441中，采用初始噪声预测模型对样本图像、第二点集和随机噪声进行噪声预测，得到第二预测结果，包括如下方法步骤：

步骤S4411，基于第二点集和随机噪声确定第二特征向量；

步骤S4412，采用初始噪声预测模型对样本图像进行特征提取，得到样本特征，以及采用初始噪声预测模型对样本特征与第二特征向量进行噪声预测，得到第二预测结果。

上述初始噪声预测模型包括特征提取部分和噪声预测部分，其中，特征提取部分可以包括图像编码器（Image encoder），噪声预测部分包括多个Transformer层。仍然以多轮深度学习训练中的第t轮深度学习训练为例，如图5所示，上述步骤E52还包括如下方法步骤：

步骤E521，利用待训练的噪声预测模型的图像编码器对样本图像进行特征提取，得到样本特征；

步骤E522，利用真实网格点和随机噪声E，生成中间信号x(t)，其中，中间信号x(t)为真实网格点添加随机噪声E后得到的网格点对应的特征向量（即第二特征向量），随机噪声E的取值范围为（0,1）；

步骤E523，将样本图像和中间信号x(t)输入待训练的噪声预测模型的Transformer层进行噪声预测，得到上述第二预测结果，其中，第二预测结果为神经网络模型所预测的中间信号x(t)对应的预测噪声Ec[x(t) , t , img]，img表示样本图像的图像标识。

在一种可选的实施例中，目标噪声预测模型包括：编码部分和预测部分，预测部分包括：自注意力区块和注意力区块，在步骤S421中，采用目标噪声预测模型对待识别图像和第一点集进行噪声预测，得到第一预测结果，包括如下方法步骤：

步骤S4211，采用编码部分对待识别图像进行特征提取，得到全局特征向量和特征图；

步骤S4212，采用自注意力区块对第一特征向量与全局特征向量进行特征变换，得到第三特征向量；

步骤S4213，采用注意力区块对第三特征向量与特征图进行特征变换，得到融合特征；

步骤S4214，基于融合特征确定第一预测结果。

图6是根据本申请实施例1的一种可选的网格点生成过程的示意图，如图6所示，网格点生成过程包括利用目标噪声预测模型进行的噪声预测过程和利用扩散模型（diffusion model）进行的去噪处理过程。

如图6所示，目标噪声预测模型包括编码部分和预测部分，其中，编码部分包括图像编码器，图像编码器用于对手部图像进行特征提取，预测部分包括多个Transformer层，多个Transformer层中每个Transformer层包括自注意力区块（Self-attention bloc）和注意力区块（Attention block）。

如图6所示，在利用目标噪声预测模型进行的噪声预测过程中，基于所获取的待识别的手部图像和预先生成的随机点集（即上述第一点集）进行噪声预测包括：采用目标噪声预测额模型的编码部分对手部图像进行特征提取，得到全局特征向量（Global featurevector）和特征图（Image grid featmap）；进一步地，基于全局特征向量和特征图进行多次噪声预测（与连续多个时刻相对应），得到连续多个时刻中每个时刻对应的第一特征向量x(t)的预测噪声。

如图6所示，以单次噪声预测为例（本例中以基于t时刻的第一特征向量进行噪声预测为例），采用目标噪声预测模型的预测部分中的自注意力区块对t时刻的第一特征向量x(t)和手部图像对应的全局特征向量进行特征变换，得到第三特征向量，其中，第三特征向量用于表征第一特征向量与全局特征向量对应的中间特征（concat feat）；采用目标噪声预测额模型的预测部分中的注意力区块对第三特征向量和手部图像对应的特征图进行特征变换，得到融合特征（fusion feat）；基于融合特征确定第t轮次深度学习训练中的第一特征向量x(t)对应的预测噪声。上述第一预测结果包括上述连续多个时刻中每个时刻的第一特征向量对应的预测噪声。

需要说明的是，上述手部图像可以是从待识别的单幅彩色图像中裁剪得到的手部区域图像。

在一种可选的实施例中，在步骤S4213中，采用注意力区块对第三特征向量与特征图进行特征变换，得到融合特征，包括如下方法步骤：

步骤S42131，采用注意力区块对第三特征向量与特征图对应的特征值进行特征变换，得到第四特征向量；

步骤S42132，对第四特征向量与特征图对应的特征值进行特征变换，得到融合特征。

图7是根据本申请实施例1的一种可选的特征变换过程的示意图，在如图6所示的利用目标噪声预测模型进行的噪声预测过程中，仍然以基于t时刻的第一特征向量进行噪声预测为例，如图7所示，采用目标噪声预测模型的预测部分中的自注意力区块，对t时刻的第一特征向量x(t)和手部图像对应的全局特征向量进行特征变换，得到用于表征中间特征的第三特征向量。上述第一特征向量为随机点集（即上述第一点集）经过（t-1）次降噪处理后的点集对应的特征向量。

仍然如图7所示，采用目标噪声预测模型的预测部分中的注意力区块对第三特征向量和手部图像对应的特征图进行特征变换得到融合特征的过程包括：

采用注意力区块对应的预设卷积计算函数对特征图进行计算，得到卷积特征值；

采用注意力区块对应的预设池化计算函数对特征图进行计算，得到池化特征值；

对第三特征向量与卷积特征值进行第一乘法特征变换，得到第四特征向量，其中，第四特征向量为注意力向量；

对第四特征向量与池化特征值进行第二乘法特征变换，得到融合特征。

具体地，对第三特征向量与卷积特征值进行第一乘法特征变换，得到第四特征向量包括：对第三特征向量和卷积特征值进行矩阵乘法计算，得计算结果，利用预设表征计算函数（如softmax函数）计算上述计算结果的重要性表征，得到上述第四特征向量。

需要说明的是，上述第二乘法特征变化可以是矩阵乘法变换。在上述目标噪声预测模型的预测部分中，利用全连接网格进行上述的特征变换，使得特征变换涉及的多个特征值之间的通道数保持一致。

在一种可选的实施例中，在步骤S43中，基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点，包括如下方法步骤：

步骤S431，从连续多个时刻的起始时刻开始，重复采用当前时刻的第一特征向量对应的第一预测结果对当前时刻的第一特征向量进行去噪处理，得到下一时刻的第一特征向量；

步骤S432，基于连续多个时刻中的结束时刻的第一特征向量，生成目标网格点。

仍然如图6所示，利用扩散模型对随机点集（相当于上述第一点集）进行多次降噪处理，生成目标网格点。上述多次降噪处理与连续多个时刻相对应。以下以连续多个时刻中的t时刻为例对降噪处理进行说明。

连续多个时刻中的t时刻的第一特征向量x(t)为随机点集经过（t-1）次降噪处理得到的点集的特征向量，也可以理解为，对随机点集的特征向量x(1)进行了（t-1）次降噪处理得到的处理结果。采用t时刻对应的目标噪声预测模型得到预测噪声Ec[x(t) , t ,img]，对t时刻的第一特征向量x(t)进行降噪处理，得到（t+1）时刻的第一特征向量x(t+1)。当连续多个时刻对应的多次降噪处理全部进行完毕，基于连续多个时刻中的结束时刻的第一特征向量，从随机点集中确定待使用点，利用待使用点生成目标网格点。特别地，通常结束时刻为多个时刻中的最后一个时刻，例如，依次进行0时刻到T时刻的计算，则此处的结束时刻为T时刻，对应地，结束时刻的第一特征向量为x(T)。

容易理解的是，根据本申请实施例提供的网格点生成方法，通过目标噪声预测模型和扩散模型的结合使用，基于待识别图像，对随机点集进行多次迭代的去噪处理，生成与待识别图像中待识别部位的当前姿态更加贴合的目标网格点，且该目标网格点能够更加准确地跟随待识别的图像序列中待识别部位的姿态变化。

步骤S451，基于目标网格点对待识别部位进行模型重建，得到待识别部位对应的目标虚拟模型；

步骤S452，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型；

步骤S453，控制目标虚拟模型执行预设应用场景对应的目标操作。

图8是根据本申请实施例1的一种可选的目标虚拟模型的示意图。如图8所示，以待识别部位为手部为例，目标虚拟模型为虚拟手部模型。基于待识别图像中待识别部位对应的目标网格点，对生物对象的待识别部位进行模型重建，得到待识别部位对应的目标虚拟模型，该目标虚拟模型为虚拟三维空间下的虚拟三维模型。目标虚拟模型的当前姿态与待识别图像中生物对象的待识别部位的姿态相同，也就是说，采用上述网格点生成方法所生成的目标虚拟模型能够对图像中待识别部位的姿态进行准确地跟随。

进一步地，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示上述目标虚拟模型，可以是单独展示该目标虚拟模型，也可以是将目标虚拟模型拼接在生物对象对应的其他部位的虚拟模型上，例如，将如图8所示的虚拟手部模型拼接显示在虚拟人体模型的手腕处。

进一步地，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示上述目标虚拟模型后，还可以响应对该目标虚拟模型的控制指令，控制目标虚拟模型执行预设应用场景对应的目标操作。上述预设应用场景可以是VR游戏场景，对应地，上述目标操作可以是VR游戏中对其他虚拟物体的拾取操作、与其他虚拟角色的打斗操作、手势动作等。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器（Read-OnlyMemory，ROM）、随机存取器（Random Access Memory，RAM）、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例所述的方法。

实施例2

在如实施例1中的运行环境下，本申请提供了如图9所示的另一种网格点生成方法。图9是根据本申请实施例2的一种网格点生成方法的流程图，如图9所示，该网格点生成方法包括：

步骤S91，接收来自于客户端的待识别图像，其中，待识别图像中的显示内容包括：生物对象的待识别部位；

步骤S92，对待识别图像和第一点集进行噪声预测以得到第一预测结果，以及基于第一预测结果对第一点集进行去噪处理以生成待识别部位对应的目标网格点，其中，第一点集用于生成与待识别部位适配的网格点，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；

步骤S83，将目标网格点反馈至客户端。

可选地，图10是根据本申请实施例2的一种在云端服务器进行网格点生成的示意图，如图10所示，客户端将待识别图像上传至云端服务器，其中，待识别图像中的显示内容包括：生物对象的待识别部位；云端服务器对待识别图像和第一点集进行噪声预测以得到第一预测结果，以及基于第一预测结果对第一点集进行去噪处理以生成待识别部位对应的目标网格点，其中，第一点集用于生成与待识别部位适配的网格点，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声。然后，云端服务器会向上述客户端反馈所生成的目标网格点，最终的目标网格点会通过客户端的图形用户界面提供给用户。

需要说明的是，本申请实施例所提供的上述网格点生成方法，可以但不限于适用于计算机图像、电子游戏、虚拟现实/增强现实等领域中涉及网格点生成的实际应用场景，通过软件即服务（Software as a Service，SaaS）服务端和客户端进行交互的方式，客户端向服务端提供显示有生物对象的待识别部位的待识别图像，服务端采用对待识别图像和第一点集进行噪声预测以得到第一预测结果，以及基于第一预测结果对第一点集进行去噪处理的方式生成待识别部位对应的目标网格点，其中，第一点集用于生成与待识别部位适配的网格点，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声，然后服务端所生成的目标网格点反馈至客户端提供给用户。上述服务端可以是云端服务器。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

在如实施例1中的运行环境下，本申请提供了如图11所示的一种虚拟模型的展示方法，图11是根据本申请实施例3的一种虚拟模型的展示方法的流程图，如图3所示，虚拟模型的展示方法包括：

步骤S1101，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型的第一姿态，其中，目标虚拟模型为初始帧图像中待识别部位对应的虚拟模型，第一姿态基于第一时刻的目标网格点对待识别部位进行模型重建得到，第一时刻的目标网格点通过初始预测结果对随机点集进行去噪处理后得到，初始预测结果通过对初始帧图像与随机点集进行噪声预测得到；

步骤S1102，响应于接收到的控制指令，驱动VR设备或AR设备由展示第一姿态切换为展示目标虚拟模型的第二姿态，其中，第二姿态基于第二时刻的目标网格点对待识别部位进行模型重建得到，第二时刻的目标网格点通过目标预测结果对随机点集进行去噪处理后得到，目标预测结果通过对目标帧图像与随机点集进行噪声预测得到。

上述目标虚拟模型为采用本申请实施例1或实施例2提供的网格点生成方法重建的虚拟三维模型，上述第一姿态为采用本申请实施例1或实施例2提供的网格点生成方法基于第一时刻的目标网格点对待识别部位进行模型重建得到的虚拟模型的对应姿态。具体地，目标虚拟模型为初始帧图像中待识别部位对应的虚拟模型，初始帧图像可以是用于重建目标虚拟模型的预设图像，也可以是待识别的图像序列中的任一帧指定的图像。上述待识别部位可以是目标虚拟模型的手部、头部、四肢等。

当接收到对目标虚拟模型的待识别部位的姿态控制指令时，采用本申请实施例1或实施例2提供的网格点生成方法基于第二时刻的目标网格点对待识别部位进行模型重建，确定目标虚拟模型的第二姿态，进一步地，驱动VR设备或AR设备由展示第一姿态切换为展示目标虚拟模型的第二姿态。

通过本申请实施例的虚拟模型的展示方法，在虚拟现实或增强现实的场景下，生成准确度较高的目标网格点，并在虚拟现实VR设备或增强现实AR设备上动态且准确地显示目标网格点对应的目标虚拟模型的待识别部位的姿态变化。

需要说明的是，本实施例的优选实施方式可以参见实施例1或实施例2中的相关描述，此处不再赘述。

实施例4

根据本申请实施例，还提供了一种用于实施上述网格点生成方法的装置实施例。图12是根据本申请实施例4的一种网格点生成装置的结构示意图，如图12所示，该装置包括：

获取模块1201，用于获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；

第一预测模块1202，用于对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；

生成模块1203，用于基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。

可选地，上述第一预测模块1202还用于：采用目标噪声预测模型对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，目标噪声预测模型由多组数据通过深度学习训练得到，多组数据包括：样本图像和第二点集，第二点集为样本图像中显示部位适配的真实网格点。

可选地，上述网格点生成装置还包括：第二预测模块1204（图中未示出），用于采用初始噪声预测模型对样本图像、第二点集和随机噪声进行噪声预测，得到第二预测结果，其中，第二预测结果为第二点集在预设时刻的第二特征向量对应的预测噪声；通过第二预测结果与随机噪声计算得到目标损失；基于目标损失对初始噪声预测模型的参数进行更新，得到目标噪声预测模型。

可选地，上述第二预测模块1204还用于：基于第二点集和随机噪声确定第二特征向量；采用初始噪声预测模型对样本图像进行特征提取，得到样本特征，以及采用初始噪声预测模型对样本特征与第二特征向量进行噪声预测，得到第二预测结果。

可选地，目标噪声预测模型包括：编码部分和预测部分，预测部分包括：自注意力区块和注意力区块，上述第一预测模块1202还用于：采用编码部分对待识别图像进行特征提取，得到全局特征向量和特征图；采用自注意力区块对第一特征向量与全局特征向量进行特征变换，得到第三特征向量；采用注意力区块对第三特征向量与特征图进行特征变换，得到融合特征；基于融合特征确定第一预测结果。

可选地，上述第一预测模块1202还用于：采用注意力区块对第三特征向量与特征图对应的第一特征值进行特征变换，得到第四特征向量；对第四特征向量与特征图对应的第二特征值进行特征变换，得到融合特征。

可选地，上述生成模块1203还用于：从连续多个时刻的起始时刻开始，重复采用当前时刻的第一特征向量对应的第一预测结果对当前时刻的第一特征向量进行去噪处理，得到下一时刻的第一特征向量；基于连续多个时刻中的结束时刻的第一特征向量，生成目标网格点。

可选地，上述网格点生成装置还包括：还包括：虚拟现实/增强现实模块1205（图中未示出），用于基于目标网格点对待识别部位进行模型重建，得到待识别部位对应的目标虚拟模型；在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型；控制目标虚拟模型执行预设应用场景对应的目标操作。

此处需要说明的是，上述获取模块1201、第一预测模块1202和生成模块1203对应于实施例1中的步骤S41至步骤S43，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器（例如，存储器104）中并由一个或多个处理器（例如，处理器102a，102b，……，102n）处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例5

根据本申请实施例，还提供了一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行网格点生成方法中以下步骤的程序代码：获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。

可选地，图13是根据本申请实施例5的一种计算机终端的结构框图，如图13所示，该计算机终端130可以包括：一个或多个（图中仅示出一个）处理器1302、存储器1304、存储控制器1306、以及外设接口1308，其中，外设接口1308与射频模块、音频模块和显示器连接。

其中，存储器1304可用于存储软件程序以及模块，如本申请实施例中的网格点生成方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的网格点生成方法。存储器1304可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1304可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端130。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器1302可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。

可选的，上述处理器1302还可以执行如下步骤的程序代码：采用目标噪声预测模型对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，目标噪声预测模型由多组数据通过深度学习训练得到，多组数据包括：样本图像和第二点集，第二点集为样本图像中显示部位适配的真实网格点。

可选的，上述处理器1302还可以执行如下步骤的程序代码：采用初始噪声预测模型对样本图像、第二点集和随机噪声进行噪声预测，得到第二预测结果，其中，第二预测结果为第二点集在预设时刻的第二特征向量对应的预测噪声；通过第二预测结果与随机噪声计算得到目标损失；基于目标损失对初始噪声预测模型的参数进行更新，得到目标噪声预测模型。

可选的，上述处理器1302还可以执行如下步骤的程序代码：基于第二点集和随机噪声确定第二特征向量；采用初始噪声预测模型对样本图像进行特征提取，得到样本特征，以及采用初始噪声预测模型对样本特征与第二特征向量进行噪声预测，得到第二预测结果。

可选的，上述处理器1302还可以执行如下步骤的程序代码：采用编码部分对待识别图像进行特征提取，得到全局特征向量和特征图；采用自注意力区块对第一特征向量与全局特征向量进行特征变换，得到第三特征向量；采用注意力区块对第三特征向量与特征图进行特征变换，得到融合特征；基于融合特征确定第一预测结果。

可选的，上述处理器1302还可以执行如下步骤的程序代码：采用注意力区块对第三特征向量与特征图对应的第一特征值进行特征变换，得到第四特征向量；对第四特征向量与特征图对应的第二特征值进行特征变换，得到融合特征。

可选的，上述处理器1302还可以执行如下步骤的程序代码：从连续多个时刻的起始时刻开始，重复采用当前时刻的第一特征向量对应的第一预测结果对当前时刻的第一特征向量进行去噪处理，得到下一时刻的第一特征向量；基于连续多个时刻中的结束时刻的第一特征向量，生成目标网格点。

可选的，上述处理器1302还可以执行如下步骤的程序代码：基于目标网格点对待识别部位进行模型重建，得到待识别部位对应的目标虚拟模型；在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型；控制目标虚拟模型执行预设应用场景对应的目标操作。

处理器1302可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收来自于客户端的待识别图像，其中，待识别图像中的显示内容包括：生物对象的待识别部位；对待识别图像和第一点集进行噪声预测以得到第一预测结果，以及基于第一预测结果对第一点集进行去噪处理以生成待识别部位对应的目标网格点，其中，第一点集用于生成与待识别部位适配的网格点，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；将目标网格点反馈至客户端。

处理器1302可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型的第一姿态，其中，目标虚拟模型为初始帧图像中待识别部位对应的虚拟模型，第一姿态基于第一时刻的目标网格点对待识别部位进行模型重建得到，第一时刻的目标网格点通过初始预测结果对随机点集进行去噪处理后得到，初始预测结果通过对初始帧图像与随机点集进行噪声预测得到；响应于接收到的控制指令，驱动VR设备或AR设备由展示第一姿态切换为展示目标虚拟模型的第二姿态，其中，第二姿态基于第二时刻的目标网格点对待识别部位进行模型重建得到，第二时刻的目标网格点通过目标预测结果对随机点集进行去噪处理后得到，目标预测结果通过对目标帧图像与随机点集进行噪声预测得到。

本领域普通技术人员可以理解，图13所示的结构仅为示意，计算机终端也可以是智能手机、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）等终端设备。图13其并不对上述计算机终端的结构造成限定。例如，计算机终端130还可包括比图13中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

实施例6

根据本申请实施例，还提供了一种计算机可读存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1、实施例2或实施例3所提供的网格点生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别图像和第一点集，其中，待识别图像中的显示内容包括：生物对象的待识别部位，第一点集用于生成与待识别部位适配的网格点；对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；基于第一预测结果对第一点集进行去噪处理，生成待识别部位对应的目标网格点。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：采用目标噪声预测模型对待识别图像和第一点集进行噪声预测，得到第一预测结果，其中，目标噪声预测模型由多组数据通过深度学习训练得到，多组数据包括：样本图像和第二点集，第二点集为样本图像中显示部位适配的真实网格点。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：采用初始噪声预测模型对样本图像、第二点集和随机噪声进行噪声预测，得到第二预测结果，其中，第二预测结果为第二点集在预设时刻的第二特征向量对应的预测噪声；通过第二预测结果与随机噪声计算得到目标损失；基于目标损失对初始噪声预测模型的参数进行更新，得到目标噪声预测模型。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于第二点集和随机噪声确定第二特征向量；采用初始噪声预测模型对样本图像进行特征提取，得到样本特征，以及采用初始噪声预测模型对样本特征与第二特征向量进行噪声预测，得到第二预测结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：采用编码部分对待识别图像进行特征提取，得到全局特征向量和特征图；采用自注意力区块对第一特征向量与全局特征向量进行特征变换，得到第三特征向量；采用注意力区块对第三特征向量与特征图进行特征变换，得到融合特征；基于融合特征确定第一预测结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：采用注意力区块对第三特征向量与特征图对应的第一特征值进行特征变换，得到第四特征向量；对第四特征向量与特征图对应的第二特征值进行特征变换，得到融合特征。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：从连续多个时刻的起始时刻开始，重复采用当前时刻的第一特征向量对应的第一预测结果对当前时刻的第一特征向量进行去噪处理，得到下一时刻的第一特征向量；基于连续多个时刻中的结束时刻的第一特征向量，生成目标网格点。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于目标网格点对待识别部位进行模型重建，得到待识别部位对应的目标虚拟模型；在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型；控制目标虚拟模型执行预设应用场景对应的目标操作。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：接收来自于客户端的待识别图像，其中，待识别图像中的显示内容包括：生物对象的待识别部位；对待识别图像和第一点集进行噪声预测以得到第一预测结果，以及基于第一预测结果对第一点集进行去噪处理以生成待识别部位对应的目标网格点，其中，第一点集用于生成与待识别部位适配的网格点，第一预测结果为第一点集在连续多个时刻的第一特征向量对应的预测噪声；将目标网格点反馈至客户端。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型的第一姿态，其中，目标虚拟模型为初始帧图像中待识别部位对应的虚拟模型，第一姿态基于第一时刻的目标网格点对待识别部位进行模型重建得到，第一时刻的目标网格点通过初始预测结果对随机点集进行去噪处理后得到，初始预测结果通过对初始帧图像与随机点集进行噪声预测得到；响应于接收到的控制指令，驱动VR设备或AR设备由展示第一姿态切换为展示目标虚拟模型的第二姿态，其中，第二姿态基于第二时刻的目标网格点对待识别部位进行模型重建得到，第二时刻的目标网格点通过目标预测结果对随机点集进行去噪处理后得到，目标预测结果通过对目标帧图像与随机点集进行噪声预测得到。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种网格点生成方法，其特征在于，包括：

获取待识别图像和第一点集，其中，所述待识别图像中的显示内容包括：生物对象的待识别部位，所述第一点集用于生成与所述待识别部位适配的网格点；

对所述待识别图像和所述第一点集进行噪声预测，得到第一预测结果，其中，所述第一预测结果为所述第一点集在连续多个时刻的第一特征向量对应的预测噪声；

基于所述第一预测结果对所述第一点集进行去噪处理，生成所述待识别部位对应的目标网格点；

其中，对所述待识别图像和所述第一点集进行噪声预测，得到所述第一预测结果包括：采用目标噪声预测模型对所述待识别图像和所述第一点集进行噪声预测，得到所述第一预测结果，其中，所述目标噪声预测模型由多组数据通过深度学习训练得到，所述多组数据包括：样本图像和第二点集，所述第二点集为所述样本图像中显示部位适配的真实网格点；

其中，所述目标噪声预测模型包括：编码部分和预测部分，所述预测部分包括：自注意力区块和注意力区块，采用所述目标噪声预测模型对所述待识别图像和所述第一点集进行噪声预测，得到所述第一预测结果包括：采用所述编码部分对所述待识别图像进行特征提取，得到全局特征向量和特征图；采用所述自注意力区块对所述第一特征向量与所述全局特征向量进行特征变换，得到第三特征向量；采用所述注意力区块对所述第三特征向量与所述特征图进行特征变换，得到融合特征；基于所述融合特征确定所述第一预测结果。

2.根据权利要求1所述的网格点生成方法，其特征在于，所述网格点生成方法还包括：

采用初始噪声预测模型对所述样本图像、所述第二点集和随机噪声进行噪声预测，得到第二预测结果，其中，所述第二预测结果为所述第二点集在预设时刻的第二特征向量对应的预测噪声；

通过所述第二预测结果与所述随机噪声计算得到目标损失；

基于所述目标损失对所述初始噪声预测模型的参数进行更新，得到所述目标噪声预测模型。

3.根据权利要求2所述的网格点生成方法，其特征在于，采用所述初始噪声预测模型对所述样本图像、所述第二点集和所述随机噪声进行噪声预测，得到所述第二预测结果包括：

基于所述第二点集和所述随机噪声确定所述第二特征向量；

采用所述初始噪声预测模型对所述样本图像进行特征提取，得到样本特征，以及采用所述初始噪声预测模型对所述样本特征与所述第二特征向量进行噪声预测，得到所述第二预测结果。

4.根据权利要求1所述的网格点生成方法，其特征在于，采用所述注意力区块对所述第三特征向量与所述特征图进行特征变换，得到所述融合特征包括：

采用所述注意力区块对所述第三特征向量与所述特征图对应的特征值进行特征变换，得到第四特征向量；

对所述第四特征向量与所述特征图对应的特征值进行特征变换，得到融合特征。

5.根据权利要求1所述的网格点生成方法，其特征在于，基于所述第一预测结果对所述第一点集进行去噪处理，生成所述待识别部位对应的所述目标网格点包括：

从所述连续多个时刻的起始时刻开始，重复采用当前时刻的所述第一特征向量对应的所述第一预测结果对所述当前时刻的所述第一特征向量进行去噪处理，得到下一时刻的所述第一特征向量；

基于所述连续多个时刻中的结束时刻的所述第一特征向量，生成所述目标网格点。

6.根据权利要求1所述的网格点生成方法，其特征在于，所述网格点生成方法还包括：

基于所述目标网格点对所述待识别部位进行模型重建，得到所述待识别部位对应的目标虚拟模型；

在虚拟现实VR设备或增强现实AR设备的呈现画面上展示所述目标虚拟模型；

控制所述目标虚拟模型执行预设应用场景对应的目标操作。

7.一种网格点生成方法，其特征在于，包括：

接收来自于客户端的待识别图像，其中，所述待识别图像中的显示内容包括：生物对象的待识别部位；

对所述待识别图像和第一点集进行噪声预测以得到第一预测结果，以及基于所述第一预测结果对所述第一点集进行去噪处理以生成所述待识别部位对应的目标网格点，其中，所述第一点集用于生成与所述待识别部位适配的网格点，所述第一预测结果为所述第一点集在连续多个时刻的第一特征向量对应的预测噪声；

将所述目标网格点反馈至所述客户端；

其中，对所述待识别图像和所述第一点集进行噪声预测得到所述第一预测结果包括：采用目标噪声预测模型对所述待识别图像和所述第一点集进行噪声预测，得到所述第一预测结果，其中，所述目标噪声预测模型由多组数据通过深度学习训练得到，所述多组数据包括：样本图像和第二点集，所述第二点集为所述样本图像中显示部位适配的真实网格点；

8.一种虚拟模型的展示方法，其特征在于，包括：

在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标虚拟模型的第一姿态，其中，所述目标虚拟模型为初始帧图像中待识别部位对应的虚拟模型，所述第一姿态基于第一时刻的目标网格点对所述待识别部位进行模型重建得到，所述第一时刻的目标网格点通过初始预测结果对随机点集进行去噪处理后得到，所述初始预测结果通过对所述初始帧图像与随机点集进行噪声预测得到；

响应于接收到的控制指令，驱动所述VR设备或所述AR设备由展示所述第一姿态切换为展示所述目标虚拟模型的第二姿态，其中，所述第二姿态基于第二时刻的目标网格点对所述待识别部位进行模型重建得到，所述第二时刻的目标网格点通过目标预测结果对所述随机点集进行去噪处理后得到，所述目标预测结果通过对目标帧图像与所述随机点集进行噪声预测得到；

其中，对待识别图像与所述随机点集进行噪声预测得到预测结果包括：采用目标噪声预测模型对所述待识别图像和所述随机点集进行噪声预测，得到所述预测结果，所述目标噪声预测模型由多组数据通过深度学习训练得到，所述多组数据包括：样本图像和第二点集，所述第二点集为所述样本图像中显示部位适配的真实网格点，所述待识别图像包括以下之一：所述初始帧图像、所述目标帧图像，所述预测结果包括以下之一：所述初始帧图像对应的所述初始预测结果、所述目标帧图像对应的所述目标预测结果，所述预测结果为所述随机点集在连续多个时刻的第一特征向量对应的预测噪声；

其中，所述目标噪声预测模型包括：编码部分和预测部分，所述预测部分包括：自注意力区块和注意力区块，采用所述目标噪声预测模型对所述待识别图像和所述随机点集进行噪声预测，得到所述预测结果包括：采用所述编码部分对所述待识别图像进行特征提取，得到全局特征向量和特征图；采用所述自注意力区块对所述第一特征向量与所述全局特征向量进行特征变换，得到第三特征向量；采用所述注意力区块对所述第三特征向量与所述特征图进行特征变换，得到融合特征；基于所述融合特征确定所述预测结果。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的可执行程序，其中，在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的网格点生成方法或权利要求8所述的虚拟模型的展示方法。

10.一种网格点生成系统，其特征在于，包括：

处理器；

存储器，与所述处理器相连接，用于为所述处理器提供处理以下处理步骤的指令：