CN117745956A - 一种基于位姿引导的图像生成方法、装置、介质及设备 - Google Patents

一种基于位姿引导的图像生成方法、装置、介质及设备 Download PDF

Info

Publication number
CN117745956A
CN117745956A CN202410189825.6A CN202410189825A CN117745956A CN 117745956 A CN117745956 A CN 117745956A CN 202410189825 A CN202410189825 A CN 202410189825A CN 117745956 A CN117745956 A CN 117745956A
Authority
CN
China
Prior art keywords
plane
joint
pose
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410189825.6A
Other languages
English (en)
Inventor
王宏升
林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202410189825.6A priority Critical patent/CN117745956A/zh
Publication of CN117745956A publication Critical patent/CN117745956A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本说明书公开了一种基于位姿引导的图像生成方法、装置、介质及设备。所述方法包括:获取用户的人体点云数据;将人体点云数据输入预设的图像生成模型,确定人体点云数据在三个相互垂直的投影面上的各平面特征;将各平面特征进行融合,得到融合特征,以及,将各平面特征中的指定投影面对应的平面特征作为目标平面特征,根据目标平面特征,确定用户各关节对应的位姿特征;根据融合特征,构建用户的初始三维图像;将初始三维图像以及位姿特征输入预设的扩散模型,对初始三维图像添加噪声,得到加噪后图像;基于位姿特征,对加噪后图像进行还原,得到目标三维图像。本方案提高了生成的人体图像的精度和准确性。

Description

一种基于位姿引导的图像生成方法、装置、介质及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种基于位姿引导的图像生成方法、装置、介质及设备。
背景技术
三维人体网格恢复是计算机视觉和图形学领域的一项重要研究方向。随着3D扫描技术、深度学习和计算机图形学等技术的不断发展,三维人体网格恢复被广泛的应用到诸如虚拟现实、医学诊断、人机交互、动画制作等领域。
传统的三维人体网格恢复方法主要是基于多视角图像的重建,即在不同角度拍摄的多幅图像中提取人体的特征点,然后根据这些特征点进行三维人体网格恢复,这种方法需要耗费大量的计算资源,对图像传感器的位置和角度要求较为严格,并且存在有大量的噪声,导致生成的三维图像的精度及准确性较低,难以直接应用于后续业务。
因此,如何准确的生成用户的三维人体图像,提高图像精度,是一个亟待解决的问题。
发明内容
本说明书提供一种基于位姿引导的图像生成方法、装置、介质及设备,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
接收用户的图像生成请求,并根据所述图像生成请求,获取所述用户的人体点云数据;
将所述人体点云数据输入预设的图像生成模型,以通过所述图像生成模型,确定所述人体点云数据在三个相互垂直的投影面上的各平面特征;
将所述各平面特征进行融合,得到融合特征,以及,将所述各平面特征中指定投影面对应的平面特征作为目标平面特征,根据所述目标平面特征,确定所述用户各关节对应的位姿特征;
根据所述融合特征,构建所述用户的初始三维图像;
将所述初始三维图像以及所述位姿特征输入预设的扩散模型,以通过所述扩散模型,对所述初始三维图像添加噪声,得到加噪后图像;
基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像。
可选地,将所述各平面特征进行融合,得到融合特征,具体包括:
针对每个平面特征,确定该平面特征对应的平面序列;
根据该平面序列中的每个元素以及每个元素对应的注意力权重,对所述平面特征进行更新,得到更新后特征;
根据每个投影面对应的更新后特征,确定所述融合特征。
可选地,根据所述目标平面特征,确定所述用户各关节对应的位姿特征,具体包括:
根据所述目标平面特征,确定所述各关节对应的初始位姿特征;
针对每个关节,根据该关节对应初始位姿特征,确定该关节对应的欧拉角;
根据该关节对应的欧拉角,确定该关节对应的热力图关节特征;
根据每个关节对应热力图关节特征,确定所述各关节对应的位姿特征。
可选地,根据每个关节对应的热力图关节特征,确定所述各关节对应的位姿特征,具体包括:
针对每个关节,根据该关节与其他各关节之间的关联程度,确定其他各关节相对于该关节的权重;
根据所述权重以及其他各关节对应热力图关节特征,确定该关节对应的位姿特征。
可选地,基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像,具体包括:
根据所述位姿特征,预测对所述初始三维图像添加的噪声信息;
根据所述噪声信息,对所述加噪后图像进行重构,得到所述目标三维图像。
可选地,所述投影面包括:水平投影面、正立投影面以及侧立投影面。
可选地,将所述各平面特征中指定投影面对应的平面特征作为目标平面特征,具体包括:
在所述各平面特征中确定出所述正立投影面所对应的平面特征,作为所述目标平面特征。
本说明书提供了一种基于位姿引导的图像生成装置,包括:
获取模块,用于接收针对用户的图像生成请求,并根据所述图像生成请求,获取所述用户的人体点云数据;
投影模块,用于将所述人体点云数据输入预设的图像生成模型,以通过所述图像生成模型,确定所述人体点云数据在三个相互垂直的投影面上的各平面特征;
融合模块,用于将所述各平面特征进行融合,得到融合特征,以及,在所述各平面特征中确定出指定投影面的平面特征,作为目标平面特征,根据所述目标平面特征,确定所述用户各关节对应的位姿特征;
构建模块,用于根据所述融合特征,构建所述用户的初始三维图像;
加噪模块,用于将所述初始三维图像以及所述位姿特征输入预设的扩散模型,以通过所述扩散模型,对所述初始三维图像添加噪声,得到加噪后图像;
还原模块,用于基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于位姿引导的图像生成方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于位姿引导的图像生成方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的基于位姿引导的图像生成方法中,获取用户的人体点云数据;将人体点云数据输入预设的图像生成模型,确定人体点云数据在三个相互垂直的投影面上的各平面特征;在各平面特征中确定出指定投影面的平面特征,作为目标平面特征;将各平面特征进行融合,得到融合特征,以及,根据目标平面特征,确定用户各关节对应的位姿特征;根据融合特征,构建用户的初始三维图像;将初始三维图像以及位姿特征输入预设的扩散模型,对初始三维图像添加噪声,得到加噪后图像;基于位姿特征,对加噪后图像进行还原,得到目标三维图像。
从上述方法可以看出,本方案可以根据人体点云数据提取各投影面的平面特征,进而根据融合平面特征确定出初始三维图像,并不用考虑图像传感器的位置和角度,并且,在确定出平面特征的同时,还会基于目标平面的特征确定出位姿特征,当根据融合平面特征确定出精准度较低的初始三维图像后,可以通过扩散模型对初始三维图像进行加噪,并在位姿特征的引导下最加噪后的图像进行还原,从而得到包含有准确位姿信息和人体机构信息的目标三维图像,充分保证了图像的精度及准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种基于位姿引导的图像生成方法的流程示意图;
图2为本说明书中提供的一种目标三维图像的生成过程示意图;
图3为本说明书中提供的一种基于位姿引导的图像生成装置的示意图;
图4为本说明书中提供的一种对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种基于位姿引导的图像生成方法的流程示意图,包括以下步骤:
S101:接收用户的图像生成请求,并根据所述图像生成请求,获取所述用户的人体点云数据。
费雪分布作为一种概率分布,可以用于对参数的估计和误差的分析,在人像重建中,费雪分布主要基于统计推断和假设检验的原理,对三维点云进行评估和分析。
稳定扩散模型是一种有效的去噪方法,它通过模拟信号在图像中扩散的过程,从而去除图像中的噪声。将稳定扩散模型技术与费雪分布模型结合使用,可以在提高关键点位置准确性的同时,有效地抑制由于图像噪声引起的误差。
通过结合利用费雪分布模型对关节关系的建模能力和稳定扩散模型的噪声去除特性,不仅在提高三维人体网格恢复的准确性方面具有潜在优势,还有助于推动计算机视觉领域对于复杂场景下的人体动作分析的深入研究。
基于此,本说明书提供了一种基于位姿引导的图像生成方法,基于人体点云数据确定各平面特征以及位姿特征,之后通过稳定扩散模型,在位姿特征的引导下对根据融合平面特征生成的初始三维图像进行重建。
在本说明书中,用于实现一种基于位姿引导的图像生成方法的执行主体可以是服务器等指定设备,当然,也可以是安装在终端设备上的客户端,为了便于描述,以下仅以服务器作为执行主体为例,对本说明书提供的一种基于位姿引导的图像生成方法进行说明。
其中,服务器接收用户的图像生成请求,并根据该图像生成请求,获取该用户的人体点云数据。
在实际应用中,上述人体点云数据可以是通过诸如激光雷达、深度相机等传感器采集到的用户人体轮廓的点云数据序列,该点云中的每个点携带有其在指定坐标系下的位置信息。
S102:将所述人体点云数据输入预设的图像生成模型,以通过所述图像生成模型,确定所述人体点云数据在三个相互垂直的投影面上的各平面特征。
服务器可以将一维的点云数据序列输入图像生成模型,通过图像生成模型的特征提取网络,使用点网方法处理点云数据,该方法独立于输入表示,更专注于3D输入,使得该模型具有在恢复精细细节和缩放到大场景方面的能力。
具体的,服务器可以假设一个有噪声的稀疏点云数据序列作为输入x,首先使用特定于任务的神经网络处理输入x,以获得每个点的特征编码。
特征提取网络可以包含有三个模块,包括一个最大池化层和两个联合对其网络,最大池化层作为一个对称函数来聚合来自所有点的信息,联合对其网络用于对输入点和点的特征进行对齐。
为了使模型对输入排列不变,可以对点云数据序列中的点进行排序,该排序策略可以有多种,例如,服务器可以将输入排序为标准顺序;也可以将输入视为一个序列来训练循环神经网络,但通过各种排列来增加训练数据。
当然,服务器也可以使用一个简单的对称函数来聚合每个点的信息。一个对称函数取n个向量作为输入,并输出一个对输入顺序不变的新向量。
具体来说,这里使用循环神经网络将点云数据视为一个序列信号,该点云数据序列可以表示为:
其中和/>是一个对称函数。
随后服务器可以使用多层感知器网络近似一个定义在点集上的一般函数h,g是由单变量函数和最大池化函数的组成。通过一般函数h的集合,可以学习一些序列信号y来捕获集合的平面特征。
由于一维的点云数据序列在空间表达方面的限制,本方案采用了一个含有残差跳跃连接结构的网络的平面投影来学习局部几何特征。通过这种方式,一维点云数据被转换成平面特征矩阵,每个矩阵的尺寸都是H×W,其中H和W的值均设定为64。
具体的,特征提取网络可以通过其中的跳跃链接模块将点云数据序列在三个相互垂直的投影面上进行投影,这些投影面包括水平投影面(xz面)、正立投影面(xy面)以及侧立投影面(yz面)。之后得到点云数据序列在这三个投影面上的平面特征,也就是说,这三个投影面对应的平面特征矩阵代表了点云数据在三个互相垂直的投影平面上的特征。利用这些特征平面,可以全面地展现点云数据序列中的特征信息。
对于每个输入点,服务器可以在上述投影面上执行正交投影,以H × W像素单元的分辨率对其进行离散。得到维度为H × W × d的平面特征,其中d为特征维度。
S103:将所述各平面特征进行融合,得到融合特征,以及,将所述各平面特征中指定投影面对应的平面特征作为目标平面特征,根据所述目标平面特征,确定所述用户各关节对应的位姿特征。
服务器可以将特征提取网络提取到的三个平面特征输入图像生成模型的特征融合网络,从而对各平面特征进行融合,得到融合特征。
其中,服务器可以采用联合变压器作为特征融合网络,将每个投影面对应的平面特征作为一个序列输入,平面特征的特征序列可以分别表示为:
其中,N表示序列长度,C表示每个元素的特征维度。
之后服务器可以将上述三个平面特征序列输入特征融合网络输入特征融合网络的编码器中进行处理,针对每个平面特征,确定该平面特征对应的平面序列,根据该平面序列中的每个元素以及每个元素对应的注意力权重,对所述平面特征进行更新,得到更新后特征;根据每个投影面对应的更新后特征,确定融合特征。
具体的,编码器可以利用自注意力机制来计算序列内部的依赖关系和全局结构。它会对序列中的每个元素进行注意力权重的计算,从而捕捉元素之间的重要性和相关性。通过多层的自注意力计算,编码器可以将每个序列转化为相应的编码表示,其中包含了该平面上各个网格或块的特征信息。使用变压器网络的编码器处理这三个序列。假设有L层的编码器,每一层都包含多头自注意力机制。对于每个平面特征,编码器的输出可以分别表示为:
服务器得到之后,可以将这些更新后特征进行融合。
在本说明书中,服务器可以通过特征融合网络中指定的卷积层来对上述编码表示进行融合,以在考虑空间特征关系的同时,减少参数数量。
首先,服务器可以将上述三个编码表示进行通道卷积,将其转换为相同的特征通道数C,分别表示为:
其中,,/>,/>为卷积核,/>表示卷积核大小,/>表示卷积操作。服务器可以将每个特征向量转换为具有C通道的更新后特征/>
接下来,服务器可以将三个卷积输出的更新后特征进行拼接,得到一个综合的特征张量:
其中,concat表示沿着通道维度的拼接操作。最后,服务器可以再次使用卷积层对综合特征张量进行处理,得到最终的融合特征,该融合特征可以表示为:
其中为卷积核,C为输出通道数,h'和w'分别为输出的高度和宽度。
基于上述方法服务器可以得到一个融合的视图特征。通过卷积的平移不变性,服务器可以在特征融合中可以有效地捕捉空间特征关系。同时,减少网络参数数量,避免过拟合的发生。
与此同时,服务器可以在平面特征中确定出正立投影面对应的平面特征/>,并将其作为目标平面特征。
之后将目标平面特征输入图像生成模型中额外的全连接层,得到尺寸为L × M的特征矩阵F,其中L代表24个人体姿态关节,M的值可以设置为9,为费雪分布的输入参数,通过采样得到需要的旋转位姿表示,作为初始位姿特征。
其中,初始位姿特征能够提供关于身体各部分如何相对于彼此移动的详细信息,可以用来分析人体动作的连贯性和流畅性。
进一步的,服务器可以对初始位姿特征的维度进行调整,以便处理 24 个独立的矩阵参数,其中,每个/>代表着一个关节的初始位姿特征。服务器可以对这些矩阵参数进行归一化处理/>,以确保数据的一致性和可比性。归一化之后,服务器可以利用费雪分布对每个关节对应的旋转矩阵/>进行采样。三维特殊正交群/>可以定义为满足/>和/>的集合。每个旋转矩阵/>可以表示为:
费雪分布定义了在上的概率密度函数,其表达式为:
进一步的,服务器可以从每个关节对应的旋转矩阵R中计算出其对应的欧拉角。对于XYZ顺序的旋转,各欧拉角的计算方法可以表示为:
接着服务器可以根据每个关节对应的各欧拉角分别创建三个二维矩阵,以形成初始的热力图。在这个过程中,每个角度值/>分别被映射到对应的热力图/>中的适当位置,从而得到热力图关节特征/>,从而直观的展示关节的位姿信息。
进一步的,服务器可以根据每个关节对应热力图关节特征,确定各关节对应的位姿特征。
在计算机视觉领域,特别是在人体姿态估计任务中,融合多个视图或特征对于提高模型性能至关重要。为了有效地捕捉不同特征之间的关联性,服务器可以采用交叉注意力机制。通过图像生成模型的注意力网络,将一个热力图关节特征进行交叉注意力处理,以此来提高多注重关节部分的重建以得到更好的三维人体网格恢复。
其中,针对每个关节,服务器可以根据该关节与其他各关节之间的关联程度,确定其他各关节相对于该关节的权重,之后根据该权重以及其他各关节对应热力图关节特征,确定该关节对应的位姿特征。
具体的,服务器可以首先通过可学习的映射矩阵和/>对各热力图关节特征/>进行映射,引入学习到的关节特征,得到Q 、K、 V三个特征矩阵。该映射过程可以表示为:
之后注意力网络可以通过softmax函数,将注意力分数矩阵转换为注意力权重矩阵Attention。这个矩阵表示了每个关节的热力图关节特征对于其他关节的热力图关节特征的关注程度,softmax函数使这些权重的综合为1,该权重提取过程可以表示为:
也就是说,对于任意一个关节对应的热力图关节特征,注意力网络可以根据除该关节外的其他每个关节与该关节之间的关联程度(相对于该关节的权重),对其他每个关节的热力图关节特征进行加权求和,从而得到该关节位姿的最终特征表示,作为该关节对应的位姿特征。
交叉注意机制作为一种有效的特征融合和增强方法,可以提高深度神经网络的性能和表达能力并提高网络的鲁棒性和泛化能力,避免过拟合和欠拟合问题。通过交叉注意力机制,我们可以得到注意力权重值的结果,并将其运用到后续网络的训练之中。
S104:根据所述融合特征,构建所述用户的初始三维图像。
S105:将所述初始三维图像以及所述位姿特征输入预设的扩散模型,以通过所述扩散模型,对所述初始三维图像添加噪声,得到加噪后图像。
S106:基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像。
本方案引入稳定扩散模型去噪技术,为三维人体网格恢复领域带来了显著的好处。通过将这一技术融入三维人体网格恢复流程,我们成功解决了传统方法中受噪声影响导致姿态精准性不足的问题。这项技术创新不仅提升了重建结果的质量,同时在多个方面带来实质性的优势。我们的方法能够显著提高重建结果的鲁棒性。稳定扩散模型技术通过模拟信号在图像中扩散的过程,巧妙地去除了来自多种噪声源的影响。这使得我们的三维人体模型更为清晰和真实,尤其在存在运动模糊、低光照和传感器误差等干扰的情况下,表现更为出色。
其中,图像生成模型的特征提取网络得到融合特征后,可以基于该融合特征,生成一个具有较低精度的初始三维图像。
之后服务器可以将该初始三维图像以及提取到的位姿特征输入预设的扩散模型,通过该扩散模型,对初始三维图像添加噪声,得到加噪后图像,之后基于位姿特征来预测对初始三维图像添加的噪声信息,以根据预测出的噪声信息,对加噪后图像进行还原,从而在位姿特征的引导下重建出准确的目标三维图像。
具体的,稳定扩散模型由两个部分组成,每个部分都被定义为一个马尔可夫链。第一部分是正向过程,它通过迭代地向原始数据中添加预定义均值和方差的高斯噪声来逐渐扭曲数据。第二部分是反向过程,它通过训练一个逐步退化的神经网络来完成。
正向过程的目标是逼近后验分布。这个后验分布可以通过建模马尔可夫链实现,该链逐渐向原始数据/>(初始三维图像)中引入高斯噪声,并将其转化为均值为0、方差为/>的高斯分布/>。这种噪声是根据预先定义的噪声调度实现的,其中噪声的参数/>取决于步长/>。服务器可以采用余弦调度,相对于线性调度,在/>附近引入较少的噪声。在每个步骤t中,噪声以增量方式被添加到信号中。该过程可以表示为:
该公式允许在任何给定的时间步长以封闭形式对降级样本进行采样,表示为:
反向传播为联合分布通过估计高斯分布迭代地恢复退化,该过程可以表示为:
服务器可以通过基于扩散过程的生成模型(Denoising DiffusionProbabilistic Models,DDPM)框架,同时设置,并在条件c下根据当前的数据/>来参数化预测的平均值以及预测的噪声/>,该过程可以表示为:
服务器可以使用参数化为的神经网络来预测噪声,该神经网络的输入是输入初始三维图像。并以/>来引导噪声图像的恢复,从而得到最终的目标三维图像。
在去噪过程中,服务器可以使用交叉注意力机制将各关节的位姿特征引入到扩散模型的去噪过程中。这个注意力过程使得模型能够动态地关注重建的三视图特征和关节特征之间的关联性,从而更好地理解这两者之间的复杂关系。这对于位姿生成和分析任务特别有用,因为它能够在整合信息时更灵活地处理不同部分之间的关联。
在经过稳定扩散模型去噪之后,在噪声去除后,我们可以使图像更加清晰、细节更丰富,提高图像的视觉质量并可以提供更准确的特征和信息,有助于后续的图像分析、处理和识别任务,图像更易于观察和理解,提升人眼对图像的感知和认知。步骤五结束输出是去噪处理后的图像,它应该比原始带有噪声的图像更清晰、更具质量。为了便于理解,本说明书还提供了一种目标三维图像的生成过程示意图,如图2所示。
图2为本说明书中提供的一种目标三维图像的生成过程示意图。
其中,服务器将人体点云数据输入图像生成模型后,通过该图像生成模型的特征提取网络,提取相互垂直的三个投影面对应的平面特征,之后将平面特征进行融合,得到融合特征,并基于融合特征生成初始三维图像,与此同时,根据主视图特征确定初始位姿特征,基于初始位姿特征确定热力图关节特征,通过注意力机制对热力图关节特征进行更新,得到各关节的位姿特征。
而后将初始三维图像和各关节的位姿特征输入扩散模型,通过扩散模型对初始三维图像添加噪声,得到加噪后图像,之后根据位姿特征对添加的噪声信息进行预测,并基于预测出的噪声信息对三维图像进行还原,得到目标三维图像。
得到目标三维图像后,服务器可以通过该目三维图像执行后续的虚拟现实、医学诊断、人机交互、动画制作等任务。
需要指出的是,本说明书中用于提取平面特征的特征提取网络、提取位姿特征的注意力网络以及扩散模型可以集成在一个图像生成模型中,当然,包含有特征提取网络和注意力网络的图像生成模型和扩散模型也可以是独立的两个模型。
从上述方法可以看出,本方案通过融合稳定扩散模型去噪技术和费雪分布生成位姿方法,该研究在三维人体网格恢复中实现了更高的准确性。稳定扩散模型技术有效去除图像中的噪声,而费雪分布模型通过关联性建模提升了对关键点位置的准确还原,从而提高了整体重建的精度。
利用三视图特征的联合提取,在保持高效性的同时,显著提高了对人体结构信息的捕捉效果。这不仅使得三维人体模型更为真实,同时也增强了对身体细节和关键关节的建模准确性。
引入稳定扩散模型技术,研究充分利用了其在模拟信号扩散过程中去除图像噪声的能力。通过在综合特征融合和关节旋转特征生成过程中应用稳定扩散模型,成功抑制了由于多种噪声(如运动模糊、低光照和传感器误差)引起的误差,从而提高了整体重建的鲁棒性。
通过联合变压器对提取的平面特征进行融合,增强了对整体人体结构的综合理解能力。这有助于更全面地捕捉人体各部分的几何形状和关联性,为更精确的重建提供了有力支持。
以上为本说明书的一个或多个实施基于位姿引导的图像生成方法,基于同样的思路,本说明书还提供了相应的基于位姿引导的图像生成装置,如图3所示。
图3为本说明书提供的一种模型部署的装置的示意图,包括:
获取模块301,用于接收针对用户的图像生成请求,并根据所述图像生成请求,获取所述用户的人体点云数据;
投影模块302,用于将所述人体点云数据输入预设的图像生成模型,以通过所述图像生成模型,确定所述人体点云数据在三个相互垂直的投影面上的各平面特征;
融合模块303,用于将所述各平面特征进行融合,得到融合特征,以及,在所述各平面特征中确定出指定投影面的平面特征,作为目标平面特征,根据所述目标平面特征,确定所述用户各关节对应的位姿特征;
构建模块304,用于根据所述融合特征,构建所述用户的初始三维图像;
加噪模块305,用于将所述初始三维图像以及所述位姿特征输入预设的扩散模型,以通过所述扩散模型,对所述初始三维图像添加噪声,得到加噪后图像;
还原模块306,用于基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像。
可选地,所述融合模块303具体用于,针对每个平面特征,确定该平面特征对应的平面序列;根据该平面序列中的每个元素以及每个元素对应的注意力权重,对所述平面特征进行更新,得到更新后特征;根据每个投影面对应的更新后特征,确定所述融合特征。
可选地,所述融合模块303具体用于,根据所述目标平面特征,确定所述各关节对应的初始位姿特征;针对每个关节,根据该关节对应初始位姿特征,确定该关节对应的欧拉角;根据该关节对应的欧拉角,确定该关节对应的热力图关节特征;根据每个关节对应热力图关节特征,确定所述各关节对应的位姿特征。
可选地,所述融合模块303具体用于,针对每个关节,根据该关节与其他各关节之间的关联程度,确定其他各关节相对于该关节的权重;根据所述权重以及其他各关节对应热力图关节特征,确定该关节对应的位姿特征。
可选地,所述还原模块306具体用于,根据所述位姿特征,预测对所述初始三维图像添加的噪声信息;根据所述噪声信息,对所述加噪后图像进行重构,得到所述目标三维图像。
可选地,所述投影面包括:水平投影面、正立投影面以及侧立投影面。
可选地,所述融合模块303具体用于,在所述各平面特征中确定出所述正立投影面所对应的平面特征,作为所述目标平面特征。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种基于位姿引导的图像生成方法。
本说明书还提供了图4所示的一种对应于图1的电子设备的示意结构图。如图4所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的基于位姿引导的图像生成方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(ProgrammableLogic Device, PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(HardwareDescription Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(AdvancedBoolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(JavaHardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby HardwareDescription Language)等,目前最普遍使用的是VHDL(Very-High-Speed IntegratedCircuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种基于位姿引导的图像生成方法,其特征在于,包括:
接收用户的图像生成请求,并根据所述图像生成请求,获取所述用户的人体点云数据;
将所述人体点云数据输入预设的图像生成模型,以通过所述图像生成模型,确定所述人体点云数据在三个相互垂直的投影面上的各平面特征;
将所述各平面特征进行融合,得到融合特征,以及,将所述各平面特征中指定投影面对应的平面特征作为目标平面特征,根据所述目标平面特征,确定所述用户各关节对应的位姿特征;
根据所述融合特征,构建所述用户的初始三维图像;
将所述初始三维图像以及所述位姿特征输入预设的扩散模型,以通过所述扩散模型,对所述初始三维图像添加噪声,得到加噪后图像;
基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像。
2.如权利要求1所述的方法,其特征在于,将所述各平面特征进行融合,得到融合特征,具体包括:
针对每个平面特征,确定该平面特征对应的平面序列;
根据该平面序列中的每个元素以及每个元素对应的注意力权重,对所述平面特征进行更新,得到更新后特征;
根据每个投影面对应的更新后特征,确定所述融合特征。
3.如权利要求1所述的方法,其特征在于,根据所述目标平面特征,确定所述用户各关节对应的位姿特征,具体包括:
根据所述目标平面特征,确定所述各关节对应的初始位姿特征;
针对每个关节,根据该关节对应初始位姿特征,确定该关节对应的欧拉角;
根据该关节对应的欧拉角,确定该关节对应的热力图关节特征;
根据每个关节对应热力图关节特征,确定所述各关节对应的位姿特征。
4.如权利要求3所述的方法,其特征在于,根据每个关节对应的热力图关节特征,确定所述各关节对应的位姿特征,具体包括:
针对每个关节,根据该关节与其他各关节之间的关联程度,确定其他各关节相对于该关节的权重;
根据所述权重以及其他各关节对应热力图关节特征,确定该关节对应的位姿特征。
5.如权利要求1所述的方法,其特征在于,基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像,具体包括:
根据所述位姿特征,预测对所述初始三维图像添加的噪声信息;
根据所述噪声信息,对所述加噪后图像进行重构,得到所述目标三维图像。
6.如权利要求1所述的方法,其特征在于,所述投影面包括:水平投影面、正立投影面以及侧立投影面。
7.如权利要求6所述的方法,其特征在于,将所述各平面特征中指定投影面对应的平面特征作为目标平面特征,具体包括:
在所述各平面特征中确定出所述正立投影面所对应的平面特征,作为所述目标平面特征。
8.一种基于位姿引导的图像生成装置,其特征在于,包括:
获取模块,用于接收针对用户的图像生成请求,并根据所述图像生成请求,获取所述用户的人体点云数据;
投影模块,用于将所述人体点云数据输入预设的图像生成模型,以通过所述图像生成模型,确定所述人体点云数据在三个相互垂直的投影面上的各平面特征;
融合模块,用于将所述各平面特征进行融合,得到融合特征,以及,在所述各平面特征中确定出指定投影面的平面特征,作为目标平面特征,根据所述目标平面特征,确定所述用户各关节对应的位姿特征;
构建模块,用于根据所述融合特征,构建所述用户的初始三维图像;
加噪模块,用于将所述初始三维图像以及所述位姿特征输入预设的扩散模型,以通过所述扩散模型,对所述初始三维图像添加噪声,得到加噪后图像;
还原模块,用于基于所述位姿特征,对所述加噪后图像进行还原,得到目标三维图像。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
CN202410189825.6A 2024-02-20 2024-02-20 一种基于位姿引导的图像生成方法、装置、介质及设备 Pending CN117745956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410189825.6A CN117745956A (zh) 2024-02-20 2024-02-20 一种基于位姿引导的图像生成方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410189825.6A CN117745956A (zh) 2024-02-20 2024-02-20 一种基于位姿引导的图像生成方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN117745956A true CN117745956A (zh) 2024-03-22

Family

ID=90254915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410189825.6A Pending CN117745956A (zh) 2024-02-20 2024-02-20 一种基于位姿引导的图像生成方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN117745956A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643422A (zh) * 2021-07-09 2021-11-12 北京三快在线科技有限公司 一种信息展示方法及装置
CN114241524A (zh) * 2021-12-23 2022-03-25 北京邮电大学 人体姿态估计方法、装置、电子设备及可读存储介质
CN116678424A (zh) * 2023-05-30 2023-09-01 北京百度网讯科技有限公司 高精度车辆定位、矢量化地图构建及定位模型训练方法
CN117274491A (zh) * 2023-09-22 2023-12-22 北京百度网讯科技有限公司 三维重建模型的训练方法、装置、设备和介质
CN117422802A (zh) * 2023-12-19 2024-01-19 粤港澳大湾区数字经济研究院(福田) 三维人像数字化重建方法、装置、终端设备及存储介质
CN117456236A (zh) * 2023-10-19 2024-01-26 昆山杜克大学 一种3d点云数据零样本分类方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643422A (zh) * 2021-07-09 2021-11-12 北京三快在线科技有限公司 一种信息展示方法及装置
CN114241524A (zh) * 2021-12-23 2022-03-25 北京邮电大学 人体姿态估计方法、装置、电子设备及可读存储介质
CN116678424A (zh) * 2023-05-30 2023-09-01 北京百度网讯科技有限公司 高精度车辆定位、矢量化地图构建及定位模型训练方法
CN117274491A (zh) * 2023-09-22 2023-12-22 北京百度网讯科技有限公司 三维重建模型的训练方法、装置、设备和介质
CN117456236A (zh) * 2023-10-19 2024-01-26 昆山杜克大学 一种3d点云数据零样本分类方法、装置、设备及存储介质
CN117422802A (zh) * 2023-12-19 2024-01-19 粤港澳大湾区数字经济研究院(福田) 三维人像数字化重建方法、装置、终端设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGMI ZHANG: "Vision-based Detection and Pose Estimation for Formation of Micro Aerial Vehicles", IEEE, 31 December 2014 (2014-12-31) *
尚国威: "空间最优投影平面的斜口圆截面管路 端头位姿测量", 光学 精密工程, 31 January 2024 (2024-01-31) *

Similar Documents

Publication Publication Date Title
Gwak et al. Generative sparse detection networks for 3d single-shot object detection
US10984545B2 (en) Estimating depth for a video stream captured with a monocular rgb camera
JP7373554B2 (ja) クロスドメイン画像変換
CN112614213B (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
CN117372631B (zh) 一种多视角图像生成模型的训练方法、应用方法
CN116977525B (zh) 一种图像渲染方法、装置、存储介质及电子设备
CN110942512B (zh) 基于元学习的室内场景重建方法
CN112330779A (zh) 一种生成角色模型舞蹈动画的方法和系统
CN116958492B (zh) 一种基于NeRf重建三维底座场景渲染的VR编辑方法
CN112734910A (zh) 基于rgb单图实时人脸三维图像重建方法、装置及电子设备
CN115809696B (zh) 虚拟形象模型训练方法及装置
CN117745956A (zh) 一种基于位姿引导的图像生成方法、装置、介质及设备
Huang et al. SPoVT: Semantic-prototype variational transformer for dense point cloud semantic completion
CN116543246A (zh) 图像去噪模型的训练方法、图像去噪方法、装置及设备
CN117893696B (zh) 一种三维人体数据生成方法、装置、存储介质及电子设备
CN117726760B (zh) 一种用于视频的三维人体重建模型的训练方法及装置
CN116612244B (zh) 一种图像生成方法、装置、存储介质及电子设备
CN117726907B (zh) 一种建模模型的训练方法、三维人体建模的方法以及装置
CN117808976B (zh) 一种三维模型构建方法、装置、存储介质及电子设备
CN116579414B (zh) 模型训练方法、mri薄层数据重建方法、装置及设备
CN116309924B (zh) 一种模型训练的方法、图像展示的方法及装置
CN117830564A (zh) 一种姿态分布指导的三维虚拟人模型重建方法
CN117689822B (zh) 一种三维模型构建方法、装置、存储介质及电子设备
CN117593619B (zh) 图像处理方法、装置、电子设备及存储介质
CN114612510B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination