CN118072125A

CN118072125A - 交互动作生成模型训练方法、交互动作生成方法、装置、电子设备及存储介质

Info

Publication number: CN118072125A
Application number: CN202410214108.4A
Authority: CN
Inventors: 汪婧雅; 吴千阳; 石野
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-05-24

Abstract

本发明涉及人工智能技术领域，公开了一种交互动作生成模型训练方法、交互动作生成方法、装置、电子设备及存储介质，该方法通过样本交互控制文本生成样本交互控制条件信号，通过扩散模型基于该样本交互控制条件信号和样本人‑物交互序列得到初始预测人‑物交互序列，通过干预网络对该初始预测人‑物交互序列进行修正，得到修正后预测人‑物交互序列，通过修正后预测人‑物交互序列和样本人‑物交互序列之间的差异对扩散模型进行调整，得到训练后的交互动作生成模型，所得到的训练后的交互动作生成模型能够弥合人体运动和物体运动之间的差距，能够在给定文本提示和3D物体模型的情况下，在单一的扩散模型框架中生成符合文本描述的人‑物互动。

Description

交互动作生成模型训练方法、交互动作生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种交互动作生成模型训练方法、交互动作生成方法、装置、电子设备及存储介质。

背景技术

3D人-物动作捕捉和生成模型的进步使得人-物交互合成变得更加可行。文本作为一种自然且互动性强的方式可以用于控制生成，以文本指导的人-物交互生成可以提升用户体验。

相关技术中，对于3D人-物动作捕捉和生成模型的研究尝试利用变分自编码器、生成对抗网络等从文本描述生成3D人体动作。然而，由于人体动作的复杂性，以及对动态物体姿态建模和协调人-物动作同步的需求，基于文本描述生成人-物交互，需要确保人-物交互与本文的一致性。源于物体运动的语义模糊性，在三维空间中准确理解和融合人与物体之间的交互细节非常困难。不同类别和形状的物体以复杂和多样的方式运动，确保模型能根据不同类别和形状生成真实、合理的人-物交互也同样具备挑战性。

发明内容

本申请提供一种交互动作生成模型训练方法、交互动作生成方法、装置、电子设备及存储介质，以解决相关技术中的源于物体运动的语义模糊性，在三维空间中准确理解和融合人与物体之间的交互细节非常困难。不同类别和形状的物体以复杂和多样的方式运动，确保模型能根据不同类别和形状生成真实、合理的人-物交互也同样具备挑战性的技术问题。

本发明实施例提供了一种交互动作生成模型训练方法，所述交互动作生成模型包括文本编码模块、形状编码模块、扩散模型和干预网络，所述方法包括：获取样本交互控制文本和样本人-物交互序列，所述样本交互控制文本包括样本动作描述信息和样本交互对象信息；通过所述文本编码模块生成所述样本动作描述信息对应的样本文本条件信号；通过所述形状编码模块生成所述样本交互对象信息对应的样本对象形状条件信号；基于所述样本文本条件信号和所述样本对象形状条件信号生成样本交互控制条件信号；通过所述扩散模型基于所述样本交互控制条件信号和所述样本人-物交互序列输出初始预测人-物交互序列；通过所述干预网络确定所述初始预测人-物交互序列的修正数据，基于所述修正数据对所述预测人-物交互序列进行修正，得到修正后预测人-物交互序列；根据所述修正后预测人-物交互序列与所述样本人-物交互序列之间的差异，对所述扩散模型进行调整，得到训练后的交互动作生成模型。

于本发明一实施例中，通过所述文本编码模块生成所述样本动作描述信息对应的样本文本条件信号，包括：通过所述文本编码模块对所述样本动作描述信息进行文本编码得到文本嵌入向量，将所述文本嵌入向量进行线性变换得到样本文本条件信号。

于本发明一实施例中，将所述文本嵌入向量进行线性变换得到样本文本条件信号，包括：将所述文本嵌入向量进行线性变换；对线性变换后的文本嵌入向量以预设概率被随机掩码遮盖，得到所述样本文本条件信号。

于本发明一实施例中，通过所述形状编码模块生成所述样本交互对象信息对应的样本对象形状条件信号，包括：根据所述样本交互对象信息确定交互对象的简化点云；通过所述形状编码模块将所述简化点云进行形状编码得到形状嵌入向量，对所述形状嵌入向量进行线性变换得到样本对象形状条件信号。

于本发明一实施例中，获取样本人-物交互序列，包括：获取N帧人-物交互图像；基于N帧人-物交互图像确定真实人-物交互序列；将首帧的人体根节点朝向调整为预设轴方向，以及将根节点位置统一在预设位置，以使人体首帧的起始位置和朝向统一；将调整后的真实人-物交互序列作为样本人-物交互序列。

于本发明一实施例中，通过所述扩散模型基于所述样本交互控制条件信号和所述样本人-物交互序列输出初始预测人-物交互序列，包括：通过所述扩散模型在前向扩散过程对所述样本人-物交互序列逐步添加高斯噪声得到不同噪声水平的噪声人-物交互序列，所述样本人-物交互序列基于所述样本交互对象信息确定；在通过所述扩散模型在逆向扩散过程对所述噪声人-物交互序列去噪时对所述噪声水平进行编码得到编码噪声水平；将所述编码噪声水平与所述样本交互控制条件信号进行相加，并与对应的样本人-物交互序列进行位置编码，得到位置编码结果；将所述位置编码结果通过多层Transformer编码器和一次线性变换预测去噪后的噪声人-物交互序列，作为初始预测人-物交互序列。

于本发明一实施例中，通过所述干预网络确定所述初始预测人-物交互序列的修正数据，包括：通过所述初始预测人-物交互序列构建预测人-物相对旋转关系和预测人-物相对位置关系；将所述预测人-物相对旋转关系输入旋转编码器，以预测得到物体旋转变换修正项；将所述预测人-物相对位置关系输入位置编码器，以预测得到物体位置变换修正项；其中，所述旋转编码器与所述位置编码器之间的结构相同且参数不共享，所述干预网络包括所述旋转编码器和所述位置编码器，所述修正数据包括所述物体旋转变换修正项和所述物体位置变换修正项。

于本发明一实施例中，基于所述修正数据对所述预测人-物交互序列进行修正，得到修正后预测人-物交互序列，包括：根据所述修正数据对预测物体位姿进行修正，得到修正后物体位姿；基于所述修正后物体位姿和预测人体位姿生成修正后预测人-物交互序列；其中，所述预测人-物交互序列包括预测物体位姿和预测人体位姿。

于本发明一实施例中，根据所述修正后预测人-物交互序列与所述样本人-物交互序列之间的差异对所述扩散模型进行调整，包括：根据所述修正后预测人-物交互序列与所述样本人-物交互序列确定基础损失；通过所述基础损失对所述扩散模型进行调整。

于本发明一实施例中，通过所述基础损失对所述扩散模型进行调整，包括：根据所述预测人-物相对旋转关系和样本人-物相对旋转关系，以及根据预测人-物相对位置关系和样本人-物相对位置关系确定人-物空间关系损失，所述样本人-物相对旋转关系和所述样本人-物相对位置关系基于所述样本人-物交互序列构建；根据所述修正后物体位姿对简化点云进行变换，得到变换点云，所述简化点云基于所述样本交互对象信息确定，计算人体关节点到所述变换点云的关节预测最近邻点，并计算所述人体关节点至所述关节预测最近邻点的预测第一距离，确定所述变换点云到所述人体关节点的物体预测最近邻点，并计算所述物体预测最近邻点至交互对象的预测第二距离，所述修正后物体位姿基于所述修正后预测人-物交互序列得到，根据所述预测第一距离与真实第一距离，所述预测第二距离与真实第二距离确定人-物距离场损失，所述真实第一距离表征所述样本人-物交互序列中人体关节点至关节真实最近邻点之间的距离，所述真实第二距离表征所述样本人-物交互序列中物体真实最近邻点至所述交互对象的预测第二距离；根据所述修正后预测人-物交互序列与所述样本人-物交互序列之间的速度差异进行正则化处理，得到交互序列速度正则项；基于所述人-物空间关系损失、所述人-物距离场损失、所述交互序列速度正则项中至少之一，以及所述基础损失对所述扩散模型进行调整。

于本发明一实施例中，基于所述人-物空间关系损失、所述人-物距离场损失、所述交互序列速度正则项中至少之一，以及所述基础损失对所述扩散模型进行调整之前，所述方法还包括：获取所述初始预测人-物交互序列所采用的噪声水平；若所述噪声水平小于预设噪声水平阈值，至少基于所述人-物距离场损失和所述基础损失对所述扩散模型进行调整；若所述噪声水平大于预设噪声水平阈值，基于所述人-物空间关系损失、所述交互序列速度正则项中至少之一，以及所述基础损失对所述扩散模型进行调整。

本发明实施例还提供了一种交互动作生成方法，所述方法包括：获取待生成交互控制文本，所述待生成交互控制文本至少包括待生成动作描述信息和待生成交互对象信息；通过文本编码模块生成所述待生成动作描述信息对应的待生成文本条件信号；通过形状编码模块生成所述待生成交互对象信息对应的待生成对象形状条件信号；基于所述待生成文本条件信号和所述待生成对象形状条件信号生成待生成交互控制条件信号；通过扩散模型基于所述待生成交互控制条件信号和待生成人-物交互序列输出初始待生成人-物交互序列；通过干预网络确定所述初始待生成人-物交互序列的修正数据，基于所述修正数据对所述待生成人-物交互序列进行修正，得到修正后待生成人-物交互序列。

本发明实施例还提供了一种交互控制装置，所述装置包括：获取模块、文本编码模块、形状编码模块、条件信号生成模块、扩散模型和干预网络，其中：所述获取模块用于获取待生成交互控制文本和待生成人-物交互序列，所述待生成交互控制文本包括待生成动作描述信息和待生成交互对象信息；所述文本编码模块用于生成所述待生成动作描述信息对应的待生成文本条件信号；所述形状编码模块用于生成所述待生成交互对象信息对应的待生成对象形状条件信号；所述条件信号生成模块用于基于所述待生成文本条件信号和所述待生成对象形状条件信号生成待生成交互控制条件信号；所述扩散模型用于基于所述待生成交互控制条件信号和所述待生成人-物交互序列输出初始待生成人-物交互序列；所述干预网络用于确定所述初始待生成人-物交互序列的修正数据，基于所述修正数据对所述待生成人-物交互序列进行修正，得到修正后待生成人-物交互序列。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项实施例所述的方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任一项实施例所述的方法。

上述提供的交互动作生成模型训练方法、交互动作生成方法、装置、电子设备及存储介质所实现的方案中，该方法通过样本交互控制文本生成样本交互控制条件信号，通过扩散模型基于该样本交互控制条件信号和样本人-物交互序列得到初始预测人-物交互序列，通过干预网络对该初始预测人-物交互序列进行修正，得到修正后预测人-物交互序列，进而基于修正后预测人-物交互序列和样本人-物交互序列之间的差异对扩散模型进行调整，以得到训练后的交互动作生成模型，通过上述训练方法所得到的训练后的交互动作生成模型能够弥合人体运动和物体运动之间的差距，能够在给定文本提示和3D物体模型的情况下，在一个单一的扩散模型框架中生成符合文本描述的人-物互动。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种交互控制方法的实施环境示意图；

图2为本发明实施例提供的交互动作生成模型训练方法的一个流程示意图；

图3为本发明实施例提供的交互动作生成模型的一个具体的结构示意图；

图4为本发明实施例提供的交互动作生成方法的一个流程示意图；

图5为本发明实施例提供的扩散模型内单步文本驱动生成3D人-物交互的一个流程示意图；

图6为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的一个示意图；

图7为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图；

图8为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图；

图9为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图；

图10为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图；

图11为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图；

图12为本发明实施例提供的交互动作生成装置的一个结构示意图；

图13为本发明一实施例中电子设备的一结构示意图；

图14为本发明一实施例中电子设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当知晓的是，本申请中提到“第一”“第二”等并非一定用于描述特定的排序后先后顺序，而是用于对相似的对象进行区分，在以“第一”“第二”等来区别相似的对象时，其所标识的“第一”“第二”可以在适当的情况下进行调整、互换。本申请中所描述的“多个”，在没有明确说明的前提下，“多个”是指代两个或两个以上。此外，在本申请实施例中，所描述的“根据A确定B”，可以是只根据A确定B，还可以是根据A结合其他信息共同确定B。

本申请实施例提供的技术方案，可以应用于人工智能、图像处理、计算机动画、机器人技术、虚拟现实、增强现实等技术领域。

请参阅图1所示，图1为本申请实施例提供的一种交互控制方法的实施环境示意图。如图1所示的实施环境包括终端101。该终端101安装有能够提供基于交互动作生成模型训练方法所训练得到的交互动作生成模型生成的应用程序，该应用程序的具体实现在此不做限定。终端101能够提供输入交互控制文本数据的输入接口，并根据该交互控制文本数据来通过应用程序生成一系列人-物交互序列，进而根据需要进行展示该人-物交互序列，形成动画。交互控制文本数据可以直接是文本输入，也可以是通过语音输入、图像输入(如对包括有文字的图像进行识别，得到文本数据)等，进而将其转化为文本，得到交互控制文本数据。交互控制文本数据的获得可以直接通过该终端执行，也可以通过其他终端执行，将得到的交互控制文本数据发送至本终端，或者通过本领域技术人员所知晓的其他方式实现。

在一实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载终端或可穿戴设备等。终端可以是多个终端中的一个。

在一种可能实现方式中，基于交互动作生成模型训练方法生成的应用程序还可以部署在服务器中，以对交互动作生成模型进行训练。示例的，训练得到的交互动作生成模型也可以部署在服务器中，通过输入终端设备采集得到交互控制文本数据后，发送至服务器，进而得到一系列人-物交互序列，将该一系列人-物交互序列发送至显示设备，以进行显示。其中，输入终端设备与显示设备可以是相同的设备，也可以是不同的设备。

生成3D人与物体的交互对于各种应用至关重要。随着技术的进步，3D人-物动作捕捉和生成模型的进步使得人-物交互合成变得更加可行。文本作为一种自然且互动性强的方式可以用于控制生成，以文本指导的人-物交互生成可以提升用户体验。

相关技术中，尝试利用变分自编码器、生成对抗网络或扩散模型从文本描述生成3D人体动作。然而，发明人发现，这些方法主要关注生成人体动作，忽略了人体与周围环境，特别是物体之间复杂互动的细节。另外一些工作生成人-物交互的工作要么仅限于与室内场景里的静态物体交互，要么仅生成人体上肢与物体的交互。

由于人体动作的复杂性，以及对动态物体姿态建模和协调人-物动作同步的需求，生成与动态物体的全身交互更加困难。基于文本描述生成人-物交互，需要确保人-物交互与本文的一致性。源于物体运动的语义模糊性，在三维空间中准确理解和融合人与物体之间的交互细节非常困难。不同类别和形状的物体以复杂和多样的方式运动，确保模型能根据不同类别和形状生成真实、合理的人-物交互也同样具备挑战性。

发明人发现，相关技术中从文本生成3D人-物交互存在以下限制：1)缺少与动态物体的交互；2)交互中的人体动作主要集中在上肢运动；3)物体的类别和形状不够丰富，或者生成的物体运动与文本的一致性较差。

为解决上述问题，本申请实施例提供了一种交互控制方法，通过对文本提示(如交互控制文本数据)和物体模型(需要与人体进行交互的物)分别进行编码，作为条件信号控制初步生成人-物交互，然后将人-物关系干预模块整合到扩散模型中，利用构建的人-物空间关系对不可靠的物体运动进行干预，使生成的交互与输入文本保持一致并提升生成交互的真实性和合理性。

请参阅图2所示，图2为本发明实施例提供的交互动作生成模型训练方法的一个流程示意图。该方法的执行主体可以为电子设备，该电子设备可以为服务器、终端等，本申请实施例对此不作限定。该交互动作生成模型包括文本编码模块、形状编码模块、扩散模型和干预网络。

如图2所示，该方法包括如下步骤：

步骤S210，获取样本交互控制文本和样本人-物交互序列。

其中，样本交互控制文本包括样本动作描述信息和样本交互对象信息。

样本交互控制文本和样本人-物交互序列具有对应关系，该样本交互控制文本描述了人与交互对象之间的相对动作。例如，该样本人-物交互序列可以基于真实的从人-物交互图像中通过动作捕捉技术获得动作捕捉数据，进而得到样本人-物交互系列，或通过其他本领域技术人员所知晓的方式得到。可以认为样本人-物交互序列为“真值”。

本实施例中的交互对象在交互动作中并非保持同一个位姿不变的，而是根据相关的交互控制文本进行位姿的相应调整，进而相对于位姿不变的物体而言，可以视为一种“动态物体”，如被拿起的书本，可以视为在拿起过程中的“动态物体”，其位姿可能发生变化。相关技术的方案中，在书本被拿起的过程中，书本的位姿往往保持不变，使得交互不够生动。

在一实施例中，在模型中的人的3D模型可以是全身的模型，这样，使得后续训练后得到的交互动作生成模型中的人体可以是全身进行移动，而非单纯的上身或者手部的移动，使得基于训练后的交互动作生成模型所生成的交互动作更为生动、灵活。模型可以预先配置多种交互对象，进而实现了对于多种物体的支持。

样本交互控制文本与后续提到的待生成交互控制文本，均可以是语音或文字等能够表征交互对象和动作描述的特征。例如，可以通过用户的语音描述得到交互控制文本，也可以通过用户的文本描述，如通过键盘等进行文本输入，得到交互控制文本，又或者在技术成熟的条件下，通过采集用户的脑电波进行识别，以得到交互控制文本。交互控制文本例如为“一个人用左手拿起垃圾桶并倾倒其中的东西”等。

在一实施例中，获取样本人-物交互序列，包括：获取N帧人-物交互图像；基于N帧人-物交互图像确定真实人-物交互序列；将首帧的人体根节点朝向调整为预设轴方向，以及将根节点位置统一在预设位置，以使人体首帧的起始位置和朝向统一；将调整后的真实人-物交互序列作为样本人-物交互序列。

例如，从人-物交互图像中通过动作捕捉技术获得真实人-物交互序列，预处理真实的人-物交互数据。对于N帧的人-物交互序列，将首帧的人体根节点朝向调整为+z轴方向，同时根节点位置统一在原点。后续帧的人体动作和物体动作也随之进行调整，最终所有序列都规范化，人体首帧的起始位置和朝向统一。通过预处理多组真实的人-物交互数据得到多个批次的人-物交互序列，并且预先配置好该人-物交互序列对应的文本提示(交互控制文本)和交互对象的3D模型。

在选择训练数据集D_train时，可以随机采样一个批次的人-物交互序列及输入条件B表示批次大小，x_i表示第i个人-物交互序列，y_i表示对应的控制生成的条件，暨文本提示和物体的3D模型。为了方便符号表示，后续将省略下标i。每个人-物交互序列具体表示为x＝[x^h,x^o]，这里x^h＝[q,j]，x^o＝[r,o]，其中q∈R^N×J×3表示SMPL-H模型定义的人体关节旋转轴角，j∈R^N×J×3表示SMPL-H模型定义的人体关节位置，这里J＝52表示SMPL-H中人体的关节数量，r∈R^N×3表示物体位姿的旋转变换，o∈R^N×3表示物体位姿的平移变换。

步骤S220，通过文本编码模块生成样本动作描述信息对应的样本文本条件信号。

在一实施例中，通过文本编码模块生成样本动作描述信息对应的样本文本条件信号，包括：通过文本编码模块对样本动作描述信息进行文本编码得到文本嵌入向量，将文本嵌入向量进行线性变换得到样本文本条件信号。

在本实施例中，将文本嵌入向量进行线性变换得到样本文本条件信号，包括：将文本嵌入向量进行线性变换；对线性变换后的文本嵌入向量以预设概率被随机掩码遮盖，得到样本文本条件信号。

其中，文本编码模块可以为预先训练好的CLIP文本编码器等，本训练方法对于文本编码模块和后文提到的形状编码模块不做额外的训练。

步骤S230，通过形状编码模块生成样本交互对象信息对应的样本对象形状条件信号。

在一实施例中，形状编码模块与前述的文本编码模块可以基于视觉语言预训练模型CLIP等实现，在此不做限定。

在一实施例中，通过形状编码模块生成样本交互对象信息对应的样本对象形状条件信号，包括：根据样本交互对象信息确定交互对象的简化点云；通过形状编码模块将简化点云进行形状编码得到形状嵌入向量，对形状嵌入向量进行线性变换得到样本对象形状条件信号。

该交互动作生成模型可以支持人与多种交互对象之间的交互，可以通过输入的交互控制文本来确定当前所需要交互的对象是哪一个，进而可以通过预先对备选的交互对象的3D模型进行点云采集，得到支持的每一个交互对象的简化点云，根据交互控制文本所对应的交互对象信息来选择一个简化点云。3D模型的获取方式可以采用本领域技术人员所知晓的方式得到，在此不作限定。

交互对象可以是静态的可以被移动，与人产生交互的对象，比如桌子、椅子、石头、手机等。

可以预先对模型所支持的多个交互对象的3D模型的表面随机采样关键点得到简化点云。每一个简化点云均配置有交互对象标识，交互对象信息中可以包括交互对象标识，或者通过该交互对象信息可以查找到交互对象标识，进而可以找到当前需要交互的交互对象的简化点云。当然，简化点云的确定还可以通过本领域技术人员所知晓的其他方式实现，在此不做限定。

步骤S240，基于样本文本条件信号和样本对象形状条件信号生成样本交互控制条件信号。

可以将样本文本条件信号与样本对象形状条件信号相加，得到样本交互控制条件信号。

步骤S250，通过扩散模型基于样本交互控制条件信号和样本人-物交互序列输出初始预测人-物交互序列。

在一实施例中，通过扩散模型基于样本交互控制条件信号和样本人-物交互序列输出初始预测人-物交互序列，包括：通过扩散模型在前向扩散过程对样本人-物交互序列逐步添加高斯噪声得到不同噪声水平的噪声人-物交互序列，样本人-物交互序列基于样本交互对象信息确定；在通过扩散模型在逆向扩散过程对噪声人-物交互序列去噪时对噪声水平进行编码得到编码噪声水平；将编码噪声水平与样本交互控制条件信号进行相加，并与对应的样本人-物交互序列进行位置编码，得到位置编码结果；将位置编码结果通过多层Transformer编码器和一次线性变换预测去噪后的噪声人-物交互序列，作为初始预测人-物交互序列。初始预测人-物交互序列可以用于预测物体的动作序列的修正数据，进而可以优化物体的动作序列，实现更高质量的人-物交互生成。

步骤S260，通过干预网络确定初始预测人-物交互序列的修正数据，基于修正数据对预测人-物交互序列进行修正，得到修正后预测人-物交互序列。

在一实施例中，通过干预网络确定初始预测人-物交互序列的修正数据，包括：通过初始预测人-物交互序列构建预测人-物相对旋转关系和预测人-物相对位置关系；将预测人-物相对旋转关系输入旋转编码器，以预测得到物体旋转变换修正项；将预测人-物相对位置关系输入位置编码器，以预测得到物体位置变换修正项；其中，旋转编码器与位置编码器之间的结构相同且参数不共享，干预网络包括旋转编码器和位置编码器，修正数据包括物体旋转变换修正项和物体位置变换修正项。

例如，预测人-物相对旋转关系可以表征预测的人体各个关节的旋转与物体的旋转变换做减法所得到的相对旋转关系。预测人-物相对位置关系可以表征预测的人体各个关节的3D位置与物体模型的做减法所得到的相对平移变换关系。

通过物体旋转变换修正项来对物体旋转维度进行修正，通过物体位置变换修正项对物体的平移维度进行修正，进而通过修正数据来辅助修正不合理、不完美的物体姿态。

在本实施例中，基于修正数据对预测人-物交互序列进行修正，得到修正后预测人-物交互序列，包括：根据修正数据对预测物体位姿进行修正，得到修正后物体位姿；基于修正后物体位姿和预测人体位姿生成修正后预测人-物交互序列；其中，预测人-物交互序列包括预测物体位姿和预测人体位姿。

步骤S270，根据修正后预测人-物交互序列与样本人-物交互序列之间的差异，对扩散模型进行调整，得到训练后的交互动作生成模型。

在一实施例中，根据修正后预测人-物交互序列与样本人-物交互序列之间的差异对扩散模型进行调整，包括：根据修正后预测人-物交互序列与样本人-物交互序列确定基础损失；通过基础损失对扩散模型进行调整。

可以理解，基础损失为预测的人-物交互序列与真实的人-物交互序列之间的损失。

在本实施例中，通过基础损失对扩散模型进行调整，包括：根据预测人-物相对旋转关系和样本人-物相对旋转关系，以及根据预测人-物相对位置关系和样本人-物相对位置关系确定人-物空间关系损失，样本人-物相对旋转关系和样本人-物相对位置关系基于样本人-物交互序列构建；根据修正后物体位姿对简化点云进行变换，得到变换点云，简化点云基于样本交互对象信息确定，计算人体关节点到变换点云的关节预测最近邻点，并计算人体关节点至关节预测最近邻点的预测第一距离，确定变换点云到人体关节点的物体预测最近邻点，并计算物体预测最近邻点至交互对象的预测第二距离，修正后物体位姿基于修正后预测人-物交互序列得到，根据预测第一距离与真实第一距离，预测第二距离与真实第二距离确定人-物距离场损失，真实第一距离表征样本人-物交互序列中人体关节点至关节真实最近邻点之间的距离，真实第二距离表征样本人-物交互序列中物体真实最近邻点至交互对象的预测第二距离；根据修正后预测人-物交互序列与样本人-物交互序列之间的速度差异进行正则化处理，得到交互序列速度正则项；基于人-物空间关系损失、人-物距离场损失、交互序列速度正则项中至少之一，以及基础损失对扩散模型进行调整。

其中，可以通过最近邻算法求出人体关节点到变换后的物体点云的最近邻点，以及物体点云到人体关节点的最近邻点，再计算彼此最近邻点之间的距离，通过该距离表示人和物体更细粒度的空间关系。通过将上述基于预测值得到的距离与真实值所计算的距离来作差，得到人-物距离场损失。

例如，可以通过计算人体关节点到真实点云的关节真实最近邻点，并计算人体关节点至关节真实最近邻点的真实第一距离，确定真实点云到人体关节点的物体真实最近邻点，并计算物体真实最近邻点至真实对象的真实第二距离。

在本实施例中，基于人-物空间关系损失、人-物距离场损失、交互序列速度正则项中至少之一，以及基础损失对扩散模型进行调整之前，方法还包括：获取初始预测人-物交互序列所采用的噪声水平；若噪声水平小于预设噪声水平阈值，至少基于人-物距离场损失和基础损失对扩散模型进行调整；若噪声水平大于预设噪声水平阈值，基于人-物空间关系损失、交互序列速度正则项中至少之一，以及基础损失对扩散模型进行调整。

也即，当噪声水平较大，大于预设噪声水平阈值，则可以不考虑该维度的损失(人-物距离场损失)。

上述实施例提供的交互动作生成模型训练方法，通过样本交互控制文本生成样本交互控制条件信号，通过扩散模型基于该样本交互控制条件信号和样本人-物交互序列得到初始预测人-物交互序列，通过干预网络对该初始预测人-物交互序列进行修正，得到修正后预测人-物交互序列，进而基于修正后预测人-物交互序列和样本人-物交互序列之间的差异对扩散模型进行调整，以得到训练后的交互动作生成模型，通过上述训练方法所得到的训练后的交互动作生成模型能够弥合人体运动和物体运动之间的差距，能够在给定文本提示和3D物体模型的情况下，在一个单一的扩散模型框架中生成符合文本描述的人-物互动。

本实施例提供的交互动作生成模型结合了视觉语言预训练模型CLIP和扩散模型从文本提示中生成合理的3D人-物交互。物体的运动与其形状密切相关。因此，物体形状也被视为生成的条件。在给定文本提示和3D物体模型的情况下，生成符合文本描述的人-物互动。交互动作生成模型将这两个条件信号结合起来，在一个单一的扩散模型框架中生成生动的人-物互动序列。

通过文本编码器进行文本嵌入，形状编码器进行物体的形状嵌入，然后通过Transformer为主的网络生成基础的人-物交互。这个不完美的交互提供相对更好的人体运动，成为促使网络学习物体运动的辅助信息。为弥合人体运动和物体运动之间的差距，通过采用干预网络纠正不合理的物体运动。从初步生成的人-物交互序列中构建人-物空间关系，这些关系包括了物体相对于每个人体关节的旋转和平移。干预网络包括旋转编码器和位置编码器，分别对物体位姿的旋转变换和平移变换进行学习，预测对初始生成的物体位姿的修正项。

扩散模型包含前向扩散过程和逆向扩散过程。前向扩散过程逐步将高斯噪声加入原始的人-物交互序列，得到一系列具有不同噪声水平的噪声交互序列，用于模型中的网络学习，逆向扩散过程利用训练好的网络，逐步去除噪声，从不同噪声水平的交互序列中恢复真实的人-物交互序列。

请参阅图3所示，图3为本发明实施例提供的交互动作生成模型的一个具体的结构示意图。以文本编码模块为文本编码器，形状编码模块为形状编码器，交互对象为桌子为例，结合图3所示的交互动作生成模型结构，本实施例提供的交互动作生成模型训练方法的一种示例性的过程如下：

步骤1：预处理真实的人-物交互数据。对于N帧的人-物交互序列，将首帧的人体根节点朝向调整为+z轴方向，同时根节点位置统一在原点。后续帧的人体动作和物体动作也随之进行调整，最终所有序列都规范化，人体首帧的起始位置和朝向统一。

步骤2：数据集D_train，训练时随机采样一个批次的人-物交互序列及输入条件B表示批次大小，x_i表示第i个人-物交互序列，y_i表示对应的控制生成的条件，暨文本提示和物体的3D模型。为了方便符号表示，后续将省略下标i。

示例性的，每个人-物交互序列具体表示为：

x＝[x^h,x^o] 公式(1)，

其中，x^h＝[q,j]，x^o＝[r,o]，q∈R^N×J×3表示SMPL-H模型定义的人体关节旋转轴角，j∈R^N×J×3表示SMPL-H模型定义的人体关节位置，这里J＝52表示SMPL-H中人体的关节数量，通常包括身体、手臂和腿部的关节等，r∈R^N×3表示物体位姿的旋转变换，o∈R^N×3表示物体位姿的平移变换。N为批处理大小(batch size)，即同时处理的人体数量。3表示每个关节的旋转通常由三个欧拉角(Euler angles)或轴角(axis-angle)表示。

需要说明的是，人体的关节数量也可以根据本领域技术人员的需要进行调整，上述仅为一种示例。

步骤3：给定输入的文本描述”Aperson pulls the small table(一个人在拉小桌子)”作为样本交互控制文本，首先使用预训练的CLIP文本编码器压缩得到文本的嵌入向量，随后进行一次线性变换得到文本的条件信号c_text(样本文本条件信号)，维度为512。

在一实施例中，文本条件信号会以0.1的概率被随机掩码遮盖。

步骤4：给定物体的3D模型，首先在表面随机采样1024个关键点得到简化点云v_m，接着通过形状编码器PointNet映射为物体形状的嵌入向量，随后进行一次线性变换得到物体形状的条件信号c_shape(样本对象形状条件信号)，维度也为512。最终的条件信号(样本交互控制条件信号)为：

c＝c_text+c_shape 公式(2)，

其中，c为样本交互控制条件信号，c_text为样本文本条件信号，c_shape为样本对象形状条件信号。

需要说明的是，关键点的数量可以由本领域技术人员进行调整，此处仅为一种示例。

步骤5：前向扩散过程包含T步，向样本中的人-物交互数据x₀(样本人-物交互序列)逐步添加高斯噪声，得到不同噪声水平的人-物交互序列也即噪声人-物交互序列。

步骤6：在逆向扩散过程中的第t(t＝1,2,…,T)步去噪时，使用噪声水平编码器对噪声水平t进行编码，噪声水平编码器由余弦位置编码和一个两层多层感知机构成，多层感知机使用SiLU激活函数。得到编码噪声水平。

步骤7：噪声水平编码后与条件信号相加，和第t步时的人-物交互序列一起进行位置编码，接着通过基础生成网络和一次线性变换预测去噪后的人-物交互序列这里是初步生成的结果(初始预测人-物交互序列)。示例性的，基础生成网络包括8层Transformer编码器，每层拥有8个头，使用GeLU作为激活函数，维度为1024。

步骤8：初步生成的结果可以用来干预物体的动作序列，实现更高质量的人-物交互生成。利用初步生成的人-物交互序列((初始预测人-物交互序列))，构建人与物体的空间关系，包括人-物的相对旋转关系和相对位置关系。

一种示例的预测人-物相对旋转关系可表示为：

其中，为预测人-物相对旋转关系，/>表示初步生成的人体各个关节的旋转，表示初步生成的物体(交互对象)的旋转变换，/>表示对于每个关节的减法，

具体地，对于关节k，交互对象n的预测人-物相对旋转关系为：

其中，为人体关节k相对于交互对象n的预测人-物相对旋转关系，/>为关节k的旋转，/>为交互对象n的旋转变换。

类似地，预测人-物相对位置关系可表示为：

其中，为预测人-物相对位置关系，/>表示初步生成的人体各个关节的3D位置，/>表示初步生成的物体模型的平移变换。

步骤9：通过单层Transformer编码器和单个线性层组成的旋转编码器，使用预测物体旋转变换的修正项/>(物体旋转变换修正项)，通过同样结构但不共享参数的位置编码器，使用/>预测对于物体位置变换的修正项/>(物体位置变换修正项)。

示例性的，每一层Transformer编码器拥有8个头，激活函数为GeLU，维度为1024。这里使用初步生成的结果来辅助修正不合理、不完美的物体姿态。

步骤10：通过把修正项加到初始的生成结果中，对初始生成的人-物交互进行修正得到第t步时的生成结果(修正后预测人-物交互序列)。

步骤11：重建物体点云，通过物体位姿对3D物体模型采样的点云进行变换，得到物体的姿态序列。一种示例性的物体姿态序列(变换点云)为：

v^o＝Rv_m+o 公式(6)，

其中，v^o为物体姿态序列，也即变换后(重建后)的物体点云，R表示从轴角r恢复出的旋转矩阵，v_m为物体的初始位姿，o表示物体位姿的平移变换。

步骤12：对第t步时的生成结果进行监督，包括对人-物交互序列数据的监督，对构建的人-物空间关系的监督，基础损失项为生成的人-物交互序列和真实值的差异：

其中，为基础损失，t为扩散模型的第t步，T为扩散过程共计T步，/>为修正后预测人-物交互序列，x₀为样本人-物交互序列。

人-物空间关系的损失项为生成的人-物交互序列中构建的空间关系与真实值的差异：

其中，为人-物空间关系损失，t为扩散模型的第t步，T为扩散过程共计T步，为预测人-物相对旋转关系，/>为预测人-物相对位置关系，/>为真实人-物相对旋转关系，/>为真实人-物相对位置关系。

该真实人-物相对旋转关系和真实人-物相对位置关系可以通过样本人-物交互序列构建得到。具体的构建方式与预测人-物相对旋转关系、预测人-物相对位置关系类似，不做赘述。

变换操作同时应用于真实点云和预测结果，以真实点云为例解释近邻点距离的计算。一种示例如下。通过最近邻算法求出人体关节点到变换后的物体点云的最近邻点p^h→o和物体点云到人体关节点的最近邻点p^o→h，接着可以计算彼此最近邻点之间的距离。

一种真实第一距离的示例性计算方式为：

其中，为人到物体的真实有向距离，也即真实第一距离，p^h→o为离人体各个关节点距离最近的真实物体点云，j为人体关节点的三维位置坐标。

一种真实第二距离的示例性计算方式为：

其中，为物体到人的真实有向距离，p^o→h为离各个物体点云距离最近的真实人体关节点，v^o为变换后的真实的物体点云。

相应地，预测第一距离和预测第二距离的计算方式可以参考上述真实第一距离的计算方式实现，需要将相关真值替换为上述方式所得到的预测值。具体的计算方式不作赘述。

这种距离可以表示人和物体更细粒度的空间关系，同样需要引入真实值的差异作为人-物距离场的损失项：

其中，为人-物距离场损失，t为扩散模型的第t步，t′表示噪声水平的阈值，为物体到人的真实有向距离(真实第二距离)，/>为物体到人的预测有向距离(预测第二距离)，/>为人到物体的真实有向距离(真实第一距离)，/>为人到物体的预测有向距离(预测第一距离)。

例如，t^′＝0.25T。

在噪声水平小于该噪声水平的阈值时，才采用该损失。

对数据进行时序上的平滑，需要对人-物交互序列的速度进行正则化，因此交互序列的速度正则项可以表示为：

其中，为交互序列速度正则项，t为扩散模型的第t步，T为扩散过程共计T步，为2到N帧的生成(预测)结果，/>为1到N-1帧的生成(预测)结果。

最终的目标函数可以表示为：

其中，为总损失，/>为基础损失，/>为人-物空间关系损失，/>为人-物距离场损失，/>为交互序列速度正则项，λ_simple、λ_rel、λ_dist、λ_vel为预设系数。

当然，本领域技术人员也可以选择中的一个或多个结合基础损失来确定总损失。

请参阅图4，图4为本发明实施例提供的交互动作生成方法的一个流程示意图。该方法的执行主体可以为电子设备，该电子设备可以为服务器、终端等，本申请实施例对此不做限定。

如图4所示，该方法包括如下步骤：

步骤S410，获取待生成交互控制文本。

其中，待生成交互控制文本至少包括待生成动作描述信息和待生成交互对象信息。关于待生成交互控制文本的相关描述可以参考前述实施例中的样本交互控制文本的相关描述，在此不做赘述。

步骤S420，通过文本编码模块生成待生成动作描述信息对应的待生成文本条件信号。

其中，待生成文本条件信号的相关生成方式可以参考上述实施例中的样本文本条件信号的生成方式，在此不做赘述。

文本编码模块的相关描述也可参考上述实施例的相关描述，不做赘述。

步骤S430，通过形状编码模块生成待生成交互对象信息对应的待生成对象形状条件信号。

关于待生成对象形状条件信号的相关描述也可以参考上述实施例中关于样本对象形状条件信号的相关描述，在此不做赘述。

步骤S440，基于待生成文本条件信号和待生成对象形状条件信号生成待生成交互控制条件信号。

其中关于待生成交互控制条件信号的相关描述可以参考样本交互控制条件信号的生成方式，在此不做赘述。可以通过将待生成文本条件信号与待生成对象形状条件信号相加得到待生成交互控制条件信号等方式实现。

步骤S450，通过扩散模型基于待生成交互控制条件信号和待生成人-物交互序列输出初始待生成人-物交互序列。

该扩散模型可以通过上述实施例中的交互动作生成模型训练方法所训练得到。

初始待生成人-物交互序列的一种示例的生成方式如下：

获取随机噪声人-物交互序列(一个人-物交互序列x，在一实施例中可以理解为待生成人-物交互序列)，在扩散模型的去噪过程中的当前时间步t中，将随机噪声人-物交互序列和待生成交互控制条件信号输入至扩散模型的去噪网络中，进行去噪处理。该去噪处理可以包括多个时间步，如30个时间步或200个时间步，又如50步或1000步，对于时间步的数量在此不做限定。当前时间步可以是第一个时间步，每到达一个时间步，均可以将到达的这一时间步作为当前时间步，每一个当前时间步的去噪后的人-物交互序列可以视为当前去噪人-物交互序列，将当前去噪人-物交互序列作为当前待处理噪声人-物交互序列，然后重复去噪，直到达到扩散模型的终止时间步T，得到终止时间步对应的当前去噪人-物交互序列也即得到了初始待生成人-物交互序列。

在每一次得到去噪(人-物交互)序列后，可以先判断一下当前时间步是否为终止时间步，也即判断一下是否要继续进行重复去噪的步骤，终止时间步可以理解为去噪过程中的最后一个时间步，以去噪过程为30个时间步为例，终止时间步为第30个时间步。如果达到终止时间步，则停止去噪。如果没有达到终止时间步，则将当前的去噪(人-物交互)序列作为下一个时间步的输入，将下一个时间步作为当前时间步，重复进行去噪步骤。

随机噪声人-物交互序列中的“物”需为待生成对象(交互对象)。该随机噪声人-物交互序列与前述的数据集中的人-物交互序列数据结构相同，可参考前述相关描述，在此不做赘述。

步骤S460，通过干预网络确定初始待生成人-物交互序列的修正数据，基于修正数据对待生成人-物交互序列进行修正，得到修正后待生成人-物交互序列。

通过修正数据来修正物体姿态，进而得到可以应用用人-物交互展示的修正后待生成人-物交互序列。

如前述实施例所提到的，干预网络包括旋转编码器与位置编码器，具体对初始待生成人-物交互序列的修正方式可以参考前述实施例中对初始预测人-物交互序列的修正的相关描述，例如，通过初始待生成人-物交互序列构建待生成人-物相对旋转关系和待生成人-物相对位置关系；将待生成人-物相对旋转关系输入旋转编码器，以得到物体旋转变换修正项；将待生成人-物相对位置关系输入位置编码器，以得到物体位置变换修正项；其中，旋转编码器与位置编码器之间的结构相同且参数不共享，干预网络包括旋转编码器和位置编码器，此时，修正数据包括物体旋转变换修正项和物体位置变换修正项，通过物体旋转变换修正项来对交互动作生成过程中的物体旋转维度进行修正，通过物体位置变换修正项对交互动作生成过程中的物体的平移维度进行修正。

通过结合了视觉语言预训练模型CLIP和扩散模型从文本提示中生成合理的3D人-物交互。物体的运动与其形状密切相关。因此，物体形状也被视为生成的条件。在给定文本提示和3D物体模型的情况下，生成符合文本描述的人-物互动。将这两个条件信号结合起来，在一个单一的扩散模型框架中生成生动的人-物互动序列。

通过文本编码器进行文本嵌入，形状编码器进行物体的形状嵌入，然后通过Transformer为主的网络生成基础的人-物交互。这个不完美的交互提供相对更好的人体运动，成为促使网络学习物体运动的辅助信息。为弥合人体运动和物体运动之间的差距，本发明采用干预网络纠正不合理的物体运动。从初步生成的人-物交互序列中构建人-物空间关系，这些关系包括了物体相对于每个人体关节的旋转和平移。干预网络包括旋转编码器和位置编码器，分别对物体位姿的旋转变换和平移变换进行学习，预测对初始生成的物体位姿的修正项。

通过上述方案，能够实现人与“动态物体”的交互，使得交互动作更为流畅自然，由于模型中的“人体”为全身的模型，可以实现人体全身关节与“动态物体”的相对运动，使得交互不再集中在上肢运动，同时，通过在模型中内置多个交互对象的3D物体模型，且提供接口接收外部输入的3D物体模型，进而可以支持多种物体的交互。通过在扩散模型训练过程中引入了文本等样本文本条件信号的监督，使得应用该训练方式得到的模型所生成的交互动作与文本的一致性更佳。

请参阅图5，图5为本发明实施例提供的扩散模型内单步文本驱动生成3D人-物交互的一个流程示意图。如图5所示，在初始阶段，首先输入文本和3D物体模型，对文本和物体形状编码器得到条件信号，也即，对文本通过文本编码器进行编码得到文本的条件信号，对3D模型通过关键点采样得到简化点云，进而通过形状编码器PointNet映射为物体形状的嵌入向量，随后进行一次线性变换得到物体形状的条件信号，进而生成最终的条件信号。扩散模型的基础生成网络根据条件信号生成初始的人-物交互序列，基于该初始的人-物交互序列构建人-物空间关系(待生成人-物相对旋转关系和待生成人-物相对位置关系)，进而通过干预网络预测对物体姿态的修正项(物体旋转变换修正项和物体位置变换修正项)，并通过该修正项修正物体姿态，进而输出生成的人-物交互序列(修正后待生成人-物交互序列)。

请参阅图6，图6为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的一个示意图。如图6所示，当输入的待生成交互控制文本为“Aperson picks up thetrash bin with left hand and pours something from it.”大意为“一个人用左手拿起垃圾桶，从中倒出了一些东西”，相应的，该训练后的交互动作生成模型则生成了一系列的交互序列，图像化处理后可以得到一个人从拿起垃圾桶到倾倒的动作关键帧图像序列。

请参阅图7，图7为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图。如图7所示，当输入的待生成交互控制文本为“A person switches thelarge box from his right hand to his left hand,walks counter clock wise in acircle.”大意为“一个人将大箱子从右手换到左手，然后逆时针方向走一圈”，相应的，该训练后的交互动作生成模型则生成了一系列的交互序列，图像化处理后可以得到一个人在行走的过程中将箱子逆时针换手拿着的动作关键帧图像序列。

请参阅图8，图8为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图。如图8所示，当输入的待生成交互控制文本为“A person bends down,dragging the corner of a square table.”大意为“一个人弯下腰，拖着方桌的一角”，相应的，该训练后的交互动作生成模型则生成了一系列的交互序列，图像化处理后可以得到一个人弯腰拖动桌子的一角的动作关键帧图像序列。

请参阅图9，图9为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图。如图9所示，当输入的待生成交互控制文本为“A person picks up theyoga ball with both hands and then throws it up and catches it.”大意为“一个人双手拿起瑜伽球，然后向上扔出并接住”，相应的，该训练后的交互动作生成模型则生成了一系列的交互序列，图像化处理后可以得到一个人抛接球体的动作关键帧图像序列。

请参阅图10，图10为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图。如图10所示，当输入的待生成交互控制文本为“A person carries abackpack on his shouldet.”大意为“一个人将背包背在肩上”，相应的，该训练后的交互动作生成模型则生成了一系列的交互序列，图像化处理后可以得到一个人背包的动作关键帧图像序列。

请参阅图11，图11为本发明实施例提供的文本驱动生成3D人-物交互的扩散模型结果的另一个示意图。如图11所示，当输入的待生成交互控制文本为“A person walks tothe armchair,leans back,both hands naturally hang down on the handle,stretching his body.”大意为“一个人走到扶手椅前，身体向后靠，双手自然地垂在扶手上，舒展身体”，相应的，该训练后的交互动作生成模型则生成了一系列的交互序列，图像化处理后可以得到一个人坐到椅子上舒展身体的动作关键帧图像序列。

在一实施例中，提供一种交互动作生成装置，该交互动作生成装置与上述实施例中交互动作生成方法一一对应。请参见图12，图12为本发明实施例提供的交互动作生成装置的一个结构示意图，如图12所示，该交互动作生成装置1200包括获取模块1210、文本编码模块1220、形状编码模块1230、条件信号生成模块1240、扩散模型1250和干预网络1260。各功能模块详细说明如下：

获取模块1210用于获取待生成交互控制文本和待生成人-物交互序列，待生成交互控制文本包括待生成动作描述信息和待生成交互对象信息；

文本编码模块1220用于生成待生成动作描述信息对应的待生成文本条件信号；

形状编码模块1230用于生成待生成交互对象信息对应的待生成对象形状条件信号；

条件信号生成模块1240用于基于待生成文本条件信号和待生成对象形状条件信号生成待生成交互控制条件信号；

扩散模型1250用于基于待生成交互控制条件信号和待生成人-物交互序列输出初始待生成人-物交互序列；

干预网络1260用于确定初始待生成人-物交互序列的修正数据，基于修正数据对待生成人-物交互序列进行修正，得到修正后待生成人-物交互序列。

关于交互动作生成装置的具体限定可以参见上文中对于交互动作生成方法、交互动作生成模型训练方法的限定，在此不再赘述。上述交互动作生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本实施例中，该装置实质上是设置了多个模块用以执行上述任一实施例中的方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

在一个实施例中，提供了一种电子设备，该电子设备可以是服务端，其内部结构图可以如图13所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现上述实施例提供的方法服务端侧的功能或步骤。

在一个实施例中，提供了一种电子设备，该电子设备可以是客户端，其内部结构图可以如图14所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现上述实施例提供的方法客户端侧的功能或步骤。

在一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取样本交互控制文本和样本人-物交互序列，样本交互控制文本包括样本动作描述信息和样本交互对象信息；

通过文本编码模块生成样本动作描述信息对应的样本文本条件信号；

通过形状编码模块生成样本交互对象信息对应的样本对象形状条件信号；

基于样本文本条件信号和样本对象形状条件信号生成样本交互控制条件信号；

通过扩散模型基于样本交互控制条件信号和样本人-物交互序列输出初始预测人-物交互序列；

通过干预网络确定初始预测人-物交互序列的修正数据，基于修正数据对预测人-物交互序列进行修正，得到修正后预测人-物交互序列；

根据修正后预测人-物交互序列与样本人-物交互序列之间的差异，对扩散模型进行调整，得到训练后的交互动作生成模型。

在另一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取待生成交互控制文本，待生成交互控制文本至少包括待生成动作描述信息和待生成交互对象信息；

通过文本编码模块生成待生成动作描述信息对应的待生成文本条件信号；

通过形状编码模块生成待生成交互对象信息对应的待生成对象形状条件信号；

基于待生成文本条件信号和待生成对象形状条件信号生成待生成交互控制条件信号；

通过扩散模型基于待生成交互控制条件信号和待生成人-物交互序列输出初始待生成人-物交互序列；

通过干预网络确定初始待生成人-物交互序列的修正数据，基于修正数据对待生成人-物交互序列进行修正，得到修正后待生成人-物交互序列。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在另一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

需要说明的是，上述关于计算机可读存储介质或电子设备所能实现的功能或步骤，可对应参阅前述方法实施例中，服务端侧以及客户端侧的相关描述，为避免重复，这里不再一一描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)，以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上提供的实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种交互动作生成模型训练方法，其特征在于，所述交互动作生成模型包括文本编码模块、形状编码模块、扩散模型和干预网络，所述方法包括：

获取样本交互控制文本和样本人-物交互序列，所述样本交互控制文本包括样本动作描述信息和样本交互对象信息；

通过所述文本编码模块生成所述样本动作描述信息对应的样本文本条件信号；

通过所述形状编码模块生成所述样本交互对象信息对应的样本对象形状条件信号；

基于所述样本文本条件信号和所述样本对象形状条件信号生成样本交互控制条件信号；

通过所述扩散模型基于所述样本交互控制条件信号和所述样本人-物交互序列输出初始预测人-物交互序列；

通过所述干预网络确定所述初始预测人-物交互序列的修正数据，基于所述修正数据对所述预测人-物交互序列进行修正，得到修正后预测人-物交互序列；

根据所述修正后预测人-物交互序列与所述样本人-物交互序列之间的差异，对所述扩散模型进行调整，得到训练后的交互动作生成模型。

2.如权利要求1所述的交互动作生成模型训练方法，其特征在于，通过所述文本编码模块生成所述样本动作描述信息对应的样本文本条件信号，包括：

通过所述文本编码模块对所述样本动作描述信息进行文本编码得到文本嵌入向量，将所述文本嵌入向量进行线性变换得到样本文本条件信号。

3.如权利要求2所述的交互动作生成模型训练方法，其特征在于，将所述文本嵌入向量进行线性变换得到样本文本条件信号，包括：

将所述文本嵌入向量进行线性变换；

对线性变换后的文本嵌入向量以预设概率被随机掩码遮盖，得到所述样本文本条件信号。

4.如权利要求1所述的交互动作生成模型训练方法，其特征在于，通过所述形状编码模块生成所述样本交互对象信息对应的样本对象形状条件信号，包括：

根据所述样本交互对象信息确定交互对象的简化点云；

通过所述形状编码模块将所述简化点云进行形状编码得到形状嵌入向量，对所述形状嵌入向量进行线性变换得到样本对象形状条件信号。

5.如权利要求1所述的交互动作生成模型训练方法，其特征在于，获取样本人-物交互序列，包括：

获取N帧人-物交互图像；

基于N帧人-物交互图像确定真实人-物交互序列；

将首帧的人体根节点朝向调整为预设轴方向，以及将根节点位置统一在预设位置，以使人体首帧的起始位置和朝向统一；

将调整后的真实人-物交互序列作为样本人-物交互序列。

6.如权利要求1所述的交互动作生成模型训练方法，其特征在于，通过所述扩散模型基于所述样本交互控制条件信号和所述样本人-物交互序列输出初始预测人-物交互序列，包括：

通过所述扩散模型在前向扩散过程对所述样本人-物交互序列逐步添加高斯噪声得到不同噪声水平的噪声人-物交互序列，所述样本人-物交互序列基于所述样本交互对象信息确定；

在通过所述扩散模型在逆向扩散过程对所述噪声人-物交互序列去噪时对所述噪声水平进行编码得到编码噪声水平；

将所述编码噪声水平与所述样本交互控制条件信号进行相加，并与对应的样本人-物交互序列进行位置编码，得到位置编码结果；

将所述位置编码结果通过多层Transformer编码器和一次线性变换预测去噪后的噪声人-物交互序列，作为初始预测人-物交互序列。

7.如权利要求1-6任一项所述的交互动作生成模型训练方法，其特征在于，通过所述干预网络确定所述初始预测人-物交互序列的修正数据，包括：

通过所述初始预测人-物交互序列构建预测人-物相对旋转关系和预测人-物相对位置关系；

将所述预测人-物相对旋转关系输入旋转编码器，以预测得到物体旋转变换修正项；

将所述预测人-物相对位置关系输入位置编码器，以预测得到物体位置变换修正项；

其中，所述旋转编码器与所述位置编码器之间的结构相同且参数不共享，所述干预网络包括所述旋转编码器和所述位置编码器，所述修正数据包括所述物体旋转变换修正项和所述物体位置变换修正项。

8.如权利要求7所述的交互动作生成模型训练方法，其特征在于，基于所述修正数据对所述预测人-物交互序列进行修正，得到修正后预测人-物交互序列，包括：

根据所述修正数据对预测物体位姿进行修正，得到修正后物体位姿；

基于所述修正后物体位姿和预测人体位姿生成修正后预测人-物交互序列；

其中，所述预测人-物交互序列包括预测物体位姿和预测人体位姿。

9.如权利要求7所述的交互动作生成模型训练方法，其特征在于，根据所述修正后预测人-物交互序列与所述样本人-物交互序列之间的差异对所述扩散模型进行调整，包括：

根据所述修正后预测人-物交互序列与所述样本人-物交互序列确定基础损失；

通过所述基础损失对所述扩散模型进行调整。

10.如权利要求9所述的交互动作生成模型训练方法，其特征在于，通过所述基础损失对所述扩散模型进行调整，包括：

根据所述预测人-物相对旋转关系和样本人-物相对旋转关系，以及根据所述预测人-物相对位置关系和样本人-物相对位置关系确定人-物空间关系损失，所述样本人-物相对旋转关系和所述样本人-物相对位置关系基于所述样本人-物交互序列构建；

根据修正后物体位姿对简化点云进行变换，得到变换点云，所述简化点云基于所述样本交互对象信息确定，计算人体关节点到所述变换点云的关节预测最近邻点，并计算所述人体关节点至所述关节预测最近邻点的预测第一距离，确定所述变换点云到所述人体关节点的物体预测最近邻点，并计算所述物体预测最近邻点至交互对象的预测第二距离，所述修正后物体位姿基于所述修正后预测人-物交互序列得到，根据所述预测第一距离与真实第一距离，所述预测第二距离与真实第二距离确定人-物距离场损失，所述真实第一距离表征所述样本人-物交互序列中人体关节点至关节真实最近邻点之间的距离，所述真实第二距离表征所述样本人-物交互序列中物体真实最近邻点至所述交互对象的预测第二距离；

根据所述修正后预测人-物交互序列与所述样本人-物交互序列之间的速度差异进行正则化处理，得到交互序列速度正则项；

基于所述人-物空间关系损失、所述人-物距离场损失、所述交互序列速度正则项中至少之一，以及所述基础损失对所述扩散模型进行调整。

11.如权利要求9所述的交互动作生成模型训练方法，其特征在于，基于所述人-物空间关系损失、所述人-物距离场损失、所述交互序列速度正则项中至少之一，以及所述基础损失对所述扩散模型进行调整之前，所述方法还包括：

获取所述初始预测人-物交互序列所采用的噪声水平；

若所述噪声水平小于预设噪声水平阈值，至少基于所述人-物距离场损失和所述基础损失对所述扩散模型进行调整；

若所述噪声水平大于预设噪声水平阈值，基于所述人-物空间关系损失、所述交互序列速度正则项中至少之一，以及所述基础损失对所述扩散模型进行调整。

12.一种交互动作生成方法，其特征在于，所述方法包括：

获取待生成交互控制文本，所述待生成交互控制文本至少包括待生成动作描述信息和待生成交互对象信息；

通过文本编码模块生成所述待生成动作描述信息对应的待生成文本条件信号；

通过形状编码模块生成所述待生成交互对象信息对应的待生成对象形状条件信号；

基于所述待生成文本条件信号和所述待生成对象形状条件信号生成待生成交互控制条件信号；

通过扩散模型基于所述待生成交互控制条件信号和待生成人-物交互序列输出初始待生成人-物交互序列；

通过干预网络确定所述初始待生成人-物交互序列的修正数据，基于所述修正数据对所述待生成人-物交互序列进行修正，得到修正后待生成人-物交互序列。

13.一种交互动作生成装置，其特征在于，所述交互动作生成装置包括获取模块、文本编码模块、形状编码模块、条件信号生成模块、扩散模型和干预网络，其中：

所述获取模块用于获取待生成交互控制文本和待生成人-物交互序列，所述待生成交互控制文本包括待生成动作描述信息和待生成交互对象信息；

所述文本编码模块用于生成所述待生成动作描述信息对应的待生成文本条件信号；

所述形状编码模块用于生成所述待生成交互对象信息对应的待生成对象形状条件信号；

所述条件信号生成模块用于基于所述待生成文本条件信号和所述待生成对象形状条件信号生成待生成交互控制条件信号；

所述扩散模型用于基于所述待生成交互控制条件信号和所述待生成人-物交互序列输出初始待生成人-物交互序列；

所述干预网络用于确定所述初始待生成人-物交互序列的修正数据，基于所述修正数据对所述待生成人-物交互序列进行修正，得到修正后待生成人-物交互序列。

14.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的方法。