CN116796196A

CN116796196A - 基于多模态联合嵌入的共语姿势生成方法

Info

Publication number: CN116796196A
Application number: CN202311046499.5A
Authority: CN
Inventors: 杜小勤; 文吾琦; 周佳爽; 刘咏琪
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-09-22
Anticipated expiration: 2043-08-18
Also published as: CN116796196B

Abstract

本发明公开了一种基于多模态联合嵌入的共语姿势生成方法，通过层次化的姿势编码器从姿态数据中提取两个代表不同含义的层次化特征嵌入，将其与音频与文本编码器从语音的原始音频和相应的转录文本提取的特征进行多模态联合嵌入，并使用嵌入对齐四元组损失对联合嵌入空间进行解耦，同时使用WGANs方法改进了原有的生成对抗网络方法，使网络的训练更加稳定。本发明通过充分利用姿势数据，并且使用嵌入对齐方法，从而使得能够只使用的音频和对应文本的情况下能够生成生动且真实的共语姿势。

Description

基于多模态联合嵌入的共语姿势生成方法

技术领域

本发明涉及多模态嵌入编码和人体骨架动画生成的技术领域，并且更具体地，属于一种多模态人体骨架共语姿势的生成方法。

背景技术

共语姿势是人类在日常的对话时，所做出的与语言节奏相协调的身体姿势。它们提供了与对话信息相辅相成的视觉线索，有助于说话者的表达和听者的理解。为此，研究人员已经在共语姿势合成的任务上进行了一定的探索，研究旨在根据语音音频和文本转录作为输入生成一系列人类姿势。

最近的研究利用深度学习来解决这个问题，这些方法使用共语姿势（可作为视频或运动捕捉的数据集）作为训练目标，使用原始的语音波形和相应的文本记录，以及个别说话人的风格作为模型的输入来训练深度神经网络。

虽然这些方法可以生成不同的节奏、标志性和隐喻性的共语姿势，并适应说话人的特定风格，但是这些方法依旧存在一些尚未解决的问题。首先，姿势相对于文本和音频而言是一种非常不同的模态，它同时包括了空间和时间两种属性，这导致模型难以学习其与文本和音频之间的映射关系。第二，文本和音频的不同含义并没有被充分挖掘，文本数据中容易发掘标志性和隐喻性相关的特征；节奏、音量等特征则只能从音频数据中发掘。第三，姿势数据并没有被充分的利用，仅仅是简单的将姿势数据作为任务的训练目标不足以让模型学习到其中丰富的多模态信息。

由此可见，如何充分利用相互关联的多模态数据，并建立一个跨模态的联合空间使模型能够从这个嵌入空间解码动画，是急需解决的关键问题。

发明内容

本发明涉及一种基于多模态联合嵌入的共语姿势生成方法，该方法能够根据输入的文本和音频信息，生成与之匹配的共语姿势。

本发明的技术方案如下：基于多模态联合嵌入的共语姿势生成方法，包括如下步骤：

步骤S1，准备数据集，包括音频数据、文本数据/>、姿势数据/>和风格id，并将前几帧的姿势数据作为种子姿势/>；

步骤S2，利用编码器对数据集中对应的数据进行特征编码，编码器包括音频编码器，层次化姿势编码器，文本编码器和风格编码器，最终获得音频特征，浅层的姿态特征和深层的姿态特征/>，文本特征/>，以及风格特征/>；

步骤S3，对步骤S2得到的特征进行拼接，训练阶段，将所述种子姿势、浅层的姿态特征/>、深层的姿态特征/>和风格特征/>拼接为，将所述种子姿势/>、音频特征/>、文本特征/>和风格特征/>拼接为/>，推断阶段，则只对种子姿势/>、音频特征/>、文本特征/>和风格特征/>进行特征拼接；

步骤S4，构建姿势解码器，即生成器，在训练阶段，通过使用F_at和F_p两个特征作为姿势解码器的两个输入，生成两个姿势和，其中G ()表示生成器；使用生成的姿势进行对抗学习，并进行损失函数计算；在推断阶段，不使用姿势数据和层次化姿势编码器，仅准备音频数据和对应的文本数据，然后输入希望的风格id、使用默认的初始静态姿势，重复步骤S2-步骤S4即可进行姿势生成。

进一步的，步骤S1中，音频数据、文本数据/>、姿势数据/>和风格id的时间步长相同；

文本数据是一个单词序列，通过插入填充记号使得单词与姿势数据的时间步长相匹配，间隔时间从音频数据中获取；

将说话人的id作为风格id，风格id表示为one-hot编码的向量。

进一步的，音频编码器为级联的一维卷积层，用于将原始音频数据编码为音频特征。

进一步的，层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理，然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征/>，将浅层的姿态特征/>通过另一个四层一维卷积神经网络提取为深层的姿态特征。

进一步的，文本编码器首先通过预训练的词嵌入层将文本数据t中的所有词转换为词向量，然后，这些词向量被一个四层的时序卷积网络TCN编码为文本特征。

进一步的，风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间，并使用变分推理技术中的概率抽样的方法，得到风格特征，具体方法步骤为：首先使用全连接层将风格id映射为表示风格分布的参数，然后从这些参数中采样，最终得到风格特征/>。

进一步的，文本编码器中使用FastText提供的预训练的词嵌入。

进一步的，所述姿势解码采用一个四层双向GRU，对抗学习中使用四个级联的一维卷积层和两个全连接层作为判别器，判别器使用生成姿势和真实姿势进行对抗性学习，其中生成姿势只使用由音频和文本生成的姿势，真实姿势与层次化姿势编码器的输入姿势相同，生成器同时使用/>和/>计算损失函数。

进一步的，训练阶段，姿势解码器使用多个损失函数进行约束，最终损失函数如下：

重构损失：计算生成的样本和/>与真实姿势/>之间的重构损失，具体公式为：

其中重构损失中的G表示该损失是生成器的损失，huber为损失项的名称，/>表示计算期望，N表示姿势的长度，下标i表示取每个姿势帧，HL()表示计算Huber损失，Huber损失是一种经典的损失函数，为L1损失和L2损失的一次可微的组合；

对抗损失的具体公式如下：

其中表示生成器的对抗损失，/>是判别器的损失，用于判别器的对抗性学习，λ是一个用于控制梯度惩罚的超参数，D()表示判别器，/>表示真假样本的随机插值，表示计算梯度的L2范数；

风格发散损失：为了避免风格特征f_style的后验崩溃，引导生成器合成具有不同风格输入的不同姿势，损失计算为：

其中G ()表示生成器，其中f_style(1)表示文本和语音对应的说话人的风格编码，f_style(2)，f_style(3)表示随机得到的两个不同说话人的风格，是数值裁剪参数；

嵌入重构损失：对生成姿势使用层次化姿势编码器/>重新得到层次化的姿势特性：/>，并将其与从输入解码器的嵌入进行比较，具体公式为：

其中表示光滑L1损失；

KLD损失：用于风格编码中变分推理的学习，具体公式为：

其中表示表示风格编码器输出的均值和方差；

嵌入对齐四元组损失：使用嵌入对齐四元组损失来促进多模态之间的学习，具体公式为：

其中，d()表示计算两项输入之间的欧几里得距离，是用于控制输入特征之间最小间隔的超参数，/>是一个距离缩放的超参数，其中/>用于调整各项损失的权重。

与现有技术相比，本发明的有点和有益效果如下：本发明公开的基于多模态联合嵌入的共语手势生成方法，在建模上融合文本、语音、风格和姿势生成方法，具体来说还引入了层次化姿势解码器以及联合空间对齐的思想，解决了现有技术中信息利用不充分导致的生成能力不足等问题。实现步骤包括：数据处理；特征提取；特征拼接；姿势生成；损失计算。本发明采用层次化结构以及约束不同模态特征在嵌入空间中的距离，使提取的特征更适合做姿势生成，在实际任务中证明了其指标性能更好，可实际应用于共语手势生成任务。本发明有效地缓解了GANs在训练过程中出现的模式崩溃的问题，提高了生成姿势的真实性。

附图说明

图1是本发明的系统框架图；

图2是本发明的流程图；

图3是本发明实施例中通过音频和文本生成共语姿势的结果实例图。

具体实施方式

下面结合附图和具体实施例，对本发明进行进一步说明。

如图1和2所示，本发明提供的一种基于多模态联合嵌入的姿势生成方法的流程，包括如下步骤：

数据集准备步骤S1：需要准备的数据包括音频数据、文本数据/>、姿势数据/>和风格id。首先确保所有输入数据与输出姿势具有相同的时间分辨率，因此所有模态必须共享相同的时间步长，即所有数据必须在时间上是同步的，以下将分别进行说明。

音频数据和姿势数据/>在时间上是天然同步的，只需调整音频编码器的卷积层的大小、步幅和填充，以获得和姿势数据相同长度的特征即可。

文本数据是一个单词序列，单词的数量随着语速的变化而变化。本发明通过插入填充记号使得单词与姿势的时间步长相匹配，准确间隔时间从音频数据中获取。具体而言，将填充记号（/>）插入到单词序列中以生成与姿势的长度相同的单词序列（word₁,word₂，…，word_t）。这里，t是合成中的姿势数量，即34。例如，当t为5时，对于语音文本“”，如果音频中的对应片段的语速均匀，填充后的单词序列将是“”；而如果在音频中“I”和“love”之间有一个额外的短暂停顿，填充后的单词序列将是“/>”。

手势的风格在每一个手势片段内不会改变，因此对于每个手势的合成过程中，本发明实施例使用相同的风格id来学习风格的嵌入空间，本发明将不同的说话人视为不同的风格，将说话人的id作为风格id。风格id表示为one-hot编码的向量，其中只有一个元素是非零的。例如，当说话人的总数为100，第24位说话人的风格id将会表示为一个长度为100的一维张量，其中第24个数字为1，其他数字均为0，以此类推。

此外，本发明实施例对前几个帧使用种子姿势，以便在连续合成之间保持连续性，具体参数将在后续进行详细说明。

特征编码步骤S2：本发明包括音频编码器，文本编码器，风格编码器和层次化姿势编码器以下将分别进行说明。

对于音频编码器，原始音频波形通过级联的一维卷积层来生成一系列 32维的特征向量。音频频率通常是固定的，因此本发明实施例调整了卷积层中的大小、步幅和填充，以获得与输出运动帧一样多的音频特征向量。

文本编码器首先通过预训练的词嵌入层将文本数据中的所有词转换为300维的词向量，本实例使用FastText提供的预训练的词嵌入，并在训练期间更新这些嵌入。然后，这些词向量被一个四层的时序卷积网络（TCN）编码为文本特征/>。

风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间，在本实例中样式空间的维度大小为16。并使用变分推理技术中的概率抽样的方法，得到风格特征。具体方法步骤为：首先使用全连接层将风格id映射为表示风格分布的均值和方差，然后从这些参数中采样，最终得到风格特征/>。

层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理，然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征/>，将浅层的姿态特征/>通过另一个四层一维卷积神经网络提取为深层的姿态特征/>。此处和/>的各个维度大小需要与/>和/>完全相同。

特征拼接步骤S3：在训练阶段，生成器将通过34帧32维的语音特征或/>、34帧32维语义特征/>或/>和34帧16维风格特征/>和4帧27维的种子姿势/>，生成34帧的姿势。其中，语音、语义和风格特征的通道维度的大小是人为指定的，而种子姿势的27维，则表示原始姿势数据中的9个关节xyz三个坐标，如果原始姿势数据的骨架维度不为27，此处的维度大小也要相应的修改。

具体而言，将所述种子姿势、浅层的姿态特征/>、深层的姿态特征/>和风格特征/>拼接为/>，将所述种子姿势/>、音频特征/>、文本特征/>和风格特征/>拼接为/>。在推断阶段，则只需要拼接/>该部分的特征。

对抗训练步骤S4：本实例通过将不同模态的特征进行拼接，并使用一个四层双向GRU作为生成器生成姿势，所述生成器即为姿势解码器。这需要不同模态的特征需要有相同的时间分辨率，本实例设置的时间分辨率和基线相同，为34帧。

在训练阶段，通过使用和/>两个特征作为解码器两个输入，生成两个姿态和/>，并使用生成的姿势进行损失计算，其中G ()表示生成器。

对于对抗性学习，本实例使用四个级联的一维卷积层和两个全连接层作为判别器，判别器使用生成姿势和真实姿势进行对抗性学习，其中生成姿势只使用由音频和文本生成的姿势，而生成器则同时使用/>和/>计算损失。

这意味着在训练期间，本实例将使用所有数据进行充分的学习，而在推断期间，对于模块，本实例不需要姿势数据和层次化姿势编码器和判别器，只使用需使用编码器和姿势解码器即可；对于数据，仅需准备音频数据和对应的文本数据，然后输入希望的风格的id、使用默认的静态姿势即可进行姿势生成。

进一步的，本实例使用多个损失对模型进行约束，生成器的最终损失如下：

重构损失：计算生成的姿势和/>与真实姿势/>之间的重构损失,具体公式为：

其中中的G表示该损失是生成器的损失，huber为损失项的名称，/>表示计算期望，N表示姿势的长度，下标i表示姿势帧索引，HL()表示计算Huber损失，Huber损失是一种经典的损失函数，它可以解释为L1损失和L2损失的一次可微的组合。

对抗损失：本实例只使用一个生成姿势输出来训练判别器，具体公式如下：

其中表示生成器的对抗损失，/>是判别器的损失，用于判别器的对抗性学习，λ是一个用于控制梯度惩罚的超参数，D()表示判别器，/>表示真假样本的随机插值，表示计算梯度的L2范数。

其中G ()表示生成器，其中f_style(1)表示文本和语音对应的说话人的风格编码，f_style(2)，f_style(3)表示随机得到的两个不同说话人的风格，是数值裁剪参数。

嵌入重构损失：本发明实施例对生成姿势使用层次化姿势编码器/>重新得到层次化的姿势特性：/>，并将其与从输入解码器的嵌入进行比较。具体公式为：

其中表示光滑L1损失。

KLD损失：用于风格编码中变分推理的学习，具体公式为：

其中表示表示风格编码器输出的均值和方差。

嵌入对齐四元组损失：本发明实施例使用嵌入对齐四元组损失来促进多模态之间的学习，具体公式为：

其中，d()表示计算两项输入之间的欧几里得距离，具体公式为；/>是一个超参数，用于控制输入特征之间的最小间隔，以便模型更好地区分它们；/>是一个用于控制不同模态之间最小间隔距离缩放的超参数；/>则用于调整各项损失的权重。

最终，本实例可以通过音频和文本生成共语姿势，具体效果如图3所示，其中，第一行表示输入的文本，输入音频并未在图中表示，左下部分表示来源于视频的原始姿势数据，右下表示生成的姿势。

以上所述仅为本发明的具体实施例，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多模态联合嵌入的共语姿势生成方法，其特征在于，包括如下步骤：

步骤S2，利用编码器对数据集中对应的数据进行特征编码，编码器包括音频编码器，层次化姿势编码器，文本编码器和风格编码器，最终获得音频特征，浅层的姿态特征/>和深层的姿态特征/>，文本特征/>，以及风格特征/>；

步骤S3，对步骤S2得到的特征进行拼接，训练阶段，将所述种子姿势、浅层的姿态特征/>、深层的姿态特征/>和风格特征/>拼接为/>，将所述种子姿势/>、音频特征/>、文本特征/>和风格特征/>拼接为，推断阶段，则只对种子姿势/>、音频特征/>、文本特征/>和风格特征/>进行特征拼接；

步骤S4，构建姿势解码器，即生成器，在训练阶段，通过使用F_at和F_p两个特征作为姿势解码器的两个输入，生成两个姿势和/>，其中G ()表示生成器；使用生成的姿势进行对抗学习，并进行损失函数计算；在推断阶段，不使用姿势数据和层次化姿势编码器，仅准备音频数据和对应的文本数据，然后输入希望的风格id、使用默认的初始静态姿势，重复步骤S2-步骤S4即可进行姿势生成。

2.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：步骤S1中，音频数据、文本数据/>、姿势数据/>和风格id的时间步长相同；

将说话人的id作为风格id，风格id表示为one-hot编码的向量。

3.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：音频编码器为级联的一维卷积层，用于将原始音频数据编码为音频特征。

4.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理，然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征/>，将浅层的姿态特征通过另一个四层一维卷积神经网络提取为深层的姿态特征/>。

5.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：文本编码器首先通过预训练的词嵌入层将文本数据t中的所有词转换为词向量，然后，这些词向量被一个四层的时序卷积网络TCN编码为文本特征。

6.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间，并使用变分推理技术中的概率抽样的方法，得到风格特征，具体方法步骤为：首先使用全连接层将风格id映射为表示风格分布的参数，然后从这些参数中采样，最终得到风格特征/>。

7.如权利要求5所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：文本编码器中使用FastText提供的预训练的词嵌入。

8.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：所述姿势解码采用一个四层双向GRU，对抗学习中使用四个级联的一维卷积层和两个全连接层作为判别器，判别器使用生成姿势和真实姿势进行对抗性学习，其中生成姿势只使用由音频和文本生成的姿势，真实姿势与层次化姿势编码器的输入姿势相同，生成器同时使用/>和/>计算损失函数。

9.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：训练阶段，姿势解码器使用多个损失函数进行约束，最终损失函数如下：

；

对抗损失的具体公式如下：

；

嵌入重构损失：对生成姿势使用层次化姿势编码器/>重新得到层次化的姿势特性：，并将其与从输入解码器的嵌入进行比较，具体公式为：

；

其中表示光滑L1损失；

KLD损失：用于风格编码中变分推理的学习，具体公式为：

；

其中表示表示风格编码器输出的均值和方差；

；