CN111080752A

CN111080752A - 基于音频的动作序列生成方法、装置以及电子设备

Info

Publication number: CN111080752A
Application number: CN201911286226.1A
Authority: CN
Inventors: 陈晓敏; 韩文静; 姜涛; 李岩
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-28
Anticipated expiration: 2039-12-13
Also published as: CN111080752B

Abstract

本公开公开一种基于音频的动作序列生成方法、装置以及电子设备，涉及数据处理技术领域，包括：提取音频帧序列中各音频帧的特征分量，并确定音频帧序列中各音频帧的位置编码；将音频帧序列中各音频的特征分量以及位置编码依序输入给已训练的基于自注意力机制的模型进行处理，得到音频帧序列对应的动作序列。通过该方式可以获取与音频数据对应的动作序列，增加了音频数据对应动作序列的多样性。

Description

基于音频的动作序列生成方法、装置以及电子设备

技术领域

本公开涉及数据处理技术领域，特别涉及一种基于音频的动作序列生成方法、装置以及电子设备。

背景技术

随着互联网技术的迅速发展，视频社交逐渐成为人们日常生活的重要部分，部分人会在线上拍摄舞蹈教学视频与他人分享，然而编排舞蹈需要编舞者将音乐与舞蹈动作进行契合，需要耗费大量的时间以及精力，无形中增加了编排舞蹈的制作成本。

相关技术中，自动编舞的方法需要提取音乐特征，然后从已有的动作库选择与音乐相关的动作进行编舞，但是该方式生成的舞蹈动作单一且生成的舞蹈动作不连贯。

基于此，需要一种新的编舞方法来解决上述的问题。

发明内容

本公开提供了一种基于音频的动作序列生成方法、装置以及电子设备，用以解决相关技术中编排舞蹈种类单一且生成的舞蹈动作不连贯的问题。

根据本公开实施例的第一方面，提供一种基于音频的动作序列生成方法，包括：

提取音频帧序列中各音频帧的特征分量，并确定所述音频帧序列中各音频帧的位置编码；

将所述音频帧序列中各音频的特征分量以及位置编码依序输入给已训练的基于自注意力机制的模型进行处理，得到所述音频帧序列对应的动作序列；

其中，所述基于自注意力机制的模型中包括编码器和解码器，所述编码器用于对每帧音频帧的特征分量以及位置编码进行编码处理，得到各帧音频帧的编码数据，并将各帧音频帧的编码数据依序输入给所述解码器；

所述解码器用于依照对上一音频帧解码时获得的动作特征，对输入的当前音频帧的编码数据以及位置编码进行解码，得到与所述当前音频帧对应的动作特征，所述动作特征由多个肢体关节点的位置数据进行表示；

其中，所述音频帧序列中第一帧音频帧的上一音频帧的动作特征为预先配置的初始值。

可选的，所述提取音频帧序列中各音频帧的特征分量包括：

将音频数据按照指定时间间隔进行抽帧处理，得到所述音频帧序列；

提取所述音频帧序列中各音频帧的音频特征；

将音频帧序列中各音频帧特征依序输入给已训练的变分自编码器，得到音频帧序列中各音频帧的特征分量。

可选的，所述得到所述音频帧序列对应的动作序列之后，所述方法还包括：

根据各音频帧对应的动作特征，得到各音频帧的动作图像；

将相邻音频帧的动作图像进行插帧处理，得到连续的动作动画。

可选的，所述基于自注意力机制的模型是通过如下方式训练的，包括：

获取训练样本，所述训练样本中包括音频帧序列及其对应的动作序列，所述动作序列由所述音频帧序列中每帧音频帧对应的位置编码以及各音频帧的动作特征组成；

基于所述训练样本，训练所述基于自注意力机制的模型，以使所述基于自注意力机制的模型输出与所述训练样本中的音频帧序列对应的动作序列。

可选的，确定音频帧的动作特征包括：

获得多个样本视频；所述样本视频为已知的基于所述训练样本的音频帧序列进行动作编排的影像；

分别从所述多个样本视频中提取与所述训练样本中各音频帧对应的视频帧序列；

提取所述视频帧序列中每帧视频帧的动作特征作为相应音频帧的动作特征。

可选的，所述提取所述视频帧序列中每帧视频帧的动作特征作为相应音频帧的动作特征，包括：

从所述视频帧序列的各视频帧中提取肢体关节点在相应视频帧中的位置坐标；并，

确定从各视频帧提取的肢体关节点与指定肢体关节点的相对位置关系；

将各视频帧中的指定肢体关节点移动至相应视频帧的指定位置，并根据所述相对位置关系和所述指定位置的坐标，调整各视频帧的各肢体关节点的位置坐标；

根据调整后的各视频帧的各肢体关节点的位置坐标确定对应的音频帧的动作特征。

可选的，所述根据调整后的各视频帧的各肢体关节点的位置坐标确定对应的音频帧的动作特征，包括：

对各肢体关节点的位置坐标进行归一化处理以使不同样本视频的位置坐标比例相同，所述位置坐标比例指视频帧序列中的肢体关节点的最小位置坐标和最大位置坐标之间的差距；

采用归一化处理后的各视频帧中的各肢体关节点的位置坐标构造相应音频帧的动作特征。

根据本公开实施例的第二方面，提供一种基于音频的动作序列生成装置，所述装置包括：

提取单元，被配置为提取音频帧序列中各音频帧的特征分量，并确定所述音频帧序列中各音频帧的位置编码；

输入单元，被配置为将所述音频帧序列中各音频的特征分量以及位置编码依序输入给已训练的基于自注意力机制的模型进行处理，得到所述音频帧序列对应的动作序列；

可选的，所述提取单元具体用于：

提取所述音频帧序列中各音频帧的音频特征；

可选的，所述装置还包括：

插帧处理单元，被配置为根据各音频帧对应的动作特征，得到各音频帧的动作图像；

可选的，所述装置还包括：

训练单元，被配置为获取训练样本，所述训练样本中包括音频帧序列及其对应的动作序列，所述动作序列由所述音频帧序列中每帧音频帧对应的位置编码以及各音频帧的动作特征组成；

可选的，所述装置还包括：

动作特征确定单元，被配置为获得多个样本视频；所述样本视频为已知的基于所述训练样本的音频帧序列进行动作编排的影像；

可选的，所述动作特征确定单元具体用于：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，用以实现如第一方面所述的方法。

根据本公开实施例的第四方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如第一方面所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开公开的一种基于音频的动作序列生成方法、装置以及电子设备，首先提取音频帧序列中各音频帧的特征分量，并确定音频帧序列中各音频帧的位置编码，然后将音频帧序列中各音频的特征分量以及位置编码依序输入给已训练的基于自注意力机制的模型进行处理，最后得到音频帧序列对应的动作序列，其中，基于自注意力机制的模型中包括编码器和解码器，编码器用于对每帧音频帧的特征分量以及位置编码进行编码处理，得到各帧音频帧的编码数据，并将各帧音频帧的编码数据依序输入给所述解码器；解码器用于依照对上一音频帧解码时获得的动作特征，对输入的当前音频帧的编码数据以及位置编码进行解码，得到与当前音频帧对应的动作特征，动作特征由多个肢体关节点的位置数据进行表示；音频帧序列中第一帧音频帧的上一音频帧的动作特征为预先配置的初始值。通过该方式可以获取与音频数据对应的动作序列，不仅提高了舞蹈编排的效率，还增加了音频数据对应动作序列的多样性，且由于结合了上一动作特征生成下一动作，使得生成的动作比较连贯。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为本公开实施例提供的肢体关节点的结构示意图；

图2为本公开实施例提供的一种基于音频的动作序列生成方法的流程示意图；

图3为本公开实施例提供的Transformer模型的结构示意图；

图4为本公开实施例提供的Transformer模型的训练方法的流程示意图；

图5为本公开实施例提供的确定音频帧的方法的流程示意图；

图6为本公开实施例提供的动作动画合成方法的流程示意图；

图7为本公开实施例提供的肢体关节点位置调整示意图；

图8为本公开实施例提供的视频归一化的方法流程示意图；

图9为本公开实施例提供的一种音频帧特征分量提取方法的流程示意图；

图10为本公开实施例提供的视频帧序列中的动作特征提取方法的流程示意图；

图11为本公开实施例提供的一种基于音频的动作序列生成装置的结构示意图；

图12为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应理解这样的描述在适当情况下可以互换，以便本公开的实施例能够以除了本公开的图示或描述的内容以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，应用比较广泛的是机器编舞方法，该机器编舞首先需要识别音乐中的旋律，速度和节拍等音乐特征，然后通过选取适当的距离函数，在已有的舞蹈动作库里选取与声学特征最接近的舞蹈动作，最后把选取的舞蹈动作拼接合成一段舞蹈，从而实现编舞。

但是通过该方式进行编舞需要构建庞大的舞蹈动作库，并设计适当的距离函数来衡量舞蹈动作与音乐特征的匹配程度，且通过音乐特征与舞蹈动作匹配生成的舞蹈动作，仅仅只能生成舞蹈动作库里已有的舞蹈动作，形成的舞蹈动作单一，且该方式从舞蹈动作库中直接选取进行拼接合成的舞蹈动作，没有考虑到舞蹈前后的动作连贯性，得到舞蹈动作衔接性不好。

基于此，为了便于网络训练，将舞蹈动作转化为可输入到神经网络的向量，在舞蹈视频中，本公开只关注舞蹈的动作姿势，所以本公开选取人体预设的肢体关节点用于描述动作信息，将一个视频帧画面中人体预设的肢体关节点的坐标进行拼接，形成一个向量，表示该帧的舞蹈动作。如：选取肢体25个关节点来描述动作信息如图1所示，分别选取关节点0对应鼻子、关节点1对应脖子、关节点2对应右上肩、关节点3对应右肘、关节点4对应右手腕、关节点5对应左上肩、关节点6对应左肘、关节点7对应左手腕、关节点8对应中髋、关节点9对应右髋、关节点10对应右膝、关节点11对应右脚踝、关节点12对应左髋、关节点13请对应左膝、关节点14对应左脚踝、关节点15对应右眼、关节点16对应左眼、关节点17对应右耳朵、关节点18对应左耳朵、关节点19对应左脚大拇指、关节点20对应左脚小拇指、对应关节点21左脚后跟、关节点22对应右脚大拇指、关节点23对应右脚小拇指、关节点24对应右脚后根。

当然需要说明的是，关节点的数量和位置可根据实际需要确定，本申请对此不作限定。此外，本申请实施例提供的基于音频的动作序列生成方法，不仅适用于自动编排舞蹈动作，也适用于编排武术动作等需要肢体关节协调配合的动作编排场景。

有鉴于此，本申请实施例中，可采用基于自注意力机制的Transformer模型生成相应的动作序列。

参见图2本公开提供了一种基于音频的动作序列生成方法，执行如下步骤：

步骤201：提取音频帧序列中各音频帧的特征分量，并确定音频帧序列中各音频帧的位置编码。

步骤202：将音频帧序列中各音频帧的特征分量以及位置编码依序输入给已训练的基于自注意力机制的Transformer模型进行处理，得到音频帧序列对应的动作序列。

其中，Transformer模型中包括编码器和解码器，编码器用于对每帧音频帧的特征分量以及位置编码进行编码处理，得到各帧音频帧的编码数据，并将各帧音频帧的编码数据依序输入给解码器；解码器用于依照对上一音频帧解码时获得的动作特征，对输入的当前音频帧的编码数据以及位置编码进行解码，得到与当前音频帧对应的动作特征，动作特征由多个肢体关节点的位置数据进行表示。其中，所述音频帧序列中第一帧音频帧的上一音频帧的动作特征为预先配置的初始值。

举例说明，Transformer模型包括编码器以及解码器，如图3所示，其中，编码器包括：编码数据输入单元、编码位置单元以及Nx个循环编码子单元，其中，每个循环编码子单元由4部分构成，分别为多头注意力机制Multi-Head Attention、残差连接和归一化Add&Norm、前馈Feed Forward以及Add&Norm，每个循环编码子单元的结构相同，但每个循环编码子单元的内部参数是不同的，循环编码子单元的输入数据是上一个循环编码子单元的输出数据。解码器包括：解码数据输入单元、解码位置单元以及Nx个循环解码子单元，其中，每个循环解码单元设置Nx个循环解码子单元，每个循环解码子单元由6部分构成，分别为伪多头注意力机制Masked Multi-Head Attention、Add&Norm、Multi-Head Attention、Add&Norm、Feed Forward以及Add&Norm，此外，还要说明的是Multi-Head Attention输入的数据还包括编码部分的编码数据结果，在每个循环解码单元的结构相同，但每个循环解码子单元的内部参数是不同的，循环译码子单元的输入数据是上一个循环译码子单元的输出数据。

针对编码单元，将音频帧特征分量输入至编码数据输入单元，编码位置单元输入该音频帧特征分量对应的位置编码，将音频帧特征分量以及该音频帧特征分量对应的位置编码进行叠加并输入至循环编码子单元，得到当前音频帧的编码数据。针对解码单元将上一音频帧解码时获得的多个肢体关节点的位置数据作为解码数据输入单元的输入数据，将音频帧特征分量对应的位置编码作为解码位置单元的输入数据，并将该位置编码叠加上与上一音频帧解码时获得的多个肢体关节点的位置数据以及当前音频帧的编码数据，输入到循环解码单元中进行解码处理，在通过线性Linear以及逻辑回归Softmax的处理得到音频数据对应的多个肢体关节点的位置数据。

通过该Transformer模型对音频特征分量进行编码处理，得到的与音频数据对应的肢体关节点的位置数据相关性更好，且更加简单。

在了解了Transformer模型结构之后，下面对本公开中Transformer模型的训练进行说明，如图4所示，可执行为：

步骤401：获取训练样本，所述训练样本中包括音频帧序列及其对应的动作序列，所述动作序列由所述音频帧序列中每帧音频帧对应的位置编码以及各音频帧的动作特征组成。

步骤402：基于训练样本，训练Transformer模型，以使Transformer模型输出与训练样本中的音频帧序列对应的动作序列。

在一个实施例中，可通过图5所示的方法确定音频帧的动作特征，可执行为：

步骤501：获得多个样本视频；所述样本视频为已知的基于所述训练样本的音频帧序列进行动作编排的影像。

步骤502：分别从多个样本视频中提取与训练样本中各音频帧对应的视频帧序列。

步骤503：提取视频帧序列中每帧视频帧的动作特征作为相应音频帧的动作特征。

通过该方式获取音频帧的动作特征更加简便直观，且能够很好的和相应的音频帧特征契合。

在一个实施例中，可参阅图6所示的方法提取视频帧序列中的动作特征，可执行为：

步骤5031：从视频帧序列的各视频帧中提取肢体关节点在相应视频帧中的位置坐标。

步骤5032：确定从各视频帧提取的肢体关节点与指定肢体关节点的相对位置关系。

步骤5033：将各视频帧中的指定肢体关节点移动至相应视频帧的指定位置，并根据相对位置关系和指定位置的坐标，调整各视频帧的各肢体关节点的位置坐标。

步骤5034：根据调整后的各视频帧的各肢体关节点的位置坐标确定对应的音频帧的动作特征。

通过该方式将指定的关节点设置到指定的位置，使得视频中的肢体关节点的动作从指定的位置开始，实现了视频图像的肢体关节点位置的归一化。

为了避免样本视频中演示舞蹈动作的人物大小以及人物在图像中的位置和图像分辨率不同带来的差异，尽可能的仅关注动作本身的特征。不同样本视频由于拍摄角度的差异致使人物在视频中的位置不一致，选定一个指定肢体关节点后，确定视频帧图像中其他肢体关节点与该指定肢体关节点的坐标偏移量，然后将视频帧图像中指定肢体关节点移动到视频帧的指定位置如：图像中心的下方位置，其他肢体关节点根据相对指定肢体关节点的坐标偏移量进行移动，保证了视频帧序列均从图像的中间位置开始，实现了肢体关节点位置的归一化。如图7所示，中将指定关节点定义为右脚踝，7A位于图像左下方，将右脚踝对应的关节点移动至图像中心下方指定位置得到7B中的图像，可执行如图8所述视频帧归一化的流程，包括：

步骤801：对各肢体关节点的位置坐标进行归一化处理以使不同样本视频的位置坐标比例相同，所述位置坐标比例指视频帧序列中的肢体关节点的最小位置坐标和最大位置坐标之间的差距。

步骤802：采用归一化处理后的各视频帧中的各肢体关节点的位置坐标构造相应音频帧的动作特征。

需要说明的是，由于样本视频中，不同的人跳舞在视频图像中所占的比例不一样，先确定视频帧序列中肢体关节点最小位置纵坐标以及最大位置纵坐标，固定肢体关节点最小位置纵坐标值，使得肢体关节点最大位置纵坐标与最小位置纵坐标的差距为固定的值，如：差距值为视频帧图像高度的70％，横纵标根据纵坐标的变化进行成比例调整，该方式使得样本视频中人物的舞蹈动作一致情况下，在视频帧图像中所占的比例相同。

此外需要说明的是，音频帧序列中第一帧音频帧的上一音频帧的动作特征为预先配置的初始值，其中，初始值可以为全0的矩阵也可以为全1的矩阵，亦或者可以为指定的肢体关节点的位置数据。

通过对音频帧特征分量进行编码，并参照肢体关节点的位置数据对音频数据进行解码，通过该方式生成的与音频数据对应的肢体关节点的位置数据无需舞蹈动作特征的数据库，且肢体关节点的位置数据连续，即生成的动作前后具有连贯性，动作之间能够很好的衔接，使得动作较为流畅自然。

在一个实施例中，各音频帧特征分量的提取方法如图9所示，执行步骤2011：将音频数据按照指定时间间隔进行抽帧处理，得到音频帧序列。

在一个实施例中，指定时间间隔可以按用户需求确定，例如可以为5ms(毫秒)或者10ms。

步骤2012：提取音频帧序列中各音频帧的音频特征。

步骤2013：将音频帧序列中各音频特征依序输入给已训练的变分自编码器，得到音频帧序列中各音频帧的特征分量。

需要说明的是，在进行各音频特征分量的提取时，经过变分自编码器计算所述音频帧序列的均值以及标准差，并根据所述均值以及所述标准差，确定所述音频帧序列对应的音频帧特征分布，通过对所述音频帧特征分布进行抽样，得到抽样结果，之后对抽样结果进行编码得到音频帧序列中各音频帧的特征分量。通过变分自编码器的抽样提取各音频帧的特征分量，不仅增加了音频帧分量的多样性，且为生成多种与音频相匹配的动作序列做了基础。也即，对于同一音频，变分自编码器可得到不同的特征分量，不同的特征分类能解码出不同的动作序列。故此，同一音频，可编码出不同的动作序列。

在一个实施例中，基于音频的动作序列生成方法还包括动作动画合成方法，如图10所示，可执行为：

步骤1001：根据各音频帧对应的动作特征，得到各音频帧的动作图像。

步骤1002：将相邻音频帧的动作图像进行插帧处理，得到连续的动作动画。

通过该方式可得到连续的动作动画，便于用户根据该动作动画学习舞蹈动作。

参阅图11，本公开实施例提供一种基于音频的动作序列生成装置，该装置包括：提取单元111以及输入单元112。

需要说明的是，提取单元111，被配置为提取音频帧序列中各音频帧的特征分量，并确定所述音频帧序列中各音频帧的位置编码。输入单元112，被配置为将所述音频帧序列中各音频的特征分量以及位置编码依序输入给已训练的基于自注意力机制的Transformer模型进行处理，得到所述音频帧序列对应的动作序列；

其中，所述Transformer模型中包括编码器和解码器，所述编码器用于对每帧音频帧的特征分量以及位置编码进行编码处理，得到各帧音频帧的编码数据，并将各帧音频帧的编码数据依序输入给所述解码器；

在一个可选的实施例中，所述提取单元111被配置为：

具体用于：

提取所述音频帧序列中各音频帧的音频特征；

在一个可选的实施例中，所述装置还包括：

基于所述训练样本，训练所述Transformer模型，以使所述Transformer模型输出与所述训练样本中的音频帧序列对应的动作序列。

在一个可选的实施例中，所述装置还包括：

在一个可选的实施例中，所述动作特征确定单元具体用于：

在介绍了本公开示例性实施方式中的基于音频的动作序列生成方法和装置之后，接下来，介绍本公开的另一示例性实施方式的电子设备。所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的电子设备如图12所示，可以包括：处理器800；用于存储所述处理器800可执行指令的存储器801；

其中，所述处理器800被配置为执行所述指令，使得处理器执行本说明书上述描述的根据本公开各种示例性实施方式的基于音频的动作序列生成方法中的步骤。例如，处理器可以执行如图2中所示的步骤201-步骤202。本公开提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

将所述音频帧序列中各音频的特征分量以及位置编码依序输入给已训练的基于自注意力机制的Transformer模型进行处理，得到所述音频帧序列对应的动作序列；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于音频的动作序列生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取音频帧序列中各音频帧的特征分量包括：

提取所述音频帧序列中各音频帧的音频特征；

3.根据权利要求1所述的方法，其特征在于，所述得到所述音频帧序列对应的动作序列之后，所述方法还包括：

根据各音频帧对应的动作特征，得到各音频帧的动作图像；

4.根据权利要求1所述的方法，其特征在于，所述基于自注意力机制的模型是通过如下方式训练的，包括：

5.根据权利要求4所述的方法，其特征在于，确定音频帧的动作特征包括：

6.根据权利要求5所述的方法，其特征在于，所述提取所述视频帧序列中每帧视频帧的动作特征作为相应音频帧的动作特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据调整后的各视频帧的各肢体关节点的位置坐标确定对应的音频帧的动作特征，包括：

8.一种基于音频的动作序列生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-7中任一项所述的一种基于音频的动作序列生成方法。

10.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1-7中任一权利要求所述的方法。