CN114582029A - 一种非专业舞蹈运动序列增强方法及系统 - Google Patents

一种非专业舞蹈运动序列增强方法及系统 Download PDF

Info

Publication number
CN114582029A
CN114582029A CN202210483206.9A CN202210483206A CN114582029A CN 114582029 A CN114582029 A CN 114582029A CN 202210483206 A CN202210483206 A CN 202210483206A CN 114582029 A CN114582029 A CN 114582029A
Authority
CN
China
Prior art keywords
dance
sequence
professional
music
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210483206.9A
Other languages
English (en)
Other versions
CN114582029B (zh
Inventor
屠长河
周秋
李曼祎
曾琼
张晓菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210483206.9A priority Critical patent/CN114582029B/zh
Publication of CN114582029A publication Critical patent/CN114582029A/zh
Application granted granted Critical
Publication of CN114582029B publication Critical patent/CN114582029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种非专业舞蹈运动序列增强方法及系统,涉及数据处理方法技术领域,包括:分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。在时序和空间两个层面上对非专业舞蹈进行增强,不但增强舞蹈序列的流畅性、完成度和节奏感,并且能够保持原始舞蹈内容不改变。

Description

一种非专业舞蹈运动序列增强方法及系统
技术领域
本发明涉及数据处理方法技术领域,特别是涉及一种非专业舞蹈运动序列增强方法及系统。
背景技术
在电影和动画行业,捕获并迁移舞蹈动作到虚拟模型上的技术已经得到了非常普遍的应用,但是由于舞蹈的专业性对演员要求严苛,动作捕捉设备的性能无法满足对舞蹈动作的质量要求,且现有的计算机技术难以完美修补缺乏专业性的舞蹈动作。获取专业舞蹈数据的成本高,导致可用的高质量舞蹈数据集规模很小。这不仅限制了以数据为驱动的学术研究的开展,也拖慢了以舞蹈为核心的商业活动的脚步。
目前在动作分析与合成领域,对舞蹈序列的主要研究形式有:专业度评估、动作风格迁移、音乐驱动舞蹈生成和音频同步等。上述几类研究中,其一是没有整理出可用的评估专业度的定量指标;其二是缺乏充分考虑舞蹈序列专业性特性的框架;其三是需要复杂繁琐的预处理和后处理步骤。因此,目前尚未出现对非专业舞蹈数据进行增强的模型或者算法。
发明内容
为了解决上述问题,本发明提出了一种非专业舞蹈运动序列增强方法及系统,在时序和空间两个层面上对非专业舞蹈进行增强,不但增强舞蹈序列的流畅性、完成度和节奏感,并且能够保持原始舞蹈内容不改变。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种非专业舞蹈运动序列增强方法,包括:
对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
作为可选择的实施方式,所述编码器包括音乐编码器和动作编码器,音乐编码器和动作编码器采用相同的网络结构,且独立训练;在编码器中包括三个一维卷积模块和两个自注意力模块;所述一维卷积模块包括一个一维卷积层,一个批处理归一化层和一个激活函数层;所述自注意力模块包括两个分区的编码层和一个全连接层。
作为可选择的实施方式,对编码后的动作特征序列和音乐特征序列构建相似性矩阵的过程包括,根据动作特征序列和音乐特征序列的欧式距离构建相似性矩阵。
作为可选择的实施方式,所述解码器包括三个上采样模块,所述上采样模块包括一个上采样层、一个全连接层和一个激活函数层;且最后一个上采样模块不设置激活函数层。
作为可选择的实施方式,进行空间扰动和时序扰动的过程包括:对专业舞蹈的运动序列提取动作节拍和选取关键帧,具体包括:
计算动作序列在t时刻的速度,以此在所有关节点中选择方向变化最大的关节点作为速度变化量,在速度变化量中选取的局部极小值作为动作节拍;
在动作序列中根据预设时间间隔进行均匀采样,得到初始关键帧;
以初始关键帧为原点,将距离初始关键帧最近的动作节拍作为备选关键帧;
根据时间间隔阈值在备选关键帧中筛选得到关键帧。
作为可选择的实施方式,对专业舞蹈的运动序列进行空间扰动的过程还包括:随机生成关键帧上的空间因子:
Figure 833289DEST_PATH_IMAGE001
其中,
Figure 96780DEST_PATH_IMAGE002
为第n个关键帧上随机生成的空间因子;
Figure 804842DEST_PATH_IMAGE003
Figure 170402DEST_PATH_IMAGE004
是用来控制反高斯分布形状的参数;d是二进制参数;对空间因子采用线性插值方式进行空间扰动。
作为可选择的实施方式,对专业舞蹈的运动序列进行时序扰动的过程还包括:随机生成关键帧上的时间因子并进行时序扰动,具体包括:
对每个关键帧按时间因子进行时序偏移到新时间节点;
在相邻的关键帧之间,采用线性插值得到时序偏移后的帧序号,得到时序偏移后的关键帧序列;
对时序偏移后的关键帧序列判断单调性。
第二方面,本发明提供一种非专业舞蹈运动序列增强系统,包括:
训练模块,被配置为对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
特征提取模块,被配置为分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对齐模块,被配置为对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
空间增强模块,被配置为对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明提供一种非专业舞蹈运动序列增强方法及系统,将舞蹈的专业性锁定在时序和空间两个层面上,在时序层面提高舞蹈与伴奏音乐的同步性,在空间层面提高舞蹈动作的完成度,提高舞蹈整体的专业性和视觉效果。不但增强舞蹈序列的流畅性、完成度和节奏感,并且能够保持原始舞蹈内容不改变。
本发明提供的一种非专业舞蹈运动序列增强方法及系统,为保证本发明方案的可靠性,还提出一种基于关键帧的数据增广策略,以专业舞蹈数据集为基础,合成了在编舞上多对一配对的非专业-专业数据集;在尽可能保留舞蹈序列编舞的前提下,在时序和空间维度上对专业舞蹈序列进行微调,合成了多组符合真实情况的非专业舞蹈数据,解决了数据集缺乏、专业-非专业数据集编舞不匹配的问题。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的非专业舞蹈运动序列增强方法流程示意图;
图2为本发明实施例1提供的非专业舞蹈运动序列增强仿真示意图;
图3为本发明实施例1提供的对专业舞蹈序列进行基于关键帧的数据增广流程示意图;
图4(a)为本发明实施例1提供的关键帧提取示意图;
图4(b)为本发明实施例1提供的空间扰动示意图;
图4(c)为本发明实施例1提供的时序扰动示意图;
图5为本发明实施例1提供的非专业舞蹈运动序列增强框架图;
图6(a)为本发明实施例1提供的将舞蹈序列同步到音乐序列的可视化结果一示意图;
图6(b)为本发明实施例1提供的将舞蹈序列同步到音乐序列的可视化结果二示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种非专业舞蹈运动序列增强方法,包括舞蹈音乐对齐阶段和专业性增强阶段;其中,舞蹈音乐对齐阶段负责时序层面的增强,在隐式特征空间中学习舞蹈和音乐之间的最优对齐方案;专业性增强阶段负责空间层面的增强,在隐式空间融入舞蹈音乐对齐阶段的时序增强方案,在解码器中提高动作的完成度。
在本实施例中,可以通过获取舞蹈视频,对人物进行识别后,进一步进行骨架提取得到舞蹈动作,以此获取舞蹈序列。
如图1所示的非专业舞蹈运动序列增强方法,具体包括:
(1)分别提取动作特征和音乐特征;包括:分别获取待增强非专业舞蹈的舞蹈序列和音乐的音乐序列,并对舞蹈序列和音乐序列分别提取音乐特征和动作特征。
具体地,对音乐序列计算梅尔声谱矩阵,将其作为音乐特征
Figure 545889DEST_PATH_IMAGE005
,其中,T为帧数,B是声谱通道数量;
获取舞蹈序列中的关节位置,计算每帧舞蹈动作中每个关节的xyz方向上的速度和加速度,以此提取动作特征
Figure 714702DEST_PATH_IMAGE006
,其中,T为帧数,C是3个空间维度(xyz)的总关节数量。
(2)对音乐特征和动作特征分别进行编码;包括:将音乐特征和动作特征分别采用音乐编码器Enc m 和动作编码器Enc k 进行编码,得到考虑局部上下文信息的隐式空间的音乐特征序列f M 和动作特征序列f K
具体地,所述音乐编码器和动作编码器使用相同的网络结构,但独立训练,具有不同的网络参数。在每个编码器中包括三个一维卷积模块和两个自注意力模块;
具体地:所述一维卷积模块包括一个一维卷积层,一个批处理归一化层和一个ReLU激活函数层;其中,卷积层的卷积核尺寸为32,步长为1。
所述自注意力模块用于学习基于上下文的舞蹈/音乐信息,自注意力模块包括两个分区的编码层和一个全连接层;其中,分区尺寸为4,随机丢弃参数为0.5。
在本实施例中,在自注意力模块中的编码层中设计了注意力掩蔽矩阵B a ,用于关注位于邻域内的上下文的信息,注意力掩蔽矩阵被加到模块中间产生的特征矩阵上;
Figure 972377DEST_PATH_IMAGE007
其中,
Figure 153347DEST_PATH_IMAGE008
是控制邻域大小的参数,本实施例采用
Figure 117761DEST_PATH_IMAGE009
i是音乐帧序号,j是动作帧序号。
(3)获取动作和音乐的对齐路径;包括:计算音乐特征序列f M 和动作特征序列f K 的欧式距离F(i,j),根据欧氏距离构建尺寸为
Figure 723054DEST_PATH_IMAGE010
的相似性矩阵
Figure 77812DEST_PATH_IMAGE011
Figure 62473DEST_PATH_IMAGE012
其中,i是音乐帧序号,j是动作帧序号。
根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;具体地,如果一个动作帧与一个音乐帧的在某个特征值上的距离相较于其他音乐帧要小,则该动作帧与该音乐帧相匹配的概率就较高;反之亦然。
所以,(1)根据相似性矩阵A采用动态时序规整方法得到与相似性矩阵A相同尺寸的矩阵D;矩阵D每个位置的值均为相似性矩阵A对应位置距离其起点(左上角)的最短距离。
(2)在计算矩阵D时,每确定一个位置的值(代表该位置距离起点的最短距离),同时也标记出该位置所属最短距离的前趋位置,将矩阵D中所有位置的前趋位置记录为最短路径矩阵P a ;从最短路径矩阵P a 的终点(右下角)倒推回起点,即可得到一条代表相似性矩阵A从起点到终点的最短路径,把这条路径采用与相似性矩阵A相同尺寸的矩阵表示(1表示该位置在最短路径上,0表示该位置不在最短路径上),即为寻找到的对齐路径。
具体地,对相似性矩阵A采用动态时序规整方法,计算相似性矩阵A上从起点(左上)到每一点的最短距离,得到矩阵D
Figure 146973DEST_PATH_IMAGE013
最短路径矩阵P a 为:
Figure 657589DEST_PATH_IMAGE014
由此,得到动作和音乐的对齐路径
Figure 827539DEST_PATH_IMAGE015
Figure 285065DEST_PATH_IMAGE016
至此,舞蹈音乐对齐阶段完成。
(4)对待增强非专业舞蹈的舞蹈序列采用舞蹈编码器Enc d ,得到考虑局部上下文信息的隐式空间的舞蹈特征序列f D
其中,所述舞蹈编码器包括三个一维卷积模块和两个自注意力模块,与音乐编码器和动作编码器结构一致。
(5)对舞蹈特征序列根据对齐路径进行时序规整;包括:将舞蹈特征序列f D 与对齐路径W进行乘法运算,规整舞蹈动作在时序上的前后位置,实现时序上的专业性增强,得到时序规整后的舞蹈特征序列
Figure 961421DEST_PATH_IMAGE017
(6)对时序规整后的舞蹈特征序列
Figure 174097DEST_PATH_IMAGE017
采用解码器Dec进行空间专业性增强,得到增强的非专业舞蹈;
其中,所述解码器Dec包括三个上采样模块,所述上采样模块包括一个上采样层、一个全连接层和一个ReLU激活函数层;其中,上采样层的放大因子为2,最后一个上采样模块不设置激活函数层。
至此,专业性增强阶段完成。如图2所示。
在本实施例中,为更加有效且准确的完成舞蹈音乐对齐阶段和专业性增强阶段;本实施例预先训练编码器和解码器,在训练过程中,为扩充训练集,以AIST++专业舞蹈数据集为基础,合成在编舞上多对一的非专业-专业数据集;具体地,对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此扩充训练集,并训练编码器和解码器。
如图3所示,本实施例对专业舞蹈序列进行基于关键帧的数据增广,以将其转换为非专业舞蹈数据,具体包括:
(1)获取专业舞蹈的动作序列,提取动作节拍,以此选取关键帧;
具体地,在学习舞蹈的时候,业余舞者通常比较容易识别动作中那些显眼的变化(比如停顿和转圈),它们通常与动作节拍一同发生。基于这个观察,定义速度变化量较大的帧序号作为动作节拍;
首先,计算动作序列的速度
Figure 565764DEST_PATH_IMAGE018
,即位移对时间t的一阶偏导:
Figure 826981DEST_PATH_IMAGE019
其中,J为单个空间维度关节点个数;P为位移;
然后,得到t时刻的速度后,在所有关节点中选择方向变化最大的关节点,作为速度变化量
Figure 369563DEST_PATH_IMAGE020
Figure 18719DEST_PATH_IMAGE021
其中,j是动作帧序号,
Figure 632103DEST_PATH_IMAGE022
t时刻第h个关节点在axis轴(取值x,y,z三选一)上的速度,
Figure 493748DEST_PATH_IMAGE023
t-1时刻第h个关节点在axis轴上的速度。
最后,在速度变化量
Figure 144697DEST_PATH_IMAGE024
序列上,选取T b 个局部极小值,作为动作节拍
Figure 964754DEST_PATH_IMAGE025
为了实现关键帧提取,首先,使用确定的时间间隔t pad ,在整个动作序列上均匀地采样几个动作帧,将它们的帧序号作为初始关键帧序号;
然后,以初始关键帧序号为原点,搜索距离初始关键帧序号最近的动作节拍,作为备选关键帧;
最后,为了保证调整后的动作真实度,丢弃时间间隔小于阈值的备选关键帧,剩余的备选关键帧即为最终的关键帧序列
Figure 737538DEST_PATH_IMAGE026
,N为关键帧数量,如图4(a)所示。
(2)随机生成关键帧上的空间因子进行空间扰动;
空间因子通过缩小或放大动作的幅度来调整动作完成度。定义空间因子
Figure 137296DEST_PATH_IMAGE027
,以便在全部关节点上控制空间扰动程度,并通过近似的反高斯分布随机地生成相关的值:
Figure 170980DEST_PATH_IMAGE028
其中,
Figure 633710DEST_PATH_IMAGE029
是为第n个关键帧生成的满足均匀分布的随机值;
Figure 487265DEST_PATH_IMAGE003
Figure 690713DEST_PATH_IMAGE004
是用来控制反高斯分布形状的参数,本实施例设
Figure 251007DEST_PATH_IMAGE003
为1.1,
Figure 884639DEST_PATH_IMAGE004
为1.3;
Figure 225490DEST_PATH_IMAGE030
是随机生成的二进制参数,用来控制缩小或放大动作的幅度,d=1表示放大,反之是缩小,以确保在同一帧中,所有的关节点共享同一个d值,保证动作的真实度。
然后,使用线性插值将
Figure 232629DEST_PATH_IMAGE031
传播到整个空间因子序列
Figure 709747DEST_PATH_IMAGE032
中。如图4(b)所示。
在本实施例中,使用空间因子进行空间扰动的方式常规的做法是把空间因子与每个关节点的位置信息直接相乘,但是这很有可能生成突破人类生理极限,甚至是不可能达到的动作;因此,本实施例使用空间因子,在当前动作和一个标准站立动作u之间计算线性插值
Figure 714612DEST_PATH_IMAGE033
Figure 268391DEST_PATH_IMAGE034
在此过程中使用局部方向表达形式。局部方向表达形式是由父节点指向当前节点的向量的方向,具体计算方式为:使用当前关节点的位置,减去其父节点的位置,并将其整理成单位向量,如下列公式所示:
Figure 813642DEST_PATH_IMAGE035
其中,u h 是标准站立动作的第h个关节点的局部方向,p t,h 代表t时刻第h个关节点的三维坐标,
Figure 410846DEST_PATH_IMAGE036
代表t时刻第h个关节点的父节点的三维坐标,S t,h 是当前t时刻第h个关节点的局部方向。
标准站立动作u可以分为三部分,即:四肢,脊柱和连接点。对于四肢上的关节点,u h =(0,0,-1)表示其方向垂直地面向下;对于脊柱上的关节点,u h =(0,0,1)表示其方向垂直地面向上;对于位于连接点的关节点(肩膀和胯部),在插值时不改变原始动作的方向。
(3)随机生成关键帧上的时序因子进行时序扰动;
时序因子用来打乱动作和对应的音乐之间的同步性,定义时间因子
Figure 383350DEST_PATH_IMAGE037
,通过反高斯分布随机生成数值来控制N个关键帧的时间扰动范围,扭曲专业舞蹈的动作序列:
Figure 436144DEST_PATH_IMAGE038
其中,
Figure 988348DEST_PATH_IMAGE003
Figure 174479DEST_PATH_IMAGE004
是用来控制反高斯分布形状的参数,本实施例设
Figure 583463DEST_PATH_IMAGE003
为50,
Figure 123554DEST_PATH_IMAGE004
为0;
Figure 276186DEST_PATH_IMAGE039
是为第n个关键帧生成的满足均匀分布的随机值。
在本实施例中,时序扰动的过程包括:
首先,对每个关键帧n,将其偏移帧
Figure 316823DEST_PATH_IMAGE040
移动到新的时间节点
Figure 849041DEST_PATH_IMAGE041
Figure 873498DEST_PATH_IMAGE040
为负代表向前偏移,
Figure 504855DEST_PATH_IMAGE040
为正代表向后偏移;
其次,在每两个相邻的关键帧之间,采用线性插值计算出每一时刻对应的时序偏移后的帧序号,得到帧序号序列
Figure 931157DEST_PATH_IMAGE042
最后,时序偏移之后的关键帧的前后顺序可能改变,检查关键帧序列,保证其单调性,避免调整后的动作出现倒置的情况。
如图4(c)所示,调整后的动作序列
Figure 416365DEST_PATH_IMAGE043
为:
Figure 928118DEST_PATH_IMAGE044
其中,
Figure 159903DEST_PATH_IMAGE045
表示下取整,
Figure 706291DEST_PATH_IMAGE046
表示下取整,
Figure 362400DEST_PATH_IMAGE047
表示取绝对值;Q t 表示t时刻的帧序列。
(4)将专业舞蹈转换为非专业舞蹈;具体为:使用分段线性插值方法,将空间因子和时间因子插入原运动序列中,对运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈。
在本实施例中,如图5展示了舞蹈音乐对齐阶段和专业性增强阶段的两阶段的具体细节。音乐和舞蹈序列的高层次特征首先通过舞蹈音乐对齐阶段得到可用于时序规整的矩阵,然后舞蹈序列经过舞蹈专业性增强阶段的编码、时序规整、解码,得到增强后的舞蹈序列。网络框架代码全部用Python实现,并使用当下流行的Pytorch深度学习框架。
为保证训练效果,两阶段框架分别训练。为了使舞蹈-音乐对齐阶段能够找到最优的时序规整的对齐矩阵,在训练时使用先验的对齐矩阵W GT 和专门设置的对齐损失函数;其中,先验的对齐矩阵W GT 是在进行时序扰动时生成的矩阵,将该矩阵与时序扰动后的序列作矩阵乘法,将使序列恢复原来专业的时序对齐。
为了使舞蹈专业性增强阶段能够专注于完成度增强这个任务,本实施例不仅使用与输入序列在编舞上相匹配的先验的专业序列作为增强目标,重建损失函数和一致性损失函数保证舞蹈的视觉呈现效果,而且在训练的不同使用了不同的时序对齐矩阵参与时序规整步骤,即:初始训练阶段,使用先验的对齐矩阵W GT ,训练后微调阶段,使用舞蹈-音乐对齐阶段计算得到的对齐矩阵。
在本实施例中,训练时的参数的设置如下:
超参数设置:一次训练所选取的样本数为64,学习率为0.0001,后向传播时使用Adam优化器;
训练时间:舞蹈-音乐对齐阶段,迭代400轮,花费约12小时;舞蹈专业度增强阶段,初始迭代200轮,微调迭代200轮,花费约6小时;
机器配置:服务器型号NVIDIA Tesla P100,使用4块GPU联合训练;测试使用的计算机主频为3.7GHz,处理器为6核的Intel i7,内存为16GB。
由于现实中的舞蹈序列的长度是不统一的,而现存的很多研究动作序列的框架都对训练数据作了统一长度的处理(切片或者上下采样),这并不是一种好的处理方式。因此,为了使框架能够处理长度不一的序列,本实施例首先用序列后补0的方式,将序列统一长度;然后采用关键值掩蔽向量M kp ,掩蔽无用的填充值,第i帧的关键值掩蔽向量M kpi 为:
Figure 95870DEST_PATH_IMAGE048
在本实施例中,在舞蹈音乐对齐阶段,设计对齐损失函数;假定专业舞蹈序列和对应的音乐序列是同步的,一个动作帧和与它配对的音乐帧在某个特征空间上距离最小。因此基于对比的学习方式,在相似性矩阵上定义时序上的对齐损失函数。对每个音乐帧,选择与之相匹配的舞蹈帧作为正样本,一个随机选择的舞蹈帧作为负样本;然后,在这三帧的隐式特征上计算对齐损失
Figure 396926DEST_PATH_IMAGE049
Figure 469924DEST_PATH_IMAGE050
其中,f G (i)、f K (r)是音乐特征和动作特征,i是音乐帧序号,r是随机选择的帧序号,
Figure 562514DEST_PATH_IMAGE051
是与音乐帧i相对应的舞蹈帧序号,
Figure 845597DEST_PATH_IMAGE052
是与音乐帧i相对应的舞蹈帧的动作特征;a是常参数。
在本实施例中,在专业性增强阶段,设计重建损失函数和一致性损失函数。
其中,重建损失函数;为了提高非专业舞蹈动作的完成度,本实施例使用配对的非专业和专业数据来训练网络,目的是强制使输入的非专业动作在调整完成度的同时,编舞尽可能不变,也就是尽可能接近与之对应的专业数据。基于此,定义重建损失函数
Figure 407466DEST_PATH_IMAGE053
,用来最小化增强后的动作和先验动作的局部方向表达的差异:
Figure 662867DEST_PATH_IMAGE054
其中,p i,h 是增强后动作的第i帧第h个关节点的局部方向,
Figure 926358DEST_PATH_IMAGE055
是对应的先验专业舞蹈动作的局部方向。
一致性损失函数;为了使增强后的舞蹈序列确保流畅性,使用一致性损失函数,测量增强后舞蹈序列和对应的先验舞蹈序列之间的差异,该一致性损失函数
Figure 634420DEST_PATH_IMAGE056
描述为:
Figure 11699DEST_PATH_IMAGE057
其中,
Figure 387186DEST_PATH_IMAGE058
Figure 555999DEST_PATH_IMAGE059
分别是增强后动作和先验动作的速度。
在本实施例中,如图6(a)-图6(b)所示,通过上述方法还可实现将一段舞蹈动作序列与随意一段音乐序列进行同步处理。
实施例2
本实施例提供一种非专业舞蹈运动序列增强系统,包括:
训练模块,被配置为对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
特征提取模块,被配置为分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对齐模块,被配置为对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
空间增强模块,被配置为对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种非专业舞蹈运动序列增强方法,其特征在于,包括:
对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
2.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,所述编码器包括音乐编码器和动作编码器,音乐编码器和动作编码器采用相同的网络结构,且独立训练;在编码器中包括三个一维卷积模块和两个自注意力模块;所述一维卷积模块包括一个一维卷积层,一个批处理归一化层和一个激活函数层;所述自注意力模块包括两个分区的编码层和一个全连接层。
3.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,对编码后的动作特征序列和音乐特征序列构建相似性矩阵的过程包括,根据动作特征序列和音乐特征序列的欧式距离构建相似性矩阵。
4.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,所述解码器包括三个上采样模块,所述上采样模块包括一个上采样层、一个全连接层和一个激活函数层;且最后一个上采样模块不设置激活函数层。
5.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,进行空间扰动和时序扰动的过程包括:对专业舞蹈的运动序列提取动作节拍和选取关键帧,具体包括:
计算动作序列在t时刻的速度,以此在所有关节点中选择方向变化最大的关节点作为速度变化量,在速度变化量中选取的局部极小值作为动作节拍;
在动作序列中根据预设时间间隔进行均匀采样,得到初始关键帧;
以初始关键帧为原点,将距离初始关键帧最近的动作节拍作为备选关键帧;
根据时间间隔阈值在备选关键帧中筛选得到关键帧。
6.如权利要求5所述的一种非专业舞蹈运动序列增强方法,其特征在于,对专业舞蹈的运动序列进行空间扰动的过程还包括:随机生成关键帧上的空间因子:
Figure 863429DEST_PATH_IMAGE001
其中,
Figure 18336DEST_PATH_IMAGE002
为第n个关键帧上随机生成的空间因子;
Figure 242031DEST_PATH_IMAGE003
Figure 281532DEST_PATH_IMAGE004
是用来控制反高斯分布形状的参数;d是二进制参数;对空间因子采用线性插值方式进行空间扰动。
7.如权利要求5所述的一种非专业舞蹈运动序列增强方法,其特征在于,对专业舞蹈的运动序列进行时序扰动的过程还包括:随机生成关键帧上的时间因子并进行时序扰动,具体包括:
对每个关键帧按时间因子进行时序偏移到新时间节点;
在相邻的关键帧之间,采用线性插值得到时序偏移后的帧序号,得到时序偏移后的关键帧序列;
对时序偏移后的关键帧序列判断单调性。
8.一种非专业舞蹈运动序列增强系统,其特征在于,包括:
训练模块,被配置为对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
特征提取模块,被配置为分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对齐模块,被配置为对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
空间增强模块,被配置为对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
CN202210483206.9A 2022-05-06 2022-05-06 一种非专业舞蹈运动序列增强方法及系统 Active CN114582029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210483206.9A CN114582029B (zh) 2022-05-06 2022-05-06 一种非专业舞蹈运动序列增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210483206.9A CN114582029B (zh) 2022-05-06 2022-05-06 一种非专业舞蹈运动序列增强方法及系统

Publications (2)

Publication Number Publication Date
CN114582029A true CN114582029A (zh) 2022-06-03
CN114582029B CN114582029B (zh) 2022-08-02

Family

ID=81785557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210483206.9A Active CN114582029B (zh) 2022-05-06 2022-05-06 一种非专业舞蹈运动序列增强方法及系统

Country Status (1)

Country Link
CN (1) CN114582029B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035221A (zh) * 2022-06-17 2022-09-09 广州虎牙科技有限公司 一种舞蹈动画合成方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615302A (zh) * 2009-07-30 2009-12-30 浙江大学 音乐数据驱动的基于机器学习的舞蹈动作生成方法
US20150193945A1 (en) * 2014-01-07 2015-07-09 Electronics And Telecommunications Research Institute Method and apparatus for generating dance motion based on pose and timing constraints
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110992449A (zh) * 2019-11-29 2020-04-10 网易(杭州)网络有限公司 舞蹈动作合成方法、装置、设备及存储介质
CN111711868A (zh) * 2020-06-24 2020-09-25 中国科学院自动化研究所 基于视听多模态的舞蹈生成方法、系统、装置
WO2020234449A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Generative adversarial networks with temporal and spatial discriminators for efficient video generation
US20200410736A1 (en) * 2019-06-25 2020-12-31 Adobe Inc. Generating realistic animations for digital animation characters utilizing a generative adversarial network and a hip motion prediction network
CN112381866A (zh) * 2020-10-27 2021-02-19 天津大学 一种基于注意力机制的视频比特增强方法
CN112528768A (zh) * 2020-11-26 2021-03-19 腾讯科技(深圳)有限公司 视频中的动作处理方法、装置、电子设备及存储介质
CN113052138A (zh) * 2021-04-25 2021-06-29 广海艺术科创(深圳)有限公司 一种舞蹈与运动动作的智能对比矫正的方法
CN113473201A (zh) * 2021-07-29 2021-10-01 腾讯音乐娱乐科技(深圳)有限公司 一种音视频对齐方法、装置、设备及存储介质
CN113516005A (zh) * 2021-03-30 2021-10-19 杭州电子科技大学 一种基于深度学习和姿态估计的舞蹈动作评价系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615302A (zh) * 2009-07-30 2009-12-30 浙江大学 音乐数据驱动的基于机器学习的舞蹈动作生成方法
US20150193945A1 (en) * 2014-01-07 2015-07-09 Electronics And Telecommunications Research Institute Method and apparatus for generating dance motion based on pose and timing constraints
WO2020234449A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Generative adversarial networks with temporal and spatial discriminators for efficient video generation
US20200410736A1 (en) * 2019-06-25 2020-12-31 Adobe Inc. Generating realistic animations for digital animation characters utilizing a generative adversarial network and a hip motion prediction network
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110992449A (zh) * 2019-11-29 2020-04-10 网易(杭州)网络有限公司 舞蹈动作合成方法、装置、设备及存储介质
CN111711868A (zh) * 2020-06-24 2020-09-25 中国科学院自动化研究所 基于视听多模态的舞蹈生成方法、系统、装置
CN112381866A (zh) * 2020-10-27 2021-02-19 天津大学 一种基于注意力机制的视频比特增强方法
CN112528768A (zh) * 2020-11-26 2021-03-19 腾讯科技(深圳)有限公司 视频中的动作处理方法、装置、电子设备及存储介质
CN113516005A (zh) * 2021-03-30 2021-10-19 杭州电子科技大学 一种基于深度学习和姿态估计的舞蹈动作评价系统
CN113052138A (zh) * 2021-04-25 2021-06-29 广海艺术科创(深圳)有限公司 一种舞蹈与运动动作的智能对比矫正的方法
CN113473201A (zh) * 2021-07-29 2021-10-01 腾讯音乐娱乐科技(深圳)有限公司 一种音视频对齐方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOSMAS KRITSIS 等: "Attention-based Multimodal Feature Fusion for Dance Motion Generation", 《ICMI "21: PROCEEDINGS OF THE 2021 INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION》 *
张书妍: "基于长短时记忆网络的舞蹈视频生成", 《中国硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035221A (zh) * 2022-06-17 2022-09-09 广州虎牙科技有限公司 一种舞蹈动画合成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114582029B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
US11055828B2 (en) Video inpainting with deep internal learning
Park et al. Synctalkface: Talking face generation with precise lip-syncing via audio-lip memory
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
KR101547780B1 (ko) 이미지 모델 구축 방법 및 장치
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
KR102602112B1 (ko) 얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체
Park et al. Robust video frame interpolation with exceptional motion map
WO2021082823A1 (zh) 音频处理方法、装置、计算机设备及存储介质
CN113901894A (zh) 一种视频生成方法、装置、服务器及存储介质
Chang et al. Transferable videorealistic speech animation
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN114582029B (zh) 一种非专业舞蹈运动序列增强方法及系统
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
Bigioi et al. Speech driven video editing via an audio-conditioned diffusion model
CN116828129B (zh) 一种超清2d数字人生成方法及系统
Lavagetto Time-delay neural networks for estimating lip movements from speech analysis: A useful tool in audio-video synchronization
CN107239482B (zh) 一种将图像转换为音乐的处理方法及服务器
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和系统
CN114117086A (zh) 多媒体作品的制作方法、装置及计算机可读存储介质
Zhang et al. Shallow diffusion motion model for talking face generation from speech
Zhou et al. Let’s all dance: Enhancing amateur dance motions
CN116188634A (zh) 人脸图像预测方法、模型及装置、设备、介质
Park et al. Said: Speech-driven blendshape facial animation with diffusion
Nakatsuka et al. Audio-guided Video Interpolation via Human Pose Features.
Xiao et al. Dense convolutional recurrent neural network for generalized speech animation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant