CN114582029A - 一种非专业舞蹈运动序列增强方法及系统 - Google Patents
一种非专业舞蹈运动序列增强方法及系统 Download PDFInfo
- Publication number
- CN114582029A CN114582029A CN202210483206.9A CN202210483206A CN114582029A CN 114582029 A CN114582029 A CN 114582029A CN 202210483206 A CN202210483206 A CN 202210483206A CN 114582029 A CN114582029 A CN 114582029A
- Authority
- CN
- China
- Prior art keywords
- dance
- sequence
- professional
- music
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000009471 action Effects 0.000 claims abstract description 66
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 238000010606 normalization Methods 0.000 claims abstract description 16
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 230000003094 perturbing effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 102100028065 Fibulin-5 Human genes 0.000 abstract description 125
- 101710170766 Fibulin-5 Proteins 0.000 abstract description 125
- 230000033764 rhythmic process Effects 0.000 abstract description 3
- 238000003672 processing method Methods 0.000 abstract description 2
- 239000000126 substance Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 150000007524 organic acids Chemical class 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种非专业舞蹈运动序列增强方法及系统,涉及数据处理方法技术领域,包括:分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。在时序和空间两个层面上对非专业舞蹈进行增强,不但增强舞蹈序列的流畅性、完成度和节奏感,并且能够保持原始舞蹈内容不改变。
Description
技术领域
本发明涉及数据处理方法技术领域,特别是涉及一种非专业舞蹈运动序列增强方法及系统。
背景技术
在电影和动画行业,捕获并迁移舞蹈动作到虚拟模型上的技术已经得到了非常普遍的应用,但是由于舞蹈的专业性对演员要求严苛,动作捕捉设备的性能无法满足对舞蹈动作的质量要求,且现有的计算机技术难以完美修补缺乏专业性的舞蹈动作。获取专业舞蹈数据的成本高,导致可用的高质量舞蹈数据集规模很小。这不仅限制了以数据为驱动的学术研究的开展,也拖慢了以舞蹈为核心的商业活动的脚步。
目前在动作分析与合成领域,对舞蹈序列的主要研究形式有:专业度评估、动作风格迁移、音乐驱动舞蹈生成和音频同步等。上述几类研究中,其一是没有整理出可用的评估专业度的定量指标;其二是缺乏充分考虑舞蹈序列专业性特性的框架;其三是需要复杂繁琐的预处理和后处理步骤。因此,目前尚未出现对非专业舞蹈数据进行增强的模型或者算法。
发明内容
为了解决上述问题,本发明提出了一种非专业舞蹈运动序列增强方法及系统,在时序和空间两个层面上对非专业舞蹈进行增强,不但增强舞蹈序列的流畅性、完成度和节奏感,并且能够保持原始舞蹈内容不改变。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种非专业舞蹈运动序列增强方法,包括:
对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
作为可选择的实施方式,所述编码器包括音乐编码器和动作编码器,音乐编码器和动作编码器采用相同的网络结构,且独立训练;在编码器中包括三个一维卷积模块和两个自注意力模块;所述一维卷积模块包括一个一维卷积层,一个批处理归一化层和一个激活函数层;所述自注意力模块包括两个分区的编码层和一个全连接层。
作为可选择的实施方式,对编码后的动作特征序列和音乐特征序列构建相似性矩阵的过程包括,根据动作特征序列和音乐特征序列的欧式距离构建相似性矩阵。
作为可选择的实施方式,所述解码器包括三个上采样模块,所述上采样模块包括一个上采样层、一个全连接层和一个激活函数层;且最后一个上采样模块不设置激活函数层。
作为可选择的实施方式,进行空间扰动和时序扰动的过程包括:对专业舞蹈的运动序列提取动作节拍和选取关键帧,具体包括:
计算动作序列在t时刻的速度,以此在所有关节点中选择方向变化最大的关节点作为速度变化量,在速度变化量中选取的局部极小值作为动作节拍;
在动作序列中根据预设时间间隔进行均匀采样,得到初始关键帧;
以初始关键帧为原点,将距离初始关键帧最近的动作节拍作为备选关键帧;
根据时间间隔阈值在备选关键帧中筛选得到关键帧。
作为可选择的实施方式,对专业舞蹈的运动序列进行空间扰动的过程还包括:随机生成关键帧上的空间因子:
作为可选择的实施方式,对专业舞蹈的运动序列进行时序扰动的过程还包括:随机生成关键帧上的时间因子并进行时序扰动,具体包括:
对每个关键帧按时间因子进行时序偏移到新时间节点;
在相邻的关键帧之间,采用线性插值得到时序偏移后的帧序号,得到时序偏移后的关键帧序列;
对时序偏移后的关键帧序列判断单调性。
第二方面,本发明提供一种非专业舞蹈运动序列增强系统,包括:
训练模块,被配置为对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
特征提取模块,被配置为分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对齐模块,被配置为对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
空间增强模块,被配置为对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明提供一种非专业舞蹈运动序列增强方法及系统,将舞蹈的专业性锁定在时序和空间两个层面上,在时序层面提高舞蹈与伴奏音乐的同步性,在空间层面提高舞蹈动作的完成度,提高舞蹈整体的专业性和视觉效果。不但增强舞蹈序列的流畅性、完成度和节奏感,并且能够保持原始舞蹈内容不改变。
本发明提供的一种非专业舞蹈运动序列增强方法及系统,为保证本发明方案的可靠性,还提出一种基于关键帧的数据增广策略,以专业舞蹈数据集为基础,合成了在编舞上多对一配对的非专业-专业数据集;在尽可能保留舞蹈序列编舞的前提下,在时序和空间维度上对专业舞蹈序列进行微调,合成了多组符合真实情况的非专业舞蹈数据,解决了数据集缺乏、专业-非专业数据集编舞不匹配的问题。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的非专业舞蹈运动序列增强方法流程示意图;
图2为本发明实施例1提供的非专业舞蹈运动序列增强仿真示意图;
图3为本发明实施例1提供的对专业舞蹈序列进行基于关键帧的数据增广流程示意图;
图4(a)为本发明实施例1提供的关键帧提取示意图;
图4(b)为本发明实施例1提供的空间扰动示意图;
图4(c)为本发明实施例1提供的时序扰动示意图;
图5为本发明实施例1提供的非专业舞蹈运动序列增强框架图;
图6(a)为本发明实施例1提供的将舞蹈序列同步到音乐序列的可视化结果一示意图;
图6(b)为本发明实施例1提供的将舞蹈序列同步到音乐序列的可视化结果二示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种非专业舞蹈运动序列增强方法,包括舞蹈音乐对齐阶段和专业性增强阶段;其中,舞蹈音乐对齐阶段负责时序层面的增强,在隐式特征空间中学习舞蹈和音乐之间的最优对齐方案;专业性增强阶段负责空间层面的增强,在隐式空间融入舞蹈音乐对齐阶段的时序增强方案,在解码器中提高动作的完成度。
在本实施例中,可以通过获取舞蹈视频,对人物进行识别后,进一步进行骨架提取得到舞蹈动作,以此获取舞蹈序列。
如图1所示的非专业舞蹈运动序列增强方法,具体包括:
(1)分别提取动作特征和音乐特征;包括:分别获取待增强非专业舞蹈的舞蹈序列和音乐的音乐序列,并对舞蹈序列和音乐序列分别提取音乐特征和动作特征。
(2)对音乐特征和动作特征分别进行编码;包括:将音乐特征和动作特征分别采用音乐编码器Enc m 和动作编码器Enc k 进行编码,得到考虑局部上下文信息的隐式空间的音乐特征序列f M 和动作特征序列f K 。
具体地,所述音乐编码器和动作编码器使用相同的网络结构,但独立训练,具有不同的网络参数。在每个编码器中包括三个一维卷积模块和两个自注意力模块;
具体地:所述一维卷积模块包括一个一维卷积层,一个批处理归一化层和一个ReLU激活函数层;其中,卷积层的卷积核尺寸为32,步长为1。
所述自注意力模块用于学习基于上下文的舞蹈/音乐信息,自注意力模块包括两个分区的编码层和一个全连接层;其中,分区尺寸为4,随机丢弃参数为0.5。
在本实施例中,在自注意力模块中的编码层中设计了注意力掩蔽矩阵B a ,用于关注位于邻域内的上下文的信息,注意力掩蔽矩阵被加到模块中间产生的特征矩阵上;
其中,i是音乐帧序号,j是动作帧序号。
根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;具体地,如果一个动作帧与一个音乐帧的在某个特征值上的距离相较于其他音乐帧要小,则该动作帧与该音乐帧相匹配的概率就较高;反之亦然。
所以,(1)根据相似性矩阵A采用动态时序规整方法得到与相似性矩阵A相同尺寸的矩阵D;矩阵D每个位置的值均为相似性矩阵A对应位置距离其起点(左上角)的最短距离。
(2)在计算矩阵D时,每确定一个位置的值(代表该位置距离起点的最短距离),同时也标记出该位置所属最短距离的前趋位置,将矩阵D中所有位置的前趋位置记录为最短路径矩阵P a ;从最短路径矩阵P a 的终点(右下角)倒推回起点,即可得到一条代表相似性矩阵A从起点到终点的最短路径,把这条路径采用与相似性矩阵A相同尺寸的矩阵表示(1表示该位置在最短路径上,0表示该位置不在最短路径上),即为寻找到的对齐路径。
具体地,对相似性矩阵A采用动态时序规整方法,计算相似性矩阵A上从起点(左上)到每一点的最短距离,得到矩阵D:
最短路径矩阵P a 为:
至此,舞蹈音乐对齐阶段完成。
(4)对待增强非专业舞蹈的舞蹈序列采用舞蹈编码器Enc d ,得到考虑局部上下文信息的隐式空间的舞蹈特征序列f D ;
其中,所述舞蹈编码器包括三个一维卷积模块和两个自注意力模块,与音乐编码器和动作编码器结构一致。
其中,所述解码器Dec包括三个上采样模块,所述上采样模块包括一个上采样层、一个全连接层和一个ReLU激活函数层;其中,上采样层的放大因子为2,最后一个上采样模块不设置激活函数层。
至此,专业性增强阶段完成。如图2所示。
在本实施例中,为更加有效且准确的完成舞蹈音乐对齐阶段和专业性增强阶段;本实施例预先训练编码器和解码器,在训练过程中,为扩充训练集,以AIST++专业舞蹈数据集为基础,合成在编舞上多对一的非专业-专业数据集;具体地,对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此扩充训练集,并训练编码器和解码器。
如图3所示,本实施例对专业舞蹈序列进行基于关键帧的数据增广,以将其转换为非专业舞蹈数据,具体包括:
(1)获取专业舞蹈的动作序列,提取动作节拍,以此选取关键帧;
具体地,在学习舞蹈的时候,业余舞者通常比较容易识别动作中那些显眼的变化(比如停顿和转圈),它们通常与动作节拍一同发生。基于这个观察,定义速度变化量较大的帧序号作为动作节拍;
其中,J为单个空间维度关节点个数;P为位移;
为了实现关键帧提取,首先,使用确定的时间间隔t pad ,在整个动作序列上均匀地采样几个动作帧,将它们的帧序号作为初始关键帧序号;
然后,以初始关键帧序号为原点,搜索距离初始关键帧序号最近的动作节拍,作为备选关键帧;
(2)随机生成关键帧上的空间因子进行空间扰动;
其中,是为第n个关键帧生成的满足均匀分布的随机值;和是用来控制反高斯分布形状的参数,本实施例设为1.1,为1.3;是随机生成的二进制参数,用来控制缩小或放大动作的幅度,d=1表示放大,反之是缩小,以确保在同一帧中,所有的关节点共享同一个d值,保证动作的真实度。
在本实施例中,使用空间因子进行空间扰动的方式常规的做法是把空间因子与每个关节点的位置信息直接相乘,但是这很有可能生成突破人类生理极限,甚至是不可能达到的动作;因此,本实施例使用空间因子,在当前动作和一个标准站立动作u之间计算线性插值:
在此过程中使用局部方向表达形式。局部方向表达形式是由父节点指向当前节点的向量的方向,具体计算方式为:使用当前关节点的位置,减去其父节点的位置,并将其整理成单位向量,如下列公式所示:
标准站立动作u可以分为三部分,即:四肢,脊柱和连接点。对于四肢上的关节点,u h =(0,0,-1)表示其方向垂直地面向下;对于脊柱上的关节点,u h =(0,0,1)表示其方向垂直地面向上;对于位于连接点的关节点(肩膀和胯部),在插值时不改变原始动作的方向。
(3)随机生成关键帧上的时序因子进行时序扰动;
在本实施例中,时序扰动的过程包括:
最后,时序偏移之后的关键帧的前后顺序可能改变,检查关键帧序列,保证其单调性,避免调整后的动作出现倒置的情况。
(4)将专业舞蹈转换为非专业舞蹈;具体为:使用分段线性插值方法,将空间因子和时间因子插入原运动序列中,对运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈。
在本实施例中,如图5展示了舞蹈音乐对齐阶段和专业性增强阶段的两阶段的具体细节。音乐和舞蹈序列的高层次特征首先通过舞蹈音乐对齐阶段得到可用于时序规整的矩阵,然后舞蹈序列经过舞蹈专业性增强阶段的编码、时序规整、解码,得到增强后的舞蹈序列。网络框架代码全部用Python实现,并使用当下流行的Pytorch深度学习框架。
为保证训练效果,两阶段框架分别训练。为了使舞蹈-音乐对齐阶段能够找到最优的时序规整的对齐矩阵,在训练时使用先验的对齐矩阵W GT 和专门设置的对齐损失函数;其中,先验的对齐矩阵W GT 是在进行时序扰动时生成的矩阵,将该矩阵与时序扰动后的序列作矩阵乘法,将使序列恢复原来专业的时序对齐。
为了使舞蹈专业性增强阶段能够专注于完成度增强这个任务,本实施例不仅使用与输入序列在编舞上相匹配的先验的专业序列作为增强目标,重建损失函数和一致性损失函数保证舞蹈的视觉呈现效果,而且在训练的不同使用了不同的时序对齐矩阵参与时序规整步骤,即:初始训练阶段,使用先验的对齐矩阵W GT ,训练后微调阶段,使用舞蹈-音乐对齐阶段计算得到的对齐矩阵。
在本实施例中,训练时的参数的设置如下:
超参数设置:一次训练所选取的样本数为64,学习率为0.0001,后向传播时使用Adam优化器;
训练时间:舞蹈-音乐对齐阶段,迭代400轮,花费约12小时;舞蹈专业度增强阶段,初始迭代200轮,微调迭代200轮,花费约6小时;
机器配置:服务器型号NVIDIA Tesla P100,使用4块GPU联合训练;测试使用的计算机主频为3.7GHz,处理器为6核的Intel i7,内存为16GB。
由于现实中的舞蹈序列的长度是不统一的,而现存的很多研究动作序列的框架都对训练数据作了统一长度的处理(切片或者上下采样),这并不是一种好的处理方式。因此,为了使框架能够处理长度不一的序列,本实施例首先用序列后补0的方式,将序列统一长度;然后采用关键值掩蔽向量M kp ,掩蔽无用的填充值,第i帧的关键值掩蔽向量M kpi 为:
在本实施例中,在舞蹈音乐对齐阶段,设计对齐损失函数;假定专业舞蹈序列和对应的音乐序列是同步的,一个动作帧和与它配对的音乐帧在某个特征空间上距离最小。因此基于对比的学习方式,在相似性矩阵上定义时序上的对齐损失函数。对每个音乐帧,选择与之相匹配的舞蹈帧作为正样本,一个随机选择的舞蹈帧作为负样本;然后,在这三帧的隐式特征上计算对齐损失:
在本实施例中,在专业性增强阶段,设计重建损失函数和一致性损失函数。
其中,重建损失函数;为了提高非专业舞蹈动作的完成度,本实施例使用配对的非专业和专业数据来训练网络,目的是强制使输入的非专业动作在调整完成度的同时,编舞尽可能不变,也就是尽可能接近与之对应的专业数据。基于此,定义重建损失函数,用来最小化增强后的动作和先验动作的局部方向表达的差异:
在本实施例中,如图6(a)-图6(b)所示,通过上述方法还可实现将一段舞蹈动作序列与随意一段音乐序列进行同步处理。
实施例2
本实施例提供一种非专业舞蹈运动序列增强系统,包括:
训练模块,被配置为对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
特征提取模块,被配置为分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对齐模块,被配置为对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
空间增强模块,被配置为对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种非专业舞蹈运动序列增强方法,其特征在于,包括:
对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
2.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,所述编码器包括音乐编码器和动作编码器,音乐编码器和动作编码器采用相同的网络结构,且独立训练;在编码器中包括三个一维卷积模块和两个自注意力模块;所述一维卷积模块包括一个一维卷积层,一个批处理归一化层和一个激活函数层;所述自注意力模块包括两个分区的编码层和一个全连接层。
3.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,对编码后的动作特征序列和音乐特征序列构建相似性矩阵的过程包括,根据动作特征序列和音乐特征序列的欧式距离构建相似性矩阵。
4.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,所述解码器包括三个上采样模块,所述上采样模块包括一个上采样层、一个全连接层和一个激活函数层;且最后一个上采样模块不设置激活函数层。
5.如权利要求1所述的一种非专业舞蹈运动序列增强方法,其特征在于,进行空间扰动和时序扰动的过程包括:对专业舞蹈的运动序列提取动作节拍和选取关键帧,具体包括:
计算动作序列在t时刻的速度,以此在所有关节点中选择方向变化最大的关节点作为速度变化量,在速度变化量中选取的局部极小值作为动作节拍;
在动作序列中根据预设时间间隔进行均匀采样,得到初始关键帧;
以初始关键帧为原点,将距离初始关键帧最近的动作节拍作为备选关键帧;
根据时间间隔阈值在备选关键帧中筛选得到关键帧。
7.如权利要求5所述的一种非专业舞蹈运动序列增强方法,其特征在于,对专业舞蹈的运动序列进行时序扰动的过程还包括:随机生成关键帧上的时间因子并进行时序扰动,具体包括:
对每个关键帧按时间因子进行时序偏移到新时间节点;
在相邻的关键帧之间,采用线性插值得到时序偏移后的帧序号,得到时序偏移后的关键帧序列;
对时序偏移后的关键帧序列判断单调性。
8.一种非专业舞蹈运动序列增强系统,其特征在于,包括:
训练模块,被配置为对专业舞蹈的运动序列进行空间扰动和时序扰动后,将专业舞蹈转换为非专业舞蹈,以此构建训练集,并训练编码器和解码器;
特征提取模块,被配置为分别提取待增强非专业舞蹈和音乐的动作特征和音乐特征;
对齐模块,被配置为对动作特征和音乐特征分别采用训练后的编码器进行编码,对编码后的动作特征序列和音乐特征序列构建相似性矩阵,根据相似性矩阵中动作帧与音乐帧的最短距离得到动作和音乐的对齐路径;
空间增强模块,被配置为对待增强非专业舞蹈的舞蹈动作根据对齐路径进行时序规整,对时序规整后的舞蹈动作采用训练后的解码器进行空间专业性增强,得到增强的非专业舞蹈。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483206.9A CN114582029B (zh) | 2022-05-06 | 2022-05-06 | 一种非专业舞蹈运动序列增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483206.9A CN114582029B (zh) | 2022-05-06 | 2022-05-06 | 一种非专业舞蹈运动序列增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114582029A true CN114582029A (zh) | 2022-06-03 |
CN114582029B CN114582029B (zh) | 2022-08-02 |
Family
ID=81785557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483206.9A Active CN114582029B (zh) | 2022-05-06 | 2022-05-06 | 一种非专业舞蹈运动序列增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582029B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035221A (zh) * | 2022-06-17 | 2022-09-09 | 广州虎牙科技有限公司 | 一种舞蹈动画合成方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615302A (zh) * | 2009-07-30 | 2009-12-30 | 浙江大学 | 音乐数据驱动的基于机器学习的舞蹈动作生成方法 |
US20150193945A1 (en) * | 2014-01-07 | 2015-07-09 | Electronics And Telecommunications Research Institute | Method and apparatus for generating dance motion based on pose and timing constraints |
CN110600013A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 非平行语料声音转换数据增强模型训练方法及装置 |
CN110992449A (zh) * | 2019-11-29 | 2020-04-10 | 网易(杭州)网络有限公司 | 舞蹈动作合成方法、装置、设备及存储介质 |
CN111711868A (zh) * | 2020-06-24 | 2020-09-25 | 中国科学院自动化研究所 | 基于视听多模态的舞蹈生成方法、系统、装置 |
WO2020234449A1 (en) * | 2019-05-23 | 2020-11-26 | Deepmind Technologies Limited | Generative adversarial networks with temporal and spatial discriminators for efficient video generation |
US20200410736A1 (en) * | 2019-06-25 | 2020-12-31 | Adobe Inc. | Generating realistic animations for digital animation characters utilizing a generative adversarial network and a hip motion prediction network |
CN112381866A (zh) * | 2020-10-27 | 2021-02-19 | 天津大学 | 一种基于注意力机制的视频比特增强方法 |
CN112528768A (zh) * | 2020-11-26 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 视频中的动作处理方法、装置、电子设备及存储介质 |
CN113052138A (zh) * | 2021-04-25 | 2021-06-29 | 广海艺术科创(深圳)有限公司 | 一种舞蹈与运动动作的智能对比矫正的方法 |
CN113473201A (zh) * | 2021-07-29 | 2021-10-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音视频对齐方法、装置、设备及存储介质 |
CN113516005A (zh) * | 2021-03-30 | 2021-10-19 | 杭州电子科技大学 | 一种基于深度学习和姿态估计的舞蹈动作评价系统 |
-
2022
- 2022-05-06 CN CN202210483206.9A patent/CN114582029B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615302A (zh) * | 2009-07-30 | 2009-12-30 | 浙江大学 | 音乐数据驱动的基于机器学习的舞蹈动作生成方法 |
US20150193945A1 (en) * | 2014-01-07 | 2015-07-09 | Electronics And Telecommunications Research Institute | Method and apparatus for generating dance motion based on pose and timing constraints |
WO2020234449A1 (en) * | 2019-05-23 | 2020-11-26 | Deepmind Technologies Limited | Generative adversarial networks with temporal and spatial discriminators for efficient video generation |
US20200410736A1 (en) * | 2019-06-25 | 2020-12-31 | Adobe Inc. | Generating realistic animations for digital animation characters utilizing a generative adversarial network and a hip motion prediction network |
CN110600013A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 非平行语料声音转换数据增强模型训练方法及装置 |
CN110992449A (zh) * | 2019-11-29 | 2020-04-10 | 网易(杭州)网络有限公司 | 舞蹈动作合成方法、装置、设备及存储介质 |
CN111711868A (zh) * | 2020-06-24 | 2020-09-25 | 中国科学院自动化研究所 | 基于视听多模态的舞蹈生成方法、系统、装置 |
CN112381866A (zh) * | 2020-10-27 | 2021-02-19 | 天津大学 | 一种基于注意力机制的视频比特增强方法 |
CN112528768A (zh) * | 2020-11-26 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 视频中的动作处理方法、装置、电子设备及存储介质 |
CN113516005A (zh) * | 2021-03-30 | 2021-10-19 | 杭州电子科技大学 | 一种基于深度学习和姿态估计的舞蹈动作评价系统 |
CN113052138A (zh) * | 2021-04-25 | 2021-06-29 | 广海艺术科创(深圳)有限公司 | 一种舞蹈与运动动作的智能对比矫正的方法 |
CN113473201A (zh) * | 2021-07-29 | 2021-10-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音视频对齐方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
KOSMAS KRITSIS 等: "Attention-based Multimodal Feature Fusion for Dance Motion Generation", 《ICMI "21: PROCEEDINGS OF THE 2021 INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION》 * |
张书妍: "基于长短时记忆网络的舞蹈视频生成", 《中国硕士学位论文全文数据库》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035221A (zh) * | 2022-06-17 | 2022-09-09 | 广州虎牙科技有限公司 | 一种舞蹈动画合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114582029B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055828B2 (en) | Video inpainting with deep internal learning | |
Park et al. | Synctalkface: Talking face generation with precise lip-syncing via audio-lip memory | |
Vougioukas et al. | Video-driven speech reconstruction using generative adversarial networks | |
KR101547780B1 (ko) | 이미지 모델 구축 방법 및 장치 | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
KR102602112B1 (ko) | 얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체 | |
Park et al. | Robust video frame interpolation with exceptional motion map | |
WO2021082823A1 (zh) | 音频处理方法、装置、计算机设备及存储介质 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
Chang et al. | Transferable videorealistic speech animation | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN114582029B (zh) | 一种非专业舞蹈运动序列增强方法及系统 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
Bigioi et al. | Speech driven video editing via an audio-conditioned diffusion model | |
CN116828129B (zh) | 一种超清2d数字人生成方法及系统 | |
Lavagetto | Time-delay neural networks for estimating lip movements from speech analysis: A useful tool in audio-video synchronization | |
CN107239482B (zh) | 一种将图像转换为音乐的处理方法及服务器 | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
CN114117086A (zh) | 多媒体作品的制作方法、装置及计算机可读存储介质 | |
Zhang et al. | Shallow diffusion motion model for talking face generation from speech | |
Zhou et al. | Let’s all dance: Enhancing amateur dance motions | |
CN116188634A (zh) | 人脸图像预测方法、模型及装置、设备、介质 | |
Park et al. | Said: Speech-driven blendshape facial animation with diffusion | |
Nakatsuka et al. | Audio-guided Video Interpolation via Human Pose Features. | |
Xiao et al. | Dense convolutional recurrent neural network for generalized speech animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |