CN110853670B - 音乐驱动的舞蹈生成方法 - Google Patents

音乐驱动的舞蹈生成方法 Download PDF

Info

Publication number
CN110853670B
CN110853670B CN201911068080.3A CN201911068080A CN110853670B CN 110853670 B CN110853670 B CN 110853670B CN 201911068080 A CN201911068080 A CN 201911068080A CN 110853670 B CN110853670 B CN 110853670B
Authority
CN
China
Prior art keywords
neural network
music
dance
sequence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911068080.3A
Other languages
English (en)
Other versions
CN110853670A (zh
Inventor
刘亚洲
祁玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911068080.3A priority Critical patent/CN110853670B/zh
Publication of CN110853670A publication Critical patent/CN110853670A/zh
Application granted granted Critical
Publication of CN110853670B publication Critical patent/CN110853670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种音乐驱动的舞蹈生成方法,包括以下几个方面:1)收集了一个舞蹈数据集;2)对音乐和舞蹈序列进行高级特征的提取;3)提出了一个全新的跨域序列对序列学习框架,用于现实舞蹈的生成。本发明的方法不仅效率高,准确率也得到了提高;模型更复杂,模型体积小,计算速度快;预测过程更加简易,可以快速地将音乐与舞蹈序列结合。

Description

音乐驱动的舞蹈生成方法
技术领域
本发明涉及跨域序列分析和音视频分析领域,更具体地说,是一种基于音乐驱动的舞蹈动作生成方法。
背景技术
基于序列分析的深度学习有很多应用,包括语言处理、视频跟踪、跨域分析、基于语义特征的情感分析。跨域序列分析是序列分析的重要分支之一。跨域序列分析是指找出两种不同类型序列之间的对应关系。有很多相关的应用,如不同语言之间的翻译,使用自然语言合成真实的图像。
音视频分析是跨域序列分析的一个特例。与其他学科相比,音视频分析的研究相对较少。主要原因在于对于一般的传统视频来说,音频和视频的相关性不是很强。例如,对于一个特定的视频场景,可能有多个对应的音频序列;对于特定的音频序列,它还可以用作多个视频场景的背景音频。
然而,与一般的音频和视频序列相比,音乐和舞蹈动作之间的相关性相对显著。虽然舞蹈动作与音乐之间没有一一对应关系,但舞蹈动作的节拍与音乐节拍之间的相关性相对较强。这种相对较强的相关性为音乐和视频的跨领域分析提供了可能。例如,可以根据特定的音乐序列来分析舞蹈动作节拍的协调性;或者根据舞蹈动作选择合适的背景音乐。
音乐驱动的舞蹈生成是计算机视觉领域的一个重要研究课题,具有广阔的应用前景。例如,合成的视频可以用于动画生成、编舞、虚拟现实、虚拟角色和游戏。目前已有一些关于舞蹈动作合成的研究。Alemi等人使用GrooveNet来学习低级音频特征和舞蹈动作之间的关系。Chan等人提出了一个模型来实现不同人类受试者之间的运动风格迁移。Cai等人尝试从噪声中合成人体运动视频。上述尝试的局限性要么是没有发现音乐和视频之间的强相关性,要么只是专注于合成人体动作,而忽略了音乐和视频之间的内在联系。
发明内容
本发明要解决的技术问题在于,针对上述舞蹈合成的方法中,忽略音视频之间的强相关性,只专注于合成人体动作,网络模型简单的问题,提出了一种音乐驱动的舞蹈生成方法。
实现本发明目的的技术解决方案为:一种基于音乐驱动的舞蹈生成方法,包括设计神经网络、训练神经网络和测试神经网络三个过程:
神经网络构建过程包括以下步骤:
1)设计神经网络的主要模块Feature module和Seq2Seq module;
2)设计神经网络的层数和输入参数。
训练神经网络过程包括以下步骤:
3)对数据集预处理,将其转换成跨域序列分析LSTM-SA网络的标准输入即音乐序列和舞蹈序列;
4)初始化神经网络的参数;
5)通过不断迭代前向传播过程、反向传播过程训练神经网络模型;
测试神经网络过程包括以下步骤:
6)输入测试音乐,利用由训练过程得到的神经网络模型预测对应的舞蹈序列;
7)根据预测结果,将其与测试的音乐合成对应的舞蹈序列视频。
上述方法中,所述步骤1)包括以下具体步骤:
11)设计music feature extraction和pose feature extraction组成Featuremodule;
12)设计Encoder和Decoder模块Se2Seq module,每个Encoder和Decoder模块里面分别由LSTM、Dense和Attention组成;
上述方法中,所述步骤2)包括以下具体步骤:
21)神经网络模型使用1个Feature module作为前置网络,1个Seq2Seq module作为主体网络;
22)在Seq2Seq module中,LSTM使用了3层,Dense网络使用了一层,Attention使用了一层;
上述方法中,所述步骤3)包括以下具体步骤:
31)预处理数据集的标签信息,将每段舞蹈序列的标签信息格式化为(N*18*18)写入一个txt文件中。其中N表示舞蹈系列的帧数,(18*18)表示18个关键骨骼点的坐标;
32)预处理输入音乐,重新调整数据集中的输入音乐,统一大小为(N*28)作为跨域序列网络LSTM-SA的输入;
上述方法中,所述步骤4)包括以下具体步骤:
41)初始化学习率,迭代次数,batch;
42)采用标准初始化方法初始化权重参数;
上述方法中,所述步骤5)包括以下具体步骤:
51)根据输入的音乐和舞蹈序列信息进行网络的前向传播,计算损失函数大小;
52)如果迭代次数大于最大迭代次数或者损失函数小于误差阈值,结束训练;
53)由计算得到的损失函数值,进行神经网络反向传播计算,更新神经网络各层的权重参数。
54)迭代次数加1,调到步骤51);
上述方法中,所述步骤6)包括以下具体步骤:
61)输入待检测音乐序列,将音乐序列调整为(N*2 8)的大小。
62)根据训练好的神经网络模型和输入的音乐序列计算得到合成的舞蹈序列。
上述方法中,所述步骤7)包括以下具体步骤:
71)根据合成的舞蹈序列,在空图上标记出关节点的位置坐标;
72)将合成的舞蹈序列与输入的测试音乐相结合,合成结果保存为.mp4的文件;
本发明与现有技术相比,其显著优点在于:1)使用MFCC和OpenPose进行特征提取,与传统方法相比,不仅效率高,准确率也得到了提高;2)设计的跨域网络模型相比其它深度学习方法中简单的网络模型,模型更复杂,模型体积小,计算速度快。3)预测过程更加简易,可以快速地将音乐与舞蹈序列结合。
附图说明
图1是Feature module的结构组成。
图2是Seq2Seq module的结构组成。
图3是神经网络模型的组成。
图4是本发明的训练过程。
图5是本发明的预测过程。
图6是本发明的可视化检测结果图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明公开了一种音乐驱动的舞蹈生成方法,该方法具有多种潜在的应用前景,如虚拟现实、动漫角色和编舞等。对于一首给定的音乐序列,为了产生自然的舞蹈动作,需要满足以下条件:1)舞蹈动作与音乐节拍之间的节奏要和谐;2)产生的舞蹈动作应具有明显的多样性。
本发明提出了一种利用长短时记忆和自我注意机制的序列对序列学习体系结构(LSTM-SA)。本发明的音乐驱动舞蹈生成方法包括神经网络模型构建、神经网络训练、测试网络模型三个主要过程。
神经网络构建过程是指选择合适的网络框架,设计合理神经网络层数,在神经网络的每一层使用最优参数,确定合适的损失函数。包括以下具体步骤:
首先,我们设计网络的前置部分,前置部分即神经网络的前面几层,负责提取输入音乐序列和舞蹈序列的特征,我们将其封装为Feature module,如图1所示。Featuremodule由Music feature extraction和Pose feature extraction组成。音乐具有许多特征,如低级特征、谱特征和旋律特征等。本发明选取Mel频率倒谱系数(MFCC)作为音乐特征。在语音处理中,MFCC是在Mel尺度频域提取的倒谱参数,是语音自动识别和说话人识别中广泛应用的一个特征。经过Framing、FFT、Mel Filter、log、DCT这一系列的处理可以得到N*28的音乐特征数据,其中N表示音乐的帧数,28表示最终的数据维度。在对舞蹈动作进行特征处理时,本发明选择了使用OpenPose系统进行人体位姿估计,进而获取舞蹈动作的特征。具体的处理流程如下:首先,前馈网络预测了一组体部位置的二维置信度图S和一组体部相似性的二维向量场L;然后,通过贪婪推理对置信图S和亲和域L进行解析,得到图像中所有人的二维关键点输出,每一帧的图像都做相同的处理,在得到所有的关键点坐标之后对其做统一的归一化处理,得到N*18*18的动作数据,其中N表示舞蹈序列的帧数,18*18表示18个关键点的二维坐标。
我们设计并使用Seq2Seq module作为神经网络的主体部分。首先,考虑到音乐驱动的舞蹈生成是一个长序列分析问题,我们的方法LSTM-SA基于LSTM网络的,这是一个具有代表性的、流行的跨域序列分析模型。LSTM网络具有通过层连接的内存块。在训练过程中,网络不仅要维护记忆信息,更要关注最重要的特征。因此,我们选择基于编码解码器的LSTM网络作为基本模型。
但是LSTM网络有两个问题。一个是LSTM网络将整个输入序列压缩成一个固定的向量,因此每个输出对应的语义代码是相同的。这将有两个缺点。一是语义向量不能完全表示整个序列的信息。另一种是,首先输入的内容中包含的信息将被稍后输入的信息稀释。另一个问题是忽略音乐序列中元素之间的相互关系,这可能导致舞蹈序列不那么和谐。
为了解决上述问题,我们的发明引入了注意机制和自我注意的概念。如图2所示,注意机制是指专注于导入信息,同时过滤掉不必要的数据的过程。在增加注意机制之后,网络将保留编码器的所有状态,并为解码器序列中每个元素的编码器状态分配加权平均。因此,每个输出对应的语义码是不同的,这样就可以解决将整个输入序列压缩成一个固定向量的问题。
网络架构如图2所示。它包含三个主要模块。设计了LSTM和全连接层模块来处理输入和输出序列,并采用注意机制来改变解码过程。在解码过程中,解码器网络的状态与编码器的状态相结合,并传递给前馈网络。前馈网络返回每个编码器状态的权值。然后将编码器的输入乘以这些权重,然后计算编码器状态的加权平均值。然后将得到的上下文传递到解码器网络
神经网络的完整的结构主要由Feature module和Seq2Seq module构成,如图3所示。在神经网络的开始部分使用一个Feature module,紧接着使用一个Seq2Seq module。
深度神经网络的训练过程是通过梯度下降法训练模型中的参数,自动学习音乐与舞蹈之间的相关性,如图4所示。包括以下具体步骤:
预处理训练集过程41。在这里说明,本发明使用的训练集是私有数据集,共计120,000帧舞蹈动作和对应的伴舞音乐。这些数据记录了每帧18个骨骼关节点的二维位置坐标和28维的音乐特征
迭代次数epochs=500,一次输入的batch=32。初始化权重参数可以使神经网络在开始训练的时候不会出现发散和梯度消失的情况。初始化方法我们使用xavier。定义参数所在层的输入维度m,输出维度n,那么参数将以均匀分布的方式在范围内进行初始化。
前向传播过程43。前向传播即计算输入音乐序列在神经网络每一层的输出。深层神经网络包含一个输入层,多个中间层,一个输出层,每一层可以表示为非线性映射过程。样本x在第m层的输入计算公式如下:
其中,表示网络的m层和m-1层之间的权重矩阵,/>表示偏移参数,p(m)表示m层的节点数目,/>表示非线性激励函数,通常使用tanh、sigmoid或者ReLU函数。
计算损失函数过程44。本发明使用的损失函数是MSE函数。
反向传播过程更新网络权重参数结束后,跳转前向传播过程43。
本发明的测试网络模型过程是指输入测试音乐(待测试的音乐序列),通过神经网络模型的计算,给出预测的舞蹈序列结果。包含以下具体步骤:
初始化预测参数51。序列lookback=15,即使用多少帧的音乐特征用于合成一帧的舞蹈动作,batch=32。
输入音乐序列并进行特征提取52。因为训练过程使用的音乐序列统一是N*28,所以在测试过程中,所有输入的音乐需要调整为N*28作为神经网络的输入,如图5所示。
使用训练好的网络模型检测过程53。根据已经训练好的网络模型和输入的音乐序列预测,在输入层输出舞蹈序列。最后输出预测结果54,将其与输入的音乐序列进行结合,输出保存为.mp4文件55。
这里需要着重指出,相比于传统的舞蹈动作合成方法,本发明利用音乐来合成舞蹈动作而不是通过噪声合成。而且不能发明找到了音乐与舞蹈动作之间的强相关性,使得合成的舞蹈动作更丰富更协调。图6给出了本发明的部分预测的舞蹈动作的可视化视图。

Claims (6)

1.一种音乐驱动的舞蹈生成方法,其特征在于,包括设计深度神经网络、训练神经网络和测试神经网络三个过程:
设计神经网络过程,包括以下步骤:
1)设计神经网络的主要模块Feature module和Seq2Seq module;
包括以下具体步骤:
11)设计music feature extraction和pose feature extraction组成Featuremodule;
12)设计Encoder和Decoder模块组成Se2Seq module,每个Encoder和Decoder模块分别由LSTM、Dense和Attention组成;
2)设计神经网络的层数和输入参数;
21)神经网络模型使用1个Feature module作为前置网络,1个Seq2Seq module作为主体网络;
22)在Seq2Seq module中,LSTM使用了3层,Dense网络使用了一层,Attention使用了一层;
训练神经网络过程,包括以下步骤:
3)对数据集预处理,将其转换成跨域序列分析LSTM-SA网络的标准输入;
4)初始化神经网络的参数;
5)通过不断迭代前向传播过程、反向传播过程训练神经网络模型;
测试神经网络过程,包括以下步骤:
6)输入测试音乐,利用由训练过程得到的神经网络模型预测对应的舞蹈序列;
7)根据预测结果,将其与测试的音乐合成对应的舞蹈序列视频。
2.根据权利要求1所述的方法,其特征在于,所述步骤3)包括以下具体步骤:
31)预处理数据集的标签信息,将每段舞蹈序列的标签信息格式化为(N*18*18)写入一个txt文件中,其中N表示舞蹈系列的帧数,(18*18)表示18个关键骨骼点的坐标;
32)预处理输入音乐,重新调整数据集中的输入音乐,统一大小为(N*28)作为跨域序列网络LSTM-SA的输入。
3.根据权利要求1所述的方法,其特征在于,所述步骤4)包括以下具体步骤:
41)初始化训练参数:学习率α=0.001,训练轮数epoch=200,一次输入的音乐序列数batch=32,lookback=15;
42)使用xavier初始化权重参数;定义参数所在层的输入维度m,输出维度n,则参数以均匀分布的方式在范围内进行初始化。
4.根据权利要求1所述的方法,其特征在于,所述步骤5)包括以下具体步骤:
51)前向传播即计算输入图像在神经网络每一次的输出;深层神经网络包含一个输入层,多个中间层,一个输出层,每一层表示为非线性映射过程;样本x在第m层的输入计算公式如下:
其中,表示网络的m层和m-1层之间的权重矩阵,/>表示偏移参数,p(m)表示m层的节点数目,/>表示非线性激励函数;
52)如果迭代次数大于最大迭代次数或者损失函数小于误差阈值,结束训练;
53)由计算得到的损失函数值,进行神经网络反向传播计算,更新神经网络各层的权重参数;
54)迭代次数加1,转入步骤51)。
5.根据权利要求1所述的方法,其特征在于,所述步骤6)包括以下具体步骤:
61)输入待检测音乐序列,将音乐序列调整为(N*2 8)的大小;
62)根据训练好的神经网网络模型和输入的音乐序列计算得到舞蹈序列。
6.根据权利要求1所述的方法,其特征在于,所述步骤7)包括以下具体步骤:
71)根据合成的舞蹈序列,在空图上标记出关节点的位置坐标;
72)将合成的舞蹈系列与输入的测试音乐相结合,合成结果保存为.mp4的文件。
CN201911068080.3A 2019-11-04 2019-11-04 音乐驱动的舞蹈生成方法 Active CN110853670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911068080.3A CN110853670B (zh) 2019-11-04 2019-11-04 音乐驱动的舞蹈生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911068080.3A CN110853670B (zh) 2019-11-04 2019-11-04 音乐驱动的舞蹈生成方法

Publications (2)

Publication Number Publication Date
CN110853670A CN110853670A (zh) 2020-02-28
CN110853670B true CN110853670B (zh) 2023-10-17

Family

ID=69598792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911068080.3A Active CN110853670B (zh) 2019-11-04 2019-11-04 音乐驱动的舞蹈生成方法

Country Status (1)

Country Link
CN (1) CN110853670B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6699677B2 (ja) * 2018-02-06 2020-05-27 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
CN111508480B (zh) * 2020-04-20 2023-07-28 网易(杭州)网络有限公司 音频识别模型的训练方法、音频识别方法、装置及设备
KR102192210B1 (ko) * 2020-06-23 2020-12-16 인하대학교 산학협력단 Lstm 기반 댄스 모션 생성 방법 및 장치
CN111970536B (zh) * 2020-07-24 2021-07-23 北京航空航天大学 一种基于音频生成视频的方法和装置
CN112100436B (zh) 2020-09-29 2021-07-06 新东方教育科技集团有限公司 舞蹈片段识别方法、舞蹈片段识别装置和存储介质
EP4222712A1 (en) * 2020-09-30 2023-08-09 Snap Inc. Music reactive animation of human characters
CN114972441A (zh) * 2022-06-27 2022-08-30 南京信息工程大学 一种基于深度神经网络的运动合成框架
CN115379299A (zh) * 2022-08-23 2022-11-22 清华大学 一种舞蹈动作生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615302A (zh) * 2009-07-30 2009-12-30 浙江大学 音乐数据驱动的基于机器学习的舞蹈动作生成方法
CN108202334A (zh) * 2018-03-22 2018-06-26 东华大学 一种能够识别音乐节拍和风格的舞蹈机器人
CN108665492A (zh) * 2018-03-27 2018-10-16 北京光年无限科技有限公司 一种基于虚拟人的舞蹈教学数据处理方法及系统
CN109176541A (zh) * 2018-09-06 2019-01-11 南京阿凡达机器人科技有限公司 一种实现机器人跳舞的方法、设备和储存介质
CN109344922A (zh) * 2018-09-06 2019-02-15 闫维新 一种具备运动捕捉功能的舞蹈动作评测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615302A (zh) * 2009-07-30 2009-12-30 浙江大学 音乐数据驱动的基于机器学习的舞蹈动作生成方法
CN108202334A (zh) * 2018-03-22 2018-06-26 东华大学 一种能够识别音乐节拍和风格的舞蹈机器人
CN108665492A (zh) * 2018-03-27 2018-10-16 北京光年无限科技有限公司 一种基于虚拟人的舞蹈教学数据处理方法及系统
CN109176541A (zh) * 2018-09-06 2019-01-11 南京阿凡达机器人科技有限公司 一种实现机器人跳舞的方法、设备和储存介质
CN109344922A (zh) * 2018-09-06 2019-02-15 闫维新 一种具备运动捕捉功能的舞蹈动作评测系统

Also Published As

Publication number Publication date
CN110853670A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110853670B (zh) 音乐驱动的舞蹈生成方法
CN111930992B (zh) 神经网络训练方法、装置及电子设备
Fan et al. Photo-real talking head with deep bidirectional LSTM
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
US11862145B2 (en) Deep hierarchical fusion for machine intelligence applications
CN110111783A (zh) 一种基于深度神经网络的多模态语音识别方法
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN110427989B (zh) 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
Tian et al. Audio2face: Generating speech/face animation from single audio with attention-based bidirectional lstm networks
CN111916054B (zh) 基于唇形的语音生成方法、装置和系统及存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
CN113423005B (zh) 一种基于改进神经网络的智能音乐生成方法及系统
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
CN113903347A (zh) 一种基于机器学习的语音处理方法、装置、设备及介质
CN112580669A (zh) 一种对语音信息的训练方法及装置
CN116958343A (zh) 面部动画生成方法、装置、设备、介质及程序产品
CN113990295A (zh) 一种视频生成方法和装置
Wei et al. Mapping ultrasound-based articulatory images and vowel sounds with a deep neural network framework
Zainkó et al. Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging
JP2022072619A (ja) 感情推定装置及び方法、並びにコンピュータプログラム
Zhang et al. Realistic Speech-Driven Talking Video Generation with Personalized Pose

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant