CN116959492A - 舞蹈动作的确定方法、装置、电子设备以及存储介质 - Google Patents

舞蹈动作的确定方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN116959492A
CN116959492A CN202310893086.4A CN202310893086A CN116959492A CN 116959492 A CN116959492 A CN 116959492A CN 202310893086 A CN202310893086 A CN 202310893086A CN 116959492 A CN116959492 A CN 116959492A
Authority
CN
China
Prior art keywords
danced
coded
segments
dance
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310893086.4A
Other languages
English (en)
Inventor
王闯闯
郑志彤
刘海锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huantai Technology Co Ltd
Original Assignee
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huantai Technology Co Ltd filed Critical Shenzhen Huantai Technology Co Ltd
Priority to CN202310893086.4A priority Critical patent/CN116959492A/zh
Publication of CN116959492A publication Critical patent/CN116959492A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种舞蹈动作的确定方法、装置、电子设备以及存储介质,涉及人工智能技术领域。该方法包括:获取待编舞元素,其中,该待编舞元素包括待编舞音频和待编舞文本中的至少一种,将待编舞元素切分成多个待编舞元素片段,将多个待编舞元素片段输入已训练的多模态模型,获得已训练的多模态模型输出的多个待编舞元素各自对应的风格向量和节奏向量,基于待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,获得与待编舞元素对应的舞蹈动作。本申请通过将音频/文本与舞蹈的内在联系解耦成风格和节奏,可以保证最终生成的舞蹈动作跟输入的音频/文本的风格和节奏的一致性,从而提升基于音频/文本所生成的舞蹈的效果。

Description

舞蹈动作的确定方法、装置、电子设备以及存储介质
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种舞蹈动作的确定方法、装置、电子设备以及存储介质。
背景技术
音乐驱动舞蹈生成是指利用计算机技术将音乐作为输入,自动生成与音乐节奏、情感、风格相匹配的舞蹈动作。这种技术的应用范围广泛,如在娱乐、教育、智能助手等领域都有很大的潜力。但是,要实现音乐驱动舞蹈动作的生成,需要解决多项难题,导致所生成的舞蹈的效果不佳。
发明内容
鉴于上述问题,本申请提出了一种舞蹈动作的确定方法、装置、电子设备以及存储介质,以解决上述问题。
第一方面,本申请实施例提供了一种舞蹈动作的确定方法,所述方法包括:获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种;将所述待编舞元素切分成多个待编舞元素片段;将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量;基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作。
第二方面,本申请实施例提供了一种舞蹈动作的确定装置,所述装置包括:元素获取模块,用于获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种;元素切分模块,用于将所述待编舞元素切分成多个待编舞元素片段;向量获得模块,用于将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量;动作获得模块,用于基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作。
第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述处理器执行上述方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
本申请实施例提供的舞蹈动作的确定方法、装置、电子设备以及存储介质,获取待编舞元素,其中,该待编舞元素包括待编舞音频和待编舞文本中的至少一种,将待编舞元素切分成多个待编舞元素片段,将多个待编舞元素片段输入已训练的多模态模型,获得已训练的多模态模型输出的多个待编舞元素各自对应的风格向量和节奏向量,基于待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,获得与待编舞元素对应的舞蹈动作,从而通过将音频/文本与舞蹈的内在联系解耦成风格和节奏,可以保证最终生成的舞蹈动作跟输入的音频/文本的风格和节奏的一致性,从而提升基于音频/文本所生成的舞蹈的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本申请一实施例提供的舞蹈动作的确定方法的流程示意图;
图2示出了本申请一实施例提供的舞蹈动作的确定方法的流程示意图;
图3示出了本申请的图2所示的舞蹈动作的确定方法的步骤S250的流程示意图;
图4示出了本申请的图3所示的舞蹈动作的确定方法的步骤S252的流程示意图;
图5示出了本申请一实施例提供的舞蹈动作的生成方法的流程示意图;
图6示出了本申请的图5所示的舞蹈动作的生成方法的步骤S310的流程示意图;
图7示出了本申请实施例提供的舞蹈动作的生成方法的应用示意图;
图8示出了本申请一实施例提供的舞蹈动作的生成装置的模块框图;
图9示出了本申请实施例用于执行根据本申请实施例的舞蹈动作的确定方法的电子设备的框图;
图10示出了本申请实施例的用于保存或者携带实现根据本申请实施例的舞蹈动作的确定方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
目前,要实现音乐驱动舞蹈生成,需要解决多项难题。例如:
1.音乐和舞蹈之前的对应关系不可揭示:音乐的复杂性和多样性使其与实际的舞蹈动作难以建立一一对应的关系;
2.保证舞蹈动作的流畅性:将音乐特征映射为舞蹈动作时,需要保证舞蹈动作的连续性和流畅性;
3.多模态问题:音乐驱动舞蹈生成是一个多模态问题,需要考虑音乐和舞蹈不同的节奏、风格等的差异。
目前,音乐驱动舞蹈生成主要分为基于规则和基于深度学习的方法,两者都无法很好的解决上述难题。
其中,基于规则的方法,即通过一系列预定义的规则和模板来实现的。例如,可以定义一些动作,每个动作都有与之关联的音乐类型和时间点。然后,根据音乐的节奏和旋律,规则会选择适当的动作并在正确的时间点上执行。这种方法的优点易于理解和解释,可以根据需要定制规则,但是缺点是没有足够的表现力和创造力,可能难以产生新颖的舞蹈。因此,基于规则的方法至少存在以下两个缺点:第一、不能充分挖掘音乐和舞蹈的深层联系,导致生成的舞蹈与音乐的匹配性差;第二、生成的舞蹈动作多样性和创造力不足。
其中,基于深度学习的方法,即通过使用神经网络模型。这种方法的基本想法是将舞蹈数据与音乐数据作为输入,并训练神经网络模型以学习舞蹈动作与音乐之间的关联。在训练模型时,需要将大量的音乐和舞蹈组成一组数据集,这些舞蹈样本应包含各种不同的风格和节奏,并与相应的音乐相匹配。因此,基于深度学习的方法至少存在以下两个缺点:第一、需要依赖大量成对的音乐和舞蹈动作数据,需要高昂的数据采集成本和人工标注成本;第二、生成的舞蹈动作不可控,可解释性差。
针对上述问题,发明人经过长期的研究发现,并提出了本申请实施例提供的舞蹈动作的确定方法、装置、电子设备以及存储介质,通过将音频/文本与舞蹈的内在联系解耦成风格和节奏,可以保证最终生成的舞蹈动作跟输入的音频/文本的风格和节奏的一致性,从而提升基于音频/文本所生成的舞蹈的效果。其中,具体的舞蹈动作的确定方法在后续的实施例中进行详细的说明。
请参阅图1,图1示出了本申请一实施例提供的舞蹈动作的确定方法的流程示意图。该方法用于通过将音频/文本与舞蹈的内在联系解耦成风格和节奏,可以保证最终生成的舞蹈动作跟输入的音频/文本的风格和节奏的一致性,从而提升基于音频/文本所生成的舞蹈的效果。在具体的实施例中,该舞蹈动作的确定方法应用于如图8所示的舞蹈动作的确定装置200以及配置有舞蹈动作的确定装置200的电子设备100(图9)。下面将以电子设备为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的电子设备可以包括智能手机、平板电脑、穿戴式电子设备、游戏机等,在此不做限定。下面将针对图1所示的流程进行详细的阐述,所述舞蹈动作的确定方法具体可以包括以下步骤:
步骤S110:获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种。
在本实施例中,可以获取待编舞元素,其中,该待编舞元素可以包括待编舞音频和待编舞文本中的至少一种。可选的,该待编舞元素可以仅包括待编舞音频(如音乐音频);该待编舞元素可以仅包括待编舞文本(如歌词文本);该待编舞元素可以同时包括待编舞音频和待编舞文本,在此不做限定。
作为一种方式,电子设备可以从本地获取该待编舞元素,例如,可以获取本地保存的一段音乐作为待编舞元素,其中,该音乐可以是不包括歌词的轻音乐(仅包括待编舞音频),或者,可以是包括歌词的音乐(同时包括待编舞音频和待编舞文本)。
作为又一种方式,电子设备可以从通信连接的服务器获取该待编舞元素,例如,可以从云端获取的一段音乐作为待编舞元素,其中,该音乐可以是不包括歌词的轻音乐(仅包括待编舞音频),或者,可以是包括歌词的音乐(同时包括待编舞音频和待编舞文本)。
在一些实施方式中,可以随机获取待编舞元素,或者,可以基于用户的选择获取待编舞元素。例如,可以预先设置多个待选择的元素,则电子设备可以从多个待选择的元素中随机获取一个待选择的元素作为待编舞元素;电子设备可以从多个待选择的元素中随机获取至少两个待选择的元素组成待编舞元素;用户可以从多个待选择的元素中选择一个待选择的元素作为待编舞元素;或者,用户可以从多个待选择的元素中选择至少两个待选择的元素组成待编舞元素等,在此不做限定。
步骤S120:将所述待编舞元素切分成多个待编舞元素片段。
在本实施例中,在获取待编舞元素的情况下,则可以将待编舞元素切分成多个待编舞元素片段。可选的,在获取待编舞元素的情况下,则可以通过音乐自动化检测算法对待编舞元素进行检测获得检测结果,并根据该检测结果将待编舞元素切分成多个待编舞元素片段。
在一些实施方式中,可以预先设置有元素切分规则,在获取待编舞元素的情况下,则可以基于该元素切分规则将待编舞元素切分成多个待编舞元素片段。作为一种可实施的方式,可以将待编舞元素按照乐句(phrase)和小节(bar)切分成多个待编舞元素片段,其中,可以理解的是,乐句是音乐中表达风格情绪的最小单元,小节是音乐中表达节奏的最小单元。
例如,若待编舞元素包括待编舞音频,则可以将待编舞音频按照乐句和小节切分成所述多个待编舞音频片段;若待编舞元素包括待编舞文本,则可以将待编舞文本按照乐句和小节切分成所述多个待编舞文本片段;若待编舞元素包括待编舞音频和待编舞文本,则可以将待编舞音频按照乐句和小节切分成所述多个待编舞音频片段,并将待编舞文本按照乐句和小节切分成所述多个待编舞文本片段。
步骤S130:将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量。
在本实施例中,在获取到多个待编舞元素片段后,可以将该多个待编舞元素片段输入已训练的多模态模型,其中,该已训练的多模态模型是通过机器学习获得的,具体地,首先采集训练数据集,其中,训练数据集中的一类数据的属性或特征区别于另一类数据,然后通过将采集的训练数据集按照预设的算法对神经网络进行训练建模,从而基于该训练数据集总结出规律,得到已训练的多模态模型。
在一些实施方式中,该已训练的多模态模型可以预先训练完成后存储在电子设备的本地。基于此,电子设备在获取到多个待编舞元素片段后,可以直接在本地调用该已训练的多模态模型,例如,可以直接发送指令至多模态模型,以指示该已训练的多模态模型在目标存储区域读取该多个待编舞元素片段,或者,电子设备可以直接将该多个待编舞元素片段输入存储在本地的已训练的多模态模型,从而有效避免由于网络因素的影响降低多个待编舞元素片段输入已训练的多模态模型的速度,以提升已训练的多模态模型获取多个待编舞元素片段的速度,提升用户体验。
在一些实施方式中,该已训练的多模态模型也可以预先训练完成后存储在与电子设备通信连接的服务器。基于此,电子设备在获取到多个待编舞元素片段后,可以通过网络发送指令至存储在服务器的已训练的多模态模型,以指示该已训练的多模态模型通过网络读取电子设备获取的多个待编舞元素片段,或者,电子设备可以通过网络将多个待编舞元素片段发送至存储在服务器的已训练的多模态模型,从而通过将已训练的多模态模型存储在服务器的方式,减少对电子设备的存储空间的占用,降低对电子设备正常运行的影响。
其中,已训练的多模态模型基于输入的多个待编舞元素片段输出相应的信息,则电子设备可以获取该已训练的多模态模型输出的信息。可以理解的,若该已训练的多模态模型存储在电子设备的本地,则该电子设备可以直接获取该已训练的多模态模型输出的信息;若该已训练的多模态模型存储在与电子设备连接的服务器,则该电子设备可以通过网络从服务器获取该已训练的多模态模型输出的信息。
在本实施例中,在将多个待编舞元素输入已训练的多模态模型之后,该已训练多模态模型可以分别对该多个待编舞元素进行处理,获得该已训练的多模态模型输出的多个待编舞元素片段各自对应的风格向量(style embedding)和节奏向量(rhythmembedding)。
步骤S140:基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作。
在本实施例中,在获得多个待编舞元素片段各自对应的风格向量和节奏向量的情况下,则可以基于该待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,获得与该待编舞元素对应的舞蹈动作。
本申请一实施例提供的舞蹈动作的确定方法,获取待编舞元素,其中,该待编舞元素包括待编舞音频和待编舞文本中的至少一种,将待编舞元素切分成多个待编舞元素片段,将多个待编舞元素片段输入已训练的多模态模型,获得已训练的多模态模型输出的多个待编舞元素各自对应的风格向量和节奏向量,基于待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,获得与待编舞元素对应的舞蹈动作,从而通过将音频/文本与舞蹈的内在联系解耦成风格和节奏,可以保证最终生成的舞蹈动作跟输入的音频/文本的风格和节奏的一致性,从而提升基于音频/文本所生成的舞蹈的效果。
请参阅图2,图2示出了本申请一实施例提供的舞蹈动作的确定方法的流程示意图。下面将针对图2所示的流程进行详细的阐述,所述舞蹈动作的确定方法具体可以包括以下步骤:
步骤S210:获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种。
步骤S220:将所述待编舞元素切分成多个待编舞元素片段。
步骤S230:将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量。
其中,步骤S210-步骤S220的具体描述请参阅步骤S110-步骤S130,在此不再赘述。
步骤S240:基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,确定与所述多个待编舞元素片段各自对应的动作图。
在本实施例中,在获得多个待编舞元素片段各自对应的风格向量和节奏向量的情况下,则可以基于该待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,获得与多个待编舞元素片段各自对应的动作图。
在一些实施方式中,可以预先构建有向动作图,并且给节点(node)添加风格向量和节奏向量,并将所构建的动作图存储在数据库中。基于此,在获得多个待编舞元素片段各自对应的风格向量和节奏向量的情况下,则可以基于该待编舞元素在数据库中查找对应风格向量和节奏向量,以及该对应的风格向量和节奏向量所添加的动作图,以确定与多个待编舞元素片段各自对应的动作图。
步骤S250:对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作。
在本实施例中,在获得多个待编舞元素片段各自对应的动作图的情况下,则可以对多个待编舞元素片段各自对应的动作图进行图优化处理,以获得与待编舞元素对应的舞蹈动作。可以理解的是,通过对多个待编舞元素片段各自对应的动作图进行图优化处理,可以使得生成的舞蹈动作平滑、自然、丰富度高、有艺术感,同时由于图优化的可控性,最终生成的舞蹈动作可解释性强。
请参阅图3,图3示出了本申请的图2所示的舞蹈动作的确定方法的步骤S250的流程示意图。下面将针对图3所示的流程进行详细的阐述,所述方法具体可以包括以下步骤:
步骤S251:构建图优化过程中涉及的多个损失项。
在本实施例中,在获得多个待编舞元素片段各自对应的动作图的情况下,可以构建图优化过程中涉及的多个损失项。
可选的,该损失项可以包括数据损失项、过渡损失项以及结构约束损失项中的一种或几种的组合。
其中,该数据损失项是计算输入元素片段(如音频片段和/或文本片段)和动作片段的风格向量和节奏向量的损失。
其中,该过渡损失项除了包含常规的动作连续性损失,还引入了风格向量损失,可以防止相邻动作之间的风格迥异。
其中,该结构约束损失项是为了保证生成的舞蹈结构与元素结构(如音频结构和/或文本结构)一致,比如重复的音乐使用重复的动作。
步骤S252:基于所述多个损失项对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作。
在本实施例中,在构建了图优化过程中涉及的多个损失项的情况下,则可以基于该多个损失项对多个待编舞元素片段各自对应的动作图进行图优化处理,获得与待编舞元素对应的舞蹈动作,可以使得生成的舞蹈动作平滑、自然、丰富度高、有艺术感,同时由于图优化的可控性,最终生成的舞蹈动作可解释性强。
在一些实施方式中,在构建了图优化过程中涉及到的多个损失项的情况下,则可以基于该多个损失项对多个待编舞元素片段各自对应的动作图进行迭代优化,直到该多个损失项满足预设条件时,基于图优化处理后的多个待编舞元素片段各自对应的动作图获得与待编舞元素对应的舞蹈动作。
在一些实施方式中,在构建了图优化过程中涉及到的多个损失项的情况下,则可以基于该多个损失项对多个待编舞元素片段各自对应的动作图进行迭代优化,直到迭代优化次数达到次数阈值时,基于图优化处理后的多个待编舞元素片段各自对应的动作图获得与待编舞元素对应的舞蹈动作。
在一些实施方式中,在构建了图优化过程中涉及到的多个损失项的情况下,则可以基于该多个损失项对多个待编舞元素片段各自对应的动作图进行迭代优化,直到迭代优化市场达到赤身阈值时,基于图优化处理后的多个待编舞元素片段各自对应的动作图获得与待编舞元素对应的舞蹈动作。
请参阅图4,图4示出了本申请的图3所示的舞蹈动作的确定方法的步骤S252的流程示意图。下面将针对图4所示的流程进行详细的阐述,所述方法具体可以包括以下步骤:
步骤S2521:基于动态规划算法对所述多个待编舞元素片段各自对应的动作图进行路径规划。
在一些实施方式中,可以基于动态规划算法对多个待编舞元素片段各自对应的动作图进行路径规划。即,可以利用动态规划算法加速图优化的过程(提高舞蹈动作的生成效率),最终可以在图中快速找到一条最优的路径,使得生成的舞蹈动作平滑、自然、丰富度高、有艺术感,同时由于图优化的可控性,最终生成的舞蹈动作的可解释性强。
其中,基于动态规划算法对多个待编舞元素片段各自对应的动作图进行路径规划的过程中,可能产生一个或者多个规划路径。可选的,若产生一个规划路径,则可以将该一个规划路径确定为最优的规划路径;若产生多个规划路径,则可以从多个规划路径中选择一个最优的规划路径。
步骤S2522:确定所述多个损失项在所述动态规划算法包括的多个规划路径中的每个规划路径下对应的综合损失值。
在一些实施方式中,在基于动态规划算法对多个待编舞元素片段各自对应的动作图进行路径规划的情况下,可以确定该动态规划算法包括的多个规划路径,并确定多个损失项在动态规划算法包括的多个规划路径中的每个规划路径下对应的综合损失值。
作为一种可实施的方式,多个损失项在每个规划路径下对应的综合损失值可以包括:多个损失项在每个规划路径下各自对应的损失值的和值;多个损失项在每个规划路径下各自对应的损失值的加权和值;多个损失项在每个规划路径下各自对应的损失值的平均值;或者,多个损失项在每个规划路径下各自对应的损失值的加权平均值等,在此不做限定。
可选的,假设该多个损失项包括数据损失项、过渡损失项以及结构约束损失项。那么,可以确定数据损失项在每个规划路径下对应的第一损失值,确定过渡损失项在每个规划路径下对应的第二损失值,以及确定结构约束损失项在每个规划路径下对应的第三损失值,基于此,可以计算第一损失值、第二损失值以及第三损失值的和值作为多个损失项对应的综合损失值;可以计算第一损失值、第二损失值以及第三损失值的平均值作为多个损失项对应的综合损失值等,在此不做限定。
步骤S2523:将对应的综合损失值最小的规划路径确定为目标规划路径,并基于所述目标规划路径和所述多个待编舞元素片段各自对应的动作图,获得与所述待编舞元素对应的舞蹈动作。
在一些实施方式中,在确定每个规划路径各自对应的综合损失值的情况下,则可以将对应的综合损失值最小的规划路径确定为目标规划路径,并基于该目标规划路径和多个待编舞元素片段各自对应的动作图,获得与待编舞元素对应的舞蹈动作,使得生成的舞蹈动作平滑、自然、丰富度高、有艺术感,同时由于图优化的可控性,最终生成的舞蹈动作的可解释性强。
作为一种可实施的方式,在确定每个规划路径各自对应的综合损失值的情况下,则可以将每个规划路径各自对应的综合损失值进行大小比较,以从中确定综合损失值最小的规划路径确定为目标规划路径,并基于该目标规划路径和多个待编舞元素片段各自对应的动作图,获得与待编舞元素对应的舞蹈动作。
本申请一实施例提供的舞蹈动作的确定方法,获取待编舞元素,其中,待编舞元素包括待编舞音频和待编舞文本中的至少一种,将待编舞元素切分成多个待编舞元素片段,将多个待编舞元素片段输入已训练的多模态模型,获得已训练的多模态模型输出的多个待编舞元素片段各自对应的风格向量和节奏向量,基于待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,确定与多个待编舞元素片段各自对应的动作图,对多个待编舞元素片段各自对应的动作图进行图优化处理,获得与待编舞元素对应的舞蹈动作。相较于图1所示的舞蹈动作的确定方法,本实施例还基于待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,确定与多个待编舞元素片段各自对应的动作图,并对该动作图进行图优化处理,以使得生成的舞蹈动作平滑,自然,有艺术感,可控性和可解释性强。
请参阅图5,图5示出了本申请一实施例提供的舞蹈动作的生成方法的流程示意图。下面将针对图5所示的流程进行详细的阐述,所述舞蹈动作的生成方法具体可以包括以下步骤:
步骤S310:获取目标训练数据,其中,所述目标训练数据包括对齐的目标训练元素和目标训练动作,所述目标训练元素包括目标训练音频和目标训练文本中的至少一种。
在本实施例中,可以获取目标训练数据,其中,该目标训练数据可以包括对齐的目标训练元素和目标训练动作,目标训练元素包括目标训练音频和目标训练文本中的至少一种。可选的,该目标训练元素可以仅包括目标训练音频(如音乐音频);该目标训练元素可以仅包括目标训练文本(如歌词文本);该目标训练元素可以同时包括目标训练音频和目标训练文本,在此不做限定。
作为一种方式,电子设备可以从本地获取该目标训练数据,或者,电子设备可以从与电子设备通信的服务器获取该目标训练数据等,在此不做限定。
作为一种可实施的方式,电子设备可以利用动作捕捉设备采集舞蹈演员的动作数据,然后剪辑音频和动作,保证音频数据和动作数据对齐作为目标训练数据;或者,电子设备可以利用动作捕捉设备采集舞蹈演员的动作数据,然后建议文本、音频和动作,保证文本数据、音频数据以动作数据对齐作为目标训练数据等,在此不做限定。
在一些实施方式中,电子设备在利用动作捕捉设备采集到舞蹈演员的动作数据的情况下,可以修复动作噪声、肢体闪烁和/或关节错匹配等文本,然后剪辑元素和动作,保证元素和动作对齐作为目标训练数据。
请参阅图6,图6示出了本申请的图5所示的舞蹈动作的生成方法的步骤S310的流程示意图。下面将针对图6所示的流程进行详细的阐述,所述方法具体可以包括以下步骤:
步骤S311:获取初始训练数据,其中,所述初始训练数据包括对齐的初始训练元素和初始训练动作,其中,所述初始训练元素包括初始训练音频和初始训练文本中的至少一种。
在本实施例中,可以获取初始训练数据,其中,该初始训练数据可以包括对齐的初始训练元素和初始训练动作,初始训练元素包括初始训练音频和初始训练文本中的至少一种。可选的,该初始训练元素可以仅包括初始训练音频(如音乐音频);该初始训练元素可以仅包括初始训练文本(如歌词文本);该初始训练元素可以同时包括初始训练音频和初始训练文本,在此不做限定。
作为一种可实施的方式,电子设备可以利用动作捕捉设备采集舞蹈演员的动作数据,然后剪辑音频和动作,保证音频数据和动作数据对齐作为目标训练数据;或者,电子设备可以利用动作捕捉设备采集舞蹈演员的动作数据,然后建议文本、音频和动作,保证文本数据、音频数据以动作数据对齐作为初始训练数据等,在此不做限定。
在一些实施方式中,电子设备在利用动作捕捉设备采集到舞蹈演员的动作数据的情况下,可以修复动作噪声、肢体闪烁和/或关节错匹配等文本,然后剪辑元素和动作,保证元素和动作对齐作为初始训练数据。
步骤S312:对所述初始训练动作进行增强处理,获得增强训练动作。
其中,为了最大化利用初始训练数据同时增强合成舞蹈动作的多样性,可以采用数据增强的方式对训练动作进行扩充。于本实施例中,可以对初始训练动作进行增强处理,以获得增强训练动作。
可选的,增强处理可以包括:左右动作镜像。即,在获得初始训练动作的情况下,对该初始训练动作进行左右镜像处理,获得增强训练动作。
可选的,增强处理可以包括:对不同小节的训练动作的上下半身动作混合。即,在获得初始训练动作的情况下,将初始训练动作按照小节切分为多个不同小节的训练动作,之后,将不同小节的训练动作的上下半身动作混合。
步骤S313:将所述增强训练动作与对应的初始训练元素关联获得增强训练数据。
在一些实施方式中,在获得增强训练动作的情况下,可以将增强训练动作与对应的初始训练元素进行关联,获得增强训练数据。例如,将增强训练动作与对应的初始训练音频和/或与对应的初始训练文本进行关联,获得增强训练数据。
作为一种可实施的方式,在获得增强训练动作的情况下,可以确定该增强训练动作对应的初始训练动作(变形前/增强前),并确定该初始训练动作对应的初始训练元素,将该增强训练动作与该初始训练元素关联获得增强训练数据。
步骤S314:基于所述初始训练数据和所述增强训练数据,获得所述目标训练数据。
在一些实施方式中,在获得增强训练数据的情况下,则可以基于该初始训练数据和该增强训练训练获得目标训练数据。可选的,可以将该初始训练数据和该增强训练数据共同作为目标训练数据。
步骤S320:将所述目标训练数据切分成多个目标训练数据片段,并确定所述多个目标训练数据片段各自对应的风格向量和节奏向量。
在本实施例中,在获得目标训练数据的情况下,则可以将目标训练数据切分成多个目标训练数据片段。可选的,在获得目标训练数据的情况下,则可以将目标训练数据按照乐句和小节切分成多个目标训练数据片段。
作为一种方式,假设目标训练数据包括对齐的目标训练音频、目标训练文本以及目标训练动作,那么,则可以将目标训练音频切分成多个目标训练音频片段,将目标训练文本切分成多个目标训练文本片段,以及将目标训练动作切分成多个目标训练动作片段,其中,多个目标训练音频片段、多个目标训练文本片段以及多个目标训练动作片段一一对齐。
在本实施例中,在获得多个目标训练数据片段的情况下,则可以确定多个目标训练数据片段各自对应的风格向量和节奏向量。可选的,在获得多个目标训练数据片段的情况下,则可以通过具备乐理和舞蹈背景的专业人员对多个目标训练数据片段依次标注对应的风格向量和节奏向量,以确定多个目标训练数据片段各自对应的风格向量和节奏向量。
在一些实施方式中,在获得多个目标训练数据片段,并确定多个目标训练数据片段各自对应的风格向量和节奏向量的情况下,则可以基于多个目标训练数据片段以及多个目标训练数据片段各自对应的风格向量和节奏向量统一构成多模态数据库,以用作为多模态模型的训练。
步骤S330:基于所述多个目标训练数据片段和所述多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型。
在本实施例中,在获得多个目标训练数据片段和多个目标训练数据片段各自对应的风格向量和节奏向量的情况下,则可以基于该多个目标训练数据片段和多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型。可选的,在获得多个目标训练数据片段和多个目标训练数据片段各自对应的风格向量和节奏向量的情况下,则可以将多个目标训练数据片段作为输入数据,将多个目标训练数据片段各自对应的风格向量和节奏向量作为输出数据对待训练的多模态模型进行训练,获得已训练的多模态模型。
其中,本实施例训练多模态模型,利用多模态模型提取元素(包括文本和/或音频)和动作两类模态的风格向量和节奏向量,区别于其他基于深度学习的音乐舞蹈合成框架用一个统一的网络来构建音乐-舞蹈之间的垮模态关联,而是结合编舞学规律采用了一种解耦的方式来处理元素和舞蹈的风格向量和节奏向量,可以保证所生成的舞蹈与元素之间的风格一致性和节奏一致性。
在一些实施方式中,多个目标训练数据片段可以包括:多个目标训练音频片段和多个目标训练动作片段,相应地,多个目标训练数据片段各自对应的风格向量和节奏向量可以包括:多个目标训练音频片段各自对应的风格向量和节奏向量,以及多个目标训练动作片段各自对应的风格向量和节奏向量。基于此,可以基于该多个目标训练音频片段和多个目标训练音频片段各自对应的风格向量和节奏向量对待训练的多模态模型的音频分支进行训练;和/或基于该多个目标训练动作片段和多个目标训练动作片段各自对应的风格向量和节奏向量对待训练的多模态模型的动作分支进行训练,以提升多模态模型对于音频和动作的分类能力。之后,再基于多个目标训练数据片段和多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型。
即,本实施例的模型训练采用了两个阶段训练的方式,先使用大量单独的音频数据和动作数据分别训练模型的音乐向量分支和舞蹈向量分支,提升多模态模型对音乐和舞蹈的分类能力,之后,再使用上述成对的数据联合训练多模态模型,将成对的音频和动作映射到统一的向量空间,在此空间内成对的音频和动作的风格向量和节奏向量最接近。
在一些实施方式中,多个目标训练数据片段可以包括:多个目标训练文本片段、多个目标训练音频片段和多个目标训练动作片段,相应地,多个目标训练数据片段各自对应的风格向量和节奏向量可以包括:多个目标训练文本片段各自对应的风格向量和节奏向量、多个目标训练音频片段各自对应的风格向量和节奏向量,以及多个目标训练动作片段各自对应的风格向量和节奏向量。基于此,可以基于该多个目标训练文本片段和多个目标训练文本片段各自对应的风格向量和节奏向量对待训练的多模态模型的文本分支进行训练;基于该多个目标训练音频片段和多个目标训练音频片段各自对应的风格向量和节奏向量对待训练的多模态模型的音频分支进行训练;和/或基于该多个目标训练动作片段和多个目标训练动作片段各自对应的风格向量和节奏向量对待训练的多模态模型的动作分支进行训练,以提升多模态模型对于文本、音频和动作的分类能力。之后,再基于多个目标训练数据片段和多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型。
步骤S340:获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种。
步骤S350:将所述待编舞元素切分成多个待编舞元素片段。
步骤S360:将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量。
步骤S370:基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作。
其中,步骤S340-步骤S370的具体描述请参阅步骤S110-步骤S140,在此不再赘述。
本申请一实施例提供的舞蹈动作的生成方法,获取目标训练数据,其中,该目标训练数据包括对齐的目标训练元素和目标训练动作,目标训练元素包括目标训练音频和目标训练文本中的至少一种,将目标训练数据切分成多个目标训练数据片段,并确定多个目标训练数据片段各自对应的风格向量和节奏向量,基于多个目标训练数据片段和多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型,获取待编舞元素,其中,该待编舞元素包括待编舞音频和待编舞文本中的至少一种,将待编舞元素切分成多个待编舞元素片段,将多个待编舞元素片段输入已训练的多模态模型,获得已训练的多模态模型输出的多个待编舞元素各自对应的风格向量和节奏向量,基于待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,获得与待编舞元素对应的舞蹈动作。相较于图1所示的舞蹈动作的生成方法,本实施例还获取目标训练数据解耦成对应的风格向量和节奏向量对模型进行训练,可以避免大量数据训练端到端的网络弊端,提升模型的训练效率和训练准确性。
请参阅图7,图7示出了本申请实施例提供的舞蹈动作的生成方法的应用示意图。如图7所示,首先可以通过专业动作捕捉设备和舞蹈演员进行舞蹈动作采集,修复对齐,数据切分,专业人员标注,数据增强,构建一套高质量,高精度的多模态音乐舞蹈数据库;然后通过多模态学习音乐和舞蹈的深层信息,并根据编舞学规律解耦成风格向量和节奏向量,使生成的舞蹈跟音乐具备风格一致性和节奏一致性,更加具有艺术感,同时避免使用大量的数据集训练端到端的模型来学习音乐舞蹈的内在联系,并且增加了生成的可解释性和可控性;最后构建了有向动作图,并且给节点添加风格和节奏标签,在图优化过程中,综合考虑数据损失,过渡损失,结构一致性损失,使得生成的舞蹈动作平滑,匹配度高,丰富度高,符合编舞规律,并使用动态规划算法加速了图优化过程,提高了舞蹈生成的效率。
请参阅图8,图8示出了本申请一实施例提供的舞蹈动作的生成装置的模块框图。下面将针对图8所示的框图进行详细的阐述,所述舞蹈动作的生成装置200包括:元素获取模块210、元素切分模块220、向量获得模块230以及动作获得模块240,其中:
元素获取模块210,用于获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种。
元素切分模块220,用于将所述待编舞元素切分成多个待编舞元素片段。
进一步地,所述元素切分模块220包括:元素切分子模块,其中:
元素切分子模块,用于将所述待编舞元素按照乐句和小节切分成所述多个待编舞元素片段。
向量获得模块230,用于将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量。
动作获得模块240,用于基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作。
进一步地,所述动作获得模块240包括:动作图确定子模块和动作获得子模块,其中:
动作图确定子模块,用于基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,确定与所述多个待编舞元素片段各自对应的动作图。
动作获得子模块,用于对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作。
进一步地,所述动作获得子模块包括:损失项构建单元和动作获得单元,其中:
损失项构建单元,用于构建图优化过程中涉及的多个损失项。
动作获得单元,用于基于所述多个损失项对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作。
进一步地,所述动作获得单元包括:路径规划子单元、损失值确定子单元以及动作获得子单元,其中:
路径规划子单元,用于基于动态规划算法对所述多个待编舞元素片段各自对应的动作图进行路径规划。
损失值确定子单元,用于确定所述多个损失项在所述动态规划算法包括的多个规划路径中的每个规划路径下对应的综合损失值。
动作获得子单元,用于将对应的综合损失值最小的规划路径确定为目标规划路径,并基于所述目标规划路径和所述多个待编舞元素片段各自对应的动作图,获得与所述待编舞元素对应的舞蹈动作。
进一步地,所述舞蹈动作的确定装置200还包括:目标训练数据获取模块、目标训练数据切分模块以及模型训练模块,其中:
目标训练数据获取模块,用于获取目标训练数据,其中,所述目标训练数据包括对齐的目标训练元素和目标训练动作,所述目标训练元素包括目标训练音频和目标训练文本中的至少一种。
进一步地,所述目标训练数据获取模块包括:初始训练数据获取子模块、增强训练动作获得子模块、增强训练数据获得子模块以及目标训练数据获得子模块,其中:
初始训练数据获取子模块,用于获取初始训练数据,其中,所述初始训练数据包括对齐的初始训练元素和初始训练动作,其中,所述初始训练元素包括初始训练音频和初始训练文本中的至少一种。
增强训练动作获得子模块,用于对所述初始训练动作进行增强处理,获得增强训练动作。
增强训练数据获得子模块,用于将所述增强训练动作与对应的初始训练元素关联获得增强训练数据。
目标训练数据获得子模块,用于基于所述初始训练数据和所述增强训练数据,获得所述目标训练数据。
目标训练数据切分模块,用于将所述目标训练数据切分成多个目标训练数据片段,并确定所述多个目标训练数据片段各自对应的风格向量和节奏向量。
模型训练模块,用于基于所述多个目标训练数据片段和所述多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型。
进一步地,所述多个目标训练数据片段多个目标训练音频片段和多个目标训练动作片段,所述舞蹈动作的确定装置200还包括:第一分支训练模块和第二分支训练模块,其中:
第一分支训练模块,用于基于所述多个目标训练音频片段和所述多个目标训练音频片段各自对应的风格向量和节奏向量对所述待训练的多模态模型的音频分支进行训练。
第二分支训练模块,用于基于所述多个目标训练动作片段和所述多个目标训练动作片段各自对应的风格向量和节奏向量对所述待训练的多模态模型的动作分支进行训练。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图9,其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
其中,处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责待显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参阅图10,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。
综上所述,本申请实施例提供的舞蹈动作的确定方法、装置、电子设备以及存储介质,获取待编舞元素,其中,该待编舞元素包括待编舞音频和待编舞文本中的至少一种,将待编舞元素切分成多个待编舞元素片段,将多个待编舞元素片段输入已训练的多模态模型,获得已训练的多模态模型输出的多个待编舞元素各自对应的风格向量和节奏向量,基于待编舞元素,以及多个待编舞元素片段各自对应的风格向量和节奏向量,获得与待编舞元素对应的舞蹈动作,从而通过将音频/文本与舞蹈的内在联系解耦成风格和节奏,可以保证最终生成的舞蹈动作跟输入的音频/文本的风格和节奏的一致性,从而提升基于音频/文本所生成的舞蹈的效果。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种舞蹈动作的确定方法,其特征在于,所述方法包括:
获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种;
将所述待编舞元素切分成多个待编舞元素片段;
将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量;
基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作。
2.根据权利要求1所述的方法,其特征在于,所述将所述待编舞元素切分成多个待编舞元素片段,包括:
将所述待编舞元素按照乐句和小节切分成所述多个待编舞元素片段。
3.根据权利要求1所述的方法,其特征在于,所述基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作,包括:
基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,确定与所述多个待编舞元素片段各自对应的动作图;
对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作。
4.根据权利要求3所述的方法,其特征在于,所述对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作,包括:
构建图优化过程中涉及的多个损失项;
基于所述多个损失项对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作。
5.根据权利要求4所述的方法,其特征在于,所述基于所述多个损失项对所述多个待编舞元素片段各自对应的动作图进行图优化处理,获得与所述待编舞元素对应的舞蹈动作,包括:
基于动态规划算法对所述多个待编舞元素片段各自对应的动作图进行路径规划;
确定所述多个损失项在所述动态规划算法包括的多个规划路径中的每个规划路径下对应的综合损失值;
将对应的综合损失值最小的规划路径确定为目标规划路径,并基于所述目标规划路径和所述多个待编舞元素片段各自对应的动作图,获得与所述待编舞元素对应的舞蹈动作。
6.根据权利要求1-5任一项所述的方法,其特征在于,在所述获取待编舞元素之前,还包括:
获取目标训练数据,其中,所述目标训练数据包括对齐的目标训练元素和目标训练动作,所述目标训练元素包括目标训练音频和目标训练文本中的至少一种;
将所述目标训练数据切分成多个目标训练数据片段,并确定所述多个目标训练数据片段各自对应的风格向量和节奏向量;
基于所述多个目标训练数据片段和所述多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型。
7.根据权利要求6所述的方法,其特征在于,所述获取目标训练数据,包括:
获取初始训练数据,其中,所述初始训练数据包括对齐的初始训练元素和初始训练动作,其中,所述初始训练元素包括初始训练音频和初始训练文本中的至少一种;
对所述初始训练动作进行增强处理,获得增强训练动作;
将所述增强训练动作与对应的初始训练元素关联获得增强训练数据;
基于所述初始训练数据和所述增强训练数据,获得所述目标训练数据。
8.根据权利要求6所述的方法,其特征在于,所述多个目标训练数据片段包括多个目标训练音频片段和多个目标训练动作片段,在所述基于所述多个目标训练数据片段和所述多个目标训练数据片段各自对应的风格向量和节奏向量对待训练的多模态模型进行训练,获得已训练的多模态模型之前,还包括:
基于所述多个目标训练音频片段和所述多个目标训练音频片段各自对应的风格向量和节奏向量对所述待训练的多模态模型的音频分支进行训练;和/或
基于所述多个目标训练动作片段和所述多个目标训练动作片段各自对应的风格向量和节奏向量对所述待训练的多模态模型的动作分支进行训练。
9.一种舞蹈动作的确定装置,其特征在于,所述装置包括:
元素获取模块,用于获取待编舞元素,其中,所述待编舞元素包括待编舞音频和待编舞文本中的至少一种;
元素切分模块,用于将所述待编舞元素切分成多个待编舞元素片段;
向量获得模块,用于将所述多个待编舞元素片段输入已训练的多模态模型,获得所述已训练的多模态模型输出的所述多个待编舞元素片段各自对应的风格向量和节奏向量;
动作获得模块,用于基于所述待编舞元素,以及所述多个待编舞元素片段各自对应的风格向量和节奏向量,获得与所述待编舞元素对应的舞蹈动作。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述处理器执行如权利要求1-8任一项所述的方法。
11.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。
CN202310893086.4A 2023-07-19 2023-07-19 舞蹈动作的确定方法、装置、电子设备以及存储介质 Pending CN116959492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310893086.4A CN116959492A (zh) 2023-07-19 2023-07-19 舞蹈动作的确定方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310893086.4A CN116959492A (zh) 2023-07-19 2023-07-19 舞蹈动作的确定方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116959492A true CN116959492A (zh) 2023-10-27

Family

ID=88443809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310893086.4A Pending CN116959492A (zh) 2023-07-19 2023-07-19 舞蹈动作的确定方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116959492A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710533A (zh) * 2024-02-02 2024-03-15 江西师范大学 一种基于扩散模型的音乐条件化舞蹈动画生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710533A (zh) * 2024-02-02 2024-03-15 江西师范大学 一种基于扩散模型的音乐条件化舞蹈动画生成方法
CN117710533B (zh) * 2024-02-02 2024-04-30 江西师范大学 一种基于扩散模型的音乐条件化舞蹈动画生成方法

Similar Documents

Publication Publication Date Title
CN111522994B (zh) 用于生成信息的方法和装置
CN109859736B (zh) 语音合成方法及系统
Yang et al. Multi-sentence auxiliary adversarial networks for fine-grained text-to-image synthesis
CN111369687B (zh) 合成虚拟对象的动作序列的方法及设备
CN108492817A (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
CN114419205B (zh) 虚拟数字人的驱动方法及位姿获取模型的训练方法
CN116959492A (zh) 舞蹈动作的确定方法、装置、电子设备以及存储介质
CN111767694B (zh) 文本生成方法、装置和计算机可读存储介质
CN114173188B (zh) 视频生成方法、电子设备、存储介质和数字人服务器
CN113813609B (zh) 游戏音乐风格分类方法、装置、可读介质及电子设备
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN112183109B (zh) 基于mass的诗句生成信息隐写方法
CN112382287A (zh) 语音交互方法、装置、电子设备和存储介质
CN114904270A (zh) 虚拟内容的生成方法及装置、电子设备、存储介质
CN107506345A (zh) 语言模型的构建方法和装置
CN113591472B (zh) 歌词生成方法、歌词生成模型训练方法、装置及电子设备
CN114298031A (zh) 文本处理方法、计算机设备及存储介质
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN115879450B (zh) 一种逐步文本生成方法、系统、计算机设备及存储介质
He et al. LLMs Meet Multimodal Generation and Editing: A Survey
CN114818609A (zh) 用于虚拟对象的交互方法、电子设备及计算机存储介质
Tan et al. CGLER: Laban effort framework analysis with conducting gestures using neural networks
CN113643442A (zh) 一种虚拟对象舞蹈生成方法及计算机存储介质
CN112466317A (zh) 一种基于双生成器生成对抗网络的语音转换系统研究
CN113408292A (zh) 语义识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination