CN114554111B

CN114554111B - 视频生成方法和装置、存储介质及电子设备

Info

Publication number: CN114554111B
Application number: CN202210164995.XA
Authority: CN
Inventors: 黄志鹏; 蔡海军; 金绍港
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-08-01
Anticipated expiration: 2042-02-22
Also published as: CN114554111A

Abstract

本发明公开了一种视频生成方法和装置、存储介质及电子设备。其中，该方法包括：获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；提取虚拟形象的身体标签信息；根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。本发明解决了现有方法中音乐表演视频的制作成本较高的技术问题。

Description

视频生成方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频生成方法和装置、存储介质及电子设备。

背景技术

如今用户在欣赏音乐的同时，通常也有欣赏与音乐相匹配的MV (Music Video，音乐短片)的需求。现有的生成与音乐相匹配的MV的方式通常是在制作音乐的同时拍摄与音乐相匹配的歌手演唱MV，然后将 MV与音乐同时发布在音乐平台上，从而使得用户可以欣赏与音乐相匹配的MV。

随着音乐市场的越来越多元化，越来越多的小众歌手开始在音乐平台上发布原创音乐，但是没有足够的经费拍摄MV，因而无法满足用户欣赏 MV的需求。也就是说，现有技术存在音乐视频制作成本较高的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频生成方法和装置、存储介质及电子设备，以至少解决现有方法中音乐表演视频的制作成本较高的技术问题。

根据本申请实施例的一个方面，提供了一种视频生成方法，包括：获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。

根据本申请实施例的另一方面，还提供了一种视频生成装置，包括：获取单元，用于获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；特征提取单元，用于提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；标签提取单元，用于提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；视频生成单元，根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频生成方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的视频生成方法。

在本发明实施例中，通过获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值，从而直接根据选择的虚拟形象图片和选择的音乐生成与音乐演唱者风格对应的表演视频，解决了现有技术中音乐表演视频制作成本较高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频生成方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的视频生成方法的流程图；

图3是根据本发明实施例的一种可选的视频生成方法的示意图；

图4是根据本发明实施例的另一种可选的视频生成方法的示意图；

图5是根据本发明实施例的另一种可选的视频生成方法的流程图；

图6是根据本发明实施例的一种可选的视频生成装置的结构示意图；

图7是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种视频生成方法，可选地，作为一种可选的实施方式，上述视频生成方法可以但不限于应用于如图1所示的环境中。

根据本发明实施例的一个方面，提供了一种视频生成方法，可选地，作为一种可选的实施方式，上述视频生成方法可以但不限于应用于如图1所示的硬件环境中的视频生成系统。其中，该视频生成系统可以包括但不限于终端设备102、网络104、服务器106、数据库108及终端设备109。终端设备102中运行有目标客户端(如图1所示的音乐播放器界面)。上述终端设备102包括人机交互屏幕，处理器及存储器。人机交互屏幕用于显示音乐播放器的播放界面；还用于提供人机交互接口以接收用于用户使用音乐播放软件进行音乐播放相关的人机交互操作。处理器用于响应上述人机交互操作生成交互指令，并将该交互指令发送给服务器106。存储器用于存储相关属性数据，如候选的虚拟形象图片以及音乐风格数据等信息。上述终端设备109同样包括人机交互屏幕，处理器及存储器，其中，人机交互屏幕用于显示播放音乐视频的音乐播放器的软件界面。

此外，服务器106用于与数据库108进行数据交互，从而实现基于从数据库108获取的音乐MV数据集合对表演视频生成网络进行训练。

具体过程如以下步骤：如步骤S102-S104，在终端设备102内运行的客户端中获取待展示的音乐片段；获取将要根据音乐片段进行表演的虚拟形象的图片。接着，执行步骤S106，即终端设备102通过网络104发送音乐片段信息和虚拟形象信息至服务器106。服务器106在接收到上述音乐片段信息和虚拟形象信息的情况下，执行步骤S108至S112，提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。最后执行步骤 S114，服务器106通过网络104发送音乐表演视频至终端设备109以及终端设备102。

作为另一种可选的实施方式，在终端设备102具备较强大的计算处理能力时，上述步骤S108-S112也可以由终端设备102来完成。这里为示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述视频生成方法包括：

S202，获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；

S204，提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；

S206，提取虚拟形象的身体标签信息；

S208，根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。

需要说明的是，上述将要根据音乐片段进行表演的虚拟形象可以是虚拟动物形象，虚拟卡通形象，也可以是虚拟人物形象。作为一种可选的方式，获取上述虚拟形象的图片的方式可以是根据用户在客户端输入的图片进行获取，也可以是根据用户在客户端中预设的虚拟形象的图片进行获取，在此不对具体获取上述虚拟形象的图片的方式进行限制。可选的，上述虚拟形象的图片还可以是根据识别音乐片段的内容确定出音乐片段的原唱歌手后，自动生成的模拟原唱歌手形象而确定的虚拟形象图片。同样地，上述待展示的音乐片段可以是用户在音乐播放软件上主动输入的音乐片段，还可以是用于在音乐播放软件上从选项中确定出的音乐片段，在此不对上述音乐片段的获取方式进行限制。

在获取待展示的音乐片段后，可以根据音乐片段提取得到内容特征以及风格特征。需要说明的是，上述内容特征用于指示音乐片段中每个音频帧的词曲特征，上述风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征。具体而言，上述内容特征可以用于指示音乐片段中的每个音频帧对应的演唱歌词、节奏等演唱内容，进而指示对应于不同的演唱内容在音乐的不同时间帧的嘴部、脸部的动作特征。上述风格特征可以用于指示当前音乐演唱者的音乐表演风格特征，比如针对同一首歌，不同的音乐表演者的表演风格可以体现在其表演时的表情、动作等特征。上述风格特征即可用于指示当前音乐演唱者在演唱该音乐的同时会表现出的面部表情、肢体动作等动作特征。通过提取上述内容特征和风格特征，即可获取对应于当前音乐的原唱歌手的演唱风格的音乐表演动作特征。

需要进一步说明的是，提取得到的虚拟形象的身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标。具体地，在获取得到的虚拟形象的图片只包括虚拟形象的面部的情况下，上述身体关键点只包括面部关键点的位置坐标，对应地，生成的音乐表演视频中也只包括虚拟形象静止站立进行歌曲表演的表演内容；在获取得到的虚拟形象的图片包括虚拟形象的面部和身体的情况下，上述身体关键点既包括面部关键点的位置坐标，也包括身体躯干关键点的位置坐标，对应地，生成的音乐表演视频中包括了虚拟形象一边进行身体动作表演一边进行歌曲演唱表演的表演内容。

可以理解的是，根据内容特征、风格特征以及身体标签信息生成表演视频可以通过将提取的内容特征和风格特征以及身体标签信息输入表演视频生成网络中，即可生成虚拟形象演绎音乐片段的表演视频。可选地，上述表演视频生成网络是经过大量训练得到的神经网络，通过上述神经网络的处理，即可生成虚拟形象基于音乐的原表演者的表演风格得到的音乐演唱表演视频。比如说，在获取的音乐片段为陈奕迅演唱的《孤勇者》，获取的虚拟形象的图片为一个小猪头像图片的情况下，生成得到的演唱视频为虚拟小猪采用与歌手陈奕迅类似的表演风格的表演方式进行歌曲演唱表演的表演视频。

以如图3所示的界面为例对上述方法的应用场景进行说明，可以理解的是，上述方法可以应用于如图3所示的音乐播放应用中，包括播放区301：用于显示上述生成的表演视频；搜索区302，用于显示获取上述虚拟形象的图片以及音乐片段的搜索控件；设置区303：用于显示用于设置音乐表演视频参数的控件。在本实施例中，通过用户对搜索区302的搜索控件的触控操作，选择待展示的音乐片段，并从预设的虚拟形象中选择如播放区 301所示的虚拟形象的图片，进而可以在播放区301中显示生成的虚拟形象演绎音乐片段的表演视频。在一种具体地实施例中，在选择的歌曲为陈奕迅的《孤勇者》的情况下，生成的表演视频为虚拟形象按照歌手陈奕迅的表演风格进行歌曲演绎的表演视频。

作为一种可选的实施方式，上述根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频包括：

S1，将内容特征输入表演视频生成网络中的时间递归子网络，得到时序结果，其中，时间递归子网络用于获取内容特征中的时序关系；

S2，基于时序结果与虚拟形象的身体标签信息，得到内容偏移量，其中，内容偏移量用于指示虚拟形象上的身体关键点根据音频帧的词曲特征确定出的位置偏移变化量；

S3，基于时序结果和风格特征与虚拟形象的身体标签信息，得到风格偏移量，其中，风格偏移量用于指示虚拟形象上的身体关键点根据表演对象的表演风格特征确定出的位置偏移变化量；

S4，根据内容偏移量和风格偏移量与虚拟形象的身体标签信息，生成表演视频。

以下结合图4对上述方法进行具体说明。如图4所示的网络中，首先将音乐输入音乐转换模块以得到指示音乐片段中每个音频帧的词曲特征的内容特征，以及用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征的风格特征。将内容特征经过时序算法处理后得到的时序结果分别分为两步进行后续处理，其中一步将时序结果结合从虚拟形象的图片中提取得到的身体标签信息经过第一全连接层的处理以得到指示虚拟形象上的身体关键点根据音频帧的词曲特征确定出的位置偏移变化量的内容偏移量；另一步结合经过第二全连接层处理得到的风格特征以及身体标签信息，经过第三全连接层处理得到指示虚拟形象上的身体关键点根据表演对象的表演风格特征确定出的位置偏移变化量的风格偏移量。最后将风格偏移量和内容偏移量与身体标签进行结合，以得到表演视频。

可选地，上述时序算法可以采用LSTM算法(Long short-term memory，长短期记忆算法)，上述第一、第二、第三全连接层可以经过不同样本训练得到的参数不同的MLP(Multilayer Perception，多层感知机算法)。在此不对上述时序算法以及全连接层的具体类型进行限制。

通过本申请的上述方法，采用将内容特征输入表演视频生成网络中的时间递归子网络，得到时序结果；基于时序结果与虚拟形象的身体标签信息，得到内容偏移量；基于时序结果和风格特征与虚拟形象的身体标签信息，得到风格偏移量；根据内容偏移量和风格偏移量与虚拟形象的身体标签信息，生成表演视频，从而实现了根据训练得到的网络对歌曲特征以及虚拟形象特征进行结合处理，进而自动生成基于音乐原演唱者表演风格的表演视频，解决了现有音乐MV制作成本高的技术问题。

作为一种可选的方式，根据内容偏移量和风格偏移量与虚拟形象的身体标签信息，生成表演视频包括：

S1，根据内容偏移量和风格偏移量，调整虚拟形象的图片中身体标签信息所指示的虚拟形象的多个身体关键点各自的位置坐标，得到表演视频帧；

S2，对表演视频帧进行缩放调整，以生成表演视频。

继续结合图4对上述方法进行说明。在通过上述方法得到内容偏移量以及风格偏移量以后，结合身体标签信息指示的身体关键点信息，对身体关键点进行拉伸形变，以得到每一表演帧的表演画面，再将每一表演帧画面进行叠加以生成表演视频。可选地，基于身体关键点信息进行拉伸形变的方法可以采用三角分割法或者差值算法，在此不对具体的形变方法进行限定。

通过本申请上述实施例的方法，通过根据内容偏移量和风格偏移量，调整虚拟形象的图片中身体标签信息所指示的虚拟形象的多个身体关键点各自的位置坐标，得到表演视频帧；对表演视频帧进行缩放调整，以生成表演视频的方式，以得到每一帧的表演画面，并将多帧表演画面进行叠加即可得到音乐表演视频，解决了现有音乐MV的制作成本高的技术问题。

作为一种可选的方式，上述提取虚拟形象的身体标签信息包括以下至少之一：提取虚拟形象的面部关键点的位置坐标；提取虚拟形象的身体关节关键点的位置坐标。

需要说明的是，确定出虚拟形象身体关键点的方法，可以是对于虚拟形象图片中的一个动作进行3D关键点进行深层特征提取。由于不同的虚拟形象，肢体长度不同，所以可以采用对肢体长度敏感度较低的角度当作动作特征。以一个主播对象为例，可选地，可以将左肩-左肘，右肩-右肘，左肘-左手腕，右肘-右手腕，左肩-左臀，右肩-右臀，左臀-左膝，右臀- 右膝，左膝-左脚踝，右膝-右脚踝，上述关键点组合成为10个感兴趣肢体，并以距离身体中心近的点作为原点(如：左肩-左肘以肩为原点，左肘-左手腕以肘为原点)，计算另一个关键点坐标距离原点的三维坐标，而后求其在球坐标系中的θ和ψ，以及帧间的角度变化参数，由此可以得到10*3 个深层动作特征，即上述方法中所述的关键点特征集。

在另一种可选的实施例中，可以将上述左肩-左肘，右肩-右肘，左肘- 左手腕，右肘-右手腕，左肩-左臀，右肩-右臀，左臀-左膝，右臀-右膝，左膝-左脚踝，看做18个关键点，并分别用空间直角坐标系中的三个坐标表示上述18个关键点的位置，从而得到18*3维的关键点特征集。可以理解的是，上述提取关键点特征集的方法仅为一种示例。在实际应用中，可以根据应用的需要选取适当的关键点，以及以适当的坐标系对上述关键点的特征进行表示，在此不作限定。

可以理解的是，由于歌手在演唱歌曲的过程中，通常身体动作变化不大，因此可以选取数量较小的身体关键点作为演唱动作的参考点。而歌手在演唱过程中，通常面部需要进行复杂的表情变化，因此可以选取虚拟形象的面部的更多数量的面部关键点以得到更为精细准确的面部表情。如可以选取68个面部关键点或者124个面部关键点。在此不对面部关键点和身体关键点的具体提取方式进行限定。

通过本实施例的上述方法，以提取虚拟形象的面部关键点的位置坐标；提取虚拟形象的身体关节关键点的位置坐标，从而更为精确地模拟歌手演唱的动作和表情。

作为一种可选的方式，获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片之前，还包括：

S1，获取多个样本表演视频，其中，样本表演视频中包括样本音乐以及与样本音乐对应的表演对象所演绎的表演视频；

S2，提取样本音乐的样本内容特征以及样本风格特征；

S3，提取样本音乐对应的表演对象的样本身体标签信息；

S4，将提取的样本内容特征和样本风格特征，以及样本身体标签信息输入初始表演视频生成网络中进行训练，直至达到收敛条件。

作为一种可选的方式，上述将提取的样本内容特征和样本风格特征，以及样本身体标签信息输入初始表演视频生成网络中进行训练，直至达到收敛条件，还包括：

S1，获取将提取的样本内容特征和样本风格特征，以及样本身体标签信息输入初始表演视频生成网络得到的初始表演视频；

S2，依次从多个样本表演视频中获取一个样本表演视频作为当前样本表演视频；

S3，以当前样本表演视频中的每一帧表演画面中的多个身体关键点各自的位置坐标作为每一帧表演画面的训练标签，与初始表演视频中生成的每一帧表演画面中的多个身体关键点各自的位置坐标作差值计算，以得到每一帧的训练差异度；

S4，对每一帧的训练差异度进行加权求和计算，以得到目标训练差异度；

S5，在目标训练差异度大于目标阈值的情况下，调整初始表演视频生成网络的参数值；

S6，在目标训练差异度小于或等于目标阈值的情况下，确定达到收敛条件。

需要说明的是，对图4中的不同全连接层进行训练的样本集合不同以得到不同作用的全连接层。如图4中用于产生内容偏移量的全连接层的训练过程中，可以将全部歌手的全部演唱视频作为训练样本集对上述用于产生内容偏移量的全连接层进行训练。比如说，在该样本集中，演唱视频中进行表演的歌手可以与该歌曲的原唱歌手不一致，从而得到仅基于演唱内容的动作偏移量。针对用于产生风格偏移量的全连接层的训练，则采用对应于某一个特定歌手的全部演唱视频作为样本集进行训练。比如根据风格特征确定出该音乐的原唱为陈奕迅的情况下，则利用歌手陈奕迅的全部演唱曲目以及对应的演唱视频对其对应的全连接层进行训练，从而得到对应于歌手陈奕迅的演唱风格的风格偏移参数。也就是说，在本实施例中，通过对特征的全连接层采用特定的训练样本，从而分别得到用于产生内容偏移量的全连接层和用于产生风格偏移量的全连接层。

可选地，上述动作生成网络可以为一种通过训练得到的对抗网络(GAN，Generative Adversarial Networks)网络。其中包括了至少两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)。其中生成模型用以生成表演动作特征，并基于上述特征生成目标音乐表演画面，其中判别模型用以判断上述生成模型输出的目标画面的真实程度。在训练过程中，通过训练集的训练使得生成模型生成的目标画面尽可能真实，并通过训练集的训练使得判别模型的判别能力尽可能提升。也就是说，通过生成模型和判别模型的联合训练，提升上述动作生成模型生成的目标画面的真实程度。可以理解的是，上述动作生成模型的训练集为多个样本动作视频，其中，样本动作视频中包括按照样本音频执行样本动作序列的样本对象，在此不对上述具体的训练视频集进行限定。

在本申请的上述实施例中，通过获取多个样本表演视频，其中，样本表演视频中包括样本音乐以及与样本音乐对应的表演对象所演绎的表演视频；提取样本音乐的样本内容特征以及样本风格特征；提取样本音乐对应的表演对象的样本身体标签信息；将提取的样本内容特征和样本风格特征，以及样本身体标签信息输入初始表演视频生成网络中进行训练，直至达到收敛条件，从而得到用于产生演唱视频的神经网络，即可采用上述训练得到的神经网络直接生成与原唱歌手表演风格接近的表演视频，解决了现有的音乐表演MV制作成本高的技术问题。

以下结合图5对本申请的具体实施方式进行说明。

如图5所示，执行步骤S502，训练表演视频生成网络；

在本步骤中，可以通过采集到的歌手表演视频作为训练标签，对表演视频生成网络进行训练；

接着执行步骤S504，获取待展示的音乐片段和虚拟形象的图片；

如步骤S506，提取音乐片段的内容特征以及风格特征；

具体而言，上述内容特征可以用于指示音乐片段中的每个音频帧对应的演唱歌词、节奏等演唱内容，进而指示对应于不同的演唱内容在音乐的不同时间帧的嘴部、脸部的动作特征。上述风格特征可以用于指示当前音乐演唱者的音乐表演风格特征，比如针对同一首歌，不同的音乐表演者的表演风格可以体现在其表演时的表情、动作等特征。上述风格特征即可用于指示当前音乐演唱者在演唱该音乐的同时会表现出的面部表情、肢体动作等动作特征。通过提取上述内容特征和风格特征，即可获取对应于当前音乐的原唱歌手的演唱风格的音乐表演动作特征。

如步骤S508，提取虚拟形象的身体标签信息；

执行步骤S510，生成表演视频；

具体地，可以将提取的内容特征和风格特征以及身体标签信息输入表演视频生成网络中，以生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。

最后如步骤S512，结束。

在本发明实施例中，通过获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；将提取的内容特征和风格特征以及身体标签信息输入表演视频生成网络中，以生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值，从而直接根据选择的虚拟形象图片和选择的音乐生成与音乐演唱者风格对应的表演视频，解决了现有技术中音乐表演视频制作成本较高的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频生成方法的视频生成装置。如图6所示，该装置包括：

获取单元602，用于获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；

特征提取单元604，用于提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；

标签提取单元606，用于提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；

视频生成单元608，用于根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。

可选地，在本实施例中，上述各个单元模块所要实现的实施例，可以参考上述各个方法实施例，这里不再赘述。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频生成方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图7所示，该电子设备包括显示器701、传输装置702、处理器703和存储器704，该存储器704 中存储有计算机程序，该处理器703被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；

S2，提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；

S3，提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；

S4，根据内容特征、风格特征以及身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器704可用于存储软件程序以及模块，如本发明实施例中的视频生成方法和装置对应的程序指令/模块，处理器703通过运行存储在存储器704内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频生成方法。存储器704可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器704可进一步包括相对于处理器703远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图7所示，上述存储器704中可以但不限于包括上述视频生成装置中的确定单元702、获取单元704、修正单元706、推送单元707。此外，还可以包括但不限于上述视频生成装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置702用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置702包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置702为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器701，用于显示当前音乐播放程序的音乐表演视频的播放界面。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频生成方方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种表演视频的生成方法，其特征在于，包括：

获取待展示的音乐片段和将要根据所述音乐片段进行表演的虚拟形象的图片；

提取所述音乐片段的内容特征以及风格特征，其中，所述内容特征用于指示所述音乐片段中每个音频帧的词曲特征，所述风格特征用于指示当前演绎所述音乐片段的表演对象在每个音频帧的表演风格特征；

提取所述虚拟形象的身体标签信息，其中，所述身体标签信息用于指示所述虚拟形象的多个身体关键点各自的位置坐标；

根据所述内容特征、所述风格特征以及所述身体标签信息生成所述虚拟形象演绎所述音乐片段的表演视频，其中，所述虚拟形象与所述表演对象的表演相似度大于目标阈值。

2.根据权利要求1所述的方法，其特征在于，根据所述内容特征、所述风格特征以及所述身体标签信息生成所述虚拟形象演绎所述音乐片段的表演视频包括：

将所述内容特征输入表演视频生成网络中的时间递归子网络，得到时序结果，其中，所述时间递归子网络用于获取所述内容特征中的时序关系；

基于所述时序结果与所述虚拟形象的所述身体标签信息，得到内容偏移量，其中，所述内容偏移量用于指示所述虚拟形象上的身体关键点根据所述音频帧的词曲特征确定出的位置偏移变化量；

基于所述时序结果和所述风格特征与所述虚拟形象的所述身体标签信息，得到风格偏移量，其中，所述风格偏移量用于指示所述虚拟形象上的身体关键点根据所述表演对象的表演风格特征确定出的位置偏移变化量；

根据所述内容偏移量和所述风格偏移量与所述虚拟形象的所述身体标签信息，生成所述表演视频。

3.根据权利要求2所述的方法，其特征在于，根据所述内容偏移量和所述风格偏移量与所述虚拟形象的所述身体标签信息，生成所述表演视频包括：

根据所述内容偏移量和所述风格偏移量，调整所述虚拟形象的图片中所述身体标签信息所指示的所述虚拟形象的所述多个身体关键点各自的位置坐标，得到表演视频帧；

对所述表演视频帧进行缩放调整，以生成所述表演视频。

4.根据权利要求2所述的方法，其特征在于，提取所述虚拟形象的身体标签信息包括以下至少之一：

提取所述虚拟形象的面部关键点的位置坐标；

提取所述虚拟形象的身体关节关键点的位置坐标。

5.根据权利要求1所述的方法，其特征在于，获取待展示的音乐片段和将要根据所述音乐片段进行表演的虚拟形象的图片之前，还包括：

获取多个样本表演视频，其中，所述样本表演视频中包括样本音乐以及与所述样本音乐对应的表演对象所演绎的表演视频；

提取所述样本音乐的样本内容特征以及样本风格特征；

提取所述样本音乐对应的表演对象的样本身体标签信息；

将提取的所述样本内容特征和所述样本风格特征，以及所述样本身体标签信息输入初始表演视频生成网络中进行训练，直至达到收敛条件。

6.根据权利要求5所述的方法，其特征在于，将提取的所述样本内容特征和所述样本风格特征，以及所述样本身体标签信息输入初始表演视频生成网络中进行训练，直至达到收敛条件，还包括：

获取将提取的所述样本内容特征和所述样本风格特征，以及所述样本身体标签信息输入初始表演视频生成网络得到的初始表演视频；

依次从所述多个样本表演视频中获取一个样本表演视频作为当前样本表演视频；

以所述当前样本表演视频中的每一帧表演画面中的多个身体关键点各自的位置坐标作为每一帧表演画面的训练标签，与所述初始表演视频中生成的每一帧表演画面中的多个身体关键点各自的位置坐标作差值计算，以得到每一帧的训练差异度；

对每一帧的所述训练差异度进行加权求和计算，以得到目标训练差异度；

在所述目标训练差异度大于目标阈值的情况下，调整所述初始表演视频生成网络的参数值；

在所述目标训练差异度小于或等于目标阈值的情况下，确定达到收敛条件。

7.一种表演视频的生成装置，其特征在于，包括：

获取单元，用于获取待展示的音乐片段和将要根据音乐片段进行表演的虚拟形象的图片；

特征提取单元，用于提取音乐片段的内容特征以及风格特征，其中，内容特征用于指示音乐片段中每个音频帧的词曲特征，风格特征用于指示当前演绎音乐片段的表演对象在每个音频帧的表演风格特征；

标签提取单元，用于提取虚拟形象的身体标签信息，其中，身体标签信息用于指示虚拟形象的多个身体关键点各自的位置坐标；

视频生成单元，用于根据所述内容特征、所述风格特征以及所述身体标签信息生成虚拟形象演绎音乐片段的表演视频，其中，虚拟形象与表演对象的表演相似度大于目标阈值。

8.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至6任一项中所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。