CN114268814A

CN114268814A - 音乐视频的获取方法、装置和存储介质及电子设备

Info

Publication number: CN114268814A
Application number: CN202111434656.0A
Authority: CN
Inventors: 陈耀君; 蔡海军
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-01
Anticipated expiration: 2041-11-29
Also published as: CN114268814B

Abstract

本发明公开了一种音乐视频的获取方法、装置和存储介质及电子设备。其中，该方法包括：在获取到目标音乐音频的情况下，提取目标音乐音频的目标音乐特征；获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据；基于目标动作数据以及目标镜头数据生成目标音乐视频。本发明解决了音乐视频的获取效率较低的技术问题。

Description

音乐视频的获取方法、装置和存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种音乐视频的获取方法、装置和存储介质及电子设备。

背景技术

近年来音乐视频(Music Video，简称MV)的发展越发迅猛，但相关技术中对于音乐视频的获取往往依赖于人工操作，例如工作人员凭借自身的经验以及审美，基于对音乐的理解来制作音乐视频，效率较低，也无法保证每个音乐视频的制作质量。因此，存在音乐视频的获取效率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音乐视频的获取方法、装置和存储介质及电子设备，以至少解决音乐视频的获取效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种音乐视频的获取方法，包括：在获取到目标音乐音频的情况下，提取上述目标音乐音频的目标音乐特征，其中，上述目标音乐特征为上述目标音乐音频中的各帧音频信号所具备的乐理特征；获取上述目标音乐特征匹配的目标动作数据、和上述目标音乐特征匹配的目标镜头数据，其中，上述目标动作数据用于控制目标虚拟对象在上述目标音乐音频的播放过程中执行目标动作，上述目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作；基于上述目标动作数据以及上述目标镜头数据生成目标音乐视频，其中，上述目标音乐视频包括上述目标音乐音频、和上述目标虚拟镜头被控制按照上述目标镜头数据执行上述镜头变换动作时所采集到的目标视频画面，上述目标视频画面包括上述目标虚拟对象被控制按照上述目标动作数据执行上述目标动作时所呈现的多帧画面。

根据本发明实施例的另一方面，还提供了一种音乐视频的获取装置，包括：提取单元，用于在获取到目标音乐音频的情况下，提取上述目标音乐音频的目标音乐特征，其中，上述目标音乐特征为上述目标音乐音频中的各帧音频信号所具备的乐理特征；第一获取单元，用于获取上述目标音乐特征匹配的目标动作数据、和上述目标音乐特征匹配的目标镜头数据，其中，上述目标动作数据用于控制目标虚拟对象在上述目标音乐音频的播放过程中执行目标动作，上述目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作；第一生成单元，用于基于上述目标动作数据以及上述目标镜头数据生成目标音乐视频，其中，上述目标音乐视频包括上述目标音乐音频、和上述目标虚拟镜头被控制按照上述目标镜头数据执行上述镜头变换动作时所采集到的目标视频画面，上述目标视频画面包括上述目标虚拟对象被控制按照上述目标动作数据执行上述目标动作时所呈现的多帧画面。

作为一种可选的方案，上述第一生成单元，包括：第一获取模块，用于基于上述目标动作数据，获取上述目标虚拟对象在上述目标音乐音频的播放过程中所需执行的上述目标动作；第二获取模块，用于基于上述目标镜头数据，获取上述目标虚拟镜头在上述目标动作的执行过程中的上述镜头变换动作；控制模块，用于控制上述目标虚拟镜头在执行上述镜头变换动作的同时，采集上述目标动作的执行过程画面，得到上述目标视频画面；整合模块，用于整合上述目标视频画面以及上述目标音乐音频，得到上述目标音乐视频，其中，在上述目标音乐视频的播放过程中，上述目标视频画面以及上述目标音乐音频被同步播放。

作为一种可选的方案，上述第一获取模块，包括：第一获取子模块，用于获取上述目标动作数据中的第一动作子数据，其中，上述第一动作子数据用于控制上述目标虚拟对象的第一虚拟部位执行第一动作，上述目标动作包括上述第一动作；第二获取子模块，用于获取上述目标动作数据中的第二动作子数据，其中，上述第二动作子数据用于控制上述目标虚拟对象的第二虚拟部位执行第二动作，上述目标动作包括上述第二动作；第三获取子模块，用于基于上述第一动作子数据以及上述第二动作子数据，获取上述第一虚拟部位在上述目标音乐音频的播放过程中所需执行的上述第一动作、以及上述第二虚拟部位在上述目标音乐音频的播放过程中所需执行的上述第二动作。

作为一种可选的方案，上述第二获取模块，包括以下至少之一：第四获取子模块，用于获取上述目标镜头数据中的镜头旋转数据，其中，上述镜头旋转数据用于控制上述目标虚拟镜头在拍摄上述目标虚拟对象过程中的镜头旋转动作，上述镜头变换动作包括上述镜头旋转动作；基于上述镜头旋转数据获取上述目标虚拟镜头在上述目标动作的执行过程中的上述镜头旋转动作；第五获取子模块，用于获取上述目标镜头数据中的镜头位移数据，其中，上述镜头位移数据用于控制上述目标虚拟镜头在拍摄上述目标虚拟对象过程中的镜头位移动作，上述镜头变换动作包括上述镜头位移动作；基于上述镜头位移数据获取上述目标虚拟镜头在上述目标动作的执行过程中的上述镜头位移动作。

作为一种可选的方案，上述第一获取单元，包括：输入模块，用于将上述目标音乐特征输入音乐识别模型，其中，上述音乐识别模型为利用多个样本音视频数据进行训练后得到的用于识别音乐的神经网络模型，每个上述样本音视频数据中包括样本音乐数据、样本动作数据以及样本镜头数据；第三获取模块，用于获取上述音乐识别模型输出的上述目标动作数据以及上述目标镜头数据。

作为一种可选的方案，包括：第四获取模块，用于在上述将上述目标音乐特征输入音乐识别模型之前，获取上述多个样本音视频数据；标记模块，用于在上述将上述目标音乐特征输入音乐识别模型之前，对每个上述样本音视频数据中的音乐数据、动作数据以及镜头数据的类型进行标记，得到标记后的上述多个样本音视频数据；训练模块，用于在上述将上述目标音乐特征输入音乐识别模型之前，将标记后的上述多个样本音视频数据输入初始音乐识别模型，以训练得到上述音乐识别模型。

作为一种可选的方案，上述训练模块，包括：重复子模块，用于重复执行以下步骤，直至得到上述音乐识别模型：确定子模块，用于从标记后的上述多个样本音视频数据中确定出当前样本音视频数据，并确定当前音乐识别模型，其中，上述当前样本音视频数据中包括标记的当前音乐数据、当前动作数据以及当前镜头数据；提取子模块，用于通过上述当前音乐识别模型提取出上述当前音乐数据的当前音乐特征，其中，上述当前音乐特征为上述当前音乐数据中的各帧音频信号所具备的乐理特征；识别子模块，用于通过上述当前音乐识别模型识别当前音乐特征的匹配动作数据以及匹配镜头数据；第一比对子模块，用于获取上述匹配动作数据与上述当前动作数据之间的第一比对结果；第二比对子模块，用于获取上述匹配镜头数据与上述当前镜头数据之间的第二比对结果；第一训练子模块，用于在上述第一比对结果以及上述第二比对结果未达到识别收敛条件的情况下，获取下一个样本音视频数据作为上述当前样本音视频数据；第二训练子模块，用于在上述第一比对结果以及上述第二比对结果达到识别上述收敛条件的情况下，确定上述当前音乐识别模型为上述音乐识别模型。

作为一种可选的方案，包括：第一确定单元，用于在上述提取上述目标音乐音频的目标音乐特征之后，在提取到上述目标音乐音频的音乐类型特征的情况下，根据上述音乐类型特征确定目标对象类型，其中，上述音乐类型特征用于表示上述目标音乐音频的整体音乐风格，上述目标对象类型用于表示虚拟对象的整体呈像风格；第二确定单元，用于在上述提取上述目标音乐音频的目标音乐特征之后，将上述目标对象类型的虚拟对象确定为上述目标虚拟对象。

作为一种可选的方案，还包括：第二获取单元，用于在上述提取上述目标音乐音频的目标音乐特征之后，获取上述目标音乐特征匹配的目标特效数据，其中，上述目标特效数据用于配置在上述目标音乐音频的播放过程中所显示的目标特效；第二生成单元，用于在上述提取上述目标音乐音频的目标音乐特征之后，基于上述目标特效数据、上述目标动作数据以及上述目标镜头数据生成特效音乐视频。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上音乐视频的获取方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的音乐视频的获取方法。

在本发明实施例中，在获取到目标音乐音频的情况下，提取上述目标音乐音频的目标音乐特征；获取上述目标音乐特征匹配的目标动作数据、和上述目标音乐特征匹配的目标镜头数据；基于上述目标动作数据以及上述目标镜头数据生成目标音乐视频，利用从目标音乐音频提取到的目标音乐特征，自动生成与之匹配的目标音乐视频，进而达到了快速生成目标音乐视频的目的，从而实现了提高音乐视频的获取效率的技术效果，进而解决了音乐视频的获取效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音乐视频的获取方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的音乐视频的获取方法的流程的示意图；

图3是根据本发明实施例的一种可选的音乐视频的获取方法的示意图；

图4是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图5是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图6是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图7是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图8是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图9是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图10是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图11是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图12是根据本发明实施例的另一种可选的音乐视频的获取方法的示意图；

图13是根据本发明实施例的一种可选的音乐视频的获取装置的示意图；

图14是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种音乐视频的获取方法，可选地，作为一种可选的实施方式，上述音乐视频的获取方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102、网络110及服务器112，其中，该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。

具体过程可如下步骤：

步骤S102，用户设备102获取对目标音乐音频的视频生成指令，其中，目标音乐音频为音乐文件3对应的音频，视频生成指令为虚拟按钮“生成MV”上触发的指令；

步骤S104-S106，用户设备102通过网络110将视频生成指令发送给服务器112；

步骤S108，服务器112通过数据库114查找视频生成指令的相关历史数据，若有则直接获取对应的目标音乐视频；若无则通过处理引擎116将该视频生成指令进行处理，得到目标音乐音频的目标音乐特征，并获得匹配的动作数据以及镜头数据，进而生成目标音乐视频；

步骤S110-S112，服务器112通过网络110将目标音乐视频发送给用户设备102，用户设备102中的处理器106将目标音乐视频显示在显示器108中，并将目标音乐视频存储在存储器104中。其中，调整判别结果可以但不限于存储在服务器112或用户设备102中。

除图1示出的示例之外，上述步骤可以由用户设备102独立完成，即由用户设备102执行目标音乐特征的获取、目标音乐视频的生成等步骤，从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑、车载设备等，本发明并不限制用户设备102的具体实现方式。

可选地，作为一种可选的实施方式，如图2所示，音乐视频的获取方法包括：

S202，在获取到目标音乐音频的情况下，提取目标音乐音频的目标音乐特征，其中，目标音乐特征为目标音乐音频中的各帧音频信号所具备的乐理特征；

S204，获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据，其中，目标动作数据用于控制目标虚拟对象在目标音乐音频的播放过程中执行目标动作，目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作；

S206，基于目标动作数据以及目标镜头数据生成目标音乐视频，其中，目标音乐视频包括目标音乐音频、和目标虚拟镜头被控制按照目标镜头数据执行镜头变换动作时所采集到的目标视频画面，目标视频画面包括目标虚拟对象被控制按照目标动作数据执行目标动作时所呈现的多帧画面。

可选地，在本实施例中，上述音乐视频的获取方法可以但不限于应用在人工智能领域，例如通过人工智能技术，为任意一首音乐打造一段音乐舞蹈MV。具体的，基于输入的音乐，同时生成匹配这首音乐节奏、风格的舞蹈以及摄像机的参数，进而高效地生成高质量的音乐MV。

可选地，在本实施例中，目标音乐音频可以但不限于为从音乐数据库中已有的音频数据，也可以但不限于是当前采集到的音乐音频，例如响应于录音操作，采集目标时间段内的音频数据，再将该音频数据整合为目标音乐音频。

可选地，在本实施例中，目标音乐特征为目标音乐音频中的各帧音频信号所具备的乐理特征，例如chroma特征、梅尔倒谱系数(mfcc)特征、onset节拍特征，以及提取音乐的风格特征，例如歌曲是属于摇滚，古风等。具体的，chroma特征可以但不限于理解为色度向量(Chroma Vector)和色度图谱(Chromagram)的同城，其中，色度向量是一个12个元素的向量，这些元素分别代表一段时间(如1帧)内12个音级中的能量，不同八度的同一音级能量累加，色度图谱则是色度向量的序列；mfcc特征为语音信号处理中的常见特征，在各个语音任务中都可取得不错的效果；onset节拍特征可以但不限用于表示一首歌曲的起始节拍的特征。

可选地，在本实施例中，目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作，其中，镜头变换动作可以但不限于理解为虚拟拍摄场景中的运镜，例如镜头旋转、镜头位移等；如图3所示，目标虚拟镜头302的运镜方式将影响到对目标虚拟对象304的拍摄。具体的先假设如图3中的(a)所示，使用目标虚拟镜头302并采取较为近景的运镜方式，对目标虚拟对象304进行拍摄；进一步，如图3中的(b)所示，使用目标虚拟镜头302并采取较为远景的运镜方式，对目标虚拟对象304进行拍摄。

可选地，在本实施例中，目标动作数据用于控制目标虚拟对象在目标音乐音频的播放过程中执行目标动作，其中，目标虚拟对象可以但不限于一个或多个虚拟对象的统称，例如图3所示，目标虚拟对象304为一个虚拟对象；而如图4所示，目标虚拟对象用于表示虚拟对象402、虚拟对象404、虚拟对象406、虚拟对象408以及虚拟对象410多个虚拟对象。

可选地，在本实施例中，目标视频画面包括目标虚拟对象被控制按照目标动作数据执行目标动作时所呈现的多帧画面；此外，目标视频画面还可以但不限于包括目标动作外的其他元素，例如背景、特效、品牌标识、弹幕等。

需要说明的是，在获取到目标音乐音频的情况下，提取目标音乐音频的目标音乐特征；获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据；基于目标动作数据以及目标镜头数据生成目标音乐视频，利用从目标音乐音频提取到的目标音乐特征，自动生成与之匹配的目标音乐视频。

进一步举例说明，可选的例如图5所示，在获取到目标音乐音频502(如“音乐文件3”的音乐音频)的情况下，提取目标音乐音频502的目标音乐特征，其中，目标音乐特征为目标音乐音频502中的各帧音频信号所具备的乐理特征；获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据，其中，目标动作数据用于控制目标虚拟对象506在目标音乐音频502的播放过程中执行目标动作，目标镜头数据用于控制目标虚拟镜头在目标音乐音频502的播放过程中执行镜头变换动作；基于目标动作数据以及目标镜头数据生成目标音乐视频504，其中，目标音乐视频504包括目标音乐音频502、和目标虚拟镜头被控制按照目标镜头数据执行镜头变换动作时所采集到的目标视频画面，目标视频画面包括目标虚拟对象506被控制按照目标动作数据执行目标动作时所呈现的多帧画面。

通过本申请提供的实施例，在获取到目标音乐音频的情况下，提取目标音乐音频的目标音乐特征；获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据；基于目标动作数据以及目标镜头数据生成目标音乐视频，利用从目标音乐音频提取到的目标音乐特征，自动生成与之匹配的目标音乐视频，进而达到了快速生成目标音乐视频的目的，从而实现了提高音乐视频的获取效率的技术效果。

作为一种可选的方案，基于目标动作数据以及目标镜头数据生成目标音乐视频，包括：

S1，基于目标动作数据，获取目标虚拟对象在目标音乐音频的播放过程中所需执行的目标动作；

S2，基于目标镜头数据，获取目标虚拟镜头在目标动作的执行过程中的镜头变换动作；

S3，控制目标虚拟镜头在执行镜头变换动作的同时，采集目标动作的执行过程画面，得到目标视频画面；

S4，整合目标视频画面以及目标音乐音频，得到目标音乐视频，其中，在目标音乐视频的播放过程中，目标视频画面以及目标音乐音频被同步播放。

需要说明的是，基于目标动作数据，获取目标虚拟对象在目标音乐音频的播放过程中所需执行的目标动作；基于目标镜头数据，获取目标虚拟镜头在目标动作的执行过程中的镜头变换动作；控制目标虚拟镜头在执行镜头变换动作的同时，采集目标动作的执行过程画面，得到目标视频画面；整合目标视频画面以及目标音乐音频，得到目标音乐视频，其中，在目标音乐视频的播放过程中，目标视频画面以及目标音乐音频被同步播放，如此来完成高质量视频MV的获取。

作为一种可选的方案，基于目标动作数据，获取目标虚拟对象在目标音乐音频的播放过程中所需执行的目标动作，包括：

S1，获取目标动作数据中的第一动作子数据，其中，第一动作子数据用于控制目标虚拟对象的第一虚拟部位执行第一动作，目标动作包括第一动作；

S2，获取目标动作数据中的第二动作子数据，其中，第二动作子数据用于控制目标虚拟对象的第二虚拟部位执行第二动作，目标动作包括第二动作；

S3，基于第一动作子数据以及第二动作子数据，获取第一虚拟部位在目标音乐音频的播放过程中所需执行的第一动作、以及第二虚拟部位在目标音乐音频的播放过程中所需执行的第二动作。

需要说明的是，第一虚拟部位/第二虚拟部位用于表示目标虚拟对象具有一个或多个虚拟部位，对虚拟部位的数量并不做限定。

进一步举例说明，可选的例如图6所示，目标虚拟对象602的虚拟部位可理解为虚拟圆圈所位于的部位，如脖子、两个肩膀、两个上肢关节、两个手部、两个胯关节、两个下肢关节、两个脚部等；此外，虚拟部位还可理解为目标虚拟对象602的脸部、服饰、头饰等。

通过本申请提供的实施例，获取目标动作数据中的第一动作子数据，其中，第一动作子数据用于控制目标虚拟对象的第一虚拟部位执行第一动作，目标动作包括第一动作；获取目标动作数据中的第二动作子数据，其中，第二动作子数据用于控制目标虚拟对象的第二虚拟部位执行第二动作，目标动作包括第二动作；基于第一动作子数据以及第二动作子数据，获取第一虚拟部位在目标音乐音频的播放过程中所需执行的第一动作、以及第二虚拟部位在目标音乐音频的播放过程中所需执行的第二动作，达到了细化目标动作的控制粒度的目的，实现了提高目标动作的执行准确性的效果。

作为一种可选的方案，基于目标镜头数据，获取目标虚拟镜头在目标动作的执行过程中的镜头变换动作，包括以下至少之一：

S1，获取目标镜头数据中的镜头旋转数据，其中，镜头旋转数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头旋转动作，镜头变换动作包括镜头旋转动作；基于镜头旋转数据获取目标虚拟镜头在目标动作的执行过程中的镜头旋转动作；

S2，获取目标镜头数据中的镜头位移数据，其中，镜头位移数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头位移动作，镜头变换动作包括镜头位移动作；基于镜头位移数据获取目标虚拟镜头在目标动作的执行过程中的镜头位移动作。

需要说明的是，获取目标镜头数据中的镜头旋转数据，其中，镜头旋转数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头旋转动作，镜头变换动作包括镜头旋转动作；基于镜头旋转数据获取目标虚拟镜头在目标动作的执行过程中的镜头旋转动作。

进一步举例说明，可选的例如图7中的(a)所示，响应于镜头旋转指令，按照镜头旋转数据控制目标虚拟镜头702执行镜头旋转动作；进一步如图7中的(b)所示，执行镜头旋转动作后的目标虚拟镜头702中展示旋转后的拍摄画面。

需要说明的是，获取目标镜头数据中的镜头位移数据，其中，镜头位移数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头位移动作，镜头变换动作包括镜头位移动作；基于镜头位移数据获取目标虚拟镜头在目标动作的执行过程中的镜头位移动作。

进一步举例说明，可选的例如图8中的(a)所示，响应于镜头旋转指令，按照镜头位移数据控制目标虚拟镜头802执行镜头位移动作；进一步如图8中的(b)所示，执行镜头位移动作后的目标虚拟镜头802中展示位移后的拍摄画面。

通过本申请提供的实施例，获取目标镜头数据中的镜头旋转数据，其中，镜头旋转数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头旋转动作，镜头变换动作包括镜头旋转动作；基于镜头旋转数据获取目标虚拟镜头在目标动作的执行过程中的镜头旋转动作；获取目标镜头数据中的镜头位移数据，其中，镜头位移数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头位移动作，镜头变换动作包括镜头位移动作；基于镜头位移数据获取目标虚拟镜头在目标动作的执行过程中的镜头位移动作，达到了全面控制目标虚拟镜头的目的，实现了提高目标虚拟镜头的控制全面性的效果。

作为一种可选的方案，获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据，包括：

S1，将目标音乐特征输入音乐识别模型，其中，音乐识别模型为利用多个样本音视频数据进行训练后得到的用于识别音乐的神经网络模型，每个样本音视频数据中包括样本音乐数据、样本动作数据以及样本镜头数据；

S2，获取音乐识别模型输出的目标动作数据以及目标镜头数据。

进一步举例说明，可选的例如图9所示，将音乐音频数据902(样本)输进行特征提取，其中，特征提取可以但不限于利用前馈神经网络904以及多头注意力机制网络906的结构实现；进一步，将提取的特征输入至音乐识别模型908，输出每帧视频的动作数据以及镜头数据。

作为一种可选的方案，在将目标音乐特征输入音乐识别模型之前，包括：

S1，获取多个样本音视频数据；

S2，对每个样本音视频数据中的音乐数据、动作数据以及镜头数据的类型进行标记，得到标记后的多个样本音视频数据；

S3，将标记后的多个样本音视频数据输入初始音乐识别模型，以训练得到音乐识别模型。

作为一种可选的方案，将标记后的多个样本音视频数据输入初始音乐识别模型，以训练得到音乐识别模型，包括：

S1，重复执行以下步骤，直至得到音乐识别模型：

S2，从标记后的多个样本音视频数据中确定出当前样本音视频数据，并确定当前音乐识别模型，其中，当前样本音视频数据中包括标记的当前音乐数据、当前动作数据以及当前镜头数据；

S3，通过当前音乐识别模型提取出当前音乐数据的当前音乐特征，其中，当前音乐特征为当前音乐数据中的各帧音频信号所具备的乐理特征；

S4，通过当前音乐识别模型识别当前音乐特征的匹配动作数据以及匹配镜头数据；

S5，获取匹配动作数据与当前动作数据之间的第一比对结果；

S6，获取匹配镜头数据与当前镜头数据之间的第二比对结果；

S7，在第一比对结果以及第二比对结果未达到识别收敛条件的情况下，获取下一个样本音视频数据作为当前样本音视频数据；

S8，在第一比对结果以及第二比对结果达到识别收敛条件的情况下，确定当前音乐识别模型为音乐识别模型。

进一步举例说明，可选的例如图9所示，将音乐音频数据902(样本)输进行特征提取，其中，特征提取可以但不限于利用前馈神经网络904以及多头注意力机制网络906的结构实现；进一步，将提取的音乐特征输入至音乐识别模型908，并进行迭代训练，直至训练完成；具体的，通过当前音乐识别模型908识别当前音乐特征的匹配动作数据以及匹配镜头数据；获取匹配动作数据与当前动作数据之间的第一比对结果；获取匹配镜头数据与当前镜头数据之间的第二比对结果；在第一比对结果以及第二比对结果未达到识别收敛条件的情况下，获取下一个样本音视频数据作为当前样本音视频数据；在第一比对结果以及第二比对结果达到识别收敛条件的情况下，确定当前音乐识别模型为音乐识别模型908。

作为一种可选的方案，在提取目标音乐音频的目标音乐特征之后，包括：

S1，在提取到目标音乐音频的音乐类型特征的情况下，根据音乐类型特征确定目标对象类型，其中，音乐类型特征用于表示目标音乐音频的整体音乐风格，目标对象类型用于表示虚拟对象的整体呈像风格；

S2，将目标对象类型的虚拟对象确定为目标虚拟对象。

可选地，在本实施例中，目标虚拟对象可以但不限于包括多种可选类型的虚拟对象，如摇滚类型、妩媚类型、文艺类型、神话类型、宅男类型等；而目标虚拟对象的对象类型可以但不限于与目标音乐音频的音乐类型特征相匹配，例如音乐类型特征为民谣类型，则目标对象类型为小清新等。

需要说明的是，在提取到目标音乐音频的音乐类型特征的情况下，根据音乐类型特征确定目标对象类型，其中，音乐类型特征用于表示目标音乐音频的整体音乐风格，目标对象类型用于表示虚拟对象的整体呈像风格；将目标对象类型的虚拟对象确定为目标虚拟对象。

进一步举例说明，可选的例如图10所示，在提取到目标音乐音频的(如“音乐文件1”的音频)音乐类型特征1002的情况下，根据音乐类型特征1002确定目标对象类型，其中，音乐类型特征1002用于表示目标音乐音频的整体音乐风格，目标对象类型用于表示虚拟对象的整体呈像风格；从多个候选的虚拟对象中选取目标对象类型的虚拟对象，并将该目标对象类型的虚拟对象确定为目标虚拟对象1004。

通过本申请提供的实施例，在提取到目标音乐音频的音乐类型特征的情况下，根据音乐类型特征确定目标对象类型，其中，音乐类型特征用于表示目标音乐音频的整体音乐风格，目标对象类型用于表示虚拟对象的整体呈像风格；将目标对象类型的虚拟对象确定为目标虚拟对象，实现了提高目标虚拟对象的确定灵活度的效果。

作为一种可选的方案，在提取目标音乐音频的目标音乐特征之后，还包括：

S1，获取目标音乐特征匹配的目标特效数据，其中，目标特效数据用于配置在目标音乐音频的播放过程中所显示的目标特效；

S2，基于目标特效数据、目标动作数据以及目标镜头数据生成特效音乐视频。

可选地，在本实施例中，除了为目标虚拟对象生成目标音乐音频匹配的音乐视频外，在该目标音乐视频中还可以但不限于展示多种类型的元素，例如目标特效。

需要说明的是，获取目标音乐特征匹配的目标特效数据，其中，目标特效数据用于配置在目标音乐音频的播放过程中所显示的目标特效；基于目标特效数据、目标动作数据以及目标镜头数据生成特效音乐视频。

进一步举例说明，可选的例如图11所示，获取目标音乐特征匹配的目标特效数据，其中，目标特效数据用于配置在目标音乐音频的播放过程中所显示的目标特效1104；基于目标特效数据、目标动作数据以及目标镜头数据生成特效音乐视频1106，其中，特效音乐视频1106中包括目标特效1104以及目标虚拟对象1102。

通过本申请提供的实施例，获取目标音乐特征匹配的目标特效数据，其中，目标特效数据用于配置在目标音乐音频的播放过程中所显示的目标特效；基于目标特效数据、目标动作数据以及目标镜头数据生成特效音乐视频，实现了提高生成视频的内容全面度的效果。

作为一种可选的方案，为方便理解，以上述音乐视频的获取方法应用在舞蹈MV的获取场景为例说明，旨于通过人工智能技术，为任意一首音乐打造一段音乐舞蹈MV，具体内容如下：

首先，从音乐库(A)中选择用来生成舞蹈MV的音乐歌曲；再利用音乐特征提取模块(B)提取特征，包括chroma特征，mfcc，onset节拍，以及提取音乐的风格特征，例如歌曲是属于摇滚，古风等。

进一步利用舞蹈及镜头参数生成算法(C)生成舞蹈动作以及镜头的参数，渲染成音乐舞蹈MV。其中，舞蹈及镜头参数生成算法训练过程包括收集音乐-舞蹈-镜头匹配的舞蹈数据、对音乐提取特征作为输入，从舞蹈动作中提取18个关节作为舞蹈特征(每个关节具有3个位置参数)，提取镜头参数(4个旋转参数，3个位移参数)，以及把每一个(音乐-舞蹈-镜头)匹对数据作为输入输出进行训练。具体步骤是：提取当前帧音乐特征，输入到网络，舞蹈参数和镜头参数两个向量直接在维度上拼接起来作为输出结果，即输出是当前帧的舞蹈参数以及镜头参数(输出维度为18*3+1*(4+3))；通过收集音乐-舞蹈-镜头匹配的舞蹈数据，可以得到每一时间帧上的音乐信号、舞蹈动作以及对应的镜头参数。

进一步举例说明，如图12所示，虚拟人物1202随着音乐跳舞，摄像机自动跟随节拍而转换镜头角度，以生成高质量的舞蹈音乐短片1204。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音乐视频的获取方法的音乐视频的获取装置。如图13所示，该装置包括：

提取单元1302，用于在获取到目标音乐音频的情况下，提取目标音乐音频的目标音乐特征，其中，目标音乐特征为目标音乐音频中的各帧音频信号所具备的乐理特征；

第一获取单元1304，用于获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据，其中，目标动作数据用于控制目标虚拟对象在目标音乐音频的播放过程中执行目标动作，目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作；

第一生成单元1306，用于基于目标动作数据以及目标镜头数据生成目标音乐视频，其中，目标音乐视频包括目标音乐音频、和目标虚拟镜头被控制按照目标镜头数据执行镜头变换动作时所采集到的目标视频画面，目标视频画面包括目标虚拟对象被控制按照目标动作数据执行目标动作时所呈现的多帧画面。

可选地，在本实施例中，上述音乐视频的获取装置可以但不限于应用在人工智能领域，例如通过人工智能技术，为任意一首音乐打造一段音乐舞蹈MV。具体的，基于输入的音乐，同时生成匹配这首音乐节奏、风格的舞蹈以及摄像机的参数，进而高效地生成高质量的音乐MV。

具体实施例可以参考上述音乐视频的获取装置中所示示例，本示例中在此不再赘述。

作为一种可选的方案，第一生成单元1306，包括：

第一获取模块，用于基于目标动作数据，获取目标虚拟对象在目标音乐音频的播放过程中所需执行的目标动作；

第二获取模块，用于基于目标镜头数据，获取目标虚拟镜头在目标动作的执行过程中的镜头变换动作；

控制模块，用于控制目标虚拟镜头在执行镜头变换动作的同时，采集目标动作的执行过程画面，得到目标视频画面；

整合模块，用于整合目标视频画面以及目标音乐音频，得到目标音乐视频，其中，在目标音乐视频的播放过程中，目标视频画面以及目标音乐音频被同步播放。

具体实施例可以参考上述音乐视频的获取方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，第一获取模块，包括：

第一获取子模块，用于获取目标动作数据中的第一动作子数据，其中，第一动作子数据用于控制目标虚拟对象的第一虚拟部位执行第一动作，目标动作包括第一动作；

第二获取子模块，用于获取目标动作数据中的第二动作子数据，其中，第二动作子数据用于控制目标虚拟对象的第二虚拟部位执行第二动作，目标动作包括第二动作；

第三获取子模块，用于基于第一动作子数据以及第二动作子数据，获取第一虚拟部位在目标音乐音频的播放过程中所需执行的第一动作、以及第二虚拟部位在目标音乐音频的播放过程中所需执行的第二动作。

作为一种可选的方案，第二获取模块，包括以下至少之一：

第四获取子模块，用于获取目标镜头数据中的镜头旋转数据，其中，镜头旋转数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头旋转动作，镜头变换动作包括镜头旋转动作；基于镜头旋转数据获取目标虚拟镜头在目标动作的执行过程中的镜头旋转动作；

第五获取子模块，用于获取目标镜头数据中的镜头位移数据，其中，镜头位移数据用于控制目标虚拟镜头在拍摄目标虚拟对象过程中的镜头位移动作，镜头变换动作包括镜头位移动作；基于镜头位移数据获取目标虚拟镜头在目标动作的执行过程中的镜头位移动作。

作为一种可选的方案，第一获取单元1304，包括：

输入模块，用于将目标音乐特征输入音乐识别模型，其中，音乐识别模型为利用多个样本音视频数据进行训练后得到的用于识别音乐的神经网络模型，每个样本音视频数据中包括样本音乐数据、样本动作数据以及样本镜头数据；

第三获取模块，用于获取音乐识别模型输出的目标动作数据以及目标镜头数据。

作为一种可选的方案，包括：

第四获取模块，用于在将目标音乐特征输入音乐识别模型之前，获取多个样本音视频数据；

标记模块，用于在将目标音乐特征输入音乐识别模型之前，对每个样本音视频数据中的音乐数据、动作数据以及镜头数据的类型进行标记，得到标记后的多个样本音视频数据；

训练模块，用于在将目标音乐特征输入音乐识别模型之前，将标记后的多个样本音视频数据输入初始音乐识别模型，以训练得到音乐识别模型。

作为一种可选的方案，训练模块，包括：

重复子模块，用于重复执行以下步骤，直至得到音乐识别模型：

确定子模块，用于从标记后的多个样本音视频数据中确定出当前样本音视频数据，并确定当前音乐识别模型，其中，当前样本音视频数据中包括标记的当前音乐数据、当前动作数据以及当前镜头数据；

提取子模块，用于通过当前音乐识别模型提取出当前音乐数据的当前音乐特征，其中，当前音乐特征为当前音乐数据中的各帧音频信号所具备的乐理特征；

识别子模块，用于通过当前音乐识别模型识别当前音乐特征的匹配动作数据以及匹配镜头数据；

第一比对子模块，用于获取匹配动作数据与当前动作数据之间的第一比对结果；

第二比对子模块，用于获取匹配镜头数据与当前镜头数据之间的第二比对结果；

第一训练子模块，用于在第一比对结果以及第二比对结果未达到识别收敛条件的情况下，获取下一个样本音视频数据作为当前样本音视频数据；

第二训练子模块，用于在第一比对结果以及第二比对结果达到识别收敛条件的情况下，确定当前音乐识别模型为音乐识别模型。

作为一种可选的方案，包括：

第一确定单元，用于在提取目标音乐音频的目标音乐特征之后，在提取到目标音乐音频的音乐类型特征的情况下，根据音乐类型特征确定目标对象类型，其中，音乐类型特征用于表示目标音乐音频的整体音乐风格，目标对象类型用于表示虚拟对象的整体呈像风格；

第二确定单元，用于在提取目标音乐音频的目标音乐特征之后，将目标对象类型的虚拟对象确定为目标虚拟对象。

作为一种可选的方案，还包括：

第二获取单元，用于在提取目标音乐音频的目标音乐特征之后，获取目标音乐特征匹配的目标特效数据，其中，目标特效数据用于配置在目标音乐音频的播放过程中所显示的目标特效；

第二生成单元，用于在提取目标音乐音频的目标音乐特征之后，基于目标特效数据、目标动作数据以及目标镜头数据生成特效音乐视频。

根据本发明实施例的又一个方面，还提供了一种用于实施上述音乐视频的获取方法的电子设备，如图14所示，该电子设备包括存储器1402和处理器1404，该存储器1402中存储有计算机程序，该处理器1404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在获取到目标音乐音频的情况下，提取目标音乐音频的目标音乐特征，其中，目标音乐特征为目标音乐音频中的各帧音频信号所具备的乐理特征；

S2，获取目标音乐特征匹配的目标动作数据、和目标音乐特征匹配的目标镜头数据，其中，目标动作数据用于控制目标虚拟对象在目标音乐音频的播放过程中执行目标动作，目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作；

S3，基于目标动作数据以及目标镜头数据生成目标音乐视频，其中，目标音乐视频包括目标音乐音频、和目标虚拟镜头被控制按照目标镜头数据执行镜头变换动作时所采集到的目标视频画面，目标视频画面包括目标虚拟对象被控制按照目标动作数据执行目标动作时所呈现的多帧画面。

可选地，本领域普通技术人员可以理解，图14所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图14其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图14中所示更多或者更少的组件(如网络接口等)，或者具有与图14所示不同的配置。

其中，存储器1402可用于存储软件程序以及模块，如本发明实施例中的音乐视频的获取方法和装置对应的程序指令/模块，处理器1404通过运行存储在存储器1402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音乐视频的获取方法。存储器1402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1402可进一步包括相对于处理器1404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1402具体可以但不限于用于存储目标虚拟对象、目标动作以及目标音乐视频等信息。作为一种示例，如图14所示，上述存储器1402中可以但不限于包括上述音乐视频的获取装置中的提取单元1302、第一获取单元1304及第一生成单元1306。此外，还可以包括但不限于上述音乐视频的获取装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1406包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1406为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1408，用于显示上述目标虚拟对象、目标动作以及目标音乐视频等信息；和连接总线1410，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(Peer To Peer，简称P2P)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

计算机系统包括中央处理器(Central Processing Unit，CPU)，其可以根据存储在只读存储器(Read-Only Memory，ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口(Input/Output接口，即I/O接口)也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行音乐视频的获取上述方法。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音乐视频的获取方法，其特征在于，包括：

在获取到目标音乐音频的情况下，提取所述目标音乐音频的目标音乐特征，其中，所述目标音乐特征为所述目标音乐音频中的各帧音频信号所具备的乐理特征；

获取所述目标音乐特征匹配的目标动作数据、和所述目标音乐特征匹配的目标镜头数据，其中，所述目标动作数据用于控制目标虚拟对象在所述目标音乐音频的播放过程中执行目标动作，所述目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作；

基于所述目标动作数据以及所述目标镜头数据生成目标音乐视频，其中，所述目标音乐视频包括所述目标音乐音频、和所述目标虚拟镜头被控制按照所述目标镜头数据执行所述镜头变换动作时所采集到的目标视频画面，所述目标视频画面包括所述目标虚拟对象被控制按照所述目标动作数据执行所述目标动作时所呈现的多帧画面。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标动作数据以及所述目标镜头数据生成目标音乐视频，包括：

基于所述目标动作数据，获取所述目标虚拟对象在所述目标音乐音频的播放过程中所需执行的所述目标动作；

基于所述目标镜头数据，获取所述目标虚拟镜头在所述目标动作的执行过程中的所述镜头变换动作；

控制所述目标虚拟镜头在执行所述镜头变换动作的同时，采集所述目标动作的执行过程画面，得到所述目标视频画面；

整合所述目标视频画面以及所述目标音乐音频，得到所述目标音乐视频，其中，在所述目标音乐视频的播放过程中，所述目标视频画面以及所述目标音乐音频被同步播放。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标动作数据，获取所述目标虚拟对象在所述目标音乐音频的播放过程中所需执行的所述目标动作，包括：

获取所述目标动作数据中的第一动作子数据，其中，所述第一动作子数据用于控制所述目标虚拟对象的第一虚拟部位执行第一动作，所述目标动作包括所述第一动作；

获取所述目标动作数据中的第二动作子数据，其中，所述第二动作子数据用于控制所述目标虚拟对象的第二虚拟部位执行第二动作，所述目标动作包括所述第二动作；

基于所述第一动作子数据以及所述第二动作子数据，获取所述第一虚拟部位在所述目标音乐音频的播放过程中所需执行的所述第一动作、以及所述第二虚拟部位在所述目标音乐音频的播放过程中所需执行的所述第二动作。

4.根据权利要求2所述的方法，其特征在于，所述基于所述目标镜头数据，获取所述目标虚拟镜头在所述目标动作的执行过程中的所述镜头变换动作，包括以下至少之一：

获取所述目标镜头数据中的镜头旋转数据，其中，所述镜头旋转数据用于控制所述目标虚拟镜头在拍摄所述目标虚拟对象过程中的镜头旋转动作，所述镜头变换动作包括所述镜头旋转动作；基于所述镜头旋转数据获取所述目标虚拟镜头在所述目标动作的执行过程中的所述镜头旋转动作；

获取所述目标镜头数据中的镜头位移数据，其中，所述镜头位移数据用于控制所述目标虚拟镜头在拍摄所述目标虚拟对象过程中的镜头位移动作，所述镜头变换动作包括所述镜头位移动作；基于所述镜头位移数据获取所述目标虚拟镜头在所述目标动作的执行过程中的所述镜头位移动作。

5.根据权利要求1所述的方法，其特征在于，所述获取所述目标音乐特征匹配的目标动作数据、和所述目标音乐特征匹配的目标镜头数据，包括：

将所述目标音乐特征输入音乐识别模型，其中，所述音乐识别模型为利用多个样本音视频数据进行训练后得到的用于识别音乐的神经网络模型，每个所述样本音视频数据中包括样本音乐数据、样本动作数据以及样本镜头数据；

获取所述音乐识别模型输出的所述目标动作数据以及所述目标镜头数据。

6.根据权利要求5所述的方法，其特征在于，在所述将所述目标音乐特征输入音乐识别模型之前，包括：

获取所述多个样本音视频数据；

对每个所述样本音视频数据中的音乐数据、动作数据以及镜头数据的类型进行标记，得到标记后的所述多个样本音视频数据；

将标记后的所述多个样本音视频数据输入初始音乐识别模型，以训练得到所述音乐识别模型。

7.根据权利要求6所述的方法，其特征在于，所述将标记后的所述多个样本音视频数据输入初始音乐识别模型，以训练得到所述音乐识别模型，包括：

重复执行以下步骤，直至得到所述音乐识别模型：

从标记后的所述多个样本音视频数据中确定出当前样本音视频数据，并确定当前音乐识别模型，其中，所述当前样本音视频数据中包括标记的当前音乐数据、当前动作数据以及当前镜头数据；

通过所述当前音乐识别模型提取出所述当前音乐数据的当前音乐特征，其中，所述当前音乐特征为所述当前音乐数据中的各帧音频信号所具备的乐理特征；

通过所述当前音乐识别模型识别当前音乐特征的匹配动作数据以及匹配镜头数据；

获取所述匹配动作数据与所述当前动作数据之间的第一比对结果；

获取所述匹配镜头数据与所述当前镜头数据之间的第二比对结果；

在所述第一比对结果以及所述第二比对结果未达到识别收敛条件的情况下，获取下一个样本音视频数据作为所述当前样本音视频数据；

在所述第一比对结果以及所述第二比对结果达到识别所述收敛条件的情况下，确定所述当前音乐识别模型为所述音乐识别模型。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在所述提取所述目标音乐音频的目标音乐特征之后，包括：

在提取到所述目标音乐音频的音乐类型特征的情况下，根据所述音乐类型特征确定目标对象类型，其中，所述音乐类型特征用于表示所述目标音乐音频的整体音乐风格，所述目标对象类型用于表示虚拟对象的整体呈像风格；

将所述目标对象类型的虚拟对象确定为所述目标虚拟对象。

9.根据权利要求1至7中任一项所述的方法，其特征在于，在所述提取所述目标音乐音频的目标音乐特征之后，还包括：

获取所述目标音乐特征匹配的目标特效数据，其中，所述目标特效数据用于配置在所述目标音乐音频的播放过程中所显示的目标特效；

基于所述目标特效数据、所述目标动作数据以及所述目标镜头数据生成特效音乐视频。

10.一种音乐视频的获取装置，其特征在于，包括：

提取单元，用于在获取到目标音乐音频的情况下，提取所述目标音乐音频的目标音乐特征，其中，所述目标音乐特征为所述目标音乐音频中的各帧音频信号所具备的乐理特征；

第一获取单元，用于获取所述目标音乐特征匹配的目标动作数据、和所述目标音乐特征匹配的目标镜头数据，其中，所述目标动作数据用于控制目标虚拟对象在所述目标音乐音频的播放过程中执行目标动作，所述目标镜头数据用于控制目标虚拟镜头在目标音乐音频的播放过程中执行镜头变换动作；

第一生成单元，用于基于所述目标动作数据以及所述目标镜头数据生成目标音乐视频，其中，所述目标音乐视频包括所述目标音乐音频、和所述目标虚拟镜头被控制按照所述目标镜头数据执行所述镜头变换动作时所采集到的目标视频画面，所述目标视频画面包括所述目标虚拟对象被控制按照所述目标动作数据执行所述目标动作时所呈现的多帧画面。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至9任一项中所述的方法。

12.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至9任一项中所述方法的步骤。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。