CN117156173A

CN117156173A - Vlog生成方法及相关装置

Info

Publication number: CN117156173A
Application number: CN202210562029.3A
Authority: CN
Inventors: 刘经纬; 寇毅伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2023-12-01

Abstract

本申请公开了一种Vlog生成方法及相关装置，该方法包括：获取视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号；根据获取的信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息；对参考音频信号进行分轨和转录处理，以得到参考音频信号的mid i乐谱及参考音频信号的乐句乐段切分点；根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的mid i乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐；根据剪辑好的视频素材和目标Vlog的背景音乐得到目标Vlog。采用本申请的方法可得到满足用户个性化需求的Vlog。

Description

Vlog生成方法及相关装置

技术领域

本申请涉及视频处理领域，尤其涉及一种Vlog生成方法及相关装置。

背景技术

拍vlog记录自己的旅行和生活已经成为了当前年轻人的重要生活方式。拍vlog时，用户常常会为了选择一首符合自己当前心情和视频内容的音乐而苦思冥想。普通用户往往缺乏足够的音乐知识，往往只知道自己喜欢什么类型的歌曲或想听哪首歌，却不知道这首歌跟视频如何进行匹配。

短视频软件主要采用推荐现有音乐的方式，根据用户选择的标签和歌曲的热度直接将网红歌曲推荐给用户。使用这种技术路径推荐的音乐往往和用户个性化的视频内容匹配度较低，只能给用户千篇一律的体验，无法制造具有个性化的体验。同时也无法满足用户将特定歌曲用在自己的vlog上的个性化需求。

发明内容

本申请实施例提供一种Vlog生成方法及相关装置，采用本申请可以基于用户的需求生成个性化的背景音乐及Vlog，且背景音乐的转场点与Vlog的转场点相匹配。

第一方面，本申请实施例提供一种Vlog生成方法，包括：

获取视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号；根据视频素材、目标Vlog的时长、参考转场点和视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息；对参考音频信号进行分轨和转录处理，以得到参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点；根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐，目标Vlog的背景音乐的信息与参考背景音乐信息相匹配，且目标Vlog的背景音乐的转场点与目标Vlog的转场点相匹配；根据剪辑好的视频素材和目标Vlog的背景音乐得到目标Vlog。

其中，视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号是用户选择的。

基于用户选择的视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号生成目标Vlog的背景音乐，使得生成的背景音乐符合用户的个性化需求，同时满足了用户将特定的音乐用在Vlog上的个性化需求。

在一个可能的实施例中，参考背景音乐信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点中的至少一种；目标Vlog的背景音乐的信息与参考背景音乐信息相匹配，包括：

目标Vlog的背景音乐的音乐meta信息与参考背景音乐信息包括的音乐meta信息相匹配，和/或，

目标Vlog的背景音乐的曲式结构与参考背景音乐信息包括的曲式结构相匹配，和/或，

目标Vlog的背景音乐的和声进行与参考背景音乐信息包括的和声进行相匹配，和/或，

目标Vlog的背景音乐的音乐情绪走向与参考背景音乐信息包括的音乐情绪走向相匹配，和/或，

目标Vlog的背景音乐的乐句乐段切分点与参考背景音乐信息包括的乐句乐段切分点相匹配。

在一个可能的实施例中，根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐，包括：

根据参考音频信号的midi乐谱确定参考音频信号的音乐meta信息、曲式结构、和声进行及音乐情绪走向；判断参考音频信号的音乐meta信息、曲式结构、和声进行、音乐情绪走向和乐句乐段切分点是否分别与参考背景音乐信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点相匹配；

当参考音频信号的音乐meta信息、曲式结构、和声进行、音乐情绪走向和乐句乐段切分点中，存在与参考背景音乐信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点不相匹配的部分时，对参考音频信号进行修改，以得到目标Vlog的背景音乐。

在音乐meta信息、曲式结构、和声进行及音乐情绪走向的层面对参考音频信号进行处理，使得基于参考音频信号得到的目标Vlog的背景音乐满足用户的个性化需求。

在一个可能的实施例中，根据视频素材、目标Vlog的时长、参考转场点和视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息，包括：

将视频素材、目标Vlog的时长、参考转场点和视频情绪信息输入到已训练好的神经网络中进行处理，以得到剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息。

在一个可能的实施例中，根据视频素材、目标Vlog的时长、参考转场点和视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，本申请的方法还包括：

在检测用户的第一修改指令后，对目标Vlog的转场点进行修改，以得到修改后的目标Vlog的转场点，

根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐，包括：

根据修改后的目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐。

在检测到用户的第二修改指令后，对参考背景音乐信息进行修改，以得到修改后的参考背景音乐信息；

根据目标Vlog的转场点、修改后的参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐。

在检测到用户的第一修改指令和第二修改指令后，对目标Vlog的转场点击参考背景音乐信息进行修改，以得到修改后的目标Vlog的转场点和修改后的参考背景音乐信息；

根据修改后的目标Vlog的转场点、修改后的参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐。

为了避免生成的目标Vlog的背景音乐不是用户的想要的，在得到目标Vlog的转场点和参考背景音乐信息后，检测用户是否需要修改，若检测到用户需要对目标Vlog的转场点和/或参考背景音乐信息后，对目标Vlog的转场点和/或参考背景音乐信息进行修改，得到修改后的目标Vlog的转场点和/或参考背景音乐信息，再基于修改后的目标Vlog的转场点和/或参考背景音乐信息及其他信息得到目标Vlog的背景音乐，进一步使得目标Vlog的背景音乐满足了用户的个性化需求。

在一个可能的实施例中，对参考音频信号进行分轨和转录处理，以得到参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点，包括：

将参考音频信号输入到已训练好的分轨神经网络中进行处理，以得到多轨音频信号；将多轨音频信号输入到已训练好的转录神经网络中进行处理，以得到多轨音频信号对应的midi乐谱和乐句乐段切分点。

其中，参考音频信号的midi乐谱包括多轨音频信号对应的midi乐谱，参考音频信号的乐句乐段切分点包括多轨音频信号对应的乐句乐段切分点。

第二方面，本申请实施例提供一种视频生成装置，包括：

获取单元，用于获取视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号；

确定单元，用于根据视频素材、目标Vlog的时长、参考转场点和视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息；

分轨转录单元，用于对参考音频信号进行分轨和转录处理，以得到参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点；

处理单元，用于根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐，目标Vlog的背景音乐的信息与参考背景音乐信息相匹配，且目标Vlog的背景音乐的转场点与目标Vlog的转场点相匹配；根据剪辑好的视频素材和目标Vlog的背景音乐得到目标Vlog。

在一个可能的实施例中，在根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，处理单元具体用于：

在一个可能的实施例中，确定单元具体用于：

在一个可能的实施例中，根据视频素材、目标Vlog的时长、参考转场点和视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，视频生成装置还包括：

修改单元，用于在检测用户的第一修改指令后，对目标Vlog的转场点进行修改，以得到修改后的目标Vlog的转场点，

在根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，处理单元具体用于：

修改单元，用于在检测到用户的第二修改指令后，对参考背景音乐信息进行修改，以得到修改后的参考背景音乐信息；

在根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，处理单元用于：

修改单元，用于在检测到用户的第一修改指令和第二修改指令后，对目标Vlog的转场点击参考背景音乐信息进行修改，以得到修改后的目标Vlog的转场点和修改后的参考背景音乐信息；

在一个可能的实施例中，分轨转录单元具体用于：

第三方面，本申请实施例还提供一种电子设备，包括处理器和存储器，其中，所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行第一方面所述的方法的部分或者全部。

第四方面，本申请实施例还提供一种芯片系统，该芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行第一方面所述的方法的部分或者全部。

第五方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法的部分或者全部。

第六方面，本申请实施例还提供一种计算机程序，该计算机程序被执行以实现第一方面所述的方法的部分或者全部。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供一种系统示意图；

图2为本申请实施例提供一种Vlog生成方法的流程示意图；

图3a示意出了转场点，Vlog的时长及视频情绪走向曲线；

图3b为一种用户输入界面示意图；

图4为音频转场点与重音之间的关系的示意图；

图5为本实施例提供的一种显示结果示意图；

图6为本实施例提供的另一种显示结果示意图；

图7为本申请实施例提供的一种视频生成装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下分别进行详细说明。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面对本申请涉及的术语进行解释说明。

转场是指从一个场景转换到另一个场景。转场点是指在视频中从一个场景转换到另一个场景的时间点。

曲式结构：音乐的形式结构，比如总分总结构，总总分结构等。

和声进行，用于表征一个和弦与下一个和弦之间的关系。

音乐情绪走向，用于表征音乐情绪的变化。比如假设一段音乐分配三部分，第一部分是平静的，第二部分是激昂的，第三部分是柔和的。

乐句乐段切分点包括乐句切分点和乐段切分点。其中，乐句切分点用于指示音乐中一个乐句的结束位置，或者两个乐句的分界点。乐段切分点用于指示一个乐段的结束位置或者两个乐段的分界点。

下面结合附图对本申请的实施例进行描述。

参见图1，图1为本申请实施例提供的一种系统示意图。如图1所示，该系统包括终端设备101和服务器102。

其中，终端设备101，是一种能够进行数据处理和图形渲染功能的设备。常见的终端设备包括：手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internetdevice，MID)、物联网设备，可穿戴设备(例如，智能手表、智能手环、计步器)等。

服务器102为可用于数据存储、处理和传输的设备。比如可以为云服务器、分布式服务器、集成式服务器、机架式服务器、机柜式服务器、刀片式服务器等。

在一个示例中，终端设备101向服务器102发送Vlog获取请求，该Vlog获取请求携带有视频素材、目标Vlog的时长、参考转场点、情绪信息及参考音频信号。服务器102对视频素材、目标Vlog的时长、参考转场点、情绪信息及参考音频信号进行处理，以得到剪辑好的视频素材、目标Vlog的转场点和参考背景音乐信息。服务器102对参考音频信号进行分轨和转录处理，以得到参考音频信号的midi乐谱及参考音频信号的乐句乐段的切分点。服务器102根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐。服务器根据剪辑好的视频素材和目标Vlog的背景音乐得到目标Vlog。目标Vlog的背景音乐的信息与参考背景音乐信息相匹配，且目标Vlog的背景音乐的转场点与目标Vlog的转场点相匹配。服务器102向终端设备发送目标Vlog，以响应Vlog获取请求。

在另一个示例中，由于终端设备101的计算能力比较强大，终端设备101可以自己基于上述信息得到目标Vlog，不需要借助于服务器102。终端设备101得到目标Vlog的具体实现过程可以参见服务器102的相关描述，在此不再叙述。

可以看出，在本申请的方案中，通过将对用户上传的音乐进行风格转换，可以让用户在自己的vlog中听到自己喜欢的歌，并且音乐的情绪与视频的情绪相匹配，音乐的转场点与视频的转场点相匹配，以达到更好的vlog创作体验。解决了视频配乐千篇一律的问题和避免了音视频内容关联度弱的现状的出现，进而使得用户可以创作出个性化的高质量的vlog。

参见图2，图2为本申请实施例提供的一种Vlog生成方法的流程示意图。如图2所示，该方法包括：

S201、视频生成装置获取视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号。

其中，视频素材包括一个或多个视频片段。目标Vlog的时长可以是一个准确的时长，比如15s、30s或45s等；也可以是一个时长范围，比如0-30s，30s-1min或者2min-3min等。视频情绪信息用于指示目标Vlog的情绪走向。比如目标Vlog的时长为2min。图3a中的a图示意出了参考转场点。参考转场点包括转场点1和转场点2。在时间轴上，转场点1和转场点2对应的时间分别为45s和75s。视频情绪信息可以通过视频情绪曲线表征。图3a中的b图示意出了目标Vlog的情绪走向的曲线。如图3a中的a图所示，目标Vlog的0-45s，视频情绪是低落；目标Vlog的45s-75s，视频情绪是平稳；目标Vlog的75s-120s，视频情绪是亢奋。

应理解，视频素材可以是存储在视频生成装置的，也可以是视频生成装置从其他装置中获取的。目标Vlog的时长可以是默认值，也可以是用户根据自己的需求输入的。参考转场点可以是默认的，也可以是用户输入的。视频情绪信息可以是默认的，也可以是用户输入的。

图3b示意出了一种用户输入界面。如图3b所示，用户输入界面包括期望时长输入窗口、可以选择关键点的视频时间轴和可以绘制情绪曲线的交互窗口。用户可在期望时长输入窗口输入vlog的期望时长(如果大于用户上传的所有视频素材的总时长会提示让用户重新选择)。期望时长选择完毕后，会在交互界面下方显示用户期望的总时长以及相应的时间轴。用户可在时间轴上选择添加转场点、取消转场点或移动转场点的位置。选择完转场点后，用户可在交互界面的情绪曲线绘制窗口中绘制整个vlog的情绪走向曲线。

可选的，视频生成装置可以为终端设备101或者服务器102。

S202、视频生成装置对视频素材、目标Vlog的时长、参考转场点和视频情绪信息进行处理，以得到剪辑好的视频素材、目标Vlog的转场点和参考背景音乐信息。

其中，参考背景音乐信息包括音乐meta信息，曲式结构、和声进行、音乐情绪走向和乐句乐段切分点。音乐meta信息包括但不限于每分钟节拍数(beat per min，BPM)、音乐风格及拍号。音乐风格也即是音乐类型，比如流行音乐、古典音乐和摇滚音乐等。参考背景音乐信息包括的音乐情绪走向与视频情绪走向相匹配。

在一个示例中，视频生成装置对视频素材、目标Vlog的时长、参考转场点和视频情绪信息进行处理，以得到剪辑好的视频素材、目标Vlog的转场点和参考背景音乐信息是基于已训练的神经网络实现的。具体的，视频生成装置将视频素材、目标Vlog的时长、参考转场点和视频情绪信息输入到已训练好的神经网络中进行处理，以得到剪辑好的视频素材、目标Vlog的转场点和参考背景音乐信息。

在此需要指出的是，目标Vlog的转场点与参考转场点可以是一致的，但是也有是不一致的。原因是：目标Vlog的转场点与背景音乐的重音对应的时间点相匹配，而背景音乐的重音对应的时间点与参考转场点可能不一致，因此视频生成装置将在时间上离参考转场点最近的重音对应的时间点确定为目标Vlog的转场点。

如图4所示，假设目标Vlog的时长为2min，参考转场点包括转场点1(45s)和转场点2(75s)，背景音乐的5个重音分别对应的时间点为，t₁，t₂，t₃，t₄和t₅。从时间轴上来看，离转场点1最近的是时间点t₂，离转场点2最近的是时间点t₅。因此视频生成装置将时间点t₂和时间点t₅确定为目标Vlog的转场点。

在一个可能的实施例中，为了避免按照上述方法确定目标Vlog的转场点和参考背景音乐信息可能不是用户想要的，视频生成装置显示剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息，以供用户查看并确定目标Vlog的转场点和参考背景音乐信息是否是自己想要的。当目标Vlog的转场点和参考背景音乐信息不是用户想要的时，用户可以修改对应的信息。视频生成装置在检测到用户的第一修改指令后，对目标Vlog的转场点进行修改，以得到修改后的目标Vlog的转场点。视频生成装置在检测到用户的第二修改指令时，对参考背景音乐信息进行对应的修改，以得到修改后的背景音乐信息。其中，第一修改指令或第二修改指令包括但不限于触控指令、语音指令、手势指令等。

其中，参考背景音乐信息包括音乐meta信息，曲式结构、和声进行、音乐情绪走向和乐句乐段切分点。修改后的背景音乐信息可以对参考背景音乐信息包括的音乐meta信息，曲式结构、和声进行、音乐情绪走向和乐句乐段切分点中的部分或者全部进行修改得到的。

在一个可能的实施例中，视频生成装置包括显示屏，视频生成装置在显示屏的显示界面上显示剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息，以供用户查看并确定目标Vlog的转场点和参考背景音乐信息是否是自己想要的。在另一个可能的实施例中，视频生成装置没有显示屏，视频生成装置将剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息发送至带有显示屏的其他设备，比如用户的终端设备。其他设备显示剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息，以供用户查看并确定目标Vlog的转场点和参考背景音乐信息是否是自己想要的。当目标Vlog的转场点和参考背景音乐信息不是用户想要的时，用户可以修改对应的信息。其他设备在检测到用户的修改指令后，对目标Vlog的转场点和参考背景音乐信息进行对应的修改，得到修改后的转场点和/或修改后的背景音乐信息。其他设备将修改后的信息发送至视频生成装置。

图5为本实施例提供的一种显示结果示意图。如图5所示，显示界面显示有视频素材的播放顺序，目标Vlog的转场点，背景音乐相关信息等。其中，背景音乐相关信息包括主歌部分音乐信息，间奏部分音乐信息和副歌部分音乐信息。在用户对显示的信息满意时，用户点击显示界面上显示的“采用”图标。视频生成装置在检测到用户针对“采用”图标的操作时，视频生成装置基于目标Vlog的转场点，背景音乐相关信息执行后续流程。若用户对显示的信息不满意时，用户可以修改对应的信息。在一个示例中，用户可以拖拽转场点图标来修改转场点。用户还可以通过点击主歌部分图标、间奏部分图标或者副歌部分图标，然后再弹出的显示界面上修改对应部分的音乐信息，包括但不限于音乐meta信息，曲式结构、和声进行、音乐情绪走向和乐句乐段切分点。在修改完后，用户若对修改后的信息满意时，用户点击显示界面上显示的“采用”图标。视频生成装置在检测到用户针对“采用”图标的操作时，视频生成装置基于修改后的信息执行后续流程。若用户对修改后的信息不满意时，用户可以点击“重新生成”图标。视频生成装置在检测到用户针对“重新生成”图标的操作时，视频生成装置重新执行S201-S202的相关内容，以重新获取剪辑好的视频素材、目标Vlog的转场点和参考背景音乐信息。

S203、视频生成装置对参考音频信号进行分轨和转录处理，以得到参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点。

为了将参考音频信号转换为与剪辑后的视频素材相匹配的音频信号，视频生成装置需要确定参考音频信号的相关信息，比如参考音频信号的midi乐谱及乐句乐段切分点。具体的，视频生成装置对参考音频信号进行分轨处理，以得到多轨音频信号。一首音乐通常由过个乐器产生的音频得到的，或者说一首音乐由多轨音频信号构成，每轨乐器音频信号对应一种乐器。通过对参考音频信号进行分轨处理，可以将构成一首音乐的多轨音频信号。比如音乐A由架子鼓、贝斯、吉他和钢琴演奏得到的。对音乐A对应的音频信号进行分轨处理，可以得到4轨音频信号，分别对应架子鼓、贝斯、吉他和钢琴。

在一个示例中，视频生成装置对参考音频信号进行分轨处理是基于分轨神经网络实现的。具体的，视频生成装置将参考音频信号输入到已训练好的分轨神经网络进行处理，以得到多轨音频信号。

在得到多轨音频信号后，视频生成装置对多轨音频信号进行转录处理，以得到多轨音频信号对应的midi乐谱及乐句乐段切分点。

在一个示例中，视频生成装置对多轨音频信号进行转录处理以得到多轨音频信号是基于转录神经网络实现的。具体的，视频生成装置将多轨音频信号输入到已训练好的转录神经网络中进行处理，以得到多轨音频信号对应的midi乐谱及乐句乐段切分点。可选的，视频生成装置可以是将多轨音频信号同时输入到转录神经网络中进行处理，或者是将一轨音频信号输入到转录神经网络得到该轨音频信号对应的midi乐谱及乐句乐段切分点后，再将下一轨音频信号输入到转录神经网络中进行处理。也就是说，将多轨音频信号输入到转录神经网络中进行处理可以是并行处理，也可以是串行处理。

S204、视频生成装置根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐。

其中，目标Vlog的背景音乐的信息与参考背景音乐信息相匹配，且目标Vlog的背景音乐的转场点与目标Vlog的转场点相匹配。

目标Vlog的背景信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点中的至少一种。目标Vlog的背景音乐的信息与参考背景音乐信息相匹配，包括：

目标Vlog的背景音乐的音乐meta信息与参考背景音乐信息包括的音乐meta信息相匹配，和/或，目标Vlog的背景音乐的曲式结构与参考背景音乐信息包括的曲式结构相匹配，和/或，目标Vlog的背景音乐的和声进行与参考背景音乐信息包括的和声进行相匹配，和/或，目标Vlog的背景音乐的音乐情绪走向与参考背景音乐信息包括的音乐情绪走向相匹配，和/或，目标Vlog的背景音乐的乐句乐段切分点与参考背景音乐信息包括的乐句乐段切分点相匹配。

其中，音乐meta信息包括但不限于BPM、音乐风格和拍号。在一个示例中，目标Vlog的背景音乐的音乐meta信息与参考背景音乐信息包括的音乐meta信息相匹配，可以是目标Vlog的背景音乐的音乐meta信息包括的BPM、音乐风格和拍号中的至少一项与参考背景音乐信息包括的音乐meta信息包括的BPM、音乐风格和拍号相同。在一个示例中，目标Vlog的背景音乐的曲式结构与参考背景音乐信息包括的曲式结构相匹配具体是指：目标Vlog的背景音乐的曲式结构与参考背景音乐信息包括的曲式结构相同。在一个示例中，目标Vlog的背景音乐的和声进行与参考背景音乐信息包括的和声进行相匹配具体是指：目标Vlog的背景音乐的和声进行与参考背景音乐信息包括的和声进行相同。在一个示例中，目标Vlog的背景音乐的音乐情绪走向与参考背景音乐信息包括的音乐情绪走向相匹配具体是指：目标Vlog的背景音乐的音乐情绪走向与参考背景音乐信息包括的音乐情绪走向相同。在一个示例中，目标Vlog的背景音乐的乐句乐段切分点与参考背景音乐信息包括的乐句乐段切分点相匹配具体是指：目标Vlog的背景音乐的乐句乐段切分点与参考背景音乐信息包括的乐句乐段切分点相同。

在一个示例中，目标Vlog的背景音乐的信息与参考背景音乐信息相匹配具体是指：目标Vlog的音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点分别为参考背景音乐信息包括的目标Vlog的音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点。

目标Vlog的背景音乐的转场点与目标Vlog的转场点相匹配，具体是指：目标Vlog的转场点在目标Vlog上对应的时间点与目标Vlog的背景音乐的转场点在目标Vlog的背景音乐上对应的时间相同，或者两者的差值小于预设阈值。一般来说，目标Vlog的时长与目标Vlog的背景音乐的时长是相同的，因此目标Vlog的转场点在目标Vlog上对应的时间点与目标Vlog的背景音乐的转场点在目标Vlog的背景音乐上对应的时间相同。

为了使得参考音频信号与剪辑好的视频素材相匹配，视频生成装置根据多轨音频信号对应的多轨midi乐谱确定参考音频信号的音乐meta信息、曲式结构、和声进行及音乐情绪走向。视频生成装置判断多轨音频信号分别对应的音乐meta信息、曲式结构、和声进行及音乐情绪走向是否分别与参考背景音乐信息包括的音乐meta信息、曲式结构、和声进行、音乐情绪走向相同。若存在不相同的部分，视频生成装置对参考音频信号进行修改，以使参考音频信号分别对应的音乐meta信息、曲式结构、和声进行及音乐情绪走向分别与参考背景音乐信息包括的音乐meta信息、曲式结构、和声进行、音乐情绪走向相同。

比如参考音频信号的曲式结构为总分总，参考背景音乐对应的曲式结构为总总分，视频生成装置按照总分总的曲式结构将参考音频信号分成三部分，然后基于总总分的曲式结构对参考音频信号的三部分进行重组，以得到修改后的音频信号，且修改后的音频信号的曲式结构均为总总分。

再比如，参考音频信号的音乐风格为古典音乐，参考背景音乐信息中包括的音乐风格为流行，视频生成装置对参考音频信号的主旋律进行节奏变化处理和调试变化处理，以得到修改后的参考音频信号，修改后的参考音频信号的风格为流行风格。可选的，视频生成装置还可以对参考音频信号的伴奏声部进行改写，和/或对参考音频信号的配器进行修改。

在此需要说明的是，参考音频信号的配器指的是演奏得到参考音频信号的乐器，对参考音频信号的配器进行修改指的是在参考音频信号中增加一轨或多轨音频信号，和/或，将参考音频信号对应的多轨音频信号中的一轨音频信号或者多轨音频信号删除。比如参考音频信号为古典音乐，是由钢琴和小提琴演奏得到的，参考音频信号包括2轨音频信号，分别对应钢琴和小提琴。参考背景音乐信息包括的音乐风格为流行音乐，视频生成装置可以在参考音频信号中，将小提琴对应的一轨音频信号删除，加入吉他、贝斯和架子鼓对应的3轨音频信号。

在此需要指出的是，若在执行S204之前，若视频生成装置检测到第一修改指令时，视频生成装置根据修改后的目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐；若视频生成装置检测到第二修改指令时，视频生成装置根据目标Vlog的转场点、修改后的参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐；若视频生成装置检测到第一修改指令和第二修改指令时，视频生成装置根据修改后的目标Vlog的转场点、修改后的参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐。具体实现过程可参见S204的相关描述，在此不再叙述。

S205、视频生成装置根据剪辑好的视频素材和目标Vlog的背景音乐得到目标Vlog。

在得到剪辑好的视频素材和目标Vlog的背景音乐后，视频生成装置将剪辑好的视频素材和目标Vlog的背景音乐合成在一起，以得到目标Vlog。

在一个可能的实施例中，视频生成装置在得到目标Vlog后，为了便于用户查看生成的Vlog的效果，视频生成装置在显示界面上显示目标Vlog。其中，如图6所示，显示界面包括视频显示区域、音频显示区域及走带显示区域。视频显示区域用于显示剪辑好的视频素材；音频显示区域用于显示目标Vlog的背景音乐中各个伴奏乐器对应的伴奏音轨及midi音符。用户可以在音频显示区域上通过触控的方式修改和选择伴奏乐器对应的伴奏音轨及midi音符，以得到修改目标Vlog的背景音乐的目的。走带显示区域，用于显示进度条。用户可以通过拖拽进度条查看视频与音频的整体匹配效果。

可以看出，在本申请的方案中，通过将对用户上传的音乐进行风格转换，可以让用户在自己的vlog中听到自己喜欢的歌，并且音乐的情绪与视频的情绪相匹配，音乐的转场点与视频的转场点相匹配，以达到更好的vlog创作体验。通过基于用户选择的视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号生成目标Vlog的背景音乐，使得生成的背景音乐符合用户的个性化需求，解决了视频配乐千篇一律的问题和避免了音视频内容关联度弱的现状的出现，进而使得用户可以创作出个性化的高质量的vlog。

参见图7，图7为本申请实施例提供的一种视频生成装置的结构示意图。如图7所示，该视频生成装置700包括：

获取单元701，用于获取视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号；

确定单元702，用于根据视频素材、目标Vlog的时长、参考转场点和视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息；

分轨转录单元703，用于对参考音频信号进行分轨和转录处理，以得到参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点；

处理单元704，用于根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐，目标Vlog的背景音乐的信息与参考背景音乐信息相匹配，且目标Vlog的背景音乐的转场点与目标Vlog的转场点相匹配；根据剪辑好的视频素材和目标Vlog的背景音乐得到目标Vlog。

在一个可能的实施例中，在根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，处理单元704具体用于：

在一个可能的实施例中，确定单元702具体用于：

在一个可能的实施例中，根据视频素材、目标Vlog的时长、参考转场点和视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，视频生成装置700还包括：

修改单元705，用于在检测用户的第一修改指令后，对目标Vlog的转场点进行修改，以得到修改后的目标Vlog的转场点，

在根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，处理单元704具体用于：

修改单元705，用于在检测到用户的第二修改指令后，对参考背景音乐信息进行修改，以得到修改后的参考背景音乐信息；

在根据目标Vlog的转场点、参考背景音乐信息、参考音频信号的midi乐谱及参考音频信号的乐句乐段切分点对参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，处理单元704用于：

修改单元705，用于在检测到用户的第一修改指令和第二修改指令后，对目标Vlog的转场点击参考背景音乐信息进行修改，以得到修改后的目标Vlog的转场点和修改后的参考背景音乐信息；

在一个可能的实施例中，分轨转录单元703具体用于：

需要说明的是，上述各单元(获取单元701、确定单元702、分轨转录单元703、处理单元704和修改单元705)用于执行上述方法的相关步骤。其中，获取单元701用于实现S201的相关内容，确定单元702用于实现S202的相关内容，分轨转录单元703用于实现S203的相关内容，处理单元704和修改单元705用于实现S204和S205的相关内容。

在本实施例中，视频生成装置700是以单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。此外，以获取单元701、确定单元702、分轨转录单元703、处理单元704和修改单元705可通过图8所示的电子设备的处理器801来实现。

如图8所示电子设备800可以以图8中的结构来实现，该电子设备800包括至少一个处理器801，至少一个存储器802以及至少一个通信接口803。所述处理器801、所述存储器802和所述通信接口803通过所述通信总线连接并完成相互间的通信。可选的，电子设备800还包括显示屏804。

处理器801可以是通用CPU，微处理器，特定应用集成电路(application-specificintegrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路；该处理器801还包括GPU。

通信接口803，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器802可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器802用于存储执行以上方案的应用程序代码，并由处理器801来控制执行。所述处理器801用于执行所述存储器802中存储的应用程序代码。

存储器802存储的代码可执行以上提供的任一种Vlog生成方法，比如：

处理器801用于执行相关代码，以控制在显示屏804的显示界面上显示目标Vlog和参考背景音乐信息，以供用户查看并确定目标Vlog的转场点和参考背景音乐信息是否是自己想要的。当目标Vlog的转场点和参考背景音乐信息不是用户想要的时，用户可以修改对应的信息。处理器801在检测到用户的第一修改指令后，对目标Vlog的转场点进行修改，以得到修改后的目标Vlog的转场点。处理器801在检测到用户的第二修改指令时，对参考背景音乐信息进行对应的修改，以得到修改后的背景音乐信息。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任何一种Vlog生成方法的部分或全部步骤。

本申请实施例还提供一种计算机程序，该计算机程序被执行以实现包括上述方法实施例中记载的任何一种Vlog生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种Vlog生成方法，其特征在于，包括：

获取视频素材、目标Vlog的时长、参考转场点、视频情绪信息及参考音频信号；

根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息；

对所述参考音频信号进行分轨和转录处理，以得到所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点；

根据所述目标Vlog的转场点、所述参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐，所述目标Vlog的背景音乐的信息与所述参考背景音乐信息相匹配，且所述目标Vlog的背景音乐的转场点与所述目标Vlog的转场点相匹配；

根据所述剪辑好的视频素材和所述目标Vlog的背景音乐得到所述目标Vlog。

2.根据权利要求1所述的方法，其特征在于，所述参考背景音乐信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点中的至少一种；

所述目标Vlog的背景音乐的信息与所述参考背景音乐信息相匹配，包括：

所述目标Vlog的背景音乐的音乐meta信息与所述参考背景音乐信息包括的音乐meta信息相匹配，和/或，

所述目标Vlog的背景音乐的曲式结构与所述参考背景音乐信息包括的曲式结构相匹配，和/或，

所述目标Vlog的背景音乐的和声进行与所述参考背景音乐信息包括的和声进行相匹配，和/或，

所述目标Vlog的背景音乐的音乐情绪走向与所述参考背景音乐信息包括的音乐情绪走向相匹配，和/或，

所述目标Vlog的背景音乐的乐句乐段切分点与所述参考背景音乐信息包括的乐句乐段切分点相匹配。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标Vlog的转场点、所述参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐，包括：

根据所述参考音频信号的midi乐谱确定所述参考音频信号的音乐meta信息、曲式结构、和声进行及音乐情绪走向；

判断所述参考音频信号的音乐meta信息、曲式结构、和声进行、音乐情绪走向和乐句乐段切分点是否分别与所述参考背景音乐信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点相匹配；

当所述参考音频信号的音乐meta信息、曲式结构、和声进行、音乐情绪走向和乐句乐段切分点中，存在与所述参考背景音乐信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点不相匹配的部分时，对所述参考音频信号进行修改，以得到目标Vlog的背景音乐。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息，包括：

将所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息输入到已训练好的神经网络中进行处理，以得到所述剪辑好的视频素材、所述目标Vlog的转场点及所述参考背景音乐信息。

5.权利要求1-4任一项所述的方法，其特征在于，所述根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，所述方法还包括：

在检测用户的第一修改指令后，对所述目标Vlog的转场点进行修改，以得到修改后的目标Vlog的转场点，

所述根据所述目标Vlog的转场点、所述参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐，包括：

根据所述修改后的目标Vlog的转场点、所述参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐。

6.权利要求1-4任一项所述的方法，其特征在于，所述根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，所述方法还包括：

在检测到用户的第二修改指令后，对所述参考背景音乐信息进行修改，以得到修改后的参考背景音乐信息；

根据所述目标Vlog的转场点、所述修改后的参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐。

7.权利要求1-4任一项所述的方法，其特征在于，所述根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，所述方法还包括：

在检测到用户的第一修改指令和第二修改指令后，对所述目标Vlog的转场点击所述参考背景音乐信息进行修改，以得到修改后的目标Vlog的转场点和修改后的参考背景音乐信息；

根据所述修改后的目标Vlog的转场点、所述修改后的参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述对所述参考音频信号进行分轨和转录处理，以得到所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点，包括：

将所述参考音频信号输入到已训练好的分轨神经网络中进行处理，以得到多轨音频信号；

将所述多轨音频信号输入到已训练好的转录神经网络中进行处理，以得到多轨音频信号对应的midi乐谱和乐句乐段切分点；

其中，所述参考音频信号的midi乐谱包括所述多轨音频信号对应的midi乐谱，所述参考音频信号的乐句乐段切分点包括所述多轨音频信号对应的乐句乐段切分点。

9.一种视频生成装置，其特征在于，所述装置包括：

确定单元，用于根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息；

分轨转录单元，用于对所述参考音频信号进行分轨和转录处理，以得到所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点；

处理单元，用于根据所述目标Vlog的转场点、所述参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐，所述目标Vlog的背景音乐的信息与所述参考背景音乐信息相匹配，且所述目标Vlog的背景音乐的转场点与所述目标Vlog的转场点相匹配；根据所述剪辑好的视频素材和所述目标Vlog的背景音乐得到所述目标Vlog。

10.根据权利要求9所述的装置，其特征在于，所述参考背景音乐信息包括音乐meta信息、曲式结构、和声进行、音乐情绪走向及乐句乐段切分点中的至少一种；

11.根据权利要求10所述的装置，其特征在于，在所述根据所述目标Vlog的转场点、所述参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，处理单元具体用于：

12.根据权利要求9-11任一项所述的装置，其特征在于，所述确定单元具体用于：

13.权利要求9-12任一项所述的装置，其特征在于，所述根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，所述装置还包括：

修改单元，用于在检测用户的第一修改指令后，对所述目标Vlog的转场点进行修改，以得到修改后的目标Vlog的转场点，

在所述根据所述目标Vlog的转场点、所述参考背景音乐信息、所述参考音频信号的midi乐谱及所述参考音频信号的乐句乐段切分点对所述参考音频信号进行处理，以得到目标Vlog的背景音乐的方面，所述处理单元具体用于：

14.权利要求9-12任一项所述的装置，其特征在于，所述根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，所述装置还包括：

修改单元，用于在检测到用户的第二修改指令后，对所述参考背景音乐信息进行修改，以得到修改后的参考背景音乐信息；

15.权利要求9-12任一项所述的装置，其特征在于，所述根据所述视频素材、所述目标Vlog的时长、所述参考转场点和所述视频情绪信息确定剪辑好的视频素材、目标Vlog的转场点及参考背景音乐信息之后，所述装置还包括：

修改单元，用于在检测到用户的第一修改指令和第二修改指令后，对所述目标Vlog的转场点击所述参考背景音乐信息进行修改，以得到修改后的目标Vlog的转场点和修改后的参考背景音乐信息；

16.根据权利要求9-15任一项所述的装置，其特征在于，所述分轨转录单元具体用于：

17.一种电子设备，包括处理器和存储器，其中，所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以实现如权利要求1-8任一项所述的方法。

18.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-8任一项所述的方法。