CN113676772B

CN113676772B - 视频生成方法及装置

Info

Publication number: CN113676772B
Application number: CN202110937610.4A
Authority: CN
Inventors: 李怡欧; 于雅硕; 贺卯苏; 杜灿生; 袁未发; 马伯男; 马龙; 李滇博
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-08-08
Anticipated expiration: 2041-08-16
Also published as: CN113676772A

Abstract

本申请提供视频生成方法及装置，其中所述视频生成方法包括：接收视频生成请求，根据视频生成请求携带的主题标识确定目标视频素材集，目标视频素材集包括多个视频切片；接收音乐选择指令，从音乐库中确定音乐选择指令对应的目标音乐，并获取目标音乐中针对各目标歌词预先设定的插入位置信息；从目标视频素材集中，确定各目标歌词对应的目标视频切片；根据各目标歌词的插入位置信息，将各目标视频切片相应插入目标音乐中，生成合成视频。实现了自动将目标视频切片插入目标音乐，免去了用户手动调音的时间，使合成视频的制作操作更加简便，节省了用户制作合成视频的时间，提高了制作合成视频的效率。

Description

视频生成方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种视频生成方法。本申请同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术的不断发展，短视频越来越火爆，越来越多的人开始自己制作视频，在视频中添加各种各样的效果，例如鬼畜视频，即以高度同步、快速重复的素材配合背景音乐(BGM，Background music)的节奏来达到喜感效果的视频，或者，通过视频剪辑，用频率极高的重复画面(或声音)组合而成的一段节奏配合音画同步率极高的一类视频。

现有技术中，用户需在剪辑鬼畜视频时，先确定鬼畜视频的主题和作品形式，然后选取背景音乐，搜集与主题相关的视频素材，再根据作品形式使用视频剪辑软件将视频素材进行视频分割形成视频切片，最后将视频切片导入背景音乐，并进行调音，如时长、播放速度等，形成鬼畜视频。

然而上述方法，需要人工切割视频素材、将视频切片的音频与背景音乐卡点对应，且需要用户使用专业视频剪辑软件，导致整个制作过程费时费力，并需要专业视频剪辑软件操作能力、一定的编曲能力和编导能力。因此，亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本申请实施例提供了一种视频生成方法。本申请同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的视频生成效率低的技术缺陷。

根据本申请实施例的第一方面，提供了一种视频生成方法，包括：

接收视频生成请求，根据所述视频生成请求携带的主题标识确定目标视频素材集，所述目标视频素材集包括多个视频切片；

接收音乐选择指令，从音乐库中确定所述音乐选择指令对应的目标音乐，并获取所述目标音乐中针对各目标歌词预先设定的插入位置信息；

从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片；

根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频。

根据本申请实施例的第二方面，提供了一种视频生成装置，包括：

第一接收模块，被配置为接收视频生成请求，根据所述视频生成请求携带的主题标识确定目标视频素材集，所述目标视频素材集包括多个视频切片；

第二接收模块，被配置为接收音乐选择指令，从音乐库中确定所述音乐选择指令对应的目标音乐，并获取所述目标音乐中针对各目标歌词预先设定的插入位置信息；

确定模块，被配置为从所述多个视频切片中，确定所述各目标歌词对应的目标视频切片；

生成模块，被配置为根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述视频生成方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述视频生成方法的步骤。

本申请提供的视频生成方法，接收视频生成请求，根据所述视频生成请求携带的主题标识确定目标视频素材集，所述目标视频素材集包括多个视频切片；接收音乐选择指令，从音乐库中确定所述音乐选择指令对应的目标音乐，并获取所述目标音乐中针对各目标歌词预先设定的插入位置信息；从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片；根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频。先通过主题标识确定包含多个视频切片的目标视频素材集，然后根据音乐选择指令确定目标音乐，获取目标音乐中针对各目标歌词预先设定的插入位置信息，然后根据各目标歌词的插入位置信息，将目标视频切片按需的自动插入目标音乐，生成合成视频，实现了自动将目标视频切片插入目标音乐，免去了用户手动调音的时间，使合成视频的制作操作简便，节省了用户制作合成视频的时间，提高了制作合成视频的效率。

附图说明

图1是本申请一实施例提供的一种视频生成方法的流程图；

图2A是本申请一实施例提供的一种视频编辑器的视频素材集选择页面的示意图；

图2B是本申请一实施例提供的另一种视频编辑器的视频素材集选择页面的示意图；

图3是本申请一实施例提供的一种目标视频素材集中视频切片的示意图；

图4A是本申请一实施例提供的一种视频预览页面的示意图；

图4B是本申请一实施例提供的一种音乐选择页面的示意图；

图5A是本申请一实施例提供的一种音频内容识别的示意图；

图5B是本申请一实施例提供的一种字视频切片的示意图；

图5C是本申请一实施例提供的一种词视频切片的示意图；

图6A是本申请一实施例提供的一种调整韵母发音时长与声母发音时长的示意图；

图6B是本申请一实施例提供的另一种调整韵母发音时长与声母发音时长的示意图；

图7A是本申请一实施例提供的一种视频合成页面的示意图；

图7B是本申请一实施例提供的另一种视频合成页面的示意图；

图7C是本申请一实施例提供的一种句歌词选择页面的意图；

图7D是本申请一实施例提供的一种句歌词编辑页面的意图；

图7E是本申请一实施例提供的另一种句歌词编辑页面的意图；

图7F是本申请一实施例提供的再一种句歌词编辑页面的意图；

图8A是本申请一实施例提供的一种目标视频素材集中片头视频的示意图；

图8B是本申请一实施例提供的一种插入片头视频的示意图；

图9A是本申请一实施例提供的一种搜索匹配的示意图；

图9B是本申请一实施例提供的一种库中素材的示意图；

图9C是本申请一实施例提供的一种插入片尾视频的示意图；

图10是本申请一实施例提供的一种应用于鬼畜视频的视频生成方法的处理流程图；

图11是本申请一实施例提供的一种视频生成装置的结构示意图；

图12是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

合成视频：合成视频具有一个主题，通常为影视动画作品、广告等；整体效果为主题中一个或多个人物角色通过对原作品的重新剪辑配合背景音乐的节奏使用无变调仅进行打散重组的原声进行说唱。

视频素材集及视频：每个视频素材集具有不同的主题，通常为鬼畜人物等；视频素材集包含从相同原作品中剪辑出来的多个片头视频和普通的视频，可对视频以句、词或字为单位进行切片，形成视频切片；包含视频画面、声音、动作等内容，包含具有实际含义的台词、对应的人物口型和发音，可以通过人工智能识别和人工复审的方式对每个字的起点、终点和声韵分割线位置进行标注；

音乐：是指官方提供的一种音乐模板，是一种对一段纯音乐进行标注，标记点对应于给这段音乐填入歌词时每个字的声韵分割线或句末位置，即标注了句子数和每句对应字数；音乐包含片头和片尾，这两个阶段无标记点，配合上文无台词的片头视频；

视频编辑器：用户选择一个视频素材集，然后选择一个音乐；用户在视频编辑器中可以使用视频素材集包中的视频以整句填词、单字替换等形式填入音乐中；填词时将自动对齐视频切片的标记与音乐的标记。

在本申请中，提供了一种视频生成方法，本申请同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种视频生成方法的流程图，具体包括以下步骤：

步骤102：接收视频生成请求，根据所述视频生成请求携带的主题标识确定目标视频素材集，所述目标视频素材集包括多个视频切片。

具体的，视频生成请求是指用户在视频编辑器上进行选择制作视频时选择目标视频素材集而生成的请求；主题标识是指用户选择的目标视频素材集的主题对应的标识，可以是主题名称，还可以是主题图片、主题代号等；视频切片是指将某些视频进行逐字和/或词进行切分得到的视频片段，视频切片中最少包含一个字的发音。。

实际应用中，用户可以通过视频编辑器来制作视频。用户在进行合成视频制作时，可以在视频编辑器的视频素材集选择页面选择其需要的主题的视频素材集，也即目标视频。当用户点击其选择的目标视频素材集之后，此时，本地将接收携带有主题标识的视频生成请求，进一步根据主题标识确定用户选择的目标视频素材集，目标视频素材集包括多个视频切片。

如图2A所示，图2A示出了本申请一实施例提供的一种视频编辑器的视频素材集选择页面的示意图，用户在视频制作平台的首页点击视频编辑器入口，进入视频编辑器的视频素材集选择页面，该视频素材集选择页面左上方显示有视频编辑器的退出按键；在退出按键的下方显示标题——视频编辑器；在标题下方显示有合成视频制作的步骤预览图：步骤1选择视频素材集、步骤2选择音乐和步骤3合成视频；中下部为视频素材集选择区，视频素材集选择区展示有多个视频素材集，视频素材集中可以显示主题名称、封面图，视频素材集的排序根据后台配置展示，视频素材集选择区可向上滑动浏览，滑动时只有视频素材集选择区的视频素材集滑动，视频素材集选择页面的其他部分不跟随滑动。

为了提高确定目标视频素材集的准确度，本地可以根据主题标识去确定目标视频库，再根据用户的视频素材集选择指令从目标视频库中确定目标视频素材，也即所述根据所述视频生成请求携带的主题标识确定目标视频素材集的具体实现过程可以如下：

根据所述主题标识确定目标视频库，所述目标视频库中包括视频素材集；

接收视频素材集选择指令，所述视频素材集选择指令携带有视频素材集标识；

从所述目标视频库中确定与所述视频素材集标识对应的目标视频素材集。

具体的，视频素材集标识是指表征目标视频素材集的标识，可以是目标视频素材集的名称，可以是目标视频素材集在目标视频库中的排序；目标视频库中是指包含至少一个视频素材集的集合，目标视频库的主题与主题标识相对应，也即目标视频库中的各视频素材集的主题也均于主题标识相对应。

实际应用中，可以先根据主题标识确定包含至少一个视频素材集的且与主题标识对应的目标视频库；进一步，根据用户在目标视频库中选择目标视频素材的操作，也即接收携带有视频素材集标识的视频素材集选择指令，从目标视频库中确定与视频素材集标识对应的目标视频素材集，这样快速地、精准得确定用户想要的目标视频素材集。如此，可以有效地提高确定目标视频的速度和准确性，进一步提高视频生成的效率。

例如，主题标识为“季节”，根据“季节”确定主题标识为“季节”的目标视频库；进一步地，该目标视频库中包含四个视频素材集：“春”、“夏”、“秋”和“冬”。视频素材集标识为视频素材集名称，视频素材集选择指令中携带有视频素材集标识“秋”，则可以根据“秋”，将视频名称为“秋”视频确定为目标视频素材集；又如，视频素材集标识为目标视频素材集在目标视频素材库中的排序，视频素材集选择指令中携带有视频素材集标识“2”，则可以该目标视频素材库下排序第2的视频素材集“夏”确定为目标视频素材集。

需要说明的是，如果用户在上次合成视频制作时有保存的记录，在进入视频素材集选择页面时，在视频素材集选择页面上将弹窗提醒用户，是否继续上次未完成的，如图2B所示，图2B示出本申请一实施例提供的另一种视频编辑器的视频素材集选择页面的示意图：用户进入视频素材集选择页面时，在视频素材集选择页面上将出现一个弹窗，包括提醒内容“是否编辑之前的项目”、“舍弃”按键和“继续”按键，当用户点击“继续”按键，进入上一次合成视频制作时离开前的页面和状态；当用户点击“舍弃”按键，则清空用户上次合成视频制作的记录，关闭弹窗，并进入如图2A所示的视频素材集选择页面。

此外，为保证合成视频的频闪不过度，所述目标视频素材集中的所述多个视频切片的画面的背景统一，各视频切片的画面的背景之间的相似度大于预设的相似度阈值；所述画面或者所述画面中的目标对象的位置变化量小于预设位置阈值。

步骤104：接收音乐选择指令，从音乐库中确定所述音乐选择指令对应的目标音乐，并获取所述目标音乐中针对各目标歌词预先设定的插入位置信息。

在根据接收到的视频生成请求携带的主题标识，确定目标视频素材集之后，进一步地，接收用户的音乐选择指令，然后根据音乐选择指令确定目标音乐，并获取目标音乐中针对各目标歌词预先设定的插入位置信息。

具体的，音乐选择指令是指用户在音乐库中选择音乐而生成的指令；目标音乐为用户选择的音乐；目标歌词可以是一个字，如“啊”，还可以是一个词，如“天下无敌”；插入位置信息是指每个目标歌词预先设置在目标音乐中的位置信息，比如目标歌词“我们”目标音乐中的第3秒至第4秒，又如目标歌词“太阳”目标音乐中的第15帧至第17帧。

实际应用中，用户在视频素材集选择页面上选择了目标视频素材集之后，将跳转至针对目标视频素材集的视频预览页面。在视频选择页上有多个与主题标识相关的视频切片，如图3所示，图3示出了本申请一实施例提供的一种目标视频素材集中视频切片的示意图：视频切片A1包括画面1和音频“没学过啊”，视频切片A2包括画面2和音频“你们没有学过啊”。用户在该视频预览页面上可以浏览视频切片。进一步地，在浏览视频切片之后，用户在音乐选择页面选择音乐作为合成视频的背景音乐，也即在音乐库中选择目标音乐，此时本地将接收到音乐选择指令，进一步获取目标音乐中针对各目标歌词预先设定的插入位置信息。

如图4A所示，图4A示出了本申请一实施例提供的一种视频预览页面的示意图：用户点击图2A中的视频素材集6之后，进入视频素材集6对应的视频预览页面，其中视频预览页面中的视频切片由运营后台上传，根据后台配置的排序依次播放。该视频预览页面左上方显示有返回至视频素材集选择页面的返回按键，该返回按键右侧有视频预览页面标题“预览视频-视频素材集6”；该视频预览页面标题右侧有进入音乐选择页面的“下一步”按键；视频预览页面标题下方设置有播放区，其功能与常规播放器相似，用户可以点击播放/暂停按键可播放与暂停预览视频，进度条根据每个视频的时间长度分段展示，点击可拖动进度条，进度条头部显示当前播放的时间点，尾部显示该视频预览页面所有视频的累加长度。视频预览过程中可点击全屏/小屏按键可全屏预览/关闭全屏预览。视频预览页面下方有字幕区，显示有各视频的字幕，可以根据播放区当前播放的画面，自动滚动定位到对应的字幕(显示选中态)；用户可手动滚动字幕到当前基准线后，点击字幕置为选中态，视频画面对应从选中的句字的起始点开始播放。

当用户视频预览页面点击“下一步”按键后，进入音乐选择页面，如图4B所述，图4B示出了本申请一实施例提供的一种音乐选择页面的示意图：该音乐选择页面左上方显示有返回至视频预览页面的返回按键；该返回按键右侧有音乐选择页面标题“选择音乐”；音乐选择页面标题设置有音乐列表，也即音乐库，用户根据音乐排序查看音乐的封面、标题、作者、音乐时长等信息；还可以点击音乐后试听按键——耳机，试听该音乐，并展开显示音轨和显示使用按键，如点击音乐2后试听按键——耳机形状的按键，试听音乐2，并展开音乐2的显示音轨和显示使用按键；音轨头部显示当前黑色指针所在时间点，拖动轨道可快速选择新的起始点进行试听，点击使用选择音乐，然后进入视频合成页面。

需要说明的是，获取所述目标音乐中针对各目标歌词预先设定的插入位置信息时，可以将目标音乐进行音乐节奏识别，根据音乐节奏对目标音乐进行打标记，标记点对应于各目标歌词填入目标音乐时的插入位置信息，也可以是标记点对应于各目标歌词中的每个字填入目标音乐时的插入位置信息，此时插入位置信息可以包括每个字的声韵分割线和结束位置等信息。此外，目标音乐中针对各目标歌词预先设定的插入位置信息，可以携带在目标音乐中，还可以存储在插入位置信息库，根据目标音乐，既可以从插入位置信息库中获取该目标音乐中针对各目标歌词预先设定的插入位置信息。

在本申请的一个实施例中，为了便于用户填写自己需要的歌词，提高用户体验性。用户可以在该先选择自己想要的歌曲或者节奏对应的初始音乐，然后根据个人需求在该初始音乐的歌词进行添加、删除、替换等修改操作，也即所述从音乐库中确定所述音乐选择指令对应的目标音乐，具体实现过程如下：

从所述音乐库中获取与所述音乐选择指令对应的初始音乐，所述初始音乐携带有预先添加的各初始歌词；

接收用户根据所述目标视频素材集对所述各初始歌词的修改操作，确定所述各目标歌词；

将所述各目标歌词添加至所述初始音乐，得到所述目标音乐。

具体的，初始音乐是指用户选择未修改各初始歌词的音乐，其中初始音乐标注了歌词中每个字该出现的时间点或者位置；修改操作包括添加、操作、替换等操作。

实际应用中，用户可以在音乐选择页面选择制作视频需要的初始音乐，也即音乐库中获取与所述音乐选择指令对应的初始音乐，其中初始音乐携带有预先添加的各初始歌词，如此可以清晰地引导用户如何填写各目标歌词。进一步地，用户可以根据目标视频素材集，也即目标视频素材集中各视频切片的台词或者音频对初始内容进行添加、操作、替换等修改，获得各目标歌词。在点击确认按键之后，即在将各目标歌词添加至初始音乐中，即得到目标音乐。

例如，用户A选择了初始音乐m1，初始音乐m1携带的各初始歌词：“你”、“说”和“什么”，即初始歌词为“你说什么”，然后用户将各初始歌词进行修改，得到各目标歌词“你”、“什么”和“你”，即目标歌词为“你什么你”并点击确认之后，将各目标歌词“你”、“什么”和“你”添加至初始音乐中，生成目标音乐。

在本申请的一个实施例中，从所述音乐库中获取与所述音乐选择指令对应的初始音乐也可以没有携带歌词，用户可以直接根据目标视频素材集，在初始音乐中添加各目标歌词歌词，进而得到所述目标音乐。

为了使歌词与音乐节奏更加匹配、吻合，提高合成视频的品质，在选择初始音乐时，需要对初始音乐的节奏进行打标记，标记点对应于给这段音乐填入歌词时每个字的位置信息，如韵母和句末位置。因此，在音乐选择指令携带有音乐标识的情况下，所述从所述音乐库中获取与所述音乐选择指令对应的初始音乐的具体实现过程可以如下：

从所述音乐库中获取与所述音乐标识对应的备选音乐；

将所述备选音乐进行音乐节奏识别；

根据识别结果，在所述备选音乐中标记预填入歌词每个字的第二位置信息；

根据所述目标视频素材集确定各初始歌词，并根据所述第二位置信息，在所述备选音乐中填入所述各初始歌词，生成初始音乐。

具体的，音乐标识是指表征备选音乐的标识，可以是备选音乐的名称，可以是备选音乐在音乐库中的排序；备选音乐是指用户选择的且未填写歌词(各初始歌词)的音乐；第二位置信息是指预填入歌词每个字在备选音乐中的位置对应的信息，可以是起始位置信息、声韵分割线的位置信息、句末位置信息、时间信息、帧数信息等，比如预填入歌词的第三个字在备选音乐中的第3秒至第4秒，如预填入歌词的第十个字在备选音乐中的第15帧至第17帧。

实际应用中，音乐选择指令中是携带有音乐标识的，这样快速地根据音乐标识确定用户在音乐中选择的备选音乐。如此，可以有效地提高确定备选音乐的速度和准确性，进一步提高视频生成的效率。在获取了备选音乐之后，对该备选音乐的音乐节奏进行识别，然后根据识别结果，在备选音乐中进行打标，也即在备选音乐中标记预填入歌词每个字的第二位置信息。根据目标视频素材集确定各初始歌词，进而根据第二位置信息在备选音乐中填入各初始歌词，进而生成初始音乐。

需要说明的是，根据所述第二位置信息，在所述备选音乐中填入各初始歌词时，可以指根据第二位置信息，填入部分初始歌词，如与填入歌词有25句歌词，可以只填写前两句歌词，作为各初始歌词。

步骤106：从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片。

在接收音乐选择指令，并从音乐库中确定所述音乐选择指令对应的目标音乐和获取所述目标音乐中针对各目标歌词预先设定的插入位置信息的基础上，进一步地，从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片。

实际应用中，为了提高合成视频的精准度以及制作合成视频的效率，需要根据各目标歌词，确定目标视频素材集包含的多个视频切片中的目标视频切片。可以根据目标视频素材集各视频切片的音频与各目标歌词进行匹配，匹配成功的视频切片则为目标视频切片。

例如，目标歌词有“高山流水”和“繁荣昌盛”，则将目标视频素材集中音频为“高山流水”或者“繁荣昌盛”的视频切片，确定为目标视频切片。

此外，为了提高后续合成视频制作的精确度，从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片之前，需要提前制作目标视频素材集。在对制作目标视频素材集时，先根据主题标识确定目标视频，再根据该目标视频的音频内容，将目标视频进行切片，从而获得视频切片。

例如，目标视频的音频内容为“我爱祖国”，根据“我”、“爱”、“祖”、“国”和“祖国”将该目标视频进行切片，得到音频分别为“我”、“爱”、“祖”、“国”和“祖国”的5个视频切片。各目标歌词分别为“爱”、“祖国”，则将音频分别为“爱”和“祖国”的2个视频切片确定为目标视频切片。

在本实施例的一个或多个实施方式中，所述从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片之前，还包括：

获取与所述主题标识对应的目标视频，并提取所述目标视频的音频内容；

对所述音频内容中的每个字进行识别，确定所述每个字的第一位置信息；

根据所述第一位置信息，将所述目标视频分割为多个视频切片；

将所述多个视频切片添加至所述目标视频素材。

具体的，音频内容是指目标视频的声音部分；第一位置信息是指音频内容中的每个字在目标视频中的位置信息，比如“花”目标视频中的第10秒至第11秒，又如“你”目标视频中的第13帧至第14帧。

为了提高制作目标视频素材集的准确度，对制作目标视频素材集时，需要根据主题标识确定目标视频；进一步地，为了提高切片的准确度，需要对目标视频的音轨内容进行语音识别，确定音频内容中每个字的第一位置信息，再根据第一位置信息进行切片，也即提取所述目标视频的音频内容；对所述音频内容中的每个字进行语音识别，确定所述音频内容中每个字的在所述目标视频中的第一位置信息；根据所述第一位置信息，将所述目标视频进行分割，得到多个视频切片，然后将得到的视频切片添加至目标视频素材集。

实际应用中，可以通过音频提取操作将目标视频的音频提取出来，即提取目标视频的音频内容。然后通过人工智能(AI，Artificial Intelligence)技术，如自动语音识别(ASR，Automatic Speech Recognition)技术对音频内容中的字进行识别，从而确定出音频内容中每个字的在所述目标视频中的第一位置信息，其中，第一位置信息包括开始位置、结束位置。进一步地，分别根据每个字的开始位置和结束位置，将预设视频段进行分割，生成多个视频切片。

例如，音频内容为“我爱祖国”，对音频内容中的每个字进行识别，识别结果如表1所示，确定“我爱祖国”四个字的第一位置信息，在目标视频为10秒的情况下，该目标视频段可以被分割为第1-3秒包含“我”的第一视频切片、第4-5秒包含“爱”的第二视频切片、第6-7秒包含“祖”的第三视频切片、第8-10秒包含“国”的第四视频切片和第6-10秒包含“祖国”的第五视频切片。

表1音频内容中字的第一位置信息

第一位置信息还可以包括声韵分割线，如图5A所示，图5A示出了本申请一实施例提供的一种音频内容识别的示意图：音频内容为“你们没有学过啊”，识别时确定每个字的拼音、字发音的开始位置、结束位置以及声韵分割线。即目标视频中可以包含视频的画面、音频、识别结果(注音)以及音频内容中每个字对应的开始位置、结束位置以及声韵分割线。

需要说明的是，为保证合成视频的频闪不过度，目标视频的背景较统一，也即镜头画面或者人物的位置不改变或少改变；对于镜头画面有改变的，台词改动要少；对目标视频分割时，需要保证音频内容出现某个字时，画面具有连贯性。

此外，在对目标视频的音频内容中的每个字进行识别时，可以将音频转文字，然后标注每个字的开始位置、结束位置，并识别文字中的词组，即音频内容中词，视频切片包括字视频切片和词视频切片：字视频切片只能为目标视频中出现过的单字，如图5B所示，图5B示出了本申请一实施例提供的一种字视频切片的示意图：字视频切片除了包含切片后视频的画面、内容、字标注以及字对应的开始位置、结束位置以及声韵分割线外，还包含来源的目标视频A2。词视频切片只能为目标视频切片中出现过的词(由多个连续的字组成)，如图5C所示，图5C示出了本申请一实施例提供的一种词视频切片的示意图：词视频切片包含切片后视频的画面、内容、字标注以及来源的目标视频A2。

步骤108：根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频。

在根据目标视频的音频内容，将目标视频分割为多个视频切片，从多个视频切片中，确定所述各目标歌词对应的目标视频切片的基础上，进一步地，根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频。

实际应用中，在对目标视频进行分割之后，可以将获得的目标视频切片插入对应的目标歌词的插入位置信息所指向的目标音乐中，进而生成合成视频。

例如，各目标歌词分别为“爱”、“祖国”，目标视频切片为音频为“爱”的第一目标视频切片和音频为“祖国”的第二视频切片，则根据目标歌词“爱”的插入位置信息，将第一目标视频切片插入目标音乐，根据目标歌词“祖国”的插入位置信息，将第二目标视频切片插入目标音乐。

在本实施例的一个或多个实施方式中，根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，可以为：

根据所述各目标歌词的插入位置信息和目标歌词的数量，将所述各目标视频切片进行调速和/或重组，插入所述目标音乐中。

实际应用中，在将各目标视频切片相应插入目标音乐时，首先要根据各目标歌词的插入位置信息确定各目标视频切片的插入位置信息，再结合目标歌词的数量进一步确定各目标视频切片的排列、重组，为了各目标视频切片完整契合，对各目标视频切片进行调速，也即将各目标视频切片分别进行快放或慢放。

在本实施例的一个或多个实施方式中，所述插入位置信息包括所述各目标歌词中每个字的声韵分割线。为了使合成视频的斜街更加连贯，提高合成视频的精准度，可以根据各目标歌词中每个字的声韵分割线和所述各目标视频切片中每个字的声韵分割线，将各目标视频切片插入目标音乐中，具体实现过程如下：

识别各目标视频切片中每个字的声韵分割线和所述各目标歌词中每个字的声韵分割线；

根据所述各目标歌词中每个字的声韵分割线和所述各目标视频切片中每个字的声韵分割线，将所述各目标视频切片插入所述目标音乐中。

具体的，所述声韵分割线是指字在发音时声母与韵母分割的位置，也即字在发音时声母结束的位置或者韵母开始的位置。

实际应用中，需要在根据所述各目标歌词在所述目标音乐中的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频之前，利用声学模型识别每一个目标视频切片中每个字的声韵分割线，以及各目标歌词中每个字的声韵分割线，然后将某个目标视频切片中的字的声韵分割线插入目标音乐中该字对应的目标歌词中对应字的声韵分割线所指向位置。

可选地，所述根据所述各目标歌词中每个字的声韵分割线和所述各目标视频切片中每个字的声韵分割线，将所述各目标视频切片插入所述目标音乐中，具体实现过程可以如下：

将第一目标视频切片中目标字的声韵分割线，和与所述目标字对应的目标歌词中的字的声韵分割线对齐，所述第一目标视频切片为各目标视频切片中的任意一个，所述目标字为所述第一目标视频切片中的任意一个字；

调整所述各目标视频切片的每个字的发音时长，将所述各目标视频切片进行拼接。

具体的，发音时长是指某给字在目标视频切片中发音时所用的时长。

实际应用中，在确定了各目标视频切片中每个字的声韵分割线和各目标歌词中每个字的声韵分割线后，只需要将某个目标视频切片中某个字的声韵分割线，与该目标视频切片对应的目标歌词中的该字对应的字的声韵分割线，在目标音乐中对齐，进一步调整该目标视频切片中该字的发音时长；然后根据上述过程，继续插入、对齐并调整该目标视频切片中其他字，以及其他目标视频切片中的字，直至将各目标视频切片拼接起来。或者，将某个目标视频切片中某个字的声韵分割线，与该目标视频切片对应的目标歌词中的该字对应的字的声韵分割线，在目标音乐中对齐，然后根据上述过程，继续对齐该目标视频切片中其他字，以及其他目标视频切片中的字，最后调整每个目标视频切片中每个字的发音时长，将各目标视频切片拼接起来。如此可以使合成视频的斜街更加连贯，提高合成视频的精准度和品质。

沿用上例，将音频为“爱”的第一目标视频切片插入目标音乐时，将第一视频切片中“爱”的声韵分割线与目标歌词中“爱”的声韵分割线对齐；将音频为“祖国”的第二目标视频切片插入目标音乐时，将第二视频切片中“组”的声韵分割线与目标歌词中“组”的声韵分割线对齐，以及需要将第二视频切片中“国”的声韵分割线与目标歌词中“国”的声韵分割线对齐。然后，分别调整第一目标视频切片中“爱”的发音时长、第二目标视频切片中“祖”和“国”的发音时长。

为了避免合成视频声音上不通顺、有卡顿的问题，可以根据各目标歌词中每个字的声韵分割线去调整各目标视频切片的每个字的发音时长，也即所述调整所述各目标视频切片的每个字的发音时长，可以如下：

从各目标歌词中的第一个字开始，依次确定当前字的声韵分割线与下一个字的声韵分割线之间的声韵分割时长；

确定所述当前字对应的目标视频切片中对应字的韵母发音时长，以及所述下一个字对应的目标视频切片中对应字的声母发音时长；

根据所述声韵分割时长、所述韵母发音时长和所述声母发音时长，调整所述韵母发音时长与所述声母发音时长。

具体的，声韵分割时长是指各目标歌词中相邻两个字的神韵分割线之间的时长。

实际应用中，在将各目标视频切片插入目标音乐后，也即将目标视频切片中目标字的声韵分割线，和与目标字对应的目标歌词中的字的声韵分割线对齐后，需要根据目标音乐中各目标歌词中相邻两个字的声韵分割线确定该相邻两个字的声韵分割时长，然后基于该声韵分割时长、相邻两个字中前一个字对应的目标视频切片中对应字的韵母发音时长，以及相邻两个字中后一个字对应的目标视频切片中对应字的声母发音时长，确定调整策略，调整相邻两个字中前一个字对应的目标视频切片中对应字的韵母发音时长和相邻两个字中后一个字对应的目标视频切片中对应字的声母发音时长。

例如，各目标歌词分别为“爱”、“祖”和“国”，“爱”和“祖”相邻，根据目标歌词“爱”的声韵分割线和“祖”的声韵分割线，确定“爱”和“祖”的声韵分割时长，然后确定目标歌词“爱”对应的目标视频切片中“爱”对应的字的韵母发音时长，以及目标歌词“祖”对应的目标视频切片中“祖”对应的字的声母发音时长，根据声韵分割时长、韵母发音时长和声母发音时长，调整目标歌词“爱”对应的目标视频切片中“爱”对应的字的韵母发音时长，和目标歌词“祖”对应的目标视频切片中“祖”对应的字的声母发音时长。

可选地，所述根据所述声韵分割时长、所述韵母发音时长和所述声母发音时长，调整所述韵母发音时长与所述声母发音时长，具体实现过程可以如下：

在所述声韵分割时长大于所述韵母发音时长与所述声母发音时长之和的情况下，拉伸所述韵母发音时长，直至拉伸后的所述韵母发音时长与所述声母发音时长之和等于所述声韵分割时长；

在所述声韵分割时长等于所述韵母发音时长与所述声母发音时长之和的情况下，保持所述韵母发音时长与所述声母发音时长不变；

在所述声韵分割时长小于所述韵母发音时长与所述声母发音时长之和的情况下，等比压缩所述韵母发音时长和所述声母发音时长，直至压缩后的所述韵母发音时长与压缩后的所述声母发音时长之和等于所述声韵分割时长。

实际应用中，可以先确定韵母发音时长与声母发音时长之和，也即时长和，当声韵分割时长大于时长和时，说明韵母发音时长对应的韵母发音与声母发音时长对应的声母发音之间有空隙，需要将韵母发音时长进行拉伸，也即韵母发音与声母发音斜街起来，也即使拉伸后的韵母发音时长与声母发音时长之和等于声韵分割时长；当声韵分割时长等于时长和时，说明韵母发音时长对应的韵母发音与声母发音时长对应的声母发音之间刚好斜街上，此时无需调整韵母发音时长或所述声母发音时长；当声韵分割时长小于时长和时，说明韵母发音时长对应的韵母发音与声母发音时长对应的声母发音之间部分重叠，需要等比例压缩韵母发音时长与声母发音时长，例如将韵母发音时长压缩至原来的三分之一、同时将声母发音时长也压缩至原来的三分之一，使也即韵母发音与声母发音斜街起来，也即使压缩后的韵母发音时长与声母发音时长之和等于声韵分割时长。

需要说明的是，在上述其情况下调整(拉伸或等比压缩)韵母发音时长与所述声母发音时长时，需要同步调整韵母发音时长与所述声母发音时长对应的画面，也即实现画面与声音的同步。

如图6A所示，图6A示出了本申请一实施例提供的一种调整韵母发音时长与声母发音时长的示意图：有两个视频切片，其中一个来源A6，音频内容为“我”，包含画面和声音，另一个来源A2，音频内容为“们”，也包含画面和声音；将视频切片“我”的声韵分割线与目标音乐中的目标歌词中“我”声韵分割线对齐；将视频切片“们”的声韵分割线与目标音乐中的目标歌词中“们”声韵分割线对齐，然后根据声韵分割时长调整两个视频切片的韵母发音时长和声母发音时长时，同时同步画面，也即实现画面与声音的同步。

由于歌词内容，也即各目标歌词是由多句歌词组成的，在某一句歌词的句尾与下一句歌词的句头也按照上述方法进行调整韵母发音时长与声母发音时长时，会使合成视频没有断句的感觉，就像一句很长台词的视频，将降低用户的体验感。因此，此时可以按照如下方式调整韵母发音时长、声母发音时长，以及韵母发音时长对应的画面：

在所述当前字为指定句歌词的最后一个字的情况下，将所述最后一个字的韵母发音时长拉伸至所述指定句歌词的句尾，将所述最后一个字的韵母发音时长对应的画面拉伸至下一句歌词的第一个字的起点，所述指定句歌词为所述各目标歌词中的任意一句歌词。

具体的，指定句歌词是指各目标歌词中的某一句歌词，如各目标歌词为“我有一条裙子，它是蓝色的”，则指定句歌词可以是“我有一条裙子”，也可以是“它是蓝色的”；最后一个字如“我有一条裙子”中的“子”，又如“它是蓝色的”中的“的”。

实际应用中，当到达某一句歌词的句子结束点时，也即句尾，将前最后一个字，也即该句歌词的最后一个字的韵母发音时长拉伸至句尾，此时韵母发音时长对应声音延长至句子结束点处。同时需要将韵母发音时长对应的画面则延长到下一个字的起点，也即下一句歌词的第一个字的起点。

如图6B所示，图6B示出了本申请一实施例提供的另一种调整韵母发音时长与声母发音时长的示意图：有两个视频切片，其中一个来源A2，音频内容为“呀”，包含画面和声音，另一个来源A1，音频内容为“你”，也包含画面和声音；将视频切片“呀”的声韵分割线与目标音乐中的目标歌词“呀”声韵分割线对齐；将视频切片“你”的声韵分割线与目标音乐中的目标歌词“你”声韵分割线对齐。由于目标音乐中的目标歌词“呀”是一句歌词的最后一个字，需要将视频切片“呀”韵母发音时长拉伸至句尾，将视频切片“呀”韵母发音时长对应的画面拉伸至目标音乐中目标歌词“你”的起点。

根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频时，用户可以对各目标歌词以及目标视频进行删除、替换、添加等操作。如图7A所示，图7A示出了本申请一实施例提供的一种视频合成页面的示意图：视频合成页面左上方显示有返回至音乐选择页面的返回按键，该返回按键右侧有视频合成页面标题“合成视频”；该视频合成页面标题右侧有“继续编辑”按键和“导出”按键，视频合成页面标题下方设置有播放区，其功能与常规播放器相似，用户可以点击播放/暂停可播放与暂停预览，进度条根据目标音乐的时间长度完整展示，点击可拖动进度条，进度条头部显示当前时间点，尾部显示整体目标音乐的时间长度；点击全屏/小屏按键可以全屏预览/关闭全屏预览。视频合成页面中下方为歌词内容预览区，该区域操作可与上方播放区交互；用户进入视频合成页面时，自动带入目标音乐在目标视频素材集的主题下的预先添加前两句歌词，即预先添加的各初始歌词；用户点击播放区的播放按键，自动播放拼接好的前奏与前两句播放时对应歌词内容预览区的句歌词自动高亮；若用户想添加句歌词，可以点击歌词内容预览区的“点击选择句歌词”，进入句歌词选择页面，跳转时需要带上当前句歌词所需要的字数；若想编辑句歌词：点击对应句歌词右边的编辑按键——笔和纸的图标，进入句歌词编辑页面。

如图7B所示，图7B示出了本申请一实施例提供的另一种视频合成页面的示意图：当播放到没有填写句歌词的地方时，可继续播放目标音乐，画面显示提醒“点击下方输入框选择句歌词”，此时歌词内容预览区对应句歌词的输入框高亮显示；用户点击歌词内容预览区句歌词前的播放按键，可快速定位到对应歌词内容预览区的该句歌词的起始点开始预览播放；若当预览合成的句歌词还在被客户端处理时，视频合成页面显示为加载状态。

如图7C所示，图7C示出了本申请一实施例提供的一种句歌词选择页面的意图：用户从视频合成页面点击歌词内容预览区的“点击选择句歌词”进入句歌词选择页面，歌词选择页面左上方显示有退出至视频合成页面的退出按键，该退出按键右侧有句歌词选择页面标题“选择句歌词”和副标题“建议选择13字”；句歌词来源为目标视频素材集中的全部视频；句歌词排序类型有三种，用户可以切换选择：1)按照推荐：按照当前句子所需字数X，字数差值的绝对值越小，排序越前，若相同，则按照默认排序进行排序；2)按照字数从多到少；3)按照字数从少到多。每行句歌词显示单句歌词的内容和字数；用户可以点击播放按键试听该句歌词的对应的视频的声音，点击添加按键并退出句歌词选择页面，将该句歌词带入对应视频合成页面歌词内容预览区对应的“点击选择句歌词”中。

如图7D所示，图7D示出了本申请一实施例提供的一种句歌词编辑页面的意图：用户点击视频合成页面点击歌词内容预览区句歌词右边的编辑按键，进入句歌词编辑页面，歌词编辑页面左上方显示有退出至视频合成页面的退出按键，该退出按键右侧表征句歌词编辑完成的完成按键。歌词编辑页面退出按键的下方为句歌词编辑区：用户可通过光标快捷键移动光标定位，通过删除按键删除光标前的字；右侧实时显示当前字数/要求字数；也可以点击更换整句，进入句歌词选择页，选完后，用选中的句歌词替换当前编辑区的句歌词；歌词编辑页面下方为字词选择区，用户可通过在搜索框中输入拼音和中文搜索，边输入边出现搜索结果。

如图7E所示，图7E示出了本申请一实施例提供的另一种句歌词编辑页面的意图：用户未通过在搜索框中输入拼音和中文进行搜索，按照字分类展示相关的字或者按照词分类展示相关的词，用户可切换分类，字/词都按照首字拼音首字母排序，相同首字母按照默认配置排序。

如图7F所示，图7F示出了本申请一实施例提供的再一种句歌词编辑页面的意图：用户通过在搜索框中输入拼音和中文进行搜索，且有搜索结果，若用户搜字，搜索结果同音字有多个，按照搜索结果排序展示第一个，剩余折叠，点击更多同音素材可展开，展开后可试听原句。此外还可以显示包含搜索字结果的相关的智能词组。若无搜索结果，则提示“找不到目标素材，试试别的吧”，字词选择区按照未搜索样式和规则展示。

一般来说，音乐都是有前奏的，也即片头，只将目标视频切片插入目标音乐，会使合成视频的片头只有声音而没有画面，使合成视频的效果大大降低，因此还需要在目标音乐中插入目标片头视频。也即，在所述目标视频素材集中还包括片头视频的情况下，如图8A所示，图8A示出了本申请一实施例提供的一种目标视频素材集中片头视频的示意图：片头视频B1包括画面1，片头视频B2包括画面2。所述将各目标视频切片相应插入所述目标音乐中之后，还包括：

获取所述目标音乐的片头时长；

根据所述片头时长，从所述片头视频中截取目标片头视频，所述目标片头视频的时长等于所述片头时长；

将所述目标片头视频插入所述目标音乐的片头。

具体的，片头时长是指目标音乐中第一个目标歌词的第一个字发音之前的时长，例如音乐的第一个目标歌词的第一个开始发音是在第5秒，则该音乐的前5秒时长均为片头时长；片头视频是目标视频素材集中只有画面没有台词的视频，或者只有画面没有音频的视频。

实际应用中，可以先确定目标音乐的片头时长，即获取目标音乐的片头时长，然后获取目标视频素材集中的片头视频，从该片头视频中截取出时长与目标音乐的片头时长相等的目标片头视频，再将目标片头视频插入目标音乐的片头即可。此时目标片头视频的开始位置与目标音乐的开始位置对齐，目标片头视频的结束位置与目标音乐的第一个目标歌词中第一个字的开始位置对齐。

如图8B所示，图8B示出了本申请一实施例提供的一种插入片头视频的示意图：获取根据第一个目标歌词的第一个字“我”或者第一个视频切片“我”确定目标音乐的片头和片头时长，然后获取目标视频素材集中的片头视频B2中截取目标片头视频，目标片头视频的时长与目标音乐的片头时长相等，将目标片头视频插入目标音乐的片头即可。此时目标片头视频的开始位置与目标音乐的开始位置对齐，目标片头视频的结束位置与目标音乐的第一个目标歌词中第一个字“我”的开始位置对齐，其中第一个视频切片“我”来源A6，包含画面和声音。

当合成视频试看满意后，如图7A所示，用户可以在合成视频页面点击右上方的导出按键，开始进行每句歌词字数校验，若字数不匹配，在对应句子区域显示对应提醒；点击继续编辑，将画面、目标音乐、字幕、目标视频切片的音频按照拼接规则拼接完成并对齐后，导入到编辑器，画面和声音按照切割后、缩放的粒度传递到编辑器，字幕按照句的粒度传输到编辑器，目标音乐完整传输，且与预览效果一致；导出合成视频页面的合成视频自动选择分区为“合成视频调教”。

如图9A所示，图9A示出了本申请一实施例提供的一种搜索匹配的示意图：首先将用户输入的字、词或拼音进行分析，得到实际搜索输入，然后根据实际搜索输入显示对应的搜索结果。如图9B所示，图9B示出了本申请一实施例提供的一种库中素材的示意图：库是指字或词对应的素材库，其中显示的是对于用户输入为“吃”时的库中素材。此外，字匹配规则为：同字＞同音同调＞同音不同调；拼音匹配规则：素材库中包含该拼音按照默认排序进行展示；词匹配规则：包含同字＞包含同音同调＞包含同音不同调，同一类型下案字数从少到多排序，字数相同按照默认排序展示。

同样的，音乐也可以由尾奏的，也即片尾，只将目标片头视频和目标视频切片插入目标音乐，会使合成视频的片尾只有声音而没有画面，也会降低合成视频的效果，因此还需要在目标音乐中插入目标片尾视频。也即所述将所述目标片头视频插入所述目标音乐的片头之后，还包括：

获取所述目标音乐的片尾时长；

根据所述片尾时长，从指定视频中截取片尾视频，所述片尾视频的时长等于所述目标音乐的片尾时长，所述指定视频为所述目标视频素材集中的无声视频；

将所述片尾视频插入所述目标音乐的片尾。

具体的，片头时长是指目标音乐中最后一个目标歌词的最后一个字发音结束之后的时长，例如音乐的最后一个目标歌词的最后一个字发音结束是在第23秒，且该音乐的总时长为25秒，则该音乐的最后2秒时长均为片尾时长；指定视频是目标视频素材集中的无声视频，如片头视频。

实际应用中，可以先确定目标音乐的片尾时长，即获取目标音乐的片尾时长，然后获取目标视频素材集中的指定视频，从该指定视频中截取出时长与目标音乐的片尾时长相等的片尾视频，再将片尾视频插入目标音乐的片尾即可。此时片尾视频的开始位置与目标音乐的最后一个目标歌词中最后一个字的结束位置对齐，片尾视频的结束位置与目标音乐的结束位置对齐。

如图9C所示，如图9C示出了本申请一实施例提供的一种插入片尾视频的示意图：获取根据最后一个目标歌词的最后一个字“呀”或者第一个视频切片“呀”确定目标音乐的片尾和片尾时长，然后获取指定视频，从指定视频中截取片尾视频，片尾视频的时长与目标音乐的片尾时长相等，将片尾视频插入目标音乐的片头即可。此时片尾视频的开始位置与目标音乐最后一个目标歌词中最后一个字“呀”的结束位置对齐，片尾视频的结束位置与目标音乐的结束位置对齐。其最后一个视频切片“呀”来源A6，包含画面和声音。此外，还可以将片尾视频与目标音乐的片尾对齐分为两种情况：当指定视频的时长小于目标音乐的片尾时长，也即指定视频＜片尾，则指定视频保留最后一帧到目标音乐结束；当指定视频的时长大于或等于目标音乐的片尾时长，也即指定视频≥片尾，则目标音乐播放结束后静音到片尾结束播放。

此外，可以生成视频为三部分：1)片头：自动选取片头视频中的片段，根据片头时间端从头开始截取，与目标音乐进行合成供预览；2)中间段：a.已填充且字数完全匹配的目标视频切片的部分，根据视频合成规则合成视频，包括画面、音频和背景音乐，供用户预览；b.若已填充句歌词的字数多于/少于目标音乐标注的该句歌词的字数，句尾字数高亮提醒，预览至该句歌词/点击该句歌词前方播放按键时，多出的字数自动忽略，缺少的字数画面空缺，只有目标音乐无拼接画面；c.未填充句歌词的部分，仅播放背景音乐；3)片尾：当中间段全部填充匹配完整后，片尾自动选取片尾视频进行填充。

本申请提供的视频生成方法，通过主题标识确定包含多个视频切片的目标视频素材集，然后根据音乐选择指令确定目标音乐，获取目标音乐中针对各目标歌词预先设定的插入位置信息，然后根据各目标歌词的插入位置信息，将目标视频切片按需的自动插入目标音乐，生成合成视频，实现了自动将目标视频切片插入目标音乐，免去了用户手动调音的时间，使合成视频的制作操作简便，节省了用户制作合成视频的时间，提高了制作合成视频的效率。

下述结合附图10，以本申请提供的视频生成方法在鬼畜视频中的应用为例，对所述视频生成方法进行进一步说明。其中，图10示出了本申请一实施例提供的一种应用于鬼畜视频的视频生成方法的处理流程图，具体包括以下步骤：

步骤1002：接收鬼畜视频生成请求，根据鬼畜视频生成请求携带的主题标识确定目标视频库。

步骤1004：接收视频素材集选择指令，视频素材集选择指令携带有视频素材集标识。

步骤1006：从目标视频库中确定，与视频素材集标识对应的目标视频素材集。

其中，目标视频素材集包括多个视频切片。

实际应用中，需要在从目标视频素材集中，确定各目标歌词对应的目标视频切片之前，制作好目标视频素材集，具体实现过程如下：

获取与主题标识对应的目标视频，并提取目标视频的音频内容；

对音频内容中的每个字进行识别，确定每个字的第一位置信息；

根据第一位置信息，将目标视频分割为多个视频切片；

将多个视频切片添加至目标视频素材集。

步骤1008：接收音乐选择指令，音乐选择指令携带有音乐标识。

步骤1010：从音乐库中获取与音乐标识对应的备选音乐。

步骤1012：将备选音乐进行音乐节奏识别。

步骤1014：根据识别结果，在备选音乐中标记预填入歌词每个字的第二位置信息。

步骤1016：根据目标视频素材集确定各初始歌词，并根据第二位置信息，在备选音乐中填入各初始歌词，生成初始音乐。

步骤1018：接收用户根据目标视频素材集对各初始歌词的修改操作，确定各目标歌词。

步骤1020：将各目标歌词添加至初始音乐得到目标音乐，获取目标音乐中针对各目标歌词预先设定的插入位置信息。

步骤1022：从目标视频素材集中，确定各目标歌词对应的目标视频切片。

步骤1024：识别各目标视频切片中每个字的声韵分割线和各目标歌词中每个字的声韵分割线。

步骤1026：将第一目标视频切片中目标字的声韵分割线，和与目标字对应的目标歌词中的字的声韵分割线对齐。

其中，第一目标视频切片为各目标视频切片中的任意一个，目标字为第一目标视频切片中的任意一个字。

步骤1028：调整各目标视频切片的每个字的发音时长，将各目标视频切片进行拼接。

具体的，调整各目标视频切片的每个字的发音时长，可以如下：

确定当前字对应的目标视频切片中对应字的韵母发音时长，以及下一个字对应的目标视频切片中对应字的声母发音时长；

根据声韵分割时长、韵母发音时长和声母发音时长，调整韵母发音时长与声母发音时长。

可选地，根据声韵分割时长、韵母发音时长和声母发音时长，调整韵母发音时长与声母发音时长，包括：

在声韵分割时长大于韵母发音时长与声母发音时长之和的情况下，拉伸韵母发音时长，直至拉伸后的韵母发音时长与声母发音时长之和等于声韵分割时长；

在声韵分割时长等于韵母发音时长与声母发音时长之和的情况下，保持韵母发音时长与声母发音时长不变；

在声韵分割时长小于韵母发音时长与声母发音时长之和的情况下，等比压缩韵母发音时长和声母发音时长，直至压缩后的韵母发音时长与压缩后的声母发音时长之和等于声韵分割时长。

需要说明的是，在当前字为指定句歌词的最后一个字的情况下，将最后一个字的韵母发音时长拉伸至指定句歌词的句尾，将最后一个字的韵母发音时长对应的画面拉伸至下一句歌词的第一个字的起点，指定句歌词为目标歌词中的任意一句歌词。

此外，还可以根据各目标歌词的插入位置信息和目标歌词的数量，将各目标视频切片进行调速和/或重组，插入目标音乐中。

步骤1030：获取目标音乐的片头时长。

步骤1032：根据片头时长，从片头视频中截取目标片头视频，目标片头视频的时长等于片头时长。

需要说明的是，目标视频素材集中还包括片头视频。

步骤1034：将目标片头视频插入目标音乐的片头。

步骤1036：获取目标音乐的片尾时长。

步骤1038：根据片尾时长，从指定视频中截取片尾视频。

其中，片尾视频的时长等于目标音乐的片尾时长，指定视频为目标视频素材集中的无声视频；

步骤1040：将片尾视频插入目标音乐的片尾，生成鬼畜视频。

本申请提供的一种应用于鬼畜视频的视频生成方法，通过鬼畜视频生成请求携带的主题标识确定包含多个视频切片的目标视频素材集，然后根据音乐选择指令确定目标音乐，获取目标音乐中针对各目标歌词预先设定的插入位置信息，然后自动根据各目标歌词的插入位置信息，将目标视频切片按需的自动插入目标音乐，生成鬼畜视频，实现了自动将目标视频切片插入目标音乐，免去了用户手动调音的时间，使鬼畜视频的制作操作简便，节省了用户制作鬼畜视频的时间，提高了制作鬼畜视频的效率。

与上述方法实施例相对应，本申请还提供了视频生成装置实施例，图11示出了本申请一实施例提供的一种视频生成装置的结构示意图。如图11所示，该装置包括：

第一接收模块1102，被配置为接收视频生成请求，根据所述视频生成请求携带的主题标识确定目标视频素材集，所述目标视频素材集包括多个视频切片；

第二接收模块1104，被配置为接收音乐选择指令，从音乐库中确定所述音乐选择指令对应的目标音乐，并获取所述目标音乐中针对各目标歌词预先设定的插入位置信息；

确定模块1106，被配置为从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片；

生成模块1108，被配置为根据所述各目标歌词的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频。

在本实施例的一个或多个实施方式中，所述确定模块1106，还被配置为：

将所述多个视频切片添加至所述目标视频素材集。

在本实施例的一个或多个实施方式中，所述插入位置信息包括所述各文字单元中每个字的声韵分割线；

所述装置还包括识别模块，被配置为：

识别各目标视频切片中每个字的声韵分割线和所述各各目标歌词中每个字的声韵分割线；

所述生成模块1108，还被配置为：

在本实施例的一个或多个实施方式中，所述生成模块1108，还被配置为：

在本实施例的一个或多个实施方式中，所述目标视频素材集中还包括片头视频；

所述生成模块1108，还被配置为：

获取所述目标音乐的片头时长；

将所述目标片头视频插入所述目标音乐的片头。

获取所述目标音乐的片尾时长；

将所述片尾视频插入所述目标音乐的片尾。

在本实施例的一个或多个实施方式中，所述第二接收模块1104，还被配置为：

在本实施例的一个或多个实施方式中，所述音乐选择指令携带有音乐标识；

所述第二接收模块1104，还被配置为：

从所述音乐库中获取与所述音乐标识对应的备选音乐；

将所述备选音乐进行音乐节奏识别；

在本实施例的一个或多个实施方式中，所述第一接收模块1102，还被配置为：

从所述目标视频库中确定，与所述视频素材集标识对应的目标视频素材集。

本申请提供的视频生成装置，通过主题标识确定包含多个视频切片的目标视频素材集，然后根据音乐选择指令确定目标音乐，获取目标音乐中针对各目标歌词预先设定的插入位置信息，然后根据各目标歌词的插入位置信息，将目标视频切片按需的自动插入目标音乐，生成合成视频，实现了自动将目标视频切片插入目标音乐，免去了用户手动调音的时间，使合成视频的制作操作简便，节省了用户制作合成视频的时间，提高了制作合成视频的效率。

上述为本实施例的一种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的视频生成方法的技术方案属于同一构思，视频生成装置的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

图12示出了根据本申请一实施例提供的一种计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接，数据库1250用于保存数据。

计算设备1200还包括接入设备1240，接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN，PublicSwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，WideAreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，NetworkInterface Controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Acess)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，NearFieldCommunication)接口，等等。

在本申请的一个实施例中，计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图12所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。

其中，处理器1220执行所述计算机指令时实现所述的视频生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述视频生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频生成方法，其特征在于，包括：

接收音乐选择指令，从音乐库中确定所述音乐选择指令对应的目标音乐，并获取所述目标音乐中针对各目标歌词预先设定的插入位置信息，其中，所述插入位置信息包括所述各目标歌词中每个字的声韵分割线，所述声韵分割线是指字在发音时声母与韵母分割的位置；

根据所述目标音乐中针对各目标歌词预先设定的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频；

其中，所述根据所述目标音乐中针对各目标歌词预先设定的插入位置信息，将各目标视频切片相应插入所述目标音乐中之前，包括：

所述根据所述目标音乐中针对各目标歌词预先设定的插入位置信息，将各目标视频切片相应插入所述目标音乐中，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片之前，还包括：

将所述多个视频切片添加至所述目标视频素材集。

3.根据权利要求1所述的方法，其特征在于，所述根据所述各目标歌词中每个字的声韵分割线和所述各目标视频切片中每个字的声韵分割线，将所述各目标视频切片插入所述目标音乐中，包括：

4.根据权利要求3所述的方法，其特征在于，所述调整所述各目标视频切片的每个字的发音时长，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述声韵分割时长、所述韵母发音时长和所述声母发音时长，调整所述韵母发音时长与所述声母发音时长，包括：

6.根据权利要求4或5所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，所述目标视频素材集中还包括片头视频；

所述将各目标视频切片相应插入所述目标音乐中之后，还包括：

获取所述目标音乐的片头时长；

将所述目标片头视频插入所述目标音乐的片头。

8.根据权利要求7所述的方法，其特征在于，所述将所述目标片头视频插入所述目标音乐的片头之后，还包括：

获取所述目标音乐的片尾时长；

将所述片尾视频插入所述目标音乐的片尾。

9.根据权利要求1所述的方法，其特征在于，所述从音乐库中确定所述音乐选择指令对应的目标音乐，包括：

10.根据权利要求9所述的方法，其特征在于，所述音乐选择指令携带有音乐标识；

所述从所述音乐库中获取与所述音乐选择指令对应的初始音乐，包括：

从所述音乐库中获取与所述音乐标识对应的备选音乐；

将所述备选音乐进行音乐节奏识别；

11.根据权利要求1所述的方法，其特征在于，所述根据所述视频生成请求携带的主题标识确定目标视频素材集，包括：

12.根据权利要求1所述的方法，其特征在于，所述根据所述目标音乐中针对各目标歌词预先设定的插入位置信息，将各目标视频切片相应插入所述目标音乐中，包括：

根据所述目标音乐中针对各目标歌词预先设定的插入位置信息和目标歌词的数量，将所述各目标视频切片进行调速和/或重组，插入所述目标音乐中。

13.一种视频生成装置，其特征在于，包括：

第二接收模块，被配置为接收音乐选择指令，从音乐库中确定所述音乐选择指令对应的目标音乐，并获取所述目标音乐中针对各目标歌词预先设定的插入位置信息，其中，所述插入位置信息包括所述各目标歌词中每个字的声韵分割线，所述声韵分割线是指字在发音时声母与韵母分割的位置；

确定模块，被配置为从所述目标视频素材集中，确定所述各目标歌词对应的目标视频切片；

生成模块，被配置为根据所述目标音乐中针对各目标歌词预先设定的插入位置信息，将各目标视频切片相应插入所述目标音乐中，生成合成视频；

其中，所述装置还包括识别模块，被配置为：

所述生成模块1108，还被配置为：

14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-12任意一项所述方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-12任意一项所述方法的步骤。