CN113450744A

CN113450744A - 一种伴奏生成方法、系统及计算机存储介质

Info

Publication number: CN113450744A
Application number: CN202110563114.7A
Authority: CN
Inventors: 马哲; 刘剑
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-09-28
Anticipated expiration: 2041-05-24
Also published as: CN113450744B

Abstract

本发明公开一种伴奏生成方法、系统及计算机存储介质。其中，该方法包括：实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；将待处理的所述原唱字幕文件和伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段以及结束时间后的片段，分别得到头片段和尾片段；裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段以及裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。通过本发明，能够生成完整的跟原唱时间轴对齐的伴奏，省却了重新制作伴奏的成本。

Description

一种伴奏生成方法、系统及计算机存储介质

技术领域

本发明涉及歌曲技术领域，具体而言，涉及一种伴奏生成方法、系统及计算机存储介质。

背景技术

在KTV场所中，有时歌曲的原唱和伴奏两个音频不协调导致切换原唱或者伴奏时字幕与旋律不匹配。

现有技术中，原唱伴奏时间轴不匹配的情况下生成伴奏有两种方法，一种是重新制作伴奏，另一种是根据原唱消除人声方法制作伴奏，两种方法成本高，且第二种方法人声消除不完全导致人声残留。

针对现有技术中在原唱伴奏时间轴不匹配的情况下重新制作伴奏成本高以及原唱消除人声方法制作的伴奏带有人声残留的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例中提供一种伴奏生成方法、系统及计算机存储介质，以解决现有技术中在原唱伴奏时间轴不匹配的情况下重新制作伴奏成本高以及原唱消除人声方法制作的伴奏带有人声残留的问题。

为达到上述目的，一方面，本发明提供了一种伴奏生成方法，该方法包括：实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段，得到头片段；以及，裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段，得到尾片段；裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段；以及，裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。

可选的，所述将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐包括：当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时，将两个所述字幕文件对齐。

可选的，所述将两个所述字幕文件对齐包括：裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段，得到准头片段；根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。

可选的，所述根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐包括：当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐；当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。

可选的，所述裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段包括：判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值；若是，则裁剪所述伴奏音频的音乐片段；若否，则裁剪对应时间的所述原唱音频的音乐片段；依次按时间将所有的所述伴奏音频的音乐片段和所述原唱音频的音乐片段排序，得到所述多个音频片段。

另一方面，本发明提供了一种伴奏生成系统，包括：获取单元，用于实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；第一裁剪单元，用于将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段，得到头片段；以及，裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段，得到尾片段；第二裁剪单元，用于裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段；以及，裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；拼装单元，用于依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。

可选的，所述第一裁剪单元包括：判断子单元，用于当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时，将两个所述字幕文件对齐。

可选的，所述第一判断子单元包括：裁剪模块，用于裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段，得到准头片段；更改模块，用于根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。

可选的，所述更改模块包括：添加子模块，用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐；裁剪子模块，用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。

另一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的伴奏生成方法。

本发明的有益效果：

本发明提供了一种伴奏生成方法，该方法将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段以及结束时间后的片段，分别得到头片段和尾片段；裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段以及裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。解决了在原唱伴奏时间轴不匹配的情况下重新制作伴奏成本高以及原唱消除人声方法制作的伴奏带有人声残留的问题；该方法能够生成完整的跟原唱时间轴对齐的伴奏，且省却了重新制作伴奏的成本，以及不会有人声残留。

附图说明

图1是本发明实施例提供的一种伴奏生成方法的流程图；

图2是本发明实施例提供的两个字幕文件对齐的流程示意图；

图3是本发明实施例提供的一种伴奏生成系统的结构示意图；

图4是本发明实施例提供的两个字幕文件对齐的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

因而，本发明提供了一种伴奏生成方法，图1是本发明实施例提供的一种伴奏生成方法的流程图，如图1所示，该方法包括：

S101.实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；

例如，一首歌曲“光辉岁月(粤语版)”，首先要获取该音频的原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；解析后的原唱字幕文件如下：

[0,153]<0,17,0>BEYOND<17,17,0>-<34,17,0>光<51,17,0>辉<68,17,0>岁<85,17,0>月<102,17,0>(<119,17,0>粤<136,17,0>语<0,0,0>版<0,0,0>)

[154,202]<0,50,0>作<50,51,0>词<101,0,0>：<101,51,0>黄<152,50,0>家<0,0,0>驹

[356,155]<0,0,0>作<0,51,0>曲<51,50,0>：<101,54,0>黄<155,0,0>家<0,0,0>驹

[511,199]<0,47,0>编<47,50,0>曲<97,0,0>：<97,51,0>黄<148,51,0>家<0,0,0>驹

[28538,3085]<0,201,0>钟<201,202,0>声<403,203,0>响<606,150,0>起<756,405,0>归<1161,256,0>家<1417,557,0>的<1974,453,0>讯<2427,658,0>号

[32996,2075]<0,252,0>在<252,203,0>他<455,254,0>生<709,254,0>命<963,1112,0>里

其中，该字幕文件的开头[0,153]代表[绝对起始时间，歌词段落持续时间]，单位为ms，每个字幕文字前都标注了字幕文字开始变化的相对起始时间以及持续时间，<34,17,0>代表<相对起始时间,持续时间，0>，每个字幕的相对起始时间都是以该字幕开头[]内的绝对起始时间为基准的，单位为ms。

S102.将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段，得到头片段；以及，裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段，得到尾片段；

当获取到歌曲“光辉岁月(粤语版)”的原唱字幕文件和伴奏字幕文件后，将两个所述字幕文件对齐，对齐后，再裁剪原唱音频在原唱字幕文件起始时间(BEYOND对应的时间)前的片段以及结束时间后的片段，分别得到头片段和尾片段，以便于后续合成伴奏时使用。

S103.裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段；以及，裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；

例如，裁剪伴奏音频中与字幕“在他生命里”对应的片段，即根据该字幕在伴奏音频中的绝对起始时间和持续时间进行裁剪，裁剪(32996,32996+2075)该时间内的片段，得到一个伴奏片段，标记为[voice-6]，将所有字幕对应的片段都裁剪，得到多个伴奏片段，分别为[voice-1]、[voice-2]......[voice-6]......。

进一步的，再裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段，例如，裁剪伴奏音频与原唱音频中的任意一个的字幕“钟声响起归家的信号”与字幕“在他生命里”之间的片段，得到一个伴奏片段。将所有的相邻字幕之间的片段都裁剪，得到多个音频片段。

S104.依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。

将裁剪得到的所述头片段、多个伴奏片段、多个音频片段和尾片段按时间拼装，即可生成与原唱时间轴对齐的伴奏，该方法省却了重新制作伴奏的成本，以及不会有人声残留。

在一个可选的实施方式中，所述将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐包括：当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时，将两个所述字幕文件对齐。

因原唱音频和伴奏音频第一句歌词字幕出现的时间不一定一致，所以需要计算两个字幕文件中的起始时间的差值，若大于第一预设时间值(本发明中为1000ms)，则认为两个字幕文件的起始时间不对齐，已经影响到音频和字幕流动的匹配性，需要将两个字幕文件的起始时间对齐；否则，则认为两个字幕文件的起始时间已对齐，不需要改动。

在一个可选的实施方式中，图2是本发明实施例提供的两个字幕文件对齐的流程示意图，如图所示，所述将两个所述字幕文件对齐包括：

S1021.裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段，得到准头片段；

在未将原唱字幕文件与伴奏字幕文件对齐之前，先裁剪所述原唱音频在所述原唱字幕文件开始前的片段，得到准头片段。

S1022.根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。

对所述准头片段进行更改以使两个字幕文件的起始时间对齐，具体如何更改是通过两个字幕文件的起始时间的差值确定的。

本发明中，通过该方法，可以使两个所述字幕文件对齐，便于后续的裁剪与拼装，从而生成完整的跟原唱时间轴对齐的伴奏。

在一个可选的实施方式中，所述S1022包括：当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐；当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。

当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，需要生成一段空音频，即在准头片段上添加空音频以使原唱字幕文件的起始时间后移，从而使两个字幕文件的起始时间对齐；而当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，需要在准头片段上裁剪一段音频，以使原唱字幕文件的起始时间前移，从而使两个字幕文件的起始时间对齐。

本发明中，通过在准头片段上添加空音频或在准头片段上裁剪一段音频可使原唱字幕文件的起始时间后移或前移，从而使两个字幕文件的起始时间对齐。

在一个可选的实施方式中，所述裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段包括：判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值；若是，则裁剪所述伴奏音频的音乐片段；若否，则裁剪对应时间的所述原唱音频的音乐片段；依次按时间将所有的所述伴奏音频的音乐片段和所述原唱音频的音乐片段排序，得到所述多个音频片段。

例如，对于第五个字幕和第六个字幕之间的片段进行裁剪，则需要裁剪时间点28538+3085到32996之间的音频，标记为[melody-5]，将所有相邻字幕之间的片段都裁剪，得到多个音频片段，分别为[melody-1]、[melody-2]......[melody-5]......。具体裁剪原唱音频还是伴奏音频则根据以下方法进行判断：

判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值(本发明中为1000ms)；若是，则裁剪所述伴奏音频的音乐片段；若否，则裁剪对应时间的所述原唱音频的音乐片段。

例如：第六个字幕的绝对起始时间为32996ms，第五个字幕的绝对结束时间为(28538+3085)ms，则差值为32996-(28538+3085)＝1373ms，1373ms＞1000ms，则裁剪原唱音频的音乐片段，标记为[melody-5]。

最后生成完整的跟原唱时间轴对齐的伴奏，拼接方法为：头片段+([voice-1]+[melody-1]+[voice-2]+[melody-2]......[voice-n]+[melody-n])+尾片段。

图3是本发明实施例提供的一种伴奏生成系统的结构示意图，如图3所示，该系统包括：

获取单元201，用于实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；

[356,155]<0,0,0>作<0,51,0>曲<51,50,0>：<101,54,0>黄<155,0,0>家<0,0,0>驹

[511,199]<0,47,0>编<47,50,0>曲<97,0,0>：<97,51,0>黄<148,51,0>家<0,0,0>驹

第一裁剪单元202，用于将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段，得到头片段；以及，裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段，得到尾片段；

第二裁剪单元203，用于裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段；以及，裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；

拼装单元204，用于依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。

在一个可选的实施方式中，所述第一裁剪单元202包括：判断子单元，用于当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时，将两个所述字幕文件对齐。

在一个可选的实施方式中，图4是本发明实施例提供的两个字幕文件对齐的结构示意图，如图4所示，所述第一判断子单元包括：

裁剪模块2021，用于裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段，得到准头片段；

更改模块2022，用于根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。

在一个可选的实施方式中，所述更改模块2022包括：添加子模块，用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐；裁剪子模块，用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的伴奏生成方法。

上述存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

本发明的有益效果：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种伴奏生成方法，其特征在于，包括：

实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；

将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段，得到头片段；以及，裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段，得到尾片段；

裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段；以及，裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；

依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。

2.根据权利要求1所述的方法，其特征在于，所述将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐包括：

当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时，将两个所述字幕文件对齐。

3.根据权利要求2所述的方法，其特征在于，所述将两个所述字幕文件对齐包括：

裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段，得到准头片段；

根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。

4.根据权利要求3所述的方法，其特征在于，所述根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐包括：

当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐；

当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。

5.根据权利要求1所述的方法，其特征在于，所述裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段包括：

判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值；若是，则裁剪所述伴奏音频的音乐片段；若否，则裁剪对应时间的所述原唱音频的音乐片段；

依次按时间将所有的所述伴奏音频的音乐片段和所述原唱音频的音乐片段排序，得到所述多个音频片段。

6.一种伴奏生成系统，其特征在于，包括：

获取单元，用于实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件；

第一裁剪单元，用于将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐；并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段，得到头片段；以及，裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段，得到尾片段；

第二裁剪单元，用于裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段，得到多个伴奏片段；以及，裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段，得到多个音频片段；

拼装单元，用于依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装，得到新伴奏。

7.根据权利要求6所述的系统，其特征在于，所述第一裁剪单元包括：

判断子单元，用于当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时，将两个所述字幕文件对齐。

8.根据权利要求7所述的系统，其特征在于，所述第一判断子单元包括：

裁剪模块，用于裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段，得到准头片段；

更改模块，用于根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。

9.根据权利要求8所述的系统，其特征在于，所述更改模块包括：

添加子模块，用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐；

裁剪子模块，用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时，在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一项所述的伴奏生成方法。