CN113450744A - 一种伴奏生成方法、系统及计算机存储介质 - Google Patents

一种伴奏生成方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN113450744A
CN113450744A CN202110563114.7A CN202110563114A CN113450744A CN 113450744 A CN113450744 A CN 113450744A CN 202110563114 A CN202110563114 A CN 202110563114A CN 113450744 A CN113450744 A CN 113450744A
Authority
CN
China
Prior art keywords
accompaniment
audio
original
file
caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110563114.7A
Other languages
English (en)
Other versions
CN113450744B (zh
Inventor
马哲
刘剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Thunderstone Technology Co ltd
Original Assignee
Beijing Thunderstone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thunderstone Technology Co ltd filed Critical Beijing Thunderstone Technology Co ltd
Priority to CN202110563114.7A priority Critical patent/CN113450744B/zh
Publication of CN113450744A publication Critical patent/CN113450744A/zh
Application granted granted Critical
Publication of CN113450744B publication Critical patent/CN113450744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Studio Circuits (AREA)

Abstract

本发明公开一种伴奏生成方法、系统及计算机存储介质。其中,该方法包括:实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;将待处理的所述原唱字幕文件和伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段以及结束时间后的片段,分别得到头片段和尾片段;裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段以及裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。通过本发明,能够生成完整的跟原唱时间轴对齐的伴奏,省却了重新制作伴奏的成本。

Description

一种伴奏生成方法、系统及计算机存储介质
技术领域
本发明涉及歌曲技术领域,具体而言,涉及一种伴奏生成方法、系统及计算机存储介质。
背景技术
在KTV场所中,有时歌曲的原唱和伴奏两个音频不协调导致切换原唱或者伴奏时字幕与旋律不匹配。
现有技术中,原唱伴奏时间轴不匹配的情况下生成伴奏有两种方法,一种是重新制作伴奏,另一种是根据原唱消除人声方法制作伴奏,两种方法成本高,且第二种方法人声消除不完全导致人声残留。
针对现有技术中在原唱伴奏时间轴不匹配的情况下重新制作伴奏成本高以及原唱消除人声方法制作的伴奏带有人声残留的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例中提供一种伴奏生成方法、系统及计算机存储介质,以解决现有技术中在原唱伴奏时间轴不匹配的情况下重新制作伴奏成本高以及原唱消除人声方法制作的伴奏带有人声残留的问题。
为达到上述目的,一方面,本发明提供了一种伴奏生成方法,该方法包括:实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段,得到头片段;以及,裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段,得到尾片段;裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段;以及,裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。
可选的,所述将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐包括:当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时,将两个所述字幕文件对齐。
可选的,所述将两个所述字幕文件对齐包括:裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段,得到准头片段;根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。
可选的,所述根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐包括:当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐;当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。
可选的,所述裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段包括:判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值;若是,则裁剪所述伴奏音频的音乐片段;若否,则裁剪对应时间的所述原唱音频的音乐片段;依次按时间将所有的所述伴奏音频的音乐片段和所述原唱音频的音乐片段排序,得到所述多个音频片段。
另一方面,本发明提供了一种伴奏生成系统,包括:获取单元,用于实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;第一裁剪单元,用于将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段,得到头片段;以及,裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段,得到尾片段;第二裁剪单元,用于裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段;以及,裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;拼装单元,用于依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。
可选的,所述第一裁剪单元包括:判断子单元,用于当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时,将两个所述字幕文件对齐。
可选的,所述第一判断子单元包括:裁剪模块,用于裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段,得到准头片段;更改模块,用于根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。
可选的,所述更改模块包括:添加子模块,用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐;裁剪子模块,用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。
另一方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的伴奏生成方法。
本发明的有益效果:
本发明提供了一种伴奏生成方法,该方法将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段以及结束时间后的片段,分别得到头片段和尾片段;裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段以及裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。解决了在原唱伴奏时间轴不匹配的情况下重新制作伴奏成本高以及原唱消除人声方法制作的伴奏带有人声残留的问题;该方法能够生成完整的跟原唱时间轴对齐的伴奏,且省却了重新制作伴奏的成本,以及不会有人声残留。
附图说明
图1是本发明实施例提供的一种伴奏生成方法的流程图;
图2是本发明实施例提供的两个字幕文件对齐的流程示意图;
图3是本发明实施例提供的一种伴奏生成系统的结构示意图;
图4是本发明实施例提供的两个字幕文件对齐的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
现有技术中,原唱伴奏时间轴不匹配的情况下生成伴奏有两种方法,一种是重新制作伴奏,另一种是根据原唱消除人声方法制作伴奏,两种方法成本高,且第二种方法人声消除不完全导致人声残留。
因而,本发明提供了一种伴奏生成方法,图1是本发明实施例提供的一种伴奏生成方法的流程图,如图1所示,该方法包括:
S101.实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;
例如,一首歌曲“光辉岁月(粤语版)”,首先要获取该音频的原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;解析后的原唱字幕文件如下:
[0,153]<0,17,0>BEYOND<17,17,0>-<34,17,0>光<51,17,0>辉<68,17,0>岁<85,17,0>月<102,17,0>(<119,17,0>粤<136,17,0>语<0,0,0>版<0,0,0>)
[154,202]<0,50,0>作<50,51,0>词<101,0,0>:<101,51,0>黄<152,50,0>家<0,0,0>驹
[356,155]<0,0,0>作<0,51,0>曲<51,50,0>:<101,54,0>黄<155,0,0>家<0,0,0>驹
[511,199]<0,47,0>编<47,50,0>曲<97,0,0>:<97,51,0>黄<148,51,0>家<0,0,0>驹
[28538,3085]<0,201,0>钟<201,202,0>声<403,203,0>响<606,150,0>起<756,405,0>归<1161,256,0>家<1417,557,0>的<1974,453,0>讯<2427,658,0>号
[32996,2075]<0,252,0>在<252,203,0>他<455,254,0>生<709,254,0>命<963,1112,0>里
其中,该字幕文件的开头[0,153]代表[绝对起始时间,歌词段落持续时间],单位为ms,每个字幕文字前都标注了字幕文字开始变化的相对起始时间以及持续时间,<34,17,0>代表<相对起始时间,持续时间,0>,每个字幕的相对起始时间都是以该字幕开头[]内的绝对起始时间为基准的,单位为ms。
S102.将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段,得到头片段;以及,裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段,得到尾片段;
当获取到歌曲“光辉岁月(粤语版)”的原唱字幕文件和伴奏字幕文件后,将两个所述字幕文件对齐,对齐后,再裁剪原唱音频在原唱字幕文件起始时间(BEYOND对应的时间)前的片段以及结束时间后的片段,分别得到头片段和尾片段,以便于后续合成伴奏时使用。
S103.裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段;以及,裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;
例如,裁剪伴奏音频中与字幕“在他生命里”对应的片段,即根据该字幕在伴奏音频中的绝对起始时间和持续时间进行裁剪,裁剪(32996,32996+2075)该时间内的片段,得到一个伴奏片段,标记为[voice-6],将所有字幕对应的片段都裁剪,得到多个伴奏片段,分别为[voice-1]、[voice-2]......[voice-6]......。
进一步的,再裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段,例如,裁剪伴奏音频与原唱音频中的任意一个的字幕“钟声响起归家的信号”与字幕“在他生命里”之间的片段,得到一个伴奏片段。将所有的相邻字幕之间的片段都裁剪,得到多个音频片段。
S104.依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。
将裁剪得到的所述头片段、多个伴奏片段、多个音频片段和尾片段按时间拼装,即可生成与原唱时间轴对齐的伴奏,该方法省却了重新制作伴奏的成本,以及不会有人声残留。
在一个可选的实施方式中,所述将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐包括:当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时,将两个所述字幕文件对齐。
因原唱音频和伴奏音频第一句歌词字幕出现的时间不一定一致,所以需要计算两个字幕文件中的起始时间的差值,若大于第一预设时间值(本发明中为1000ms),则认为两个字幕文件的起始时间不对齐,已经影响到音频和字幕流动的匹配性,需要将两个字幕文件的起始时间对齐;否则,则认为两个字幕文件的起始时间已对齐,不需要改动。
在一个可选的实施方式中,图2是本发明实施例提供的两个字幕文件对齐的流程示意图,如图所示,所述将两个所述字幕文件对齐包括:
S1021.裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段,得到准头片段;
在未将原唱字幕文件与伴奏字幕文件对齐之前,先裁剪所述原唱音频在所述原唱字幕文件开始前的片段,得到准头片段。
S1022.根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。
对所述准头片段进行更改以使两个字幕文件的起始时间对齐,具体如何更改是通过两个字幕文件的起始时间的差值确定的。
本发明中,通过该方法,可以使两个所述字幕文件对齐,便于后续的裁剪与拼装,从而生成完整的跟原唱时间轴对齐的伴奏。
在一个可选的实施方式中,所述S1022包括:当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐;当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。
当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,需要生成一段空音频,即在准头片段上添加空音频以使原唱字幕文件的起始时间后移,从而使两个字幕文件的起始时间对齐;而当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,需要在准头片段上裁剪一段音频,以使原唱字幕文件的起始时间前移,从而使两个字幕文件的起始时间对齐。
本发明中,通过在准头片段上添加空音频或在准头片段上裁剪一段音频可使原唱字幕文件的起始时间后移或前移,从而使两个字幕文件的起始时间对齐。
在一个可选的实施方式中,所述裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段包括:判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值;若是,则裁剪所述伴奏音频的音乐片段;若否,则裁剪对应时间的所述原唱音频的音乐片段;依次按时间将所有的所述伴奏音频的音乐片段和所述原唱音频的音乐片段排序,得到所述多个音频片段。
例如,对于第五个字幕和第六个字幕之间的片段进行裁剪,则需要裁剪时间点28538+3085到32996之间的音频,标记为[melody-5],将所有相邻字幕之间的片段都裁剪,得到多个音频片段,分别为[melody-1]、[melody-2]......[melody-5]......。具体裁剪原唱音频还是伴奏音频则根据以下方法进行判断:
判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值(本发明中为1000ms);若是,则裁剪所述伴奏音频的音乐片段;若否,则裁剪对应时间的所述原唱音频的音乐片段。
例如:第六个字幕的绝对起始时间为32996ms,第五个字幕的绝对结束时间为(28538+3085)ms,则差值为32996-(28538+3085)=1373ms,1373ms>1000ms,则裁剪原唱音频的音乐片段,标记为[melody-5]。
最后生成完整的跟原唱时间轴对齐的伴奏,拼接方法为:头片段+([voice-1]+[melody-1]+[voice-2]+[melody-2]......[voice-n]+[melody-n])+尾片段。
图3是本发明实施例提供的一种伴奏生成系统的结构示意图,如图3所示,该系统包括:
获取单元201,用于实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;
例如,一首歌曲“光辉岁月(粤语版)”,首先要获取该音频的原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;解析后的原唱字幕文件如下:
[0,153]<0,17,0>BEYOND<17,17,0>-<34,17,0>光<51,17,0>辉<68,17,0>岁<85,17,0>月<102,17,0>(<119,17,0>粤<136,17,0>语<0,0,0>版<0,0,0>)
[154,202]<0,50,0>作<50,51,0>词<101,0,0>:<101,51,0>黄<152,50,0>家<0,0,0>驹
[356,155]<0,0,0>作<0,51,0>曲<51,50,0>:<101,54,0>黄<155,0,0>家<0,0,0>驹
[511,199]<0,47,0>编<47,50,0>曲<97,0,0>:<97,51,0>黄<148,51,0>家<0,0,0>驹
[28538,3085]<0,201,0>钟<201,202,0>声<403,203,0>响<606,150,0>起<756,405,0>归<1161,256,0>家<1417,557,0>的<1974,453,0>讯<2427,658,0>号
[32996,2075]<0,252,0>在<252,203,0>他<455,254,0>生<709,254,0>命<963,1112,0>里
其中,该字幕文件的开头[0,153]代表[绝对起始时间,歌词段落持续时间],单位为ms,每个字幕文字前都标注了字幕文字开始变化的相对起始时间以及持续时间,<34,17,0>代表<相对起始时间,持续时间,0>,每个字幕的相对起始时间都是以该字幕开头[]内的绝对起始时间为基准的,单位为ms。
第一裁剪单元202,用于将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段,得到头片段;以及,裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段,得到尾片段;
当获取到歌曲“光辉岁月(粤语版)”的原唱字幕文件和伴奏字幕文件后,将两个所述字幕文件对齐,对齐后,再裁剪原唱音频在原唱字幕文件起始时间(BEYOND对应的时间)前的片段以及结束时间后的片段,分别得到头片段和尾片段,以便于后续合成伴奏时使用。
第二裁剪单元203,用于裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段;以及,裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;
例如,裁剪伴奏音频中与字幕“在他生命里”对应的片段,即根据该字幕在伴奏音频中的绝对起始时间和持续时间进行裁剪,裁剪(32996,32996+2075)该时间内的片段,得到一个伴奏片段,标记为[voice-6],将所有字幕对应的片段都裁剪,得到多个伴奏片段,分别为[voice-1]、[voice-2]......[voice-6]......。
进一步的,再裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段,例如,裁剪伴奏音频与原唱音频中的任意一个的字幕“钟声响起归家的信号”与字幕“在他生命里”之间的片段,得到一个伴奏片段。将所有的相邻字幕之间的片段都裁剪,得到多个音频片段。
拼装单元204,用于依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。
将裁剪得到的所述头片段、多个伴奏片段、多个音频片段和尾片段按时间拼装,即可生成与原唱时间轴对齐的伴奏,该方法省却了重新制作伴奏的成本,以及不会有人声残留。
在一个可选的实施方式中,所述第一裁剪单元202包括:判断子单元,用于当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时,将两个所述字幕文件对齐。
因原唱音频和伴奏音频第一句歌词字幕出现的时间不一定一致,所以需要计算两个字幕文件中的起始时间的差值,若大于第一预设时间值(本发明中为1000ms),则认为两个字幕文件的起始时间不对齐,已经影响到音频和字幕流动的匹配性,需要将两个字幕文件的起始时间对齐;否则,则认为两个字幕文件的起始时间已对齐,不需要改动。
在一个可选的实施方式中,图4是本发明实施例提供的两个字幕文件对齐的结构示意图,如图4所示,所述第一判断子单元包括:
裁剪模块2021,用于裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段,得到准头片段;
在未将原唱字幕文件与伴奏字幕文件对齐之前,先裁剪所述原唱音频在所述原唱字幕文件开始前的片段,得到准头片段。
更改模块2022,用于根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。
对所述准头片段进行更改以使两个字幕文件的起始时间对齐,具体如何更改是通过两个字幕文件的起始时间的差值确定的。
本发明中,通过该方法,可以使两个所述字幕文件对齐,便于后续的裁剪与拼装,从而生成完整的跟原唱时间轴对齐的伴奏。
在一个可选的实施方式中,所述更改模块2022包括:添加子模块,用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐;裁剪子模块,用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。
当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,需要生成一段空音频,即在准头片段上添加空音频以使原唱字幕文件的起始时间后移,从而使两个字幕文件的起始时间对齐;而当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,需要在准头片段上裁剪一段音频,以使原唱字幕文件的起始时间前移,从而使两个字幕文件的起始时间对齐。
本发明中,通过在准头片段上添加空音频或在准头片段上裁剪一段音频可使原唱字幕文件的起始时间后移或前移,从而使两个字幕文件的起始时间对齐。
在一个可选的实施方式中,所述裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段包括:判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值;若是,则裁剪所述伴奏音频的音乐片段;若否,则裁剪对应时间的所述原唱音频的音乐片段;依次按时间将所有的所述伴奏音频的音乐片段和所述原唱音频的音乐片段排序,得到所述多个音频片段。
例如,对于第五个字幕和第六个字幕之间的片段进行裁剪,则需要裁剪时间点28538+3085到32996之间的音频,标记为[melody-5],将所有相邻字幕之间的片段都裁剪,得到多个音频片段,分别为[melody-1]、[melody-2]......[melody-5]......。具体裁剪原唱音频还是伴奏音频则根据以下方法进行判断:
判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值(本发明中为1000ms);若是,则裁剪所述伴奏音频的音乐片段;若否,则裁剪对应时间的所述原唱音频的音乐片段。
例如:第六个字幕的绝对起始时间为32996ms,第五个字幕的绝对结束时间为(28538+3085)ms,则差值为32996-(28538+3085)=1373ms,1373ms>1000ms,则裁剪原唱音频的音乐片段,标记为[melody-5]。
最后生成完整的跟原唱时间轴对齐的伴奏,拼接方法为:头片段+([voice-1]+[melody-1]+[voice-2]+[melody-2]......[voice-n]+[melody-n])+尾片段。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的伴奏生成方法。
上述存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
本发明的有益效果:
本发明提供了一种伴奏生成方法,该方法将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段以及结束时间后的片段,分别得到头片段和尾片段;裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段以及裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。解决了在原唱伴奏时间轴不匹配的情况下重新制作伴奏成本高以及原唱消除人声方法制作的伴奏带有人声残留的问题;该方法能够生成完整的跟原唱时间轴对齐的伴奏,且省却了重新制作伴奏的成本,以及不会有人声残留。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种伴奏生成方法,其特征在于,包括:
实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;
将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段,得到头片段;以及,裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段,得到尾片段;
裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段;以及,裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;
依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。
2.根据权利要求1所述的方法,其特征在于,所述将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐包括:
当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时,将两个所述字幕文件对齐。
3.根据权利要求2所述的方法,其特征在于,所述将两个所述字幕文件对齐包括:
裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段,得到准头片段;
根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。
4.根据权利要求3所述的方法,其特征在于,所述根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐包括:
当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐;
当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。
5.根据权利要求1所述的方法,其特征在于,所述裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段包括:
判断对齐后的所述伴奏字幕文件或原唱字幕文件中当前字幕的绝对起始时间与上一字幕的绝对结束时间的差值是否小于第二预设时间值;若是,则裁剪所述伴奏音频的音乐片段;若否,则裁剪对应时间的所述原唱音频的音乐片段;
依次按时间将所有的所述伴奏音频的音乐片段和所述原唱音频的音乐片段排序,得到所述多个音频片段。
6.一种伴奏生成系统,其特征在于,包括:
获取单元,用于实时获取原唱音频、原唱字幕文件、伴奏音频和伴奏字幕文件;
第一裁剪单元,用于将待处理的所述原唱字幕文件和待处理的所述伴奏字幕文件的起始时间对齐;并裁剪所述原唱音频在对齐后的所述原唱字幕文件起始时间前的片段,得到头片段;以及,裁剪所述原唱音频在对齐后的所述原唱字幕文件结束时间后的片段,得到尾片段;
第二裁剪单元,用于裁剪所述伴奏音频中与对齐后的所述伴奏字幕文件中的字幕对应的片段,得到多个伴奏片段;以及,裁剪所述伴奏音频与原唱音频中的任意一个的相邻字幕之间的片段,得到多个音频片段;
拼装单元,用于依次按时间将所述头片段、多个伴奏片段、多个音频片段和尾片段拼装,得到新伴奏。
7.根据权利要求6所述的系统,其特征在于,所述第一裁剪单元包括:
判断子单元,用于当判定待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值大于第一预设时间值时,将两个所述字幕文件对齐。
8.根据权利要求7所述的系统,其特征在于,所述第一判断子单元包括:
裁剪模块,用于裁剪所述原唱音频在待处理的所述原唱字幕文件开始前的片段,得到准头片段;
更改模块,用于根据待处理的所述原唱字幕文件的起始时间与待处理的所述伴奏字幕文件的起始时间的差值对所述准头片段进行更改以使两个所述字幕文件的起始时间对齐。
9.根据权利要求8所述的系统,其特征在于,所述更改模块包括:
添加子模块,用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上添加空音频以使两个所述字幕文件的起始时间对齐;
裁剪子模块,用于当待处理的所述伴奏字幕文件的起始时间大于待处理的所述原唱字幕文件的起始时间时,在所述准头片段上裁剪一段音频以使两个所述字幕文件的起始时间对齐。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一项所述的伴奏生成方法。
CN202110563114.7A 2021-05-24 2021-05-24 一种伴奏生成方法、系统及计算机存储介质 Active CN113450744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110563114.7A CN113450744B (zh) 2021-05-24 2021-05-24 一种伴奏生成方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110563114.7A CN113450744B (zh) 2021-05-24 2021-05-24 一种伴奏生成方法、系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113450744A true CN113450744A (zh) 2021-09-28
CN113450744B CN113450744B (zh) 2022-12-09

Family

ID=77810111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110563114.7A Active CN113450744B (zh) 2021-05-24 2021-05-24 一种伴奏生成方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113450744B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778220A (zh) * 2015-03-20 2015-07-15 广东欧珀移动通信有限公司 一种清唱歌曲拼接的方法及装置
US20160014438A1 (en) * 2014-07-14 2016-01-14 Hulu, LLC Caption and Speech Alignment for a Video Delivery System
CN107591149A (zh) * 2017-09-18 2018-01-16 腾讯音乐娱乐科技(深圳)有限公司 音频合成方法、装置及存储介质
CN107680571A (zh) * 2017-10-19 2018-02-09 百度在线网络技术(北京)有限公司 一种歌曲伴奏方法、装置、设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160014438A1 (en) * 2014-07-14 2016-01-14 Hulu, LLC Caption and Speech Alignment for a Video Delivery System
CN104778220A (zh) * 2015-03-20 2015-07-15 广东欧珀移动通信有限公司 一种清唱歌曲拼接的方法及装置
CN107591149A (zh) * 2017-09-18 2018-01-16 腾讯音乐娱乐科技(深圳)有限公司 音频合成方法、装置及存储介质
CN107680571A (zh) * 2017-10-19 2018-02-09 百度在线网络技术(北京)有限公司 一种歌曲伴奏方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹西征等: "面向蒙古族歌曲旋律的自动伴奏算法", 《计算机工程》 *

Also Published As

Publication number Publication date
CN113450744B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
US20080319743A1 (en) ASR-Aided Transcription with Segmented Feedback Training
US20060106609A1 (en) Speech synthesis system
CN105096932A (zh) 有声读物的语音合成方法和装置
CN104347080A (zh) 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质
US20080228487A1 (en) Speech synthesis apparatus and method
CN108877766A (zh) 歌曲合成方法、装置、设备及存储介质
EP1611570B1 (en) System for correction of speech recognition results with confidence level indication
CN110798733A (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
JP2020012855A (ja) テキスト表示用同期情報生成装置および方法
CN109949792B (zh) 多音频的合成方法及装置
CN113450744B (zh) 一种伴奏生成方法、系统及计算机存储介质
JP4436087B2 (ja) 文字データ修正装置、文字データ修正方法および文字データ修正プログラム
CN113096635B (zh) 一种音频和文本的同步方法、装置、设备以及介质
KR20190048371A (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
CN111554329A (zh) 音频剪辑方法、服务器及存储介质
EP1403851B1 (en) Concatenation of voice signals
CN1217808A (zh) 自动语音识别
US20090299744A1 (en) Voice recognition apparatus and method thereof
WO2013011634A1 (ja) 波形処理装置、波形処理方法および波形処理プログラム
CN113903342B (zh) 一种语音识别纠错方法及装置
JPH10228471A (ja) 音声合成システム,音声用テキスト生成システム及び記録媒体
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP2010032918A (ja) 音声合成装置及び音声合成プログラム
JP2002091967A (ja) 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant