CN108231048B

CN108231048B - 修正音频节奏的方法及装置

Info

Publication number: CN108231048B
Application number: CN201711271089.5A
Authority: CN
Inventors: 王国腾
Original assignee: Beijing Xiaochang Technology Co ltd
Current assignee: Beijing Xiaochang Technology Co ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2021-09-28
Anticipated expiration: 2037-12-05
Also published as: CN108231048A

Abstract

本申请公开了一种修正音频节奏的方法，包括采集用户演唱的歌声；对所述歌声进行语音识别后，与用户当前演唱的歌曲的歌词模板进行匹配，得到由匹配成功的字组成的匹配字序列，所述歌词模块中包括歌词及歌词中每个字的标准的发音时间；根据用户演唱时的发音时间和所述歌词模板的标准的发音时间计算所述匹配字序列中每个字的时间偏移量；根据所述时间偏移量和所述时间偏移量对应的字的发音时间计算对用户的演唱时长进行变速处理的变速系数，得到变速系数序列，所述演唱时长为演唱的字之间时间区间；按照所述变速系数序列中每个变速系数进行变速处理。本发明使用变速的方式修正用户演唱的节奏，保证了修正后的演唱节奏的准确性。

Description

修正音频节奏的方法及装置

技术领域

本申请涉及互联网技术领域，具体而言，涉及一种修正音频节奏的方法及装置。

背景技术

随着通信及信息技术的高速发展，音乐功能已经成为计算机或手机等终端中的一项必备应用。先关技术中的具有KTV功能的音乐类产品，大都是按照用户选择的音乐播放伴奏并跟随音乐伴奏显示字幕，用户则按照显示字幕上的字体颜色提示或其他标记提示对应歌词的演唱时间，直至完成整首歌曲。

但是，用户往往因节奏问题无法跟随音乐的节奏进行演唱，存在过早或过晚切入歌词的问题，导致跟不上音乐，演唱完成的歌曲的节奏不准确。相关技术一般采用剪接音频的方式解决这种问题，但是这种方式往往导致用户演唱声音的不连续性。

发明内容

本申请的主要目的在于提供一种通过变速的方式控制用户演唱的节奏，保证用户跟随音乐演唱节奏的准确性。

为了实现上述目的，根据本申请的一个方面，提供了一种修正音频节奏的方法，包括：

采集用户演唱的歌声；

对所述歌声进行语音识别后，与用户当前演唱的歌曲的歌词模板进行匹配，得到由匹配成功的字组成的匹配字序列，所述歌词模块中包括歌词及歌词中每个字的标准的发音时间；

根据用户演唱时的发音时间和所述歌词模板的标准的发音时间计算所述匹配字序列中每个字的时间偏移量；

根据所述时间偏移量和所述时间偏移量对应的字的发音时间计算对用户的演唱时长进行变速处理的变速系数，得到变速系数序列，所述演唱时长为演唱的字之间时间区间；

按照所述变速系数序列中每个变速系数进行变速处理。

进一步地，所述根据每个字的发音时间、时间偏移量计算用户演唱所述匹配字序列中相邻两个字的时长进行变速处理的变速系数之前，包括：

判断所述匹配字序列中每个字的时间偏移量是否在误差阈值范围内；

如果在误差阈值范围内，则确定所述时间偏移量对应的字为需要修正音频节奏，得到修正字序列；

计算对所述修正字序列中相邻两个字的时长进行变速处理的变速系数。

进一步地，所述计算对所述修正字序列中相邻两个字的时长进行变速处理的变速系数之前，包括：

设置计算所述变速系数的变速器。

进一步地，所述计算对所述修正字序列中相邻两个字的时长进行变速处理的变速系数，包括：

获取所述修正字序列中相邻两个字的发音时间；

根据所述相邻两个字的发音时间计算用户演唱所述修正字序列中相邻两个字的原始时长；

分别根据所述修正字序列中相邻两个字中每个字的发音时间、时间偏移量计算所述修正字序列中相邻两个字在所述歌词模板中的标准时长；

根据所述标准时长和所述原始时长的比例，得到变速系数。

进一步地，将所述变速系数序列输入变速器，调整所述变速器的参数；

将所述用户演唱的歌声输入至调整参数后的变速器，得到修正音频节奏的歌声。

进一步，所述将所述变速系数序列输入变速器，调整所述变速器的参数之前，包括：

判断所述变速系数序列中每个变速系数是否符合预设区间范围，是则存储，否则丢弃。

为了实现上述目的，根据本申请的另一方面，提供了一种修正音频节奏的装置，包括：

语音采集单元，用于采集用户演唱的歌声；

演唱匹配单元，用于对所述歌声进行语音识别后，与用户当前演唱的歌曲的歌词模板进行匹配，得到由匹配成功的字组成的匹配字序列，所述歌词模块中包括歌词及歌词中每个字的标准的发音时间；

偏移计算单元，用于根据用户演唱时的发音时间和所述歌词模板的标准的发音时间计算所述匹配字序列中每个字的时间偏移量；

变速计算单元，用于根据所述时间偏移量和所述时间偏移量对应的字的发音时间计算对用户的演唱时长进行变速处理的变速系数，得到变速系数序列，所述演唱时长为演唱的字之间时间区间；

变速处理单元，用于按照所述变速系数序列中每个变速系数进行变速处理。

进一步地，所述偏移计算单元还包括：

偏移判断模块，用于根判断所述匹配字序列中每个字的时间偏移量是否在误差阈值范围内；

修正确定模块，用于如果在误差阈值范围内，则确定所述时间偏移量对应的字为需要修正音频节奏，得到修正字序列；

系数计算模块，用于计算对所述修正字序列中相邻两个字的时长进行变速处理的变速系数。

进一步地，所述系数计算模块还包括：

变速器子模块，用于设置计算所述变速系数的变速器。

进一步地，所述系数计算模块包括：

时间获取子模块，用于获取所述修正字序列中相邻两个字中每个字的发音时间；

原始时长子模块，用于根据所述相邻两个字中每个字的发音时间计算用户演唱所述相邻两个字的原始时长；

标准时长子模块，用于分别根据所述修正字序列中相邻两个字中每个字的发音时间、时间偏移量计算演唱所述相邻两个字的标准时长；

系数计算子模块，用于根据所述标准时长和所述原始时长的比例，得到变速系数。

进一步地，参数输入模块，用于将所述变速系数序列输入变速器，调整所述变速器的参数；

结果输出模块，用于将所述用户演唱的歌声输入至调整参数后的变速器，得到修正音频节奏的歌声。

进一步地，所述参数输入模块还包括：

预处理子模块，用于判断所述变速系数序列中每个变速系数是否符合预设区间范围，是则存储，否则丢弃。

在本申请实施例中，通过语音识别分析用户声音，确定演唱的字的发音时间，再通过歌词模版计算用户演唱的时间偏移量，从而计算变速系数，根据变速系数使用变速的方式调整用户演唱的节奏。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明所述的修正音频节奏的装置的框图结构示意图；

图2为本发明所述偏移计算单元一个实施例的框图结构示意图；

图3为本发明所述系数计算模块一个实施例的框图结构示意图；

图4为本发明所述变速处理单元一个实施例的框图结构示意图；

图5为本发明所述的修正音频节奏的方法的流程示意图；

图6为本发明中计算变速系数一个实施例的流程示意图；以及

图7为本发明中计算变速系数一个实施例的具体工作原理流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1-4所示，本发明提供了一种修正音频节奏的装置，包括语音采集单元10、演唱匹配单元20、偏移计算单元30、变速计算单元40和变速处理单元50。

其中，所述语音采集单元10，用于采集用户演唱的歌声。

所述演唱匹配单元20，用于对所述歌声进行语音识别后，与用户当前演唱的歌曲的歌词模板进行匹配，得到由匹配成功的字组成的匹配字序列，所述歌词模块中包括歌词及歌词中每个字的标准的发音时间。

所述偏移计算单元30，用于根据用户演唱时的发音时间和所述歌词模板的标准的发音时间计算所述匹配字序列中每个字的时间偏移量。所述变速计算单元40，用于根据所述时间偏移量和所述时间偏移量对应的字的发音时间计算对用户的演唱时长进行变速处理的变速系数，得到变速系数序列，所述演唱时长为演唱的字之间时间区间。所述变速处理单元50，用于按照所述变速系数序列中每个变速系数进行变速处理。

本发明通过将歌词模板上歌词中每个字的标准的发音时间与用户演唱每个字的发音时间计算用户演唱的字的时间偏移量，从而计算变速系数，根据变速系数对用户演唱的字之间的演唱时长进行变速处理，提高了用户演唱节奏的精准性，保证了用户演唱歌曲的连续性。

进一步，所述变速计算单元40还可以包括偏移判断模块401，用于根判断所述匹配字序列中每个字的时间偏移量是否在误差阈值范围内；修正确定模块402，用于如果在误差阈值范围内，则确定所述时间偏移量对应的字为需要修正音频节奏，得到修正字序列；系数计算模块403，用于计算所述修正字序列中相邻两个字的演唱时长的变速系数。

进一步地，所述系数计算模块403包括：时间获取子模块4031，用于获取所述修正字序列中相邻两个字中每个字的发音时间；原始时长子模块4032，用于根据所述相邻两个字中每个字的发音时间计算用户演唱所述相邻两个字的原始时长；标准时长子模块4033，用于分别根据所述修正字序列中相邻两个字中每个字的发音时间、时间偏移量计算演唱所述相邻两个字的标准时长；系数计算子模块4034，用于根据所述标准时长和所述原始时长的比例，得到变速系数。

进一步，所述变速处理单元50包括参数输入模块501和结果输出模块502。所述参数输入模块501，用于将所述变速系数序列输入变速器，调整所述变速器的参数。所述结果输出模块502，用于将所述用户演唱的歌声输入至调整参数后的变速器，得到修正音频节奏的歌声。更进一步，所述参数输入模块还包括：预处理子模块，用于判断所述变速系数序列中每个变速系数是否符合预设区间范围，是则存储，否则丢弃。

图5为本发明所述的修正音频节奏的方法的流程示意图。

所述方法包括S101～S105。

在S101中，所述语音采集单元10采集用户演唱的歌声。具体地，语音采集单元可以设置有麦克风的耳机、笔记本、话筒等，通过麦克风采集用户演唱的歌曲。

在S102中，所述演唱匹配单元30对所述歌声进行语音识别后，与用户当前演唱的歌曲的歌词模板进行匹配，得到由匹配成功的字组成的匹配字序列，所述歌词模块中包括歌词及歌词中每个字的标准的发音时间。

所述演唱匹配模块通过语音识别输出用户演唱的每个字，将用户演唱的每个字与所述歌词模板进行匹配，获取用户演唱的和所述歌词模板一致的字。

具体地，所述歌词模板可以在线下载、网络抓取等方式获得，也可以是通过在歌词上标记时间得到。所述歌词模板包括歌词和歌词中每个字的标准的发音时间，所述标准的发音时间就是标准的发音时间，为计算用户演唱的每个字的时间偏移量提供基础。具体地，本发明中所述歌词可以有两个作用，一是在用户演唱时，为用户的演唱提供歌词字幕，二是在对用户的演唱的歌曲进行节奏偏差的修正提供模板。

在S103中，所述偏移计算单元30根据用户演唱时的发音时间和所述歌词模板的标准的发音时间计算所述匹配字序列中每个字的时间偏移量。

在S104中，所述变速计算单元40根据所述时间偏移量和所述时间偏移量对应的字的发音时间计算对用户的演唱时长进行变速处理的变速系数，得到变速系数序列，所述演唱时长为演唱的字之间时间区间。

在S105中，所述变速处理单元50按照所述变速系数序列中每个变速系数进行变速处理。

具体地，所述按照所述变速系数序列中每个变速系数进行变速处理具体包括如下步骤：

将所述变速系数序列输入变速器，调整所述变速器的参数；

图6为本发明中计算变速系数一个实施例的流程示意图。

所述方法包括S201～S203。

S201、判断所述匹配字序列中每个字的时间偏移量是否在误差阈值范围内；

S202、如果在误差阈值范围内，则确定所述时间偏移量对应的字为需要修正音频节奏，得到修正字序列。

S203、计算所述修正字序列中相邻两个字的演唱时长的变速系数。

本发明为了避免匹配字时出现错误，导致节奏修正出错，同时避免大幅度压缩、拉伸音频导致音质损失，本发明通过设置允许的误差阈值范围进行限制，具体实施时，可选的允许的误差区间设为(-200ms,200ms)。

所述方法包括S301～S302。

S301、获取所述修正字序列中相邻两个字中每个字的发音时间。

S302、根据所述相邻两个字中每个字的发音时间计算用户演唱所述相邻两个字的原始时长。

S303、分别根据所述修正字序列中相邻两个字中每个字的发音时间、时间偏移量计算演唱所述相邻两个字的标准时长。

S304、根据所述标准时长和所述原始时长的比例，得到变速系数。

本发明的目的在于将用户演唱的字的时长进行拉伸或压缩处理，根据声音的特征，声音过渡拉伸或压缩都会影响演唱用户的音色。因此为了既对演唱字的时长进行拉伸或压缩处理，又不改变演唱用户的音色，本发明通过大量研究，将预设区间设为(0.5,2)，利用这个范围的变速系数进行变速处理后，既能实现对用户演唱的歌曲进行调整，提高用户演唱节奏的准确性，又不改变演唱用户的音色。

具体地，所述时间偏移量可选的采用二元组进行存储，设t是用户演唱音频中字的发音的起始时间，d是与歌词模版中字的时间偏移量。具体的需要修正音频节奏的每个字的时间偏移量可选的按照<t1,d1>或<t2,d2>进行存储，其中，t1为需要修正的第一个字的发音时间，t2为需要修正的第二个字的发音时间，d1、d2分别为第一个字、第二个字的时间偏移量。假设演唱时长、标准时长、变速系数分别用x、y和s表示，那么演唱时长x＝t2-t1；标准时长y＝(t2+d2)-(t1+d1)，最后计算得到变速系数s＝y/x＝((t2+d2)-(t1+d1))/(t2-t1)＝1+(d2-d1)/(t2-t1)。

需要说明的是，变速系数是对用户的演唱音时长做变速处理的参数。例如，修正字序列中演唱的相邻的两个字的演唱时长为t1到t2时间段，最后通过变速算法将这个时间段内的音频按照计算得到的变速系数进行变速处理，即，进行压缩或拉伸处理。假设变速系数为r，那么输出的该音频的时长为r*(t2-t1)。本发明采用PSOLA完成变速，具体实施时，还可选的采用的变速算法有时域法(SOLA、WSOLA等)、频域法(LSEE-MSTFTM)、参量法(相位声码器、正弦模型)，本发明在此不进行限定。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种修正音频节奏的方法，其特征在于，包括：

采集用户演唱的歌声；

根据所述时间偏移量和所述时间偏移量对应的字的发音时间计算对用户的演唱时长进行变速处理的变速系数，得到变速系数序列，所述演唱时长为演唱的字之间时间区间；以及

按照所述变速系数序列中每个变速系数进行变速处理；

所述根据所述时间偏移量和所述时间偏移量对应的字的发音时间计算对演唱时长进行变速处理的变速系数之前，包括：

计算所述修正字序列中相邻两个字的演唱时长的变速系数。

2.根据权利要求1所述的修正音频节奏的方法，其特征在于，所述计算所述修正字序列中相邻两个字的演唱时长的变速系数，包括：

获取所述修正字序列中相邻两个字中每个字的发音时间；

根据所述相邻两个字中每个字的发音时间计算用户演唱所述相邻两个字的原始时长；

分别根据所述修正字序列中相邻两个字中每个字的发音时间、时间偏移量计算演唱所述相邻两个字的标准时长；

根据所述标准时长和所述原始时长的比例，得到变速系数。

3.根据权利要求1所述的修正音频节奏的方法，其特征在于，所述按照所述变速系数序列中每个变速系数进行变速处理，包括：

将所述变速系数序列输入变速器，调整所述变速器的参数；

4.根据权利要求3所述的修正音频节奏的方法，其特征在于，所述将所述变速系数序列输入变速器，调整所述变速器的参数之前，包括：

5.一种修正音频节奏的装置，其特征在于，包括：

语音采集单元，用于采集用户演唱的歌声；

变速处理单元，用于按照所述变速系数序列中每个变速系数进行变速处理；

所述变速计算单元还包括：

偏移判断模块，用于判断所述匹配字序列中每个字的时间偏移量是否在误差阈值范围内；

系数计算模块，用于计算所述修正字序列中相邻两个字的演唱时长的变速系数。

6.根据权利要求5所述的修正音频节奏的装置，其特征在于，所述系数计算模块包括：

7.根据权利要求5所述的修正音频节奏的装置，其特征在于，所述变速处理单元包括：

参数输入模块，用于将所述变速系数序列输入变速器，调整所述变速器的参数；

8.根据权利要求7所述的修正音频节奏的装置，其特征在于，所述参数输入模块还包括：