CN110379401A

CN110379401A - 一种音乐虚拟合唱系统及方法

Info

Publication number: CN110379401A
Application number: CN201910741359.7A
Authority: CN
Inventors: 杨辞源; 孟泽; 任续超; 张学斌
Original assignee: Black Box Technology (beijing) Co Ltd
Current assignee: Black Box Technology (beijing) Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-10-25

Abstract

本发明实施例公开了一种音乐虚拟合唱系统，所述音乐虚拟合唱系统包括：人声提取模块、合唱音频生成模块、音频混合模块与合唱触发模块，所述人声提取模块从音乐中提取纯净的人声，所述合唱音频生成模块根据提取的人声生成多个具有不同音符长度、不同音色、不同相位的音频数据，所述音频混合模块将多个具有不同音符长度、不同音色、不同相位的音频数据进行混合，生成人声合唱音频文件，所述合唱触发模块接收人发出的合唱开始语音指令与合唱结束语音指令，根据人发出的合唱开始语音指令，匹配相应节点的合唱音频文件，产生合唱效果，根据人发出的合唱结束语音指令，结束合唱。本发明解决了现有音乐处理软件不能进行虚拟合唱的问题。

Description

一种音乐虚拟合唱系统及方法

技术领域

本发明实施例涉及音乐处理技术领域，具体涉及一种音乐虚拟合唱系统及方法。

背景技术

随着音乐软件的快速发展，手机歌唱类APP以及传统KTV对音乐的多样性和多变性有了更多追求，对歌唱者的声音进行处理，能够达到更好的视听效果，在歌唱过程中加入更多元素，有助于提升歌唱的趣味性。

现有音乐处理软件一般能够实现单人歌唱声音的处理，实现变声或跟唱，或添加氛围营造单元，通过系统发出鼓掌声、吹口哨、喝彩声等手段来调节氛围，现有音频技术在单人音色合成上较为成熟，但是并未出现成熟的合唱处理方法，不能根据音乐的原唱人声生成多人合唱的效果，营造多人合唱的氛围，若通过提前录制真实多人合唱人声伴奏，成本高，周期长，难以实现所有歌曲的人声合唱伴奏录制。

发明内容

为此，本发明实施例提供一种音乐虚拟合唱系统及方法，以解决现有音乐处理软件不能进行虚拟合唱的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，公开了一种音乐虚拟合唱系统，所述音乐虚拟合唱系统包括：人声提取模块、合唱音频生成模块、音频混合模块与合唱触发模块，所述人声提取模块从音乐中提取纯净的人声，所述合唱音频生成模块根据提取的人声生成多个具有不同音符长度、不同音色、不同相位的音频数据，所述音频混合模块将多个具有不同音符长度、不同音色、不同相位的音频数据进行混合，生成人声合唱音频文件，所述合唱触发模块接收人发出的合唱开始语音指令与合唱结束语音指令，根据人发出的合唱开始语音指令，匹配相应节点的合唱音频文件，产生合唱效果，根据人发出的合唱结束语音指令，结束合唱。

进一步地，所述人声提取模块利用多尺度神经网络对歌曲进行轨道分离，利用多尺度神经网络中的STL1模型分离人声和伴奏，得到纯人声音频轨道。

进一步地，所述音频混合模块包括：音符长度处理单元、音色处理单元和相位变换单元，所述音符长度处理单元在正负32分音符差异范围内对纯人声音频的音符长度进行改变，生成多个音符长度不同的音频文件，所述音色处理单元对经过音符长度调整的多个音频文件进行音色改变，所述相位变换单元改变音频文件的相位值，营造不同区域发出声音的氛围。

进一步地，所述音符长度处理单元利用librosa音频处理库中的音头获取单元获取纯人声音频的音头数据，将音头数据中的单个值做随机上下浮动处理，在正负32分音符的差异范围之间进行正态分布，生成新的音头数据，将新的音头数据还原映射到原音频文件，生成新的音频文件。

进一步地，所述音色处理单元利用音色处理软件中的MorphVOX Pro插件对音色进行调整，对不同的频段进行衰减或提升，生成不同音色的音频文件。

进一步地，所述相位变换单元对音频的相位值进行调整，对每个音频的相位值在-100至100的范围内取随机值，音频的相位值改变，则输出声道改变，多个不同相位值的音频产生舞台环绕音效果。

进一步地，所述音频混合模块对经过音符长度调整、音色调节和相位值调节的多个音频文件进行合并，经过文件压缩、延迟、混响、均衡和增益处理，得到合唱音频文件。

进一步地，所述合唱触发模块包括：语音接收单元、语音识别单元和指令执行单元，所述语音接收单元接收用户发出的声音信号，语音识别单元对用户的声音信号进行识别，识别到用户发出开始合唱或停止合唱的语音信号后，传送至指令执行单元，指令执行单元开始进行合唱或停止合唱。

进一步地，所述指令执行单元接收到开始进行合唱的指令后，根据当前用户演唱的时间节点对应切入相匹配的合唱音频文件，使合唱音频文件与原伴奏进行无缝对接，用户开始进行合唱，指令执行单元接收到停止合唱的指令后，根据当前用户演唱的合唱音频文件的时间节点切入原伴奏，使合唱音频文件与原伴奏进行无缝对接，停止合唱。

根据本发明实施例的第二方面，公开了一种音乐虚拟合唱方法，所述方法为：

利用人声提取模块从音乐中分离出纯净的人声音频轨道；

音符长度处理单元在正负32分音符差异范围内对纯人声音频的音符长度进行改变，生成多个音频文件；

音色处理单元对多个音频文件的音色进行调整，生成不同声色的音频文件；

相位变换单元对每个音频的相位值进行调整，在-100至100的范围内取随机值；

音频混合模块对经过音符长度调整、音色调节和相位值调节的多个音频文件进行合并；

合唱触发模块的语音接收单元接收用户发出的声音信号，语音识别单元对用户的声音信号进行识别，识别到用户发出开始合唱或停止合唱的语音信号后，传送至指令执行单元；

指令执行单元根据用户发出的开始合唱语音指令，切入合唱音频文件，用户开始合唱，指令执行单元根据用户发出的停止合唱语音指令，停止合唱并切入原伴奏。

本发明实施例具有如下优点：

本发明实施例公开了一种音乐虚拟合唱系统及方法，通过人声提取模块分离人声轨道，利用合唱音频生成模块在人声轨道的基础上改变音符长度、调整音色、调节相位值，生成多个新的音频数据，音频混合模块将多个新的音频数据进行混合生成合唱音频文件，合唱触发模块接收用户的语音指令，控制接入合唱音频文件或结束合唱切回原伴奏，实现了个人唱歌具有演唱会合唱的氛围，合唱音频生成效果清晰、干净，用户学习成本低，简单易用。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例1提供的一种音乐虚拟合唱系统的流程图；

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开了一种音乐虚拟合唱系统，包括：人声提取模块、合唱音频生成模块、音频混合模块与合唱触发模块，所述人声提取模块从音乐中提取纯净的人声，所述合唱音频生成模块根据提取的人声生成多个具有不同音符长度、不同音色、不同相位的音频数据，所述音频混合模块将多个具有不同音符长度、不同音色、不同相位的音频数据进行混合，生成人声合唱音频文件，所述合唱触发模块接收人发出的合唱开始语音指令与合唱结束语音指令，根据人发出的合唱开始语音指令，匹配相应节点的合唱音频文件，产生合唱效果，根据人发出的合唱结束语音指令，结束合唱。

通过提前生成合唱音频文件，在用户演唱时，能够随时切入合唱音频文件，产生合唱氛围，根据用户需求，能够随时停止合唱切回原伴奏。

人声提取模块利用多尺度神经网络对歌曲进行轨道分离，利用多尺度神经网络中的STL1模型分离人声和伴奏，得到纯人声音频轨道，STL1模型提取人声效果优于传统的音频提取方法，能够得到更纯净的人声。

音频混合模块包括：音符长度处理单元、音色处理单元和相位变换单元，所述音符长度处理单元在正负32分音符差异范围内对纯人声音频的音符长度进行改变，生成多个音符长度不同的音频文件，所述音色处理单元对经过音符长度调整的多个音频文件进行音色改变，所述相位变换单元改变音频文件的相位值，营造不同区域发出声音的氛围。

音符长短的变动处理为了模拟每个人对音乐节奏和音符延时变化的个体差异，不同的人演唱同样的歌曲能够保证整体的一致性，但是无法保证节奏相同，为了模拟每个人演唱的差异，调整音符的起止时间达到变换的效果。音符的变化直观体现在音头上，音符长度处理单元利用librosa音频处理库中的音头获取单元获取纯人声音频的音头数据，将音头数据中的单个值做随机上下浮动处理，在正负32分音符的差异范围之间进行正态分布，生成新的音头数据，将新的音头数据还原映射到原音频文件，生成新的音频文件。为了使得差异性更加真实并且避免出现过于不贴合原节奏的现象，在0(无差异)到32分音符(最大差异)之间用正态分布的方式生成新数据，分布中的μ(对称轴)为0，横轴无穷远处为正负32分音符。调整后的音符差别长度在正负32音符的范围内，不会出现不合拍现象。

营造多人合唱的氛围，每个人的音色不同，原人声轨道的音色单一，需要改变声色，生成多个不同音色的音频文件，音色处理单元利用音色处理软件中的MorphVOX Pro插件对音色进行调整，对不同的频段进行衰减或提升，生成不同音色的音频文件，常用音色处理软件包括：ChangeVoice、fmod、Audition，实现音色的改变。

声音中的相位是指左右空间的发声的位置，一般在各种音频处理和编曲软件中-100指的是完全左声道输出，100则是右声道，0是中间(左右平均)。演唱会台下的观众很多，从左到右甚至从四周将演唱者包围，观众们合唱则发出的声音肯定不是只在中间一个点上而是四面八方。通过调整声音的相位来模拟合唱场景。相位变化的目的是使多个音频文件可以均匀的散布在空间中，相位变换单元对音频的相位值进行调整，对每个音频的相位值在-100至100的范围内取随机值，音频的相位值改变，则输出声道改变，多个不同相位值的音频产生舞台环绕音效果。特殊的舞台如T型舞台，可以根据平面几何来计算相位的随机分布。ambisonics-3d-audio音频处理库可以实现声音相位的变换，可以实现音频文件的相位值变换。

音频混合模块对经过音符长度调整、音色调节和相位值调节的多个音频文件进行合并，经过文件压缩、延迟、混响、均衡和增益处理，得到合唱音频文件，一个音频文件代表一个人的演唱，多个音频文件的混合产生多人合唱的氛围效果。

合唱触发模块包括：语音接收单元、语音识别单元和指令执行单元，所述语音接收单元接收用户发出的声音信号，语音识别单元对用户的声音信号进行识别，识别到用户发出开始合唱或停止合唱的语音信号后，传送至指令执行单元，指令执行单元开始进行合唱或停止合唱。

指令执行单元接收到开始进行合唱的指令后，例如用户说出“一起来”的语音指令，根据当前用户演唱的时间节点对应切入相匹配的合唱音频文件，使合唱音频文件与原伴奏进行无缝对接，用户开始进行合唱，产生多人合唱的氛围，指令执行单元接收到停止合唱的指令后，例如用户说出“太棒了”的语音指令，根据当前用户演唱的合唱音频文件的时间节点切入原伴奏，使合唱音频文件与原伴奏进行无缝对接，停止合唱；或者设置八个小节后自动退出合唱。

实施例2

本实施例公开了一种音乐虚拟合唱方法，利用人声提取模块从音乐中分离出纯净的人声音频轨道；

实现用户在演唱过程中能够随时进入合唱的演唱氛围，增加演唱的趣味性，合唱音频生成效果清晰、干净，用户学习成本低，简单易用。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种音乐虚拟合唱系统，其特征在于，所述音乐虚拟合唱系统包括：人声提取模块、合唱音频生成模块、音频混合模块与合唱触发模块，所述人声提取模块从音乐中提取纯净的人声，所述合唱音频生成模块根据提取的人声生成多个具有不同音符长度、不同音色、不同相位的音频数据，所述音频混合模块将多个具有不同音符长度、不同音色、不同相位的音频数据进行混合，生成人声合唱音频文件，所述合唱触发模块接收人发出的合唱开始语音指令与合唱结束语音指令，根据人发出的合唱开始语音指令，匹配相应节点的合唱音频文件，产生合唱效果，根据人发出的合唱结束语音指令，结束合唱。

2.如权利要求1所述的一种音乐虚拟合唱系统，其特征在于，所述人声提取模块利用多尺度神经网络对歌曲进行轨道分离，利用多尺度神经网络中的STL1模型分离人声和伴奏，得到纯人声音频轨道。

3.如权利要求1所述的一种音乐虚拟合唱系统，其特征在于，所述音频混合模块包括：音符长度处理单元、音色处理单元和相位变换单元，所述音符长度处理单元在正负32分音符差异范围内对纯人声音频的音符长度进行改变，生成多个音符长度不同的音频文件，所述音色处理单元对经过音符长度调整的多个音频文件进行音色改变，所述相位变换单元改变音频文件的相位值，营造不同区域发出声音的氛围。

4.如权利要求3所述的一种音乐虚拟合唱系统，其特征在于，所述音符长度处理单元利用librosa音频处理库中的音头获取单元获取纯人声音频的音头数据，将音头数据中的单个值做随机上下浮动处理，在正负32分音符的差异范围之间进行正态分布，生成新的音头数据，将新的音头数据还原映射到原音频文件，生成新的音频文件。

5.如权利要求3所述的一种音乐虚拟合唱系统，其特征在于，所述音色处理单元利用音色处理软件中的MorphVOX Pro插件对音色进行调整，对不同的频段进行衰减或提升，生成不同音色的音频文件。

6.如权利要求3所述的一种音乐虚拟合唱系统，其特征在于，所述相位变换单元对音频的相位值进行调整，对每个音频的相位值在-100至100的范围内取随机值，音频的相位值改变，则输出声道改变，多个不同相位值的音频产生舞台环绕音效果。

7.如权利要求1所述的一种音乐虚拟合唱系统，其特征在于，所述音频混合模块对经过音符长度调整、音色调节和相位值调节的多个音频文件进行合并，经过文件压缩、延迟、混响、均衡和增益处理，得到合唱音频文件。

8.如权利要求1所述的一种音乐虚拟合唱系统，其特征在于，所述合唱触发模块包括：语音接收单元、语音识别单元和指令执行单元，所述语音接收单元接收用户发出的声音信号，语音识别单元对用户的声音信号进行识别，识别到用户发出开始合唱或停止合唱的语音信号后，传送至指令执行单元，指令执行单元开始进行合唱或停止合唱。

9.如权利要求8所述的一种音乐虚拟合唱系统，其特征在于，所述指令执行单元接收到开始进行合唱的指令后，根据当前用户演唱的时间节点对应切入相匹配的合唱音频文件，使合唱音频文件与原伴奏进行无缝对接，用户开始进行合唱，指令执行单元接收到停止合唱的指令后，根据当前用户演唱的合唱音频文件的时间节点切入原伴奏，使合唱音频文件与原伴奏进行无缝对接，停止合唱。

10.一种音乐虚拟合唱方法，其特征在于，所述方法为：

利用人声提取模块从音乐中分离出纯净的人声音频轨道；