CN116438599A

CN116438599A - 通过标准arm嵌入式平台上的卷积神经网络嵌入式语音指纹进行人声轨道去除

Info

Publication number: CN116438599A
Application number: CN202080106357.1A
Authority: CN
Inventors: 郑剑文; S-F·施; 李开; 迟诚
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-07-14
Also published as: US20230306943A1; EP4233052A1; WO2022082607A1

Abstract

提供了一种人声去除方法及其系统。在所述人声去除方法中，生成并训练语音分离模型以处理实时输入音乐来分离语音和伴奏。所述人声去除方法还包括进行特征提取和重建以获得语音最小化音乐的步骤。

Description

通过标准ARM嵌入式平台上的卷积神经网络嵌入式语音指纹进行人声轨道去除

技术领域

本发明的主题总体涉及人声轨道去除技术。更具体地，本发明的主题涉及一种用于通过卷积神经网络嵌入式语音指纹进行人声轨道去除的方法。

背景技术

第一台卡拉OK机是一位日本音乐家发明的。不久之后，一个娱乐团体在一台机器上创造了这个短语，在管弦乐队罢工之后，替代地使用所述机器来播放音乐。此短语“卡拉OK”意指“无人管弦乐队”。

起初市场很小，但一段时间后，许多人对这些机器产生了更大的兴趣，因此对它们的需求迅速增加。在过去的几十年里，卡拉OK已经成为流行的互动娱乐活动，并传播到诸如韩国、中国、美国和欧洲的新的地方，全球卡拉OK市场估计价值超过10亿美元。许多业余爱好者喜欢随着屏幕上的歌词对着卡拉OK系统中的麦克风跟唱一首歌。卡拉OK的真正魅力在于它适合任何人，而不仅仅是能够唱得好的那些人。而且人们可在任何地方用卡拉OK机唱歌，诸如卡拉OK俱乐部、酒吧以及甚至大街上，在大街上，听众可能会听出并跟着一起唱。它将人们聚集在一起欣赏音乐，并营造出有趣且相互联结的氛围。当然，歌曲选择在卡拉OK中起着重要的作用，因为我们需要表演一些众所周知的内容，这将在房间里引起共鸣。与这些歌曲的情感联结是使人们参与其中的原因，无论他们是否是站在麦克风前的那位。

当前，我们可在许多公共俱乐部发现卡拉OK，甚至可在自己舒适的家中利用基于卡拉OK的扬声器系统(诸如JBL的产品系列“Partybox”)享受卡拉OK。通常在卡拉OK系统中，音乐播放时没有人声，使得用户能够仅跟着伴奏唱歌，并且将不会受到原唱歌手的人声影响。然而，很难找到与一首歌对应的伴奏，或者买下所有想唱歌曲的伴奏可能会花费巨大。因此，需要一种语音去除算法。

发明内容

本发明的主题通过提供一种人声去除方法克服了一些缺点。所述方法包括以下步骤：通过机器学习模块来训练语音分离模型；使用特征提取模块来提取输入音乐的音乐信号处理特征；通过所述语音分离模型处理所述输入音乐，以单独获得语音谱图掩码和伴奏谱图掩码；以及通过特征重建模块来重建语音最小化音乐。

本发明的主题还提供了一种人声去除系统。所述人声去除系统包括：机器学习模块，所述机器学习模块用于训练语音分离模型。特征提取模块用于提取输入音乐的音乐信号处理特征。语音分离模型用于处理所述输入音乐，以单独获得语音谱图掩码和伴奏谱图掩码。并且特征重建模块用于重建语音最小化音乐。

替代地，生成所述语音分离模型并且将其置于嵌入式平台上。

替代地，所述语音分离模型包括卷积神经网络。

替代地，训练所述语音分离模型包括通过机器学习修改模型特征。

替代地，提取所述输入音乐的所述音乐信号处理特征包括合成所述输入音乐的谱图图像。

替代地，所述音乐信号处理特征包括窗口形状、频率分辨率、时间缓冲和重叠百分比。

替代地，所述输入音乐的所述谱图图像使用所述音乐信号处理特征来合成。

替代地，处理所述输入音乐包括将所述输入音乐的谱图幅度输入到所述语音分离模型中。

替代地，所述人声去除方法还包括修改所述音乐信号处理特征。

替代地，所述人声去除方法还包括加强学习所述语音分离模型。

附图说明

参考附图，通过阅读以下对非限制性实施方案的描述可更好地理解本发明的主题。在附图中，相同附图标号指代对应部分，其中：

图1示出根据一个和多个实施方案的优化语音分离模型的示例性流程图；

图2是根据一个和多个实施方案生成的示例性语音分离模型；

图3示出根据一个和多个实施方案的用于获得语音和伴奏在谱图上的概率的示例性流程图。

具体实施方式

下文公开了本发明的主题的实施方案的详细描述；然而，应当理解，所公开的实施方案仅仅是可以各种和替代形式体现的本发明的主题的示例。附图不一定按比例绘制；一些特征可能被放大或最小化以示出特定部件的细节。因此，本文所公开的具体结构和功能细节不应被解释为限制性的，而仅仅是教导本领域技术人员以不同方式采用本发明的主题的代表性基础。

由于许可证和硬件限制，当前卡拉OK机配备有有限的无歌词预处理音乐。这对用户体验有两个主要影响。第一个是硬件相关的，因为将需要考虑额外的存储和音乐分类机制。其次，由于诸如MIDI的编解码器转换，卡拉OK音乐文件通常是重混音的，并且通常比原始声音的谐波复杂度低。最后，卡拉OK机中实现的搜索特征也各不相同，有时用户很难找到他们想唱的歌曲。替代地，也提出了软件应用程序来解决此问题，诸如一些已知的中国卡拉OK应用程序“全民K歌”和“唱吧”。这些软件包将其预处理的音乐剪辑保存在云端，并且提供作为流式传输服务的解决方案。然而，尽管云服务解决方案可能潜在地解决音乐重混音问题，但它可能会受到搜索特征和另外的网络连接质量问题的影响。

由于人声和器乐的能量在谱图上具有不同的分布，因此可将音乐或歌曲中的人声与伴奏分离。为了完成此任务，机器学习和深度神经网络模型用于实时高效地分离人声和伴奏。

由于机器学习的最新进展，通过组合语音指纹识别和二进制掩码，可潜在地将人声与音乐分离，因为此方法可采用任何离线音频文件并将结果分离成语音和背景音乐。概念证明可存在于诸如UnMix和Spleeter的一些已知的音乐多轨分离工具。UnMix提供了基于深度神经网络的深度学习框架的实现方式，它提供了预训练模型来尝试和使用源分离。类似地，Spleeter是具有预训练模型的音乐源分离库。它可很容易地在隔离源的数据集准备好时训练源分离模型，并且提供经训练模型来执行各种分离。信号失真比(SDR)、信号干扰比(SIR)和信号伪影比(SAR)在方法中用作分离评估方法，并且它可在我们将在下文讨论的一些测试数据集上获得高分。然而，由于它们都是离线模型，因此用户将必须上传整个音频剪辑，并且通常采用Windows PC或基于网络的应用程序来转换歌曲。对用户而言，所述过程增加了复杂性，因为他们需要安装PC或移动应用程序，这则需要另一台机器来回放音频。

为了减少卡拉OK应用程序中播放音乐的时间，本发明的主题提出将包括混响和啸叫抑制的语音处理技术与利用机器学习进行语音去除组合。本发明的主题为语音分离模型提供实时端到端模型，这通过以下步骤来实现：(1)优化实时推理模型；(2)进行特征工程化以找到最佳特征空间进行语音识别和实时背景音频重建；以及(3)利用另外的真实和合成数据集进行加强学习。

图1示出根据一个和多个实施方案的优化语音分离模型的示例性流程图。在此示例中，在步骤110处通过离线训练工具(诸如已知的名为TensorFlow的训练工具，或另一已知的名为Pytorch的训练工具)生成语音分离模型。TensorFlow和Pytorch两者提供深度机器学习框架。在步骤120处，由于在嵌入式实时系统上运行机器学习模型明显更受资源约束，因此需要通过使用例如Tensorflow Lite转换器将所生成语音分离模型转换为高效推理模型。通常，Tenserflow Lite转换器被设计来在计算和内存资源有限的嵌入式设备上高效地执行模型。因此，语音分离模型被转换成压缩平面缓冲区，并因此减少了其文件数据。

在图1的下一步骤130中，将语音分离模型的压缩文件加载到嵌入式设备(诸如已知的标准ARM(高级RISC机器)嵌入式平台)中以供模型训练和使用。之后，文件大小可进行进一步减小，并且通过在步骤140处将32位浮点数转换为更高效的8位整数来量化。这样，可将语音分离模型的文件压缩到例如原始大小的1/4。

接下来，在示例中，语音分离模型被生成为一种卷积神经网络。图2示出语音分离模型的示例性架构。在示例中，语音分离模型的架构是通常可被描述为包括编码器层和解码器层的二维(2D)卷积神经网络。编码器层中的每一个包括表示为‘conv2d’的2D卷积、表示为‘batch_normalization’的批归一化和表示为‘leaky_re_lu’的整流线性单元的泄露版本。如从图2可看出，音乐谱图幅度被输入到2D卷积神经网络，并且进入第一编码器层。这里，音乐谱图幅度由多个2D卷积处理。在此2D卷积神经网络的编码器层中包括六个2D卷积，分别表示为conv2d_0、conv2d_1、conv2d_2、conv2d_3、conv2d_4和conv2d_5。2D卷积可通过调用TensorFlow中的函数conv2d来实现。可看出的是，除了第一2D卷积(Conv2d_0)之外，在后续2D卷积中的每一个之前分别添加批归一化(Batch_normalization)层和整流线性单元的泄露版本(Leaky_re_lu)。

解码器层布置在最后一个2D卷积(Conv2d_5)之后。类似地，在解码器层中存在分别表示为Conv2d_transpose_0、Conv2d_transpose_1、Conv2d_transpose_2、Conv2d_transpose_3、Conv2d_transpose_4和Conv2d_transpose_5的六个2D卷积转置。在2D卷积转置中的每一个之后使用整流线性单元(Re_lu)和批归一化(Batch_normalization)。因此，在此2D卷积神经网络中，在由编码器层中的六个2D卷积和解码器层中的六个2D卷积转置处理之后，结果谱图恢复到其原始大小。

如图2所示，在解码器层中，2D卷积转置的每个结果在进入下一2D卷积转置之前进一步与前一编码器层中的对应2D卷积的结果串接。如图所示，解码器中的第一2D卷积转置(Conv2d_transpose_0)的结果与编码器中的第五2D卷积(Conv2d_4)的结果串接，解码器中的第二2D卷积转置(Conv2d_transpose_1)的结果与编码器中的第四2D卷积(Conv2d_3)的结果串接，第二2D卷积转置(Conv2d_transpose_2)的结果与第四2D卷积(Conv2d_2)的结果串接，第二2D卷积转置(Conv2d_transpose_2)的结果与第四2D卷积(Conv2d_2)的结果串接，第二2D卷积转置(Conv2d_transpose_3)的结果与第四2D卷积(Conv2d_1)的结果串接，并且第五2D卷积转置(Conv2d_transpose_4)的结果与第一2D卷积(Conv2d_0)的结果串接。然后，在最后一个2D卷积转置(Conv2d_transpose_5)之后，语音分离模型在其输出层处结束。针对音乐谱图幅度输入，语音分离模型的输出获得语音指纹。语音指纹可被认为是语音分离模型的总结特征。在示例中，语音指纹反映2D卷积神经网络中的每个层的权重。

在示例中，语音分离模型中的批归一化按批执行归一化，这对每个层的结果进行重新归一化并且提供良好的数据来通过神经网络的下一层。其表达为f(x)＝max(0,x)的函数在2D卷积转置之后执行的整流线性单元(ReLU)以及其表达为f(x)＝max(kx,0)的函数在2D卷积之后执行的整流线性单元的泄露版本(Leaky_re_lu)两者用于防止语音分离模型中的梯度消失问题。此外，在图2的示例中，对六个2D卷积转置的前三层使用50％丢弃(dropout)，这是为了防止语音分离模型过拟合。

语音分离模型可使用具有其已知的语音轨道以及其已知的伴奏轨道的音乐来训练。此音乐的语音指纹可根据已知的语音轨道和已知的伴奏轨道计算。分别将此音乐的这些语音指纹作为经训练语音指纹置于语音分离模型的输出层上以及将此音乐的谱图幅度置于输入层上，语音分离模型可通过机器学习不断地尝试并修改模型特征来训练。在2D卷积神经网络中，在模型训练期间修改的模型特征包括诸如卷积核的权重和偏置，以及批归一化矩阵参数。

经训练语音分离模型具有固定模型特征和参数。通过使用经训练模型来处理新音乐谱图幅度输入，可获得语音和伴奏在谱图上的概率。经训练模型可预期实现更多实时处理能力和更佳性能。

图3示出用于获得语音和伴奏在谱图上的概率的示例性流程图。在示例中，存在需要去除语音的新音乐片段。在步骤310处，将音乐谱图幅度输入到经训练语音分离模型中。在于步骤320处通过2D卷积神经网络进行处理之后，在步骤330处获得语音指纹。同样，在步骤340处利用2D卷积处理语音指纹，在步骤350处可获得每个频率间隔的语音和伴奏在谱图的每个像素中的概率。

音乐片段的谱图幅度是以时间维度和频率维度表示的二维图。因此，谱图幅度可通过诸如横坐标的时间单位和纵坐标的频率单位被划分成多个像素。可标记语音和伴奏在谱图上的每个像素中的概率。因此，语音掩码和伴奏掩码分别通过组合标记其相应概率的像素来获得。通过将由经训练语音分离模型获得的语音谱图掩码应用于原始输入音乐谱图幅度的幅度，给出输出语音谱图幅度。因此，语音频谱图掩模可用于音频重建。

由于模型的训练时间通常基于离线处理，因此通常不考虑计算资源以提供最佳性能。第一个问题是音乐输入的大小不切实际，音乐输入的持续时间太长并将导致一分钟延迟。原始网络未进行声学优化，因此另外提供了以下特征提取和重建的处理。

为引入特征提取和重建，存在一些定义，包括如下：

x(t)：时域表示中的输入信号；

X(f)：短时傅里叶变换之后频域表示中的输入信号；

X_n(f)：从时间帧n开始的输入信号的谱图。

当音乐片段x(t)需要通过深度神经网络处理以提取其特征并重建其伴奏时，首先需要将输入音乐变换为频域表示，然后通过以下合成其谱图图像：

x(t)＝overlap(input，50％) (1)

x_h(t)＝windowing(x(t)) (2)

X_n(f)＝FFT(x_h(t)) (3)

X_nb(f)＝[|X₁(f)|，|X₂(f)|…|X_n(f)|] (4)

其中函数overlap(*)和windowing(*)分别为重叠和开窗处理；FFT是傅立叶变换，并且|*|是绝对值运算符，并且X_nb(f)是X_n(f)的缓冲区。因此，X_nb(f)表示音乐片段x(t)的合成谱图幅度图像。

然后，将X_nb(f)输入到2D卷积神经网络并且对其进行处理以获得结果经处理谱图X_nbp(f)。因此，X_nbp(f)表示语音谱图掩码或伴奏谱图掩码。

之后，将经处理谱图X_nbp(f)与原始输入谱图组合，以通过如下使用平滑来防止伪影：

Y_nb(f)＝X_nb(f)*(1-α(f))+X_nbp(f)*α(f) (5)

其中X_nbp(f)是通过深度神经网络处理获得的经处理谱图。系数α是由α＝sigmoid(语音掩码)*(感知频率权重)得到，并且sigmoid函数定义为

其中参数语音掩码代表语音谱图掩码，其中感知频率权重由实验值确定。

最后，可将这里由经训练语音分离模型预测的语音幅度掩码或伴奏幅度掩码应用于原始谱图的幅度，以获得输出语音谱图或输出伴奏谱图。利用短时傅里叶逆变换和重叠相加方法将谱图变换回时域，如下：

y_b(t)＝iFFT(Y_nbc(f)) (7)

y_h(t)＝windowing(y_b(t)) (8)

y(t)＝overlap_add(y_h(t)，50％) (9)

其中iFFT是傅立叶逆变换，并且overlap_add(*)是over-add方法中使用的重叠相加函数。

上文提供的特征提取和重建的处理可被认为是新添加到卷积神经网络中的层。经升级语音分离模型可通过包括卷积神经网络外加上述新添加层来描述。包括在此经升级语音分离模型中的音乐信号处理特征(诸如窗口形状、频率分辨率、时间缓冲和重叠百分比)可通过机器学习来修改。

将经升级语音分离模型转换为实时可执行模型之后，我们最终能够听到经重建语音最小化音乐。

最后，最后一步是利用另外的真实和合成数据集进行加强学习。在将经升级语音分离模型固定在适当位置的情况下，由于已经修改模型特征的多个参数，因此模型的性能已得到极大改进。为了最小化特征空间未对齐的影响，我们需要使用具有另外数据的新参数空间来加强所提供的经升级语音分离模型。在这种情况下，需要具有其已知的声道的音乐的另外的数据。例如，另外的数据可来自已知的音乐数据库“Musdb18”，所述音乐数据库是不同体裁的150条全长音乐轨道(约10h持续时间)及其孤立的鼓、贝斯、人声和其他主干的数据集。它包含两个文件夹，即具有由100首歌曲构成的训练集“训练”的文件夹，以及具有由50首歌曲构成的测试集“测试”的文件夹。监督方法应在训练集上进行训练，并且在两个集合上进行测试。在示例中，所有信号都是立体声的并且以44.1kHz编码。又如，模型的用户也可使用他们自己的专有数据集，所述专有数据集具有语音轨道和背景音乐轨道(诸如钢琴、吉他等)两者的分离的多轨道。在此示例中，用户可通过特征提取和存储经修改音乐信号特征运行数据集。然后，拥有旧预训练模型、训练框架、经转换特征空间，用户能够使用迁移学习从旧音乐信号特征适应新音乐信号特征。

通过使用具有迁移学习的现代机器学习模型，一个用户能够为多个用户部署实时语音去除。本发明的主题消除了对常规卡拉OK机中的搜索功能的需要，并且最小化卡拉OK轨道与原始轨道之间的差异。通过进一步将模型与混响和啸叫抑制组合，可创建完整系统，所述完整系统允许将任何音乐流转换为卡拉OK轨道，并且允许用户利用任意模拟麦克风以低延迟唱歌。

如本申请中所使用，以单数叙述并以词语“一个”或“一种”开头的要素或步骤应被理解为不排除复数个所述要素或步骤，除非说明有这种排除。此外，对本公开的“一个实施方案”或“一个示例”的引用并不意图被解释为排除也包含所述特征的另外的实施方案的存在。术语“第一”、“第二”和“第三”等仅用作标记，并且不意图对它们的对象强加数值要求或特定的位置顺序。

虽然上文描述了示例性实施方案，但这并不意味着这些实施方案描述了本发明的主题的所有可能的形式。更确切地说，说明书中使用的词语是描述性而非限制性词语，并且应当理解，在不脱离本发明的主题的精神和范围的情况下，可进行各种改变。另外，可组合各种实现的实施方案的特征以形成本发明的主题的另外的实施方案。

Claims

1.一种人声去除方法，其包括以下步骤：

通过机器学习模块训练语音分离模型；

通过特征提取模块提取输入音乐的音乐信号处理特征；

通过所述语音分离模型处理所述输入音乐，以单独获得语音谱图掩码和伴奏谱图掩码；

通过特征重建模块重建语音最小化音乐。

2.如权利要求1所述的人声去除方法，其中生成所述语音分离模型并且将其置于嵌入式平台上。

3.如权利要求1或2所述的人声去除方法，其中所述语音分离模型包括卷积神经网络。

4.如权利要求3所述的人声去除方法，其中训练所述语音分离模型包括通过机器学习修改模型特征。

5.如权利要求1所述的人声去除方法，其中提取所述输入音乐的所述音乐信号处理特征包括合成所述输入音乐的谱图图像。

6.如权利要求1所述的人声去除方法，其中所述音乐信号处理特征包括窗口形状、频率分辨率、时间缓冲和重叠百分比。

7.如权利要求5所述的人声去除方法，其中所述输入音乐的所述谱图图像使用所述音乐信号处理特征来合成。

8.如权利要求1所述的人声去除方法，其中处理所述输入音乐包括将所述输入音乐的谱图幅度输入到所述语音分离模型中。

9.如权利要求1所述的人声去除方法，其还包括：修改所述音乐信号处理特征。

10.如权利要求1所述的人声去除方法，其还包括：加强学习所述语音分离模型。

11.一种人声去除系统，其包括：

机器学习模块，所述机器学习模块用于训练语音分离模型；

特征提取模块，所述特征提取模块用于提取输入音乐的音乐信号处理特征，其中所述语音分离模型处理所述输入音乐，以单独获得语音谱图掩码和伴奏谱图掩码；

通过特征重建模块重建语音最小化音乐。

12.如权利要求11所述的人声去除系统，其中生成所述语音分离模型并且将其置于嵌入式平台上。

13.如权利要求11或12所述的人声去除系统，其中所述语音分离模型包括卷积神经网络。

14.如权利要求13所述的人声去除系统，其中训练所述语音分离模型包括通过机器学习修改模型特征。

15.如权利要求11所述的人声去除系统，其中提取所述输入音乐的所述音乐信号处理特征包括合成所述输入音乐的谱图图像。

16.如权利要求11所述的人声去除系统，其中所述音乐信号处理特征包括窗口形状、频率分辨率、时间缓冲和重叠百分比。

17.如权利要求15所述的人声去除系统，其中所述输入音乐的所述谱图图像使用所述音乐信号处理特征来合成。

18.如权利要求11所述的人声去除系统，其中处理所述输入音乐包括将所述输入音乐的谱图幅度输入到所述语音分离模型中。

19.如权利要求11所述的人声去除系统，其还包括：修改所述音乐信号处理特征。

20.如权利要求11所述的人声去除系统，其还包括：加强学习所述语音分离模型。