CN111508519A

CN111508519A - 一种音频信号人声增强的方法及装置

Info

Publication number: CN111508519A
Application number: CN202010259819.5A
Authority: CN
Inventors: 邓峰; 姜涛; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-08-07
Anticipated expiration: 2040-04-03
Also published as: CN111508519B

Abstract

本公开关于一种音频信号人声增强的方法及装置，涉及多媒体技术领域，能够以较低的数据处理复杂度，解决实时音频文件传输中的人声对话增强的技术问题。该方法包括：对原始音频信号进行加窗分帧处理，得到多个音频信号片段；根据多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数；其中，每个音频信号片段的多个特征参数包括每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数；根据神经网络算法依次对每个音频信号片段片段进行增强处理，分别得到每个音频信号片段的人声增强信号；将每个音频信号片段的人声增强信号依次叠接相加，得到目标增强信号。

Description

一种音频信号人声增强的方法及装置

技术领域

本公开涉及多媒体技术领域，尤其涉及一种音频信号人声增强的方法及装置。

背景技术

随着多媒体技术的发展，视频直播和视频共享成为一种时尚而普遍的娱乐方式。但是，通常视频中除了人声，会存在比较明显的噪声，例如风声、铃声或车量鸣笛声等，尤其当用户在户外录制视频或者做视频直播时，外界环境通常比较嘈杂，这些噪声使得用户很难听清楚视频中的人声对话，严重影响用户的听觉效果。

目前人声对话增强的技术方案，采用循环神经网络(Recurrent Neural Network，RNN)或者卷积神经网络(Convolutional Neural Network，CNN)进行深度学习，虽然能获得比较好的人声增强效果，但其网络神经元单元数很多，神经网络的算法复杂度很高，只能离线运行，不能满足直播等实时的音频信号人声增强的要求。

发明内容

本公开提供一种音频信号人声增强的方法及装置，以至少解决现有技术算法复杂度高，不能满足实时音频的人声增强问题，从而以较低的数据处理复杂度，有效地提升音频文件中人声对话增强的效果。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频信号增强的方法，该方法包括：对原始音频信号进行加窗分帧处理，得到多个音频信号片段；根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数；其中，所述每个音频信号片段的多个特征参数包括所述每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数；根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强信号；将所述每个音频信号片段的人声增强信号依次叠接相加，得到目标增强信号。

上述技术方案中，通过将音频信号分割为较小的处理单位，并进行Bark子带划分后提取特征bark子带的特征参数作为神经网络深度学习的参数，使得音频处理的延时减小，减小运算的复杂度；同时，Bark子带划分的原理就是依据人声特征的临界频带划分方法，使得该方案能够根据人声特征进行音频信号的增强，改善现有技术中人声对话的效果。

在一种可能的实施方式中，多个特征参数包括所述多个Bark子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。上述可能的实现方式中，通过将音频信号片段对应的幅度谱划分为多个Bark子带，提取每个Bark子带的特征参数作为神经网络的训练参数，相比直接对音频信号片段的幅度谱进行参数训练，可以有效降低运算的复杂度，从而提高音频处理的实时性。

在一种可能的实施方式中，根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强信号，包括：根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测，得到所述每个音频信号片段的人声增强因子；根据所述人声增强因子得到所述每个音频信号片段的人声增强后的音频信号。上述可能的实现方式中，通过密集连接结构的多层GRU神经网络进行参数训练，其网络结构简单，神经元节点数较少，从而音频增强处理的复杂度较低，提高音频处理的实时性。

在一种可能的实施方式中，根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测，得到所述每个音频信号片段的人声增强因子之前，所述方法还包括：根据多个基频信息和多个子带的特征参数得到原始函数训练集和目标函数训练集；对所述原始函数训练集和所述目标函数训练集进行参数训练，得到密集连接的多层GRU神经网络模型；其中，所述原始函数训练集满足：X(b)＝S(b)+W(b)，目标函数满足：X'(b)＝g(b)*S(b)+W(b)，其中，b为子带索引号，X(b)表示原始含噪幅度谱，X'(b)表示人声增强后的含噪幅度谱，S(b)表示不含噪的人声幅度谱，W(b)表示噪声幅度谱。上述可能的实现方式中，通过密集连接结构的多层GRU神经网络进行参数训练，其网络结构简单，神经元节点数较少，从而音频增强处理的复杂度较低，提高音频处理的实时性。

根据本公开实施例的第二方面，提供一种音频信号增强的装置，该装置包括：加窗分帧模块，被配置为对原始音频信号进行加窗分帧处理，得到多个音频信号片段；

特征提取模块，被配置为根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数；其中，所述每个音频信号片段的多个特征参数包括所述每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数；人声增强模块，被配置为根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强信号；叠加处理模块，被配置为将所述每个音频信号片段的人声增强信号依次叠接相加，得到目标增强信号。

在一种可能的实施方式中，多个特征参数包括所述多个Bark子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。

在一种可能的实施方式中，所述人声增强模块，具体被配置为：根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测，得到所述每个音频信号片段的人声增强因子；根据所述人声增强因子得到所述每个音频信号片段的人声增强后的音频信号。

在一种可能的实施方式中，所述装置还包括参数训练模块，所述参数训练模块具体被配置为：根据多个基频信息和多个子带的特征参数得到原始函数训练集和目标函数训练集；对所述原始函数训练集和所述目标函数训练集进行参数训练，得到密集连接的多层GRU神经网络模型；其中，原始函数训练集满足：X(b)＝S(b)+W(b)，目标函数满足：X'(b)＝g(b)*S(b)+W(b)，其中，b为子带索引号，X(b)表示原始含噪幅度谱，X'(b)表示人声增强后的含噪幅度谱，S(b)表示不含噪的人声幅度谱，W(b)表示噪声幅度谱。

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：处理器；和用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的音频信号人声增强的方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备/服务器的处理器执行时，使得电子设备能够执行如上述第一方面中任一项所述的音频信号人声增强的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如上述第一方面中任一项所述的音频信号人声增强的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：本公开实施例提供的技术方案，通过将音频信号分割为较小的处理单位，并进行子带划分后提取特征参数作为深度学习的训练参数，使得音频处理的延时减小，减小运算的复杂度；同时，采用的多层门控循环单元GRU神经网络其结构简单，神经元节点数较少，能够有效改善深度学习的复杂度，提高音频处理的实时性，从而满足实时传输的需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频信号人声增强方法的流程图。

图2是根据一示例性实施例示出的一种音频信号人声增强方法的处理模块流程示意图。

图3是根据一示例性实施例示出的一种音频信号片段的示意图。

图4是根据一示例性实施例示出的一种神经网络的结构示意图。

图5是根据一示例性实施例示出的一种音频信号人声增强方法的处理效果示意图。

图6是根据一示例性实施例示出的一种音频信号人声增强装置的框图。

图7是根据一示例性实施例示出的一种装置的框图(电子设备的一般结构)。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请实施例提供一种音频信号人声增强的方法，以较低的数据处理复杂度，有效地提升音频文件中人声对话增强的效果。该方法可以应用于电子设备，所述电子设备用于解决：

场景1、对于实时性要求不高的短视频中的人声对话增强；

场景2、对于实时性要求很高的视频直播中的人声对话增强；

场景3、其他音频文件，例如广播、有声书、电影或者电视节目等中的人声对话增强。

上述的电子设备具体可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)\虚拟现实(virtual reality，VR)设备等，本公开实施例对该终端设备的具体形态不作特殊限制。

图1是根据一示例性实施例示出的一种音频信号人声增强的方法的流程图，图2是所述音频信号增强的方法中各处理模块的处理流程示意图。结合图1和图2所示，该方法可以应用于电子设备，包括以下步骤。

在步骤S11中，对原始音频信号进行加窗分帧处理，得到多个音频信号片段。

其中，对原始音频信号进行加窗分帧处理，用于将原始音频信号分割为多个较小的片段，即多个音频信号片段，每个音频信号片段称为一帧。

示例性的，可以设置帧长为10毫秒，则系统对1秒的原始音频信号进行分帧处理，可以将原始音频信号分割成帧长为10毫秒的100个音频信号片段片段。

则该音频增强的算法每10毫秒就可以产生输出，算法延迟最多为10毫秒，从而能够减小音频处理的延迟，提高实时性。

需要说明的是，帧长的设置可以由本领域技术人员，根据系统对音频处理的实时性的需求来确定。对实时性要求高的音频处理，例如，视频直播中的音频处理，则帧长可以设置的较小；对实时性要求不那么高的音频处理，则可以设置较大的帧长。

具体的，对原始音频信号进行分帧处理可以采用增加窗函数的算法实现，其中，在信号处理中，窗函数是一种除在给定区间之外取值均为0的实函数，任何函数与窗函数之积仍为窗函数。例如，窗函数可以为矩形窗、汉明窗或高斯窗等。

需要说明的是，在加窗分帧处理的时候，帧与帧之间可以有重叠，从而可以避免由于加窗处理造成的音频信号片段的两端部分被削弱的问题。相邻两帧的起始位置的时间差叫做帧移，例如，可以取帧移为帧长的一半，例如帧长为10毫秒，帧移可取为5毫秒，如图3所示，每个音频信号片段为10毫秒的长度，每隔5毫秒取为一个音频信号片段。

按照上述加窗分帧处理得到的多个音频信号片段的顺序，逐个对每个音频信号片段进行如下的人声增强处理后，得到每个音频信号片段的人声增强后的音频信号，依次将每个人声增强后的音频信号与之前处理生成的人声增强后的音频信号进行叠接相加处理，将最后一个人声增强后的音频信号进行叠接相加处理后，即生成原始音频信号的人声增强后的目标增强信号。

以下步骤，将以其中一个音频信号片段作为示例，阐述对该音频信号片段的人声增强处理的过程。

在步骤S12中，根据多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数，其中，每个音频信号片段的多个特征参数包括每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数。

其中，基频是指一个复音中基音的频率，基频的高低决定一个音的高低。在构成一个复音的若干个音中，基音的频率最低，强度最大。

可以通过基频提取算法获取当前音频信号片段的基频信息，例如，可以根据平均幅度差函数等算法计算基频信息。

人声对话的音频信号可以基于与基频信息的对比体现强度的高低，例如，在人声语音中，男声的基频在100赫兹左右，女声的基频在200赫兹左右。

在上述步骤S12中，在获得每个音频信号片段的多个特征参数之前，可以对当前音频信号片段进行傅里叶变换，得到当前音频信号片段的幅度谱。

示例性的，可以对当前音频信号片段进行短时傅里叶变换，并计算当前音频信号片段的幅度谱。其中，短时傅里叶变换是和傅里叶变换相关的一种数学变换，用以确定时变信号的局部区域正弦波的频率与相位。

当前音频信号片段为含噪音频信号，由纯净的人声语音信号s(t)，和不相关的加性噪声w(t)组成，例如，w(t)可以为环境中的噪声，鸣笛声、风声或雨声等等。则当前音频信号片段的时域表达式满足：x(t)＝s(t)+w(t)，其中，t表示时间。

对上述表达式的两边分别进行短时傅里叶变换可得当前音频信号片段的频域表达式满足：X(k)＝S(k)+W(k)，其中X(k)表示含噪音频信号的幅度谱、S(k)表示人声语音信号的幅度谱，W(k)表示噪声幅度谱，k表示频点。例如，可以对当前音频信号片段进行512个频点或者256个频点的短时傅里叶变换。

在步骤S12中，多个特征参数是根据临界频带定义对当前音频信号片段的幅度谱进行bark子带划分，得到的多个子带的特征参数。

其中，临界频带是听觉学和心理声学的专业名词，指的是由于人体的耳蜗构造产生的听觉滤波器的频率带宽。简单来说临界频带是声音频率带，在临界频带中第一个单音感知性会被第二单音的听觉掩蔽所干扰。

本申请的实施例根据临界频带定义对当前音频信号片段的幅度谱进行bark子带的划分，即是利用人耳听觉的特性，对音频信号的幅度谱进行子带划分，从而可以对不同的子带进行不同的音频增强处理，实现对音频信号中的人声对话部分进行增强处理。

其中，巴克(Bark)频率尺度是以Hz为单位，把频率映射到心理声学的临界频带上，1个临界频带的宽度等于一个Bark。也就是说，Bark子带划分是把物理频点转换到心理声学的边界频率对应的频点划分。

进行子带划分之后，对每个子带计算子带的平均能量，得到当前音频信号片段在幅度谱上划分为多个Bark子带的特征参数。其中，子带特征参数可以包括子带的平均能量、平均能量的一阶差分和平均能量的二阶差分中的至少一种参数。

示例性的，可以通过如下算法提取特征参数：对含噪音频信号的幅度谱根据Bark带进行子带划分，计算每个Bark子带的平均能量和子带平均能量的一阶差分和二阶差分。

具体的，对X(k)根据Bark带划分为m个子带，可以根据如下公式计算每个Bark子带的平均能量：

其中，w_b(k)表示归一化的平均能量系数，由于Bark子带的每个子带的频点数量可能不同，因此可以通过w_b(k)来均衡不同的子带平均能量的大小，示例性的，

其中，b为子带索引号，b的取值可以为0～m。例如，可以将X(k)划分为18个子带，b的取值可以为0～17。具体的，本领域技术人员可以根据音频文件处理的实时性要求和复杂度对Bark子带的数量进行设置，本申请实施例对此不作具体限定。

子带平均能量的一阶差分即为相邻两个子带的子带平均能量之差，其物理意义就是当前子带与前一个子带之间的子带平均能量的差值，可以用于体现相邻两个子带之间的关系。示例性的，子带平均能量的一阶差分可以根据如下公式获得：Y(b)＝X(b+1)-X(b)。

子带平均能量的二阶差分即为相邻两个一阶差分的差值，表示的是相邻的一阶差分之间的关系，即前一阶差分与后一阶差分之间的关系，可以用于体现音频幅度谱的子带中相邻三个子带之间的动态关系。示例性的，此函数的子带平均能量的二阶差分可以根据如下公式获得：～E(17)＝Y(b+1)-Y(b)＝X(b+2)-2*X(b+1)+X(b)。

则可以根据上述算法，计算18个子带每个子带的平均能量，以及每个子带平均能量的一阶差分和二阶差分，作为神经网络的训练参数。

本申请的实施例，通过对含噪音频信号的幅度谱根据Bark带进行子带划分，对划分后的每个子带提取特征参数，用于深度学习，如此可以有效减小深度学习运算的复杂度，提高音频处理的实时性。

在步骤S13中，根据神经网络算法依次对每个音频信号片段片段进行增强处理，分别得到每个音频信号片段的人声增强信号。

在本申请的实施例中，可以根据密集连接的多层门控循环单元GRU神经网络算法依次对每个音频信号片段的基频信息和多个特征参数进行预测，得到每个音频信号片段的人声增强因子；根据人声增强因子得到每个音频信号片段的人声增强后的音频信号。

本申请实施例可以采用多层密集连接结构的GRU神经网络。其中，其网络结构是当前层的输入是由前面所有层的输出连接而成，如图4所示。其在保证网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来；为了能够保证前馈的特性，每一层将之前所有层的输入进行拼接，之后将输出的特征参数传递给之后的所有层。

本申请的密集连接的多层GRU神经网络，每层可以是GRU神经网络组成的。其中，GRU是循环神经网络(Recurrent Neural Network,RNN)的一种，本申请对此不再详细介绍。

在一种实施方式中，根据密集连接的多层GRU神经网络对输入的训练集进行参数预测，得到目标增强因子g(b)之前，需要根据采集的训练参数对神经网络进行训练，得到神经网络模型。因此，该方法还具体包括：

上述的用于人声增强的音频处理系统，可以根据采集的大量的音频信号的基频信息和多个子带的特征参数构建神经网络的训练集，原始含噪数据训练集满足：X(b)＝S(b)+W(b)，和目标增强数据训练集满足：X'(b)＝g(b)*S(b)+W(b)，用于参数训练。算法的目的就是让这个目标增强因子g(b)达到最优。

其中，b为子带索引号，X(b)表示原始含噪幅度谱，X'(b)表示人声增强后的含噪幅度谱，S(b)表示不含噪的人声幅度谱，W(b)表示噪声幅度谱。

神经网络的损失函数满足：

其中，g(b)表示目标增强因子，

表示神经网络输出的增强因子。

在神经网络中，通常用损失函数来度量神经网络拟合的程度，即损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。

系统通过离线的，对原始函数训练集和目标函数训练集进行参数训练，得到密集连接的多层GRU神经网络模型；从而当进行人声增强处理时，系统可以根据输入的基频信息和子带特征参数，经过该神经网络模型预测，得到对应的目标增强因子g(b)。

综上所述，如图2所示，该神经网络模型的输入数据是当前音频信号片段的基频信息，和每个Bark子带的平均能量和子带平均能量的一阶差分和二阶差分，经过神经网络的参数训练，输出的为每个Bark子带的人声增强因子

其中，f函数表示上述神经网络的非线性拟合预测函数，M(b)表示当前音频信号片段的基频信息，和每个Bark子带的平均能量E(b)和子带平均能量的一阶差分和二阶差分的参数集合。

由于GRU网络的优点是参数少，结构相对简单，好训练；而密集连接结构的神经网络比传统的卷积网络有更少的参数，本领域技术人员可以根据音频文件处理的实时性要求和复杂度进行设置。例如，采用密集连接结构的多层GRU神经网络可以采用神经元节点数为96个，以较低的数据处理复杂度实现参数训练。而现有技术通过CNN或者RNN神经网络训练，采用的神经元节点数通常为512、1024个等。

因此，本申请的实施例通过密集连接的多层GRU神经网络进行参数训练和人声增强因子的预测，可以有效降低数据处理的复杂度，提高人声增强处理的实时性，满足实时音频传输的需求。

在上述步骤S13中，根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强因此，根据人声增强因子获取增强后的时域信号。

首先，上述的神经网络处理模型输出的人声增强因子需要先转换为线性函数，示例性的，可以根据如下公式：

然后，根据增强因子获取人声增强后的时域信号。具体可以包括：根据目标增强因子乘以原始含噪音频幅度谱，得到人声增强后的幅度谱；

根据人声增强后的幅度谱和原始含噪音频的相位，得到人声增强后的傅里叶系数；再对人声增强后的傅里叶系数进行傅里叶反变换，得到人声增强后的时域信号x′(t)。

在步骤S14中，将每个音频信号片段的人声增强信号依次叠接相加，得到目标增强信号。

进一步的，对上述人声增强后的时域信号x′(t)进行加窗，并对每一帧的人声增强后的时域信号逐个进行叠接相加处理，由最后一个音频信号片段与之前处理生成的增强信号进行叠接相加处理，得到目标音频信号。

其中，叠接相加用于将每一帧的人声增强处理后的音频信号叠加成连续的音频信号，基于前述步骤S11中，对原始音频信号进行加窗和分帧处理，为不丢失音频信号，在分帧处理的时候，每一帧音频信号之间包含一部分重叠信号。因此，叠接相加处理相当于将人声增强处理后的音频信号再经过叠接相加处理为连续的音频信号。例如，两个10毫秒的人声增强处理后的音频信号，经过叠接相加处理为一个不足20毫秒的音频信号。

如此可以避免帧与帧之间的不连续问题，生成连续的人声增强的音频信号，从而实现音频信号的实时传输。

本申请的上述实施例，通过对原始音频信号进行加窗分帧处理后，对音频信号的幅度谱进行子带划分并提取特征参数，作为神经网络的训练参数，从而以较小的数据单位作为神经网络的输入数据，降低数据处理的复杂度。同时，本申请的上述实施例采用密集连接的多层GRU神经网络，结构简单，可以采用较少的神经元节点，实现音频信号的人声增强处理，从而以较低的数据处理复杂度，提高了音频处理的实时性。

如图5所示为一种音频信号人声增强方法的处理效果示意图，上图为原始音频信号，下图为人声增强处理后的音频信号。

图6是根据一示例性实施例示出的一种音频信号人声增强的装置框图。参照图6，该装置600包括加窗分帧模块601，特征提取模块602，人声增强模块603和叠加处理模块604。

加窗分帧模块601，被配置为对原始音频信号进行加窗分帧处理，得到多个音频信号片段。

特征提取模块602，被配置为根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数；其中，所述每个音频信号片段的多个特征参数包括所述每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数。

人声增强模块603，被配置为根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强信号。

叠加处理模块604，被配置为将所述每个音频信号片段的人声增强信号依次叠接相加，得到目标增强信号。

依次对每个音频信号片段进行上述各模块的处理后，得到目标增强信号，其中，目标增强信号由最后一个音频信号片段与最后一个音频信号片段之前处理生成的增强信号叠接相加处理得到。

在一种实施方式中，所述多个子带的特征参数包括所述多个子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。

在一种实施方式中，人声增强模块603，具体可以被配置为：根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测，得到所述每个音频信号片段的人声增强因子；根据所述人声增强因子得到所述每个音频信号片段的人声增强后的音频信号。

所述装置600还包括参数训练模块605，所述参数训练模块605具体可以被配置为：根据多个基频信息和多个子带的特征参数得到原始函数训练集和目标函数训练集；对所述原始函数训练集和所述目标函数训练集进行参数训练，得到密集连接的多层GRU神经网络模型。

其中，所述原始函数训练集满足：(b)＝S(b)+W(b)，目标函数满足：X(b)＝g(b)*S(b)+W(b)，其中，b为子带索引号，(b)表示原始含噪幅度谱，X(b)表示人声增强后的含噪幅度谱，S(b)表示不含噪的人声幅度谱，W(b)表示噪声幅度谱。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种音频信号人声增强的装置700的框图。该音频信号增强的装置700可以包括至少一个处理器701，通信线路702以及存储器703。

处理器701可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本公开方案程序执行的集成电路。

通信线路702可包括一通路，在上述组件之间传送信息，例如总线。

存储器703可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路702与处理器相连接。存储器也可以和处理器集成在一起。本公开实施例提供的存储器通常可以具有非易失性。其中，存储器703用于存储执行本公开方案所涉及的计算机执行指令，并由处理器701来控制执行。处理器701用于执行存储器703中存储的计算机执行指令，从而实现本公开实施例提供的方法。

可选的，本公开实施例中的计算机执行指令也可以称之为应用程序代码，本公开实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器701可以包括一个或多个CPU，例如图7中的CPU0和CPU1。

在具体实现中，作为一种实施例，音频信号人声增强的装置700可以包括多个处理器，例如图7中的处理器701和处理器707。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，音频信号人声增强的装置700还可以包括通信接口704。通信接口704，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网接口，无线接入网接口(radio access network，RAN)，无线局域网接口(wirelesslocal area networks，WLAN)等。

在具体实现中，作为一种实施例，音频信号人声增强的装置700还可以包括输出设备705和输入设备706。输出设备705和处理器701通信，可以以多种方式来显示信息。例如，输出设备705可以是液晶显示器(liquid crystal display，LCD)，发光二级管(lightemitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备706和处理器701通信，可以以多种方式接收用户的输入。例如，输入设备706可以是鼠标、键盘、触摸屏设备或传感设备等。

在具体实现中，装置700可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图7中类似结构的设备。本公开实施例不限定音频信号人声增强的装置700的类型。

在一些实施例中，图7中的处理器701可以通过调用存储器703中存储的计算机执行指令，使得装置700执行上述方法实施例中的音频信号人声增强的方法。

示例性的，图6中的各个模块601-605的功能/实现过程可以通过图7中的处理器701调用存储器703中存储的计算机执行指令来实现。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器703，上述指令可由音频信号增强的装置700的处理器701执行以完成上述方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号人声增强的方法，其特征在于，包括：

对原始音频信号进行加窗分帧处理，得到多个音频信号片段；

根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数；其中，所述每个音频信号片段的多个特征参数包括所述每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数；

根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强信号；

将所述每个音频信号片段的人声增强信号依次叠接相加，得到目标增强信号。

2.根据权利要求1所述的方法，其特征在于，所述多个特征参数包括所述多个Bark子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。

3.根据权利要求1或2所述的方法，其特征在于，所述根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强信号，包括：

根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测，得到所述每个音频信号片段的人声增强因子；

根据所述人声增强因子得到所述每个音频信号片段的人声增强后的音频信号。

4.根据权利要求3所述的方法，其特征在于，所述根据密集连接的多层门控循环单元GRU神经网络算法依次对所述每个音频信号片段的基频信息和多个特征参数进行预测，得到所述每个音频信号片段的人声增强因子之前，所述方法还包括：

根据多个基频信息和多个子带的特征参数得到原始函数训练集和目标函数训练集；

对所述原始函数训练集和所述目标函数训练集进行参数训练，得到密集连接的多层GRU神经网络模型；

其中，所述原始函数训练集满足：X(b)＝S(b)+W(b)，所述目标函数训练集满足：X'(b)＝g(b)*S(b)+W(b)，其中，b为子带索引号，X(b)表示原始含噪幅度谱，X'(b)表示人声增强后的含噪幅度谱，S(b)表示不含噪的人声幅度谱，W(b)表示噪声幅度谱。

5.一种音频信号增强的装置，其特征在于，包括：

加窗分帧模块，被配置为对原始音频信号进行加窗分帧处理，得到多个音频信号片段；

特征提取模块，被配置为根据所述多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数；其中，所述每个音频信号片段的多个特征参数包括所述每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数；

人声增强模块，被配置为根据神经网络算法依次对所述每个音频信号片段片段进行增强处理，分别得到所述每个音频信号片段的人声增强信号；

叠加处理模块，被配置为将所述每个音频信号片段的人声增强信号依次叠接相加，得到目标增强信号。

6.根据权利要求5所述的装置，其特征在于，所述多个特征参数包括所述多个Bark子带的平均能量、所述平均能量的一阶差分和所述平均能量的二阶差分中的至少一种参数。

7.根据权利要求5或6所述的装置，其特征在于，所述人声增强模块，具体被配置为：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的音频信号人声增强的方法。

9.一种存储介质，当所述存储介质中的指令由电子设备/服务器的处理器执行时，使得电子设备能够执行如权利要求1至4中任一项所述的音频信号人声增强的方法。

10.一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至4中任一项所述的音频信号人声增强的方法。