CN113241083A

CN113241083A - 一种基于多目标异质网络的集成语音增强系统

Info

Publication number: CN113241083A
Application number: CN202110463638.9A
Authority: CN
Inventors: 张军; 吴悦; 宁更新; 冯义志; 杨萃; 余华; 季飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-08-10
Anticipated expiration: 2041-04-26
Also published as: CN113241083B

Abstract

本发明公开了一种基于多目标异质网络的集成语音增强系统，该系统包括特征提取模块、特征降维模块、m个异质网络、n个门控单元，使用m个异质网络作为集成语音增强系统的子模型，每个异质网络从第

个个网络层开始引出多目标分支，并以对称的方式连接异质网络的首尾层，可以有效缓解多目标学习的参数优化冲突问题，可以避免原始输入在深层的网络传播中丢失信息，可以提高集成语音增强系统的基模型多样性，进而提高增强语音的质量和可懂度。特征降维模块通过计算原始输入语音帧之间的关联信息，并将其和当前输入帧拼接，作为n个门控单元的输入，大大降低了n个门控单元的输入维度，而且不丢失原始输入中的帧之间的关联信息。

Description

一种基于多目标异质网络的集成语音增强系统

技术领域

本发明涉及语音增强技术领域，具体涉及一种基于多目标异质网络的集成语音增强系统。

背景技术

语音是人们日常交流中最重要、最直接的信息载体。然而，语音信号往往会被生活中的各种噪声所污染，比如餐厅里的说话人噪声，工厂里的机器噪声，施工场所里的工地噪声，马路上的汽车噪声，嘈杂的人流噪声等等，这些噪声都会影响我们对有用语音的获取和理解，导致语音听感质量和可懂度下降。

语音增强技术是指从带噪语音中消除噪声分量，提取恢复出干净语音分量，以提高语音的听感质量和可懂度。其中的算法包括传统的基于统计的增强技术和现代基于深度学习神经网络的增强技术。传统的语音增强算法如谱减法和维纳滤波法通常会假设噪声信号是平稳的，然后基于这一假设进行计算推导出干净语音。但是现实生活中的噪声信号形形色色，具有十分大的随机性且非平稳，因此在实际生活中传统语音增强算法的性能效果会变差。近年来得益于计算机硬件计算能力的提高，深度学习神经网络得到了快速发展，促使深度学习被广泛应用于各行各业。而在语音增强领域内，深度学习不用预先对噪声信号进行假设，直接提取带噪语音特征，通过神经网络映射到干净语音特征，实现端到端的语音增强，与传统算法相比，深度学习方法可以取得了更大的性能提升。

由于不同的神经网络训练目标会得到不同的语音增强效果，因此如何选择更优的训练目标也是一个热门研究方向。近年来有学者将多目标学习技术应用在语音增强领域，多目标学习即在神经网络的最后一层引出多个目标分支输出层，而其他网络层共享参数，多目标学习可以让各个目标互相学习各自的内在特性，但是共享网络层可能会导致参数优化冲突。

集成学习是一种集体决策过程，通过学习多个弱学习器，再经过一定的策略将弱学习器结合成一个强学习器，具有强大的非线性拟合能力。但是已有的基于深度神经网络的语音增强集成模型存在基模型同质化严重和门控单元输入过于冗余等问题，基模型同质化程度过高会导致各个基模型学习到的特征模式都相同，这样最终的集成模型和单个模型没有区别，而门控单元的输入过于冗余会让集成学习的训练参数增加，且最终的决策过程不够准确，导致增强后的语音质量和可懂度较低。

发明内容

本发明的目的是为了解决现有多目标学习语音增强系统和集成学习语音增强系统的技术缺陷，提供一种基于多目标异质网络的集成语音增强系统，该系统可以有效缓解多目标学习的参数优化冲突问题，以及避免原始输入在深层网络传播中丢失信息。该方法降低了门控单元的输入维度，在减少模型训练参数的同时保证原始输入中的帧之间的关联信息不丢失。本发明可以广泛应用于医疗助听器、车载语音系统、电话通信、手机电脑的智能语音助手等场景。

本发明的目的可以通过采取如下技术方案达到：

一种基于多目标异质网络的集成语音增强系统，由特征提取模块、特征降维模块、m个异质网络、n个门控单元构成，其中原始输入分别与特征提取模块以及特征降维模块相连，特征提取模块分别与m个异质网络相连，特征降维模块和m个异质网络分别与n个门控单元相连。

所述特征提取模块的输入是原始输入，输出与m个异质网络相连，用于提取原始输入的特征。

所述特征降维模块的输入是原始输入，输出分别与n个门控单元相连，用于降低n个门控单元的输入维度，并且保持输入帧之间的关联信息。

m个异质网络的输入是特征提取模块的输出，每个异质网络的输出分别与n个门控单元相连，m个异质网络是上述集成语音增强系统的子模型，用于分别学习不同模式的高级特征。

n个门控单元的输入是特征降维模块和m个异质网络的输出，n个门控单元的输出是n个目标，n个门控单元用于学习m个异质网络对应n个目标的权重。

进一步地，所述特征提取模块通过以下步骤提取原始输入的特征:

T1、将原始输入进行短时傅里叶变换获得帧级别的频谱输入l_r，其中r是帧索引。短时傅里叶变换采用下式计算：

其中，z是虚数，e是自然指数，l_r是短时傅里叶变换后的第r帧频谱输入，a是帧索引，w是频率，b是时间，x(b)是原始输入信号，c(a-b)是窗函数；

T2、将当前第r帧的频谱输入l_r扩展为包含前s帧的频谱输入L_r＝[l_r-s,l_r-s-2,...,l_r-2,l_r-1,l_r]，作为特征提取模块的输出。

进一步地，m个异质网络中的每个异质网络由共享网络模块和目标分支模块构成，共享网络模块由

个顺次连接的网络层构成，其中

是向上取整，取比自己大的最小整数。目标分支模块包含n个分支，每个分支由

个顺次连接的网络层构成，其中

是向下取整，取比自己小的最大整数，每个分支互不相连。共享网络模块第q个网络层的输出分别和目标分支模块的每个分支的第

个网络层的输入相连，

当上述异质网络的网络层是全连接层时，异质网络称为多目标深度神经网络，异质网络的共享网络模块由

个顺次连接的节点数为h₁的全连接层构成，目标分支模块包含n个分支，每个分支由

个顺次连接的节点数为h₂的全连接层构成，每个分支互不相连。共享网络模块第q₁个全连接层的输出分别和目标分支模块的每个分支的第

个全连接层的输入相连，

当上述异质网络的网络层是门控循环单元时，异质网络称为多目标门控循环单元网络，异质网络的共享网络模块由

个顺次连接的节点数为h₃的门控循环单元构成，目标分支模块包含n个分支，每个分支由

个顺次连接的节点数为h₄的门控循环单元构成，每个分支互不相连。共享网络模块第q₂个门控循环单元的输出分别和目标分支模块的每个分支的第

个门控循环单元的输入相连，

当上述异质网络的网络层是卷积层时，异质网络称为多目标卷积网络，异质网络的共享网络模块由

个顺次连接的卷积核数量为h₅，卷积核大小为x₁×x₂，卷积步长为y₁×y₂的卷积层构成，目标分支模块包含n个分支，每个分支由

个顺次连接的卷积核数量为h₆，卷积核大小为x₃×x₄，卷积步长为y₃×y₄的卷积层构成，每个分支互不相连。共享网络模块第q₃个卷积层的输出分别和目标分支模块的每个分支的第

个卷积层的输入相连，

进一步地，所述特征降维模块的工作过程如下：

S1、将原始输入进行短时傅里叶变换得到帧级别的频谱输入l_t，其中t是帧索引。短时傅里叶变换采用下式计算：

其中，z是虚数，e是自然指数，l_t是短时傅里叶变换后的第t帧频谱输入，a₁是帧索引，w₁是频率，b₁是时间，x'(b₁)是原始输入信号，c₁(a₁-b₁)是窗函数。

S2、将当前第t帧的频谱输入l_t扩展为包含前k帧的频谱输入L_t＝[l_t-k,l_t-k-1,...,l_t-2,l_t-1,l_t]

S3、采用下式计算L_t中每一帧j的能量E_j：

其中，d是一帧频谱的频率总点数，i是频率的索引，j是帧索引。

S4、分别采用下式计算输入L_t中和当前第t帧相关的能量总和E_all，能量差值E_tj和能量环比H_tj：

E_all＝E_t-k+E_t-k-1+...+E_t-1+E_t (4)

E_tj＝E_t-E_j,j＝t-k,t-k-1,...,t-1 (5)

其中，j和t是帧索引，E_all是输入L_t中的帧能量总和，E_tj是输入L_t中第j帧和第t帧的能量之差，H_tj是输入L_t中第j帧和第t帧的能量环比。

S5、拼接当前第t帧的频谱以及和第t帧相关的能量统计信息作为模块输出，I_gate＝[l_t,E_t,E_jt,H_jt]，其中j和t是帧索引。

进一步地，n个门控单元中的每个门控单元都是由一个节点数为m的全连接层构成，全连接层的激活函数是Softmax函数，计算公式如下：

其中，z_v、z_u分别是函数第v、u个输入，U是输入总个数。

本发明相对于现有技术具有如下的优点及效果：

1、本发明通过引入异质网络作为集成模型的子模型，提高了集成模型的基模型多样性。

2、本发明在各个异质网络的中间层开始引出多目标分支，在参数共享学习的同时缓解了参数优化冲突的问题。以对称的方式连接异质网络的首尾层，避免原始输入在深层网络传播中丢失信息。

3、本发明显著降低了门控单元的输入维度，在减少模型训练参数的同时还能保证输入语音帧之间的关联信息不丢失。

附图说明

图1是本发明实施例中一种基于多目标异质网络的集成语音增强系统结构示意图；

图2是本发明实施例中异质网络结构示意图；

图3是本发明实施例中异质网络称为多目标深度神经网络的结构示意图；

图4是本发明实施例中异质网络称为多目标门控循环单元网络的结构示意图；

图5是本发明实施例中异质网络称为多目标卷积网络的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1中示出了本实施例中一种基于多目标异质网络的集成语音增强系统结构示意图。如图1所示，本实施例公开的一种基于多目标异质网络的集成语音增强系统由特征提取模块、特征降维模块、m个异质网络、n个门控单元构成，其中原始输入分别与特征提取模块以及特征降维模块相连，特征提取模块分别与m个异质网络相连，特征降维模块和m个异质网络分别与n个门控单元相连。

本实施例具体由特征提取模块、特征降维模块、3个异质网络、2个门控单元构成，原始输入是带噪语音信号，目标1是对数谱，目标2是理想比率掩蔽，理想比率掩蔽采用下式计算：

其中，IRM是理想比率掩蔽，X²是时频单元的干净语音能量，N²是时频单元的噪声语音能量，β是掩蔽参数，一般取0.5。

本实施例中，特征提取模块通过以下步骤提取原始输入的特征：

其中，z是虚数，e是自然指数，l_r是短时傅里叶变换后的第r帧频谱输入，a是帧索引，w是频率，b是时间，x(b)是原始输入信号，c(a-b)是窗函数。

上述实施例中，窗函数应选择频谱主瓣宽度较窄的，其具有较高的频率分辨率。其次频谱的旁瓣衰减需尽量大，才能减少频谱的拖尾现象。矩形窗的主瓣宽度最窄，但是旁瓣衰减不足，会导致较大的频谱泄漏。汉宁窗的主瓣宽度宽，但是旁瓣衰减比矩形窗大，而海明窗的主瓣宽度和汉宁窗一样大，但旁瓣衰减比汉宁窗更大，综合考虑，上述实施例的c(a-b)窗函数选择海明窗窗函数。

已有的帧扩展技术是拼接第r帧的前2帧，第r帧，第r帧的后2帧，总共5帧作为特征提取模块的输出。但是对于当前第r帧来说，使用了未来2帧的信息，整个语音增强系统不再是因果系统。为了保证因果性，上述实施例中的帧扩展技术是只扩展前3帧，即s为3。

本实施例中，m个异质网络中的每个异质网络由共享网络模块和目标分支模块构成，每个异质网络的结构图如图2所示。上述共享网络模块由

个顺次连接的网络层构成，其中

是向上取整，取比自己大的最小整数。上述目标分支模块包含n个分支，每个分支由

个顺次连接的网络层构成，其中

个网络层的输入相连，

当异质网络的网络层是全连接层时，异质网络称为多目标深度神经网络，异质网络的共享网络模块由

个全连接层的输入相连，

一个实施例中，异质网络称为多目标深度神经网络的结构示意图如图3所示。已有的多目标深度神经网络是在最后一层全连接层引出多目标分支，这会造成严重的网络参数优化冲突。因此上述实施例中，多目标深度神经网络从中间全连接层引出多目标分支，共享网络模块由2个顺次连接的节点数为512的全连接层构成，目标分支模块包含2个分支，每个分支由2个顺次连接的节点数为256的全连接层构成，每个分支互不相连。上述实施例中为了避免原始输入在深层网络传播中丢失信息，共享网络模块第1个全连接层的输出分别和目标分支模块的每个分支的第2个全连接层的输入相连。优化器使用Adam，损失函数为均方误差函数，批次大小为256，学习率为0.0003，训练总轮次为40。

当异质网络的网络层是门控循环单元时，异质网络称为多目标门控循环单元网络，异质网络的共享网络模块由

个门控循环单元的输入相连，

另一个实施例中，异质网络称为多目标门控循环单元网络的结构示意图如图4所示。已有的多目标门控循环单元网络是在最后一层门控循环单元引出多目标分支，这会造成严重的网络参数优化冲突。因此上述实施例中，多目标门控循环单元网络从中间门控循环单元引出多目标分支，共享网络模块由3个顺次连接的节点数为512的门控循环单元构成，目标分支模块包含2个分支，每个分支由2个顺次连接的节点数为256的门控循环单元构成，每个分支互不相连。上述实施例中为了避免原始输入在深层网络传播中丢失信息，共享网络模块第1个门控循环单元的输出分别和目标分支模块的每个分支的第2个门控循环单元的输入相连，共享网络模块第2个门控循环单元的输出分别和目标分支模块的每个分支的第1个门控循环单元的输入相连。优化器使用Adam，损失函数为均方误差函数，批次大小为256，学习率为0.0003，训练总轮次为40。

当异质网络的网络层是卷积层时，异质网络称为多目标卷积网络，异质网络的共享网络模块由

个卷积层的输入相连，

又一个实施例中，异质网络称为多目标卷积网络的结构示意图如图5所示。已有的多目标卷积网络是在最后一层卷积层引出多目标分支，这会造成严重的网络参数优化冲突。因此上述实施例中，多目标卷积网络从中间卷积层引出多目标分支，共享网络模块由3个顺次连接的卷积核数量为30，卷积核大小为9×1，卷积步长为1×1的卷积层构成，目标分支模块包含2个分支，每个分支由2个顺次连接的卷积核数量为1，卷积核大小为5×1，卷积步长为1×1的卷积层构成，每个分支互不相连。上述实施例中为了避免原始输入在深层网络传播中丢失信息，共享网络模块第1个卷积层的输出分别和目标分支模块的每个分支的第2个卷积层的输入相连，共享网络模块第2个卷积层的输出分别和目标分支模块的每个分支的第1个卷积层的输入相连。优化器使用Adam，损失函数为均方误差函数，批次大小为256，学习率为0.0003，训练总轮次为40。

特征降维模块采用以下步骤降低n个门控单元的输入维度，并且保持输入帧之间的关联信息，过程如下：

窗函数应选择频谱主瓣宽度较窄的，其具有较高的频率分辨率。其次频谱的旁瓣衰减需尽量大，才能减少频谱的拖尾现象。矩形窗的主瓣宽度最窄，但是旁瓣衰减不足，会导致较大的频谱泄漏。汉宁窗的主瓣宽度宽，但是旁瓣衰减比矩形窗大，而海明窗的主瓣宽度和汉宁窗一样大，但旁瓣衰减比汉宁窗更大，因此c₁(a₁-b₁)窗函数选择海明窗窗函数。

S2、将当前第t帧的频谱输入l_t扩展为包含前k帧的频谱输入L_t＝[l_t-k,l_t-k-1,...,l_t-2,l_t-1,l_t]。

已有的帧扩展技术是拼接第t帧的前2帧，第t帧，第t帧的后2帧，总共5帧作为当前第t帧的频谱输入。但是对于当前第t帧来说，使用了未来2帧的信息，整个语音增强系统不再是因果系统。为了保证因果性，这里的帧扩展只扩展前3帧，即k为3。

S3、采用下式计算L_t中每一帧j的能量E_j：

E_all＝E_t-k+E_t-k-1+...+E_t-1+E_t (D)

E_tj＝E_t-E_j,j＝t-k,t-k-1,...,t-1 (E)

已有的门控单元输入是使用上述S2的帧扩展输入L_t作为门控单元的输入，相当于使用了4帧，输入维度过高。而上述实施例以帧的能量来表征帧的信息，可以显著降低门控单元的输入维度，同时为了保证输入语音帧之间的关联信息不丢失，计算前3帧和当前第t帧的相关的能量信息，包括能量总和E_all，能量差值E_tj和能量环比H_tj。

已有的门控单元输入是使用上述S2的帧扩展输入L_t作为门控单元的输入，相当于使用了4帧，输入维度过高。而上述实施例不拼接当前第t帧的前3帧，而是拼接前3帧与第t帧相关的能量信息，显著降低了输入维度。

n个门控单元中的每个门控单元都是由一个节点数为m的全连接层构成，全连接层的激活函数是Softmax函数，计算公式如下：

其中，z_v、z_u分别是函数第v、u个输入，U是输入总个数。

本实施例中，总共有3个异质网络，2个目标，所以n是2，m是3。

为验证本发明的技术效果，将本发明实例和已有的基线系统“多重深度神经网络语音增强系统”进行对比，评价指标使用语音质量感知评估PESQ。

训练集包括在TIMIT训练集中随机挑选的500条干净语音，4条NOISEX-92库中的White、Factory1、Pink和Babble噪声。测试集包括在TIMIT测试集中随机挑选的200条干净语音，2条NOISEX-92库中的Factory2和F16噪声。测试集分别在和训练集匹配的信噪比-5dB、0dB、5dB、10dB，以及不匹配的信噪比-7dB、-2dB、2dB、7dB上做实验。

已有的基线系统“多重深度神经网络语音增强系统”包括4个相同的深度神经网络，训练目标是干净语音的对数谱，每个深度神经网络都包含3层节点数为512的全连接层。优化器使用Adam，损失函数为均方误差函数，批次大小为256，学习率为0.0003，训练总轮次为40。

对比结果如表1、表2所示，在匹配信噪比条件下，本发明的PESQ比基线系统提升了约9.67％，在不匹配信噪比条件下，本发明的PESQ比基线系统提升了约9.91％。说明不管在匹配信噪比条件下还是不匹配信噪比条件下，本发明的技术效果均优于基线系统。

表1.匹配信噪比条件下的PESQ对比

	-5dB	0dB	5dB	10dB
					基线系统	1.879	2.268	2.591	2.848
本实施例	2.098	2.471	2.806	3.125

表2.不匹配信噪比条件下的PESQ对比

	-7dB	-2dB	2dB	7dB
					基线系统	1.723	2.117	2.407	2.701
本实施例	1.943	2.326	2.608	2.935

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多目标异质网络的集成语音增强系统，其特征在于，所述集成语音增强系统包括特征提取模块、特征降维模块、m个异质网络、n个门控单元构成，其中，原始输入分别与特征提取模块以及特征降维模块相连，特征提取模块分别与m个异质网络相连，特征降维模块和m个异质网络分别与n个门控单元相连；

所述特征提取模块的输入是原始输入，所述特征提取模块的输出分别与m个异质网络相连，用于提取原始输入的特征；

所述特征降维模块的输入是原始输入，所述特征降维模块的输出分别与n个门控单元相连，用于降低n个门控单元的输入维度，并且保持输入帧之间的关联信息；

m个异质网络的输出分别与n个门控单元相连，m个异质网络是所述集成语音增强系统的子模型，用于分别学习不同模式的高级特征；

2.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统，其特征在于，所述特征提取模块中提取原始输入的特征的过程如下：

T1、将原始输入进行短时傅里叶变换获得帧级别的频谱输入l_r，其中r是帧索引，短时傅里叶变换采用下式计算：

3.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统，其特征在于，m个异质网络中的每个异质网络由共享网络模块和目标分支模块构成，所述共享网络模块由

个顺次连接的网络层构成，其中

是向上取整，所述目标分支模块包含n个分支，每个分支由

个顺次连接的网络层构成，并且每个分支互不相连；共享网络模块中第q个网络层的输出分别和目标分支模块的每个分支的第

个网络层的输入相连，

其中

是向下取整。

4.根据权利要求3所述的一种基于多目标异质网络的集成语音增强系统，其特征在于，当异质网络的网络层是全连接层时，异质网络称为多目标深度神经网络，异质网络的共享网络模块由

个顺次连接的节点数为h₂的全连接层构成，并且每个分支互不相连；共享网络模块第q₁个全连接层的输出分别和目标分支模块的每个分支的第

个全连接层的输入相连，

5.根据权利要求3所述的一种基于多目标异质网络的集成语音增强系统，其特征在于，当异质网络的网络层是门控循环单元时，异质网络称为多目标门控循环单元网络，异质网络的共享网络模块由

个顺次连接的节点数为h₄的门控循环单元构成，并且每个分支互不相连；共享网络模块第q₂个门控循环单元的输出分别和目标分支模块的每个分支的第

个门控循环单元的输入相连，

6.根据权利要求3所述的一种基于多目标异质网络的集成语音增强系统，其特征在于，当异质网络的网络层是卷积层时，异质网络称为多目标卷积网络，异质网络的共享网络模块由

个顺次连接的卷积核数量为h₆，卷积核大小为x₃×x₄，卷积步长为y₃×y₄的卷积层构成，并且每个分支互不相连；共享网络模块第q₃个卷积层的输出分别和目标分支模块的每个分支的第

个卷积层的输入相连，

7.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统，其特征在于，所述特征降维模块的工作过程如下：

S1、将原始输入进行短时傅里叶变换得到帧级别的频谱输入l_t，其中t是帧索引，短时傅里叶变换采用下式计算：

其中，z是虚数，e是自然指数，l_t是短时傅里叶变换后的第t帧频谱输入，a₁是帧索引，w₁是频率，b₁是时间，x'(b₁)是原始输入信号，c₁(a₁-b₁)是窗函数；

S2、将当前第t帧的频谱输入l_t扩展为包含前k帧的频谱输入L_t＝[l_t-k,l_t-k-1,...,l_t-2,l_t-1,l_t]；

S3、采用下式计算L_t中每一帧j的能量E_j：

其中，d是一帧频谱的频率总点数，i是频率的索引，j是帧索引；

E_all＝E_t-k+E_t-k-1+...+E_t-1+E_t

E_tj＝E_t-E_j,j＝t-k,t-k-1,...,t-1

其中，E_all是输入L_t中的帧能量总和，E_tj是输入L_t中第j帧和第t帧的能量之差，H_tj是输入L_t中第j帧和第t帧的能量环比；

S5、拼接当前第t帧的频谱以及和第t帧相关的能量统计信息作为模块输出，I_gate＝[l_t,E_t,E_jt,H_jt]。

8.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统，其特征在于，n个门控单元中的每个门控单元都是由一个节点数为m的全连接层构成，全连接层的激活函数采用Softmax函数，计算公式如下：

其中，z_v、z_u分别是函数第v、u个输入，U是输入总个数。