CN113241083A - 一种基于多目标异质网络的集成语音增强系统 - Google Patents

一种基于多目标异质网络的集成语音增强系统 Download PDF

Info

Publication number
CN113241083A
CN113241083A CN202110463638.9A CN202110463638A CN113241083A CN 113241083 A CN113241083 A CN 113241083A CN 202110463638 A CN202110463638 A CN 202110463638A CN 113241083 A CN113241083 A CN 113241083A
Authority
CN
China
Prior art keywords
module
network
input
branch
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110463638.9A
Other languages
English (en)
Other versions
CN113241083B (zh
Inventor
张军
吴悦
宁更新
冯义志
杨萃
余华
季飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110463638.9A priority Critical patent/CN113241083B/zh
Publication of CN113241083A publication Critical patent/CN113241083A/zh
Application granted granted Critical
Publication of CN113241083B publication Critical patent/CN113241083B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多目标异质网络的集成语音增强系统,该系统包括特征提取模块、特征降维模块、m个异质网络、n个门控单元,使用m个异质网络作为集成语音增强系统的子模型,每个异质网络从第
Figure DDA0003040021650000011
个个网络层开始引出多目标分支,并以对称的方式连接异质网络的首尾层,可以有效缓解多目标学习的参数优化冲突问题,可以避免原始输入在深层的网络传播中丢失信息,可以提高集成语音增强系统的基模型多样性,进而提高增强语音的质量和可懂度。特征降维模块通过计算原始输入语音帧之间的关联信息,并将其和当前输入帧拼接,作为n个门控单元的输入,大大降低了n个门控单元的输入维度,而且不丢失原始输入中的帧之间的关联信息。

Description

一种基于多目标异质网络的集成语音增强系统
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于多目标异质网络的集成语音增强系统。
背景技术
语音是人们日常交流中最重要、最直接的信息载体。然而,语音信号往往会被生活中的各种噪声所污染,比如餐厅里的说话人噪声,工厂里的机器噪声,施工场所里的工地噪声,马路上的汽车噪声,嘈杂的人流噪声等等,这些噪声都会影响我们对有用语音的获取和理解,导致语音听感质量和可懂度下降。
语音增强技术是指从带噪语音中消除噪声分量,提取恢复出干净语音分量,以提高语音的听感质量和可懂度。其中的算法包括传统的基于统计的增强技术和现代基于深度学习神经网络的增强技术。传统的语音增强算法如谱减法和维纳滤波法通常会假设噪声信号是平稳的,然后基于这一假设进行计算推导出干净语音。但是现实生活中的噪声信号形形色色,具有十分大的随机性且非平稳,因此在实际生活中传统语音增强算法的性能效果会变差。近年来得益于计算机硬件计算能力的提高,深度学习神经网络得到了快速发展,促使深度学习被广泛应用于各行各业。而在语音增强领域内,深度学习不用预先对噪声信号进行假设,直接提取带噪语音特征,通过神经网络映射到干净语音特征,实现端到端的语音增强,与传统算法相比,深度学习方法可以取得了更大的性能提升。
由于不同的神经网络训练目标会得到不同的语音增强效果,因此如何选择更优的训练目标也是一个热门研究方向。近年来有学者将多目标学习技术应用在语音增强领域,多目标学习即在神经网络的最后一层引出多个目标分支输出层,而其他网络层共享参数,多目标学习可以让各个目标互相学习各自的内在特性,但是共享网络层可能会导致参数优化冲突。
集成学习是一种集体决策过程,通过学习多个弱学习器,再经过一定的策略将弱学习器结合成一个强学习器,具有强大的非线性拟合能力。但是已有的基于深度神经网络的语音增强集成模型存在基模型同质化严重和门控单元输入过于冗余等问题,基模型同质化程度过高会导致各个基模型学习到的特征模式都相同,这样最终的集成模型和单个模型没有区别,而门控单元的输入过于冗余会让集成学习的训练参数增加,且最终的决策过程不够准确,导致增强后的语音质量和可懂度较低。
发明内容
本发明的目的是为了解决现有多目标学习语音增强系统和集成学习语音增强系统的技术缺陷,提供一种基于多目标异质网络的集成语音增强系统,该系统可以有效缓解多目标学习的参数优化冲突问题,以及避免原始输入在深层网络传播中丢失信息。该方法降低了门控单元的输入维度,在减少模型训练参数的同时保证原始输入中的帧之间的关联信息不丢失。本发明可以广泛应用于医疗助听器、车载语音系统、电话通信、手机电脑的智能语音助手等场景。
本发明的目的可以通过采取如下技术方案达到:
一种基于多目标异质网络的集成语音增强系统,由特征提取模块、特征降维模块、m个异质网络、n个门控单元构成,其中原始输入分别与特征提取模块以及特征降维模块相连,特征提取模块分别与m个异质网络相连,特征降维模块和m个异质网络分别与n个门控单元相连。
所述特征提取模块的输入是原始输入,输出与m个异质网络相连,用于提取原始输入的特征。
所述特征降维模块的输入是原始输入,输出分别与n个门控单元相连,用于降低n个门控单元的输入维度,并且保持输入帧之间的关联信息。
m个异质网络的输入是特征提取模块的输出,每个异质网络的输出分别与n个门控单元相连,m个异质网络是上述集成语音增强系统的子模型,用于分别学习不同模式的高级特征。
n个门控单元的输入是特征降维模块和m个异质网络的输出,n个门控单元的输出是n个目标,n个门控单元用于学习m个异质网络对应n个目标的权重。
进一步地,所述特征提取模块通过以下步骤提取原始输入的特征:
T1、将原始输入进行短时傅里叶变换获得帧级别的频谱输入lr,其中r是帧索引。短时傅里叶变换采用下式计算:
Figure BDA0003040021630000031
其中,z是虚数,e是自然指数,lr是短时傅里叶变换后的第r帧频谱输入,a是帧索引,w是频率,b是时间,x(b)是原始输入信号,c(a-b)是窗函数;
T2、将当前第r帧的频谱输入lr扩展为包含前s帧的频谱输入Lr=[lr-s,lr-s-2,...,lr-2,lr-1,lr],作为特征提取模块的输出。
进一步地,m个异质网络中的每个异质网络由共享网络模块和目标分支模块构成,共享网络模块由
Figure BDA0003040021630000032
个顺次连接的网络层构成,其中
Figure BDA0003040021630000033
是向上取整,取比自己大的最小整数。目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000034
个顺次连接的网络层构成,其中
Figure BDA0003040021630000035
是向下取整,取比自己小的最大整数,每个分支互不相连。共享网络模块第q个网络层的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000041
个网络层的输入相连,
Figure BDA0003040021630000042
当上述异质网络的网络层是全连接层时,异质网络称为多目标深度神经网络,异质网络的共享网络模块由
Figure BDA0003040021630000043
个顺次连接的节点数为h1的全连接层构成,目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000044
个顺次连接的节点数为h2的全连接层构成,每个分支互不相连。共享网络模块第q1个全连接层的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000045
个全连接层的输入相连,
Figure BDA0003040021630000046
当上述异质网络的网络层是门控循环单元时,异质网络称为多目标门控循环单元网络,异质网络的共享网络模块由
Figure BDA0003040021630000047
个顺次连接的节点数为h3的门控循环单元构成,目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000048
个顺次连接的节点数为h4的门控循环单元构成,每个分支互不相连。共享网络模块第q2个门控循环单元的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000049
个门控循环单元的输入相连,
Figure BDA00030400216300000410
当上述异质网络的网络层是卷积层时,异质网络称为多目标卷积网络,异质网络的共享网络模块由
Figure BDA00030400216300000411
个顺次连接的卷积核数量为h5,卷积核大小为x1×x2,卷积步长为y1×y2的卷积层构成,目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000051
个顺次连接的卷积核数量为h6,卷积核大小为x3×x4,卷积步长为y3×y4的卷积层构成,每个分支互不相连。共享网络模块第q3个卷积层的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000052
个卷积层的输入相连,
Figure BDA0003040021630000053
进一步地,所述特征降维模块的工作过程如下:
S1、将原始输入进行短时傅里叶变换得到帧级别的频谱输入lt,其中t是帧索引。短时傅里叶变换采用下式计算:
Figure BDA0003040021630000054
其中,z是虚数,e是自然指数,lt是短时傅里叶变换后的第t帧频谱输入,a1是帧索引,w1是频率,b1是时间,x'(b1)是原始输入信号,c1(a1-b1)是窗函数。
S2、将当前第t帧的频谱输入lt扩展为包含前k帧的频谱输入Lt=[lt-k,lt-k-1,...,lt-2,lt-1,lt]
S3、采用下式计算Lt中每一帧j的能量Ej
Figure BDA0003040021630000055
其中,d是一帧频谱的频率总点数,i是频率的索引,j是帧索引。
S4、分别采用下式计算输入Lt中和当前第t帧相关的能量总和Eall,能量差值Etj和能量环比Htj
Eall=Et-k+Et-k-1+...+Et-1+Et (4)
Etj=Et-Ej,j=t-k,t-k-1,...,t-1 (5)
Figure BDA0003040021630000056
其中,j和t是帧索引,Eall是输入Lt中的帧能量总和,Etj是输入Lt中第j帧和第t帧的能量之差,Htj是输入Lt中第j帧和第t帧的能量环比。
S5、拼接当前第t帧的频谱以及和第t帧相关的能量统计信息作为模块输出,Igate=[lt,Et,Ejt,Hjt],其中j和t是帧索引。
进一步地,n个门控单元中的每个门控单元都是由一个节点数为m的全连接层构成,全连接层的激活函数是Softmax函数,计算公式如下:
Figure BDA0003040021630000061
其中,zv、zu分别是函数第v、u个输入,U是输入总个数。
本发明相对于现有技术具有如下的优点及效果:
1、本发明通过引入异质网络作为集成模型的子模型,提高了集成模型的基模型多样性。
2、本发明在各个异质网络的中间层开始引出多目标分支,在参数共享学习的同时缓解了参数优化冲突的问题。以对称的方式连接异质网络的首尾层,避免原始输入在深层网络传播中丢失信息。
3、本发明显著降低了门控单元的输入维度,在减少模型训练参数的同时还能保证输入语音帧之间的关联信息不丢失。
附图说明
图1是本发明实施例中一种基于多目标异质网络的集成语音增强系统结构示意图;
图2是本发明实施例中异质网络结构示意图;
图3是本发明实施例中异质网络称为多目标深度神经网络的结构示意图;
图4是本发明实施例中异质网络称为多目标门控循环单元网络的结构示意图;
图5是本发明实施例中异质网络称为多目标卷积网络的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1中示出了本实施例中一种基于多目标异质网络的集成语音增强系统结构示意图。如图1所示,本实施例公开的一种基于多目标异质网络的集成语音增强系统由特征提取模块、特征降维模块、m个异质网络、n个门控单元构成,其中原始输入分别与特征提取模块以及特征降维模块相连,特征提取模块分别与m个异质网络相连,特征降维模块和m个异质网络分别与n个门控单元相连。
本实施例具体由特征提取模块、特征降维模块、3个异质网络、2个门控单元构成,原始输入是带噪语音信号,目标1是对数谱,目标2是理想比率掩蔽,理想比率掩蔽采用下式计算:
Figure BDA0003040021630000071
其中,IRM是理想比率掩蔽,X2是时频单元的干净语音能量,N2是时频单元的噪声语音能量,β是掩蔽参数,一般取0.5。
本实施例中,特征提取模块通过以下步骤提取原始输入的特征:
T1、将原始输入进行短时傅里叶变换获得帧级别的频谱输入lr,其中r是帧索引。短时傅里叶变换采用下式计算:
Figure BDA0003040021630000072
其中,z是虚数,e是自然指数,lr是短时傅里叶变换后的第r帧频谱输入,a是帧索引,w是频率,b是时间,x(b)是原始输入信号,c(a-b)是窗函数。
上述实施例中,窗函数应选择频谱主瓣宽度较窄的,其具有较高的频率分辨率。其次频谱的旁瓣衰减需尽量大,才能减少频谱的拖尾现象。矩形窗的主瓣宽度最窄,但是旁瓣衰减不足,会导致较大的频谱泄漏。汉宁窗的主瓣宽度宽,但是旁瓣衰减比矩形窗大,而海明窗的主瓣宽度和汉宁窗一样大,但旁瓣衰减比汉宁窗更大,综合考虑,上述实施例的c(a-b)窗函数选择海明窗窗函数。
T2、将当前第r帧的频谱输入lr扩展为包含前s帧的频谱输入Lr=[lr-s,lr-s-2,...,lr-2,lr-1,lr],作为特征提取模块的输出。
已有的帧扩展技术是拼接第r帧的前2帧,第r帧,第r帧的后2帧,总共5帧作为特征提取模块的输出。但是对于当前第r帧来说,使用了未来2帧的信息,整个语音增强系统不再是因果系统。为了保证因果性,上述实施例中的帧扩展技术是只扩展前3帧,即s为3。
本实施例中,m个异质网络中的每个异质网络由共享网络模块和目标分支模块构成,每个异质网络的结构图如图2所示。上述共享网络模块由
Figure BDA0003040021630000081
个顺次连接的网络层构成,其中
Figure BDA0003040021630000082
是向上取整,取比自己大的最小整数。上述目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000083
个顺次连接的网络层构成,其中
Figure BDA0003040021630000084
是向下取整,取比自己小的最大整数,每个分支互不相连。共享网络模块第q个网络层的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000091
个网络层的输入相连,
Figure BDA0003040021630000092
当异质网络的网络层是全连接层时,异质网络称为多目标深度神经网络,异质网络的共享网络模块由
Figure BDA0003040021630000093
个顺次连接的节点数为h1的全连接层构成,目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000094
个顺次连接的节点数为h2的全连接层构成,每个分支互不相连。共享网络模块第q1个全连接层的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000095
个全连接层的输入相连,
Figure BDA0003040021630000096
一个实施例中,异质网络称为多目标深度神经网络的结构示意图如图3所示。已有的多目标深度神经网络是在最后一层全连接层引出多目标分支,这会造成严重的网络参数优化冲突。因此上述实施例中,多目标深度神经网络从中间全连接层引出多目标分支,共享网络模块由2个顺次连接的节点数为512的全连接层构成,目标分支模块包含2个分支,每个分支由2个顺次连接的节点数为256的全连接层构成,每个分支互不相连。上述实施例中为了避免原始输入在深层网络传播中丢失信息,共享网络模块第1个全连接层的输出分别和目标分支模块的每个分支的第2个全连接层的输入相连。优化器使用Adam,损失函数为均方误差函数,批次大小为256,学习率为0.0003,训练总轮次为40。
当异质网络的网络层是门控循环单元时,异质网络称为多目标门控循环单元网络,异质网络的共享网络模块由
Figure BDA0003040021630000097
个顺次连接的节点数为h3的门控循环单元构成,目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000101
个顺次连接的节点数为h4的门控循环单元构成,每个分支互不相连。共享网络模块第q2个门控循环单元的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000102
个门控循环单元的输入相连,
Figure BDA0003040021630000103
另一个实施例中,异质网络称为多目标门控循环单元网络的结构示意图如图4所示。已有的多目标门控循环单元网络是在最后一层门控循环单元引出多目标分支,这会造成严重的网络参数优化冲突。因此上述实施例中,多目标门控循环单元网络从中间门控循环单元引出多目标分支,共享网络模块由3个顺次连接的节点数为512的门控循环单元构成,目标分支模块包含2个分支,每个分支由2个顺次连接的节点数为256的门控循环单元构成,每个分支互不相连。上述实施例中为了避免原始输入在深层网络传播中丢失信息,共享网络模块第1个门控循环单元的输出分别和目标分支模块的每个分支的第2个门控循环单元的输入相连,共享网络模块第2个门控循环单元的输出分别和目标分支模块的每个分支的第1个门控循环单元的输入相连。优化器使用Adam,损失函数为均方误差函数,批次大小为256,学习率为0.0003,训练总轮次为40。
当异质网络的网络层是卷积层时,异质网络称为多目标卷积网络,异质网络的共享网络模块由
Figure BDA0003040021630000104
个顺次连接的卷积核数量为h5,卷积核大小为x1×x2,卷积步长为y1×y2的卷积层构成,目标分支模块包含n个分支,每个分支由
Figure BDA0003040021630000105
个顺次连接的卷积核数量为h6,卷积核大小为x3×x4,卷积步长为y3×y4的卷积层构成,每个分支互不相连。共享网络模块第q3个卷积层的输出分别和目标分支模块的每个分支的第
Figure BDA0003040021630000111
个卷积层的输入相连,
Figure BDA0003040021630000112
又一个实施例中,异质网络称为多目标卷积网络的结构示意图如图5所示。已有的多目标卷积网络是在最后一层卷积层引出多目标分支,这会造成严重的网络参数优化冲突。因此上述实施例中,多目标卷积网络从中间卷积层引出多目标分支,共享网络模块由3个顺次连接的卷积核数量为30,卷积核大小为9×1,卷积步长为1×1的卷积层构成,目标分支模块包含2个分支,每个分支由2个顺次连接的卷积核数量为1,卷积核大小为5×1,卷积步长为1×1的卷积层构成,每个分支互不相连。上述实施例中为了避免原始输入在深层网络传播中丢失信息,共享网络模块第1个卷积层的输出分别和目标分支模块的每个分支的第2个卷积层的输入相连,共享网络模块第2个卷积层的输出分别和目标分支模块的每个分支的第1个卷积层的输入相连。优化器使用Adam,损失函数为均方误差函数,批次大小为256,学习率为0.0003,训练总轮次为40。
特征降维模块采用以下步骤降低n个门控单元的输入维度,并且保持输入帧之间的关联信息,过程如下:
S1、将原始输入进行短时傅里叶变换得到帧级别的频谱输入lt,其中t是帧索引。短时傅里叶变换采用下式计算:
Figure BDA0003040021630000113
其中,z是虚数,e是自然指数,lt是短时傅里叶变换后的第t帧频谱输入,a1是帧索引,w1是频率,b1是时间,x'(b1)是原始输入信号,c1(a1-b1)是窗函数。
窗函数应选择频谱主瓣宽度较窄的,其具有较高的频率分辨率。其次频谱的旁瓣衰减需尽量大,才能减少频谱的拖尾现象。矩形窗的主瓣宽度最窄,但是旁瓣衰减不足,会导致较大的频谱泄漏。汉宁窗的主瓣宽度宽,但是旁瓣衰减比矩形窗大,而海明窗的主瓣宽度和汉宁窗一样大,但旁瓣衰减比汉宁窗更大,因此c1(a1-b1)窗函数选择海明窗窗函数。
S2、将当前第t帧的频谱输入lt扩展为包含前k帧的频谱输入Lt=[lt-k,lt-k-1,...,lt-2,lt-1,lt]。
已有的帧扩展技术是拼接第t帧的前2帧,第t帧,第t帧的后2帧,总共5帧作为当前第t帧的频谱输入。但是对于当前第t帧来说,使用了未来2帧的信息,整个语音增强系统不再是因果系统。为了保证因果性,这里的帧扩展只扩展前3帧,即k为3。
S3、采用下式计算Lt中每一帧j的能量Ej
Figure BDA0003040021630000121
其中,d是一帧频谱的频率总点数,i是频率的索引,j是帧索引。
S4、分别采用下式计算输入Lt中和当前第t帧相关的能量总和Eall,能量差值Etj和能量环比Htj
Eall=Et-k+Et-k-1+...+Et-1+Et (D)
Etj=Et-Ej,j=t-k,t-k-1,...,t-1 (E)
Figure BDA0003040021630000122
其中,j和t是帧索引,Eall是输入Lt中的帧能量总和,Etj是输入Lt中第j帧和第t帧的能量之差,Htj是输入Lt中第j帧和第t帧的能量环比。
已有的门控单元输入是使用上述S2的帧扩展输入Lt作为门控单元的输入,相当于使用了4帧,输入维度过高。而上述实施例以帧的能量来表征帧的信息,可以显著降低门控单元的输入维度,同时为了保证输入语音帧之间的关联信息不丢失,计算前3帧和当前第t帧的相关的能量信息,包括能量总和Eall,能量差值Etj和能量环比Htj
S5、拼接当前第t帧的频谱以及和第t帧相关的能量统计信息作为模块输出,Igate=[lt,Et,Ejt,Hjt],其中j和t是帧索引。
已有的门控单元输入是使用上述S2的帧扩展输入Lt作为门控单元的输入,相当于使用了4帧,输入维度过高。而上述实施例不拼接当前第t帧的前3帧,而是拼接前3帧与第t帧相关的能量信息,显著降低了输入维度。
n个门控单元中的每个门控单元都是由一个节点数为m的全连接层构成,全连接层的激活函数是Softmax函数,计算公式如下:
Figure BDA0003040021630000131
其中,zv、zu分别是函数第v、u个输入,U是输入总个数。
本实施例中,总共有3个异质网络,2个目标,所以n是2,m是3。
为验证本发明的技术效果,将本发明实例和已有的基线系统“多重深度神经网络语音增强系统”进行对比,评价指标使用语音质量感知评估PESQ。
训练集包括在TIMIT训练集中随机挑选的500条干净语音,4条NOISEX-92库中的White、Factory1、Pink和Babble噪声。测试集包括在TIMIT测试集中随机挑选的200条干净语音,2条NOISEX-92库中的Factory2和F16噪声。测试集分别在和训练集匹配的信噪比-5dB、0dB、5dB、10dB,以及不匹配的信噪比-7dB、-2dB、2dB、7dB上做实验。
已有的基线系统“多重深度神经网络语音增强系统”包括4个相同的深度神经网络,训练目标是干净语音的对数谱,每个深度神经网络都包含3层节点数为512的全连接层。优化器使用Adam,损失函数为均方误差函数,批次大小为256,学习率为0.0003,训练总轮次为40。
对比结果如表1、表2所示,在匹配信噪比条件下,本发明的PESQ比基线系统提升了约9.67%,在不匹配信噪比条件下,本发明的PESQ比基线系统提升了约9.91%。说明不管在匹配信噪比条件下还是不匹配信噪比条件下,本发明的技术效果均优于基线系统。
表1.匹配信噪比条件下的PESQ对比
-5dB 0dB 5dB 10dB
基线系统 1.879 2.268 2.591 2.848
本实施例 2.098 2.471 2.806 3.125
表2.不匹配信噪比条件下的PESQ对比
-7dB -2dB 2dB 7dB
基线系统 1.723 2.117 2.407 2.701
本实施例 1.943 2.326 2.608 2.935
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于多目标异质网络的集成语音增强系统,其特征在于,所述集成语音增强系统包括特征提取模块、特征降维模块、m个异质网络、n个门控单元构成,其中,原始输入分别与特征提取模块以及特征降维模块相连,特征提取模块分别与m个异质网络相连,特征降维模块和m个异质网络分别与n个门控单元相连;
所述特征提取模块的输入是原始输入,所述特征提取模块的输出分别与m个异质网络相连,用于提取原始输入的特征;
所述特征降维模块的输入是原始输入,所述特征降维模块的输出分别与n个门控单元相连,用于降低n个门控单元的输入维度,并且保持输入帧之间的关联信息;
m个异质网络的输出分别与n个门控单元相连,m个异质网络是所述集成语音增强系统的子模型,用于分别学习不同模式的高级特征;
n个门控单元的输入是特征降维模块和m个异质网络的输出,n个门控单元的输出是n个目标,n个门控单元用于学习m个异质网络对应n个目标的权重。
2.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统,其特征在于,所述特征提取模块中提取原始输入的特征的过程如下:
T1、将原始输入进行短时傅里叶变换获得帧级别的频谱输入lr,其中r是帧索引,短时傅里叶变换采用下式计算:
Figure FDA0003040021620000011
其中,z是虚数,e是自然指数,lr是短时傅里叶变换后的第r帧频谱输入,a是帧索引,w是频率,b是时间,x(b)是原始输入信号,c(a-b)是窗函数;
T2、将当前第r帧的频谱输入lr扩展为包含前s帧的频谱输入Lr=[lr-s,lr-s-2,...,lr-2,lr-1,lr],作为特征提取模块的输出。
3.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统,其特征在于,m个异质网络中的每个异质网络由共享网络模块和目标分支模块构成,所述共享网络模块由
Figure FDA0003040021620000021
个顺次连接的网络层构成,其中
Figure FDA0003040021620000022
是向上取整,所述目标分支模块包含n个分支,每个分支由
Figure FDA0003040021620000023
个顺次连接的网络层构成,并且每个分支互不相连;共享网络模块中第q个网络层的输出分别和目标分支模块的每个分支的第
Figure FDA0003040021620000024
个网络层的输入相连,
Figure FDA0003040021620000025
其中
Figure FDA0003040021620000026
是向下取整。
4.根据权利要求3所述的一种基于多目标异质网络的集成语音增强系统,其特征在于,当异质网络的网络层是全连接层时,异质网络称为多目标深度神经网络,异质网络的共享网络模块由
Figure FDA0003040021620000027
个顺次连接的节点数为h1的全连接层构成,目标分支模块包含n个分支,每个分支由
Figure FDA0003040021620000028
个顺次连接的节点数为h2的全连接层构成,并且每个分支互不相连;共享网络模块第q1个全连接层的输出分别和目标分支模块的每个分支的第
Figure FDA0003040021620000029
个全连接层的输入相连,
Figure FDA00030400216200000210
5.根据权利要求3所述的一种基于多目标异质网络的集成语音增强系统,其特征在于,当异质网络的网络层是门控循环单元时,异质网络称为多目标门控循环单元网络,异质网络的共享网络模块由
Figure FDA00030400216200000211
个顺次连接的节点数为h3的门控循环单元构成,目标分支模块包含n个分支,每个分支由
Figure FDA0003040021620000031
个顺次连接的节点数为h4的门控循环单元构成,并且每个分支互不相连;共享网络模块第q2个门控循环单元的输出分别和目标分支模块的每个分支的第
Figure FDA0003040021620000032
个门控循环单元的输入相连,
Figure FDA0003040021620000033
6.根据权利要求3所述的一种基于多目标异质网络的集成语音增强系统,其特征在于,当异质网络的网络层是卷积层时,异质网络称为多目标卷积网络,异质网络的共享网络模块由
Figure FDA0003040021620000034
个顺次连接的卷积核数量为h5,卷积核大小为x1×x2,卷积步长为y1×y2的卷积层构成,目标分支模块包含n个分支,每个分支由
Figure FDA0003040021620000035
个顺次连接的卷积核数量为h6,卷积核大小为x3×x4,卷积步长为y3×y4的卷积层构成,并且每个分支互不相连;共享网络模块第q3个卷积层的输出分别和目标分支模块的每个分支的第
Figure FDA0003040021620000036
个卷积层的输入相连,
Figure FDA0003040021620000037
7.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统,其特征在于,所述特征降维模块的工作过程如下:
S1、将原始输入进行短时傅里叶变换得到帧级别的频谱输入lt,其中t是帧索引,短时傅里叶变换采用下式计算:
Figure FDA0003040021620000038
其中,z是虚数,e是自然指数,lt是短时傅里叶变换后的第t帧频谱输入,a1是帧索引,w1是频率,b1是时间,x'(b1)是原始输入信号,c1(a1-b1)是窗函数;
S2、将当前第t帧的频谱输入lt扩展为包含前k帧的频谱输入Lt=[lt-k,lt-k-1,...,lt-2,lt-1,lt];
S3、采用下式计算Lt中每一帧j的能量Ej
Figure FDA0003040021620000041
其中,d是一帧频谱的频率总点数,i是频率的索引,j是帧索引;
S4、分别采用下式计算输入Lt中和当前第t帧相关的能量总和Eall,能量差值Etj和能量环比Htj
Eall=Et-k+Et-k-1+...+Et-1+Et
Etj=Et-Ej,j=t-k,t-k-1,...,t-1
Figure FDA0003040021620000042
其中,Eall是输入Lt中的帧能量总和,Etj是输入Lt中第j帧和第t帧的能量之差,Htj是输入Lt中第j帧和第t帧的能量环比;
S5、拼接当前第t帧的频谱以及和第t帧相关的能量统计信息作为模块输出,Igate=[lt,Et,Ejt,Hjt]。
8.根据权利要求1所述的一种基于多目标异质网络的集成语音增强系统,其特征在于,n个门控单元中的每个门控单元都是由一个节点数为m的全连接层构成,全连接层的激活函数采用Softmax函数,计算公式如下:
Figure FDA0003040021620000043
其中,zv、zu分别是函数第v、u个输入,U是输入总个数。
CN202110463638.9A 2021-04-26 2021-04-26 一种基于多目标异质网络的集成语音增强系统 Expired - Fee Related CN113241083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110463638.9A CN113241083B (zh) 2021-04-26 2021-04-26 一种基于多目标异质网络的集成语音增强系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110463638.9A CN113241083B (zh) 2021-04-26 2021-04-26 一种基于多目标异质网络的集成语音增强系统

Publications (2)

Publication Number Publication Date
CN113241083A true CN113241083A (zh) 2021-08-10
CN113241083B CN113241083B (zh) 2022-04-22

Family

ID=77129654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110463638.9A Expired - Fee Related CN113241083B (zh) 2021-04-26 2021-04-26 一种基于多目标异质网络的集成语音增强系统

Country Status (1)

Country Link
CN (1) CN113241083B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN110867181A (zh) * 2019-09-29 2020-03-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN111583948A (zh) * 2020-05-09 2020-08-25 南京工程学院 一种改进的多通道语音增强系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别系统中基于多个卷积神经网络的语音增强算法
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
CN110867181A (zh) * 2019-09-29 2020-03-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN111583948A (zh) * 2020-05-09 2020-08-25 南京工程学院 一种改进的多通道语音增强系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
R.LI ET AL.: "A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN", 《DIGITAL SIGNAL PROCESSING》 *
任相赢: "基于深层神经网络的语音增强算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 *
王金超等: "基于神经网络的语音增强算法研究", 《微型电脑应用》 *

Also Published As

Publication number Publication date
CN113241083B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN111508519B (zh) 一种音频信号人声增强的方法及装置
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与系统
CN110491406B (zh) 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN112634146B (zh) 基于多种注意力机制的多通道cnn医学ct图像去噪方法
CN105427859A (zh) 一种用于对说话人识别的前端语音增强方法
CN112380939A (zh) 一种基于生成对抗网络的深度学习信号增强方法
CN114694670A (zh) 一种基于多任务网络的麦克风阵列语音增强系统及方法
CN109671446A (zh) 一种基于绝对听觉阈值的深度学习语音增强方法
CN114283829B (zh) 一种基于动态门控卷积循环网络的语音增强方法
CN113241083B (zh) 一种基于多目标异质网络的集成语音增强系统
CN112634927B (zh) 一种短波信道语音增强方法
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN116052706B (zh) 一种基于神经网络的低复杂度语音增强方法
CN113763984B (zh) 一种用于分布式多说话人的参数化噪声消除系统
CN113411456B (zh) 一种基于语音识别的话音质量评估方法及装置
CN115440240A (zh) 语音降噪的训练方法、语音降噪系统及语音降噪方法
CN114882898A (zh) 多通道语音信号增强方法和装置及计算机设备和存储介质
CN111816187A (zh) 复杂环境下基于深层神经网络的语音特征映射方法
CN114842863B (zh) 一种基于多分支-动态合并网络的信号增强方法
CN116913288A (zh) 一种音频提取方法、装置及电子设备
CN115798497B (zh) 一种时延估计系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220422

CF01 Termination of patent right due to non-payment of annual fee