CN114283829A - 一种基于动态门控卷积循环网络的语音增强方法 - Google Patents

一种基于动态门控卷积循环网络的语音增强方法 Download PDF

Info

Publication number
CN114283829A
CN114283829A CN202111520056.6A CN202111520056A CN114283829A CN 114283829 A CN114283829 A CN 114283829A CN 202111520056 A CN202111520056 A CN 202111520056A CN 114283829 A CN114283829 A CN 114283829A
Authority
CN
China
Prior art keywords
convolution
input
channel
gated
deconvolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111520056.6A
Other languages
English (en)
Other versions
CN114283829B (zh
Inventor
陈延涛
刘欣悦
董彬虹
唐文岐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111520056.6A priority Critical patent/CN114283829B/zh
Publication of CN114283829A publication Critical patent/CN114283829A/zh
Application granted granted Critical
Publication of CN114283829B publication Critical patent/CN114283829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Complex Calculations (AREA)

Abstract

该发明公开了一种基于动态门控卷积循环网络的语音增强方法,属于人工智能领域。本发明提出将动态卷积应用于语音增强,并改进了门控卷积循环网络的门控卷积模块和门控反卷积模块,使动态卷积模块,即动态解耦滤波器能够很好地与现有结构融合。在本发明中,在信号通过每一个动态卷积模块或者动态反卷积模块时,根据输入从通道和空间两个方向生成用于卷积的滤波器参数,这使得传统网络的卷积层内容不可知的缺陷被弥补,实验表明本发明能够显著提高低信噪比下的语音质量,实际性能优于现有深度学习语音增强方法。

Description

一种基于动态门控卷积循环网络的语音增强方法
技术领域
本发明属于人工智能领域,涉及一种基于神经网络的语音增强方法。
背景技术
话音增强的目标是从噪声环境中将目标语音分离出来,在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务,在许多应用中,只有将语音尽可能地与背景干扰和噪声分隔开,后续处理过程才会取得良好的效果。早期的语音增强算法主要以非监督学习算法为主,基于统计信号模型设计算法。但这些算法依赖人工假设的数学模型,往往与实际条件有一定的偏差,因此性能始终有限。近年来,随着硬件计算能力的快速进步和深度学习理论的快速发展,基于深度学习的语音增强方法被大量提出并迅速成为语音增强的主要发展方向。现有深度学习语音增强方法绝大多数以卷积层作为主要网络组成部分,提取语音的局部信息;以循环神经网络(Recurrent Neural Network,RNN)作为辅助模块,提取语音的时间信息。然而,尽管卷积运算由于其简单的结构和强大的特征提取能力而成为神经网络的基本组成单元,但目前一些研究认为常规的卷积存在两个缺陷需要解决:第一个缺陷是卷积运算的内容无关性,即卷积网络的滤波器是空间不变的,并且其参数在训练完成后面对不同的输出将不会再改变,故而理论上空间不变性的滤波器在面对内容各异的输入时,其特征提取能力是次优的;第二个缺陷是卷积运算的计算复杂度会随着滤波器的大小和通道数目的增加而急剧增加,这就导致了滤波器的尺寸往往被限制在较小的数值(3×3,5×5或者7×7),因而导致感受野较小从而进一步限制了网络的性能。
发明内容
本发明针对背景技术的缺陷,将前沿的动态解耦滤波器(Decoupled DynamicFilter,DDF)引入到经典的门控卷积循环网络(Gated Convolutional RecurrentNetworks,GCRN)中,提出了一种新型的动态门控卷积循环网络(语音增强网络)语音增强方法。本发明将原始GCRN中的主支路卷积层全部换成了动态滤波器DDF,一方面降低了计算量和参数量,另一方面使得相应卷积层的卷积参数根据输入自适应地进行调整,具有更强的特征提取能力,性能得到了显著提升。
本发明技术方案为一种基于动态卷积门控卷积循环网络的语音增强方法,该方法包括:
步骤1:建立语音增强网络;
步骤1.1:构造DDF空间参数
Figure BDA0003406947390000011
输入的语音X有Ci个通道,其频率方向大小为H,时间方向大小为T,输入表示为X∈RC×H×T;将期望生成的滤波器沿着频率方向的长度设置为K,沿着时间方向的长度设置为L,即期望使用大小为K×L的滤波器处理输入特征,则应用一个输入通道为Ci,输出通道为KL的1×1卷积层
Figure BDA00034069473900000225
对其进行处理,
Figure BDA0003406947390000022
得到空间上参数z(SP)∈RKL×H×W,即
Figure BDA0003406947390000023
然后对z(SP)的每个空间位置上长度为KL×1×1的向量进行归一化,即
Figure BDA0003406947390000024
Figure BDA0003406947390000025
其中,E[·]和Std[·]分别表示取均值和标准差,而α和γ是可学习的参数;
最后将
Figure BDA0003406947390000026
沿着通道第一个维度复制Ci份得到
Figure BDA0003406947390000027
规整后的形式为
Figure BDA0003406947390000028
步骤1.2:构造DDF通道参数
Figure BDA0003406947390000029
首先对X的每个通道取均值得到XGAP∈RC×1×1,再连续使用两个1×1卷积对XGAP进行处理,最终得到通道分支参数
Figure BDA00034069473900000210
所述的两个卷积分别表示为
Figure BDA00034069473900000211
Figure BDA00034069473900000212
并且σ是取值范围为(0,1)区间内的常数,即:
Figure BDA00034069473900000213
Figure BDA00034069473900000214
其中,φ表示线性整流激活函数,将z(CH)沿着第2个维度复制H次,再沿着第3个维度复制T次得到
Figure BDA00034069473900000215
规整后的形式为
Figure BDA00034069473900000216
步骤1.3:融合空间参数
Figure BDA00034069473900000217
和通道参数
Figure BDA00034069473900000218
将得到的
Figure BDA00034069473900000219
Figure BDA00034069473900000220
逐点对应相乘得到
Figure BDA00034069473900000221
再将
Figure BDA00034069473900000222
的第一个维度拆解成大小为Ci、K和T的三个新的维度得到最终的
Figure BDA00034069473900000223
得到通过步骤1.1~1.2构造的卷积层滤波器,由于该滤波器是根据输入动态生成并被用于与输入信号进行卷积,故而称为动态卷积核,对于输入的每个通道和每个时间、频率位置,
Figure BDA00034069473900000224
都具有对应的大小为K×L的滤波器参数;
步骤1.4:应用
Figure BDA0003406947390000031
处理输入X,将得到的输出结果记为Y∈RC×H×T
Figure BDA0003406947390000032
其中,
Figure BDA0003406947390000033
表示
Figure BDA00034069473900000315
在通道为c,频率位置为i,时间位置为j上大小为K×L的滤波器中位置为(k,l)处的滤波器参数,X[c,i-k,j-l]通道为c,频率位置为i-k,时间位置为j-l的输入样本点;
步骤2:由纯净语音数据集xtrain构造含噪语音数据集
Figure BDA0003406947390000034
Figure BDA0003406947390000035
其中,xtrain表示纯净语音数据集,ntrain为指定信噪比的加性噪声;将纯净语音数据集xtrain和含噪语音数据集
Figure BDA0003406947390000036
经过短时傅里叶变换进行特征提取,获得相应语音信号的STFT谱数据集:训练输入
Figure BDA0003406947390000037
和训练目标输出Xtrain
步骤3:训练步骤1得到的语音增强网络;
将步骤2所得的
Figure BDA0003406947390000038
作为输入信号,Xtrain作为目标,使用如下所示的MSE作为损失函数进行卷积神经网络训练,
Figure BDA0003406947390000039
其中,
Figure BDA00034069473900000310
为步骤1得到的语音增强网络的实际输出,
Figure BDA00034069473900000311
Figure BDA00034069473900000312
分别表示对信号取实部和虚部,直到训练完毕;
步骤4:采用训练好的语音增强网络对实际语音进行增强处理。
进一步地,所述语音增强网络中通过构造空间参数
Figure BDA00034069473900000313
和通道参数
Figure BDA00034069473900000314
生成的卷积核大小均设为(K,L)=(3,1),所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层,称为门控卷积模块和门控反卷积模块,即对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整,门控分支的设置与卷积层一致,但使用Sigmoid作为激活函数;卷积层和反卷积层的滤波器系数使用步骤1.3得到的
Figure BDA00034069473900000316
中为卷积层和反卷积层提供相应的系数;此外,前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小,即每过一个卷积层,输入的长度减小一半,而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍;所有卷积层和反卷积层的通道数均设置为64;长短时记忆(Long-short-time-memory,LSTM)的输入特征数和隐藏神经元数均为320,所有激活函数均使用PReLU。进行STFT时,将语音信号使用汉明窗进行分帧,每帧帧长256,相邻两帧重叠50%的采样点,逐帧进行傅里叶变换即可得到信号语谱图;由于语音是实信号,其频谱是共轭对称的,因此仅取半边谱,即每帧129长度送入语音增强网络。
本发明的主要特点在于:创新性地提出将动态卷积应用于深度学习语音增强方法中,令神经网络的参数随着输入的变化而动态调整,这一做法克服了卷积网络完成训练之后内容不可知的特性,即网络参数不再随着输入而变化从而导致特征提取能力次优的问题,使得神经网络能够更好地提取特征;本发明使用了前沿的DDF动态卷积方法,并将其嵌入到先进的神经网络结构GCRN中,重新设计了相应的门控卷积模块和门控反卷积模块,在参数量没有增加的情况下取得了显著优于原始GCRN的性能。
附图说明
图1为本发明适用的DDF的简化框图;
图2为本发明使用的语音增强网络网络结构图;
图3为本发明方法中语音增强网络中的门控卷积模块结构图,门控反卷积模块与之相似,仅仅将门控分支(Gate Branch)中的卷积层换为反卷积。
具体实施方式
下面结合附图和实施例,详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
DDF被提出后已经被证明能够取得比常规的卷积层更好的特征提取能力。本发明使用DDF替代了图2所示的语音增强网络结构中各个模块中的卷积层以及反卷积层。每个门控卷积模块和门控反卷积模块中DDF的具体位置如图3所示,由于门控卷积模块与门控反卷积模块结构类似,仅将门控分支(Gate branch)中的卷积层换成了反卷积层,因此不再给出冗余图示。值得注意的是,在门控卷积模块中,DDF分支和门控分支中均通过调整步长为2压缩输入的频率维度大小至原来的二分之一,而在门控反卷积模块中的DDF分支通过子像素卷积的方式来将输入的频率维度(第二个维度)大小扩大两倍:假设门控反卷积模块的输入为X∈RC×H×T,则通过该模块的DDF后的输出为Y′∈R2C×H×T,将Y′中一半的通道维度分离出来填充到频率维度中,即:
Figure BDA0003406947390000051
其中1≤i≤H,1≤j≤T。由于子像素操作是比较基础的深度学习处理手段,此处不再赘述。而门控反卷积模块中的门控分支使用反卷积层完成频率维度扩增的操作;经过以上修改,得到本发明提出的语音增强网络。
数据集和仿真参数设置如下:
本发明实施例采用TIMIT数据集对语音增强网络进行训练和测试,该数据集包含了由630名发音人员构成的6300条音频(70%为男性)。选择其中的4620条音频作为训练数据xtrain,另外1680条作为测试数据xtest
训练数据xtrain添加的噪声类型为短波噪声,指定噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB,每个SNR下的音频数目为1500,即总共9000条音频用于训练。
测试数据xtest所选噪声类型为短波噪声,指定噪声SNR为0dB。
所有音频数据采样率为8kHz,使用汉明窗进行加窗分帧操作,帧长为256样本,帧移为128样本。
卷积神经网络使用adam优化器以1e-3的初始学习率对模型进行训练,每一个怕批次(mini-batch)的大小为4,每5个训练周期(epoch)减小一半学习率。
评价指标:语音质量感知指标(Perceptual evaluation of speech quality,PESQ),该指标的量化区间为-0.5~4.5,分数越高,表示语音质量越好。短时客观可懂度(Short-Time Objective Intelligibility,STOI),该指标的量化区间为0~1,可使用百分比的形式表示,分数越高代表语音质量越好。
具体实施例包括以下步骤:
步骤1:根据图1的DDF简化框图构建DDL模块,并将其插入到图3所示的门控卷积模块或者门控反卷积模块结构中,再使用图3所示的门控卷积模块和门控反卷积模块构建图2所示的GCRN结构,得到语音增强网络网络。
步骤2:由将上述TIMIT语音训练数据集xtrain构造含噪语音数据集
Figure BDA0003406947390000052
Figure BDA0003406947390000053
其中ntrain为指定信噪比的加性噪声,从而获得9000条语音数据集xtrain和含噪语音数据集
Figure BDA0003406947390000061
将这两个处理后的数据集与纯净语音数据集经过短时傅里叶变换(Shorttime Fourier transform,STFT)进行特征提取,获得相应语音信号的STFT谱数据集获得相应语音信号的语谱图数据集Xtrain
Figure BDA0003406947390000062
转入步骤3.
步骤3:训练步骤1构造的神经网络语音增强网络,将步骤2所得的语音语谱图数据集
Figure BDA0003406947390000063
作为输入信号,将纯净语音语谱图数据集Xtrain作为目标,使用MSE作为损失函数进行卷积神经网络训练,最终获得具有噪声抑制能力的神经网络模型,转入步骤4.
步骤4:将步骤3获得的神经网络模型语音增强网络用于实际信号的语音增强。首先对待增强信号ytest进行STFT得到语谱图Ytest,将Ytest送入语音增强网络得到输出
Figure BDA0003406947390000064
Figure BDA0003406947390000065
进行逆STFT,得到增强后的信号
Figure BDA0003406947390000066
由此完成本发明的短波语音增强。
与本发明的方法对比的有:短波语音不经过增强处理(unprocessed),使用原始GCRN算法,以及本发明所用方法语音增强网络。如下表1所示为0dB下不同方法在不同噪声上对于PESQ指标和STOI指标的测试结果。
表1
质量指标 PESQ STOI(%)
unprocessed 1.4836 69.0589
GCRN 2.7249 86.7464
本发明语音增强网络 2.8818 88.9105
实验对比结果表示,本发明相比原始的GCRN语音增强算法,显著提高了增强语音质量。

Claims (2)

1.一种基于动态卷积门控卷积循环网络的语音增强方法,该方法包括:
步骤1:建立语音增强网络;
步骤1.1:构造DDF空间参数
Figure FDA0003406947380000011
输入的语音X有Ci个通道,其频率方向大小为H,时间方向大小为T,输入表示为X∈RC ×H×T;将期望生成的滤波器沿着频率方向的长度设置为K,沿着时间方向的长度设置为L,即期望使用大小为K×L的滤波器处理输入特征,则应用一个输入通道为Ci,输出通道为KL的1×1卷积层
Figure FDA0003406947380000012
对其进行处理,
Figure FDA0003406947380000013
得到空间上参数z(SP)∈RKL×H×W,即
Figure FDA0003406947380000014
然后对z(SP)的每个空间位置上长度为KL×1×1的向量进行归一化,即
Figure FDA0003406947380000015
Figure FDA0003406947380000016
其中,E[·]和Std[·]分别表示取均值和标准差,而α和γ是可学习的参数;
最后将
Figure FDA0003406947380000017
沿着通道第一个维度复制Ci份得到
Figure FDA0003406947380000018
规整后的形式为
Figure FDA0003406947380000019
步骤1.2:构造DDF通道参数
Figure FDA00034069473800000110
首先对X的每个通道取均值得到XGAP∈RC×1×1,再连续使用两个1×1卷积对XGAP进行处理,最终得到通道分支参数
Figure FDA00034069473800000123
所述的两个卷积分别表示为
Figure FDA00034069473800000111
Figure FDA00034069473800000112
并且σ是取值范围为(0,1)区间内的常数,即:
Figure FDA00034069473800000113
Figure FDA00034069473800000114
其中,φ表示线性整流激活函数,将z(CH)沿着第2个维度复制H次,再沿着第3个维度复制T次得到
Figure FDA00034069473800000115
规整后的形式为
Figure FDA00034069473800000116
步骤1.3:融合空间参数
Figure FDA00034069473800000117
和通道参数
Figure FDA00034069473800000118
将得到的
Figure FDA00034069473800000119
Figure FDA00034069473800000120
逐点对应相乘得到
Figure FDA00034069473800000121
再将
Figure FDA00034069473800000122
的第一个维度拆解成大小为Ci、K和T的三个新的维度得到最终的
Figure FDA0003406947380000021
得到通过步骤1.1~1.2构造的卷积层滤波器,由于该滤波器是根据输入动态生成并被用于与输入信号进行卷积,故而称为动态卷积核,对于输入的每个通道和每个时间、频率位置,
Figure FDA0003406947380000022
都具有对应的大小为K×L的滤波器参数;
步骤1.4:应用
Figure FDA0003406947380000023
处理输入X,将得到的输出结果记为Y∈RC×H×T
Figure FDA0003406947380000024
其中,
Figure FDA0003406947380000025
表示
Figure FDA0003406947380000026
在通道为c,频率位置为i,时间位置为j上大小为K×L的滤波器中位置为(k,l)处的滤波器参数,X[c,i-k,j-l]通道为c,频率位置为i-k,时间位置为j-l的输入样本点;
步骤2:由纯净语音数据集xtrain构造含噪语音数据集
Figure FDA0003406947380000027
Figure FDA0003406947380000028
其中,xtrain表示纯净语音数据集,ntrain为指定信噪比的加性噪声;将纯净语音数据集xtrain和含噪语音数据集
Figure FDA0003406947380000029
经过短时傅里叶变换进行特征提取,获得相应语音信号的STFT谱数据集:训练输入
Figure FDA00034069473800000210
和训练目标输出Xtrain
步骤3:训练步骤1得到的语音增强网络;
将步骤2所得的
Figure FDA00034069473800000211
作为输入信号,Xtrain作为目标,使用如下所示的MSE作为损失函数进行卷积神经网络训练,
Figure FDA00034069473800000212
其中,
Figure FDA00034069473800000213
为步骤1得到的语音增强网络的实际输出,
Figure FDA00034069473800000214
Figure FDA00034069473800000215
分别表示对信号取实部和虚部,直到训练完毕;
步骤4:采用训练好的语音增强网络对实际语音进行增强处理。
2.如权利要求1所述的一种基于动态卷积门控卷积循环网络的语音增强方法,其特征在于,所述语音增强网络中通过构造空间参数
Figure FDA00034069473800000216
和通道参数
Figure FDA00034069473800000217
生成的卷积核大小均设为(K,L)=(3,1),所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层,称为门控卷积模块和门控反卷积模块,即对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整,门控分支的设置与卷积层一致,但使用Sigmoid作为激活函数;卷积层和反卷积层的滤波器系数使用步骤1.3得到的
Figure FDA0003406947380000031
中为卷积层和反卷积层提供相应的系数;此外,前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小,即每过一个卷积层,输入的长度减小一半,而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍;所有卷积层和反卷积层的通道数均设置为64;长短时记忆的输入特征数和隐藏神经元数均为320,所有激活函数均使用PReLU。进行STFT时,将语音信号使用汉明窗进行分帧,每帧帧长256,相邻两帧重叠50%的采样点,逐帧进行傅里叶变换即可得到信号语谱图;由于语音是实信号,其频谱是共轭对称的,因此仅取半边谱,即每帧129长度送入语音增强网络。
CN202111520056.6A 2021-12-13 2021-12-13 一种基于动态门控卷积循环网络的语音增强方法 Active CN114283829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111520056.6A CN114283829B (zh) 2021-12-13 2021-12-13 一种基于动态门控卷积循环网络的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111520056.6A CN114283829B (zh) 2021-12-13 2021-12-13 一种基于动态门控卷积循环网络的语音增强方法

Publications (2)

Publication Number Publication Date
CN114283829A true CN114283829A (zh) 2022-04-05
CN114283829B CN114283829B (zh) 2023-06-16

Family

ID=80871843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111520056.6A Active CN114283829B (zh) 2021-12-13 2021-12-13 一种基于动态门控卷积循环网络的语音增强方法

Country Status (1)

Country Link
CN (1) CN114283829B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842863A (zh) * 2022-04-19 2022-08-02 电子科技大学 一种基于多分支-动态合并网络的信号增强方法
CN116741151A (zh) * 2023-08-14 2023-09-12 成都筑猎科技有限公司 一种基于呼叫中心的用户呼叫实时监测系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
US10510358B1 (en) * 2017-09-29 2019-12-17 Amazon Technologies, Inc. Resolution enhancement of speech signals for speech synthesis
CN110867192A (zh) * 2019-10-23 2020-03-06 北京计算机技术及应用研究所 基于门控循环编解码网络的语音增强方法
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN111386568A (zh) * 2017-10-27 2020-07-07 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序
US20200312345A1 (en) * 2019-03-28 2020-10-01 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
CN111971743A (zh) * 2018-04-13 2020-11-20 微软技术许可有限责任公司 用于改进的实时音频处理的系统、方法和计算机可读介质
CN112309411A (zh) * 2020-11-24 2021-02-02 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN112446242A (zh) * 2019-08-29 2021-03-05 北京三星通信技术研究有限公司 声学场景分类方法、装置及相应设备
CN112509593A (zh) * 2020-11-17 2021-03-16 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN112634926A (zh) * 2020-11-24 2021-04-09 电子科技大学 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN113345463A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 基于卷积神经网络的语音增强方法、装置、设备及介质
US20210350796A1 (en) * 2019-05-07 2021-11-11 Electronics And Telecommunications Research Institute Apparatus and method for speech processing using a densely connected hybrid neural network

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10510358B1 (en) * 2017-09-29 2019-12-17 Amazon Technologies, Inc. Resolution enhancement of speech signals for speech synthesis
CN111386568A (zh) * 2017-10-27 2020-07-07 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序
CN111971743A (zh) * 2018-04-13 2020-11-20 微软技术许可有限责任公司 用于改进的实时音频处理的系统、方法和计算机可读介质
US20200312345A1 (en) * 2019-03-28 2020-10-01 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US20210350796A1 (en) * 2019-05-07 2021-11-11 Electronics And Telecommunications Research Institute Apparatus and method for speech processing using a densely connected hybrid neural network
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN112446242A (zh) * 2019-08-29 2021-03-05 北京三星通信技术研究有限公司 声学场景分类方法、装置及相应设备
CN110867192A (zh) * 2019-10-23 2020-03-06 北京计算机技术及应用研究所 基于门控循环编解码网络的语音增强方法
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN112509593A (zh) * 2020-11-17 2021-03-16 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN112634926A (zh) * 2020-11-24 2021-04-09 电子科技大学 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN112309411A (zh) * 2020-11-24 2021-02-02 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN113345463A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 基于卷积神经网络的语音增强方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张天骐; 柏浩钧; 叶绍鹏; 刘鉴兴: "基于门控残差卷积编解码网络的单通道语音增强方法", 信号处理 *
李劲东: "基于深度学习的单通道语音增强研究", 中国优秀硕士学位论文全文数据库 (信息科技辑) *
袁文浩;胡少东;时云龙;李钊;梁春燕;: "一种用于语音增强的卷积门控循环网络", 电子学报 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842863A (zh) * 2022-04-19 2022-08-02 电子科技大学 一种基于多分支-动态合并网络的信号增强方法
CN114842863B (zh) * 2022-04-19 2023-06-02 电子科技大学 一种基于多分支-动态合并网络的信号增强方法
CN116741151A (zh) * 2023-08-14 2023-09-12 成都筑猎科技有限公司 一种基于呼叫中心的用户呼叫实时监测系统
CN116741151B (zh) * 2023-08-14 2023-11-07 成都筑猎科技有限公司 一种基于呼叫中心的用户呼叫实时监测系统

Also Published As

Publication number Publication date
CN114283829B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
Fu et al. Raw waveform-based speech enhancement by fully convolutional networks
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
Wang et al. On training targets for supervised speech separation
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN112802491B (zh) 一种基于时频域生成对抗网络的语音增强方法
CN114283829A (zh) 一种基于动态门控卷积循环网络的语音增强方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
Strauss et al. A flow-based neural network for time domain speech enhancement
CN112259119B (zh) 基于堆叠沙漏网络的音乐源分离方法
Hou et al. Multi-task learning for end-to-end noise-robust bandwidth extension
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
CN110070887B (zh) 一种语音特征重建方法及装置
Zhou et al. Speech Enhancement via Residual Dense Generative Adversarial Network.
CN116013339A (zh) 一种基于改进crn的单通道语音增强方法
CN113066483B (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
CN114842863B (zh) 一种基于多分支-动态合并网络的信号增强方法
Li et al. Convolutional recurrent neural network based progressive learning for monaural speech enhancement
TWI749547B (zh) 應用深度學習的語音增強系統
Sun et al. A new speech enhancement method based on Swin-UNet model
EP4233051B1 (en) An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters
Agrawal et al. Performance analysis of speech enhancement using spectral gating with U-Net

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant