CN114283829B - 一种基于动态门控卷积循环网络的语音增强方法 - Google Patents
一种基于动态门控卷积循环网络的语音增强方法 Download PDFInfo
- Publication number
- CN114283829B CN114283829B CN202111520056.6A CN202111520056A CN114283829B CN 114283829 B CN114283829 B CN 114283829B CN 202111520056 A CN202111520056 A CN 202111520056A CN 114283829 B CN114283829 B CN 114283829B
- Authority
- CN
- China
- Prior art keywords
- convolution
- input
- gating
- voice
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Complex Calculations (AREA)
Abstract
该发明公开了一种基于动态门控卷积循环网络的语音增强方法,属于人工智能领域。本发明提出将动态卷积应用于语音增强,并改进了门控卷积循环网络的门控卷积模块和门控反卷积模块,使动态卷积模块,即动态解耦滤波器能够很好地与现有结构融合。在本发明中,在信号通过每一个动态卷积模块或者动态反卷积模块时,根据输入从通道和空间两个方向生成用于卷积的滤波器参数,这使得传统网络的卷积层内容不可知的缺陷被弥补,实验表明本发明能够显著提高低信噪比下的语音质量,实际性能优于现有深度学习语音增强方法。
Description
技术领域
本发明属于人工智能领域,涉及一种基于神经网络的语音增强方法。
背景技术
话音增强的目标是从噪声环境中将目标语音分离出来,在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务,在许多应用中,只有将语音尽可能地与背景干扰和噪声分隔开,后续处理过程才会取得良好的效果。早期的语音增强算法主要以非监督学习算法为主,基于统计信号模型设计算法。但这些算法依赖人工假设的数学模型,往往与实际条件有一定的偏差,因此性能始终有限。近年来,随着硬件计算能力的快速进步和深度学习理论的快速发展,基于深度学习的语音增强方法被大量提出并迅速成为语音增强的主要发展方向。现有深度学习语音增强方法绝大多数以卷积层作为主要网络组成部分,提取语音的局部信息;以循环神经网络(Recurrent Neural Network,RNN)作为辅助模块,提取语音的时间信息。然而,尽管卷积运算由于其简单的结构和强大的特征提取能力而成为神经网络的基本组成单元,但目前一些研究认为常规的卷积存在两个缺陷需要解决:第一个缺陷是卷积运算的内容无关性,即卷积网络的滤波器是空间不变的,并且其参数在训练完成后面对不同的输出将不会再改变,故而理论上空间不变性的滤波器在面对内容各异的输入时,其特征提取能力是次优的;第二个缺陷是卷积运算的计算复杂度会随着滤波器的大小和通道数目的增加而急剧增加,这就导致了滤波器的尺寸往往被限制在较小的数值(3×3,5×5或者7×7),因而导致感受野较小从而进一步限制了网络的性能。
发明内容
本发明针对背景技术的缺陷,将前沿的动态解耦滤波器(Decoupled DynamicFilter,DDF)引入到经典的门控卷积循环网络(Gated Convolutional RecurrentNetworks,GCRN)中,提出了一种新型的动态门控卷积循环网络(语音增强网络)语音增强方法。本发明将原始GCRN中的主支路卷积层全部换成了动态滤波器DDF,一方面降低了计算量和参数量,另一方面使得相应卷积层的卷积参数根据输入自适应地进行调整,具有更强的特征提取能力,性能得到了显著提升。
本发明技术方案为一种基于动态卷积门控卷积循环网络的语音增强方法,该方法包括:
步骤1:建立语音增强网络;
输入的语音X有Ci个通道,其频率方向大小为H,时间方向大小为T,输入表示为X∈RC×H×T;将期望生成的滤波器沿着频率方向的长度设置为K,沿着时间方向的长度设置为L,即期望使用大小为K×L的滤波器处理输入特征,则应用一个输入通道为Ci,输出通道为KL的1×1卷积层对其进行处理,/>得到空间上参数z(SP)∈RKL×H×W,即
然后对z(SP)的每个空间位置上长度为KL×1×1的向量进行归一化,即
其中,E[·]和Std[·]分别表示取均值和标准差,而α和γ是可学习的参数;
将得到的和/>逐点对应相乘得到/>再将/>的第一个维度拆解成大小为Ci、K和T的三个新的维度得到最终的/>得到通过步骤1.1~1.2构造的卷积层滤波器,由于该滤波器是根据输入动态生成并被用于与输入信号进行卷积,故而称为动态卷积核,对于输入的每个通道和每个时间、频率位置,/>都具有对应的大小为K×L的滤波器参数;
其中,xtrain表示纯净语音数据集,ntrain为指定信噪比的加性噪声;将纯净语音数据集xtrain和含噪语音数据集经过短时傅里叶变换进行特征提取,获得相应语音信号的STFT谱数据集:训练输入/>和训练目标输出Xtrain;
步骤3:训练步骤1得到的语音增强网络;
步骤4:采用训练好的语音增强网络对实际语音进行增强处理。
进一步地,所述语音增强网络中通过构造空间参数和通道参数/>生成的卷积核大小均设为(K,L)=(3,1),所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层,称为门控卷积模块和门控反卷积模块,即对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整,门控分支的设置与卷积层一致,但使用Sigmoid作为激活函数;卷积层和反卷积层的滤波器系数使用步骤1.3得到的/>中为卷积层和反卷积层提供相应的系数;此外,前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小,即每过一个卷积层,输入的长度减小一半,而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍;所有卷积层和反卷积层的通道数均设置为64;长短时记忆(Long-short-time-memory,LSTM)的输入特征数和隐藏神经元数均为320,所有激活函数均使用PReLU。进行STFT时,将语音信号使用汉明窗进行分帧,每帧帧长256,相邻两帧重叠50%的采样点,逐帧进行傅里叶变换即可得到信号语谱图;由于语音是实信号,其频谱是共轭对称的,因此仅取半边谱,即每帧129长度送入语音增强网络。
本发明的主要特点在于:创新性地提出将动态卷积应用于深度学习语音增强方法中,令神经网络的参数随着输入的变化而动态调整,这一做法克服了卷积网络完成训练之后内容不可知的特性,即网络参数不再随着输入而变化从而导致特征提取能力次优的问题,使得神经网络能够更好地提取特征;本发明使用了前沿的DDF动态卷积方法,并将其嵌入到先进的神经网络结构GCRN中,重新设计了相应的门控卷积模块和门控反卷积模块,在参数量没有增加的情况下取得了显著优于原始GCRN的性能。
附图说明
图1为本发明适用的DDF的简化框图;
图2为本发明使用的语音增强网络网络结构图;
图3为本发明方法中语音增强网络中的门控卷积模块结构图,门控反卷积模块与之相似,仅仅将门控分支(Gate Branch)中的卷积层换为反卷积。
具体实施方式
下面结合附图和实施例,详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
DDF被提出后已经被证明能够取得比常规的卷积层更好的特征提取能力。本发明使用DDF替代了图2所示的语音增强网络结构中各个模块中的卷积层以及反卷积层。每个门控卷积模块和门控反卷积模块中DDF的具体位置如图3所示,由于门控卷积模块与门控反卷积模块结构类似,仅将门控分支(Gate branch)中的卷积层换成了反卷积层,因此不再给出冗余图示。值得注意的是,在门控卷积模块中,DDF分支和门控分支中均通过调整步长为2压缩输入的频率维度大小至原来的二分之一,而在门控反卷积模块中的DDF分支通过子像素卷积的方式来将输入的频率维度(第二个维度)大小扩大两倍:假设门控反卷积模块的输入为X∈RC×H×T,则通过该模块的DDF后的输出为Y′∈R2C×H×T,将Y′中一半的通道维度分离出来填充到频率维度中,即:
其中1≤i≤H,1≤j≤T。由于子像素操作是比较基础的深度学习处理手段,此处不再赘述。而门控反卷积模块中的门控分支使用反卷积层完成频率维度扩增的操作;经过以上修改,得到本发明提出的语音增强网络。
数据集和仿真参数设置如下:
本发明实施例采用TIMIT数据集对语音增强网络进行训练和测试,该数据集包含了由630名发音人员构成的6300条音频(70%为男性)。选择其中的4620条音频作为训练数据xtrain,另外1680条作为测试数据xtest。
训练数据xtrain添加的噪声类型为短波噪声,指定噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB,每个SNR下的音频数目为1500,即总共9000条音频用于训练。
测试数据xtest所选噪声类型为短波噪声,指定噪声SNR为0dB。
所有音频数据采样率为8kHz,使用汉明窗进行加窗分帧操作,帧长为256样本,帧移为128样本。
卷积神经网络使用adam优化器以1e-3的初始学习率对模型进行训练,每一个怕批次(mini-batch)的大小为4,每5个训练周期(epoch)减小一半学习率。
评价指标:语音质量感知指标(Perceptual evaluation of speech quality,PESQ),该指标的量化区间为-0.5~4.5,分数越高,表示语音质量越好。短时客观可懂度(Short-Time Objective Intelligibility,STOI),该指标的量化区间为0~1,可使用百分比的形式表示,分数越高代表语音质量越好。
具体实施例包括以下步骤:
步骤1:根据图1的DDF简化框图构建DDL模块,并将其插入到图3所示的门控卷积模块或者门控反卷积模块结构中,再使用图3所示的门控卷积模块和门控反卷积模块构建图2所示的GCRN结构,得到语音增强网络网络。
其中ntrain为指定信噪比的加性噪声,从而获得9000条语音数据集xtrain和含噪语音数据集将这两个处理后的数据集与纯净语音数据集经过短时傅里叶变换(Shorttime Fourier transform,STFT)进行特征提取,获得相应语音信号的STFT谱数据集获得相应语音信号的语谱图数据集Xtrain和/>转入步骤3.
步骤3:训练步骤1构造的神经网络语音增强网络,将步骤2所得的语音语谱图数据集作为输入信号,将纯净语音语谱图数据集Xtrain作为目标,使用MSE作为损失函数进行卷积神经网络训练,最终获得具有噪声抑制能力的神经网络模型,转入步骤4.
步骤4:将步骤3获得的神经网络模型语音增强网络用于实际信号的语音增强。首先对待增强信号ytest进行STFT得到语谱图Ytest,将Ytest送入语音增强网络得到输出对进行逆STFT,得到增强后的信号/>由此完成本发明的短波语音增强。
与本发明的方法对比的有:短波语音不经过增强处理(unprocessed),使用原始GCRN算法,以及本发明所用方法语音增强网络。如下表1所示为0dB下不同方法在不同噪声上对于PESQ指标和STOI指标的测试结果。
表1
质量指标 | PESQ | STOI(%) |
unprocessed | 1.4836 | 69.0589 |
GCRN | 2.7249 | 86.7464 |
本发明语音增强网络 | 2.8818 | 88.9105 |
实验对比结果表示,本发明相比原始的GCRN语音增强算法,显著提高了增强语音质量。
Claims (2)
1.一种基于动态卷积门控卷积循环网络的语音增强方法,该方法包括:
步骤1:建立语音增强网络;
输入的语音X有Ci个通道,其频率方向大小为H,时间方向大小为T,输入表示为X∈RC ×H×T;将期望生成的滤波器沿着频率方向的长度设置为K,沿着时间方向的长度设置为L,即期望使用大小为K×L的滤波器处理输入特征,则应用一个输入通道为Ci,输出通道为KL的1×1卷积层对其进行处理,/>得到空间上参数z(SP)∈RKL×H×W,即
然后对z(SP)的每个空间位置上长度为KL×1×1的向量进行归一化,即
其中,E[·]和Std[·]分别表示取均值和标准差,而α和γ是可学习的参数;
将得到的和/>逐点对应相乘得到/>再将/>的第一个维度拆解成大小为Ci、K和T的三个新的维度得到最终的/>得到通过步骤1.1~1.2构造的卷积层滤波器,由于该滤波器是根据输入动态生成并被用于与输入信号进行卷积,故而称为动态卷积核,对于输入的每个通道和每个时间、频率位置,/>都具有对应的大小为K×L的滤波器参数;
其中,xtrain表示纯净语音数据集,ntrain为指定信噪比的加性噪声;将纯净语音数据集xtrain和含噪语音数据集经过短时傅里叶变换进行特征提取,获得相应语音信号的STFT谱数据集:训练输入/>和训练目标输出Xtrain;
步骤3:训练步骤1得到的语音增强网络;
步骤4:采用训练好的语音增强网络对实际语音进行增强处理。
2.如权利要求1所述的一种基于动态卷积门控卷积循环网络的语音增强方法,其特征在于,所述语音增强网络中通过构造空间参数和通道参数/>生成的卷积核大小均设为(K,L)=(3,1),所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层,称为门控卷积模块和门控反卷积模块,即对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整,门控分支的设置与卷积层一致,但使用Sigmoid作为激活函数;卷积层和反卷积层的滤波器系数使用步骤1.3得到的/>中为卷积层和反卷积层提供相应的系数;此外,前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小,即每过一个卷积层,输入的长度减小一半,而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍;所有卷积层和反卷积层的通道数均设置为64;长短时记忆的输入特征数和隐藏神经元数均为320,所有激活函数均使用PReLU;进行STFT时,将语音信号使用汉明窗进行分帧,每帧帧长256,相邻两帧重叠50%的采样点,逐帧进行傅里叶变换即可得到信号语谱图;由于语音是实信号,其频谱是共轭对称的,因此仅取半边谱,即每帧129长度送入语音增强网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111520056.6A CN114283829B (zh) | 2021-12-13 | 2021-12-13 | 一种基于动态门控卷积循环网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111520056.6A CN114283829B (zh) | 2021-12-13 | 2021-12-13 | 一种基于动态门控卷积循环网络的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114283829A CN114283829A (zh) | 2022-04-05 |
CN114283829B true CN114283829B (zh) | 2023-06-16 |
Family
ID=80871843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111520056.6A Active CN114283829B (zh) | 2021-12-13 | 2021-12-13 | 一种基于动态门控卷积循环网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283829B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842863B (zh) * | 2022-04-19 | 2023-06-02 | 电子科技大学 | 一种基于多分支-动态合并网络的信号增强方法 |
CN116741151B (zh) * | 2023-08-14 | 2023-11-07 | 成都筑猎科技有限公司 | 一种基于呼叫中心的用户呼叫实时监测系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
US10510358B1 (en) * | 2017-09-29 | 2019-12-17 | Amazon Technologies, Inc. | Resolution enhancement of speech signals for speech synthesis |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111386568A (zh) * | 2017-10-27 | 2020-07-07 | 弗劳恩霍夫应用研究促进协会 | 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序 |
CN111971743A (zh) * | 2018-04-13 | 2020-11-20 | 微软技术许可有限责任公司 | 用于改进的实时音频处理的系统、方法和计算机可读介质 |
CN112309411A (zh) * | 2020-11-24 | 2021-02-02 | 深圳信息职业技术学院 | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 |
CN112446242A (zh) * | 2019-08-29 | 2021-03-05 | 北京三星通信技术研究有限公司 | 声学场景分类方法、装置及相应设备 |
CN112509593A (zh) * | 2020-11-17 | 2021-03-16 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
CN112634926A (zh) * | 2020-11-24 | 2021-04-09 | 电子科技大学 | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
CN113345463A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803881B1 (en) * | 2019-03-28 | 2020-10-13 | Samsung Electronics Co., Ltd. | System and method for acoustic echo cancelation using deep multitask recurrent neural networks |
KR102460676B1 (ko) * | 2019-05-07 | 2022-10-31 | 한국전자통신연구원 | 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법 |
-
2021
- 2021-12-13 CN CN202111520056.6A patent/CN114283829B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10510358B1 (en) * | 2017-09-29 | 2019-12-17 | Amazon Technologies, Inc. | Resolution enhancement of speech signals for speech synthesis |
CN111386568A (zh) * | 2017-10-27 | 2020-07-07 | 弗劳恩霍夫应用研究促进协会 | 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序 |
CN111971743A (zh) * | 2018-04-13 | 2020-11-20 | 微软技术许可有限责任公司 | 用于改进的实时音频处理的系统、方法和计算机可读介质 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN112446242A (zh) * | 2019-08-29 | 2021-03-05 | 北京三星通信技术研究有限公司 | 声学场景分类方法、装置及相应设备 |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN112509593A (zh) * | 2020-11-17 | 2021-03-16 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
CN112309411A (zh) * | 2020-11-24 | 2021-02-02 | 深圳信息职业技术学院 | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 |
CN112634926A (zh) * | 2020-11-24 | 2021-04-09 | 电子科技大学 | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 |
CN113345463A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
Non-Patent Citations (3)
Title |
---|
一种用于语音增强的卷积门控循环网络;袁文浩;胡少东;时云龙;李钊;梁春燕;;电子学报;第48卷(第07期);1276-1283 * |
基于深度学习的单通道语音增强研究;李劲东;中国优秀硕士学位论文全文数据库 (信息科技辑)(第1期);I136-238 * |
基于门控残差卷积编解码网络的单通道语音增强方法;张天骐; 柏浩钧; 叶绍鹏; 刘鉴兴;信号处理;第37卷(第10期);1986-1995 * |
Also Published As
Publication number | Publication date |
---|---|
CN114283829A (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
Wang et al. | TSTNN: Two-stage transformer based neural network for speech enhancement in the time domain | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
Le et al. | DPCRN: Dual-path convolution recurrent network for single channel speech enhancement | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN114283829B (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
Strauss et al. | A flow-based neural network for time domain speech enhancement | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112331181A (zh) | 一种基于多说话人条件下目标说话人语音提取方法 | |
CN111524530A (zh) | 一种基于膨胀因果卷积的语音降噪方法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
Hou et al. | Multi-task learning for end-to-end noise-robust bandwidth extension | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
CN110070887B (zh) | 一种语音特征重建方法及装置 | |
CN114842863B (zh) | 一种基于多分支-动态合并网络的信号增强方法 | |
CN116013339A (zh) | 一种基于改进crn的单通道语音增强方法 | |
Li et al. | Convolutional recurrent neural network based progressive learning for monaural speech enhancement | |
Shukla et al. | Speech enhancement system using deep neural network optimized with Battle Royale Optimization | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
US20230260530A1 (en) | Apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters | |
Agrawal et al. | Performance analysis of speech enhancement using spectral gating with U-Net | |
Yang et al. | A new method for improving generative adversarial networks in speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |