CN114842863B - 一种基于多分支-动态合并网络的信号增强方法 - Google Patents

一种基于多分支-动态合并网络的信号增强方法 Download PDF

Info

Publication number
CN114842863B
CN114842863B CN202210408899.5A CN202210408899A CN114842863B CN 114842863 B CN114842863 B CN 114842863B CN 202210408899 A CN202210408899 A CN 202210408899A CN 114842863 B CN114842863 B CN 114842863B
Authority
CN
China
Prior art keywords
network
branch
convolution
gating
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210408899.5A
Other languages
English (en)
Other versions
CN114842863A (zh
Inventor
刘翠婷
陈延涛
郑小莲
何坤阳
董彬虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210408899.5A priority Critical patent/CN114842863B/zh
Publication of CN114842863A publication Critical patent/CN114842863A/zh
Application granted granted Critical
Publication of CN114842863B publication Critical patent/CN114842863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于多分支‑动态合并神经网络的信号增强方法,属于信号处理方法。针对背景技术的缺陷,借鉴前沿的注意力机制,以及由深度分离卷积网络所获得的灵感,提出了多分支‑动态合并结构,将该结构引入到经典的门控卷积循环网络(Gated Convolutional Recurrent Networks,GCRN)中,提出了一种新型的多分支‑动态合并神经网络语音增强方法。本发明将原始GCRN中的主支路卷积层全部换成了多分支‑动态合并结构,一方面降低了计算量和参数量,另一方面使得相应卷积层的卷积参数根据输入自适应地进行调整,具有更强的特征提取能力,性能得到了显著提升,同时在反卷积层采用先进的亚像素卷积算法,克服了反卷积网络的“棋盘伪影”问题。

Description

一种基于多分支-动态合并网络的信号增强方法
技术领域
本发明属于人工智能领域,涉及一种基于神经网络的语音增强方法。
背景技术
语音增强是语音信号处理中的重要环节,其主要任务是从带噪语音中将目标语音分离出来,尽可能移除或削弱噪声语音信号中的背景噪声,以提高语音信号的质量和客观可懂度;在实际应用中,往往需要先将语音尽可能和背景噪声分离开来,后续的语音处理过程才会取得较好的效果。早期的语音增强算法主要依赖于人工假设的数学模型,以非监督算法为主,基于统计信号模型设计算法,这类算法往往与实际条件有一定的偏差,因此性能始终有限。近年来,随着硬件计算能力的快速进步和深度学习理论的快速发展,基于深度学习的语音增强方法被大量提出,且迅速成为语音增强的主要发展方向。现有的深度学习语音增强方法主要结合卷积神经网络和循环神经网络,以卷积层作为网络模型的主要组成部分,完成对语音信号的局部特征提取;以循环神经网络层作为辅助部分,提取语音信号的时序信息。尽管卷积神经网络具有结构简单以及强大的特征提取能力,但由于卷积网络的滤波器是空间不变的,并且其参数在网络训练结束后不会发生改变,因此理论上空间不变的滤波器在面对内容不同的输入时,其特征提取能力是次优的;其次随着卷积网络的宽度和深度不断增大,网络的表达能力增强,但其网络运算量也成倍增加,因而进一步限制了网络的性能。
发明内容
本发明针对背景技术的缺陷,借鉴前沿的注意力机制(Attention),以及由深度分离卷积网络所获得的灵感,提出了多分支-动态合并结构,将该结构引入到经典的门控卷积循环网络(Gated Convolutional Recurrent Networks,GCRN)中,提出了一种新型的多分支-动态合并神经网络信号增强方法。本发明将原始GCRN中的主支路卷积层全部换成了多分支-动态合并结构,一方面降低了计算量和参数量,另一方面使得相应卷积层的卷积参数根据输入自适应地进行调整,具有更强的特征提取能力,性能得到了显著提升,同时在反卷积层采用先进的亚像素卷积算法,克服了反卷积网络的“棋盘伪影”问题。
本发明技术方案为一种基于多分支-动态合并神经网络的信号增强方法,该方法包括:
步骤1:由纯净信号数据集xtrain构造含噪信号数据集
Figure BDA0003602931120000011
Figure BDA0003602931120000012
其中,xtrain表示纯净信号数据集,ntrain为指定信噪比的加性噪声;将纯净信号数据集xtrain和含噪信号数据集
Figure BDA0003602931120000021
经过短时傅里叶变换进行特征提取,获得相应信号的STFT谱数据集:训练输入/>
Figure BDA0003602931120000022
和训练目标输出Xtrain
步骤2:采用的信号增强网络为将门控卷积循环网络(GCRN)改进为多分支-动态合并结构,改进为多分支-动态合并结构的方法为:将门控卷积循环网络网络编码器(Encoder)模块中的卷积网络结构门控线性单元(GLU)中的常规卷积网络ConvK×1用K个卷积层Conv1×1来代替,输入数据分别经过K个卷积层Conv1×1得到K个输出结果,再将这K个输出结果按照通道维度进行拼接得到多分支处理结果;
步骤3:将步骤2中多分支处理结果输入注意力机制模块,获得每个通道的加权系数w;将多分支处理结果按通道维度与加权系数w相乘,得到空间维度动态分配结果;
步骤4:将步骤3得到的空间动态分配结果按照卷积运算的方式进行错位相加,得到输出结果;将步骤1的
Figure BDA0003602931120000023
作为输入信号,Xtrain作为目标,使用如下所示的损失函数进行信号增强网络训练;
Figure BDA0003602931120000024
其中,L为网络损失函数,Lmag为幅度谱分支的损失函数,Lcpl为复数谱分支的损失函数,M为训练目标的幅度谱,
Figure BDA0003602931120000025
为降噪信号的幅度谱,/>
Figure BDA0003602931120000026
和/>
Figure BDA0003602931120000027
分别为信号增强网络实际输出复数谱的实部和虚部,Sr和Si为训练目标的实部和虚部,其由复数谱计算可得,N为输入信号的帧数,α为比例因子,直到训练完毕;
步骤5:采用训练好的信号增强网络对实际信号进行增强处理。
进一步地,所述GCRN网络中多分支-动态合并结构中卷积核大小均设为(3,1),所述信号增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层,称为门控卷积模块和门控反卷积模块;对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整,门控分支的设置与卷积层一致,但使用Sigmoid作为激活函数,注意力机制两个全连接层根据输入参数的大小设置输入特征,使用ReLU作为激活函数;同时,反卷积层采用亚像素卷积算法,克服反卷积算法带来的棋盘伪影问题;此外,前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小,即每过一个卷积层,输入的长度减小一半,而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍;所有卷积层和反卷积层的通道数均设置为64;长短时记忆的输入特征数和隐藏神经元数均为320,所有激活函数均使用PReLU。进行STFT时,将信号使用汉明窗进行分帧,每帧帧长256,相邻两帧重叠50%的采样点,逐帧进行傅里叶变换即可得到信号语谱图;由于信号是实信号,其频谱是共轭对称的,因此仅取半边谱,即每帧129长度送入信号增强网络。
本发明的主要特点在于:创新性地提出将空间注意力机制和多分支结构结合应用于深度学信号增强方法中,令神经网络的输出数据根据输入数据而进行动态调整,这一做法克服了卷积网络完成训练之后内容不可知的特性,即网络参数不再随着输入而变化从而导致特征提取能力次优的问题,使得神经网络能够更好地提取特征,同时多分支结构减少了卷积网络带来的计算量,使得网络模型的资源消耗减小;本发明使用了空间注意力机制结合多分支的方法,并将其嵌入到先进的神经网络结构GCRN中,重新设计了相应的门控卷积模块和门控反卷积模块,在参数量没有增加的情况下取得了显著优于原始GCRN的性能。
附图说明
图1为本发明适用的多分支-动态合并网络的简化框图;
图2为本发明使用的语音增强网络网络结构图;
图3为本发明方法中语音增强网络中的门控卷积模块结构图,门控反卷积模块与之相似,将门控分支(Gate Branch)中的卷积层换为亚像素卷积。
具体实施方式
下面结合附图和实施例,详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明使用多分支-动态合并结构替代了图2所示的语音信号增强网络结构中各个模块中的卷积层以及反卷积层。每个门控卷积模块和门控反卷积模块中多分支-动态合并结构的具体位置如图3所示,由于门控卷积模块与门控反卷积模块结构类似,仅将门控分支(Gate branch)中的卷积层换成了亚像素卷积层。值得注意的是,在门控卷积模块中,多分支动态合并分支和门控分支中均通过调整步长为2压缩输入的频率维度大小至原来的二分之一,而在门控反卷积模块中的多分支-动态合并分支通过亚像素卷积的方式来将输入的频率维度(第二个维度)大小扩大两倍:假设门控反卷积模块的输入为X∈RC×H×T,则通过该模块后的输出为Y′∈R2C×H×T,将Y′中一半的通道维度分离出来填充到频率维度中,即:
Figure BDA0003602931120000041
其中1≤i≤H,1≤j≤T。由于亚像素操作是比较基础的深度学习处理手段,此处不再赘述。而门控反卷积模块中的门控分支使用反卷积层完成频率维度扩增的操作;经过以上修改,得到本发明提出的语音增强网络。
数据集和仿真参数设置如下:
本发明实施例采用TIMIT数据集对语音增强网络进行训练和测试,该数据集包含了由630名发音人员构成的6300条音频(70%为男性)。选择其中的4620条音频作为训练数据xtrain,另外1680条作为测试数据xtest
训练数据xtrain添加的噪声类型为短波噪声,指定噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB,每个SNR下的音频数目为1500,即总共9000条音频用于训练。
测试数据xtest所选噪声类型为短波噪声,指定噪声SNR为0dB。
所有音频数据采样率为8kHz,使用汉明窗进行加窗分帧操作,帧长为256样本,帧移为128样本。
卷积神经网络使用adam优化器以1e-3的初始学习率对模型进行训练,每一个怕批次(mini-batch)的大小为4,每5个训练周期(epoch)减小一半学习率。
评价指标:语音质量感知指标(Perceptual evaluation of speech quality,PESQ),该指标的量化区间为-0.5~4.5,分数越高,表示语音质量越好。短时客观可懂度(Short-Time Objective Intelligibility,STOI),该指标的量化区间为0~1,可使用百分比的形式表示,分数越高代表语音质量越好。
具体实施例包括以下步骤:
步骤1:由纯净语音数据集xtrain构造含噪语音数据集
Figure BDA0003602931120000042
Figure BDA0003602931120000043
其中ntrain为指定信噪比的加性噪声,从而获得9000条语音数据集xtrain和含噪语音数据集
Figure BDA0003602931120000044
将这两个处理后的数据集与纯净语音数据集经过短时傅里叶变换(Shorttime Fourier transform,STFT)进行特征提取,获得相应语音信号的STFT谱数据集获得相应语音信号的语谱图数据集Xtrain和/>
Figure BDA0003602931120000045
转入步骤2.
步骤2:根据GCRN网络Encoder模块中的卷积网络结构GLU,将GLU结构中的常规卷积网络ConvK×1用K个卷积层Conv1×1来代替,输入数据分别经过K个卷积层Conv1×1得到K个输出结果,再将这K个输出结果按照通道维度进行拼接得到多分支处理结果,将其输入注意力机制模块,获得每个通道的加权系数w;将多分支处理结果与加权系数w相乘,得到空间动态分配结果,将该结果按照卷积运算的方式进行错位相加,得到输出结果转入步骤3.
步骤3:训练步骤2构造的神经网络语音增强网络,将步骤2所得的语音语谱图数据集
Figure BDA0003602931120000051
作为输入信号,将纯净语音语谱图数据集Xtrain作为目标,使用上述所提损失函数进行卷积神经网络训练,最终获得具有噪声抑制能力的神经网络模型,转入步骤4.
步骤4:将步骤3获得的神经网络模型语音增强网络用于实际信号的语音增强。首先对待增强信号ytest进行STFT得到语谱图Ytest,将Ytest送入语音增强网络得到输出
Figure BDA0003602931120000052
Figure BDA0003602931120000053
进行逆STFT,得到增强后的信号/>
Figure BDA0003602931120000054
由此完成本发明的短波语音增强。
与本发明的方法对比的有:短波语音不经过增强处理(unprocessed),使用原始GCRN算法,以及本发明所用方法语音增强网络。如下表1所示为0dB下不同方法在不同噪声上对于PESQ指标和STOI指标的测试结果。
表1
质量指标 PESQ STOI(%)
unprocessed 1.4836 69.0589
GCRN 2.8867 89.0552
本发明语音增强网络 3.0665 90.8344
实验对比结果表示,本发明相比原始的GCRN语音增强算法,显著提高了增强语音质量。

Claims (2)

1.一种基于多分支-动态合并神经网络的语音增强方法,该方法包括:
步骤1:由纯净语音数据集xtrain构造含噪语音数据集
Figure QLYQS_1
Figure QLYQS_2
其中,xtrain表示纯净语音数据集,ntrain为指定信噪比的加性噪声;将纯净语音数据集xtrain和含噪语音数据集
Figure QLYQS_3
经过短时傅里叶变换进行特征提取,获得相应语音信号的STFT谱数据集:训练输入/>
Figure QLYQS_4
和训练目标输出Xtrain
步骤2:采用的语音增强网络为将门控卷积循环网络改进为多分支-动态合并结构,改进为多分支-动态合并结构的方法为:将门控卷积循环网络网络编码器模块中的卷积网络结构门控线性单元中的常规卷积网络ConvK×1用K个卷积层Conv1×1来代替,输入数据分别经过K个卷积层Conv1×1得到K个输出结果,再将这K个输出结果按照通道维度进行拼接得到多分支处理结果;
步骤3:将步骤2中多分支处理结果输入注意力机制模块,获得每个通道的加权系数w;将多分支处理结果按通道维度与加权系数w相乘,得到空间维度动态分配结果;
步骤4:将步骤3得到的空间动态分配结果按照卷积运算的方式进行错位相加,得到输出结果;将步骤1的
Figure QLYQS_5
作为输入信号,Xtrain作为目标,使用如下所示的损失函数进行语音增强网络训练;
Figure QLYQS_6
其中,L为网络损失函数,Lmag为幅度谱分支的损失函数,Lcpl为复数谱分支的损失函数,M为训练目标的幅度谱,
Figure QLYQS_7
为降噪语音的幅度谱,/>
Figure QLYQS_8
和/>
Figure QLYQS_9
分别为语音增强网络实际输出复数谱的实部和虚部,Sr和Si为训练目标的实部和虚部,其由复数谱计算可得,N为输入语音的帧数,α为比例因子,直到训练完毕;
步骤5:采用训练好的语音增强网络对实际语音进行增强处理。
2.如权利要求1所述的一种基于多分支-动态合并神经网络的语音增强方法,其特征在于,所述GCRN网络中多分支-动态合并结构中卷积核大小均设为(3,1),所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层,称为门控卷积模块和门控反卷积模块;对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整,门控分支的设置与卷积层一致,但使用Sigmoid作为激活函数,注意力机制两个全连接层根据输入参数的大小设置输入特征,使用ReLU作为激活函数;同时,反卷积层采用亚像素卷积算法,克服反卷积算法带来的棋盘伪影问题;此外,前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小,即每过一个卷积层,输入的长度减小一半,而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍;所有卷积层和反卷积层的通道数均设置为64;长短时记忆的输入特征数和隐藏神经元数均为320,所有激活函数均使用PReLU;进行STFT时,将语音信号使用汉明窗进行分帧,每帧帧长256,相邻两帧重叠50%的采样点,逐帧进行傅里叶变换即可得到信号语谱图;由于语音是实信号,其频谱是共轭对称的,因此仅取半边谱,即每帧129长度送入语音增强网络。
CN202210408899.5A 2022-04-19 2022-04-19 一种基于多分支-动态合并网络的信号增强方法 Active CN114842863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210408899.5A CN114842863B (zh) 2022-04-19 2022-04-19 一种基于多分支-动态合并网络的信号增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210408899.5A CN114842863B (zh) 2022-04-19 2022-04-19 一种基于多分支-动态合并网络的信号增强方法

Publications (2)

Publication Number Publication Date
CN114842863A CN114842863A (zh) 2022-08-02
CN114842863B true CN114842863B (zh) 2023-06-02

Family

ID=82564904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210408899.5A Active CN114842863B (zh) 2022-04-19 2022-04-19 一种基于多分支-动态合并网络的信号增强方法

Country Status (1)

Country Link
CN (1) CN114842863B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
GB201919101D0 (en) * 2019-12-20 2020-02-05 Flynn John A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN112309411A (zh) * 2020-11-24 2021-02-02 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN112634927A (zh) * 2020-12-03 2021-04-09 电子科技大学 一种短波信道语音增强方法
CN112634926A (zh) * 2020-11-24 2021-04-09 电子科技大学 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
WO2021068338A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 基于人工智能的语音增强方法、服务器及存储介质
GB202104280D0 (en) * 2021-03-26 2021-05-12 Samsung Electronics Co Ltd Method and apparatus for real-time sound enhancement
CN113345463A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 基于卷积神经网络的语音增强方法、装置、设备及介质
CN113707164A (zh) * 2021-09-02 2021-11-26 哈尔滨理工大学 一种改进多分辨率残差u型网络的语音增强方法
CN113889132A (zh) * 2021-11-10 2022-01-04 清华大学苏州汽车研究院(相城) 一种语音增强方法、装置、设备及存储介质
WO2022005615A1 (en) * 2020-06-30 2022-01-06 Microsoft Technology Licensing, Llc Speech enhancement
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114283829A (zh) * 2021-12-13 2022-04-05 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US10535361B2 (en) * 2017-10-19 2020-01-14 Kardome Technology Ltd. Speech enhancement using clustering of cues
US11393487B2 (en) * 2019-03-28 2022-07-19 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US11227586B2 (en) * 2019-09-11 2022-01-18 Massachusetts Institute Of Technology Systems and methods for improving model-based speech enhancement with neural networks
US11392833B2 (en) * 2020-02-13 2022-07-19 Soundhound, Inc. Neural acoustic model

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
WO2021068338A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 基于人工智能的语音增强方法、服务器及存储介质
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
GB201919101D0 (en) * 2019-12-20 2020-02-05 Flynn John A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
WO2022005615A1 (en) * 2020-06-30 2022-01-06 Microsoft Technology Licensing, Llc Speech enhancement
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN112309411A (zh) * 2020-11-24 2021-02-02 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN112634926A (zh) * 2020-11-24 2021-04-09 电子科技大学 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN112634927A (zh) * 2020-12-03 2021-04-09 电子科技大学 一种短波信道语音增强方法
GB202104280D0 (en) * 2021-03-26 2021-05-12 Samsung Electronics Co Ltd Method and apparatus for real-time sound enhancement
CN113345463A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 基于卷积神经网络的语音增强方法、装置、设备及介质
CN113707164A (zh) * 2021-09-02 2021-11-26 哈尔滨理工大学 一种改进多分辨率残差u型网络的语音增强方法
CN113889132A (zh) * 2021-11-10 2022-01-04 清华大学苏州汽车研究院(相城) 一种语音增强方法、装置、设备及存储介质
CN114283829A (zh) * 2021-12-13 2022-04-05 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
A Hybrid Deep-Learning Approach for Single Channel HF-SSB Speech Enhancement;Chen, Y., Dong, B., Zhang, X., Gao, P., & Li, S.;《IEEE Wireless Communications Letters》;第10卷(第10期);2165-2169 *
A tandem algorithm for pitch estimation and voiced speech segregation;G. Hu and D. Wang;《IEEE Transactions on Audio, Speech, and Language Processing》;第18卷(第8期);2067–2079 *
Incorporating multi-target in multi-stage speech enhancement model for better generalization;Zhang, L., Wang, M., Li, A., Zhang, Z., & Zhuang, X;《In 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)》;553-558 *
M维软解调的FH/MFSK系统抗PBNJ性能分析;杜洋;董彬虹;唐鹏;王莉;;电子科技大学学报;第45卷(第05期);732-735 *
PhaseDCN: A phase-enhanced dual-path dilated convolutional network for single-channel speech enhancement;Zhang, L., Wang, M., Zhang, Q., Wang, X., & Liu, M;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》(第29期);2561-2574 *
Speech enhancement using progressive learning-based convolutional recurrent neural network;Li, A., Yuan, M., Zheng, C., & Li, X.;《Applied Acoustics》(第166期);1-5 *
一种用于语音增强的卷积门控循环网络;袁文浩;胡少东;时云龙;李钊;梁春燕;;《电子学报》(第07期);35-42 *
一种高动态低信噪比环境下基于多样本点串行快速傅里叶变换的信号捕获方法;陈延涛等;《电子与信息学报》;第43卷(第6期);1692-1696 *
基于全卷积神经网络的语音增强算法;张明亮;陈雨;;《计算机应用研究》(第S1期);145-147 *
结合深度卷积循环网络和时频注意力机制的单通道语音增强算法;闫昭宇;王晶;;《信号处理》(第06期);77-84 *
语音增强技术研究综述;曹丽静;《河北省科学院学报》(第02期);34-40 *

Also Published As

Publication number Publication date
CN114842863A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
Wang et al. TSTNN: Two-stage transformer based neural network for speech enhancement in the time domain
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
Wang et al. On training targets for supervised speech separation
CN110246510B (zh) 一种基于RefineNet的端到端语音增强方法
Xia et al. Speech enhancement with weighted denoising auto-encoder.
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN110085249A (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
CN114283829B (zh) 一种基于动态门控卷积循环网络的语音增强方法
Su et al. Bandwidth extension is all you need
CN110490816B (zh) 一种水下异构信息数据降噪方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
Strauss et al. A flow-based neural network for time domain speech enhancement
Wichern et al. Low-Latency approximation of bidirectional recurrent networks for speech denoising.
Wang et al. Caunet: Context-aware u-net for speech enhancement in time domain
Li et al. Densely connected multi-stage model with channel wise subband feature for real-time speech enhancement
CN112530449B (zh) 基于仿生小波变换的语音增强方法
CN114842863B (zh) 一种基于多分支-动态合并网络的信号增强方法
CN110070887B (zh) 一种语音特征重建方法及装置
Lan et al. Multi-scale informative perceptual network for monaural speech enhancement
CN113066483B (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
Li et al. Convolutional recurrent neural network based progressive learning for monaural speech enhancement
CN113450816A (zh) 一种基于深度神经网络的语音主动降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant