CN114141238A - 一种融合Transformer和U-net网络的语音增强方法 - Google Patents
一种融合Transformer和U-net网络的语音增强方法 Download PDFInfo
- Publication number
- CN114141238A CN114141238A CN202111424756.5A CN202111424756A CN114141238A CN 114141238 A CN114141238 A CN 114141238A CN 202111424756 A CN202111424756 A CN 202111424756A CN 114141238 A CN114141238 A CN 114141238A
- Authority
- CN
- China
- Prior art keywords
- module
- layer
- voice
- transformer
- net network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 26
- 239000000284 extract Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种融合Transformer和U‑net网络的语音增强方法,包括如下步骤:S1,采集原始的干净语音数据集和带噪语音数据集,并将采集的数据集分为训练集、验证集和测试集;S2,构建融合Transformer和U‑net网络的语音增强模型;S3,使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练;S4,将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型,输出干净的语音信号。本发明在U‑net网络中加入了Transformer模块,有效提取局部和全局的上下文特征信息;同时使用时域损失、时频域损失和感知损失三类损失函数一起训练语音增强网络,从而获得更高的语音可懂度和感知质量。
Description
技术领域
本发明属于语音增强技术领域,具体涉及一种融合Transformer和U-net网络的语音增强方法。
背景技术
语音是人与人之间最自然的交流方式,但是在现实生活中,噪声的干扰无处不在,使得语音通信质量以及基于语音的人机交互效率大幅度降低。语音增强的目的就是从带噪语音信号中提取出尽可能干净的语音信号,提高语音的质量和可懂度。为满足人们对高质量语音通信交流的需求等,语音增强技术在学术界和工业领域得到了广泛的研究和应用。根据采集声音时麦克风设备的使用数量,可将语音增强分为单通道语音增强和多通道语音增强。和多通道语音增强相比,单通道语音增强具有硬件成本低,能耗小的优势,但是缺失声源和噪声的空间信息,研究更具挑战性。
传统的单通道语音增强技术主要包括基于短时谱估计的语音增强法、基于信号子空间的语音增强法和基于语音生成模型的语音增强法等。这些方法所依赖的假设,并不符合很多实际场景的条件。基于深度神经网络的语音增强技术,不需要对数据设置额外假设条件,通过挖掘大规模数据的内在关联,能够准确实现语音和噪声估计,在低信噪比和非平稳噪声环境下取得了较大的进展。在语音增强任务中,各种网络模型都得到了应用,如深度神经网络(DNN)、递归神经网络(RNN)、卷积神经网络(CNN)、U-net神经网络和Transformer神经网络等。
公开号为CN111968629A的中国专利公开了一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,该方法包括步骤:S1,将语音信号进行预处理,提取80维的logmel Fbank特征;S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;S3,将特征输入到DFSMN网络结构中;S4,将CTC loss作为声学模型的损失函数,采用Beam search算法进行预测,使用Adam优化器进行优化;S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;S6,将Transformer和声学模型CNN-DFSMN-CTC相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。
RNN能够捕获长距离的依赖信息,有效解决长时依赖问题,但是不能并行处理数据;CNN能够以并行方式处理输入数据,但是无法捕获长距离的依赖信息。和RNN、CNN相比,Transformer能够以并行方式处理输入数据,有效地解决语音信号中的长时依赖问题,并能显著减少训练时间和推理时间。语音增强中主要使用的是上下文特征信息,其特征信息的使用不同于机器翻译等自然语言处理任务,因此传统的Transformer神经网络在语音增强方面表现并不佳。为此,需要对Transformer神经网络进行改进,才能在语音增强中有效发挥Transformer模型的优势,改进语音增强性能。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种融合Transformer和U-net网络的语音增强方法,该增强方法在U-net网络中加入了Transformer模块,有效提取局部和全局的上下文特征信息;在实现中,该增强方法同时使用时域损失、时频域损失和感知损失三类损失函数一起训练语音增强网络,从而获得更高的语音可懂度和感知质量。
为实现上述目的,本发明采用的技术方案是:
一种融合Transformer和U-net网络的语音增强方法,包括如下步骤:
S1,采集原始的干净语音数据集和带噪语音数据集,并将采集的数据集分为训练集、验证集和测试集;
S2,构建融合Transformer和U-net网络的语音增强模型;
S3,使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练;
S4,将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型,输出干净的语音信号。
具体地,步骤S2中,所述融合Transformer和U-net网络的语音增强模型包括依次相连的编码模块、Transformer模块、掩码模块和解码模块。
进一步地,所述编码模块采用U-net网络的编码层,包括一个上采样层和多个编码层;所述编码模块的输入为一段时域语音信号,用一个三维张量(批次B*通道数C0*信号长度D)表示,编码模块的输出也是一个三维张量。所述上采样层用于对语音信号的采样频率进行扩展,提高模型的准确性。
进一步地,每个所述编码层均包括:
一个卷积核大小为K、步长为S、输出通道为2i-1H的一维卷积层,i表示层数;
一个ReLU函数激活层;
一个卷积核大小为1、步长为1、输出通道为2iH的一维卷积层;以及
一个将通道数转换为2i-1H的GLU函数激活层。
具体地,所述Transformer模块包括多个堆叠的双路径Transformer块,所述双路径Transformer块包括一个局部Transformer块和一个全局Transformer块,可以同时提取局部和全局的上下文特征信息。局部Transformer块在四维输入张量的最后一维上执行计算,用于对输入的局部特征信息进行平行化处理,全局Transformer块在四维输入张量的倒数第二维上执行计算,用于融合局部Transformer块的输出信息,以学习全局特征信息。所述Transformer模块的输入是一个四维张量(批次B*通道数Ct*帧数N*帧长F),因此对编码模块的输出进行分割,得到N个长度为F的帧。N的计算公式如下:
其中,L表示编码模块输出的长度,M表示帧移。
经过多个堆叠的双路径Transformer块计算后,得到Transformer模块的输出是一个四维张量。
进一步地,所述局部Transformer块和全局Transformer块均包括多头注意力机制模块和前馈网络模块;
所述多头注意力机制模块中的自注意力机制可以描述为在网络中通过查询(Q)得到注意力输出的机制。网络通过一组键(K)和值(V)记录已学习的信息。自注意力机制既可以解决长时依赖问题,又可以进行并行化处理。自注意力机制可以“动态”地生成不同连接的权重,从而得以处理变长的信息序列,在一定程度上解决长时依赖问题。由于每个Q之间并不存在先后的依赖关系,自注意力机制能够并行地计算句子中不同的Q,实现并行化处理。
所述多头注意力机制模块集成了h个自注意力机制,每个自注意力机制关注相同的Q、K和V;每个自注意力机制只负责最终输出序列中的一个子空间,且输出序列互相独立。
所述多头注意力机制模块的计算公式如下:
headi=attention(QWi Q,KWi K,VWi V)
multihead(Q,K,V)=concat(head1,L headh)WO
其中,dk表示键的维数,WO、Wi Q、Wi K、Wi V为线性映射的不同参数矩阵,h为子空间的个数,contact为向量拼接操作。
所述前馈网络模块包括一个GRU层、一个ReLU函数激活层和一个线性变换层,所述前馈网络模块的第一层使用GRU层,用来学习位置信息。
具体地,所述掩码模块包括多个激活函数层和多个卷积层,掩码模块是利用Transformer模块的输出来计算用于增强的掩码。掩码模块的输入是一个四维张量,为了使掩码模块的输出和编码模块的输出相匹配,在掩码模块中采用了重叠添加操作,将输入的四维张量转换成三维张量。该模块首先将Transformer模块的输出通过PReLU运算和二维卷积对通道维度进行加倍。然后通过重叠添加操作,将输入的四维张量转换成三维张量。接着通过双路一维卷积和sigmoid/tanh激活函数运算,将两者的输出相乘。最后经过一维卷积和ReLU运算后得到一个三维张量的掩模。
具体地,所述解码模块采用U-net网络的解码层,包括多个解码层和一个下采样层;所述解码模块的输出为一段时域语音信号。所述下采样层用于还原语音信号的采样频率。
进一步地,每个所述解码层均包括:
一个卷积核大小为1、步长为1、输出通道为2iH的一维卷积层;
一个将通道数转换为2i-1H的GLU函数激活层;以及
一个卷积核大小为K、步长为S、输出通道为2i-2H的一维转置卷积层。
与现有技术相比,本发明的有益效果是:
(1)本发明中采用的U-net网络是一种带有跳跃连接的U型网络结构,避免了直接在高维特征中进行监督和计算损失函数,而是结合了低维特征,从而可以使得最终所得到的特征中既包含了高维特征,也包含很多的低维特征,实现了不同尺度下的特征融合,提高了模型的精确度;
(2)由于人类在处理复杂听觉场景时,既能注意到关注的语音内容,又能注意到场景中的背景变化,实际上听觉注意存在多个注意的焦点;同时,由于关注的语音发音通常由同一人发出,在较长的时间尺度上这个语音和噪声内容相比,语音内容的特征分布相似性更强。Transformer具有多头注意力机制、长序列依赖关系估计能力强的优势,可以很好的与语音中的这些特点相吻合;因此,本发明通过在U-net网络中引入Transformer模型,可以有效改善增强语音的质量和可懂度;
(3)本发明提出的方法属于端到端语音增强方法,由于直接对输入语音进行处理,不再预先提取特征,简化了处理流程,减少了可能由幅度谱到波形转换带来的失真。
附图说明
图1为本发明一种融合Transformer和U-net网络的语音增强方法的流程示意图。
图2为本发明实施例中融合Transformer和U-net网络的语音增强模型的结构示意图。
图3为本发明实施例中Transformer模块的结构示意图。
图4为本发明实施例中多头自注意力机制模块的结构示意图。
图5为本发明实施例中前馈网络模块的结构示意图。
图6为本发明实施例中自注意力机制示意图。
图7为本发明实施例中掩码模块的结构示意图。
图8为本发明实施例中融合Transformer和U-net网络的语音增强模型训练原理示意图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了一种融合Transformer和U-net网络的语音增强方法,包括如下步骤:
S1,采集原始的干净语音数据集和带噪语音数据集,并将采集的数据集分为训练集、验证集和测试集;
具体实施过程中,利用VoiceBank-DEMAND数据集中的语音数据,该数据集包含干净语音信号和其对应的预混合带噪语音信号。干净语音信号选自Voice Bank corpus数据集,其中训练集包含28个说话人(14个男性和14个女性)的11572条语音数据,测试集包含2个说话人(1个男性和1个女性)的824条语音数据。带噪语音信号由干净语音信号和不同噪声合成,训练集包含40种不同噪声条件下的语音信号,共有10种噪声(8种来自DEMAND数据集,2种是人工生成),信噪比为0dB、5dB、10dB和15dB;测试集包含20种不同噪声条件下的语音信号,共有5种噪声,均选自DEMAND数据集,在训练集中并未出现,信噪比为2.5dB、7.5dB、12.5dB和17.5dB。
将干净语音数据集和带噪语音数据集重采样为16kHz;从训练集中随机选出512对干净语音和带噪语音作为验证集,剩下的11060对干净语音和带噪语音作为训练集,测试集是824对干净语音和带噪语音。训练集和验证集可以使用三种不同的数据扩充处理。第一种是重混(Remix)扩充处理,打乱同一个批次中的噪声,形成新的带噪语音数据集;第二种是频带掩码(Bandmask)扩充处理,在mel刻度上均匀地去除20%的频率,实际相当于进行了带阻滤波;第三种是平移(Shift)扩充处理,在0秒和S秒之间实现了随机移位处理。
S2,如图2所示,构建融合Transformer和U-net网络的语音增强模型;
所述融合Transformer和U-net网络的语音增强模型包括依次相连的编码模块、Transformer模块、掩码模块和解码模块。
进一步地,所述编码模块采用U-net网络的编码层,包括一个上采样层(编码模块的第零层为上采样层)和5个编码层;所述编码模块的输入为一段时域语音信号,用一个三维张量(批次B*通道数C0*信号长度D)表示,编码模块的输出也是一个三维张量。所述上采样层用于对语音信号的采样频率进行扩展,提高模型的准确性。
进一步地,每个所述编码层均包括:
一个卷积核大小为K、步长为S、输出通道为2i-1H的一维卷积层,i表示层数;
一个ReLU函数激活层;
一个卷积核大小为1、步长为1、输出通道为2iH的一维卷积层;以及
一个将通道数转换为2i-1H的GLU函数激活层。
具体地,如图3所示,所述Transformer模块包括多个堆叠的双路径Transformer块,所述双路径Transformer块包括一个局部Transformer块和一个全局Transformer块,可以同时提取局部和全局的上下文特征信息。局部Transformer块在四维输入张量的最后一维F上执行计算,用于对输入的局部特征信息进行平行化处理,全局Transformer块在四维输入张量的倒数第二维N上执行计算,用于融合局部Transformer块的输出信息,以学习全局特征信息。所述Transformer模块的输入是一个四维张量(批次B*通道数Ct*帧数N*帧长F),因此对编码模块的输出进行分割,得到N个长度为F的帧。N的计算公式如下:
其中,L表示编码模块输出的长度,M表示帧移。
将四维张量放入多个堆叠的双路径Transformer块中进行计算,得到Transformer模块的输出是一个四维张量。
进一步地,所述局部Transformer块和全局Transformer块均包括多头注意力机制模块和前馈网络模块;
所述多头注意力机制模块中的自注意力机制可以描述为在网络中通过查询(Q)得到注意力输出的机制。网络通过一组键(K)和值(V)记录已学习的信息。
如图6所示,在自注意力机制中,首先将Q和K进行相似度计算获得权重,缩放层除以参数dk起到缩放调节作用,使得内积不至于太大,然后使用softmax函数对相似度权重进行归一化,最后将归一化的权重和相应的V进行加权求和得到注意力输出。计算自注意力输出向量的公式如下:
进一步地,多头注意力模块如图4所示,其本质是h个自注意力机制的集成。首先初始化h组Q、K和V向量,每组Q、K和V的权重参数W都不一样,可以用Wi Q、Wi K、Wi V来表示不同的参数矩阵。通过引入不同权重的参数可以允许多头注意力模块在不同的表征子空间里学习到更多的信息。然后对每组进行自注意力机制的计算,将得到的自注意力输出结果连接起来,再乘以一个权重向量WO就可以得到最终的多头注意力机制块输出向量。多头注意力模块的计算公式如下:
headi=attention(QWi Q,KWi K,VWi V)
multihead(Q,K,V)=concat(head1,L headh)WO
其中,dk表示键的维数,WO、Wi Q、Wi K、Wi V为线性映射的不同参数矩阵,h为子空间的个数,contact为向量拼接操作。
如图5所示,所述前馈网络模块包括一个GRU层、一个ReLU函数激活层和一个线性变换层,所述前馈网络模块的第一层使用GRU层,用来学习位置信息。
具体地,如图7所示,所述掩码模块包括多个激活函数层和多个卷积层,掩码模块是利用Transformer模块的输出来计算用于增强的掩码。掩码模块的输入是一个四维张量,为了使掩码模块的输出和编码模块的输出相匹配,在掩码模块中采用了重叠添加操作,将输入的四维张量转换成三维张量。
具体实施过程中,该模块首先将Transformer模块的输出通过PReLU运算和二维卷积对通道维度进行加倍。然后通过重叠添加操作,将输入的四维张量转换成三维张量。接着通过双路一维卷积和sigmoid/tanh激活函数运算,将两者的输出相乘。最后经过一维卷积和ReLU运算后得到一个三维张量的掩模。
具体地,所述解码模块采用U-net网络的解码层,包括5个解码层和一个下采样层(解码模块的第零层为下采样层);所述解码模块的输出为一段时域语音信号。所述下采样层用于将语音信号的采样频率还原为16KHz。所述解码模块将输入的三维张量转换成一段增强语音信号作为输出。
进一步地,每个所述解码层均包括:
一个卷积核大小为1、步长为1、输出通道为2iH的一维卷积层;
一个将通道数转换为2i-1H的GLU函数激活层;以及
一个卷积核大小为K、步长为S、输出通道为2i-2H的一维转置卷积层。
S3,使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练;
具体实施过程中,如图8所示,使用步骤S1中的训练集和验证集对语音增强模型进行训练,将带噪语音信号作为训练特征,干净语音信号作为训练目标。本发明的损失函数同时结合了时域损失、时频域损失和感知损失。使用时域损失估计干净语音与增强语音波形之间的损失。使用时频域损失衡量时频谱图的差异,可以监督模型学习更多的信息。使用感知损失来训练网络,可以使网络输出的增强语音信号尽可能的接近目标干净语音信号,从而获得更高的语音可懂度和感知质量,具体定义如下:
时域损失函数是基于带噪语音和干净语音之间的均方误差(MSE),定义为:
时频域损失是基于带噪语音和干净语音之间的平均绝对误差(MAE),定义为:
感知损失函数同时考虑人类听觉掩蔽和阈值效应中的对称干扰D(s)和非对称干扰D(α)。在听觉掩蔽效应中,对称干扰D(s)考虑干净语音信号和增强语音信号在响度谱上的绝对值差异。非对称干扰D(α)根据对称干扰计算得到,对增强后残存的加性噪声和引入的谱失真赋予不同的权重,更好地刻画了干净语音信号和增强语音信号之间的感知差异。考虑到D(s)和D(α)这两个干扰项,感知损失函数通过引入人类心理声学的感知标准来修正均方误差(MSE)损失,定义为:
其中,L表示帧数,α和β是实验确定的加权系数。
最终的损失函数结合了上述三种类型的损失函数,如下式所示:
loss_sum=ρ·loss_time+(1-ρ)·(loss_freq+loss_pcep)
其中,ρ是一个超参数,在本发明中设置为0.2。
S4,将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型,输出干净的语音信号。
具体实施过程中,使用步骤S1中的测试集,将待增强的语音测试集放入训练好的最优模型中,用于获得增强后的干净语音测试集。
对于语音增强效果的评估,本实施例采用客观评价方法,主要包括PESQ和STOI。PESQ侧重于评估处理语音的总体质量,其分值范围为-0.5-4.5,分值越高,语音的总体质量越好。STOI侧重于评估处理语音的可懂度,其得分范围为0-1,得分越高,语音的可懂度越高。
如下表1展示了四种语音增强方法在VoiceBank-DEMAND数据集上五种指标的评估结果
表1四种语音增强方法的评估结果
为了验证本实施例的语音增强效果,利用同样基于时域的SEGAN方法、Wave U-net方法、DEMUCS方法和TSTNN方法作为参照,在VoiceBank-DEMAND数据集上的对比见表1。从SEGAN方法、Wave U-net方法和DEMUCS方法对比发现,U-net网络在语音增强中表现较好,这是因为U-net网络的解码层既包含高维特征又包含低维特征,能够实现多尺度下的特征融合,可以提高模型精确度。然后,从DEMUCS方法和TSTNN方法对比发现,Transformer模块拥有较小的模型并且各项评价指标表现都较好,这个因为Transformer模块能够以并行方式处理输入数据,能够有效地解决长时依赖问题,所以在语音增强任务中发挥重要优势。
最后,本实施例通过融合U-net网络和Transformer模块的优点,形成了一种新的基于时域的端对端语音增强方法。同时,使用三种类型的损失函数训练模型,获得了最优的PESQ和STOI,显著地提高了语音增强的效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施列的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种融合Transformer和U-net网络的语音增强方法,其特征在于,包括如下步骤:
S1,采集原始的干净语音数据集和带噪语音数据集,并将采集的数据集分为训练集、验证集和测试集;
S2,构建融合Transformer和U-net网络的语音增强模型;
S3,使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练;
S4,将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型,输出干净的语音信号。
2.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,步骤S2中,所述融合Transformer和U-net网络的语音增强模型包括依次相连的编码模块、Transformer模块、掩码模块和解码模块。
3.根据权利要求2所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,所述编码模块采用U-net网络的编码层,包括一个上采样层和多个编码层;所述编码模块的输入为一段时域语音信号。
4.根据权利要求3所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,每个所述编码层均包括:
一个卷积核大小为K、步长为S、输出通道为2i-1H的一维卷积层,i表示层数,H表示可控的通道数;
一个ReLU函数激活层;
一个卷积核大小为1、步长为1、输出通道为2iH的一维卷积层;以及
一个将通道数转换为2i-1H的GLU函数激活层。
5.根据权利要求2所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,所述Transformer模块包括多个堆叠的双路径Transformer块,所述双路径Transformer块包括一个局部Transformer块和一个全局Transformer块,所述局部Transformer块用于对输入的局部特征信息进行平行化处理,所述全局Transformer块用于融合局部Transformer块的输出信息,以学习全局特征信息。
6.根据权利要求5所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,所述局部Transformer块和全局Transformer块均包括多头注意力机制模块和前馈网络模块;
所述多头注意力机制模块集成了h个自注意力机制,每个自注意力机制关注相同的Q、K和V;每个自注意力机制只负责最终输出序列中的一个子空间,且输出序列互相独立;其中,Q、K、V分别表示计算自注意力机制的查询、键和值;
所述前馈网络模块包括一个GRU层、一个ReLU函数激活层和一个线性变换层。
7.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,所述掩码模块包括多个激活函数层和多个卷积层。
8.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,所述解码模块采用U-net网络的解码层,包括多个解码层和一个下采样层;所述解码模块的输出为一段时域语音信号。
9.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法,其特征在于,每个所述解码层均包括:
一个卷积核大小为1、步长为1、输出通道为2iH的一维卷积层;
一个将通道数转换为2i-1H的GLU函数激活层;以及
一个卷积核大小为K、步长为S、输出通道为2i-2H的一维转置卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424756.5A CN114141238A (zh) | 2021-11-26 | 2021-11-26 | 一种融合Transformer和U-net网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424756.5A CN114141238A (zh) | 2021-11-26 | 2021-11-26 | 一种融合Transformer和U-net网络的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114141238A true CN114141238A (zh) | 2022-03-04 |
Family
ID=80388669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111424756.5A Pending CN114141238A (zh) | 2021-11-26 | 2021-11-26 | 一种融合Transformer和U-net网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114141238A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743020A (zh) * | 2022-04-02 | 2022-07-12 | 华南理工大学 | 一种结合标签语义嵌入和注意力融合的食物识别方法 |
CN114783449A (zh) * | 2022-03-23 | 2022-07-22 | 武汉大学 | 神经网络训练方法、装置、电子设备及介质 |
CN115240648A (zh) * | 2022-07-18 | 2022-10-25 | 四川大学 | 一种面向语音识别的管制员语音增强方法及装置 |
CN115330643A (zh) * | 2022-10-13 | 2022-11-11 | 中国石油大学(华东) | 基于卷积神经网络和视觉变换神经网络的地震去噪方法 |
CN115721318A (zh) * | 2022-11-24 | 2023-03-03 | 西安工程大学 | 一种心电信号降噪处理方法、系统、设备及存储介质 |
CN115810351A (zh) * | 2023-02-09 | 2023-03-17 | 四川大学 | 一种基于视听融合的管制员语音识别方法及装置 |
CN116189703A (zh) * | 2023-04-24 | 2023-05-30 | 苏州大学 | 一种全局多头注意力语音增强方法 |
CN116416963A (zh) * | 2023-06-12 | 2023-07-11 | 深圳市遐拓科技有限公司 | 适用于消防头盔中骨传导清晰化处理模型的语音合成方法 |
CN118411997A (zh) * | 2024-07-04 | 2024-07-30 | 苏州大学 | 一种基于时域神经网络的单通道语音回声消除方法 |
-
2021
- 2021-11-26 CN CN202111424756.5A patent/CN114141238A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783449A (zh) * | 2022-03-23 | 2022-07-22 | 武汉大学 | 神经网络训练方法、装置、电子设备及介质 |
CN114783449B (zh) * | 2022-03-23 | 2024-09-17 | 武汉大学 | 神经网络训练方法、装置、电子设备及介质 |
CN114743020B (zh) * | 2022-04-02 | 2024-05-14 | 华南理工大学 | 一种结合标签语义嵌入和注意力融合的食物识别方法 |
CN114743020A (zh) * | 2022-04-02 | 2022-07-12 | 华南理工大学 | 一种结合标签语义嵌入和注意力融合的食物识别方法 |
CN115240648A (zh) * | 2022-07-18 | 2022-10-25 | 四川大学 | 一种面向语音识别的管制员语音增强方法及装置 |
CN115330643A (zh) * | 2022-10-13 | 2022-11-11 | 中国石油大学(华东) | 基于卷积神经网络和视觉变换神经网络的地震去噪方法 |
CN115330643B (zh) * | 2022-10-13 | 2022-12-30 | 中国石油大学(华东) | 基于卷积神经网络和视觉变换神经网络的地震去噪方法 |
CN115721318A (zh) * | 2022-11-24 | 2023-03-03 | 西安工程大学 | 一种心电信号降噪处理方法、系统、设备及存储介质 |
CN115810351A (zh) * | 2023-02-09 | 2023-03-17 | 四川大学 | 一种基于视听融合的管制员语音识别方法及装置 |
CN116189703A (zh) * | 2023-04-24 | 2023-05-30 | 苏州大学 | 一种全局多头注意力语音增强方法 |
CN116416963B (zh) * | 2023-06-12 | 2024-02-06 | 深圳市遐拓科技有限公司 | 适用于消防头盔中骨传导清晰化处理模型的语音合成方法 |
CN116416963A (zh) * | 2023-06-12 | 2023-07-11 | 深圳市遐拓科技有限公司 | 适用于消防头盔中骨传导清晰化处理模型的语音合成方法 |
CN118411997A (zh) * | 2024-07-04 | 2024-07-30 | 苏州大学 | 一种基于时域神经网络的单通道语音回声消除方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114141238A (zh) | 一种融合Transformer和U-net网络的语音增强方法 | |
CN103531205B (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
Su et al. | Bandwidth extension is all you need | |
Ai et al. | A neural vocoder with hierarchical generation of amplitude and phase spectra for statistical parametric speech synthesis | |
Du et al. | A joint framework of denoising autoencoder and generative vocoder for monaural speech enhancement | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
CN113593588A (zh) | 一种基于生成对抗网络的多唱歌人歌声合成方法和系统 | |
Xu et al. | Selector-enhancer: learning dynamic selection of local and non-local attention operation for speech enhancement | |
Sun et al. | Dual-branch modeling based on state-space model for speech enhancement | |
Djeffal et al. | Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches | |
Zhao et al. | Research on voice cloning with a few samples | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
Guo et al. | A Variance-Preserving Interpolation Approach for Diffusion Models With Applications to Single Channel Speech Enhancement and Recognition | |
CN115910091A (zh) | 引入基频线索的生成式语音分离方法和装置 | |
Ai et al. | Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis | |
Ramani et al. | Autoencoder based architecture for fast & real time audio style transfer | |
CN115376484A (zh) | 基于多帧预测的轻量级端到端语音合成系统构建方法 | |
Wang | Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement | |
Tang et al. | Contrastive learning for improving end-to-end speaker verification | |
Parisae et al. | Stacked U-Net with Time–Frequency Attention and Deep Connection Net for Single Channel Speech Enhancement | |
Aysa et al. | Language identification in overlapped multi-lingual speeches | |
CN117649839B (zh) | 一种基于低秩适应的个性化语音合成方法 | |
Wang | Novel Deep Learning Approaches for Single-Channel Speech Enhancement | |
Zhao et al. | Speech Instruction Recognition Method based on Stacking Ensemble Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |