CN116959468A - 一种基于dcctn网络模型的语音增强方法、系统及设备 - Google Patents
一种基于dcctn网络模型的语音增强方法、系统及设备 Download PDFInfo
- Publication number
- CN116959468A CN116959468A CN202310796316.5A CN202310796316A CN116959468A CN 116959468 A CN116959468 A CN 116959468A CN 202310796316 A CN202310796316 A CN 202310796316A CN 116959468 A CN116959468 A CN 116959468A
- Authority
- CN
- China
- Prior art keywords
- complex
- voice
- level
- frequency domain
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000011282 treatment Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000013461 design Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 239000004973 liquid crystal related substance Substances 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 16
- 238000012549 training Methods 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000001228 spectrum Methods 0.000 abstract description 4
- 230000006835 compression Effects 0.000 abstract description 2
- 238000007906 compression Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Abstract
本发明公开了一种基于DCCTN网络模型的语音增强方法、系统及设备。该语音增强方法包括如下步骤:采集语音数据构建带噪语音数据集;构建DCCTN网络模型,对语音信号进行分帧、压缩、频带维度和音频帧维度特征提取、生成掩膜和解码还原等处理;采用训练集数据对DCCTN网络模型进行充分训练;采用测试集数据对DCCTN网络模型进行测试和评估。本发明充分关注频谱特征的上下文关联,同时在两层级Transformer结构中引入了高斯权重矩阵,使网络模型能根据场景需求调节掩膜在不同频带的权重,显著提升了语音增强效果。
Description
技术领域
本发明涉及一种基于DCCTN网络模型的语音增强方法,同时也涉及相应的语音增强系统及设备,属于语音增强技术领域。
背景技术
语音增强技术是指当语音信号被噪声干扰、甚至淹没时,需要从噪声背景中提取出干净的原始语音信号,同时抑制、降低噪声干扰的一种语音处理技术,其目的是提高语音的质量和可懂度。单通道语音增强技术的发展经历了从信号处理方法到机器学习方法再到深度学习方法的发展过程,随着深度学习相关技术的迅速发展,各类网络结构和模型的提出,目前已逐步应用于语音增强技术领域,使得单通道语音增强技术随着深度学习的发展取得了很大的进步。但在具体到实际应用场景中时,相关的语音增强方法仍然需要根据场景特点和需求进行改进和优化。
在现有技术中,单通道语音增强方法按模型输入分类,通常有时域方法和频域方法两类。如图1所示,一种基于DCCRN(深度复数卷积循环网络)网络的语音增强结构来源于CRN结构,其改进在于用复数卷积层和复数LSTM层代替了CRN中的卷积层和LSTM层,其本质是一个CED结构。输入的时频语音信号经过短时傅里叶变换模块得到语音信号的频域复数表示。然后复数表示的时域和频域部分分别经过多层复数编码层,得到语音信号的特征,再经过复数LSTM模块和多层复数解码层,得到增强后的语音频域表示。最后经过逆短时傅里叶变换模块转换为时域语音信号,即为增强后的语音。
另外,在申请号为202111424756.5的中国发明申请中,公开了一种融合Transformer和U-net网络的语音增强方法。该语音增强方法包括如下步骤:S1,采集原始的干净语音数据集和带噪语音数据集,并将采集的数据集分为训练集、验证集和测试集;S2,构建融合Transformer和U-net网络的语音增强模型;S3,使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练;S4,将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型,输出干净的语音信号。该方法在U-net网络中加入了Transformer模块,有效提取局部和全局的上下文特征信息;同时使用时域损失、时频域损失和感知损失三类损失函数一起训练语音增强网络,从而获得更高的语音可懂度和感知质量。
发明内容
本发明所要解决的首要技术问题在于提供一种基于DCCTN网络模型的语音增强方法。
本发明所要解决的另一技术问题在于提供一种基于DCCTN网络模型的语音增强系统及设备。
为了实现上述目的,本发明采用以下的技术方案:
根据本发明实施例的第一方面,提供一种基于DCCTN网络模型的语音增强方法,包括以下步骤:
(1)输入带噪语音信号经过复数卷积短时傅里叶变换,将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号;
(2)将频域带噪语音信号的实部和虚部输入至复数二维编码器,经过压缩和提取得到实部和虚部的特征表示;
(3)将频域带噪语音信号的实部和虚部的特征表示输入至两层级复数Transformer模块,分别对频带维度和音频帧维度进行建模,进行频带维度和音频帧维度的特征提取;
(4)将所述两层级复数Transformer模块输出的语音信号输入到掩膜层生成掩膜,并分别与步骤(2)得到的频域带噪语音信号的实部和虚部相乘作为掩膜输出信号;
(5)将掩膜输出信号输入到复数二维解码器进行解码还原,得到与原始维度相同的音频频域表征,并与步骤(1)输出的音频信号相叠加,得到完整的增强后的语音信号频域表示;
(6)将还原后的音频频域表征通过卷积短时逆傅里叶变换,得到语音增强后干净的时域语音信号;
其中较优地,在步骤(2)中,所述复数二维编码器由多层复数二维卷积编码层构成,其中,每层复数二维卷积编码层后面分别设置有一个归一化层和激活层,分别对频域带噪语音信号的实部和虚部进行处理。
其中较优地,在步骤(3)中,所述两层级复数Transformer模块由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理;其中,每条路径由两层级的复数Transformer结构组成,在每个层级中,包含双层的自注意力结构;其中,在第二层级的复数Transformer结构的第二层复数自注意力层之前,引入实部和虚部特征的交互输入设计。
其中较优地,步骤(3)中具体包括如下步骤:
(31)将步骤S2得到的频域带噪语音信号的实部特征表示作为第一路径的输入信号,虚部特征表示作为第二路径的输入信号;
(32)将两路输入信号分别输入至两个路径的第一层级Transformer结构,对输入信号的频带维度建模,进行频带维度的特征提取;
(33)将第一层级输出的两路信号分别输入至各自路径的维度转换层进行维度变换;
(34)将维度转换后的两路信号分别输入至各自路径的第二层级Transformer结构,对输入信号的音频帧维度建模,进行音频帧维度的特征提取;
(35)将第二层级输出的两路输出信号分别输入至自路径的复数全连接层,进行维度整理;
(36)将维度整理后的两路输出信号的实部和虚部组合为完整的频域表示作为输出语音信号。
其中较优地,在第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率反向变动;
在第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目标帧和上下文帧之间距离反向变动。
其中较优地,所述掩膜层包括输入激活函数层、多个复数二维卷积层、Tanh和Sigmoid激活函数层、输出激活函数层;其中,通过Tanh和Sigmoid激活函数层生成语音频域表征实部和虚部的掩膜。
其中较优地,所述复数二维解码器由多层复数二维反卷积解码层构成,其中,最后一层之前的每层复数二维反卷积解码层后分别设置有一个归一化层和激活层,分别对语音特征的实部和虚部进行处理。
根据本发明实施例的第二方面,提供一种基于DCCTN网络模型的语音增强系统,包括复数卷积短时傅里叶变换模块、复数二维编码器模块、两层级复数Transformer模块、掩膜生成模块、复数二维解码器模块和卷积短时逆傅里叶变换模块,带噪语音信号依次通过上述各模块进行语音增强处理;其中,
所述复数卷积短时傅里叶变换模块用于将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号;
所述复数二维编码器模块用于对频域带噪语音信号的实部和虚部进行压缩和提取得到实部和虚部的特征表示;
所述两层级复数Transformer模块用于对频域带噪语音信号的实部和虚部的特征表示,分别进行频带维度和音频帧维度的建模,并对频带维度和音频帧维度的进行特征提取;
所述掩膜生成模块用于对两层级复数Transformer模块输出的语音信号采用激活函数生成掩膜,并分别与复数二维编码器模块输出的频域带噪语音信号的实部和虚部相乘作为掩膜输出信号;
所述复数二维解码器模块用于将掩膜输出信号进行解码还原,得到与原始维度相同的音频频域表征,并与复数卷积短时傅里叶变换模输出的音频信号相叠加,得到完整的增强后的语音信号频域表示;
所述卷积短时逆傅里叶变换模块用于将还原后的音频频域表征进行变换得到语音增强后干净的时域语音信号。
其中较优地,所述两层级复数Transformer模块由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理;其中,
每条路径由两层级的复数Transformer结构组成,在每个层级中,包含双层的自注意力结构;
在第二层级的复数Transformer结构的第二层复数自注意力层之前,引入实部和虚部特征的交互输入设计,使实部和虚部的特征起到互补作用;
在第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率反向变动;
在第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目标帧和上下文帧之间距离反向变动。
根据本发明实施例的第三方面,提供一种语音增强设备,该语音增强设备包括处理器、存储器和系统总线;处理器与存储器通过系统总线相连接;其中,所述存储器用于存储一个或多个计算机程序,当该计算机程序被所述处理器执行时,使处理器执行上述基于DCCTN网络模型的语音增强方法。
与现有技术相比较,本发明提供的基于DCCTN网络模型的语音增强方法,通过融合两层级Transformer结构和复数卷积Transformer掩膜模块,提出了两层级的复数Transformer掩膜模块的技术方案,能够更好的关注频谱特征的上下文关联,并能更好的融合关注局部上下文信息和全局上下文信息。同时,在两层级Transformer结构中引入了高斯权重矩阵,使网络模型能根据场景需求调节掩膜在不同频带的权重。提升了语音增强效果,特别适应低信噪比远场应用场景的语音增强处理。
附图说明
图1为现有技术中,一种基于DCCRN网络的语音增强技术方案的结构示意图;
图2为本发明实施例中,一种基于DCCTN网络模型的语音增强方法的流程图;
图3为本发明实施例中,DCCTN网络模型的结构示意图;
图4为本发明实施例中,两层级复数Transformer模块的结构示意图;
图5为本发明实施例中,掩膜层的结构示意图;
图6为本发明实施例中,一种基于DCCTN网络模型的语音增强系统的示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
如图2所示,本发明提供一种基于DCCTN网络模型的语音增强方法,至少包括以下步骤:
S1:采集语音数据构建带噪语音数据集,数据集包括训练集和测试集两部分。语音数据统一处理为采样率为16kHz、位宽为16bit,单通道的wav格式的音频文件,并将音频文件的时长控制在5s左右。
训练集语音数据由采集数据和仿真数据两部分构成。采集数据是模拟真实远场带噪场景进行采集获取;仿真数据通过在干净语音上进行房间模拟和噪声混叠获取。
测试集语音数据由制作远场带噪语音获得。具体为在真实远场录音上,混叠不同程度的不同噪声。其中,真实远场录音包含35个说话人,每个说话人200~250条语音数据;混叠的噪声共6种,其中5种噪声数据来自DEMAND数据集,另1种噪声截取自真实远场带噪音频。混合噪声的信噪比分别设置为-15db、-10db、-5db和0db。
S2:构建DCCTN网络模型,对语音信号进行处理。基于Python语言和PyTorch库实现DCCTN网络模型结构、数据集读取和训练测试环境,其中,DCCTN(Deep ComplexConvolution Transformer Network)网络模型即深度复数卷积Transformer网络,其具体结构如图3所示。相应地,构建DCCTN网络模型的具体流程,包括如下步骤:
S21:输入带噪语音信号,经过复数卷积短时傅里叶变换,将时频带噪语音信号进行分帧处理,转换为频域带噪语音信号,其表征分为实部和虚部两部分。其中,在训练或测试过程中,输入带噪语音信号是从相应的数据集当中读取音频文件。
S22:将步骤S21得到的频域带噪语音信号的实部和虚部输入到复数二维编码器,经过压缩和提取得到实部和虚部的特征表示。其中,复数二维编码器由多层复数二维卷积编码层构成,在本发明实施例中由六层复数二维卷积编码层构成,每层复数二维卷积编码层后面分别设置有一个归一化层和激活层,分别对频域带噪语音信号的实部和虚部进行处理。
S23:将步骤S22得到的频域带噪语音信号的实部和虚部的特征表示输入到两层级复数Transformer模块,分别对频带维度和音频帧维度进行建模,实现频带维度和音频帧维度的特征提取。两层级复数Transformer模块的结构如图4所示,由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理,即两层级的复数Transformer层结构包含实部和虚部两条路径,其中,每条路径由两层级的复数Transformer结构组成,在每个层级中,又包含双层的自注意力结构。两层级复数Transformer模块的工作流程具体包括如下步骤:
S231:将步骤S22得到的频域带噪语音信号的实部特征表示作为第一路径的输入信号,虚部特征表示作为第二路径的输入信号。
S232:将两路输入信号分别输入至两个路径的第一层级Transformer结构,对输入信号的频带维度建模,实现频带维度的特征提取。其中,每个路径的第一层级Transformer结构均由两层复数自注意力结构组成,并在每层复数自注意力结构引入高斯权重矩阵G,引入高斯权重矩阵后的自注意力结构如下式所示:
其中,G为引入的第高斯权重矩阵,Q为查询向量,K为被查向量,V是矩阵值,dk为K的维度大小,softmax的作用是对向量做归一化。
第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率升高而降低(即反向变动),从而使低频部分获得更高的权重,以适应极低信噪比、远场应用场景。第一高斯权重矩阵的表达如下式所示:
是频带维度的权重矩阵,其中,gi,j如下式定义:
其中,i表示目标频带索引,j表示标志频带索引,是一个可训练的权重系数。
在中,选择一个低频带为基准,gi,j与该频带的距离成反比,以便对较高频的部分提供较大的注意力衰减。
S233:将第一层级输出的两路信号分别输入至各自路径的维度转换层进行维度变换。
S234:将维度转换后的两路信号分别输入至各自路径的第二层级Transformer结构,对输入信号的音频帧维度建模,实现音频帧维度的特征提取。其中,每个路径的第二层级Transformer结构均由两层复数自注意力结构组成,并在第二层复数自注意力层之前,引入实部和虚部特征的交互设计,交互设计能够对实部和虚部的特征起到互补作用,使模型学习到两者的相关性。并在每层复数自注意力结构引入高斯权重矩阵G,引入高斯权重矩阵后的自注意力结构同公式(1)所示。
第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目标帧和上下文帧之间距离的增大而降低(即反向变动),从而符合语音信号之间的相关性关系。第二高斯权重矩阵的表达如下式所示:
是频谱帧数维度的权重矩阵,在/>中,gi,j如下式定义:
其中,i表示目标帧的索引,j表示上下文帧的索引,是一个可训练的权重系数,因此,gi,j与目标帧和上下文帧之间的距离成反比。
S235:将第二层级输出的两路信号分别输入至自路径的复数全连接层,进行维度整理。
S236:将维度整理后的两路输出信号的实部和虚部组合为完整的频域表示作为输出语音信号。
S24:将输出语音信号输入到掩膜层生成掩膜。其中,掩膜层的结构如图5所示,包括输入激活函数层、多个复数二维卷积层、Tanh和Sigmoid激活函数层、输出激活函数层。在本发明实施例中,包括三个复数二维卷积层。输入信号经过输入激活函数层和两个复数二维卷积层,再通过Sigmoid激活函数和Tanh激活函数生成值为0至1之间的语音频域表征实部和虚部的掩膜,将两部分相乘后再经过一层复数二维卷积层和输出激活层,得到掩膜输出,并分别与步骤S22得到的频域带噪语音信号的实部和虚部相乘得到语音信号的特征表示作为输出信号。
S25:将步骤S24的输出信号输入到复数二维解码器进行解码还原,得到与原始维度相同的音频频域表征,并与处理前的音频(即步骤S21的输出语音信号)相叠加,得到完整的增强后的语音信号频域表示。其中,复数二维解码器由多层复数二维反卷积解码层构成,在本发明实施例中由六层复数二维反卷积解码层构成,前五层复数二维反卷积解码层后分别设置有一个归一化层和激活层,分别对语音特征的实部和虚部进行处理。
S26:将还原后的音频频域表征通过卷积短时逆傅里叶变换,得到时域语音信号,即语音增强后输出的干净语音信号。
S3:对DCCTN网络模型进行充分训练。
在进行DCCTN网络模型训练时,上述步骤S21中的复数卷积短时傅里叶变换层作如下设置,傅里叶变换选择加窗函数为汉明窗,帧长25ms,帧移6.25ms,短时傅里叶变换长度为512。步骤S22中的复数二维编码器将频域特征通道数由1提升至256,训练过程使用Adam优化器,初始学习率为0.001,模型使用4张NVIDIA Tesla T4显卡基于录制的远场带噪语音数据训练集进行充分训练。
S4:对DCCTN网络模型进行测试和评估。
利用测试集数据测试DCCTN网络模型效果,测试集音频总时长约为7小时。为了验证本发明实施例的语音增强效果,本发明实施例选择了现有技术中与本发明实施例相关的三类语音增强算法(TSTNN、DPT-FSNET、DCCRN)作为对照,分别进行PESQ(客观语音质量评估)测试评估。其中,为了充分进行语音增强效果的对比,在测试过程中,本发明实施例提供的语音增强方法包括两种:一为引入高斯权重矩阵的DCCTN2网络模型,二为不引入高斯权重矩阵的DCCTN1网络模型。
测试结果如下表所示。
从上表中的测试结果数据可以看出,本发明实施例提供的基于DCCTN网络模型的语音增强方法,相对于现有技术的几种相关语音增强算法,更适应低信噪比、远场语音,尤其在引入高斯权重矩阵后,在极低信噪比远场环境下,语音增强的效果具有显著的提升。
综上所述,可以看出本发明实施例提供的基于DCCTN网络模型的语音增强方法,兼顾深度学习模型设计和应用场景落地,进行一系列的优化和改进,引入了两层级的复数Transformer模块,能够对音频相位和幅度的局部和全局信息进行建模,引入了实部和虚部的交互设计实现特征互补,同时,引入高斯权重矩阵提升低频特征权重,使模型能更好的适应远场低信噪比环境。针对单通道语音增强技术的难点场景,进行了场景适配,并取得良好的语音增强效果。
基于上述语音增强方法,本发明实施例进一步提供一种基于DCCTN网络模型的语音增强系统,如图6所示,该语音增强系统包括复数卷积短时傅里叶变换模块、复数二维编码器模块、两层级复数Transformer模块、掩膜生成模块、复数二维解码器模块和卷积短时逆傅里叶变换模块。其中,带噪语音信号依次通过上述各模块进行语音增强处理。
复数卷积短时傅里叶变换模块用于将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号。
复数二维编码器模块用于对频域带噪语音信号的实部和虚部进行压缩和提取得到实部和虚部的特征表示。
两层级复数Transformer模块用于对频域带噪语音信号的实部和虚部的特征表示,分别进行频带维度和音频帧维度的建模,并对频带维度和音频帧维度的进行特征提取。
掩膜生成模块用于对两层级复数Transformer模块输出的语音信号采用激活函数生成掩膜,并分别与复数二维编码器模块输出的频域带噪语音信号的实部和虚部相乘作为掩膜输出信号。
复数二维解码器模块用于将掩膜输出信号进行解码还原,得到与原始维度相同的音频频域表征,并与复数卷积短时傅里叶变换模输出的音频信号相叠加,得到完整的增强后的语音信号频域表示。
卷积短时逆傅里叶变换模块用于将还原后的音频频域表征进行变换得到时域语音信号,时域语音信号即语音增强后输出的干净语音信号。
其中,两层级复数Transformer模块由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理;其中,每条路径由两层级的复数Transformer结构组成,在每个层级中,包含双层的自注意力结构;其中,在第二层级的复数Transformer结构的第二层复数自注意力层之前,引入实部和虚部特征的交互输入设计,使实部和虚部的特征起到互补作用,使模型学习到两者的相关性。并在第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率升高而降低,从而使低频部分获得更高的权重;在第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目标帧和上下文帧之间距离的增大而降低,从而符合语音信号之间的相关性关系。
基于本发明实施例提供的语音增强系统实现的语音增强模块,可用于各类智能语音处理功能模块的前端,用于提升直接获取的语音信号质量,改善下游处理模块的处理效果,可对接包括语音识别、声纹提取、语音转换的相关下游功能模块,接入的形式包括直接集成算法、封装服务调度或封装为硬件模块嵌入等。也可以独立作为产品应用于多种行业,产品形式包括SDK、API或部署于计算机、边缘设备上,在公共安全、直播、声音采集、影视等对高质量音频有需求的各类行业有广泛需求。
基于上述语音增强方法,本发明实施例还提供一种基于DCCTN网络模型的语音增强设备,包括处理器、存储器和系统总线。其中,处理器与存储器通过系统总线相连接;存储器用于存储一个或多个计算机程序,当该计算机程序被处理器执行时,使处理器执行上述基于DCCTN网络模型的语音增强方法,提高语音的质量和可懂度。
与现有技术相比较,本发明实施例提供的基于DCCTN网络模型的语音增强方法,通过融合两层级Transformer结构和复数卷积Transformer掩膜模块,能够充分关注频谱特征的上下文关联,并能更好地融合关注局部上下文信息和全局上下文信息。同时,在两层级Transformer结构中引入了高斯权重矩阵,使网络模型能根据场景需求调节掩膜在不同频带的权重,显著提升了语音增强效果,特别适合低信噪比远场应用场景下的语音增强处理。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
上面对本发明提供的基于DCCTN网络模型的语音增强方法、系统及设备进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (10)
1.一种基于DCCTN网络模型的语音增强方法,其特征在于包括如下步骤:
(1)输入带噪语音信号经过复数卷积短时傅里叶变换,将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号;
(2)将频域带噪语音信号的实部和虚部输入至复数二维编码器,经过压缩和提取得到实部和虚部的特征表示;
(3)将频域带噪语音信号的实部和虚部的特征表示输入至两层级复数Transformer模块,分别对频带维度和音频帧维度进行建模,进行频带维度和音频帧维度的特征提取;
(4)将所述两层级复数Transformer模块输出的语音信号输入到掩膜层生成掩膜,并分别与步骤(2)得到的频域带噪语音信号的实部和虚部相乘作为掩膜输出信号;
(5)将掩膜输出信号输入到复数二维解码器进行解码还原,得到与原始维度相同的音频频域表征,并与步骤(1)输出的音频信号相叠加,得到完整的增强后的语音信号频域表示;
(6)将还原后的音频频域表征通过卷积短时逆傅里叶变换,得到语音增强后干净的时域语音信号。
2.如权利要求1所述的基于DCCTN网络模型的语音增强方法,其特征在于在步骤(2)中,
所述复数二维编码器由多层复数二维卷积编码层构成,其中,每层复数二维卷积编码层后面分别设置有一个归一化层和激活层,分别对频域带噪语音信号的实部和虚部进行处理。
3.如权利要求1所述的基于DCCTN网络模型的语音增强方法,其特征在于在步骤(3)中,
所述两层级复数Transformer模块由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理;其中,每条路径由两层级的复数Transformer结构组成,在每个层级中,包含双层的自注意力结构;其中,在第二层级的复数Transformer结构的第二层复数自注意力层之前,引入实部和虚部特征的交互输入设计。
4.如权利要求3所述的基于DCCTN网络模型的语音增强方法,其特征在于在步骤(3)中,包括如下子步骤:
(31)将步骤(2)得到的频域带噪语音信号的实部特征表示作为第一路径的输入信号,虚部特征表示作为第二路径的输入信号;
(32)将两路输入信号分别输入至两个路径的第一层级Transformer结构,对输入信号的频带维度建模,进行频带维度的特征提取;
(33)将第一层级输出的两路信号分别输入至各自路径的维度转换层进行维度变换;
(34)将维度转换后的两路信号分别输入至各自路径的第二层级Transformer结构,对输入信号的音频帧维度建模,进行音频帧维度的特征提取;
(35)将第二层级输出的两路输出信号分别输入至自路径的复数全连接层,进行维度整理;
(36)将维度整理后的两路输出信号的实部和虚部组合为完整的频域表示作为输出语音信号。
5.如权利要求4所述的基于DCCTN网络模型的语音增强方法,其特征在于:
在第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率反向变动;
在第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目标帧和上下文帧之间距离反向变动。
6.如权利要求1所述的基于DCCTN网络模型的语音增强方法,其特征在于:
所述掩膜层包括输入激活函数层、多个复数二维卷积层、Tanh和Sigmoid激活函数层、输出激活函数层;其中,通过Tanh和Sigmoid激活函数层生成语音频域表征实部和虚部的掩膜。
7.如权利要求1所述的基于DCCTN网络模型的语音增强方法,其特征在于:
所述复数二维解码器由多层复数二维反卷积解码层构成,其中,最后一层之前的每层复数二维反卷积解码层后分别设置有一个归一化层和激活层,分别对语音特征的实部和虚部进行处理。
8.一种基于DCCTN网络模型的语音增强系统,其特征在于包括复数卷积短时傅里叶变换模块、复数二维编码器模块、两层级复数Transformer模块、掩膜生成模块、复数二维解码器模块和卷积短时逆傅里叶变换模块,带噪语音信号依次通过上述各模块进行语音增强处理;其中,
所述复数卷积短时傅里叶变换模块用于将时频带噪语音信号进行分帧处理,转换成表征为实部和虚部的频域带噪语音信号;
所述复数二维编码器模块用于对频域带噪语音信号的实部和虚部进行压缩和提取得到实部和虚部的特征表示;
所述两层级复数Transformer模块用于对频域带噪语音信号的实部和虚部的特征表示,分别进行频带维度和音频帧维度的建模,并对频带维度和音频帧维度的进行特征提取;
所述掩膜生成模块用于对两层级复数Transformer模块输出的语音信号采用激活函数生成掩膜,并分别与复数二维编码器模块输出的频域带噪语音信号的实部和虚部相乘作为掩膜输出信号;
所述复数二维解码器模块用于将掩膜输出信号进行解码还原,得到与原始维度相同的音频频域表征,并与复数卷积短时傅里叶变换模输出的音频信号相叠加,得到完整的增强后的语音信号频域表示;
所述卷积短时逆傅里叶变换模块用于将还原后的音频频域表征进行变换得到语音增强后干净的时域语音信号。
9.如权利要求8所述的基于DCCTN网络模型的语音增强系统,其特征在于:
所述两层级复数Transformer模块由两路两层级复数Transformer结构组成,两条结构相同的路径分别对频域带噪语音信号的实部和虚部进行处理;其中,
每条路径由两层级的复数Transformer结构组成,在每个层级中,包含双层的自注意力结构;
在第二层级的复数Transformer结构的第二层复数自注意力层之前,引入实部和虚部特征的交互输入设计,使实部和虚部的特征起到互补作用;
在第一层级Transformer结构引入第一高斯权重矩阵,用于使注意力权重随着频率反向变动;
在第二层级Transformer结构引入第二高斯权重矩阵,用于使注意力权重随着目标帧和上下文帧之间距离反向变动。
10.一种语音增强设备,其特征在于包括处理器、存储器和系统总线;处理器与存储器通过系统总线相连接;其中,所述存储器用于存储一个或多个计算机程序,当该计算机程序被所述处理器执行时,使处理器执行权利要求1~7中任意一项所述基于DCCTN网络模型的语音增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310796316.5A CN116959468A (zh) | 2023-07-02 | 2023-07-02 | 一种基于dcctn网络模型的语音增强方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310796316.5A CN116959468A (zh) | 2023-07-02 | 2023-07-02 | 一种基于dcctn网络模型的语音增强方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959468A true CN116959468A (zh) | 2023-10-27 |
Family
ID=88443628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310796316.5A Pending CN116959468A (zh) | 2023-07-02 | 2023-07-02 | 一种基于dcctn网络模型的语音增强方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959468A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117393167A (zh) * | 2023-12-11 | 2024-01-12 | 中国人民解放军军事科学院军事医学研究院 | 一种基于人工智能模型的大脑健康评估方法 |
-
2023
- 2023-07-02 CN CN202310796316.5A patent/CN116959468A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117393167A (zh) * | 2023-12-11 | 2024-01-12 | 中国人民解放军军事科学院军事医学研究院 | 一种基于人工智能模型的大脑健康评估方法 |
CN117393167B (zh) * | 2023-12-11 | 2024-03-12 | 中国人民解放军军事科学院军事医学研究院 | 一种基于人工智能模型的大脑健康评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
Pandey et al. | Dense CNN with self-attention for time-domain speech enhancement | |
Mack et al. | Deep filtering: Signal extraction and reconstruction using complex time-frequency filters | |
CN110390950B (zh) | 一种基于生成对抗网络的端到端语音增强方法 | |
Kinoshita et al. | A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research | |
Kim et al. | SE-Conformer: Time-Domain Speech Enhancement Using Conformer. | |
CN111128214A (zh) | 音频降噪方法、装置、电子设备及介质 | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
CN111465982A (zh) | 信号处理设备和方法、训练设备和方法以及程序 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Su et al. | Perceptually-motivated environment-specific speech enhancement | |
CN113823308A (zh) | 一种使用单个带噪语音样本进行语音去噪的方法 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
CN116959468A (zh) | 一种基于dcctn网络模型的语音增强方法、系统及设备 | |
Shankar et al. | Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids | |
Crespo et al. | Multizone speech reinforcement | |
JP5443547B2 (ja) | 信号処理装置 | |
Wu et al. | Self-supervised speech denoising using only noisy audio signals | |
Kashani et al. | Speech Enhancement via Deep Spectrum Image Translation Network | |
Cui et al. | Research on Audio Recognition Based on the Deep Neural Network in Music Teaching | |
Hu et al. | Learnable spectral dimension compression mapping for full-band speech enhancement | |
CN115019818A (zh) | 基于渐进式混响感知网络的语音去混响方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |