CN113823308A - 一种使用单个带噪语音样本进行语音去噪的方法 - Google Patents
一种使用单个带噪语音样本进行语音去噪的方法 Download PDFInfo
- Publication number
- CN113823308A CN113823308A CN202111100709.5A CN202111100709A CN113823308A CN 113823308 A CN113823308 A CN 113823308A CN 202111100709 A CN202111100709 A CN 202111100709A CN 113823308 A CN113823308 A CN 113823308A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- training
- denoising
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000005070 sampling Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 7
- 230000008447 perception Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007430 reference method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种仅使用单个带噪语音样本进行语音去噪的方法。该方法包括以下步骤:(1)对于干净的语音信号,分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本;(2)对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;(3)将训练的输入语音转化为频谱图,然后输入去噪网络进行训练,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;(4)训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失可以防止单样本去噪训练出现过度平滑现象。对比使用干净语音以及使用一对带噪语音进行训练的传统方法,该方案在信噪比、语音质量感知评估、短时客观可懂度等多个评估指标上均取得了更好的结果。
Description
技术领域
本发明涉及一种使用单个带噪语音样本进行语音去噪的方法,属于深度学习、语音去噪及语音增强领域。
背景技术
目前电子技术应用非常广泛,语音作为典型的非平稳随机信号,是人们传递信息或相互通信最常用的媒介,随着语音业务逐渐涌现在智能终端上,人们对语音质量越来越重视。在信息化快速发展的今天,语音信号不可避免地会受到各种噪声的干扰,这些噪音种类众多,如电气设备声、汽笛声等,这些噪声的干扰会导致输出的语音质量差,不仅不易被人们理解,也会使得人机设备难以获得准确的信息。因此,各种语音去噪技术得到了迅速的发展和研究。传统的研究思路中,为了实现良好的语音降噪结果,需要大量的带噪语音样本和干净语音样本作为训练数据,这种训练数据需要昂贵的音频记录设备和环境严格的隔音记录工作室。
从去噪方法而言,由于现实世界有很多不便于收集或者干净数据较为昂贵的稀少语音资源,目前已经有使用一对带噪语音样本进行去噪的方法,这种方法要求每个场景中至少有两个独立的带噪语音样本,这在现实生活的场景中往往难以满足。
从去噪网络而言,为了缓解传统的基于卷积神经网络的方法中感受野受限的问题,目前已经有采用扩张卷积神经网络来提高语音增强性能的方法。后来有学者通过在UNet的编码器和解码器之间加入时序卷积网络(Temporal convolutional network,TCN)或长短期记忆(Long Short-Term Memory,LSTM)网络来学习长期依赖关系,但是语音的上下文信息仍然被忽略,这会大大限制去噪性能。
发明内容
针对现有去噪方法的局限性,本发明在不使用干净语音数据的情况下,仅利用单个带噪语音样本训练去噪网络,这种方法打破了传统方法中需要构造两张独立带噪语音样本的局限性,通过设计采样器的方式从单个带噪语音样本中构造出相似语音训练对,将去噪技术推广到相似带噪语音样本和单个带噪语音样本这两个场景。
针对现有去噪网络的不足,本发明在复数编码器和解码器中融合了基于两级Tansformer的复数模块以学习编码器输出的局部和全局上下文信息,来解决并行计算的长依赖问题,从而提高语音去噪网络的性能。
为了达到上述目的,本发明提供如下技术方案:
一种使用单个带噪语音样本进行语音去噪的方法,包括以下步骤:
步骤1,对于干净的语音信号,分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本;
步骤2,对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本,具体步骤如下:
2-1,设置参数i=0,k≥2,i的下一个取值为i+k,以此类推,直至遍历完原始语音信号;
2-2,对于带噪语音样本x的第i到第i+k-1个的时域值,语音下采样器S从中随机选择两个相邻值分别作为下采样结果s1(x)和s2(x)的第i/k处的时域值;
2-3,通过步骤2-2,可以得到一对训练样本s1(x)和s2(x),其长度为带噪语音样本x的1/k倍。由于下采样器S从原样本的相邻但不相同的位置采样得到语音对,因此该语音对满足相互之间的差异很小,但其对应的干净语音并不相同的条件。
在语音训练对的生成过程中,我们使用语音下采样器直接处理原始语音的时域值,这是因为直接对训练输入进行子采样是不合理的。在我们的框架中通过短时傅里叶变换提取每个汉明窗内局部语音信息的频谱图形成训练输入,不同的窗口大小导致提取到的局部信息覆盖的语音特征不同,使得普通的采样方法很难获得非常相似的子采样对。因此,我们直接在语音的时域值上进行采样,然后再应用短时傅里叶变换生成有效的训练输入。除了短时傅里叶变换之外,我们的语音下采样器适合于其他去噪模型的任何语音变换操作,这意味着在任何有监督的语音去噪任务中表现良好的网络都可以应用我们的下采样方法。
步骤3中,将训练对中的输入语音转化为频谱图输入去噪网络进行训练,训练对中另一个语音作为训练目标,去噪网络的特征如下:
3-1,普通UNet的卷积层全部被取代为复数卷积层,除了网络最后一层之外,每个卷积层上均实现了复数批量归一化,在编码器阶段,使用复数下采样层替换最大池化层,以防止空间信息丢失,在解码器阶段,使用复数逆卷积上采样层以恢复输入图像的大小。
3-2,在去噪网络的编码器和解码器之间,叠加复数两级Transformer模块来学习编码器输出的局部和全局上下文信息,从而在解码器处有效地重构增强语音。
大多数去噪框架在处理频谱图时,侧重于关注幅度谱的特征,而忽略了相位谱的有用信息。因此,我们采用深度复数U-Net网络来解决这一问题。虽然这种U-Net结构可以更方便地处理复数频谱图,但往往会忽略语音的上下文信息,从而在一定程度上限制了去噪性能。所以,基于实值网络中两级Transformer模块提取上下文信息的有效性,我们将复数形式的两级Transformer模块引入到复数U-Net体系结构中,以更好地提取复数语音特征的上下文信息。
步骤4中,训练使用的总损失函数由基础损失和正则化损失组成。其中,基础损失由时域损失频域损失和加权源失真比(weighted source-to-distortion ratio,wSDR)损失组成,正则化损失用于在单样本去噪方法中防止过度平滑现象。
步骤5,将训练网络预测得到的掩码与原始带噪语音转换得到的频谱图相结合,得到去噪后的输出语音。
与现有技术相比,本发明具有如下优点和有益效果:
(1)针对现有语音去噪技术的不足,本发明设计了一种新的语音去噪框架,通过使用语音下采样器仅利用单个噪声语音样本进行去噪训练。本发明不仅不需要满足传统方法中对干净语音样本或者多个带噪样本的训练需求,而且缓解了现实场景中干净数据较为昂贵的稀少语音资源的限制。
(2)本发明设计了一种有效的复数语音去噪网络,该网络在深度复数UNet的编码器和解码器之间引入了一个两级Tansformer模块,并且类比复数卷积操作,实现复数形式的两级Tansformer模块以代替传统的实数两级Tansformer模块。该去噪网络通过对语音频谱的幅值和相位之间的相关性进行建模,学习编码器输出的局部和全局上下文信息,以提高语音去噪性能。
(3)与传统的去噪策略相比,该方法不仅在人工合成的带噪语音数据集上表现良好,而且在真实世界噪声的数据集上也具有很好的适用性。对比实验表明,本发明在信噪比、语音质量感知评估、短时客观可懂度等多个评估指标上,不仅优于以干净语音作为训练目标的传统去噪方法,而且优于使用一对带噪语音样本进行去噪的方法,表明了本发明在训练数据需求以及去噪性能表现两方面的优势。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明。
图1为本发明的总体网络架构示意图。
图2为本发明的语音下采样器说明图。
图3为本发明的语音去噪网络图。
图4为本发明的两级Transformer块结构图。
具体施方式
以下将结合附图和具体实施方式对本发明提供的技术方案进行详细说明。
实施例1:参见图1-图4,本发明提出的一种使用单个带噪语音样本进行语音去噪的方法流程及其架构如图1所示,具体步骤包括:
步骤1,对于干净的语音信号,分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本,
步骤2,对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本。下采样器的流程如图2所示,首先,设置参数i=0,k≥2,i的下一个取值为i+k,以此类推,直至遍历完原始语音信号;其次,对于带噪语音信号x的第i到第i+k-1处的时域值,语音下采样器S从中随机选择两个相邻值分别作为下采样结果s1(x)和s2(x)的第i/k处的时域值。
通过上述步骤,可以得到一对训练样本s1(x)和s2(x),其长度为带噪语音样本x的1/k倍。由于下采样器S从原样本的相邻但不相同的位置采样得到语音对,因此该语音对满足相互之间的差异很小,但其对应的干净语音并不相同的条件。
由单个带噪样本生成一对语音训练样本进行训练的原理如下:
首先,考虑相似场景的两个独立带噪语音样本的情况。假设有一个干净语音x,其对应的带噪语音是y,即Ey|x(y)=x,当引入一个非常小的信号差ε≠0时,x+ε是另一张带噪语音z对应的干净语音,即Ez|x(z)=x+ε。令fθ代表去噪网络,则有:
上式表明,当ε→0时,2εEx,y(fθ(y)-x)→0,此时(y,z)配对可以作为(y,x)配对的一种近似。因此,一旦找到合适的满足“相似但不相同”条件的(y,z),就可以训练降噪网络。
接着,考虑使用单个带噪语音样本的情况,构造出两个“相似但不相同”语音样本的一种可行方法是下采样。从时域信号的相邻但不相同的位置采样出来的子信号很显然满足了相互之间的差异很小,但是其对应的干净语音并不相同的条件(即ε→0)。
因此,给定一个带噪语音y,本发明构造一对语音下采样器s1(*),s2(*),采样出两个子语音s1(y),s2(y),直接使用这两个子语音构造配对,则有:
由于两个采样噪声语音s1(y)和s2(y)采样的位置不同,即:
该语音去噪网络满足:
因此,不再考虑直接优化等式(2),而是考虑以下带有约束的优化问题:
至此,我们完成了基于单个语音样本进行去噪训练方法的原理推导。
步骤3,将训练对中的输入语音转化为频谱图,然后输入去噪网络进行训练,训练对中另一个语音作为训练目标,去噪网络的架构如图3所示,具体架构如下:
1)普通UNet的卷积层全部被取代为复数卷积层,除了网络最后一层之外,每个卷积层上均实现了复数批量归一化。在编码器阶段,使用复数下采样层替换最大池化层,以防止空间信息丢失。在解码器阶段,使用复数逆卷积上采样层以恢复输入图像的大小。
2)在去噪网络的编码器和解码器之间,叠加一个复数TSTM来学习编码器输出的局部和全局上下文信息,从而在解码器处有效地重构增强语音。
3)一个复数两级Transformer模块(Two-stage Transformer Module,TSTM)由多个两级Transformer块(Two-stage transformer block,TSTB)叠加而成。TSTB由一个局部Transformer和一个全局Transformer组成,分别提取局部和全局上下文信息,其架构如图4所示。局部Transformer和全局Transformer均基于改进的Transformer实现,与一般的Transformer结构有如下不同:首先,基于自注意机制的多头注意力块,输入特征被直接映射到不同位置的特征表示中;其次,在改进的Transformer开始处并没有使用位置编码,而是使用一个门控循环单元(Gate Recurrent Unit,GRU)层和一个中间有ReLU层的完全连接层作为前馈网络。
3)给定复数输入的实部Xr和虚部Xi,复数TSTM的输出Fout可以定义为:
Frr=TSTMr(Xr);Fir=TSTMr(Xi) (8)
Fri=TSTMi(Xr);Fii=TSTMi(Xi) (9)
Fout=(Frr-Fii)+j(Fri+Fii) (10)
其中,Xr和Xi分别表示复数频谱输入的实部和虚部;TSTMr和TSTMi分别表示TSTM的实部和虚部;Frr和Fir表示原始输入的实部和虚部经过复数两级Transformer架构的实部得到的结果;Fri和Fii表示原始输入的实部和虚部经过复数两级Transformer架构的虚部得到的结果;Fout表示复数两级Transformer架构的运算结果。
其中,α是控制频域损失和时域损失权重的超参数,β是控制加权源失真比损失权重的超参数。
其中,fθ表示去噪网络,为了稳定学习,在训练过程中停止s1(fθ(y))和s2(fθ(y))的梯度更新,逐渐增加公式(11)中的超参数γ到达最好的训练效果。
为了评估语音去噪的质量,使用以下客观措施:信噪比(signal-to-noise ratio,SNR)、分段信噪比(Segmental signal-to-noise ratio,SSNR)、窄带语音质量感知评估(Perceptual evaluation of speech quality,using the narrow-band version,PESQ-NB)、宽带语音质量感知评估(Perceptual evaluation of speech quality,using thewide-band version,PESQ-WB)、短时客观可懂度(Short Term ObjectiveIntelligibility,STOI)。以上指标的值越大表示去噪后的语音质量越高。
具体实施例:
下面结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
数据集:本发明使用Voice Bank数据集作为干净语音样本,其中共包含28个不同说话人集,26个用于训练,2个用于评估。在干净语音样本上分别叠加高斯白噪声和UrbanSound8K数据集生成带噪语音数据集,其中,高斯白噪声通过随机选择0到10范围内的信噪比得到,UrbanSound8K数据集选取自真实世界的噪声样本,使用其中所有的十个噪声类别进行实验。叠加过程中使用PyDub在干净音频上重叠噪声,通过截断或重复噪声使其涵盖整个语音段以形成一段完整的带噪语音样本。
实验环境:本实施例在Ubuntu操作系统下开发,通过Pytorch实现,机器配有四块NVIDIA GeForce GTX1080 Ti GPU。
实验参数设置:
1)本实施例中所有的信号采样率均为48kHz,时域信号x长度被截取为65280,使用窗长为1022,帧移为256的汉明窗进行短时傅里叶变换,最终可以得到大小为512×256×2的复数频谱图X;
2)将长度为65280时域信号x输入下采样器得到长度为16128的一对带噪语音样本s1(x)和s2(x),其中下采样的超参数k设置为2;
3)接着,将s1(x)经过短时傅里叶变换得到大小为512×128×2的复数频谱图s1(X),将其作为编码器的输入。
4)语音特征s1(X)经过编码器可以得到大小为15×13×2的特征,将其作为复数TSTM的输入,得到与编码器输入大小不变的特征作为解码器的输入,最终经过解码器得到与输入频谱图对应的时域信号大小一致的特征。
实验结果:为了体现本发明相对于现有方法的性能提升,本实施例和文献(Kashyap M M,Tambwekar A,Manohara K,et al.Speech Denoising without CleanTraining Data:a Noise2Noise Approach[J].)中的利用干净语音作为训练目标的方法以及使用一对带噪语音进行去噪训练的方法进行对比。
对比实验结果如表1所示。其中,Noise2Clean表示利用干净语音作为训练目标的传统方法,Noise2Noise表示使用一对带噪语音进行去噪训练的方法,SNS(Single NoisySpeech)表示使用不包含复数TSTM模块的十层复数Unet进行单样本去噪的方法,SNS-TSTM(Single Noisy Speech-TSTM)表示在复数Unet中融入复数TSTM模块的单样本去噪方法。
本实施例针对白噪声和Urbansound8K数据集中十个噪声类型进行实验,表1每行对应所属噪声类别的对比实验结果。对于给定的噪声类别,分别计算所用度量标准的平均值和标准差。深色表格表示本发明提出的方法(即SNS与SNS-TSTM),加粗显示的值表示最好的结果(即更高的平均值)。
为了探讨复数两级Transformer模块对去噪网络性能的影响,实验设置了一个不包含复数TSTM模块的十层复数Unet模型作为对比实验,结果在表格中使用SNS表示。该模型仅包含5个编码器和解码器层而不使用TSTM,每个编码器和解码器层都具有与SNS-TSTM的对应相同的配置。
表1
将两种基准方法Noise2Clean和Noise2Noise与本发明提出的SNS和SNS-TSTM的结果对比,可以得出如下结论:
1)SNS方法与基准方法Noise2Clean和Noise2Noise相比,可以发现本发明提出的单噪声样本去噪方法不仅优于使用干净语音进行训练的传统方法,同时超出了使用一对带噪样本进行训练的方法。即使对于Noise2Noise方法没有超过Noise2Clean方法的叠加白噪声的情况,本发明提出的SNS架构也展现了去噪性能的有效性和优越性,各指标均超出了两种基准方法。
2)将SNS方法与SNS-TSTM相比,可以发现:
①对于噪声种类2(小孩玩耍声)和噪声种类6(枪声),SNS的方法超出了SNS-TSTM方法,但是它们的差值是很小的。可以认为对于叠加了真实世界中小孩玩耍声和枪声的带噪语音,两级Transformer模块提取到的局部和全局上下文信息对去噪网络影响是不大的,这种情况下,复数Unet模块在去噪过程中负责提取主要信息。
②对于噪声种类0、4、8,除STOI指标外,其余指标均为SNS-TSTM结果更好。STOI指标是基于纯净语音与带噪语音的时间包络相关系数计算得到,在实验中表现出与语音可懂度的高度相关性。可以认为对于叠加了噪声种类0、4、8的语音样本,两级Transformer模块对于提高去噪结果的语音可懂度作用较小,但是对于其他指标仍然表现良好。
③除上述两点分析外,对于叠加白噪声与其他剩余噪声种类的情况,TSTM模块的添加对于解码器中语音的重建非常有效。复数两级Transformer模块的引入使得去噪网络不仅能够更加精确地处理并重建来自频谱图的相位及幅度信息,又保证了语音的上下文信息不被忽略,总体来看,SNS-TSTM模型不管在合成噪音还是现实世界噪音中普遍取得了更好的效果。
以上实施例仅用以说明本发明的方案,而非限制该专利的范围,但凡是对该专利的说明书、附图或流程图进行等效修改或替换,却不脱离本专利所包括的范围,均在本专利的权利要求书的范围之内。
Claims (4)
1.一种使用单个带噪语音样本进行语音去噪的方法,其特征在于,包括以下步骤:
步骤1,对于干净的语音信号,分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本;
步骤2,对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;
步骤3,将训练对中的输入语音转化为频谱图输入去噪网络进行训练,训练对中另一个语音样本作为训练目标,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;
步骤4,训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失可以防止单样本去噪训练出现过度平滑现象;
步骤5,将训练网络预测得到的掩码与原始带噪语音转换得到的频谱图相结合,得到去噪后的输出语音。
2.根据权利要求1所述的使用单个带噪语音样本进行语音去噪的方法,其特征在于,所述步骤2中,使用以下步骤来生成一对训练语音样本:
2-1,设置参数i=0,k≥2,i的下一个取值为i+k,以此类推,直至遍历完原始语音信号;
2-2,对于带噪语音样本x的第i到第i+k-1个的时域值,语音下采样器S从中随机选择两个相邻值分别作为下采样结果s1(x)和s2(x)的第i/k处的时域值;
2-3,通过步骤2-2,得到一对训练样本s1(x)和s2(x),其长度为带噪语音样本x的1/k倍;由于下采样器S从原样本的相邻但不相同的位置采样得到语音对,因此该语音对满足相互之间的差异很小,但其对应的干净语音并不相同的条件。
3.根据权利要求1所述的使用单个带噪语音样本进行语音去噪的方法,其特征在于,所述步骤3中,去噪网络的特征如下:
3-1,普通UNet的卷积层全部被取代为复数卷积层,除了网络最后一层之外,每个卷积层上均实现了复数批量归一化,在编码器阶段,使用复数下采样层替换最大池化层,以防止空间信息丢失,在解码器阶段,使用复数逆卷积上采样层以恢复输入图像的大小;
3-2,在去噪网络的编码器和解码器之间,叠加一个复数两级Transformer模块来学习编码器输出的局部和全局上下文信息,从而在解码器处有效地重构增强语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111100709.5A CN113823308B (zh) | 2021-09-18 | 2021-09-18 | 一种使用单个带噪语音样本进行语音去噪的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111100709.5A CN113823308B (zh) | 2021-09-18 | 2021-09-18 | 一种使用单个带噪语音样本进行语音去噪的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113823308A true CN113823308A (zh) | 2021-12-21 |
CN113823308B CN113823308B (zh) | 2023-11-28 |
Family
ID=78922433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111100709.5A Active CN113823308B (zh) | 2021-09-18 | 2021-09-18 | 一种使用单个带噪语音样本进行语音去噪的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113823308B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495957A (zh) * | 2022-01-27 | 2022-05-13 | 安徽大学 | 一种基于Transformer改进的语音增强方法、系统、装置 |
CN115376543A (zh) * | 2022-08-16 | 2022-11-22 | 湖南工商大学 | 一种基于unet架构的语音带宽扩展方法 |
CN115798455A (zh) * | 2023-02-07 | 2023-03-14 | 深圳元象信息科技有限公司 | 语音合成方法、系统、电子设备及存储介质 |
CN117272138A (zh) * | 2023-09-15 | 2023-12-22 | 东华理工大学 | 一种基于参考道数据约束与深度学习的地磁数据去噪方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578477A (zh) * | 2012-07-30 | 2014-02-12 | 中兴通讯股份有限公司 | 基于噪声估计的去噪方法和装置 |
US20190043516A1 (en) * | 2018-06-22 | 2019-02-07 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
US20190251952A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
CN112215054A (zh) * | 2020-07-27 | 2021-01-12 | 西北工业大学 | 一种用于水声信号去噪的深度生成对抗方法 |
CN112508058A (zh) * | 2020-11-17 | 2021-03-16 | 安徽继远软件有限公司 | 基于音频特征分析的变压器故障诊断方法及装置 |
CN113065585A (zh) * | 2021-03-23 | 2021-07-02 | 北京亮亮视野科技有限公司 | 图像合成模型的训练方法、装置与电子设备 |
-
2021
- 2021-09-18 CN CN202111100709.5A patent/CN113823308B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578477A (zh) * | 2012-07-30 | 2014-02-12 | 中兴通讯股份有限公司 | 基于噪声估计的去噪方法和装置 |
US20190251952A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
US20190043516A1 (en) * | 2018-06-22 | 2019-02-07 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
CN112215054A (zh) * | 2020-07-27 | 2021-01-12 | 西北工业大学 | 一种用于水声信号去噪的深度生成对抗方法 |
CN112508058A (zh) * | 2020-11-17 | 2021-03-16 | 安徽继远软件有限公司 | 基于音频特征分析的变压器故障诊断方法及装置 |
CN113065585A (zh) * | 2021-03-23 | 2021-07-02 | 北京亮亮视野科技有限公司 | 图像合成模型的训练方法、装置与电子设备 |
Non-Patent Citations (3)
Title |
---|
JAAKKO LEHTINEN 等: "Noise2Noise: Learning Image Restoration without Clean Data", ARXIV:1803.04189V3, pages 1 - 12 * |
RITWIK GIRI 等: "ATTENTIONWAVE-U-NET FOR SPEECH ENHANCEMENT", 2019 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, pages 249 - 253 * |
刘秀平 等: "基于联合稀疏变换学习的工件去噪方法研究", 计算机工程与应用, vol. 55, no. 7, pages 188 - 193 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495957A (zh) * | 2022-01-27 | 2022-05-13 | 安徽大学 | 一种基于Transformer改进的语音增强方法、系统、装置 |
CN115376543A (zh) * | 2022-08-16 | 2022-11-22 | 湖南工商大学 | 一种基于unet架构的语音带宽扩展方法 |
CN115798455A (zh) * | 2023-02-07 | 2023-03-14 | 深圳元象信息科技有限公司 | 语音合成方法、系统、电子设备及存储介质 |
CN117272138A (zh) * | 2023-09-15 | 2023-12-22 | 东华理工大学 | 一种基于参考道数据约束与深度学习的地磁数据去噪方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113823308B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
CN113823308A (zh) | 一种使用单个带噪语音样本进行语音去噪的方法 | |
CN110246510B (zh) | 一种基于RefineNet的端到端语音增强方法 | |
CN110751957B (zh) | 一种使用堆叠多尺度模块的语音增强方法 | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
Su et al. | Bandwidth extension is all you need | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN112802491B (zh) | 一种基于时频域生成对抗网络的语音增强方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN113450816A (zh) | 一种基于深度神经网络的语音主动降噪方法 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 | |
CN116959468A (zh) | 一种基于dcctn网络模型的语音增强方法、系统及设备 | |
Wei et al. | IIFC-Net: A Monaural Speech Enhancement Network With High-Order Information Interaction and Feature Calibration | |
CN115295002A (zh) | 一种基于交互性时频注意力机制的单通道语音增强方法 | |
Kashani et al. | Speech enhancement via deep spectrum image translation network | |
Schröter et al. | CLC: complex linear coding for the DNS 2020 challenge | |
Kar et al. | Convolutional Neural Network for Removal of Environmental Noises from Acoustic Signal | |
Wang et al. | Multi‐stage attention network for monaural speech enhancement | |
Liu et al. | LPCSE: Neural Speech Enhancement through Linear Predictive Coding | |
Kacprzak et al. | Adversarial domain adaptation with paired examples for acoustic scene classification on different recording devices | |
Wan et al. | Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement | |
Zhou et al. | Noise-Aware Subband Attention Network for Underwater Acoustic Signal Denoising | |
Wu et al. | Exploiting Discrete Wavelet Transform Features in Speech Enhancement Technique Adaptive FullSubNet+ | |
Gul et al. | Single channel speech enhancement by colored spectrograms | |
CN113903352B (zh) | 一种单通道语音增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |