CN115497492A - 一种基于全卷积神经网络的实时语音增强方法 - Google Patents
一种基于全卷积神经网络的实时语音增强方法 Download PDFInfo
- Publication number
- CN115497492A CN115497492A CN202211023976.1A CN202211023976A CN115497492A CN 115497492 A CN115497492 A CN 115497492A CN 202211023976 A CN202211023976 A CN 202211023976A CN 115497492 A CN115497492 A CN 115497492A
- Authority
- CN
- China
- Prior art keywords
- layer
- output
- convolution
- data
- sent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 27
- 238000009432 framing Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000012952 Resampling Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 47
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明公开了一种基于全卷积神经网络的实时语音增强方法,方法包括:获取带噪音语音数据和无噪音语音数据,构建训练集和测试集;对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据;对所述标准化的语音数据进行特征提取;根据提取到的特征进行模型训练,得到目标网络模型;通过所述目标网络模型对包含噪音的目标数据进行语音增强,得到增强后的输出结果。本发明提高了实时性以及效率,可广泛应用于音频数据处理技术领域。
Description
技术领域
本发明涉及音频数据处理技术领域,尤其是一种基于全卷积神经网络的实时语音增强方法。
背景技术
语音增强是指当语音信号被各种各样的噪声干扰,甚至淹没后,从噪声背景中提取有用的语音信号,抑制,降低噪声干扰的信号处理技术。
语音增强技术的发展大体经历了基于无监督语音增强的传统方法,常用的方法比如维纳滤波法,谱减法。这类无监督的传统语音增强根据前面帧估计噪声,但在非平稳噪声的情况下,跟踪和估计噪声的策略失效,同时,为了推导方便,进行了对数据分布的高斯性假设是不合理的,限制了传统算法的上限。
随着深度学习技术的出现,基于有监督的语音增强方法相较于传统的语音增强方法显示了较大的优越性,这类基于人工神经网络的方法用人工神经网络在时域学习带噪语音和干净语音的非线性关系。
目前用于语音增强的神经网络模型的参数量和计算量一般比较复杂,这些模型把已知的有用的技巧融合模型中,更有一些模型基本是模块的排列组合。但实际工作中,嵌入设备端侧对算法开销要求比较苛刻,比如嵌入式设备的算法落地需要更加严格的模型选型和剪枝、量化。需要从模型的效果、参数量、计算量、占用内存大小、时延等方面均衡考虑基于神经网络的语音增强在嵌入式设备上的实现。
发明内容
有鉴于此,本发明实施例提供一种实时且高效的,基于全卷积神经网络的实时语音增强方法。
本发明实施例的一方面提供了一种基于全卷积神经网络的实时语音增强方法,包括:
获取带噪音语音数据和无噪音语音数据,构建训练集和测试集;
对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据;
对所述标准化的语音数据进行特征提取;
根据提取到的特征进行模型训练,得到目标网络模型;
通过所述目标网络模型对包含噪音的目标数据进行语音增强,得到增强后的输出结果。
可选地,所述获取带噪音语音数据和无噪音语音数据,构建训练集和测试集,包括:
配置待混合的信噪比,所述信噪比包括-10db、-5db、0db、5db、10db、15db;
分别将所述信噪比下的带噪音语音数据和无噪音语音数据混合,生成含噪语音数据集,将所述含噪语音数据集的20%划分为所述测试集,将所述含噪语音数据集的80%划分为训练集。
可选地,所述对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据,包括:
将所述含噪语音数据集使用8k采样率进行重采样处理;
将重采样得到的数据通过语音端点检测静音帧,去除数据中的静音帧;
去除静音帧后,将语音样本标准化,使得样本满足均值为0,标准差为1的标准正态分布。
可选地,所述对所述标准化的语音数据进行特征提取,包括:
对语音数据进行分帧处理,选取每帧为32ms数据,使用8ms帧移分帧,并对分帧后的每帧数据加32ms的汉明窗;
将分帧加窗后数据用短时傅里叶变换STFT,将变换后的256点的振幅向量减去对称的一半,得到剩下的129点振幅向量;
将所述剩下的129点振幅向量取对数得到功率谱特征的模,作为提取的特征向量。
可选地,所述根据提取到的特征进行模型训练,得到目标网络模型,包括:
将提取到的特征输入包含10层卷积层的网络结构进行训练,具体包括:
将提取到的特征输入第一层卷积层,其中,第一层卷积层为12个卷积核,大小为13x13的卷积层;
将所述第一层卷积层的输出结果通过Batch Norm处理之后,再使用ReLU函数处理;其中,所述Batch Norm处理的作用是对数据进行归一化处理;所述Batch Norm和所述ReLU函数之间加有两个跳变连接;所述两个跳变连接分别是是第六层卷积后的输出加上第四层卷积输出,以及第八层卷积后的输出加上第二层卷积输出;
其中,卷积训练过程中的损失函数采用均方误差。
可选地,所述10层卷积层的网络结构的训练过程中,
第一层的输出送入第二层的卷积网络;第二层为16个卷积核,大小为11x11的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第二层的输出;
第二层的输出送入第三层的卷积网络;第三层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第三层的输出;
第三层的输出送入第四层的卷积网络;第四层为24个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第四层的输出;
第四层的输出送入第五层的卷积网络;第五层为32个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第五层的输出;
第五层的输出送入第六层的卷积网络;第六层为24个卷积核,大小为7x7的卷积层,输出加一个跳变连接,具体地:由第六层卷积后的输出加上第四层卷积之后,BatchNorm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理,处理后的输出为第六层的输出;
第六层的输出送入第七层的卷积网络;第七层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第七层的输出;
第七层的输出送入第八层的卷积网络;第八层为16个卷积核,大小为11x11的卷积层,输出加一个跳变连接,具体地:由第八层卷积后的输出加上第二层卷积之后,BatchNorm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理,处理后的输出为第八层的输出;
第八层的输出送入第九层的卷积网络;第九层为12个卷积核,大小为13x13的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第九层的输出;
第九层的输出送入第十层的卷积网络;第十层为1个卷积核,大小为129x129的卷积层,最终的输出特征的大小为129x1。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例获取带噪音语音数据和无噪音语音数据,构建训练集和测试集;对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据;对所述标准化的语音数据进行特征提取;根据提取到的特征进行模型训练,得到目标网络模型;通过所述目标网络模型对包含噪音的目标数据进行语音增强,得到增强后的输出结果。本发明提高了实时性以及效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的整体步骤流程图;
图2为本发明实施例提供的语音特征提取过程的步骤流程图;
图3为本发明实施例提供的波形重构流程的步骤流程图。
图4为本发明实施例提供的网络结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例一方面提供了一种基于全卷积神经网络的实时语音增强方法,包括:
获取带噪音语音数据和无噪音语音数据,构建训练集和测试集;
对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据;
对所述标准化的语音数据进行特征提取;
根据提取到的特征进行模型训练,得到目标网络模型;
通过所述目标网络模型对包含噪音的目标数据进行语音增强,得到增强后的输出结果。
可选地,所述获取带噪音语音数据和无噪音语音数据,构建训练集和测试集,包括:
配置待混合的信噪比,所述信噪比包括-10db、-5db、0db、5db、10db、15db;
分别将所述信噪比下的带噪音语音数据和无噪音语音数据混合,生成含噪语音数据集,将所述含噪语音数据集的20%划分为所述测试集,将所述含噪语音数据集的80%划分为训练集。
可选地,所述对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据,包括:
将所述含噪语音数据集使用8k采样率进行重采样处理;
将重采样得到的数据通过语音端点检测静音帧,去除数据中的静音帧;
去除静音帧后,将语音样本标准化,使得样本满足均值为0,标准差为1的标准正态分布。
可选地,所述对所述标准化的语音数据进行特征提取,包括:
对语音数据进行分帧处理,选取每帧为32ms数据,使用8ms帧移分帧,并对分帧后的每帧数据加32ms的汉明窗;
将分帧加窗后数据用短时傅里叶变换STFT,将变换后的256点的振幅向量减去对称的一半,得到剩下的129点振幅向量;
将所述剩下的129点振幅向量取对数得到功率谱特征的模,作为提取的特征向量。
可选地,所述根据提取到的特征进行模型训练,得到目标网络模型,包括:
将提取到的特征输入包含10层卷积层的网络结构进行训练,具体包括:
将提取到的特征输入第一层卷积层,其中,第一层卷积层为12个卷积核,大小为13x13的卷积层;
将所述第一层卷积层的输出结果通过Batch Norm处理之后,再使用ReLU函数处理;其中,所述Batch Norm处理的作用是对数据进行归一化处理;所述Batch Norm和所述ReLU函数之间加有两个跳变连接;所述两个跳变连接分别是是第六层卷积后的输出加上第四层卷积输出,以及第八层卷积后的输出加上第二层卷积输出;
其中,卷积训练过程中的损失函数采用均方误差。
可选地,所述10层卷积层的网络结构的训练过程中,
第一层的输出送入第二层的卷积网络;第二层为16个卷积核,大小为11x11的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第二层的输出;
第二层的输出送入第三层的卷积网络;第三层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第三层的输出;
第三层的输出送入第四层的卷积网络;第四层为24个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第四层的输出;
第四层的输出送入第五层的卷积网络;第五层为32个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第五层的输出;
第五层的输出送入第六层的卷积网络;第六层为24个卷积核,大小为7x7的卷积层,输出加一个跳变连接,具体地:由第六层卷积后的输出加上第四层卷积之后,BatchNorm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理,处理后的输出为第六层的输出;
第六层的输出送入第七层的卷积网络;第七层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第七层的输出;
第七层的输出送入第八层的卷积网络;第八层为16个卷积核,大小为11x11的卷积层,输出加一个跳变连接,具体地:由第八层卷积后的输出加上第二层卷积之后,BatchNorm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理,处理后的输出为第八层的输出;
第八层的输出送入第九层的卷积网络;第九层为12个卷积核,大小为13x13的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第九层的输出;
第九层的输出送入第十层的卷积网络;第十层为1个卷积核,大小为129x129的卷积层,最终的输出特征的大小为129x1。
本发明实施例的另一方面还提供了一种基于全卷积神经网络的实时语音增强装置,包括:
第一模块,用于获取带噪音语音数据和无噪音语音数据,构建训练集和测试集;
第二模块,用于对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据;
第三模块,用于对所述标准化的语音数据进行特征提取;
第四模块,用于根据提取到的特征进行模型训练,得到目标网络模型;
第五模块,用于通过所述目标网络模型对包含噪音的目标数据进行语音增强,得到增强后的输出结果。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
下面结合说明书附图,对本发明的具体实现过程进行详细描述:
本发明实施例提供了一种基于全卷积神经网络(Fully Convolutional NeuralNetworks,FCNN)的实时语音增强方法,包括以下步骤:
S1:数据准备。将干净语音数据加入噪音语音数据,混合后的数据分训练集和测试集。
S2:数据预处理。将含噪语音数据重采样8k,通过语音端点检测去除静音,然后进行语音数据标准化。
S3:特征提取。将标准化的语音数据,分帧加汉明窗,做短时傅里叶变换STFT,得到256点向量,因为对称性减少一半向量,取129点幅值向量,考虑到人耳对频率的感知与频率的对数成正比,再对振幅取对数得到功率谱特征的模,相位保持不变,相位训练不采用,波形重构反变换时再用相位。
S4:训练数据。训练网络由10层组成,每层包含一个卷积层,一个Batch Norm,以及激活函数ReLU,中间加两个跳变连接,分别是第六层卷积后的输出加上第四层卷积输出以及第八层卷积后的输出加上第二层卷积输出。损失函数采用均方误差,使用Adam算法优化。
S5:语音增强。利用S4得到的网络模型,预测含噪语音的输出结果,利用波形重构还原为语音。
可选地,所述步骤S1中,具体步骤包括:
在信噪比为-10db,-5db,0db,5db,10db,15db的情况下,将干净语音与噪声随机混合,生成含噪语音数据集,将其中的20%的数据集划分为测试集。剩下的80%数据集作为训练集。
可选地,所述步骤S2中,具体步骤包括:
a,将含噪语音数据样本使用8k采样率重采样。
b,重采样的样本通过语音端点检测(VAD)检测静音帧,去除静音帧。
c,静音帧去除后,将语音样本标准化,使得样本满足均值为0,标准差为1的标准正态分布。
可选地,所述步骤S3中,具体步骤包括:
a,语音训练集分帧,由于语音信号短时平稳性,选取每帧为32ms数据,使用8ms帧移分帧,分帧后的每帧加32ms的汉明窗。
b,取8帧输入,语音长度为96ms,做256点的短时傅里叶变换STFT,变换后的256点的振幅向量,减去对称的一半,剩下129点振幅向量。
c,对129点振幅取对数得到功率谱特征的模,作为提取的特征向量,输入给训练网络。相位保持不变。
可选地,所述步骤S4中,具体步骤包括:
a,训练网络结构模型包含10层卷积层。
b,每层卷积层后加Batch Norm层,以及激活函数ReLU。
c,整个网络包含2次跳变连接。分别是第六层卷积后的输出加上第四层卷积输出以及第八层卷积后的输出加上第二层卷积输出。
d,损失函数选用均方误差(mean square error,MSE)并用Adam算法进行优化,学习率设置为0.0015。
可选地,所述步骤S5中,具体步骤包括:
a,测试集重复上述S2,S3步骤,经过S3后,保留其相位为波形重构使用,幅值作为训练网络的输入。
b,经过训练网络的预测后,得到输出向量。
c,输出向量和相角对波形重构,得到语音增强后的输出。
综上所述,相较于现有技术,本发明具有以下优点:
1、本发明的全卷积网络模型只使用10层,参数小,小于一般的CNN,RNN等网络模型,充分考虑了嵌入式系统的资源有限性,并且在大多数的嵌入式系统保证了实时性。
2、本发明的全卷积网络采用了2层的跳变连接,避免了训练时的梯度消失以及语音丢失现象。
本发明使用PESQ和STOI两种方法评估语音增强的技术效果。语音质量的感知评估(Perceptual evaluation of speech quality,PESQ)是一种客观的、全参考的语音质量评估方法。短时客观可(Short-Time Objective Intelligibility,STOI)是衡量语音可懂度的重要指标之一。
为分析不同噪声对不同模型增强效果影响,在0dB信噪比条件下,对本发明的全卷积网络(FCNN),以及Long Short Term Memory(LSTM)网络模型和WebRTC模型3种模型验证,测试阶段的带噪语音为在white、factory2、babble,machinegun噪声环境下的语音,带噪语音的增强效果如表1和表2所示。
表1 0dB时不同噪声环境对不同模型的语音增强PESQ值
网络模型 | white | factory2 | babble | machinegun |
FCNN | 2.04 | 2.04 | 1.81 | 2.04 |
LSTM | 1.88 | 1.89 | 1.78 | 1.92 |
WebRTC | 1.54 | 1.55 | 1.77 | 1.65 |
表2 0dB时不同噪声环境对不同模型的语音增强STOI值
网络模型 | white | factory2 | babble | machinegun |
FCNN | 0.70 | 0.70 | 0.62 | 0.67 |
LSTM | 0.61 | 0.61 | 0.54 | 0.59 |
WebRTC | 0.66 | 0.64 | 0.58 | 0.63 |
由表1、2可知,可以看出,在信噪比为0db时,LSTM和WebRTC增强算法对比,LSTM算法PESQ数值均高于WebRTC算法,表明经过LSTM增强后,语音的语音质量优于WebRTC算法,但通过对比LSTM和WebRTC算法的STOI值,LSTM算法的值反而低于WebRTC算法,表明含噪语音经过LSTM算法增强后的语音的质量提高了,但语音的客观可理解度却低于WebRTC算法。本发明的FCNN算法不管是PESQ还是STOI的数值都比其他两种算法的数值高说明经过FCNN增强后,在信噪比为0db时,语音的语音质量和客观可理解度均好于两种算法。
下面对本发明实施例的具体实施步骤进行详细描述:
一种基于全卷积神经网络的实时语音增强方法,见图1的流程示意图,具体过程为:
S1:数据准备。将干净语音数据加入噪音语音数据,混合后的数据分训练集和测试集。
S2:数据预处理。将含噪语音数据重采样8k,通过语音端点检测去除静音,然后进行语音数据标准化。
S3:特征提取。将标准化的语音数据,分帧加汉明窗,做短时傅里叶变换STFT,得到256点向量,因为对称性减少一半向量,取129点幅值向量,再对129点幅值向量取对数得到功率谱特征的模,相位角保持不变,相位角训练阶段不采用,波形重构反变换时再使用。
S4:训练数据。训练网络由10层组成,每层包含一个卷积层,一个Batch Norm,以及激活函数ReLU,中间加两个跳变连接,分别是第六层卷积后的输出加上第四层卷积输出以及第八层卷积后的输出加上第二层卷积输出。损失函数采用均方误差,使用Adam算法优化。
S5:语音增强。利用S4得到的网络模型,预测含噪语音的输出结果,利用波形重构还原为语音。
其中,所述S1中数据准备,具体过程为:
在信噪比为-10db,-5db,0db,5db,10db,15db的情况下,将干净语音与噪声语音随机混合,生成含噪语音数据集,将其中的20%的数据集划分为测试集。剩下的80%数据集作为训练集。
具体地,所述S2中数据预处理,具体过程为:
a,将含噪语音数据样本使用8k采样率重采样。
b,重采样的样本通过语音端点检测(VAD)检测静音帧,并且去除静音帧。
语音端点检测实现是根据人声的频谱范围,把输入的频谱分成六个子带:80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~4K。分别计算这六个子带的能量。然后使用高斯模型的概率密度函数做运算,得出一个对数似然比函数。对数似然比分为全局和局部,全局是六个子带之加权之和,而局部是指每一个子带则是局部,语音判决会先判断子带,子带判断没有时会判断全局,只要有一方过了,就算有语音。HN和HS假设分别表示非语音和语音。给定第k帧谱如下:Xk=[Xk,1...Xk,L]T
其噪声和语音的概率密度函数分别用下式表示:
其中,i是频点索引,
λN=[λN,1...λN,L]T
λS=[λS,1...λS,L]T
上式,分别是噪声和语音的方差向量
判决条件为:
c,静音帧去除后,将语音样本标准化,使得样本满足均值为0,标准差为1的标准正态分布。
标准化的公式如下:
其中,μ和σ分别为数据集的均值和标准差。
具体地,所述S3中特征提取,见图2的语音特征提取部分,具体过程为:
a,语音训练集分帧,由于语音信号短时平稳性,选取每帧为32ms数据,使用8ms帧移分帧,分帧后的每帧加32ms的汉明窗。
汉明窗的表达式如下:
b,分帧加窗后数据用短时傅里叶变换STFT,变换后的256点的振幅向量,减去对称的一半,剩下的129点振幅向量。
c,129点振幅向量取对数得到功率谱特征的模,作为提取的特征向量,输入给训练网络,相位保持不变。
以上过程可以表示为:
|Yl|=log10|FFT(Yt)|2
∠Yl=∠FFT(Yt)
具体地,如图4所示,本发明实施例中S4中训练数据,具体过程为:
a,取8帧音频,每帧32ms,8ms帧移,语音长度为96ms,经过上述具体实施方式四的特征提取后作为训练网络的输入。
b,提取后的8帧特征送入包含10层卷积层的网络结构训练。具体步骤为:
输入送入第一层卷积层,第一层为12个卷积核,大小为13x13的卷积层,输出经过Batch Norm,再使用ReLU函数处理。Batch Norm的作用是对数据做归一化,可以加快训练速度,并且能对数据做去相关性,突出它们之间的分布相对差异。做法类似上述S2中的语音数据标准化。ReLU函数的作用就是增加了神经网络各层之间的非线性关系,不存在梯度消失问题(Vanishing Gradient Problem),使得模型的收敛速度维持在一个稳定状态。
第一层的输出送入第二层的卷积网络;第二层为16个卷积核,大小为11x11的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为该层的输出。
第二层的输出送入第三层的卷积网络;第三层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为该层的输出。
第三层的输出送入第四层的卷积网络;第四层为24个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为该层的输出。
第四层的输出送入第五层的卷积网络;第五层为32个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为该层的输出。
第五层的输出送入第六层的卷积网络;第六层为24个卷积核,大小为7x7的卷积层,输出加一个跳变连接,即这层卷积后的输出加上第四层卷积之后,Batch Norm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理。
第六层的输出送入第七层的卷积网络;第七层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为该层的输出。
第七层的输出送入第八层的卷积网络;第八层为16个卷积核,大小为11x11的卷积层,输出加一个跳变连接,即这层卷积后的输出加上第二层卷积之后,Batch Norm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理。
第八层的输出送入第九层的卷积网络;第九层为12个卷积核,大小为13x13的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为该层的输出。
第九层的输出送入第十层的卷积网络;第十层为1个卷积核,大小为129x129的卷积层。
最终的输出特征为129x1。
网络里增加的两个跳变连接除了学习本层的输入特征之外,又学习到了其它层的新特征,因而避免了语音丢失现象,同时,可以解决梯度消失问题。
c,训练网络的损失函数选用均方误差(mean square error,MSE)并用Adam算法进行优化。
均方误差的公式如下:
f(x)表示经过网络模型处理的去噪语音,y表示干净的原始语音。
Adam的参数设为如下:
学习率lr=0.0015
beta1=0.9,
beta2=0.999,
epsilon=1e-8
具体地,所述S5中语音增强,具体过程为:
a,含噪语音重复上述S2,S3,S4步骤,得到全卷积网络的输出结果。
b,全卷积网络的输出经过波形重构,即为语音增强后的结果。波形重构见图一的波形重构部分。
如图3所示,本发明实施例的波形重构的具体步骤如下:
将全卷积网络的输出结果,先经过指数函数Exp处理,得到1帧去噪语音频谱的模值,去噪语音频谱的相位角取特征提取的原始角度,进行傅里叶反变换(IFFT),将频域数据映射到时域,最后通过重叠相加法恢复语音。
以上过程表示为:
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种基于全卷积神经网络的实时语音增强方法,其特征在于,包括:
获取带噪音语音数据和无噪音语音数据,构建训练集和测试集;
对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据;
对所述标准化的语音数据进行特征提取;
根据提取到的特征进行模型训练,得到目标网络模型;
通过所述目标网络模型对包含噪音的目标数据进行语音增强,得到增强后的输出结果。
2.根据权利要求1所述的一种基于全卷积神经网络的实时语音增强方法,其特征在于,所述获取带噪音语音数据和无噪音语音数据,构建训练集和测试集,包括:
配置待混合的信噪比,所述信噪比包括-10db、-5db、0db、5db、10db、15db;
分别将所述信噪比下的带噪音语音数据和无噪音语音数据混合,生成含噪语音数据集,将所述含噪语音数据集的20%划分为所述测试集,将所述含噪语音数据集的80%划分为训练集。
3.根据权利要求2所述的一种基于全卷积神经网络的实时语音增强方法,其特征在于,所述对所述训练集和所述测试集进行数据标准化处理,得到标准化的语音数据,包括:
将所述含噪语音数据集使用8k采样率进行重采样处理;
将重采样得到的数据通过语音端点检测静音帧,去除数据中的静音帧;
去除静音帧后,将语音样本标准化,使得样本满足均值为0,标准差为1的标准正态分布。
4.根据权利要求1所述的一种基于全卷积神经网络的实时语音增强方法,其特征在于,所述对所述标准化的语音数据进行特征提取,包括:
对语音数据进行分帧处理,选取每帧为32ms数据,使用8ms帧移分帧,并对分帧后的每帧数据加32ms的汉明窗;
将分帧加窗后数据用短时傅里叶变换STFT,将变换后的256点的振幅向量减去对称的一半,得到剩下的129点振幅向量;
将所述剩下的129点振幅向量取对数得到功率谱特征的模,作为提取的特征向量。
5.根据权利要求1所述的一种基于全卷积神经网络的实时语音增强方法,其特征在于,所述根据提取到的特征进行模型训练,得到目标网络模型,包括:
将提取到的特征输入包含10层卷积层的网络结构进行训练,具体包括:
将提取到的特征输入第一层卷积层,其中,第一层卷积层为12个卷积核,大小为13x13的卷积层;
将所述第一层卷积层的输出结果通过Batch Norm处理之后,再使用ReLU函数处理;其中,所述Batch Norm处理的作用是对数据进行归一化处理;所述Batch Norm和所述ReLU函数之间加有两个跳变连接;所述两个跳变连接分别是是第六层卷积后的输出加上第四层卷积输出,以及第八层卷积后的输出加上第二层卷积输出;
其中,卷积训练过程中的损失函数采用均方误差。
6.根据权利要求5所述的一种基于全卷积神经网络的实时语音增强方法,其特征在于,所述10层卷积层的网络结构的训练过程中,
第一层的输出送入第二层的卷积网络;第二层为16个卷积核,大小为11x11的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第二层的输出;
第二层的输出送入第三层的卷积网络;第三层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第三层的输出;
第三层的输出送入第四层的卷积网络;第四层为24个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第四层的输出;
第四层的输出送入第五层的卷积网络;第五层为32个卷积核,大小为7x7的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第五层的输出;
第五层的输出送入第六层的卷积网络;第六层为24个卷积核,大小为7x7的卷积层,输出加一个跳变连接,具体地:由第六层卷积后的输出加上第四层卷积之后,Batch Norm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理,处理后的输出为第六层的输出;
第六层的输出送入第七层的卷积网络;第七层为20个卷积核,大小为9x9的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第七层的输出;
第七层的输出送入第八层的卷积网络;第八层为16个卷积核,大小为11x11的卷积层,输出加一个跳变连接,具体地:由第八层卷积后的输出加上第二层卷积之后,Batch Norm之前的输出,相加后经过Batch Norm,再使用ReLU函数处理,处理后的输出为第八层的输出;
第八层的输出送入第九层的卷积网络;第九层为12个卷积核,大小为13x13的卷积层,卷积输出经过Batch Norm后,再送入激活函数ReLU,处理后的输出为第九层的输出;
第九层的输出送入第十层的卷积网络;第十层为1个卷积核,大小为129x129的卷积层,最终的输出特征的大小为129x1。
7.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023976.1A CN115497492A (zh) | 2022-08-24 | 2022-08-24 | 一种基于全卷积神经网络的实时语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023976.1A CN115497492A (zh) | 2022-08-24 | 2022-08-24 | 一种基于全卷积神经网络的实时语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497492A true CN115497492A (zh) | 2022-12-20 |
Family
ID=84466902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211023976.1A Pending CN115497492A (zh) | 2022-08-24 | 2022-08-24 | 一种基于全卷积神经网络的实时语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497492A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160019459A1 (en) * | 2014-07-18 | 2016-01-21 | University Of Southern California | Noise-enhanced convolutional neural networks |
CN114242099A (zh) * | 2021-12-15 | 2022-03-25 | 南京邮电大学 | 基于改进相位谱补偿和全卷积神经网络的语音增强算法 |
-
2022
- 2022-08-24 CN CN202211023976.1A patent/CN115497492A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160019459A1 (en) * | 2014-07-18 | 2016-01-21 | University Of Southern California | Noise-enhanced convolutional neural networks |
CN114242099A (zh) * | 2021-12-15 | 2022-03-25 | 南京邮电大学 | 基于改进相位谱补偿和全卷积神经网络的语音增强算法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
CN100543842C (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
TR201810466T4 (tr) | Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. | |
Strake et al. | Speech enhancement by LSTM-based noise suppression followed by CNN-based speech restoration | |
CN106971740A (zh) | 基于语音存在概率和相位估计的语音增强方法 | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
Wang et al. | Joint noise and mask aware training for DNN-based speech enhancement with sub-band features | |
CN113096682A (zh) | 基于掩码时域解码器的实时语音降噪方法和装置 | |
CN115410589A (zh) | 一种基于联合感知损失的注意力生成对抗语音增强方法 | |
CN115497492A (zh) | 一种基于全卷积神经网络的实时语音增强方法 | |
CN113450816A (zh) | 一种基于深度神经网络的语音主动降噪方法 | |
Ashraf et al. | Ambient-noise free generation of clean underwater ship engine audios from hydrophones using generative adversarial networks | |
Hong et al. | Independent component analysis based single channel speech enhancement | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
CN115223583A (zh) | 一种语音增强方法、装置、设备及介质 | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
Jelčicová et al. | PeakRNN and StatsRNN: Dynamic pruning in recurrent neural networks | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
Lan et al. | Speech Enhancement Algorithm Combining Cochlear Features and Deep Neural Network with Skip Connections | |
Soni et al. | Comparing front-end enhancement techniques and multiconditioned training for robust automatic speech recognition | |
Islam et al. | Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation | |
Zhou | Research on English speech enhancement algorithm based on improved spectral subtraction and deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |