CN115497496B - 一种基于FirePS卷积神经网络的语音增强方法 - Google Patents
一种基于FirePS卷积神经网络的语音增强方法 Download PDFInfo
- Publication number
- CN115497496B CN115497496B CN202211155820.9A CN202211155820A CN115497496B CN 115497496 B CN115497496 B CN 115497496B CN 202211155820 A CN202211155820 A CN 202211155820A CN 115497496 B CN115497496 B CN 115497496B
- Authority
- CN
- China
- Prior art keywords
- fireps
- neural network
- voice
- convolutional neural
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 41
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000008707 rearrangement Effects 0.000 claims abstract description 12
- 238000009432 framing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 5
- 230000000996 additive effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 239000000284 extract Substances 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 230000008447 perception Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Alarm Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公布了一种基于FirePS卷积神经网络的语音增强方法。本发明对含噪单通道语音信号进行短时傅里叶变换,提取对数幅度谱图,作为FirePS卷积神经网络的输入特征进行语音增强。训练阶段,使用训练集语音数据的对数幅度谱图训练FirePS卷积网络,输出增强语音的对数幅度谱图,将训练语音对应的纯净对数幅度谱图作为标签,训练得到基于卷积神经网络的语音增强模型。FirePS卷积神经网络由Fire块、空洞卷积网络块、像素重排块和残差连接构成。测试阶段,FirePS卷积神经网络将测试含噪语音的对数幅度谱图映射为降噪后的对数幅度谱图,结合原测试语音的相位谱,得到增强后的语音时域信号。
Description
技术领域
本发明属于语音信号降噪领域,尤其涉及一种基于FirePS卷积神经网络的语音增强方法。
背景技术
用于提高感知质量的实时语音增强(SpeechEnhancement:SE)是一个具有数十年历史的经典问题,近年来基于学习(LearningBased)的方法获得了远超传统方法的突出结果。根据其训练目标的不同,语音增强分为三类算法:基于掩膜(masking-based)的时频域算法、基于映射(Mapping-based)的时频域算法、基于时域波形的端到端(endtoend)算法。
神经网络是一种近年来十分活跃且效果优异的统计学习方法。大量的神经网络结构,如卷积神经网络(CNN)、循环神经网络(RNN)、注意力(attention)网络等已经应用于语音增强领域。传统的CNN、RNN模型的感受野不足,限制了模型对时序信号的建模能力。注意力网络的建模能力很强,但参数量大、计算量大,限制了其使用范围。因此,语音增强这一研究领域依然需要开展大量、深入的研究工作,从而满足日益增长的高质量语音应用需求。本发明旨在增大传统卷积神经网络的感受野,减少神经网络的参数量,以解决现有技术中对语音信号这一时序信号的建模能力不足的问题,同时减少计算量、缩短模型所须的计算时间。
发明内容
本发明目的在于提供一种基于FirePS卷积神经网络的语音增强方法,旨在解决现有技术中对语音信号这一时序信号的建模能力不足的问题,同时减少计算量、缩短模型推理所须的计算时间。为解决上述技术问题,本发明的具体技术方案如下:
一种基于FirePS卷积神经网络的语音增强方法,包括以下步骤:
步骤1、将待训练的单通道语音信号与各种加性噪声按不同信噪比混合,得到含噪语音,并与纯净语音一起构成训练数据集;
步骤2、将步骤1得到的训练数据集中的含噪语音和纯净语音,分别通过分帧、加窗、短时傅里叶变换和对数运算,得到含噪语音、纯净语音对应的对数幅度谱图;
步骤3、将步骤2的含噪语音、纯净语音的对数幅度谱图,分别作为FirePS卷积神经网络的输入特征和标签,基于前向传播和反向传播算法,训练FirePS卷积神经网络;
步骤4、将待测试的单通道信号与各种加性噪声按不同信噪比混合,得到测试数据集,并通过分帧、加窗、短时傅里叶变换和对数运算,得到测试语音的对数幅度谱图和相位谱图;
步骤5、取步骤4得到测试语音对数幅度谱图,作为FirePS卷积神经网络的输入特征,映射得到增强后语音的对数幅度谱图,转换为幅度谱,根据步骤4得到测试信号的相位谱图,得到增强后语音信号的频谱,通过短时傅里叶逆变换和重叠相法得到时域波形,实现语音增强。
进一步的,FirePS卷积神经网络的结构由实现下采样编码的Fire块、提取特征的空洞卷积网络块、实现上采样的像素重排块组成,同时在对应的下采样编码的Fire块和实现上采样的像素重排块之间使用残差连接。
进一步的,FirePS卷积神经网络使用Fire块实现下采样编码,Fire块由一个卷积核为1*1尺寸的压缩卷积层、两个并联的卷积核尺寸分别为1*1和3*3的膨胀卷积层串联而成。
进一步的,FirePS卷积神经网络使用的混合空洞卷积块由三个卷积核尺寸相同、膨胀率分别为1、2、3的卷积层串联而成,并采用ReLU激活函数。
进一步的,FirePS卷积神经网络使用像素重排PS块实现上采样;像素重排PS块通过多通道间的重组,将每个像素点位置上的r个通道上的r个像素,重排成一个通道上的一个r×r的像素块,r为像素重排PS块的上采样倍数,从而将低分辨率、高通道数的特征图,映射为高分辨率、低通道数的特征图。
进一步的,FirePS卷积神经网络使用了对数平方损失和能量误差平均值线性组合的损失函数,其公式为:
loss=losslog-MSE+λlossenergy,
其中,loss表示FirePS卷积神经网络的损失函数,由两部分组成,分别为对数幅度谱的均方误差losslog-MSE和幅度谱的能量误差平均值lossenergy;为含噪语音经过FirePS卷积神经网络后的增强对数幅度谱,XLPS(f,k)为纯净语音的对数幅度谱,/>X(f,k)分别为对数幅度谱/>XLPS(f,k)对应的频谱,/>表示在t帧内进行平均处理,(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值,λ为调节参数。
本发明的一种基于FirePS卷积神经网络的语音增强方法,具有以下优点:本发明提取含噪语音信号的对数幅度谱图,为输入特征,利用合适的损失函数,对FirePS卷积神经网络进行训练,得到基于频谱映射的卷积神经网络语音增强算法。利用该网络对含噪测试语音进行增强,在不同声学环境下的实验结果表明,本发明提出的基于FirePS卷积网络的语音增强方法,在低信噪比下显著提升了分离效果,具有很好的鲁棒性。
附图说明
图1为本发明语音增强系统流程图;
图2为本发明卷积神经网络的整体结构图;
图3为本发明神经网络中Fire模块的结构图;
图4为本发明神经网络中空洞卷积模块的结构图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于FirePS卷积神经网络的语音增强方法做进一步详细的描述。
如图1所示,本实施例提供的基于FirePS卷积网络的语音增强方法包括以下步骤:
步骤一、将待训练的单通道语音与各种加性噪声按不同信噪比混合。本发明全部使用开源的语音数据库训练网络。其中,纯净语音来源于TIMIT(TheDARPATIMIT Acoustic-PhoneticContinuousSpeechCorpus),是由德州仪器、麻省理工学院和SRI International合作构建的音素连续语音语料库,噪声信号来自于NOISEX-92噪声集,由英国感知技术研究院的语音研究部门测量得到。
步骤二、对步骤一得到的含噪语音与对应的纯净语音进行分帧、加窗、短时傅里叶变换和对数运算,得到含噪语音与纯净语音对应的对数幅度谱。其中,在语音采样频率为16kHz,帧长为16ms,帧移为8ms,FFT点数为512(与帧长有相同的样本点)窗函数选用汉明窗,为
分帧、加窗操作,用公式表达为
x(k,n)=x(n-kL)wH(n)
y(k,n)=y(n-kL)wH(n)
其中,x(n)、y(n)分别表示纯净、含噪语音,wH(n)为窗长为N的汉明窗(这里N取512),L是帧移的样本点数(这里为256);x(k,n)、y(k,n)是经分帧、加窗操作后的第k帧纯净语音、含噪语音。
短时傅里叶变换为:
其中,X(f,k)、Y(f,k)分别为第k帧纯净语音、含噪语音的频谱,f表示频点。
对数幅度谱定义为幅度谱的对数值:
XLPS(f,k)=10log10[|X(f,k)|2]
YLPS(f,k)=10log10[|Y(f,k)|2]
其中YLPS(f,k)、XLPS(f,k)分别表示含噪语音、纯净语音的对数幅度谱。
将含噪语音、纯净语音的对数幅度谱按照帧顺序、频点顺序进行排列,分别分割成若干段有固定帧长的对数幅度谱矩阵,即为对应的对数幅度谱图,本发明中,将含噪语音、纯净语音的对数幅度谱分别分割为256*256大小的矩阵,其维度分别表示时间帧和频点,得到的即为对数幅度谱图。
由于人耳对语音信号的短时相位变化并不敏感,因此这里只取幅度。又由于人耳对语音信号的幅度感知呈对数变化,因此采用对数幅度谱。
步骤三、将步骤二得到的含噪语音对数幅度谱图作为FirePS卷积神经网络的输入特征,纯净语音的对数幅度谱图作为训练目标。
本发明提出的FirePS卷积网络的结构如图2所示。实际上,本发明提出的FirePS卷积神经网络的结构不限制于此实施例的网络结构,细微之处的改动也属于FirePS卷积神经网络的覆盖范围。
FirePS卷积神经网络的骨干使用了类似于U-net的编码器-解码器结构。
编码器首先将输入特征送入若干个实现下采样编码的Fire块,如图3所示。Fire块通过大于1的卷积步长、以2为倍数增长的输出通道数,实现2倍下采样,降低特征图的尺寸、增加特征图的通道。每个Fire块由一个卷积核为1*1尺寸的压缩卷积层和两个并联的卷积核尺寸分别为1*1和3*3的膨胀卷积层串联而成。其中压缩层采用1*1卷积调整特征图数目,扩展层采用两种不同大小的卷积核实现对特征的感知。同时Fire块使用两种卷积核进行通道扩充,可以保证特征图的数量足够多,相比只使用大卷积核又能节约相当一部分参数空间。每次卷积操作后接ReLU函数作为激活函数。Fire块使用卷积核尺寸为1*1的squeeze层压缩通道数、降低参数量,又使用两路expand层还原通道数,两路expand层不同的卷积核尺寸有利于捕捉不同尺度上的特征。
编码器的深度(即Fire块的个数)与下文解码器的深度(即像素重排块的个数)相同,随模型大小不同,可设置为3、4、5等等。
空洞卷积块由空洞卷积层串联而成,其结构如图4所示。由于相同的膨胀率会导致棋盘效应,故使用由三个卷积核尺寸相同、膨胀率分别为1、2、3的卷积层串联。
解码器由若干上采样倍数r=2的像素重排(PixelShuffle)块串联组成,同时对应的上/下采样层间使用残差连接。像素重排PS通过多通道间的重组,将每个像素点位置上的r个通道上的r个像素,重排成一个通道上的一个r×r的像素块,r为PS块的上采样倍数。从而将低分辨率、高通道数的特征图,映射为高分辨率、低通道数的特征图;
损失函数为对数平方损失和能量误差的线性组合,其公式为
loss=losslog-MSE+λlossenergy,
其中,loss表示FirePS卷积神经网络的损失函数,由两部分组成,分别为对数幅度谱的均方误差losslog-MSE和幅度谱的能量误差平均值lossenergy。为含噪语音经过FirePS卷积神经网络后的增强对数幅度谱,XLPS(f,k)为纯净语音的对数幅度谱,/>X(f,k)分别为对数幅度谱/>XLPS(f,k)对应的频谱,/>表示在t帧内进行平均处理,(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值,λ为调节参数。
步骤四、在测试阶段,对于测试的含噪语音,按照步骤二的方法,经过分帧、加窗、短时傅里叶变换和对数运算,得到测试含噪语音的对数幅度谱图和相位谱图。
步骤五、将步骤四的测试含噪语音对数幅度谱作为步骤三训练得到的FirePS卷积神经网络的输入特征,映射得到增强后的语音对数幅度谱图,转换为幅度谱图,根据步骤四短时傅里叶变换的相位谱,得到增强语音的频谱,经过短时傅里叶逆变换,再通过重叠相加法变换为时域波形。
这一步的公式如下:
其中,ISTFT表示短时傅里叶逆变换,为经过FirePS卷积神经网络得到的第k帧增强语音的频谱,f表示频点,L为帧移样本点数,w(m)为窗函数,/>为重建语音。
使用各种评判语音质量、可懂度的客观评价指标来评价增强语音的效果,本发明使用了PESQ评价语音质量,STOI评价语音可懂度。
对以上方法进行仿真验证,最终的性能评估如下:
(1)在匹配声学条件下的指标
使用信噪比为-5、0、5、10dB,噪声为babble、pink、white、factory的噪声条件生成训练集,而测试数据使用同样的声学指标。与全连接神经网络(DNN)、空洞卷积神经网络(HDCN)作对比,使用PESQ和STOI指标评估质量。
其中,语音质量感知评价(Perceptualevaluationofspeechquality,PESQ)得分基于ITU-TP.862标准,是一种客观语音质量评估方法,使用原始信号作为参考,衡量劣化信号的好坏,返回区间为-0.5~4.5的得分。短时客观可懂度(ShortTimeObjectiveIntelligibilty,STOI)得分是衡量人类的听觉感知系统对语音可懂度的客观评价方法,得分介于0~1之间,使用原始信号作为参考,衡量劣化信号的可懂度。
表一 在匹配声学条件下的PESQ指标
SNR | noisy | DNN | HDCN | FirePS |
-5dB | 1.026 | 1.246 | 1.382 | 1.610 |
0dB | 1.347 | 1.548 | 1.851 | 1.990 |
5dB | 1.706 | 1.897 | 2.287 | 2.358 |
10dB | 2.087 | 2.172 | 2.660 | 2.696 |
表二 在匹配声学条件下的STOI指标
SNR | noisy | DNN | HDCN | FirePS |
-5dB | 53.2 | 48.4 | 60.5 | 62.8 |
0dB | 66.1 | 59.3 | 73.0 | 75.2 |
5dB | 78.6 | 65.5 | 82.5 | 83.9 |
10dB | 88.2 | 66.1 | 88.3 | 89.7 |
(2)在非匹配声学条件下的指标
使用信噪比为-5、0、5、10dB,噪声为babble、pink、white、factory的噪声条件生成训练集,而测试数据使用信噪比为-7.5、-2.5、2.5、7.5、12.5dB,噪声为f16、hfchannel、machinegun的噪声条件。与全连接神经网络(DNN)、空洞卷积神经网络(HDCN)作对比,PESQ和STOI的指标如下表所示。
表三 在非匹配声学条件下的PESQ指标
SNR | noisy | DNN | HDCN | FirePS |
-7.5dB | 1.136 | 1.168 | 1.192 | 1.485 |
-2.5dB | 1.418 | 1.452 | 1.588 | 1.754 |
2.5dB | 1.771 | 1.820 | 2.017 | 2.067 |
7.5dB | 2.135 | 2.202 | 2.403 | 2.449 |
12.5dB | 2.490 | 2.574 | 2.737 | 2.811 |
表四 在非匹配声学条件下的STOI指标
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (5)
1.一种基于FirePS卷积神经网络的语音增强方法,其特征在于,所述FirePS卷积神经网络的结构由实现下采样编码的Fire块、提取特征的空洞卷积网络块、实现上采样的像素重排块组成,同时在对应的下采样编码的Fire块和实现上采样的像素重排块之间使用残差连接;
FirePS卷积神经网络的骨干使用了编码器-解码器结构;编码器首先将输入特征送入若干个实现下采样编码的Fire块;解码器由若干上采样倍数r=2的像素重排块串联组成;
所述语音增强方法包括以下步骤:
步骤1、将待训练的单通道语音信号与各种加性噪声按不同信噪比混合,得到含噪语音,并与纯净语音一起构成训练数据集;
步骤2、将步骤1得到的训练数据集中的含噪语音和纯净语音,分别通过分帧、加窗、短时傅里叶变换和对数运算,得到含噪语音、纯净语音对应的对数幅度谱图;
步骤3、将步骤2的含噪语音、纯净语音的对数幅度谱图,分别作为FirePS卷积神经网络的输入特征和标签,基于前向传播和反向传播算法,训练FirePS卷积神经网络;
步骤4、将待测试的单通道信号与各种加性噪声按不同信噪比混合,得到测试数据集,并通过分帧、加窗、短时傅里叶变换和对数运算,得到测试语音的对数幅度谱图和相位谱图;
步骤5、取步骤4得到测试语音对数幅度谱图,作为FirePS卷积神经网络的输入特征,映射得到增强后语音的对数幅度谱图,转换为幅度谱,根据步骤4得到测试信号的相位谱图,得到增强后语音信号的频谱,通过短时傅里叶逆变换和重叠相法得到时域波形,实现语音增强。
2.根据权利要求1所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用Fire块实现下采样编码,Fire块由一个卷积核为1*1尺寸的压缩卷积层、两个并联的卷积核尺寸分别为1*1和3*3的膨胀卷积层串联而成。
3.根据权利要求2所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用的混合空洞卷积块由三个卷积核尺寸相同、膨胀率分别为1、2、3的卷积层串联而成,并采用ReLU激活函数。
4.根据权利要求3所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用像素重排PS块实现上采样;像素重排PS块通过多通道间的重组,将每个像素点位置上的r个通道上的r个像素,重排成一个通道上的一个r×r的像素块,r为像素重排PS块的上采样倍数,从而将低分辨率、高通道数的特征图,映射为高分辨率、低通道数的特征图。
5.根据权利要求4所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用了对数平方损失和能量误差平均值线性组合的损失函数,其公式为:
loss=losslog-MSE+λlossenergy,
其中,loss表示FirePS卷积神经网络的损失函数,由两部分组成,分别为对数幅度谱的均方误差losslog-MSE和幅度谱的能量误差平均值lossenergy;为含噪语音经过FirePS卷积神经网络后的增强对数幅度谱,XLPS(f,k)为纯净语音的对数幅度谱,/>X(f,k)分别为对数幅度谱/>XLPS(f,k)对应的频谱,/>表示在t帧内进行平均处理,(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值,λ为调节参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211155820.9A CN115497496B (zh) | 2022-09-22 | 2022-09-22 | 一种基于FirePS卷积神经网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211155820.9A CN115497496B (zh) | 2022-09-22 | 2022-09-22 | 一种基于FirePS卷积神经网络的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115497496A CN115497496A (zh) | 2022-12-20 |
CN115497496B true CN115497496B (zh) | 2023-11-14 |
Family
ID=84471088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211155820.9A Active CN115497496B (zh) | 2022-09-22 | 2022-09-22 | 一种基于FirePS卷积神经网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497496B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115622626B (zh) * | 2022-12-20 | 2023-03-21 | 山东省科学院激光研究所 | 一种分布式声波传感语音信息识别系统及方法 |
CN116665693B (zh) * | 2023-07-28 | 2023-10-03 | 合肥朗永智能科技有限公司 | 一种基于人工智能的语音增强方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1640972A1 (en) * | 2005-12-23 | 2006-03-29 | Phonak AG | System and method for separation of a users voice from ambient sound |
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
CN112599145A (zh) * | 2020-12-07 | 2021-04-02 | 天津大学 | 基于生成对抗网络的骨传导语音增强方法 |
CN113707164A (zh) * | 2021-09-02 | 2021-11-26 | 哈尔滨理工大学 | 一种改进多分辨率残差u型网络的语音增强方法 |
CN113936681A (zh) * | 2021-10-13 | 2022-01-14 | 东南大学 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090287324A1 (en) * | 2008-05-13 | 2009-11-19 | Creative Technology Ltd | Portable audio enhancement and media player device |
US20180082679A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US11244696B2 (en) * | 2019-11-06 | 2022-02-08 | Microsoft Technology Licensing, Llc | Audio-visual speech enhancement |
ES2928295T3 (es) * | 2020-02-14 | 2022-11-16 | System One Noc & Dev Solutions S A | Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales |
-
2022
- 2022-09-22 CN CN202211155820.9A patent/CN115497496B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1640972A1 (en) * | 2005-12-23 | 2006-03-29 | Phonak AG | System and method for separation of a users voice from ambient sound |
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
CN112599145A (zh) * | 2020-12-07 | 2021-04-02 | 天津大学 | 基于生成对抗网络的骨传导语音增强方法 |
CN113707164A (zh) * | 2021-09-02 | 2021-11-26 | 哈尔滨理工大学 | 一种改进多分辨率残差u型网络的语音增强方法 |
CN113936681A (zh) * | 2021-10-13 | 2022-01-14 | 东南大学 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
Non-Patent Citations (3)
Title |
---|
An Intelligent Low-Complexity Computing Interleaving Wavelet Scattering Based Mobile Shuffling Network for Acoustic Scene Classification;XING YONG KEK 等;《IEEE Access》;第1-10页 * |
基于深度图的移动端点云分割方法研究;余方洁;中国优秀硕士学位论文全文数据库;39-40页 * |
基于稀疏性的相位谱补偿语音增强算法;张天骐 等;信号处理;第1867-1870页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115497496A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115497496B (zh) | 一种基于FirePS卷积神经网络的语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN1121681C (zh) | 语言处理 | |
Kong et al. | Speech denoising in the waveform domain with self-attention | |
CN110456332B (zh) | 一种基于自动编码器的水声信号增强方法 | |
CN109215674A (zh) | 实时语音增强方法 | |
CN112802491B (zh) | 一种基于时频域生成对抗网络的语音增强方法 | |
Habets | Multi-channel speech dereverberation based on a statistical model of late reverberation | |
CN112509593B (zh) | 一种语音增强网络模型、单通道的语音增强方法及系统 | |
CN110246510A (zh) | 一种基于RefineNet的端到端语音增强方法 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN115700882A (zh) | 一种基于卷积自注意力编码结构的语音增强方法 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
CN113160839B (zh) | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 | |
CN114255780B (zh) | 一种基于深度神经网络的噪声鲁棒盲混响时间估计方法 | |
CN115980668A (zh) | 一种基于宽度神经网络的广义互相关的声源定位方法 | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 | |
CN115966218A (zh) | 一种骨导辅助的气导语音处理方法、装置、介质及设备 | |
CN107393553A (zh) | 用于语音活动检测的听觉特征提取方法 | |
Picovici et al. | New output-based perceptual measure for predicting subjective quality of speech | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |