CN109671446A - 一种基于绝对听觉阈值的深度学习语音增强方法 - Google Patents
一种基于绝对听觉阈值的深度学习语音增强方法 Download PDFInfo
- Publication number
- CN109671446A CN109671446A CN201910126915.XA CN201910126915A CN109671446A CN 109671446 A CN109671446 A CN 109671446A CN 201910126915 A CN201910126915 A CN 201910126915A CN 109671446 A CN109671446 A CN 109671446A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- speech
- network model
- characteristic voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 230000002708 enhancing effect Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 15
- 239000004568 cement Substances 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 20
- 230000008447 perception Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013441 quality evaluation Methods 0.000 claims description 3
- 230000035800 maturation Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于绝对听觉阈值的深度学习语音增强方法,包括以下步骤:S1.对输入的时域音频信号进行预处理,得到频域语音信号;S2.对频域语音信号进行声学特征处理,得到特征语音信号;S3.基于深度神经网络,构建特征语音增强网络模型;S4.对特征语音增强网络模型进行离线训练,得到成熟的特征语音增强网络模型;S5.利用成熟的特征语音增强网络模型进行在线语音增强。本发明利用绝对听觉阈值对语音信号进行声学特征处理,突出语音信号特征,在不损失输出音频的可懂度和清晰度的情况下,降低网络输入语音信号的数据量,减少网络输入参数,提高网络训练速率。
Description
技术领域
本发明涉及通信系统中语音信号的增强技术,特别是涉及一种基于绝对听觉阈值的深度学习语音增强方法。
背景技术
语音信号的增强技术一直是语音领域的热门研究点。目前应用较为广泛的传统语音增强方法有谱减法,维纳滤波法,基于统计模型的方法和子空间法等,这些方法均属于无监督语音增强方法。然而,只有在噪声是慢变或短时平稳的情况下,无监督语音增强方法才能获得较好的性能。近年来,有监督语音增强方法得到蓬勃发展,随着深度学习(DeepLearning,DL)概念的提出以及其在语音增强性能提升方面的成功应用,使得属于有监督语音增强方法的基于深度神经网络(Deep Neural Network,DNN)的语音增强方法的得到广泛关注。
深度神经网络的网络结构主要分为输入层,隐藏层,输出层。基于深度神经网络的语音增强方法通常是将带噪语音信号作为输入层数据,纯净语音信号作为输出目标数据,以此训练网络模型。然而,根据人耳的听觉特性,语音信号中的部分信号是不能被人耳所感知的。将带噪语音信号数据和纯净语音信号数据直接代入深度神经网络训练,网络同样会对那部分人耳未能感知的信号数据进行训练,这部分冗余数据将造成训练网络的负担,降低网络训练速率以及影响网络输出音频的可懂度和清晰度。因此,通过绝对听觉阈值对语音信号进行特征处理,去除人耳不能感知的冗余信号,将处理后的信号作为网络训练数据,并不会损失输出音频的可懂度和清晰度,且提升网络对目标信号的收敛以及训练速率。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于绝对听觉阈值的深度学习语音增强方法,利用绝对听觉阈值对语音信号进行声学特征处理,突出语音信号特征,在不损失输出音频的可懂度和清晰度的情况下,降低网络输入语音信号的数据量,减少网络输入参数,提高网络训练速率。
本发明的目的是通过以下技术方案来实现的:一种基于绝对听觉阈值的深度学习语音增强方法,包括以下步骤:
S1.对输入的时域音频信号进行预处理,得到频域语音信号;
S2.对频域语音信号进行声学特征处理,得到特征语音信号;
S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;
S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;
S5.利用成熟的特征语音增强网络模型进行在线语音增强。
进一步地,步骤S1中所述的时域音频信号包括带噪语音信号和纯净语音信号,其中带噪语音信号由纯净语音信号和噪声信号混合而成。所述的纯净语音信号和噪声信号来自TIMIT语料库、中国科学院自动化语音库以及采集的语音构成的语音库,达到更能泛化的目的。
进一步地,所述步骤S1包括以下子步骤:
S101.对输入的时域音频信号进行分帧处理,得到长度为N的语音帧信号y(t):
y(t)=[y(t1),y(t2),...,y(tN)];
其中,ti表示时间,y(ti)表示语音帧信号y(t)中时间ti所对应时域信号,i=1,2,...,N;
S102.对语音帧信号y(t)进行DCT变换,使语音帧信号y(t)从时域变换到频域,得到长度为N的频域语音信号Y(f):
Y(f)=[Y(f1),Y(f2),...,Y(fN)];
其中,Y(fi)表示由时域信号y(ti)变换得到的频域信号,fi表示频域信号Y(fi)的频率,i=1,2,...,N。
进一步地,所述步骤S2包括以下子步骤:
S201.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其声压级SPL(fi):
SPL(fi)=PN+10*log10Y2(fi),i=1,2,...,N
其中PN=90.306;SPL(fi)与PN的单位均为dB;
S202.重复步骤S201,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的声压级SPL(f1),SPL(f2),...,SPL(fN),即频域语音信号Y(f)的声压级SPL(f)为:
SPL(f)=[SPL(f1),SPL(f2),...,SPL(fN)];
S203.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其绝对听觉阈值ATH(fi):
其中,ATH(fi)的单位为dB,i=1,2,...,N;
S204.重复步骤S203,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的绝对听觉阈值ATH(f1),ATH(f2),...,ATH(fN),即频域语音信号Y(f)的绝对听觉阈值ATH(f)为:
ATH(f)=[ATH(f1),ATH(f2),...,ATH(fN)];
S205.在频域语音信号Y(f)=[Y(f1),Y(f2),...,Y(fN)]中,将频率fi的声压级SPL(fi)与绝对听觉阈值ATH(fi)进行比较,如果SPL(fi)低于ATH(fi),则将频率fi所对应的频域信号Y(fi)置为0,得到长度为N稀疏度为的特征语音信号其中其中稀疏度是指信号中非零元素的个数。
进一步地,所述特征语音增强网络模型FaeNet的输入为:带噪语音信号经步骤S1和S2处理后得到的带噪特征语音信号特征语音增强网络模型FaeNet的增强目标为:纯净语音信号经步骤S1和S2处理后得到纯净特征语音信号
进一步地,所述特征语音增强网络模型FaeNet包括一个输入层、L个隐藏层和一个输出层;其中L≥2;输入层节点数为N,隐藏层节点数为Nl,l=1,2,…,L;输出层节点数为N;所述特征语音增强网络模型FaeNet的激活函数采用sigmoid函数、tanh函数、ReLU函数、ELU函数或PReLU函数;所述特征语音增强网络模型FaeNet的损失函数采用均方误差(MeanSquare Erro,MSE)、短时可懂度(Short Time Objective Intelligibility,STOI)和主观语音质量评分(Perceptual Evaluation of Speech Quality,PESQ)。
进一步地,所述步骤S4包括以下子步骤:
S401.将带噪特征语音信号作为特征语音增强网络模型FaeNet的输入,得到特征语音增强网络模型FaeNet的输出的估计值将纯净特征语音信号作为特征语音增强网络模型FaeNet的增强目标;
S402.根据均方误差、短时可懂度分值和主观语音质量评分三种损失函数对特征语音增强网络模型FaeNet的参数进行调整;具体地,所述步骤S402包括:
计算均方误差,调整网络参数,使获得的均方误差最小;其中,均方误差是指输出信号与目标信号差的平方的期望;
将输出音频以目标音频为标准进行打分,得到短时可懂度分值,调整网络参数,使获得的分值趋近于1分,其中,短时可懂度是指语音的可懂度,即语音内容是否可以被人听懂,短时可懂度分值的最高分值为1分,最低分值为0分;
将输出音频以目标音频为标准进行主观语音质量评价,得到主观语音质量评分,调整网络参数,使获得的主观语音质量评分趋近于4.5分,其中,主观语音质量评分是指语音的质量,反映语音感知的清晰度,主观语音质量评分的最高分值为4.5分,最低分值为-0.5分。
S403.获取不同的带噪语音信号和对应的纯净语音信号,按照步骤S1~S2进行处理,得到对应的带噪特征语音信号和纯净特征语音信号,并利用得到的信号再次进行步骤S401~S402;
S404.反复执行步骤S403以实现对特征语音增强网络模型FaeNet的训练;直到估计值收敛至纯净特征语音信号
S405.记录此时特征语音增强网络模型FaeNet的参数,将该参数对应的模型作为成熟的特征语音增强网络模型。
进一步地,所述步骤S5包括:
将待增强的时域音频信号按照步骤S1~S2进行处理后,输入成熟的特征语音增强网络模型,模型输出的语音信号即为增强后的语音信号。
本发明的有益效果是:本发明利用绝对听觉阈值对语音信号进行声学特征处理,突出语音信号特征,在不损失输出音频的可懂度和清晰度的情况下,降低网络输入语音信号的数据量,减少网络输入参数,提高网络训练速率;并在语音可懂度和清晰度相当的情况下,降低网络复杂度。
附图说明
图1为本发明的方法流程图;
图2为实施例中FaeNet模型的训练原理示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于绝对听觉阈值的深度学习语音增强方法,包括以下步骤:
S1.对输入的时域音频信号进行预处理,得到频域语音信号;
其中,所述的时域音频信号包括带噪语音信号和纯净语音信号,其中带噪语音信号由纯净语音信号和噪声信号混合而成。所述的纯净语音信号和噪声信号来自TIMIT语料库、中国科学院自动化语音库以及采集的语音构成的语音库,达到更能泛化的目的。
具体地,在本申请的实施例中,所述步骤S1包括以下子步骤:
S101.对输入的时域音频信号进行分帧处理,得到长度为N的语音帧信号y(t):
y(t)=[y(t1),y(t2),...,y(tN)];
其中,ti表示时间,y(ti)表示语音帧信号y(t)中时间ti所对应时域信号,i=1,2,...,N;
S102.对语音帧信号y(t)进行DCT变换,使语音帧信号y(t)从时域变换到频域,得到长度为N的频域语音信号Y(f):
Y(f)=[Y(f1),Y(f2),...,Y(fN)];
其中,Y(fi)表示由时域信号y(ti)变换得到的频域信号,fi表示频域信号Y(fi)的频率,i=1,2,...,N。
S2.对频域语音信号进行声学特征处理,得到特征语音信号;具体地,在本申请的实施例中所述步骤S2包括以下子步骤:
S201.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其声压级SPL(fi):
SPL(fi)=PN+10*log10Y2(fi),i=1,2,...,N
其中PN=90.306;SPL(fi)与PN的单位均为dB;
S202.重复步骤S201,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的声压级SPL(f1),SPL(f2),...,SPL(fN),即频域语音信号Y(f)的声压级SPL(f)为:
SPL(f)=[SPL(f1),SPL(f2),...,SPL(fN)];
S203.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其绝对听觉阈值ATH(fi):
其中,ATH(fi)的单位为dB,i=1,2,...,N;
S204.重复步骤S203,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的绝对听觉阈值ATH(f1),ATH(f2),...,ATH(fN),即频域语音信号Y(f)的绝对听觉阈值ATH(f)为:
ATH(f)=[ATH(f1),ATH(f2),...,ATH(fN)];
S205.在频域语音信号Y(f)=[Y(f1),Y(f2),...,Y(fN)]中,将频率fi的声压级SPL(fi)与绝对听觉阈值ATH(fi)进行比较,如果SPL(fi)低于ATH(fi),则将频率fi所对应的频域信号Y(fi)置为0,得到长度为N稀疏度为的特征语音信号其中其中稀疏度是指信号中非零元素的个数。
在本申请的实施例中,设:
f=[1625,1640.625,1656.25,1671.875,1687.5,1703.125,1718.75,1734.375,1750,1765.625],Y(f)=10-4×[0.4760,0.6418,0.3037,-0.1495,-0.4086,0.5358,-0.4934,0.4026,0.2771,0.2385],
可得:
SPL(f)=[3.8581,6.4540,-0.0451,-6.2012,2.5320,4.8861,4.1700,2.4035,-0.8413,-2.1442]
在此基础上,
ATH(f)=[1.2680,1.2112,1.1537,1.0958,1.0374,0.9784,0.9188,0.8587,0.7980,0.7367];
在fi=1656.25,1671.875,1750,1765.625处,SPL(fi)<ATH(fi),故将这些fi所对应的频域信号Y(fi)置为0,即得到特征语音信号:
S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;模型的输入为带噪语音信号经步骤S1和S2处理后得到的带噪特征语音信号模型的增强目标为纯净语音信号经步骤S1和S2处理后得到纯净特征语音信号
在本申请的实施例中,所述特征语音增强网络模型FaeNet包括一个输入层、L个隐藏层和一个输出层;其中L≥2;输入层节点数为N,隐藏层节点数为Nl,l=1,2,…,L;输出层节点数为N;所述特征语音增强网络模型FaeNet的激活函数采用sigmoid函数、tanh函数、ReLU函数、ELU函数或PReLU函数;所述特征语音增强网络模型FaeNet的损失函数采用均方误差(Mean Square Erro,MSE)、短时可懂度(Short Time Objective Intelligibility,STOI)和主观语音质量评分(Perceptual Evaluation of Speech Quality,PESQ)。
S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;具体地,在本申请的实施例中,所述步骤S4包括:
S401.如图2所示,将带噪特征语音信号作为特征语音增强网络模型FaeNet的输入,得到特征语音增强网络模型FaeNet的输出的估计值将纯净特征语音信号作为特征语音增强网络模型FaeNet的增强目标;
S402.根据均方误差、短时可懂度分值和主观语音质量评分三种损失函数对特征语音增强网络模型FaeNet的参数进行调整;该实施例中,所述步骤S402包括:
计算均方误差,调整网络参数,使获得的均方误差最小;其中,均方误差是指输出信号与目标信号差的平方的期望;
将输出音频以目标音频为标准进行打分,得到短时可懂度分值,调整网络参数,使获得的分值趋近于1分,其中,短时可懂度是指语音的可懂度,即语音内容是否可以被人听懂,短时可懂度分值的最高分值为1分,最低分值为0分;
将输出音频以目标音频为标准进行主观语音质量评价,得到主观语音质量评分,调整网络参数,使获得的主观语音质量评分趋近于4.5分,其中,主观语音质量评分是指语音的质量,反映语音感知的清晰度,主观语音质量评分的最高分值为4.5分,最低分值为-0.5分。
S403.获取不同的带噪语音信号和对应的纯净语音信号,按照步骤S1~S2进行处理,得到对应的带噪特征语音信号和纯净特征语音信号,并利用得到的信号再次进行步骤S401~S402;
S404.反复执行步骤S403以实现对特征语音增强网络模型FaeNet的训练;直到估计值收敛至纯净特征语音信号
S405.记录此时特征语音增强网络模型FaeNet的参数,将该参数对应的模型作为成熟的特征语音增强网络模型。
S5.利用成熟的特征语音增强网络模型进行在线语音增强。具体地,所述步骤S5包括:
将待增强的时域音频信号按照步骤S1~S2进行处理后,输入成熟的特征语音增强网络模型,模型输出的语音信号即为增强后的语音信号。
与直接将带噪语音作为输入进行训练的语音增强网络进行对比,本发明方案对网络输入语音信号进行声学特征处理,突出语音信号特征,降低网络输入语音信号的数据量,可有效提高深度神经网络的训练速度,改善增强语音的可懂度和清晰度;并在语音可懂度和清晰度相当的情况下,降低网络复杂度。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (9)
1.一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:包括以下步骤:
S1.对输入的时域音频信号进行预处理,得到频域语音信号;
S2.对频域语音信号进行声学特征处理,得到特征语音信号;
S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;
S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;
S5.利用成熟的特征语音增强网络模型进行在线语音增强。
2.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S1包括以下子步骤:
S101.对输入的时域音频信号进行分帧处理,得到长度为N的语音帧信号y(t):
y(t)=[y(t1),y(t2),...,y(tN)];
其中,ti表示时间,y(ti)表示语音帧信号y(t)中时间ti所对应时域信号,i=1,2,...,N;
S102.对语音帧信号y(t)进行DCT变换,使语音帧信号y(t)从时域变换到频域,得到长度为N的频域语音信号Y(f):
Y(f)=[Y(f1),Y(f2),...,Y(fN)];
其中,Y(fi)表示由时域信号y(ti)变换得到的频域信号,fi表示频域信号Y(fi)的频率,i=1,2,...,N。
3.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S2包括以下子步骤:
S201.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其声压级SPL(fi):
SPL(fi)=PN+10*log10Y2(fi),i=1,2,...,N
其中PN=90.306;SPL(fi)与PN的单位均为dB;
S202.重复步骤S201,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的声压级SPL(f1),SPL(f2),...,SPL(fN),即频域语音信号Y(f)的声压级SPL(f)为:
SPL(f)=[SPL(f1),SPL(f2),...,SPL(fN)];
S203.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其绝对听觉阈值ATH(fi):
其中,ATH(fi)的单位为dB,i=1,2,...,N;
S204.重复步骤S203,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的绝对听觉阈值ATH(f1),ATH(f2),...,ATH(fN),即频域语音信号Y(f)的绝对听觉阈值ATH(f)为:
ATH(f)=[ATH(f1),ATH(f2),...,ATH(fN)];
S205.在频域语音信号Y(f)=[Y(f1),Y(f2),...,Y(fN)]中,将频率fi的声压级SPL(fi)与绝对听觉阈值ATH(fi)进行比较,如果SPL(fi)低于ATH(fi),则将频率fi所对应的频域信号Y(fi)置为0,得到长度为N稀疏度为的特征语音信号其中其中稀疏度是指信号中非零元素的个数。
4.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:步骤S1中所述的时域音频信号包括带噪语音信号和纯净语音信号,其中带噪语音信号由纯净语音信号和噪声信号混合而成。
5.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述特征语音增强网络模型FaeNet的输入为:带噪语音信号经步骤S1和S2处理后得到的带噪特征语音信号特征语音增强网络模型FaeNet的增强目标为:纯净语音信号经步骤S1和S2处理后得到纯净特征语音信号
6.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述特征语音增强网络模型FaeNet包括一个输入层、L个隐藏层和一个输出层;其中L≥2;输入层节点数为N,隐藏层节点数为Nl,l=1,2,…,L;输出层节点数为N;所述特征语音增强网络模型FaeNet的激活函数采用sigmoid函数、tanh函数、ReLU函数、ELU函数或PReLU函数;所述特征语音增强网络模型FaeNet的损失函数采用均方误差、短时可懂度和主观语音质量评分。
7.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S4包括以下子步骤:
S401.将带噪特征语音信号作为特征语音增强网络模型FaeNet的输入,得到特征语音增强网络模型FaeNet的输出的估计值将纯净特征语音信号作为特征语音增强网络模型FaeNet的增强目标;
S402.根据均方误差、短时可懂度分值和主观语音质量评分三种损失函数对特征语音增强网络模型FaeNet的参数进行调整;
S403.获取不同的带噪语音信号和对应的纯净语音信号,按照步骤S1~S2进行处理,得到对应的带噪特征语音信号和纯净特征语音信号,并利用得到的信号再次进行步骤S401~S402;
S404.反复执行步骤S403以实现对特征语音增强网络模型FaeNet的训练;直到估计值收敛至纯净特征语音信号
S405.记录此时特征语音增强网络模型FaeNet的参数,将该参数对应的模型作为成熟的特征语音增强网络模型。
8.根据权利要求7所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S402包括:
计算均方误差,调整网络参数,使获得的均方误差最小;其中,均方误差是指输出信号与目标信号差的平方的期望;
将输出音频以目标音频为标准进行打分,得到短时可懂度分值,调整网络参数,使获得的分值趋近于1分,其中,短时可懂度是指语音的可懂度,即语音内容是否可以被人听懂,短时可懂度分值的最高分值为1分,最低分值为0分;
将输出音频以目标音频为标准进行主观语音质量评价,得到主观语音质量评分,调整网络参数,使获得的主观语音质量评分趋近于4.5分,其中,主观语音质量评分是指语音的质量,反映语音感知的清晰度,主观语音质量评分的最高分值为4.5分,最低分值为-0.5分。
9.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S5包括:
将待增强的时域音频信号按照步骤S1~S2进行处理后,输入成熟的特征语音增强网络模型,模型输出的语音信号即为增强后的语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910126915.XA CN109671446B (zh) | 2019-02-20 | 2019-02-20 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910126915.XA CN109671446B (zh) | 2019-02-20 | 2019-02-20 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109671446A true CN109671446A (zh) | 2019-04-23 |
CN109671446B CN109671446B (zh) | 2020-07-14 |
Family
ID=66152045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910126915.XA Active CN109671446B (zh) | 2019-02-20 | 2019-02-20 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109671446B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415687A (zh) * | 2019-05-21 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
CN112201265A (zh) * | 2020-12-07 | 2021-01-08 | 成都启英泰伦科技有限公司 | 一种基于心理声学模型的lstm语音增强方法 |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN114974299A (zh) * | 2022-08-01 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、设备、介质 |
CN115460515A (zh) * | 2022-08-01 | 2022-12-09 | 雷欧尼斯(北京)信息技术有限公司 | 一种沉浸式音频生成方法及系统 |
WO2023088083A1 (zh) * | 2021-11-18 | 2023-05-25 | 上海又为智能科技有限公司 | 语音增强方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090312819A1 (en) * | 2005-06-29 | 2009-12-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angwandten Forschung E.V. | Device, method and computer program for analyzing an audio signal |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN108766454A (zh) * | 2018-06-28 | 2018-11-06 | 浙江飞歌电子科技有限公司 | 一种语音噪声抑制方法及装置 |
US10147439B1 (en) * | 2017-03-30 | 2018-12-04 | Amazon Technologies, Inc. | Volume adjustment for listening environment |
-
2019
- 2019-02-20 CN CN201910126915.XA patent/CN109671446B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090312819A1 (en) * | 2005-06-29 | 2009-12-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angwandten Forschung E.V. | Device, method and computer program for analyzing an audio signal |
US10147439B1 (en) * | 2017-03-30 | 2018-12-04 | Amazon Technologies, Inc. | Volume adjustment for listening environment |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN108766454A (zh) * | 2018-06-28 | 2018-11-06 | 浙江飞歌电子科技有限公司 | 一种语音噪声抑制方法及装置 |
Non-Patent Citations (2)
Title |
---|
ANURAG KUNAR等: "Speech Enhancement In Multiple-Noise Conditions using Deep Neural Networks", 《ARXIV》 * |
强策等: "绝对听阈下的语音信号压缩感知", 《山东理工大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415687A (zh) * | 2019-05-21 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
CN110415687B (zh) * | 2019-05-21 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
CN112201265A (zh) * | 2020-12-07 | 2021-01-08 | 成都启英泰伦科技有限公司 | 一种基于心理声学模型的lstm语音增强方法 |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
WO2023088083A1 (zh) * | 2021-11-18 | 2023-05-25 | 上海又为智能科技有限公司 | 语音增强方法和装置 |
CN114974299A (zh) * | 2022-08-01 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、设备、介质 |
CN115460515A (zh) * | 2022-08-01 | 2022-12-09 | 雷欧尼斯(北京)信息技术有限公司 | 一种沉浸式音频生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109671446B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671446A (zh) | 一种基于绝对听觉阈值的深度学习语音增强方法 | |
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
WO2021042870A1 (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
Lin et al. | Adaptive noise estimation algorithm for speech enhancement | |
CN108899044A (zh) | 语音信号处理方法及装置 | |
CN107734126A (zh) | 语音调节方法、装置、终端及存储介质 | |
CN101901602A (zh) | 一种利用受损听力的听阈进行降噪的方法 | |
CN110491406A (zh) | 一种多模块抑制不同种类噪声的双噪声语音增强方法 | |
CN114446314A (zh) | 一种深度生成对抗网络的语音增强方法 | |
CN112215054A (zh) | 一种用于水声信号去噪的深度生成对抗方法 | |
CN109147808A (zh) | 一种言语增强助听方法 | |
CN110148419A (zh) | 基于深度学习的语音分离方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN109859768A (zh) | 人工耳蜗语音增强方法 | |
CN110211598A (zh) | 智能语音降噪通信方法及装置 | |
CN113838473A (zh) | 设备的语音处理方法、装置以及设备 | |
CN112289337A (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
CN113763978B (zh) | 语音信号处理方法、装置、电子设备以及存储介质 | |
Zheng et al. | A noise-robust signal processing strategy for cochlear implants using neural networks | |
CN105719658A (zh) | 基于新阈值函数和自适应阈值的小波包语音降噪方法 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN114189795B (zh) | 助听器尖峰噪声自适应调节方法及设备 | |
Inoue et al. | Theoretical analysis of musical noise in generalized spectral subtraction: why should not use power/amplitude subtraction? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190423 Assignee: Chengdu Tiantongrui Computer Technology Co.,Ltd. Assignor: XIHUA University Contract record no.: X2023510000028 Denomination of invention: A Deep Learning Speech Enhancement Method Based on Absolute Auditory Threshold Granted publication date: 20200714 License type: Common License Record date: 20231124 |