CN113571081A - 语音增强方法、装置、设备及存储介质 - Google Patents

语音增强方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113571081A
CN113571081A CN202110182834.9A CN202110182834A CN113571081A CN 113571081 A CN113571081 A CN 113571081A CN 202110182834 A CN202110182834 A CN 202110182834A CN 113571081 A CN113571081 A CN 113571081A
Authority
CN
China
Prior art keywords
frame
target
amplitude spectrum
spectrum
glottal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110182834.9A
Other languages
English (en)
Inventor
史裕鹏
王蒙
肖玮
鲍枫
李娟娟
刘志鹏
李岳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110182834.9A priority Critical patent/CN113571081A/zh
Publication of CN113571081A publication Critical patent/CN113571081A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本申请涉及语音处理技术领域,具体提供了一种语音增强方法、装置、设备及存储介质,该包括:根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱;根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号;本申请的方案可以有效对语音进行增强,该方案可以应用于云会议中。

Description

语音增强方法、装置、设备及存储介质
技术领域
本申请涉及语音处理技术领域,具体而言,涉及一种语音增强方法、装置、设备及存储介质。
背景技术
由于语音通信的便利性和及时性,语音通信的应用越来越广泛,例如,在云会议的会议参与方之间传输语音信号。而在语音通信中,语音信号中可能混有噪声,语音信号中所混有的噪声会导致通信质量差,极大影响用户的听觉体验。因此,如何对语音进行增强处理以去除噪声部分是现有技术中亟待解决的技术问题。
发明内容
本申请的实施例提供了一种语音增强方法、装置、设备及存储介质,以实现语音增强。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种语音增强方法,包括:根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱;根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
根据本申请实施例的一个方面,提供了一种语音增强装置,包括:预增强模块,用于根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱;语音分解模块,用于根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;合成模块,用于根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
根据本申请实施例的一个方面,提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述语音增强方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述语音增强方法。
在本申请的方案中,先对目标语音帧进行预增强得到第一幅度谱的基础上,基于第一幅度谱对目标语音帧进行语音分解和合成,实现了分两个阶段对目标语音帧进行增强,可以有效保证语音增强效果。而且,相较于目标语音帧预增强之前的幅度谱,第一幅度谱中噪声的信息更少,而在语音分解过程中,噪声会影响语音分解的准确度,因此,以第一幅度谱作为语音分解的基础可以降低语音分解的难度,提高语音分解所得到声门参数、激励信号和增益的准确度,进而保证后续所获得增强语音信号的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是根据一具体实施例示出的VoIP(Voice over Intemet Protocol,网络电话)系统中的语音通信链路的示意图。
图2示出了语音信号产生的数字模型的示意图。
图3示出了根据一原始语音信号分解出激励信号和声门滤波器的频率响应的示意图。
图4示出了根据本申请的一个实施例示出的语音增强方法的流程图。
图5是根据本申请一实施例示出的语音增强方法的流程图。
图6是根据一具体实施例示出的第一神经网络的结构示意图。
图7是根据本申请一实施例示出的步骤410的流程图。
图8是根据一具体实施例示出的第二神经网络的结构示意图。
图9是根据本申请一实施例示出的步骤420的流程图。
图10是根据本申请一实施例示出的步骤430的流程图。
图11是根据一具体实施例示出的第三神经网络的示意图。
图12是根据另一实施例示出的第三神经网络的输入和输出的示意图。
图13是根据一具体实施例示出的第四神经网络的示意图。
图14是根据一具体实施例示出的第五神经网络的示意图。
图15是根据本申请一实施例示出的通过加窗交叠的方式对语音帧进行短时傅里叶变换的示意图。
图16是根据一实施例示出的语音增强装置的框图。
图17示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
语音信号中的噪声会极大降低语音质量,影响用户的听觉体验,因此,为了提高语音信号的质量,有必要对语音信号进行增强处理,以尽可能能地除去噪声,保留信号中的原始语音信号(即不包括噪声的纯净信号)。为了实现对语音进行增强处理,提出了本申请的方案。
本申请的方案可以应用于语音通话的应用场景中,例如通过即时通讯应用进行的语音通信、游戏应用中的语音通话。具体的,可以在语音的发送端、语音的接收端、或者提供语音通信服务的服务端来按照本方案进行语音增强。
云会议是线上办公中一个重要的环节,在云会议中,云会议的参与方的声音采集装置在采集到发言人的语音信号后,需要将所采集到的语音信号发送至其他会议参与方,该过程涉及到语音信号在多个参与方之间的传输和播放,如果不对语音信号中所混有的噪声信号进行处理,会极大影响会议参与方的听觉体验。在该种场景中,可以应用本申请的方案对云会议中的语音信号进行增强,使会议参与方所听到的语音信号是进行增强后的语音信号,提高语音信号的质量。
云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务提供方帮助使用者进行操作。
目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,基于云计算的视频会议就叫云会议。在云会议时代,数据的传输、处理、存储全部由视频会议提供方的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开客户端,进入相应界面,就能进行高效的远程会议。
云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。
图1是根据一具体实施例示出的VoIP(Voiceover Intemet Protocol,网络电话)系统中的语音通信链路的示意图。如图1所示,基于发送端110和接收端120的网络连接,发送端110与接收端120可以进行语音传输。
如图1所示,发送端110包括采集模块111、前增强处理模块112和编码模块113,其中,采集模块111用于采集语音信号,其可以将采集到的声学信号转换成数字信号;前增强处理模块112用于对采集到的语音信号进行增强,以除去所采集到语音信号中的噪声,提高语音信号的质量。编码模块113用于对增强后的语音信号进行编码,以提高语音信号在传输过程中的抗干扰性。前增强处理模块112可以按照本申请的方法进行语音增强,对语音进行增强后,再进行编码压缩和传输,这样可以保证接收端接收到的信号不再受噪声影响。
接收端120包括解码模块121、后增强模块122和播放模块123。解码模块121用于对接收到的编码语音进行解码,得到解码信号;后增强模块122用于对解码后的语音信号进行增强处理;播放模块123用于播放增强处理后的语音信号。后增强模块122也可以按照本申请的方法进行语音增强。在一些实施例中,接收端120还可以包括音效调节模块,该音效调节模块用于对增强后的语音信号进行音效调节。
在具体实施例中,可以是仅在接收端120或者仅在发送端110按照本申请的方法进行语音增强,当然,还可以是在发送端110和接收端120均按照本申请的方法进行语音增强。
在一些应用场景中,VoIP系统中的终端设备除了可以支持VoIP通信外,还可以支持其他第三方协议,例如传统PSTN(Public Switched Telephone Network,公用电话交换网)电路域电话,而传统的PSTN服务不能进行语音增强,在该种场景中,可以在作为接收端的终端中按照本申请的方法进行语音增强。
在对本申请的方案进行具体说明,有必要对语音信号的产生进行介绍。语音信号是由人体发音器官在大脑控制下的生理运动产生的,即:在气管处,产生一定能量的类噪声的冲击信号(相当于激励信号);冲击信号冲击人的声带(声带相当于声门滤波器),产生类周期性的开合;通过口腔放大后,发出声音(输出语音信号)。
图2示出了语音信号产生的数字模型的示意图,通过该数字模型可以描述语音信号的产生过程。如图2所示,激励信号冲击声门滤波器后,再进行增益控制后输出语音信号,其中,声门滤波器由声门参数限定。该过程可以通过如下的公式表示:
x(n)=G·r(n)·ar(n);(公式1)
其中,x(n)表示输入的语音信号;G表示增益,又可以称为线性预测增益;r(n)表示激励信号;ar(n)表示声门滤波器。
图3示出了根据一原始语音信号分解出激励信号和声门滤波器的频率响应的示意图,图3a示出了该原始语音信号的频率响应示意图,图3b示出了根据该原始语音信号所分解出声门滤波器的频率响应示意图,图3c示出了根据该原始语音信号所分解出激励信号的频率响应示意图。如图3所示,该原始语音信号的频率响应图中起伏的部分对应于声门滤波器的频率响应图中波峰位置,激励信号相当于对该原始语音信号进行LP(LinearPrediction,线性预测)分析后的残差信号,因此其对应的频率响应较平缓。
由上可以看出,根据一原始语音信号(即不包含噪声的语音信号)可以分解出激励信号、声门滤波器和增益,所分解出的激励信号、声门滤波器和增益可以用于表达该原始语音信号,其中,声门滤波器可以通过声门参数来表达。反之,如果已知一原始语音信号对应的激励信号、用于确定声门滤波器的声门参数和增益,则可以根据所对应的激励信号、声门滤波器和增益来重构该原始语音信号。
本申请的方案正是基于该原理,根据语音帧对应的声门参数、激励信号和增益来重构该语音帧中的原始语音信号,实现语音增强。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图4示出了根据本申请的一个实施例示出的语音增强方法的流程图,该方法可以由具备处理能力的计算机设备执行,例如终端、服务器等,在此不进行具体限定。参照图4所示,该方法至少包括步骤410至440,详细介绍如下:
步骤410,根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱。
语音信号是随时间而非平稳随机变化的,但是在短时间内语音信号的特性是强相关的,即语音信号具有短时相关性,因此,在本申请的方案中,以语音帧为单位来进行语音增强。目标语音帧是指当前待进行增强处理的语音帧。
目标语音帧对应的幅度谱可以对该目标语音帧的时域信号进行时频变换获得,时频变换例如短时傅里叶变换(Short-term Fourier transform,STFT)。通过进行时频变换可以得到目标语音帧的幅度谱和相位谱,目标语音帧的相位谱指示了目标语音帧的相位信息。
第一幅度谱是对目标语音帧进行预增强后所得的幅度谱。通过对目标语音帧进行预增强,可以除去目标语音帧中的部分噪声,因此,相较于对目标语音帧进行时频变换所得到的幅度谱,预增强所得到的第一幅度谱中噪声的影响更少。
在本方案中,对目标语音帧进行预增强是以获得第一幅度谱为目标,因此,在预增强过程中,可以不用关注目标语音帧的相位信息,从而减少计算量。
在本申请的一些实施例中,可以采用深度学习的方式来对目标语音帧进行预增强。通过训练一个神经网络模型来根据语音帧的幅度谱预测语音帧中噪声的幅度谱,然后将语音帧的幅度谱与所预测到噪声的幅度谱相减,得到第一幅度谱。为便于描述,将该用于预测语音帧中噪声的幅度谱的神经网络模型称为噪声幅度预测模型。在训练结束后,该噪声幅度模型可以根据所输入语音帧的幅度谱输出所预测噪声的幅度谱,然后将语音帧的幅度谱与噪声的幅度谱相减,即得到第一幅度谱。
在本申请的一些实施例中,还可以训练一个神经网络模型来根据语音帧的幅度谱预测增强后该语音帧的幅度谱。为便于描述,将该用于预测增强后幅度谱的神经网络模型称为幅度谱预测模型。在训练过程中将样本语音帧的幅度谱输入至该幅度谱预测模型中,由该幅度谱预测模型预测增强后的幅度谱,并根据所预测到增强后的幅度谱和该样本语音帧的标签信息来调整幅度谱预测模型的参数,直至所预测到的增强后的幅度谱与标签信息所指示的幅度谱之间的差异满足预设要求。样本语音帧的标签信息用于指示样本语音帧中原始语音信号的幅度谱。训练结束后,该幅度谱预测模型可以根据目标语音帧的幅度谱输出第一幅度谱。
步骤420,根据第一幅度谱对目标语音帧进行语音分解,得到目标语音帧对应的声门参数、增益和激励信号。
语音分解所得到目标语音帧对应的声门参数、对应的增益和对应的激励信号用于按照图2所示的过程重构目标语音帧中原始语音信号。
如上所描述,一原始语音信号是通过激励信号冲击声门滤波器然后进行增益控制得到。该第一幅度谱中包括目标语音帧原始语音信号的信息,因此,基于该第一幅度谱可以线性预测分析,逆向确定用于重构目标语音帧中原始语音信号的声门参数、激励信号和增益。
声门参数是指用于构建声门滤波器的参数,声门参数确定,则声门滤波器对应确定,声门滤波器为数字滤波器。声门参数可以是线性预测编码(Linear PredictionCoefficients,LPC)系数,还可以是线谱频率(Line Spectral Frequency,LSF)参数。目标语音帧所对应声门参数的数量是与声门滤波器的阶数相关的,若所述声门滤波器是K阶滤波器,所述声门参数包括K阶LSF参数或者K阶LPC系数,其中,LSF参数和LPC系数之间可以相互转化。
一个p阶的声门滤波器可以表示为:
Ap(z)=1+a1z-1+a2z-2+...+apz-p;(公式2)
其中,a1,a2,...,ap为LPC系数;p为声门滤波器的阶数;z为声门滤波器的输入信号。
在公式2的基础上,若令:
P(z)=Ap(z)-z-(p+1)Ap(z-1);(公式3)
Q(z)=Ap(z)+z-(p+1)Ap(z-1);(公式4)
可以得到:
Figure BDA0002941564160000081
从物理意义上讲,P(z)和Q(z)分别代表了声门张开和声门闭合的周期性变化规律。多项式P(z)和Q(z)的根在复平面上交替出现,其分布在复平面单位圆上的一系列角频率,LSF参数即为P(z)和Q(z)的根在复平面单位圆上对应的角频率,第n帧语音帧对应的LSF参数LSF(n)可以表示为ωn,当然,第n帧语音帧对应的LSF参数LSF(n)还可以直接用该第n帧语音帧所对应P(z)的根和所对应Q(z)根来表示。
将第n帧语音帧所对应P(z)和Q(z)在复平面的根定义为θn,则第n帧语音帧对应的LSF参数表示为:
Figure BDA0002941564160000091
其中,Rel{θn}表示复数θn的实部;Imag(θn}表示复数θn的虚部。
在本申请的一些实施例中,可以采用深度学习的方式进行语音分解。可以先训练分别用于进行声门参数预测、进行激励信号预测和进行增益预测的神经网络模型,使得该三个神经网络模型可以基于第一幅度谱分别预测目标语音帧对应的预测声门参数、激励信号和增益。
在本申请的一些实施例中,还可以按照线性预测分析的原理,根据第一幅度谱进行信号处理,并计算目标语音帧对应的声门参数、激励信号和增益,具体的过程参见下文描述。
步骤430,根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
在目标语音帧对应的声门参数确定的情况下,其对应的声门滤波器对应确定。在此基础上,可以按照图2所示的原始语音信号的生成过程,通过目标语音帧对应的激励信号冲击所确定的声门滤波器,并按照目标语音帧对应的增益对滤波所得到的信号进行增益控制,实现重构原始语音信号。
在本申请的方案中,在根据目标语音帧对应的幅度谱对目标语音帧进行预增强得到第一幅度谱的基础上,基于第一幅度谱对目标语音帧进行语音分解和合成,实现了分两个阶段对目标语音帧进行增强,可以有效保证语音增强效果。相较于目标语音帧预增强之前的幅度谱,第一幅度谱中噪声的信息更少,而在语音分解过程中,噪声会影响语音分解的准确度,因此,以第一幅度谱作为语音分解的基础可以降低语音分解的难度,提高语音分解所得到声门参数、激励信号和增益的准确度,进而保证后续所获得增强语音信号的准确度。
在本申请的一些实施例中,步骤410,包括:将所述目标语音帧的幅度谱输入第一神经网络,所述第一神经网络是根据样本语音帧对应的幅度谱和所述样本语音帧中原始语音信号对应的幅度谱进行训练得到的;由所述第一神经网络根据所述目标语音帧的幅度谱输出所述第一幅度谱。
第一神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
在本申请的一些实施例中,可以通过对样本语音信号进行分帧,得到多个样本语音帧。其中,样本语音信号可以是将已知的原始语音信号与已知的噪声信号进行组合得到,那么在原始语音信号已知的情况下,可以对应将样本语音帧中的原始语音信号进行时频变换,得到样本语音帧中原始语音信号对应的幅度谱。样本语音帧对应的幅度谱可以是通过对该样本语音帧的时域信号进行时频变换得到。
在训练过程中,将样本语音帧对应的幅度谱输入第一神经网络,由第一神经网络根据样本语音帧对应的幅度谱进行预测,输出预测第一幅度谱;然后比较预测第一幅度谱和该样本语音帧中原始语音信号对应的幅度谱,如果二者之间的相似度不满足预设要求,则调整第一神经网络的参数,直至第一神经网络所输出预测第一幅度谱与该样本语音帧中原始语音信号对应的幅度谱之间的差异满足预设要求。其中,预设要求可以是预测第一幅度谱与该样本语音帧中原始语音信号对应的幅度谱之间的相似度不低于相似度阈值,该相似度阈值可根据需要进行设定,例如为100%、98%等。通过如上的训练过程,该第一神经网络可以学习到根据输入的幅度谱预测第一幅度谱的能力。
图5是根据一具体实施例示出的第一神经网络的结构示意图,如图5所示,第一神经网络包括两LSTM(Long-Short Term Memory,长短期记忆网络)层和两FC(FullConnected,全连接)层,两LSTM层为隐层。输入的信息先经过两级联的LSTM层,然后再经两级联的FC层得到输出信息。沿从输入到输出的方向,两LSTM层分别包括512个单元和256个单元,两FC层分别包括512个单元和256个单元。第一层FC层中设有激活函数σ(),用于增加第一神经网络的非线性表达能力;第二层FC层中未设激活函数,用于作为分类器进行分类输出。
在本申请的一具体实施例中,第一神经网络中第一层LSTM层的输入可以是320维的向量,在其他实施例中,考虑到目标语音帧中的直流分量,可以将直流分量也输入到第一神经网络中,则第一层LSTM层的输入是321维的向量。当然,图5仅仅是第一神经网络的结构的一种示例性举例,不能认为是对本申请使用范围的限制。
在本申请的一些实施例中,如图6所示,步骤410,包括:
步骤610,将所述目标语音帧对应的幅度谱输入第二神经网络,所述第二神经网络是根据样本语音帧对应的幅度谱和所述样本语音帧中原始语音信号所对应幅度谱中各个子带的幅度包络进行训练得到的。
步骤620,由所述第二神经网络根据所述目标语音帧的幅度谱输出所述目标语音帧中每个子带对应的幅度包络。
第二神经网络是指用于预测幅度包络的神经网络模型,第二神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
将幅度谱沿频率进行分带,即可得到该幅度谱中的多个子带。对幅度谱所进行的分带可以是对频率进行均匀分带(即每个子带对应的频率宽度相同),也可以是非均匀分带,在此不进行具体限定。可以理解的是,每个子带对应一个频率范围,其中包括多个频点。
非均匀分带可以是Bark(巴克)分带。Bark分带是按照Bark频率尺度进行分带的,Bark频率尺度把频率映射到心理声学的多个临界频带上,频带的数量可以根据采样率和实际需要进行设定,例如频点的数量设定为24。Bark分带符合听觉系统的特征,一般地,越是低频,子带包含的系数数量越少、甚至就是单个系数,越是高频,子带包含的系数数量越多。
幅度谱是许多不同频率的集合,形成一个很宽的频率范围,不同的频率其幅度可能不同,将不同频率的振幅最高点连接起来形成的曲线,就叫幅度谱包络线。子带的幅度包络是指该子带在幅度谱包络线的对应的取值。子带的幅度包络是相邻STFT幅度谱系数的平均能量的开放。
同样的,在样本语音帧中原始语音信号已知的情况下,样本语音帧中原始语音信号的幅度谱可以对应确定,在此基础上根据子带中各频点的幅值可以确定每个子带的幅度包络。样本语音帧对应的幅度谱是对样本语音帧的时域信号进行时频变换得到。
在训练过程中,将样本语音帧对应的幅度谱输入第二神经网络,由该第二神经网络预测每个子带的幅度包络,得到每个子带的预测幅度包络。如果子带的预测幅度包络与该样本语音帧中原始语音信号所对应幅度谱中该子带的幅度包络不一致,则调整第二神经网络的参数。通过这一训练过程,可以使第二神经网络学习到根据语音帧的幅度谱预测子带的幅度包络的能力。
步骤630,根据所述目标语音帧中每个子带对应的幅度包络和所述目标语音帧的幅度谱中各频点的幅值,生成所述第一幅度谱。
在本申请的一些实施例中,步骤630进一步包括:步骤631,根据所述目标语音帧中各子带所分别对应的幅度包络确定各子带对应的第一增益;步骤632,按照所述各个子带对应的第一增益对所述目标语音帧的幅度谱中对应子带中每个频点的幅度值进行调整,得到所述各个分带中每一频点的第一幅值;步骤633,组合所述目标语音帧中每个频点的第一幅值,得到所述第一幅度谱。
在根据子带对应的幅度包括确定该子带对应的第一增益的过程中,还可以结合目标语音帧的幅度谱中该子带中各个频点的幅值。例如,目标语音帧的幅度谱中该子带中各个频点的幅值计算该子带中的平均幅值,将该子带的幅度包络与该子带中的平均幅值的比作为该子带对应的第一增益。
在得到每个子带对应的第一增益后,同一子带中的频点共享该子带对应的第一增益,将目标语音帧的幅度谱中该子带中每个频点的幅值按照该子带对应的第一增益进行幅值调整,得到该子带中每个频点的第一幅值。在此基础上组合所述目标语音帧中每个频点的第一幅值,得到所述第一幅度谱。
在本实施例的方案中,由于同一子带中频点相邻,而相邻频点的STFT系数之间具有相关性,因此可以使同一子带中全部的频点共享相同的第一增益。在此基础上,相较于第一神经网络而言,第二神经网络所要预测的参数的数量较少,从而第二神经网络的输出数据的维度小于第一神经网络的输出数据的维度。也就是说,在本实施例中,不需要针对该子带中的每个频点分别确定第一增益,相对而言,减少了神经网络模型的计算量,因此,本实施例的方法可以使用结构比第一神经网络更简单的神经网络模型来作为第二神经网络。
图7是根据一具体实施例示出的第二神经网络的结构示意图,如图7所示,从输入到输出的方向,该第二神经网络包含两级联的LSTM层和两级联的FC层。其中,两LSTM层为隐层,分别包含256个单元和128个单元,第一层LSTM层的输入为320维的STFT(Short-termFourier Transform,短时傅里叶变换)系数,该STFT系数为通过对目标语音帧进行短时傅里叶变换所得到表示幅度值的系数;两层FC层分别包括256个单元和64个单元,其中,最后一层FC层没有激活函数,作为分类器进行分类输出,所输出的m′(n)为该目标语音帧对应的幅度包络。
相较于图5所示的第一神经网络,图7中第二神经网络的最后一层FC层包括64个单元,表明该最后一层FC层所输出的m′(n)的维度为64;图6中的第一神经网络的最后一层FC层包括256个单元,表明该最后一层FC层所输出的数据的维度为256;如果是均匀分带,相当于将图8中所输出256个STFT系数中相邻4个系数作为一个子带,在此种分带方式下,可以保证图5中第二神经网络的输出维度为64。相较而言,图7中第二神经网络的输出维度小于图5中第一神经网络的输出维度,因此,图7中第二神经网络的复杂度较小,计算量也更小。
在本申请的一些实施例中,如图8所示,步骤420,包括:
步骤810,根据所述第一幅度谱和所述目标语音帧对应的相位谱计算得到所述目标语音帧所对应预增强后的功率谱。
在本申请的方案中,由于在对目标语音帧进行预增强过程中仅关注于幅度谱进行增强,而并没有同步进行相位谱的增强,因此,为了避免相位信息丢失,复用目标语音帧对应的相位谱,并结合预增强所得到的第一幅度谱,将基于预增强之前目标语音帧的相位谱和预增强后的第一幅度谱所计算得到的功率谱作为目标语音帧所对应预增强后的功率谱。
组合第一幅度谱和目标语音帧对应的相位谱可以得到一复数频谱,该复数频谱可以表达预增强后信号的幅度和相位信息;换言之,以目标语音帧对应的相位谱作为实部,以第一幅度谱作为虚部,形成一复数频谱。假设组合第一幅度谱和目标语音帧对应的相位谱所得到的复数频谱为S′_c(n),则步骤810中所得到目标语音帧所对应预增强后的功率谱Pa(n)为:
Pa(n)=(RealS′_c(n))2+(ImagS′-c(n))2;(公式7)
其中,RealS′_c(n)表示复数频谱S′_c(n)的实部,ImagS′_c(n)表示复数频谱S′c(n)的虚部。
步骤820,根据所述预增强后的功率谱计算得到自相关系数。
根据维纳-辛钦定理:平稳随机过程的功率谱与其自相关函数是一对傅里叶变换关系。在本方案中,一帧语音帧视为平稳的随机信号,因此,在得到目标语音帧所对应预增强后的功率谱的基础上,可以对目标语音帧所对应预增强后的功率谱进行傅里叶反变换,来得到该预增强后的功率谱对应的自相关系数。
具体的,步骤820包括:对所述功率谱进行傅里叶反变换,得到反变换结果;提取所述反变换结果中的实部,得到所述自相关系数。即:
AC(n)=Real(iFFT(Pa(n)));(公式8)
AC(n)表示第n帧语音帧对应的自相关系数,iFFT(Inverse Fast FourierTransform,快速傅里叶反变换)是指FFT(Fast Fourier Transform,快速傅里叶反变换)反变换,Real表示快速傅里叶反变换所得到结果的实部。AC(n)包括多个参数,AC(n)中的系数可以进一步表示为ACj(n),0≤j≤p,p为声门滤波器的阶数。
步骤830,根据所述自相关系数计算得到所述声门参数。
根据Yule-Walker(尤尔-沃克方程)方程,对于第n帧语音帧,其对应的自相关系数与所对应的声门参数之间存在如下的关系:
k-KA=0;(公式9)
其中,k为自相关矢量;K为自相关矩阵;A为LPC系数矩阵。具体的,
Figure BDA0002941564160000141
Figure BDA0002941564160000142
其中,ACj(n)=E[s(n)s(n-j)],0≤j≤p;(公式10)
p为声门滤波器的阶数;a1(n),a2(n),...,ap(n)均为第n帧语音帧所对应的LPC系数,分别为上述公式2中的a1、a2,...,ap;由于a0(n)为常数1,也可以将a0(n)也视为第n帧语音帧所对应的一个LPC系数。
在得到自相关系数的基础上,自相关矢量和自相关矩阵可以对应确定,然后通过求解公式9,即可得到LPC系数。在具体实施例中,可以采用Levinson-Durbin算法求解公式9。
由于LSF参数与LPC系数之间可以相互转换,因此,在计算得到LPC系数时,可以对应确定LSF参数。换言之,不管声门参数是LPC系数还是LSF参数,均可通过如上的过程确定。
步骤840,根据所述自相关系数和所述声门参数计算得到所述增益。
可以根据如下的公式计算第n帧语音帧对应的增益。
Figure BDA0002941564160000151
值得一提的是,根据公式11所计算得到的G(n)是时域表示上目标语音帧所对应增益的平方。
步骤850,根据所述增益和声门滤波器的功率谱计算得到所述激励信号的功率谱,所述声门滤波器是根据所述声门参数构建的滤波器。
假设目标语音帧对应的幅度谱是针对m(m为正整数)个样本点进行傅里叶变换得到,为了计算声门滤波器的功率谱,先为第n帧语音帧构造一个维度为m的全零数组,s_AR(n);然后,将(p+1)维的aj(n)赋值给该全零数组的前(p+1)维,其中j=0,1,2,...p;通过调用m个样本点的快速傅里叶变换(Fast Fourier Transform,FFT),获得FFT系数:
S_AR(n)=FFT(s_AR(n));(公式12)
在得到FFT系数S_AR(n)的基础上,可以按照如下的公式13逐个样本获得第n帧语音帧所对应的声门滤波器的功率谱:
AR_LPS(n,k)=(Real(S_AR(n,k)))2+(Imag(S_AR(n,k)))2(公式13)其中,Real(S_AR(n,k))表示S_AR(n,k)的实部,Imag(S_AR(n,k))表示S_AR(n,k)的虚部,k表示FFT系数的级数,0≤k≤m,k为正整数。
在得到第n帧语音帧所对应的声门滤波器的功率谱AR_LPS(n)后,为便于计算,按照公式14将声门滤波器的的功率谱AR_LPS(n)从自然数域转换到对数域:
AR_LPS1(n)=log10(AR_LPS(n));(公式14)
将上述AR_LPS1(n)按照下述公式15取反,即得到声门滤波器逆对应的功率谱AR_LPS2(n):
AR_LPS2(n)=-1*AR_LPS1(n);(公式15)
然后可以按照如下的公式16计算得到目标语音帧所对应激励信号的功率谱R(n):
R(n)=Pa(n)*(G1(n))2*AR_LPS3(n);(公式16)
其中,
Figure BDA0002941564160000152
Figure BDA0002941564160000153
通过如上的过程,对应计算得到目标语音帧所对应声门参数、增益和激励信号的功率谱,以及由声门参数所限定声门滤波器的功率谱。
在得到目标语音帧所对应的增益、所对应激励信号的功率谱和由声门参数所限定声门滤波器的功率谱后,可以按照如图9所示的过程来进行合成处理。如图9所示,步骤430,包括:
步骤910,根据所述声门滤波器的功率谱和所述激励信号的功率谱生成第一幅度谱。
可以按照如下的公式19计算得到第一幅度谱S_filt(n):
Figure BDA0002941564160000161
其中,R1(n)=10*log10(R(n));(公式20)
步骤920,按照所述增益对所述第一幅度谱进行增强,得到增强后的幅度谱。
可以按照如下的公式得到增强后的幅度谱S_e(n):
S_e(n)=G2(n)*S_filt(n);(公式21)
其中,
Figure BDA0002941564160000162
步骤930,根据所述目标语音帧对应的相位谱和所述增强后的幅度谱确定所述目标语音帧对应的增强语音信号。
在本申请的一些实施例中,步骤930进一步包括:组合所述目标语音帧对应的相位谱和所述增强后的幅度谱,得到目标复数频谱;将所述目标复数频谱向时域进行变换,得到所述目标语音帧所对应增强语音信号的时域信号。具体的,目标复数频谱的实部为增强后的幅度谱,目标复数频谱的虚部为目标语音帧对应的相位谱。
目标语音帧对应的相位谱是通过对目标语音帧的时域信号进行时频变换。由于所得到增强后的幅度谱并不携带信号的相位信息,复用目标语音帧对应的相位谱来提供相位信息。
信号的复数频谱为复数形式,包括实部和虚部。其中,实部反映的是信号的幅度,虚部反映的是信号的相位。在步骤930中,将增强后的幅度谱作为实部,将目标语音帧对应的相位谱作为虚部,所得到的复数表达式即为目标复数频谱。在此基础上,将目标复数频谱向时域变换,所得到的信号即为目标语音帧所对应增强语音信号的时域信号。
在图8和图9实施例的的基础上,若步骤410中是按照深度学习的方式对目标语音帧进行预增强,则本方案实现了将传统信号处理与深度学习进行深度结合,对目标语音帧进行二次增强,实现了对目标语音帧进行多阶段增强,即第一阶段采用深度学习方式根据目标语音帧的幅度谱进行预增强,可以降低在第二阶段中语音分解获取声门参数、激励信号和增益的困难;第二阶段,通过信号处理的方式获得用于重构原始语音信号的声门参数、激励信号和增益。而且,在第二阶段中,按照语音产生的数字模型进行语音合成,并不直接对目标语音帧的信号进行处理,因此,可以避免在第二阶段中出现削语音的情况。
图10是根据一具体实施例示出的语音增强方法的路程图。假设将第n帧语音帧作为目标语音帧,第n帧语音帧的时域信号为s(n)。如图10所示,具体包括步骤1010-1050。
步骤1010,时频变换;通过步骤1010对第n帧语音帧的时域信号s(n)进行时频变换,得到第n帧语音帧对应的幅度谱S(n)和第n帧语音帧对应的相位谱Ph(n)。
步骤1020,预增强;基于第n帧语音帧对应的幅度谱S(n)对该第n帧语音帧进行预增强处理,得到第n帧语音帧预增强后的第一幅度谱S’(n)。
步骤1030,语音分解;基于第n帧语音帧的第一幅度谱S’(n)进行语音分解,得到第n帧语音帧对应的声门参数集P(n)和第n帧语音帧所对应激励信号的频域表示R(n)。其中,声门参数集P(n)包括声门参数ar(n)和增益G(n)。其中,所得到激励信号的频域表示可以是上述图8和图9所示实施例中激励信号的功率谱。声门参数ar(n)可以是通过上述所计算的LPC系数来限定或者上述基于LPC系数所得到的声门滤波器的功率谱来限定。
在一些实施例中,在语音分解过程中所需要的相位信息,可以复用第n帧语音帧对应的相位谱Ph(n)。
步骤1040,语音合成。基于所得到第n帧语音帧对应的声门参数ar(n)、增益G(n)和第n帧语音帧所对应激励信号的频域表示R(n)进行语音合成,得到第n帧语音帧所对应增强后的幅度谱S_e(n)。
步骤1050,频时变换。复用第n帧语音帧的相位谱作为第n帧语音帧所对应增强语音信号的相位谱,因此,组合第n帧语音帧对应的相位谱Ph(n)和第n帧语音帧所对应增强后的幅度谱S_e(n)得到第n帧语音帧所对应增强后的复数频谱。将所得到增强后的复数频谱向时域进行变换,即得到第n帧语音帧所对应增强语音信号的时域信号s_e(n)。
另外在本方案中,在预增强、基于语音分解与合成所实现增强的两个阶段中,均以获得幅度谱为目标,因此,在该两个阶段中可以不用关注目标语音帧的相位信息,而直接复用目标语音帧的相位谱,在不遗失相位信息的前提下,减少了在两个语音增强阶段中的处理量。
在本申请的一些实施例中,步骤410,包括:根据所述第一幅度谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数。根据所述第一幅度谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号。根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益。
在本申请的一些实施例中,可以分别训练用于进行声门参数预测的神经网络模型、进行激励信号预测的神经网络模型和进行增益预测的神经网络模型。其中,该三种神经网络模型可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
在本申请的一些实施例中,上述根据所述第一幅度谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数的步骤,进一步包括:将所述第一幅度谱输入第三神经网络中,所述第三神经网络是根据样本语音帧对应的声门参数和所述样本语音帧对应的幅度谱进行训练得到的;由第三神经网络根据所述第一幅度谱输出所述目标语音帧对应的声门参数。
第三神经网络是指用于进行声门参数预测的神经网络模型。其中,第三神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
样本语音帧的幅度谱是对样本语音帧的时域信号进行时频变换得到的。在本申请的一些实施例中,可以对样本语音信号进行分帧,得到多个样本语音帧。其中,样本语音信号可以是将已知的原始语音信号与已知的噪声信号进行组合得到,那么在原始语音信号已知的情况下,可以通过对原始语音信号进行线性预测分析得到样本语音帧对应的声门参数。
在训练过程中,将样本语音帧的幅度谱输入至第三神经网络后,由第三神经网络根据样本语音帧的幅度谱进行声门参数预测,输出预测声门参数;然后比较预测声门参数和该样本语音帧对应的声门参数,如果二者不一致,则调整第三神经网络的参数,直至第三神经网络根据样本语音帧的幅度谱所输出的预测声门参数与该样本语音帧对应的声门参数一致。在训练结束后,该第三神经网络学习到根据所输入语音帧的幅度谱准确预测用于重构该语音帧中原始语音信号的声门参数的能力。
图11是根据一具体实施例示出的第三神经网络的示意图,如图11所示,该第三神经网络包括一层LSTM(Long-Short Term Memory,长短期记忆网络)层和三层级联的FC(Full Connected,全连接)层。其中,LSTM层为1个隐层,其包括256个单元,LSTM层的输入为第n帧语音帧的频域表示S(n)。在本实施例中,LSTM层的输入为321维的STFT系数。三层级联的FC层中,前两层FC层中设有激活函数σ(),所设置的激活函数用于增加第三神经网络的非线性表达能力,最后一层FC层中未设激活函数,该最后一层FC层作为分类器进行分类输出。如图11所示,从下往上,三层FC层中分别包括512、512、16个单元,最后一层FC层的输出为该第n帧语音帧所对应16维的线谱频率系数LSF(n),即16阶线谱频率系数。
在本申请的一些实施例中,由于语音帧之间是有相关性的,相邻两语音帧之间的频域特征相似性较高,因此,可以结合目标语音帧之前的历史语音帧对应的声门参数来预测目标语音帧对应对的声门参数。在一实施例中,上述根据所述第一幅度谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数的步骤,进一步包括:将所述第一幅度谱和所述目标语音帧的历史语音帧所对应的声门参数输入第三神经网络中,所述第三神经网络是根据样本语音帧对应的声门参数、所述样本语音帧的历史语音帧所对应的声门参数和所述样本语音帧对应的幅度谱进行训练得到的;由第三神经网络根据所述第一幅度谱和所述目标语音帧的历史语音帧所对应声门参数输出所述目标语音帧对应的声门参数。
由于历史语音帧与目标语音帧与之间具有相关性,目标语音帧的历史语音帧所对应声门参数与目标语音帧对应的声门参数之间具有相似性,因此,以目标语音帧的历史语音帧对应的声门参数作为参考,对目标语音帧的声门参数的预测过程进行监督,可以提高声门参数预测的准确率。
在本申请的一实施例中,由于越靠近的语音帧的声门参数的相似性越高,因此,可以将距离目标语音帧较近的历史语音帧对应的声门参数作为参考可以进一步保证预测准确率,例如可以将目标语音帧的上一语音帧对应的声门参数作为参考。在具体实施例中,作为参考的历史语音帧的数量可以是一帧,也可以是多帧,具体可根据实际需要进行选用。
目标语音帧的历史语音帧所对应的声门参数可以是对该历史语音帧进行声门参数预测得到的声门参数。换言之,在声门参数预测的过程中,复用为历史语音帧所预测到的声门参数来作为当前语音帧的声门参数预测过程的参考。
本实施例中第三神经网络的训练过程与上一实施例中第三神经网络的训练过程类似,在此不再赘述训练的过程。
图12是根据另一实施例示出的第三神经网络的输入和输出的示意图,其中,图12中第三神经网络的结构与图11中相同,相较于图11,图12中第第三神经网络的输入还包括该第n帧语音帧的上一语音帧(即第n-1帧)的线谱频率参数LSF(n-1)。如图12所示,在第二层FC层中嵌入第n帧语音帧的上一语音帧的线谱频率系数LSF(n-1),作为参考信息。由于相邻两语音帧的LSF参数相似性非常高,因此,如果将第n语音帧的历史语音帧对应的LSF参数作为参考信息,可以提升LSF参数预测准确率。
在本申请的一些实施例中,上述根据所述第一幅度谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号的步骤进一步包括:将所述第一幅度谱输入第四神经网络,所述第四神经网络是根据样本语音帧对应的幅度谱和样本语音帧所对应激励信号的幅度谱进行训练得到的;由所述第四神经网络根据所述第一幅度谱输出所述目标语音帧所对应激励信号的幅度谱。
在训练第四神经网络过程中,将样本语音帧的幅度谱输入至第四神经网络模型中,然后由第四神经网络根据所输入样本语音帧的幅度谱进行激励信号预测,输出预测激励信号的幅度谱;再根据预测激励信号的幅度谱和该样本语音帧所对应激励信号的幅度谱来调整第四神经网络的参数,即:若预测激励信号的幅度谱与该样本语音帧所对应激励信号的幅度谱的相似度不满足预设要求,则调整第四神经网络的参数,直至第四神经网络为样本语音帧输出预测激励信号的幅度谱与该样本语音帧所对应激励信号的幅度谱之间的相似度满足预设要求。通过如上的训练过程,可以使第四神经网络学习到根据一语音帧的幅度谱来预测该语音帧对应的激励信号的幅度谱的能力,从而准确进行激励信号预测。
图13是根据一具体实施例示出的第四神经网络的示意图,如图13所示,该第四神经网络包括一层LSTM层和3层FC层,其中,LSTM层为1个隐层,包括256个单元,LSTM的输入为对第n帧语音帧进行预增强所得到的第一幅度谱s’(n),其维度可以是321维。3层FC层中所包括单元的数量分别为512、512和321,最后一层FC层输出321维的第n帧语音帧所对应激励信号的幅度谱R(n)。沿从输入到输出的方向,三层FC层中前两FC层中设有激活函数,用于提升模型的非线性表达能力,最后一层FC层中没有激活函数,用于进行分类输出。
在本申请的一些实施例中,上述根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益的步骤进一步包括:将所述目标语音帧的历史语音帧对应的增益输入第五神经网络,所述第五神经网络是根据样本语音帧对应的增益和所述样本语音帧的历史语音帧对应的增益进行训练得到的;由所述第五神经网络根据所述目标语音帧的历史语音帧对应的增益输出所述目标语音帧对应的增益。
目标语音帧的历史语音帧对应的增益可以是该第五神经网络为该历史语音帧进行增益预测得到的,换言之,复用为历史语音帧所预测到的增益作为对目标语音帧进行增益预测过程中第五神经网络模型的输入。
图14是根据一具体实施例示出的第五神经网络的示意图,如图14所示,第五神经网络包括一层LSTM层和一层FC层,其中,LSTM层为1个隐层,其包括128个单元;FC层输入为512维的向量,输出为1维的增益。在一具体实施例中,第n帧语音帧的历史语音帧增益G_pre(n)可以定义为第n帧语音帧的前4个语音帧所对应的增益,即:
G_pre(n)={G(n-1),G(n-2),G(n-3),G(n-4)};
当然,所选择用于增益预测的历史语音帧的数量并不限于如上的举例,具体可根据实际需要进行选用。
在如上所示的第二神经网络、第三神经网络、第五神经网络整体上呈现一个M-to-N的映射关系(N<<M),即神经网络模型的输入信息的维度为M,输出信息的维度为N,极大地精简了神经网络模型的结构和降低了模型的复杂度。
值得一提的是,上述示出第一神经网络、第二神经网络、第三神经网络、第四神经网络和第五神经网络的结构仅仅是示例性举例,在其他实施例中,还可以在深度学习的开源平台中设置相应结构的神经网络模型,并对应进行训练。
在本申请的一些实施例中,在预测得到声门参数、增益和激励信号的幅度谱的基础上,步骤430包括:根据所述目标语音帧对应的声门参数构建声门滤波器;通过所述声门滤波器对所述目标语音帧对应的激励信号进行滤波,得到第一语音信号;按照所述目标语音帧对应的增益对所述第一语音信号进行放大处理,得到所述目标语音帧对应的增强语音信号。
若声门参数是LPC系数,可以直接按照上述的公式(2)进行声门滤波器的构建。若声门滤波器为K阶滤波器,则目标语音帧对应的声门参数包括K阶LPC系数,即上述公式(2)中的a1,a2,...,aK,在其他实施例中,上述公式(2)中的常数1也可以作为LPC系数。
若声门参数为LSF参数,则可以将LSF参数转换为LPC系数,然后对应按照上述公式(2)构建声门滤波器。
滤波处理即为时域上的卷积,因此,如上通过声门滤波器对激励信号进行滤波的过程可以转换到时域进行。则在预测得到目标语音帧所对应激励信号的幅度谱的基础上,将激励信号的幅度谱向时域进行变换,得到目标语音帧所对应激励信号的时域信号。
在本申请的方案中,目标语音帧是数字信号,其中包括多个样本点。通过声门滤波器对激励信号进行滤波,即通过一样本点之前的历史样本点与该声门滤波器进行卷积,得到该样本点对应的目标信号值。在本申请的一些实施例中,所述目标语音帧包括多个样本点;所述声门滤波器为K阶滤波器,K为正整数;所述激励信号包括所述目标语音帧中多个样本点分别对应的激励信号值;上述通过所述声门滤波器对所述目标语音帧对应的激励信号进行滤波,得到第一语音信号的步骤进一步包括:将所述目标语音帧中每个样本点的前K个样本点所对应的激励信号值与所述K阶滤波器进行卷积,得到所述目标语音帧中每个样本点的目标信号值;按照时间顺序组合所述目标语音帧中的全部样本点对应的目标信号值,得到所述第一语音信号。其中,K阶滤波器的表达式可参照上述公式1。也就是说,针对目标语音帧中的每一样本点,利用其前的K个样本点所对应的激励信号值来与K阶滤波器进行卷积,得到每个样本点对应的目标信号值。
可以理解的是,对于目标语音帧中的首个样本点,其需要借助于该目标语音帧的上一语音帧中的最后K个样本点的激励信号值来计算该首个样本点对应的目标信号值,同理,该目标语音帧中第二个样本点,需要借助于目标语音帧的上一语音帧中最后(K-1)个样本点的激励信号值和目标语音帧中首个样本点的激励信号值与K阶滤波器进行卷积,得到目标语音帧中第二个样本点所对应的目标信号值。
相关技术中存在通过谱估计和谱回归预测的方式来进行语音增强。谱估计的语音增强方式认为一段混合语音包含了语音部分和噪声部分,因此可以通过统计模型等来估计噪声,将混合语音对应的频谱,减去噪声对应的频谱,剩下的就是语音频谱,以此通过混合语音对应的频谱减去噪声对应的频谱所得到的频谱恢复出干净的语音信号。谱回归预测的语音增强方方式通过神经网络预测语音帧对应的掩闭阈值,该掩闭阈值反映了该语音帧中每一个频点中的语音成份和噪声成份的占比;然后根据该掩闭阈值对混合信号频谱进行增益控制,获得增强后的频谱。
以上通过谱估计和谱回归预测的语音增强方式是基于噪声谱后验概率的估计,其可能存在估计的噪声不准确,例如像敲键盘等瞬态噪声,由于瞬时发生,估计的噪声谱非常不准确,导致噪声抑制效果不好。在噪声谱预测不准确的情况下,若按照所估计的噪声谱对原混合语音信号进行处理,则可能会导致混合语音信号中的语音失真,或者导致噪声抑制效果差;因此,在这种情况下,需要在语音保真和噪声抑制之间进行折中。
在本申请的方案中,由于声门参数与声音生成物理过程中的声门特征强相关,所预测到的声门参数有效保证了目标语音帧中原始语音信号的语音结构,因此,基于所预测到的声门参数、激励信号和增益进行合成来得到目标语音帧的增强语音信号可以有效避免原始语音被削减,有效保护了语音结构;同时在预测到目标语音帧对应的声门参数、激励信号和增益后,由于并不会再对原始的带噪语音进行处理,因此,也并不需要在语音保真和噪声抑制这两者之间进行折中。
在本申请的一些实施例中,步骤410之前,该方法还包括:获取所述目标语音帧的时域信号;对所述目标语音帧的时域信号进行时频变换,得到所述目标语音帧对应的幅度谱和所述目标语音帧对应的相位谱。
时频变换可以是短时傅里叶变换(short-term Fourier transform,STFT)。
短时傅里叶变换中采用加窗交叠的操作来消除帧间不平滑。图15是根据一具体示出的短时傅里叶变换中加窗交叠的示意图,在图15中,采用50%加窗交叠的操作,若短时傅里叶变换针对的是640个样本点,则该窗函数的重叠样本数(hop-size)为320。加窗所使用的窗函数可以是汉宁(Hanning)窗、汉明窗等,当然也可以采用其他的窗函数,在此不进行具体限定。
在其他实施例中,也可以采用非50%加窗交叠的操作。例如,若短时傅里叶变换针对的是512个样本点,在这种情况下,若一语音帧中包括320个样本点,则只需要交叠上一语音帧的192个样本点即可。
在本申请的一些实施例中,可以通过如下步骤来获取目标语音帧的时域信号:获取待处理的语音信号,所述待处理的语音信号是采集到的语音信号或者对编码语音进行解码所得到的语音信号;对所述待处理的语音信号进行分帧,得到所述目标语音帧的时域信号。
在一些实例中,可以按照设定的帧长来对待处理的语音信号进行分帧,该帧长可根据实际需要进行设定,例如,帧长可以设定为20ms。
如上所描述,本申请的方案可以应用于发送端进行语音增强,也可以应用于接收端进行语音增强。
在本申请的方案应用于发送端的情况下,该待处理的语音信号为发送端采集到的语音信号,则对待处理的语音信号进行分帧,得到多个语音帧。
分帧后,待处理的语音信号被分割成多个语音帧,然后可以将每一语音帧作为目标语音帧并按照上述步骤410-440的过程对目标语音帧进行增强。进一步的,在得到目标语音帧对应的增强语音信号后,还可以对该增强语音信号进行编码,以基于所得到的编码语音进行传输。
在一实施例中,由于直接采集到的语音信号是模拟信号,为了便于进行信号处理,在进行分帧之前,还进一步需要将信号进行数字化,将时间连续的语音信号变成时间离散的语音信号。在进行数字化过程中,可按照设定的采样率对采集到的语音信号进行采样,设定的采样率可以是16000Hz、8000Hz、32000Hz、48000Hz等,具体可根据实际需要进行设定。
在本申请的方案应用于接收端的情况下,该待处理的语音信号为对所接收到的编码语音进行解码所得到的语音信号。在该种情况下,可能是由于发送端未对所需要传输的语音信号进行增强,因此,为了提高信号质量,需要在接收端对语音进行增强。在通过对待处理的语音信号进行分帧得到多个语音帧后,将其作为目标语音帧并按照如上步骤410-440的过程对目标语音帧进行增强,得到目标语音帧的增强语音信号。进一步的,还可以对目标语音帧对应的增强语音信号进行播放,由于所得到的增强语音信号相较于目标语音帧增强之前的信号,噪声被除去,语音信号的质量更高,因此,对于用户来说,听觉体验更佳。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节,请参照本申请上述方法实施例。
图16是根据一实施例示出的语音增强装置的框图,如图16所示,该语音增强装置包括:预增强模块1610,用于根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱。语音分解模块1620,用于根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;合成模块1630,根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
在本申请的一些实施例中,语音分解模块1620,包括:功率谱计算单元,用于根据所述第一幅度谱和所述目标语音帧对应的相位谱计算得到所述目标语音帧所对应预增强后的功率谱;自相关系数计算单元,用于根据所述预增强后的功率谱计算得到自相关系数;声门参数计算单元,用于根据所述自相关系数计算得到所述声门参数;增益计算单元,用于根据所述自相关系数和所述声门参数计算得到所述增益;激励信号确定单元,用于根据所述增益和声门滤波器的功率谱计算得到所述激励信号的功率谱,所述声门滤波器是根据所述声门参数构建的滤波器。
在本申请的一些实施例中,合成模块1630包括:第一频率响应获取单元,用于获取声门滤波器的频率响应,所述声门滤波器根据所述声门参数构建的滤波器;第二频域响应获取单元,用于获取所述激励信号的频率响应;第一幅度谱生成单元,用于根据所述声门滤波器的功率谱和所述激励信号的功率谱生成第一幅度谱;增强单元,用于按照所述增益对所述第一幅度谱进行增强,得到增强后的幅度谱;增强语音信号确定单元,用于根据所述目标语音帧对应的相位谱和所述增强后的幅度谱确定所述目标语音帧对应的增强语音信号。
在本申请的一些实施例中,增强语音信号确定单元,包括:组合单元,用于组合所述目标语音帧对应的相位谱和所述增强后的幅度谱,得到目标复数频谱;增强语音信号确定单元,用于将所述目标复数频谱向时域进行变换,得到所述目标语音帧所对应增强语音信号的时域信号。
在本申请的一些实施例中,预增强模块1610,包括:第一输入单元,用于将所述目标语音帧的幅度谱输入第一神经网络,所述第一神经网络是根据样本语音帧对应的幅度谱和所述样本语音帧中原始语音信号对应的幅度谱进行训练得到的;第一输出单元,用于由所述第一神经网络根据所述目标语音帧的幅度谱输出所述第一幅度谱。
在本申请的一些实施例中,预增强模块1610,包括:第二输入单元,用于将所述目标语音帧对应的幅度谱输入第二神经网络,所述第二神经网络是根据样本语音帧对应的幅度谱和所述样本语音帧中原始语音信号所对应幅度谱中各个子带的幅度包络进行训练得到的;第二输出单元,用于由所述第二神经网络根据所述目标语音帧的幅度谱输出所述目标语音帧中每个子带对应的幅度包络;第一幅度谱生成单元,用于根据所述目标语音帧中每个子带对应的幅度包络和所述目标语音帧的幅度谱中各频点的幅值,生成所述第一幅度谱。
在本申请的一些实施例中,第一幅度谱生成单元,包括:第一增益确定单元,用于根据所述目标语音帧中各子带所分别对应的幅度包络确定各子带对应的第一增益;第一幅值确定单元,用于按照所述各个子带对应的第一增益对所述目标语音帧的幅度谱中对应子带中每个频点的幅度值进行调整,得到所述各个分带中每一频点的第一幅值;第一幅值组合单元,用于组合所述目标语音帧中每个频点的第一幅值,得到所述第一幅度谱。
在本申请的一些实施例中,语音分解模块1620,包括:声门参数预测单元,用于根据所述第一幅度谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数;激励信号预测单元,用于根据所述第一幅度谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号;增益预测单元,用于根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益。
在本申请的一些实施例中,声门参数预测单元,包括:第三输入单元,用于将所述第一幅度谱输入第三神经网络中,所述第三神经网络是根据样本语音帧对应的声门参数和所述样本语音帧对应的幅度谱进行训练得到的;第三输出单元,用于由第三神经网络根据所述第一幅度谱输出所述目标语音帧对应的声门参数。
在本申请的一些实施例中,声门参数预测单元,包括:第四输入单元,用于将所述第一幅度谱和所述目标语音帧的历史语音帧所对应的声门参数输入第三神经网络中,所述第三神经网络是根据样本语音帧对应的声门参数、所述样本语音帧的历史语音帧所对应的声门参数和所述样本语音帧对应的幅度谱进行训练得到的;第四输出单元,用于由第三神经网络根据所述第一幅度谱和所述目标语音帧的历史语音帧所对应声门参数输出所述目标语音帧对应的声门参数。
在本申请的一些实施例中,激励信号预测单元,包括:第五输入单元,用于将所述第一幅度谱输入第四神经网络,所述第四神经网络是根据样本语音帧对应的幅度谱和样本语音帧所对应激励信号的幅度谱进行训练得到的;第五输出单元,用于由所述第四神经网络根据所述第一幅度谱输出所述目标语音帧所对应激励信号的幅度谱。
在本申请的一些实施例中,增益预测单元,包括:第六输入单元,用于将所述目标语音帧的历史语音帧对应的增益输入第五神经网络,所述第五神经网络是根据样本语音帧对应的增益和所述样本语音帧的历史语音帧对应的增益进行训练得到的;第六输出单元,用于由所述第五神经网络根据所述目标语音帧的历史语音帧对应的增益输出所述目标语音帧对应的增益。
图17示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图17示出的电子设备的计算机系统1700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图17所示,计算机系统1700包括中央处理单元(Central Processing Unit,CPU)1701,其可以根据存储在只读存储器(Read-Only Memory,ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(Random Access Memory,RAM)1703中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1703中,还存储有系统操作所需的各种程序和数据。CPU1701、ROM1702以及RAM 1703通过总线1704彼此相连。输入/输出(Input/Output,I/O)接口1705也连接至总线1704。
以下部件连接至I/O接口1705:包括键盘、鼠标等的输入部分1706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1707;包括硬盘等的存储部分1708;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1710上,以便于从其上读出的计算机程序根据需要被安装入存储部分1708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1709从网络上被下载和安装,和/或从可拆卸介质1711被安装。在该计算机程序被中央处理单元(CPU)1701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种语音增强方法,其特征在于,包括:
根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱;
根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;
根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号,包括:
根据所述第一幅度谱和所述目标语音帧对应的相位谱计算得到所述目标语音帧所对应预增强后的功率谱;
根据所述预增强后的功率谱计算得到自相关系数;
根据所述自相关系数计算得到所述声门参数;
根据所述自相关系数和所述声门参数计算得到所述增益;
根据所述增益和声门滤波器的功率谱计算得到所述激励信号的功率谱,所述声门滤波器是根据所述声门参数构建的滤波器。
3.根据权利要求2所述的方法,其特征在于,所述根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号,包括:
根据所述声门滤波器的功率谱和所述激励信号的功率谱生成第一幅度谱;
按照所述增益对所述第一幅度谱进行增强,得到增强后的幅度谱;
根据所述目标语音帧对应的相位谱和所述增强后的幅度谱确定所述目标语音帧对应的增强语音信号。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标语音帧对应的相位谱和所述增强后的幅度谱确定所述目标语音帧对应的增强语音信号,包括:
组合所述目标语音帧对应的相位谱和所述增强后的幅度谱,得到目标复数频谱;
将所述目标复数频谱向时域进行变换,得到所述目标语音帧所对应增强语音信号的时域信号。
5.根据权利要求1所述的方法,其特征在于,所述根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱,包括:
将所述目标语音帧对应的幅度谱输入第一神经网络,所述第一神经网络是根据样本语音帧对应的幅度谱和所述样本语音帧中原始语音信号对应的幅度谱进行训练得到的;
由所述第一神经网络根据所述目标语音帧的幅度谱输出所述第一幅度谱。
6.根据权利要求1所述的方法,其特征在于,所述根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱,包括:
将所述目标语音帧对应的幅度谱输入第二神经网络,所述第二神经网络是根据样本语音帧对应的幅度谱和所述样本语音帧中原始语音信号所对应幅度谱中各个子带的幅度包络进行训练得到的;
由所述第二神经网络根据所述目标语音帧的幅度谱输出所述目标语音帧中每个子带对应的幅度包络;
根据所述目标语音帧中每个子带对应的幅度包络和所述目标语音帧的幅度谱中各频点的幅值,生成所述第一幅度谱。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标语音帧中每个子带对应的幅度包络和所述目标语音帧的幅度谱中各频点的幅值,生成所述第一幅度谱,包括:
根据所述目标语音帧中各子带所分别对应的幅度包络确定各子带对应的第一增益;按照所述各个子带对应的第一增益对所述目标语音帧的幅度谱中对应子带中每个频点的幅度值进行调整,得到所述各个分带中每一频点的第一幅值;
组合所述目标语音帧中每个频点的第一幅值,得到所述第一幅度谱。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号,包括:
根据所述第一幅度谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数;
根据所述第一幅度谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号;
根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一幅度谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数,包括:
将所述第一幅度谱输入第三神经网络中,所述第三神经网络是根据样本语音帧对应的声门参数和所述样本语音帧对应的幅度谱进行训练得到的;
由第三神经网络根据所述第一幅度谱输出所述目标语音帧对应的声门参数。
10.根据权利要求8所述的方法,其特征在于,所述根据所述第一幅度谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数,包括:
将所述第一幅度谱和所述目标语音帧的历史语音帧所对应的声门参数输入第三神经网络中,所述第三神经网络是根据样本语音帧对应的声门参数、所述样本语音帧的历史语音帧所对应的声门参数和所述样本语音帧对应的幅度谱进行训练得到的;
由第三神经网络根据所述第一幅度谱和所述目标语音帧的历史语音帧所对应声门参数输出所述目标语音帧对应的声门参数。
11.根据权利要求8所述的方法,其特征在于,所述根据所述第一幅度谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号,包括:
将所述第一幅度谱输入第四神经网络,所述第四神经网络是根据样本语音帧对应的幅度谱和样本语音帧所对应激励信号的幅度谱进行训练得到的;
由所述第四神经网络根据所述第一幅度谱输出所述目标语音帧所对应激励信号的幅度谱。
12.根据权利要求8所述的方法,其特征在于,根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益,包括:
将所述目标语音帧的历史语音帧对应的增益输入第五神经网络,所述第五神经网络是根据样本语音帧对应的增益和所述样本语音帧的历史语音帧对应的增益进行训练得到的;
由所述第五神经网络根据所述目标语音帧的历史语音帧对应的增益输出所述目标语音帧对应的增益。
13.一种语音增强装置,其特征在于,包括:
预增强模块,用于根据目标语音帧对应的幅度谱对所述目标语音帧进行预增强处理,得到第一幅度谱;
语音分解模块,用于根据所述第一幅度谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;
合成模块,用于根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
14.一种电子设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1-12中任一项所述的方法。
CN202110182834.9A 2021-02-08 2021-02-08 语音增强方法、装置、设备及存储介质 Pending CN113571081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182834.9A CN113571081A (zh) 2021-02-08 2021-02-08 语音增强方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182834.9A CN113571081A (zh) 2021-02-08 2021-02-08 语音增强方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113571081A true CN113571081A (zh) 2021-10-29

Family

ID=78161120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182834.9A Pending CN113571081A (zh) 2021-02-08 2021-02-08 语音增强方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113571081A (zh)

Similar Documents

Publication Publication Date Title
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
WO2022012195A1 (zh) 音频信号处理方法和相关装置
US20230097520A1 (en) Speech enhancement method and apparatus, device, and storage medium
EP3992964B1 (en) Voice signal processing method and apparatus, and electronic device and storage medium
Kumar Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
US20230050519A1 (en) Speech enhancement method and apparatus, device, and storage medium
Schröter et al. CLC: complex linear coding for the DNS 2020 challenge
CN114333891A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN113571081A (zh) 语音增强方法、装置、设备及存储介质
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
Ou et al. Concealing audio packet loss using frequency-consistent generative adversarial networks
CN115083429A (zh) 语音降噪的模型训练方法、语音降噪方法、装置及介质
Sunitha et al. Speech compression for better audibility using wavelet transformation with adaptive kalman filtering
Wen et al. Biophysically-inspired single-channel speech enhancement in the time domain
US20220277754A1 (en) Multi-lag format for audio coding
WO2024055751A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品
Nisa et al. A Mathematical Approach to Speech Enhancement for Speech Recognition and Speaker Identification Systems
Li et al. A Two-stage Approach to Quality Restoration of Bone-conducted Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40052886

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination