CN118116399A - 语音增强方法、装置、电子设备和计算机可读存储介质 - Google Patents

语音增强方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN118116399A
CN118116399A CN202211522863.6A CN202211522863A CN118116399A CN 118116399 A CN118116399 A CN 118116399A CN 202211522863 A CN202211522863 A CN 202211522863A CN 118116399 A CN118116399 A CN 118116399A
Authority
CN
China
Prior art keywords
data
voice
enhanced
enhancement
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211522863.6A
Other languages
English (en)
Inventor
郑鑫江
艾国
杨作兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202211522863.6A priority Critical patent/CN118116399A/zh
Publication of CN118116399A publication Critical patent/CN118116399A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本公开涉及一种语音增强方法、装置、电子设备和计算机可读存储介质,该语音增强方法包括:根据纯净语音数据、噪声音频数据、回声语音数据得到语音增强样本集,包括待增强语音样本、与待增强语音样本相关联的参考音频数据、纯净语音数据,其中待增强语音样本包括含有噪声、含有回声、以及含有噪声和回声的待增强语音样本;利用语音增强样本集中的待增强语音样本和参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型;利用训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。本公开实现了一个语音增强模型同时消除语音数据中的噪声和回声的目的。

Description

语音增强方法、装置、电子设备和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种语音增强方法、装置、电子设备和计算机可读存储介质。
背景技术
在各种语音应用环境中,常常因为使用人所处环境嘈杂,造成语音的背景噪音较大,导致体验感受差的情况。例如,在视频会议场景中,存在相互交流时听到对方回声的现象,导致交流不顺;在智能家居场景中,会因为家居噪声,而出现对某些智能家居控制不流畅的现象;在听障患者的助听场景中,当处于吵闹的环境中时,往往助听设备在增大语音音量的同时夹杂的噪音也被放大,导致在嘈杂环境中难以与他人进行正常交流沟通的情况。
因此,如何对夹杂噪音和回声的语音进行增强,以消除噪音和回声,便成为亟待解决的问题。
发明内容
有鉴于此,本公开提供一种语音增强方法、装置、电子设备和计算机可读存储介质,实现仅采用一个语音增强模型同时消除语音数据中的噪声和回声的目的。
本公开的技术方案是这样实现的:
一种语音增强方法,包括:
获取多个纯净语音数据、多个噪声音频数据和多个回声语音数据,根据多个所述纯净语音数据、多个所述噪声音频数据、多个所述回声语音数据,得到语音增强样本集,其中,所述语音增强样本集包括待增强语音样本、与所述待增强语音样本相关联的参考音频数据、与所述待增强语音样本相关联的纯净语音数据,其中所述待增强语音样本包括含有噪声的待增强语音样本、含有回声的待增强语音样本、含有噪声和回声的待增强语音样本,其中,所述回声语音数据为通过采集扬声器播放的语音而得到的语音数据;
利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型;
利用所述训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。
进一步,所述根据多个所述纯净语音数据、多个所述噪声音频数据、多个所述回声语音数据,得到语音增强样本集,包括:
分别将多个所述纯净语音数据中的任意一个所述纯净语音数据与多个所述噪声音频数据中的任意一个所述噪声音频数据,采用不同的信噪比进行一对一叠加,得到多个所述含有噪声的待增强语音样本;
分别将多个所述纯净语音数据中的任意一个所述纯净语音数据,与进行增益处理和混响处理后的多个所述回声语音数据中的任意一个所述回声语音数据进行一对一叠加,得到多个所述含有回声的待增强语音样本;
分别将多个所述纯净语音数据中的任意一个所述纯净语音数据与多个所述噪声音频数据中的任意一个所述噪声音频数据,采用不同的信噪比进行一对一叠加,并与进行增益处理和混响处理后的多个所述回声语音数据中的任意一个所述回声语音数据进行一对一叠加,得到多个所述含有噪声和回声的待增强语音样本。
进一步,所述语音增强模型包括特征提取模块和增强模块,其中,所述增强模块包括N个语音增强结构,N≥1,每个所述语音增强结构包括宏观增强子结构、微观增强子结构和增益子结构;
所述利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型,包括:
从所述语音增强样本集中获取任意一个待增强语音样本,将所述任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述任意一个待增强语音样本的实部数据和虚部数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的参考音频数据,将所述参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述参考音频数据的实部数据和虚部数据;其中,若所述任意一个待增强语音样本为所述含有噪声的待增强语音样本,则所述参考音频数据为静音音频数据;若所述任意一个待增强语音样本为所述含有回声的待增强语音样本,或者若所述任意一个待增强语音样本为所述含有噪声和回声的待增强语音样本,则所述参考音频数据为用于送入所述扬声器进行所述播放的纯净语音数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、以及所述参考音频数据的实部数据和虚部数据输入所述特征提取模块,通过所述特征提取模块得到音频特征数据,所述音频特征数据同时含有所述任意一个待增强语音样本的特征和所述参考音频数据的特征;
将所述音频特征数据输入每一个所述语音增强结构中的宏观增强子结构和微观增强子结构;
将所述任意一个待增强语音样本的实部数据和虚部数据输入所述N个语音增强结构中的第1个语音增强结构中的宏观增强子结构和微观增强子结构,通过所述第1个语音增强结构中的宏观增强子结构得到第1实部增强数据和第1虚部增强数据,通过所述第1个语音增强结构中的微观增强子结构得到第1实部微调数据和第1虚部微调数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、所述第1实部增强数据和第1虚部增强数据、所述第1实部微调数据和第1虚部微调数据输入所述第1个语音增强结构中的增益子结构,通过所述第1个语音增强结构中的增益子结构得到第1实部增益数据和第1虚部增益数据;
将所述N个语音增强结构中的第q-1个语音增强结构中的增益子结构得到的第q-1实部增益数据和第q-1虚部增益数据输入所述N个语音增强结构中的第q个语音增强结构中的宏观增强子结构和微观增强子结构,通过所述第q个语音增强结构中的宏观增强子结构得到第q实部增强数据和第q虚部增强数据,通过所述第q个语音增强结构中的微观增强子结构得到第q实部微调数据和第q虚部微调数据,其中,1<q≤N;
将所述第q-1实部增益数据和第q-1虚部增益数据、所述第q实部增强数据和第q虚部增强数据、所述第q实部微调数据和第q虚部微调数据输入所述第q个语音增强结构中的增益子结构,通过所述第q个语音增强结构中的增益子结构得到第q实部增益数据和第q虚部增益数据;
将所述N个语音增强结构中的第N个语音增强结构中的增益子结构得到的第N实部增益数据和第N虚部增益数据,作为所述语音增强模型的输出数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的纯净目标语音数据,将所述纯净目标语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述纯净目标语音数据的实部数据和虚部数据,其中,所述纯净目标语音数据为用于得到所述任意一个待增强语音样本所使用的纯净语音数据;
根据每一个所述语音增强结构得到的实部增益数据、虚部增益数据和输出幅度,以及所述纯净目标语音数据的实部数据、虚部数据和幅度,构建所述语音增强模型的损失函数;
根据所述语音增强模型的损失函数对所述语音增强模型中的参数进行调整,得到第一子训练后的语音增强模型;
将所述第一子训练后的语音增强模型确定为所述训练后的语音增强模型。
进一步,所述利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型,包括:
利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行第一子训练,得到第一子训练后的语音增强模型;
将所述第一子训练后的语音增强模型和待训练的分类网络组成生成式对抗网络;
利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据、所述纯净语音数据,对所述生成式对抗网络中的所述待训练的分类网络进行第二子训练,得到第二子训练后的分类网络;
利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据,对所述生成式对抗网络中的所述第一子训练后的语音增强模型进行微调子训练,得到微调子训练后的语音增强模型,其中,在进行所述微调子训练的过程中,不更新所述第二子训练后的分类网络中的参数,仅更新所述第一子训练后的语音增强模型中的参数;
将所述微调子训练后的语音增强模型确定为所述训练后的语音增强模型。
进一步,所述利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据、所述纯净语音数据,对所述生成式对抗网络中的所述待训练的分类网络进行第二子训练,得到第二子训练后的分类网络,包括:
从所述语音增强样本集中获取任意一个待增强语音样本,将所述任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述任意一个待增强语音样本的实部数据和虚部数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的参考音频数据,将所述参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述参考音频数据的实部数据和虚部数据;其中,若所述任意一个待增强语音样本为所述含有噪声的待增强语音样本,则所述参考音频数据为静音音频数据;若所述任意一个待增强语音样本为所述含有回声的待增强语音样本,或者若所述任意一个待增强语音样本为所述含有噪声和回声的待增强语音样本,则所述参考音频数据为用于送入所述扬声器进行所述播放的纯净语音数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、以及所述参考音频数据的实部数据和虚部数据输入所述第一子训练后的语音增强模型,通过所述第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据;
将所述第一子训练后的语音增强模型的输出数据,输入所述待训练的分类网络,通过所述待训练的分类网络,得到第一概率值;
从所述语音增强样本集中获取关联于所述任意一个待增强语音样本的纯净语音数据,将所述纯净语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述纯净语音数据的实部数据和虚部数据;
将所述纯净语音数据的实部数据和虚部数据输入所述待训练的分类网络,通过所述待训练的分类网络,得到第二概率值;
根据所述第一概率值和所述第二概率值,构建所述分类网络的损失函数;
根据所述分类网络的损失函数对所述分类网络中的参数进行调整,得到所述第二子训练后的分类网络。
进一步,所述利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据,对所述生成式对抗网络中的所述第一子训练后的语音增强模型进行微调子训练,得到微调子训练后的语音增强模型,包括:
从所述语音增强样本集中获取任意一个待增强语音样本,将所述任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述任意一个待增强语音样本的实部数据和虚部数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的参考音频数据,将所述参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述参考音频数据的实部数据和虚部数据;其中,若所述任意一个待增强语音样本为所述含有噪声的待增强语音样本,则所述参考音频数据为静音音频数据;若所述任意一个待增强语音样本为所述含有回声的待增强语音样本,或者若所述任意一个待增强语音样本为所述含有噪声和回声的待增强语音样本,则所述参考音频数据为用于送入所述扬声器进行所述播放的纯净语音数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、以及所述参考音频数据的实部数据和虚部数据输入所述第一子训练后的语音增强模型,通过所述第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据;
将所述第一子训练后的语音增强模型的输出数据,输入所述第二子训练后的分类网络,通过所述第二子训练后的分类网络,得到第三概率值;
根据所述第三概率值构建所述语音增强模型的微调损失函数;
根据所述语音增强模型的微调损失函数对所述第一子训练后的语音增强模型中的参数进行调整,得到所述微调子训练后的语音增强模型。
进一步,所述利用所述训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据,包括:
获取所述待增强的语音数据,将所述待增强的语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述待增强的语音数据的实部数据和虚部数据;
将所述待增强的语音数据的实部数据和虚部数据输入所述训练后的语音增强模型,通过所述训练后的语音增强模型,得到关联于所述待增强的语音数据的输出数据;
将关联于所述待增强的语音数据的输出数据转换至时域数据形式,得到所述语音增强后的语音数据。
进一步,所述从时域数据形式转换至频域数据形式,采用短时傅里叶变换STFT实现。
一种语音增强装置,包括:
样本获得模块,被配置为执行获取多个纯净语音数据、多个噪声音频数据和多个回声语音数据,根据多个所述纯净语音数据、多个所述噪声音频数据、多个所述回声语音数据,得到语音增强样本集,其中,所述语音增强样本集包括待增强语音样本、与所述待增强语音样本相关联的参考音频数据、与所述待增强语音样本相关联的纯净语音数据,其中所述待增强语音样本包括含有噪声的待增强语音样本、含有回声的待增强语音样本、含有噪声和回声的待增强语音样本,其中,所述回声语音数据为通过采集扬声器播放的语音而得到的语音数据;
训练模块,被配置为执行利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型;
语音增强模块,被配置为执行利用所述训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。
一种电子设备,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如上任一项所述的语音增强方法。
一种计算机可读存储介质,当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时,使得所述电子设备能够实现如上任一项所述的语音增强方法。
从上述方案可以看出,本公开提供一种语音增强方法、装置、电子设备和计算机可读存储介质,利用分别包含噪音、回声以及同时包含噪音和回声的待增强语音样本对语音增强模型进行训练,使得语音增强模型同时具有分析噪音和回声的能力,从而利用训练后的语音增强模型实现了语音降噪和回声消除,达到了良好的消噪和消回声的效果,在进一步的方案中,结合生成式对抗网络对语音增强模型进行微调,使得语音增强模型同时对噪音和回声的分析能力进一步增强,从而利用微调后的语音增强模型实现了理想的语音降噪和回声消除,并且不会对语音造成失真,并且,由于仅采用一个语音增强模型便能够实现消噪和消回声的目的,因此也大大降低了系统复杂度。
附图说明
图1是根据一示意性实施例示出的一种语音增强方法的流程图;
图2是根据一示意性实施例示出的得到语音增强样本集的流程图;
图3A是根据一示意性实施例示出的得到含有噪声的待增强语音样本的示意图;
图3B是根据一示意性实施例示出的得到含有回声的待增强语音样本的示意图;
图3C是根据一示意性实施例示出的得到含有噪声和回声的待增强语音样本的示意图;
图4是根据一示意性实施例示出的语音增强模型的结构示意图;
图5是根据一示意性实施例示出的对待训练的语音增强模型进行第一子训练的流程图;
图6是根据一示意性实施例示出的进行第一子训练、第二子训练和微调子训练的流程图;
图7是根据一示意性实施例示出的生成式对抗网络的逻辑结构示意图;
图8是根据一示意性实施例示出的对待训练的分类网络进行第二子训练的流程图;
图9是根据一示意性实施例示出的对第一子训练后的语音增强模型进行微调子训练的流程图;
图10是根据一示意性实施例示出的利用微调子训练后的语音增强模型得到语音增强后的语音数据的流程图;
图11是根据一示意性实施例示出的语音增强方法的具体实施例流程图;
图12是根据一示意性实施例示出的一种语音增强装置的逻辑结构示意图;
图13是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本公开作进一步详细说明。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
现有的语音增强方法中,分为基于传统信号处理和基于深度学习两大流派。其中,基于传统信号处理的方法,对平稳噪声具有良好的降噪效果,但是,现实场景中所存在的噪声多数时候是非平稳状态的,而基于传统信号处理的方法对于非平稳状态的降噪效果不佳。基于深度学习的方法中,目前多数深度学习的方法只考虑了音频的幅度信息,并没有将相位信息考虑在内,虽然其对于非平稳的噪声具有良好的降噪效果,但是它也会对语音造成一定的损伤,并且,目前基于深度学习的方法,往往只能进行降噪或者回声消除的一种处理,如果需要达到同时降噪降回声的目的,则需要训练两个网络以分别进行语音的降噪和回声消除,从而增加了系统的复杂度。
有鉴于此,本公开实施例提供了一种语音增强方法、装置、电子设备和计算机可读存储介质,利用分别包含噪音、回声以及同时包含噪音和回声的待增强语音样本对一个语音增强模型进行训练,使得该语音增强模型同时具有分析噪音和回声的能力,从而利用训练后的语音增强模型能够实现语音降噪和回声消除的目的,并且不会对语音造成失真,达到良好的消噪和消回声的效果,并且,由于仅采用一个语音增强模型便能够实现消噪和消回声的目的,因此也可以降低系统的复杂度。
图1是根据一示意性实施例示出的一种语音增强方法的流程图,如图1所示,该语音增强方法主要包括以下步骤101至步骤103。
步骤101、获取多个纯净语音数据、多个噪声音频数据和多个回声语音数据,根据多个纯净语音数据、多个噪声音频数据、多个回声语音数据,得到语音增强样本集,其中,语音增强样本集包括待增强语音样本、与待增强语音样本相关联的参考音频数据、与待增强语音样本相关联的纯净语音数据,其中待增强语音样本包括含有噪声的待增强语音样本、含有回声的待增强语音样本、含有噪声和回声的待增强语音样本,其中,回声语音数据为通过采集扬声器播放的语音而得到的语音数据。在示意性实施例中,回声语音数据也可称为扬声器播放语音数据。
在示意性实施例中,语音增强样本集中主要包括三类待增强语音样本,第一类待增强语音样本为含有噪声的待增强语音样本,第二类待增强语音样本为含有回声的待增强语音样本,第三类待增强语音样本为含有噪声和回声的待增强语音样本。进一步地,第一类待增强语音样本中的每一个待增强语音样本中均同时含有噪声和纯净语音,第二类待增强语音样本中的每一个待增强语音样本中均同时含有回声和纯净语音,第三类待增强语音样本中的每一个待增强语音样本中均同时含有噪声、回声和纯净语音,需要说明的是,同一个待增强语音样本中的回声可以是该同一个待增强语音样本中的纯净语音经过处理得到的回声也可以是该同一个待增强语音样本以外的其它语音的回声。本公开实施例中,第一类待增强语音样本是用于降噪的训练音频,第二类待增强语音样本是用于回声消除的训练音频,第三类待增强语音样本是用于同时进行降噪和回声消除的训练音频。
图2是根据一示意性实施例示出的得到语音增强样本集的流程图,如图2所示,步骤101中的根据多个纯净语音数据、多个噪声音频数据、多个回声语音数据,得到语音增强样本集,主要包括以下步骤201至步骤203。
步骤201、分别将多个纯净语音数据中的任意一个纯净语音数据与多个噪声音频数据中的任意一个噪声音频数据,采用不同的信噪比进行一对一叠加,得到多个含有噪声的待增强语音样本。
图3A是根据一示意性实施例示出的得到含有噪声的待增强语音样本的示意图。如图3A所示,在示意性实施例中,第一类待增强语音样本是将纯净语音数据和噪声音频数据进行不同信噪比叠加而生成。含有噪声的待增强语音样本的时间长度可以是1秒至若干秒,纯净语音数据的时间长度可以是1秒至若干秒,噪声音频数据的时间长度可以是1秒至若干秒。
例如,假设有1000个纯净语音数据和5000个噪声音频数据,在示意性实施例中,从1000个纯净语音数据中随机抽取1个纯净语音数据并从5000个噪声音频数据中随机抽取1个噪声音频数据,将随机抽取的1个纯净语音数据和随机抽取的1个噪声音频数据以随机的信噪比进行叠加得到1个含有噪声的待增强语音样本。采用同样的方式,以此类推得到多个含有噪声的待增强语音样本。
步骤202、分别将多个纯净语音数据中的任意一个纯净语音数据,与进行增益处理和混响处理后的多个回声语音数据中的任意一个回声语音数据进行一对一叠加,得到多个含有回声的待增强语音样本。
图3B是根据一示意性实施例示出的得到含有回声的待增强语音样本的示意图。如图3B所示,在示意性实施例中,第二类待增强语音样本是将纯净语音数据和经过增益处理和混响处理后由扬声器播放的语音数据进行叠加而生成。含有回声的待增强语音样本的时间长度可以是1秒至若干秒,纯净语音数据的时间长度可以是1秒至若干秒,扬声器播放的语音数据的时间长度可以是1秒至若干秒。
例如,假设有1000个纯净语音数据,在示意性实施例中,从1000个纯净语音数据中随机抽取1个纯净语音数据,从1000个纯净语音数据中再随机抽取1个纯净语音数据并进行增益处理和混响处理后由扬声器进行播放得到扬声器播放的语音数据,将随机抽取的1个纯净语音数据和扬声器播放的语音数据进行叠加得到1个含有回声的待增强语音样本。采用同样的方式,以此类推得到多个含有回声的待增强语音样本。
步骤203、分别将多个纯净语音数据中的任意一个纯净语音数据与多个噪声音频数据中的任意一个噪声音频数据,采用不同的信噪比进行一对一叠加,并与进行增益处理和混响处理后的多个回声语音数据中的任意一个回声语音数据进行一对一叠加,得到多个含有噪声和回声的待增强语音样本。
图3C是根据一示意性实施例示出的得到含有噪声和回声的待增强语音样本的示意图。如图3B所示,在示意性实施例中,第三类待增强语音样本是将纯净语音数据和噪声音频数据进行不同信噪比叠加,并和经过增益处理和混响处理后由扬声器播放的语音数据进行叠加而生成。含有噪声和回声的待增强语音样本的时间长度可以是1秒至若干秒,纯净语音数据的时间长度可以是1秒至若干秒,噪声音频数据的时间长度可以是1秒至若干秒,扬声器播放的语音数据的时间长度可以是1秒至若干秒。
例如,假设有1000个纯净语音数据和5000个噪声音频数据,在示意性实施例中,从1000个纯净语音数据中随机抽取1个纯净语音数据,从5000个噪声音频数据中随机抽取1个噪声音频数据,从1000个纯净语音数据中再随机抽取1个纯净语音数据并进行增益处理和混响处理后由扬声器进行播放得到扬声器播放的语音数据,将随机抽取的1个纯净语音数据和随机抽取的1个噪声音频数据以随机的信噪比进行叠加并叠加扬声器播放的语音数据,得到1个含有噪声和回声的待增强语音样本。采用同样的方式,以此类推得到多个含有噪声和回声的待增强语音样本。
通过上述示意性实施例,得到的语音增强样本集中包括了三种组合形式的待增强语音样本,含有噪声的待增强语音样本中同时含有纯净语音特征和噪声特征,含有回声的待增强语音样本中同时含有纯净语音特征和回声语音特征,含有噪声和回声的待增强语音样本中同时含有纯净语音特征、噪声特征和回声语音特征,因此能够涵盖噪音、回声以及噪音回声同时存在的各种随机场景,进而基于该语音增强样本集进行训练后的语音增强模型能够从所接收的语音数据中准确识别出其中的纯净语音特征,从而实现对含有噪音、回声以及同时含有噪音和回声的语音数据中的纯净语音部分的增强。
步骤102、利用语音增强样本集中的待增强语音样本和参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型。
图4是根据一示意性实施例示出的语音增强模型的结构示意图,如图4所示,该语音增强模型包括特征提取模块401和增强模块402,其中,增强模块402包括N个语音增强结构4021,N≥1,每个语音增强结构4021均包括宏观增强子结构、微观增强子结构和增益子结构。
基于图4所示的语音增强模型的结构,其中,特征提取模块401包括两个输入,分别为待增强语音的实部数据和虚部数据,以及参考语音的实部数据和虚部数据。其中,可参见后续说明,实部数据和虚部数据是指语音数据从时域转换至频域后的数据中的实部部分和虚部部分。例如,若含有噪声的待增强语音样本作为待增强语音,则含有噪声的待增强语音样本的实部数据和虚部数据是该含有噪声的待增强语音样本从时域转换至频域后的数据中的实部部分和虚部部分;若含有回声的待增强语音样本作为待增强语音,则含有回声的待增强语音样本的实部数据和虚部数据是该含有回声的待增强语音样本从时域转换至频域后的数据中的实部部分和虚部部分;若含有噪声和回声的待增强语音样本作为待增强语音,则含有噪声和回声的待增强语音样本的实部数据和虚部数据是该含有噪声和回声的待增强语音样本从时域转换至频域后的数据中的实部部分和虚部部分;若纯净语音数据作为参考语音,则纯净语音数据的实部数据和虚部数据是该纯净语音数据从时域转换至频域后的数据中的实部部分和虚部部分。
基于图4所示的语音增强模型的结构,特征提取模块401对输入的数据进行特征提取得到音频特征数据,所得到的音频特征数据作为增强模块402的N个语音增强结构4021中的宏观增强子结构和微观增强子结构的第一输入数据。
基于图4所示的语音增强模型的结构,待增强语音的实部数据和虚部数据还同时作为N个语音增强结构4021中的第1个语音增强结构中的宏观增强子结构的输入数据、微观增强子结构的输入数据和增益子结构的输入数据。N个语音增强结构4021中的每一个语音增强结构中的宏观增强子结构的输出数据和微观增强子结构的输出数据均作为该语音增强结构中的增益子结构的输入数据。除第1个语音增强结构以外的其它语音增强结构4021中的增益子结构的输入数据还包括其前一级语音增强结构中的增益子结构的输出数据,例如,N个语音增强结构4021中的第q个语音增强结构中的增益子结构的输入数据还包括第q-1个语音增强结构中的增益子结构的输出数据,第q个语音增强结构中的增益子结构的输出数据还作为第q+1个语音增强结构中的增益子结构的输入数据。第N个语音增强结构中的增益子结构的输出数据为整个语音增强模型的输出数据,因为语音增强模型的输入数据是语音数据的实部数据和虚部数据,最终,语音增强模型的输出数据是经过N个语音增强结构的N次增强后的实部数据和虚部数据,在进行语音识别的任务时,需要对语音增强模型的输出数据进行从频域到时域的转换,而得到增强后的时域中的语音数据。
以代表数字1、2、q(1<q<N)、N的形式对图4所示的语音增强模型的结构和数据流说明如下。
特征提取模块401的输入数据为待增强语音的实部数据和虚部数据、以及参考语音的实部数据和虚部数据;特征提取模块401对其输入数据进行特征提取得到音频特征数据。
第1个语音增强结构中的宏观增强子结构的输入数据包括待增强语音的实部数据和虚部数据、以及特征提取模块401输出的音频特征数据,第1个语音增强结构中的宏观增强子结构用于对输入的数据进行宏观增强处理得到第1实部增强数据a1,1和第1虚部增强数据a1,2;第1个语音增强结构中的微观增强子结构的输入数据包括待增强语音的实部数据和虚部数据、以及特征提取模块401输出的音频特征数据,第1个语音增强结构中的微观增强子结构用于对输入的数据进行微调处理得到第1实部微调数据b1,1和第1虚部微调数据b1,2;第1个语音增强结构中的增益子结构的输入数据包括第1实部增强数据a1,1和第1虚部增强数据a1,2、第1实部微调数据b1,1和第1虚部微调数据b1,2、以及待增强语音的实部数据和虚部数据,第1个语音增强结构中的增益子结构用于对输入的数据进行增益处理得到第1实部增益数据c1,1和第1虚部增益数据c1,2
第2个语音增强结构中的宏观增强子结构的输入数据包括第1实部增益数据c1,1和第1虚部增益数据c1,2、以及特征提取模块401输出的音频特征数据,第2个语音增强结构中的宏观增强子结构用于对输入的数据进行宏观增强处理得到第2实部增强数据a2,1和第2虚部增强数据a2,2;第2个语音增强结构中的微观增强子结构的输入数据包括第1实部增益数据c1,1和第1虚部增益数据c1,2、以及特征提取模块401输出的音频特征数据,第2个语音增强结构中的微观增强子结构用于对输入的数据进行微调处理得到第2实部微调数据b2,1和第2虚部微调数据b2,2;第2个语音增强结构中的增益子结构的输入数据包括第2实部增强数据a2,1和第2虚部增强数据a2,2、第2实部微调数据b2,1和第2虚部微调数据b2,2、以及第1实部增益数据c1,1和第1虚部增益数据c1,2,第2个语音增强结构中的增益子结构用于对输入的数据进行增益处理得到第2实部增益数据c2,1和第2虚部增益数据c2,2
第q个语音增强结构中的宏观增强子结构的输入数据包括第q-1实部增益数据cq-1,1和第q-1虚部增益数据cq-1,2、以及特征提取模块401输出的音频特征数据,第q个语音增强结构中的宏观增强子结构用于对输入的数据进行宏观增强处理得到第q实部增强数据aq,1和第q虚部增强数据aq,2;第q个语音增强结构中的微观增强子结构的输入数据包括第q-1实部增益数据cq-1,1和第q-1虚部增益数据cq-1,2、以及特征提取模块401输出的音频特征数据,第q个语音增强结构中的微观增强子结构用于对输入的数据进行微调处理得到第q实部微调数据bq,1和第q虚部微调数据bq,2;第q个语音增强结构中的增益子结构的输入数据包括第q实部增强数据aq,1和第q虚部增强数据aq,2、第q实部微调数据bq,1和第q虚部微调数据bq,2、以及第q-1实部增益数据cq-1,1和第q-1虚部增益数据cq-1,2,第q个语音增强结构中的增益子结构用于对输入的数据进行增益处理得到第q实部增益数据cq,1和第q虚部增益数据cq,2
第N个语音增强结构中的宏观增强子结构的输入数据包括第N-1实部增益数据cN-1,1和第N-1虚部增益数据cN-1,2、以及特征提取模块401输出的音频特征数据,第N个语音增强结构中的宏观增强子结构用于对输入的数据进行宏观增强处理得到第N实部增强数据aN,1和第N虚部增强数据aN,2;第N个语音增强结构中的微观增强子结构的输入数据包括第N-1实部增益数据cN-1,1和第N-1虚部增益数据cN-1,2、以及特征提取模块401输出的音频特征数据,第N个语音增强结构中的微观增强子结构用于对输入的数据进行微调处理得到第N实部微调数据bN,1和第N虚部微调数据bN,2;第N个语音增强结构中的增益子结构的输入数据包括第N实部增强数据aN,1和第N虚部增强数据aN,2、第N实部微调数据bN,1和第N虚部微调数据bN,2、以及第N-1实部增益数据cN-1,1和第N-1虚部增益数据cN-1,2,第N个语音增强结构中的增益子结构用于对输入的数据进行增益处理得到第N实部增益数据cN,1和第N虚部增益数据cN,2;第N实部增益数据cN,1和第N虚部增益数据cN,2作为整个语音增强模型的输出数据。
以上是对本公开实施例中的语音增强模型的结构和数据流的一般性描述。在示意性实施例中,语音增强模型的增强模块402中语音增强结构4021的数量可以根据需求和设计进行调整,增强模块402中包含的语音增强结构4021的最少数量可以为1,语音增强结构4021的数量越多则语音增强的效果越好,同时进行语音增强所消耗的算力和资源越大。实际使用中,可以根据语音增强效果的需求和资源消耗的限制而确定较优数量的语音增强结构4021,以实现语音增强效果和资源消耗之间较佳的平衡。
图5是根据一示意性实施例示出的对待训练的语音增强模型进行训练的流程图,如图5所示,并基于图4所示的语音增强模型的结构,在步骤102中,利用语音增强样本集中的待增强语音样本和参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型,可以包括以下步骤501至步骤513。
步骤501、从语音增强样本集中获取任意一个待增强语音样本,将任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到任意一个待增强语音样本的实部数据和虚部数据。
在示意性实施例中,从时域数据形式转换至频域数据形式,采用短时傅里叶变换(Short-Time Fourier Transform,STFT)实现。具体地,从时域数据形式转换至频域数据的步骤可以包括对语音数据进行分帧处理的步骤、加窗处理的步骤、快速傅里叶变换(FastFourier Fransform,FFT)处理的步骤。关于从时域数据形式转换至频域数据形式的具体执行过程,如分帧、加窗、FFT等均可采用现有技术实现,此处不再展开赘述。
在示意性实施例中,步骤501包括从语音增强样本集中获取待增强语音样本A,待增强语音样本A可以是从语音增强样本集中获取任的意一个待增强语音样本,将待增强语音样本A从时域数据形式转换至频域数据形式,并从频域数据形式中得到待增强语音样本A的实部数据和虚部数据。
步骤502、从语音增强样本集中获取与任意一个待增强语音样本相关联的参考音频数据,将参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到参考音频数据的实部数据和虚部数据;其中,若任意一个待增强语音样本为含有噪声的待增强语音样本,则参考音频数据为静音音频数据;若任意一个待增强语音样本为含有回声的待增强语音样本,或者若任意一个待增强语音样本为含有噪声和回声的待增强语音样本,则参考音频数据为用于送入扬声器进行播放的纯净语音数据。
其中,任意一个待增强语音样本为含有噪声的待增强语音样本,参考音频数据为静音音频数据,可使得经过训练后的语音增强模型能够起到对含噪语音进行降噪的作用。任意一个待增强语音样本为含有回声的待增强语音样本或者任意一个待增强语音样本为含有噪声和回声的待增强语音样本,参考音频数据为用于送入扬声器进行播放的纯净语音数据,可使得经过训练后的语音增强模型能够起到对含回声语音进行回声消除的作用。
在示意性实施例中,步骤502包括获取与待增强语音样本A相关联的参考音频数据B,将参考音频数据B从时域数据形式转换至频域数据形式,并从频域数据形式中得到参考音频数据B的实部数据和虚部数据。
步骤503、将任意一个待增强语音样本的实部数据和虚部数据、以及参考音频数据的实部数据和虚部数据输入特征提取模块,通过特征提取模块得到音频特征数据,音频特征数据同时含有任意一个待增强语音样本的特征和参考音频数据的特征。
在示意性实施例中,步骤503包括将待增强语音样本A的实部数据和虚部数据、以及参考音频数据B的实部数据和虚部数据输入特征提取模块,通过特征提取模块得到音频特征数据,音频特征数据同时含有待增强语音样本A的特征和参考音频数据B的特征。
步骤504、将音频特征数据输入每一个语音增强结构中的宏观增强子结构和微观增强子结构。
例如图4所示中,将音频特征数据输入第1个语音增强结构中的宏观增强子结构和微观增强子结构到第N个语音增强结构中的宏观增强子结构和微观增强子结构。
步骤505、将任意一个待增强语音样本的实部数据和虚部数据输入N个语音增强结构中的第1个语音增强结构中的宏观增强子结构和微观增强子结构,通过第1个语音增强结构中的宏观增强子结构得到第1实部增强数据和第1虚部增强数据,通过第1个语音增强结构中的微观增强子结构得到第1实部微调数据和第1虚部微调数据。
在示意性实施例中,步骤505包括,第1个语音增强结构中的宏观增强子结构根据待增强语音样本A的实部数据和虚部数据以及音频特征数据得到第1实部增强数据和第1虚部增强数据,第1个语音增强结构中的微观增强子结构根据待增强语音样本A的实部数据和虚部数据以及音频特征数据得到第1实部微调数据和第1虚部微调数据。
步骤506、将任意一个待增强语音样本的实部数据和虚部数据、第1实部增强数据和第1虚部增强数据、第1实部微调数据和第1虚部微调数据输入第1个语音增强结构中的增益子结构,通过第1个语音增强结构中的增益子结构得到第1实部增益数据和第1虚部增益数据。
在示意性实施例中,步骤506包括,将待增强语音样本A的实部数据和虚部数据、第1实部增强数据和第1虚部增强数据、第1实部微调数据和第1虚部微调数据输入第1个语音增强结构中的增益子结构,通过第1个语音增强结构中的增益子结构得到第1实部增益数据和第1虚部增益数据。
步骤507、将N个语音增强结构中的第q-1个语音增强结构中的增益子结构得到的第q-1实部增益数据和第q-1虚部增益数据输入N个语音增强结构中的第q个语音增强结构中的宏观增强子结构和微观增强子结构,通过第q个语音增强结构中的宏观增强子结构得到第q实部增强数据和第q虚部增强数据,通过第q个语音增强结构中的微观增强子结构得到第q实部微调数据和第q虚部微调数据,其中,1<q≤N。
在示意性实施例中,第q个语音增强结构中的宏观增强子结构根据待增强语音样本A的实部数据和虚部数据和第q-1实部增益数据、第q-1虚部增益数据得到第q实部增强数据和第q虚部增强数据。
在示意性实施例中,第q个语音增强结构中的微观增强子结构根据待增强语音样本A的实部数据和虚部数据和第q-1实部增益数据、第q-1虚部增益数据得到第q实部微调数据和第q虚部微调数据。
在以q=2为例的示意性实施例中,步骤507包括,将第1实部增益数据和第1虚部增益数据输入第2个语音增强结构中的宏观增强子结构和微观增强子结构,通过第2个语音增强结构中的宏观增强子结构得到第2实部增强数据和第2虚部增强数据,通过第2个语音增强结构中的微观增强子结构得到第2实部微调数据和第2虚部微调数据。
在示意性实施例中,第2个语音增强结构中的宏观增强子结构根据待增强语音样本A的实部数据和虚部数据和第1实部增益数据、第1虚部增益数据得到第2实部增强数据和第2虚部增强数据。
在示意性实施例中,第2个语音增强结构中的微观增强子结构根据待增强语音样本A的实部数据和虚部数据和第1实部增益数据、第1虚部增益数据得到第2实部微调数据和第2虚部微调数据。
步骤508、将第q-1实部增益数据和第q-1虚部增益数据、第q实部增强数据和第q虚部增强数据、第q实部微调数据和第q虚部微调数据输入第q个语音增强结构中的增益子结构,通过第q个语音增强结构中的增益子结构得到第q实部增益数据和第q虚部增益数据。
在以q=2为例的示意性实施例中,步骤508包括,将第1实部增益数据和第1虚部增益数据、第2实部增强数据和第2虚部增强数据、第2实部微调数据和第2虚部微调数据输入第2个语音增强结构中的增益子结构,通过第2个语音增强结构中的增益子结构得到第2实部增益数据和第2虚部增益数据。
步骤509、将N个语音增强结构中的第N个语音增强结构中的增益子结构得到的第N实部增益数据和第N虚部增益数据,作为语音增强模型的输出数据。
步骤510、从语音增强样本集中获取与任意一个待增强语音样本相关联的纯净目标语音数据,将纯净目标语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到纯净目标语音数据的实部数据和虚部数据,其中,纯净目标语音数据为用于得到任意一个待增强语音样本所使用的纯净语音数据。
在示意性实施例中,与待增强语音样本相关联的纯净目标语音数据例如语音数据A’,步骤510包括,获取与待增强语音样本A相关联的纯净目标语音数据A’,将纯净目标语音数据A’从时域数据形式转换至频域数据形式,并从频域数据形式中得到纯净目标语音数据A’的实部数据和虚部数据,其中,纯净目标语音数据A’为得到任意一个待增强语音样本A所使用的纯净语音数据。
步骤511、根据每一个语音增强结构得到的实部增益数据、虚部增益数据和输出幅度,以及纯净目标语音数据的实部数据、虚部数据和幅度,构建语音增强模型的损失函数。
其中,将实部增益数据的平方与虚部增益数据的平方相加之后,开平方,得到输出幅度。以公式表示为:
其中,amp为输出幅度,c1为实部增益数据,c2为虚部增益数据。
在示意性实施例中,语音增强模型的损失函数例如:
其中,
其中λq为第q个语音增强结构的系数(例如,权重),λq的取值为大于0小于1的数。Lq为第q个语音增强结构的损失函数,loss1为语音增强模型的损失。
表示第q个语音增强结构得到的第q实部增益数据,/>表示第q个语音增强结构得到的第q虚部增益数据,Xr表示与待增强语音样本相关联的纯净目标语音数据的实部数据,Xi表示与待增强语音样本相关联的纯净目标语音数据的虚部数据。/>表示第q个语音增强结构的输出幅度,|X|表示与待增强语音样本相关联的纯净目标语音数据的幅度。表示2范数的平方。
本公开实施例中,同时考虑了相位信息,其中,相位是由实部数据和虚部数据得到的。从语音增强模型的损失函数能够看出,其中有纯净目标语音数据的实部数据和实部增益数据之间的损失,以及纯净目标语音数据的虚部数据和虚部增益数据之间的损失,因此,语音增强模型的损失函数中即考虑到的幅度信息也考虑到相位信息,从而可使得训练后的语音增强模型能够同时消噪和消回声,达到良好的语音增强效果。
步骤512、根据语音增强模型的损失函数对语音增强模型中的参数进行调整,得到第一子训练的语音增强模型。
在示意性实施例中,可采用反向传播的方式对语音增强模型中的参数进行调整。
步骤513、将第一子训练后的语音增强模型确定为训练后的语音增强模型。
上述步骤501至步骤512可以相同和/或不同的待增强语音样本而重复执行,直到损失收敛到预设范围或者迭代达到设定次数后,完成语音增强模型的第一子训练。
经过上述步骤501至步骤513得到的训练后的语音增强模型能够实现对待增强语音数据中的噪音和回声的消除,能够达到良好的消噪和消回声的效果。在此基础上,为了得到更佳的消噪和消回声的效果,使得训练后的语音增强模型所得到的增强后的语音数据能够完全达到或者接近于纯净语音的目的,在一个示意性实施例中,本公开实施例的语音增强方法包括第一子训练、第二子训练和微调子训练的步骤。图6是根据一示意性实施例示出的进行第一子训练、第二子训练和微调子训练的流程图。如图6所示,步骤102的利用语音增强样本集中的待增强语音样本和参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型,包括以下步骤601至步骤605。
步骤601、利用语音增强样本集中的待增强语音样本和参考音频数据,对待训练的语音增强模型进行第一子训练,得到第一子训练后的语音增强模型。
在示意性实施例中,步骤601的执行过程可参见上述步骤501至步骤512。
步骤602、将第一子训练后的语音增强模型和待训练的分类网络组成生成式对抗网络。
图7是根据一示意性实施例示出的生成式对抗网络的逻辑结构示意图。生成式对抗网络又可称为GAN(Generative Adversarial Networks)网络,GAN网络主要包括两部分:生成模型和判别模型,分别对应于神经网络的生成器和判别器。其中,生成器G(Generator)用于生成数据,判别器D(Discriminator)用于判断生成器生成的数据的真实性。生成器和判别器互相对抗,不断调整参数,最终的目的是使判别器对生成器的输出数据的判别结果和对真实的数据的判别结果相一致。
如图7所示,本公开实施例中,第一子训练后的语音增强模型作为生成式对抗网络中的生成器,待训练的分类网络作为生成式对抗网络中的判别器。在示意性实施例中,判别器可以是任意的分类网络。
步骤603、利用语音增强样本集中的待增强语音样本、参考音频数据、纯净语音数据,对生成式对抗网络中的待训练的分类网络进行第二子训练,得到第二子训练后的分类网络,其中,在进行第二子训练的过程中,不更新第一子训练后的语音增强模型中的参数,仅更新待训练的分类网络中的参数。
图8是根据一示意性实施例示出的对待训练的分类网络进行第二子训练的流程图,如图8所示,并基于图7所示的生成式对抗网络的结构,在步骤603中,利用语音增强样本集中的待增强语音样本、参考音频数据、纯净语音数据,对生成式对抗网络中的待训练的分类网络进行第二子训练,得到第二子训练后的分类网络,主要包括以下步骤801至步骤808。
步骤801、从语音增强样本集中获取任意一个待增强语音样本,将任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到任意一个待增强语音样本的实部数据和虚部数据。
步骤802、从语音增强样本集中获取与任意一个待增强语音样本相关联的参考音频数据,将参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到参考音频数据的实部数据和虚部数据;其中,若任意一个待增强语音样本为含有噪声的待增强语音样本,则参考音频数据为静音音频数据;若任意一个待增强语音样本为含有回声的待增强语音样本,或者若任意一个待增强语音样本为含有噪声和回声的待增强语音样本,则参考音频数据为用于送入扬声器进行播放的纯净语音数据。
在示意性实施例中,上述步骤801至步骤802与步骤501至步骤502的具体执行过程相同,此处不再赘述。
步骤803、将任意一个待增强语音样本的实部数据和虚部数据、以及参考音频数据的实部数据和虚部数据输入第一子训练后的语音增强模型,通过第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据。
在示意性实施例中,语音增强模型的结构可参见上述关于语音增强模型的说明,通过对输入数据进行处理得到输出数据的过程可参见上述对待训练的语音增强模型进行第一子训练过程中关于语音增强模型的数据处理过程(步骤503至步骤509)的说明,此处不再赘述。
步骤804、将第一子训练后的语音增强模型的输出数据,输入待训练的分类网络,通过待训练的分类网络,得到第一概率值。
其中,第一概率值用于与后续的第二概率值共同构建分类网络的损失函数,使得第二子训练后的分类网络所得到的第一概率值与第二概率相等或者接近,让第二子训练后的分类网络对第一子训练后的语音增强模型的输出数据的判断结果和对真正的纯净语音的判断结果相一致。
步骤805、从语音增强样本集中获取关联于任意一个待增强语音样本的纯净语音数据,将纯净语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到纯净语音数据的实部数据和虚部数据。
在示意性实施例中,将纯净语音数据从时域数据形式转换至频域数据,可采用STFT实现,此处不再赘述。
步骤806、将纯净语音数据的实部数据和虚部数据输入待训练的分类网络,通过待训练的分类网络,得到第二概率值。
其中,第二概率值用于表征该纯净语音数据的真实性。由于第二概率值是基于纯净语音数据本身得到的,所以可以认为第二概率值表示了该纯净语音数据是真实的。
步骤807、根据第一概率值和第二概率值,构建分类网络的损失函数。
在示意性实施例中,分类网络(判别器)的损失函数例如:
loss2=(D(Y)-1)2+D(G(X))
其中,loss2为分类网络(判别器)的损失,D表示分类网络(判别器),G表示生成器,Y表示与待增强语音对应的纯净语音,D(Y)为判别器根据纯净语音Y得到的输出结果,即第二概率,X表示待增强语音,G(X)为生成器根据待增强语音X得到的输出数据,D(G(X))为判别器根据生成器的输出数据得到的输出结果,即第一概率。
构建上述分类网络(判别器)的损失函数的目的,是为了使得训练后的分类网络能够对语音数据产生准确的分类结果。其中,(D(Y)-1)2项中,Y表示与待增强语音对应的纯净语音,因此,需要训练后的分类网络(判别器)得到的第二概率值趋近于或者等于1,即D(Y)趋近于或者等于1(1表示训练后的分类网络对Y的判断结果为纯净语音),因此,分类网络的损失函数的(D(Y)-1)2项趋近于或者等于0;D(G(X))项中,X表示待增强语音,其本身就是含有噪声和/或回声的(参照前述步骤,X来源于语音增强样本集),因此,需要训练后的分类网络(判别器)得到的第一概率值趋近于或者等于0(0表示训练后的分类网络对X的判断结果为含有噪声和/或回声的非纯净语音)即D(G(X))趋近于或者等于0。因此,利用该分类网络的损失函数对分类网络进行训练,使得loss2的目标值趋近于或者等于0,得到第二子训练后的分类网络能够实现对纯净语音和非纯净语音的进行准确判断的目的。
步骤808、根据分类网络的损失函数对分类网络中的参数进行调整,得到第二子训练后的分类网络。
在示意性实施例中,可采用反向传播的方式对分类网络中的参数进行调整。
上述步骤801至步骤808可以基于相同和/或不同的待增强语音样本而重复执行,直到损失收敛到预设范围或者迭代达到设定次数后,完成分类网络的第二子训练。
需要强调的是,对分类网络的第二子训练过程中,不调整第一子训练后的语音增强模型中的参数。
步骤604、利用语音增强样本集中的待增强语音样本、参考音频数据,对生成式对抗网络中的第一子训练后的语音增强模型进行微调子训练,得到微调子训练后的语音增强模型,其中,在进行微调子训练的过程中,不更新第二子训练后的分类网络中的参数,仅更新第一子训练后的语音增强模型中的参数。
经过微调子训练后,能够使得微调子训练后的语音增强模型的语音增强效果更好,能够保证通过微调子训练后的语音增强模型处理所得到语音增强后的语音数据的质量良好,且更加自然不失真。
图9是根据一示意性实施例示出的对第一子训练后的语音增强模型进行微调子训练的流程图,如图9所示,在步骤604中,利用语音增强样本集中的待增强语音样本、参考音频数据,对生成式对抗网络中的第一子训练后的语音增强模型进行微调子训练,得到微调子训练后的语音增强模型,包括以下步骤901至步骤906。
步骤901、从语音增强样本集中获取任意一个待增强语音样本,将任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到任意一个待增强语音样本的实部数据和虚部数据。
步骤902、从语音增强样本集中获取与任意一个待增强语音样本相关联的参考音频数据,将参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到参考音频数据的实部数据和虚部数据;其中,若任意一个待增强语音样本为含有噪声的待增强语音样本,则参考音频数据为静音音频数据;若任意一个待增强语音样本为含有回声的待增强语音样本,或者若任意一个待增强语音样本为含有噪声和回声的待增强语音样本,则参考音频数据为用于送入扬声器进行播放的纯净语音数据。
在示意性实施例中,上述步骤901至步骤902与步骤801至步骤802以及步骤501至步骤502的具体执行过程相同,此处不再赘述。
在示意性实施例中,从时域数据形式转换至频域数据可采用STFT实现,此处不再赘述。
步骤903、将任意一个待增强语音样本的实部数据和虚部数据、以及参考音频数据的实部数据和虚部数据输入第一子训练后的语音增强模型,通过第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据。
在示意性实施例中,上述步骤903与步骤803的具体执行过程相同,可参见上述关于语音增强模型的说明,以及上述对待训练的语音增强模型进行第一子训练过程中关于语音增强模型的数据处理过程(步骤503至步骤509)的说明,此处不再赘述。
步骤904、将第一子训练后的语音增强模型的输出数据,输入第二子训练后的分类网络,通过第二子训练后的分类网络,得到第三概率值。
步骤905、根据第三概率值构建语音增强模型的微调损失函数。
在示意性实施例中,语音增强模型的微调损失函数例如:
loss3=(D(G(X))-1)2
其中,loss3为语音增强模型的微调损失,D表示分类网络(判别器),G表示语音增强模型(生成器),X表示待增强语音,G(X)为生成器根据待增强语音X得到的输出数据,D(G(X))为判别器根据生成器的输出数据得到的输出结果,即第三概率。
构建上述微调损失函数的目的,是为了使得微调子训练后的语音增强模型能够对输入的语音数据的进一步增强,使得经过微调子训练后的语音增强模型得到的输出数据成为或者趋近于纯净语音。因此,利用该语音增强模型的微调损失函数对语音增强模型进行微调损失,使得loss3的目标值趋近于或者等于0,得到微调子训练后的语音增强模型能够最终实现对待增强的语音数据进行语音增强,得到纯净语音数据的目的。
步骤906、根据语音增强模型的微调损失函数对第一子训练后的语音增强模型中的参数进行调整,得到微调子训练后的语音增强模型。
步骤605、将微调子训练后的语音增强模型确定为训练后的语音增强模型。
至此,便完成了语音增强模型的训练和微调。
步骤103、利用训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。
其中,语音增强后的语音数据为纯净语音数据或者趋近于纯净语音的语音数据。
图10是根据一示意性实施例示出的利用训练后的语音增强模型得到语音增强后的语音数据的流程图,如图10所示,在步骤103中,利用训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据,包括以下步骤1001至步骤1003。
步骤1001、获取待增强的语音数据,将待增强的语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到待增强的语音数据的实部数据和虚部数据。
步骤1002、将关联于待增强的语音数据的实部数据和虚部数据输入训练后的语音增强模型,通过训练后的语音增强模型,得到关联于待增强的语音数据的输出数据。
在示意性实施例中,待增强的语音数据的输出数据是增强后的实部数据和虚部数据,其仍然是频域数据。
在示意性实施例中,输入训练后的语音增强模型的语音数据还包括与待增强的语音数据相关联的参考音频数据。其中,参考音频数据来源于扬声器播放的声音。例如在音频通话场景中,近端麦克风接收语音得到的语音数据为待增强的语音数据,近端麦克风得到的语音数据在远端扬声器中播放并被远端麦克风接收到后所得到的音频数据为与待增强的语音数据相关联的参考音频数据。
步骤1003、将关联于待增强的语音数据的输出数据转换至时域数据形式,得到语音增强后的语音数据。
在示意性实施例中,将关联于待增强的语音数据的输出数据转换至时域数据形式,可采用将待增强的语音数据从时域数据形式转换至频域数据形式的STFT变换的逆变换实现,关于STFT变换的逆变换,可采用现有技术实现,此处不再赘述。
本公开实施例的语音增强方法,利用分别包含噪音、回声以及同时包含噪音和回声的待增强语音样本对语音增强模型进行训练,使得语音增强模型同时具有分析噪音和回声的能力,从而利用训练后的语音增强模型实现了语音降噪和回声消除,达到了良好的消噪和消回声的效果,在进一步的方案中,结合生成式对抗网络对语音增强模型进行微调,使得语音增强模型同时对噪音和回声的分析能力进一步增强,从而利用微调后的语音增强模型实现了理想的语音降噪和回声消除,并且不会对语音造成失真,并且,由于仅采用一个语音增强模型便能够实现消噪和消回声的目的,因此也大大降低了系统复杂度。
图11是根据一示意性实施例示出的语音增强方法的具体实施例流程图,如图11所示,该具体实施例包括以下步骤1101至步骤1105。
步骤1101、制作语音增强样本集。
其中,参见图3A、图3B和图3C所示,步骤1101进一步包括制作含有噪声的待增强语音样本、含有回声的待增强语音样本、含有噪声和回声的待增强语音样本,具体可参见图2以及上述步骤201至步骤202的相关说明,此处不再赘述。
步骤1102、利用语音增强样本集,对待训练的语音增强模型进行第一子训练,得到第一子训练后的语音增强模型。
其中,语音增强样本集中的待增强语音样本就是需要语音增强模型进行增强的待增强语音数据。根据待增强语音数据确定出与其相关联的参考音频数据,若待增强语音数据为含有噪声的待增强语音样本,则参考音频数据为静音音频数据,若待增强语音数据为含有回声的待增强语音样本或者任意一个待增强语音样本为含有噪声和回声的待增强语音样本,则参考音频数据为用于送入扬声器进行播放的纯净语音数据。
第一子训练的过程如下:
将待增强语音样本和与其相关联的参考音频数据分别经过分帧、加窗和FFT之后得到待增强语音样本的实部数据和虚部数据以及参考音频数据的实部数据和虚部数据。例如,待增强语音样本的时间长度为T,T的时间长度优选大于等于2秒,也就是说待增强语音样本的时间长度大于等于2秒即可。通过STFT将待增强语音样本从时域转换至频域,其中变换过程中的参数包括窗长W、窗移H、傅里叶变换点数F。变换后的维度为[n_frames,F],其中,n_frames为输入数据进行分帧后得到的帧数,F为输入数据进行频域变换得到的频域维度。其中,窗长W可选为20ms,窗移H可选为10ms,傅里叶变换点数F可选为320个点。由于傅里叶变换之后的数为复数,将其中的实部部分和虚部部分分别取出,然后再进行拼接,即[n_frames,F]转成维度[2,n_frames,F]。对参考音频数据处理和待增强语音样本处理过程一致。
得到待增强语音样本的实部数据和虚部数据以及参考音频数据的实部数据和虚部数据后,将二者进行拼接。得到维度为[4,n_frames,F]的输入数据。如果按批次训练的话,批次大小为B,则输入维度为[B,4,n_frames,F]。
关于语音增强模型的结构,可参见图4所示。在示意性实施例中,特征提取模块是由多个二维卷积层和UNet模块组成,其中需要保证第三维度的输出维度保持不变,其中,第三维度指的是音频进行分帧之后的帧数。关于二维卷积层的结构和原理以及unet模块的结构和原理可参见现有技术,此处不再赘述。经过特征提取模块的输出维度为[B,C,n_frames,F],其中,C为通道数。在输入增强结构之前,需要先对该输出维度进行维度转换,而转换成[B,F*C,n_frames],维度转换的目的是保证能够让增强结构的两部分输入进行通道上的拼接。
增强模块中第1个语音增强结构中,宏观增强子结构的输入的第一部分是待增强语音样本的实部数据和虚部数据,维度为[B,2,n_frames,F](维度中的2表示待增强语音样本的实部数据和虚部数据的拼接),转换维度成[B,2*F,n_frames],宏观增强子结构的输入的第二部分是特征提取模块的输出,将待增强语音样本的实部数据和虚部数据与特征提取模块的输出进行拼接,得到的维度为[B,F*C+2*F,n_frames],微观增强子结构的输入与宏观增强子结构的输入相同。将拼接后的部分作为第1个语音增强结构中的宏观增强子结构的输入以及微观增强子结构的输入。宏观增强子结构的输出为实部增强数据和虚部增强数据,每一个增强数据的维度为[B,n_frames,F],同理,微观增强子结构的输出为实部微调数据和虚部微调数据,每一个微调数据的维度为[B,n_frames,F]。
增强模块中第N个语音增强结构中,宏观增强子结构的输入的第一部分是第N-1个语音增强结构增强后的语音的实部增强数据和虚部增强数据,维度为[B,2,n_frames,F],转换维度成[B,2*F,n_frames],第二部分是特征提取模块的输出,将第N-1个语音增强结构增强后的语音的实部增强数据和虚部增强数据与特征提取模块的输出进行拼接,得到的维度为[B,F*C+2*F,n_frames],微观增强子结构的输入与宏观增强子结构的输入相同。将拼接后的部分作为第N个语音增强结构中的宏观增强子结构的输入以及微观增强子结构的输入。宏观增强子结构的输出为实部增强数据和虚部增强数据,每一个增强数据的维度为[B,n_frames,F],同理,微观增强子结构的输出为实部微调数据和虚部微调数据,每一个微调数据的维度为[B,n_frames,F]。
在示意性实施例中,宏观增强子结构和微观增强子结构是由一维卷积和TCN(Temporal Convolutional Network,时间卷积网络)结构组成。关于一维卷积和TCN结构的具体结构和原理可参见现有技术,此处不再赘述。
增强模块中第1个语音增强结构中的增益子结构,其输入的第一部分是待增强语音样本的实部数据和虚部数据,维度为[B,2,n_frames,F],第二部分为第1个增强结构的宏观增强子结构的输出,维度为[B,n_frames,F],第三部分的为第1个增强结构的微观增强子结构的输出,维度为[B,n_frames,F],经过增益子结构,输出的维度为[B,2,n_frames,F]。
增强模块中第N个语音增强结构中的增益子结构,其输入的第一部分是第N-1个语音增强结构增强后的语音的实部数据和虚部数据,维度为[B,2,n_frames,F],第二部分为第N个增强结构的宏观增强子结构的输出,维度为[B,n_frames,F],第三部分的为第N个增强结构的微观增强子结构的输出,维度为[B,n_frames,F],经过增益子结构,输出的维度为[B,2,n_frames,F]。
其中,增益子结构的增益公式如下:
其中,表示第q个语音增强结构中的增益子结构输出的实部增益数据,/>表示第q个语音增强结构中的增益子结构输出的虚部增益数据,/>表示第q个语音增强结构中的宏观增强子结构输出的实部增强数据,/>表示第q个语音增强结构中的宏观增强子结构输出的虚部增强数据,/>表示第q个语音增强结构中的微观增强子结构输出的实部微调数据,/>表示第q个语音增强结构中的微观增强子结构输出的虚部微调数据。其中,1≤q≤N,若q=1,则有:
其中,表示待增强语音样本的实部数据,/>表示待增强语音样本的虚部数据。
第一子训练过程中,语音增强模型的损失函数为:
其中,
其中λq为第q个语音增强结构的系数(例如,权重),λq的取值为大于0小于1的数。Lq为第q个语音增强结构的损失函数,loss1为语音增强模型的损失。
表示第q个语音增强结构得到的第q实部增益数据,/>表示第q个语音增强结构得到的第q虚部增益数据,Xr表示与待增强语音样本相关联的纯净目标语音数据的实部数据,Xi表示与待增强语音样本相关联的纯净目标语音数据的虚部数据。/>表示第q个语音增强结构的输出幅度,|X|表示与待增强语音样本相关联的纯净目标语音数据的幅度。/>表示2范数的平方。
步骤1103、将第一子训练后的语音增强模型和待训练的分类网络组成生成式对抗网络,利用待增强语音样本和与其相关联的参考音频数据、以及与待增强语音样本相关联的纯净语音数据对待训练的分类网络进行第二子训练,得到第二子训练后的分类网络。
其中,生成式对抗网络的结构参见图7所示。
将第一子训练后的语音增强模型作为生成式对抗网络(GAN网络)中的生成器,在示意性实施例中,采用mobilenetV3作为判别器,即采用mobilenetV3作为分类网络,关于mobilenetV3的结构和原理可参见现有技术,此处不再赘述。
第二子训练的过程如下:
将待增强语音样本和参考音频数据分别经过分帧、加窗和FFT之后得到待增强语音样本的实部数据和虚部数据以及参考音频数据的实部数据和虚部数据。将待增强语音样本的实部数据和虚部数据以及参考音频数据的实部数据和虚部数据输入第一子训练后的语音增强模型,得到增强后的实部数据和虚部数据(即第一子训练后的语音增强模型的输出数据)。将增强后的实部数据和虚部数据输入待训练的分类网络,得到第一概率值;获取与待增强语音样本相关联的纯净目标语音数据,将纯净目标语音数据经过分帧、加窗和FFT之后得到纯净目标语音数据的实部数据和虚部数据,将纯净目标语音数据的实部数据和虚部数据输入待训练的分类网络,得到第二概率值;第一概率值和第二概率值分别表示分类网络(判别器)认为是否是纯净语音的概率。分类网络(判别器)的损失函数如下:
loss2=(D(Y)-1)2+D(G(X))
其中,loss2为分类网络(判别器)的损失,D表示分类网络(判别器),G表示生成器,Y表示与待增强语音对应的纯净语音,D(Y)为判别器根据纯净语音Y得到的输出结果,即第二概率,X表示待增强语音,G(X)为生成器根据待增强语音X得到的输出数据,D(G(X))为判别器根据生成器的输出数据得到的输出结果,即第一概率。
根据分类网络(判别器)的损失函数对分类网络中的参数进行调整,得到第二子训练后的分类网络。
在进行第二子训练的过程中,第一子训练后的语音增强模型(生成器)中的参数不进行更新。
步骤1104、利用语音增强样本集,对生成式对抗网络中的第一子训练后的语音增强模型进行微调子训练。
微调子训练的过程如下:
将待增强语音样本和参考音频数据分别经过分帧、加窗和FFT之后得到待增强语音样本的实部数据和虚部数据以及参考音频数据的实部数据和虚部数据。将待增强语音样本的实部数据和虚部数据以及参考音频数据的实部数据和虚部数据输入第一子训练后的语音增强模型,得到增强后的实部数据和虚部数据(即第一子训练后的语音增强模型的输出数据)。将增强后的实部数据和虚部数据输入第二子训练后的分类网络,得到第三概率值,第三概率值表示分类网络(判别器)认为是否为干净语音的概率。语音增强模型(生成器)的微调损失函数如下:
loss3=(D(G(X))-1)2
其中,loss3为语音增强模型的微调损失,D表示分类网络(判别器),G表示语音增强模型(生成器),X表示待增强语音,G(X)为生成器根据待增强语音X得到的输出数据,D(G(X))为判别器根据生成器的输出数据得到的输出结果,即第三概率。
根据语音增强模型(生成器)的微调损失函数对第一子训练后的语音增强模型中的参数进行调整,得到微调子训练后的语音增强模型。
在进行微调子训练的过程中,第二子训练后的分类网络(判别器)中的参数不进行更新。
需要说明的是,微调子训练只是为了对第一子训练后的语音增强模型进行微调,分类网络(判别器)在实际进行语音增强时不会参与使用。经过微调子训练后的语音增强模型具有更加良好的语音增强效果。在实际进行语音增强时,经过微调子训练后的语音增强模型输出的增强音频的实部数据和虚部数据通过STFT变换的逆变换就可以得到语音增强后的语音数据。
步骤1105、利用微调子训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。
具体地,步骤1105包括:获取待增强的语音数据,将待增强的语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到待增强的语音数据的实部数据和虚部数据;将待增强的语音数据的实部数据和虚部数据输入微调子训练后的语音增强模型,通过微调子训练后的语音增强模型,得到关联于待增强的语音数据的输出数据;将关联于待增强的语音数据的输出数据转换至时域数据形式,得到语音增强后的语音数据。
图12是根据一示意性实施例示出的一种语音增强装置的逻辑结构示意图,如图12所示,该语音增强装置主要包括样本获得模块1201、训练模块1202和语音增强模块1203。
样本获得模块1201,被配置为执行获取多个纯净语音数据、多个噪声音频数据和多个回声语音数据,根据多个纯净语音数据、多个噪声音频数据、多个回声语音数据,得到语音增强样本集,其中,语音增强样本集包括待增强语音样本、与待增强语音样本相关联的参考音频数据、与待增强语音样本相关联的纯净语音数据,其中待增强语音样本包括含有噪声的待增强语音样本、含有回声的待增强语音样本、含有噪声和回声的待增强语音样本,其中,回声语音数据为通过采集扬声器播放的语音而得到的语音数据。
训练模块1202,被配置为执行利用语音增强样本集中的待增强语音样本和参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型。
语音增强模块1203,被配置为执行利用训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。
在示意性实施例中,样本获得模块1201包括:
第一样本获得子模块,被配置为执行:分别将多个纯净语音数据中的任意一个纯净语音数据与多个噪声音频数据中的任意一个噪声音频数据,采用不同的信噪比进行一对一叠加,得到多个含有噪声的待增强语音样本;
第二样本获得子模块,被配置为执行:分别将多个纯净语音数据中的任意一个纯净语音数据,与进行增益处理和混响处理后的多个回声语音数据中的任意一个回声语音数据进行一对一叠加,得到多个含有回声的待增强语音样本;
第三样本获得子模块,被配置为执行:分别将多个纯净语音数据中的任意一个纯净语音数据与多个噪声音频数据中的任意一个噪声音频数据,采用不同的信噪比进行一对一叠加,并与进行增益处理和混响处理后的多个回声语音数据中的任意一个回声语音数据进行一对一叠加,得到多个含有噪声和回声的待增强语音样本。
在示意性实施例中,语音增强模型包括特征提取模块和增强模块,其中,增强模块包括N个语音增强结构,N≥1,每个语音增强结构包括宏观增强子结构、微观增强子结构和增益子结构。在此基础上,在示意性实施例中,训练模块1202进一步被配置为执行:
从语音增强样本集中获取任意一个待增强语音样本,将任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到任意一个待增强语音样本的实部数据和虚部数据;
从语音增强样本集中获取与任意一个待增强语音样本相关联的参考音频数据,将参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到参考音频数据的实部数据和虚部数据;其中,若任意一个待增强语音样本为含有噪声的待增强语音样本,则参考音频数据为静音音频数据;若任意一个待增强语音样本为含有回声的待增强语音样本,或者若任意一个待增强语音样本为含有噪声和回声的待增强语音样本,则参考音频数据为用于送入扬声器进行播放的纯净语音数据;
将任意一个待增强语音样本的实部数据和虚部数据、以及参考音频数据的实部数据和虚部数据输入特征提取模块,通过特征提取模块得到音频特征数据,音频特征数据同时含有任意一个待增强语音样本的特征和参考音频数据的特征;
将音频特征数据输入每一个语音增强结构中的宏观增强子结构和微观增强子结构;
将任意一个待增强语音样本的实部数据和虚部数据输入N个语音增强结构中的第1个语音增强结构中的宏观增强子结构和微观增强子结构,通过第1个语音增强结构中的宏观增强子结构得到第1实部增强数据和第1虚部增强数据,通过第1个语音增强结构中的微观增强子结构得到第1实部微调数据和第1虚部微调数据;
将任意一个待增强语音样本的实部数据和虚部数据、第1实部增强数据和第1虚部增强数据、第1实部微调数据和第1虚部微调数据输入第1个语音增强结构中的增益子结构,通过第1个语音增强结构中的增益子结构得到第1实部增益数据和第1虚部增益数据;
将N个语音增强结构中的第q-1个语音增强结构中的增益子结构得到的第q-1实部增益数据和第q-1虚部增益数据输入N个语音增强结构中的第q个语音增强结构中的宏观增强子结构和微观增强子结构,通过第q个语音增强结构中的宏观增强子结构得到第q实部增强数据和第q虚部增强数据,通过第q个语音增强结构中的微观增强子结构得到第q实部微调数据和第q虚部微调数据,其中,1<q≤N;
将第q-1实部增益数据和第q-1虚部增益数据、第q实部增强数据和第q虚部增强数据、第q实部微调数据和第q虚部微调数据输入第q个语音增强结构中的增益子结构,通过第q个语音增强结构中的增益子结构得到第q实部增益数据和第q虚部增益数据;
将N个语音增强结构中的第N个语音增强结构中的增益子结构得到的第N实部增益数据和第N虚部增益数据,作为语音增强模型的输出数据;
从语音增强样本集中获取与任意一个待增强语音样本相关联的纯净目标语音数据,将纯净目标语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到纯净目标语音数据的实部数据和虚部数据,其中,纯净目标语音数据为用于得到任意一个待增强语音样本所使用的纯净语音数据;
根据每一个语音增强结构得到的实部增益数据、虚部增益数据和输出幅度,以及纯净目标语音数据的实部数据、虚部数据和幅度,构建语音增强模型的损失函数;
根据语音增强模型的损失函数对语音增强模型中的参数进行调整,得到第一子训练后的语音增强模型;
将第一子训练后的语音增强模型确定为训练后的语音增强模型。
在示意性实施例中,训练模块1202进一步包括:
第一子训练模块,被配置为执行利用语音增强样本集中的待增强语音样本和参考音频数据,对待训练的语音增强模型进行第一子训练,得到第一子训练后的语音增强模型;
对抗网络组成模块,被配置为执行将第一子训练后的语音增强模型和待训练的分类网络组成生成式对抗网络;
第二子训练模块,被配置为执行利用语音增强样本集中的待增强语音样本、参考音频数据、纯净语音数据,对生成式对抗网络中的待训练的分类网络进行第二子训练,得到第二子训练后的分类网络;
微调子训练模块,被配置为执行利用语音增强样本集中的待增强语音样本、参考音频数据,对生成式对抗网络中的第一子训练后的语音增强模型进行微调子训练,得到微调子训练后的语音增强模型,其中,在进行微调子训练的过程中,不更新第二子训练后的分类网络中的参数,仅更新第一子训练后的语音增强模型中的参数;
模型确定模块,被配置为执行将微调子训练后的语音增强模型确定为训练后的语音增强模型。
在示意性实施例中,第二子训练模块进一步被配置为执行:
从语音增强样本集中获取任意一个待增强语音样本,将任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到任意一个待增强语音样本的实部数据和虚部数据;
从语音增强样本集中获取与任意一个待增强语音样本相关联的参考音频数据,将参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到参考音频数据的实部数据和虚部数据;其中,若任意一个待增强语音样本为含有噪声的待增强语音样本,则参考音频数据为静音音频数据;若任意一个待增强语音样本为含有回声的待增强语音样本,或者若任意一个待增强语音样本为含有噪声和回声的待增强语音样本,则参考音频数据为用于送入扬声器进行播放的纯净语音数据;
将任意一个待增强语音样本的实部数据和虚部数据、以及参考音频数据的实部数据和虚部数据输入第一子训练后的语音增强模型,通过第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据;
将第一子训练后的语音增强模型的输出数据,输入待训练的分类网络,通过待训练的分类网络,得到第一概率值;
从语音增强样本集中获取关联于任意一个待增强语音样本的纯净语音数据,将纯净语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到纯净语音数据的实部数据和虚部数据;
将纯净语音数据的实部数据和虚部数据输入待训练的分类网络,通过待训练的分类网络,得到第二概率值;
根据第一概率值和第二概率值,构建分类网络的损失函数;
根据分类网络的损失函数对分类网络中的参数进行调整,得到第二子训练后的分类网络。
在示意性实施例中,微调子训练模块进一步被配置为执行:
从语音增强样本集中获取任意一个待增强语音样本,将任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到任意一个待增强语音样本的实部数据和虚部数据;
从语音增强样本集中获取与任意一个待增强语音样本相关联的参考音频数据,将参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到参考音频数据的实部数据和虚部数据;其中,若任意一个待增强语音样本为含有噪声的待增强语音样本,则参考音频数据为静音音频数据;若任意一个待增强语音样本为含有回声的待增强语音样本,或者若任意一个待增强语音样本为含有噪声和回声的待增强语音样本,则参考音频数据为用于送入扬声器进行播放的纯净语音数据;
将任意一个待增强语音样本的实部数据和虚部数据、以及参考音频数据的实部数据和虚部数据输入第一子训练后的语音增强模型,通过第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据;
将第一子训练后的语音增强模型的输出数据,输入第二子训练后的分类网络,通过第二子训练后的分类网络,得到第三概率值;
根据第三概率值构建语音增强模型的微调损失函数;
根据语音增强模型的微调损失函数对第一子训练后的语音增强模型中的参数进行调整,得到微调子训练后的语音增强模型。
在示意性实施例中,语音增强模块1203进一步被配置为执行:
获取待增强的语音数据,将待增强的语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到待增强的语音数据的实部数据和虚部数据;
将待增强的语音数据的实部数据和虚部数据输入训练后的语音增强模型,通过训练后的语音增强模型,得到关联于待增强的语音数据的输出数据;
将关联于待增强的语音数据的输出数据转换至时域数据形式,得到语音增强后的语音数据。
在示意性实施例中,从时域数据形式转换至频域数据形式,采用STFT实现。
本公开实施例的语音增强装置,利用分别包含噪音、回声以及同时包含噪音和回声的待增强语音样本对语音增强模型进行训练,使得语音增强模型同时具有分析噪音和回声的能力,从而利用训练后的语音增强模型实现了语音降噪和回声消除,达到了良好的消噪和消回声的效果,在进一步的方案中,结合生成式对抗网络对语音增强模型进行微调,使得语音增强模型同时对噪音和回声的分析能力进一步增强,从而利用训练并微调后的语音增强模型实现了理想的语音降噪和回声消除,并且不会对语音造成失真,并且,由于仅采用一个语音增强模型便能够实现消噪和消回声的目的,因此也大大降低了系统复杂度。
关于上述实施例中的语音增强装置,其中各个单元执行操作的具体方式已经在有关该语音增强方法的实施例中进行了详细描述,此处将不作详细阐述说明。
需要说明的是:上述实施例仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
图13是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中,该电子设备为服务器。该电子设备1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1301和一个或一个以上的存储器1302,其中,该存储器1302中存储有至少一条程序代码,该至少一条程序代码由该处理器1301加载并执行以实现上述各个实施例提供的语音增强方法。当然,该电子设备1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备1300还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括至少一条指令的计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的语音增强方法。
可选地,上述计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (10)

1.一种语音增强方法,其特征在于,包括:
获取多个纯净语音数据、多个噪声音频数据和多个回声语音数据,根据多个所述纯净语音数据、多个所述噪声音频数据、多个所述回声语音数据,得到语音增强样本集,其中,所述语音增强样本集包括待增强语音样本、与所述待增强语音样本相关联的参考音频数据、与所述待增强语音样本相关联的纯净语音数据,其中所述待增强语音样本包括含有噪声的待增强语音样本、含有回声的待增强语音样本、含有噪声和回声的待增强语音样本,其中,所述回声语音数据为通过采集扬声器播放的语音而得到的语音数据;
利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型;
利用所述训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。
2.根据权利要求1所述的语音增强方法,其特征在于,所述根据多个所述纯净语音数据、多个所述噪声音频数据、多个所述回声语音数据,得到语音增强样本集,包括:
分别将多个所述纯净语音数据中的任意一个所述纯净语音数据与多个所述噪声音频数据中的任意一个所述噪声音频数据,采用不同的信噪比进行一对一叠加,得到多个所述含有噪声的待增强语音样本;
分别将多个所述纯净语音数据中的任意一个所述纯净语音数据,与进行增益处理和混响处理后的多个所述回声语音数据中的任意一个所述回声语音数据进行一对一叠加,得到多个所述含有回声的待增强语音样本;
分别将多个所述纯净语音数据中的任意一个所述纯净语音数据与多个所述噪声音频数据中的任意一个所述噪声音频数据,采用不同的信噪比进行一对一叠加,并与进行增益处理和混响处理后的多个所述回声语音数据中的任意一个所述回声语音数据进行一对一叠加,得到多个所述含有噪声和回声的待增强语音样本。
3.根据权利要求1所述的语音增强方法,其特征在于:
所述语音增强模型包括特征提取模块和增强模块,其中,所述增强模块包括N个语音增强结构,N≥1,每个所述语音增强结构包括宏观增强子结构、微观增强子结构和增益子结构;
所述利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型,包括:
从所述语音增强样本集中获取任意一个待增强语音样本,将所述任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述任意一个待增强语音样本的实部数据和虚部数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的参考音频数据,将所述参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述参考音频数据的实部数据和虚部数据;其中,若所述任意一个待增强语音样本为所述含有噪声的待增强语音样本,则所述参考音频数据为静音音频数据;若所述任意一个待增强语音样本为所述含有回声的待增强语音样本,或者若所述任意一个待增强语音样本为所述含有噪声和回声的待增强语音样本,则所述参考音频数据为用于送入所述扬声器进行所述播放的纯净语音数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、以及所述参考音频数据的实部数据和虚部数据输入所述特征提取模块,通过所述特征提取模块得到音频特征数据,所述音频特征数据同时含有所述任意一个待增强语音样本的特征和所述参考音频数据的特征;
将所述音频特征数据输入每一个所述语音增强结构中的宏观增强子结构和微观增强子结构;
将所述任意一个待增强语音样本的实部数据和虚部数据输入所述N个语音增强结构中的第1个语音增强结构中的宏观增强子结构和微观增强子结构,通过所述第1个语音增强结构中的宏观增强子结构得到第1实部增强数据和第1虚部增强数据,通过所述第1个语音增强结构中的微观增强子结构得到第1实部微调数据和第1虚部微调数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、所述第1实部增强数据和第1虚部增强数据、所述第1实部微调数据和第1虚部微调数据输入所述第1个语音增强结构中的增益子结构,通过所述第1个语音增强结构中的增益子结构得到第1实部增益数据和第1虚部增益数据;
将所述N个语音增强结构中的第q-1个语音增强结构中的增益子结构得到的第q-1实部增益数据和第q-1虚部增益数据输入所述N个语音增强结构中的第q个语音增强结构中的宏观增强子结构和微观增强子结构,通过所述第q个语音增强结构中的宏观增强子结构得到第q实部增强数据和第q虚部增强数据,通过所述第q个语音增强结构中的微观增强子结构得到第q实部微调数据和第q虚部微调数据,其中,1<q≤N;
将所述第q-1实部增益数据和第q-1虚部增益数据、所述第q实部增强数据和第q虚部增强数据、所述第q实部微调数据和第q虚部微调数据输入所述第q个语音增强结构中的增益子结构,通过所述第q个语音增强结构中的增益子结构得到第q实部增益数据和第q虚部增益数据;
将所述N个语音增强结构中的第N个语音增强结构中的增益子结构得到的第N实部增益数据和第N虚部增益数据,作为所述语音增强模型的输出数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的纯净目标语音数据,将所述纯净目标语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述纯净目标语音数据的实部数据和虚部数据,其中,所述纯净目标语音数据为用于得到所述任意一个待增强语音样本所使用的纯净语音数据;
根据每一个所述语音增强结构得到的实部增益数据、虚部增益数据和输出幅度,以及所述纯净目标语音数据的实部数据、虚部数据和幅度,构建所述语音增强模型的损失函数;
根据所述语音增强模型的损失函数对所述语音增强模型中的参数进行调整,得到第一子训练后的语音增强模型;
将所述第一子训练后的语音增强模型确定为所述训练后的语音增强模型。
4.根据权利要求1所述的语音增强方法,其特征在于,所述利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型,包括:
利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行第一子训练,得到第一子训练后的语音增强模型;
将所述第一子训练后的语音增强模型和待训练的分类网络组成生成式对抗网络;
利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据、所述纯净语音数据,对所述生成式对抗网络中的所述待训练的分类网络进行第二子训练,得到第二子训练后的分类网络;
利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据,对所述生成式对抗网络中的所述第一子训练后的语音增强模型进行微调子训练,得到微调子训练后的语音增强模型,其中,在进行所述微调子训练的过程中,不更新所述第二子训练后的分类网络中的参数,仅更新所述第一子训练后的语音增强模型中的参数;
将所述微调子训练后的语音增强模型确定为所述训练后的语音增强模型。
5.根据权利要求4所述的语音增强方法,其特征在于,所述利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据、所述纯净语音数据,对所述生成式对抗网络中的所述待训练的分类网络进行第二子训练,得到第二子训练后的分类网络,包括:
从所述语音增强样本集中获取任意一个待增强语音样本,将所述任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述任意一个待增强语音样本的实部数据和虚部数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的参考音频数据,将所述参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述参考音频数据的实部数据和虚部数据;其中,若所述任意一个待增强语音样本为所述含有噪声的待增强语音样本,则所述参考音频数据为静音音频数据;若所述任意一个待增强语音样本为所述含有回声的待增强语音样本,或者若所述任意一个待增强语音样本为所述含有噪声和回声的待增强语音样本,则所述参考音频数据为用于送入所述扬声器进行所述播放的纯净语音数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、以及所述参考音频数据的实部数据和虚部数据输入所述第一子训练后的语音增强模型,通过所述第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据;
将所述第一子训练后的语音增强模型的输出数据,输入所述待训练的分类网络,通过所述待训练的分类网络,得到第一概率值;
从所述语音增强样本集中获取关联于所述任意一个待增强语音样本的纯净语音数据,将所述纯净语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述纯净语音数据的实部数据和虚部数据;
将所述纯净语音数据的实部数据和虚部数据输入所述待训练的分类网络,通过所述待训练的分类网络,得到第二概率值;
根据所述第一概率值和所述第二概率值,构建所述分类网络的损失函数;
根据所述分类网络的损失函数对所述分类网络中的参数进行调整,得到所述第二子训练后的分类网络。
6.根据权利要求4所述的语音增强方法,其特征在于,所述利用所述语音增强样本集中的所述待增强语音样本、所述参考音频数据,对所述生成式对抗网络中的所述第一子训练后的语音增强模型进行微调子训练,得到微调子训练后的语音增强模型,包括:
从所述语音增强样本集中获取任意一个待增强语音样本,将所述任意一个待增强语音样本从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述任意一个待增强语音样本的实部数据和虚部数据;
从所述语音增强样本集中获取与所述任意一个待增强语音样本相关联的参考音频数据,将所述参考音频数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述参考音频数据的实部数据和虚部数据;其中,若所述任意一个待增强语音样本为所述含有噪声的待增强语音样本,则所述参考音频数据为静音音频数据;若所述任意一个待增强语音样本为所述含有回声的待增强语音样本,或者若所述任意一个待增强语音样本为所述含有噪声和回声的待增强语音样本,则所述参考音频数据为用于送入所述扬声器进行所述播放的纯净语音数据;
将所述任意一个待增强语音样本的实部数据和虚部数据、以及所述参考音频数据的实部数据和虚部数据输入所述第一子训练后的语音增强模型,通过所述第一子训练后的语音增强模型,得到第一子训练后的语音增强模型的输出数据;
将所述第一子训练后的语音增强模型的输出数据,输入所述第二子训练后的分类网络,通过所述第二子训练后的分类网络,得到第三概率值;
根据所述第三概率值构建所述语音增强模型的微调损失函数;
根据所述语音增强模型的微调损失函数对所述第一子训练后的语音增强模型中的参数进行调整,得到所述微调子训练后的语音增强模型。
7.根据权利要求1所述的语音增强方法,其特征在于,所述利用所述训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据,包括:
获取所述待增强的语音数据,将所述待增强的语音数据从时域数据形式转换至频域数据形式,并从频域数据形式中得到所述待增强的语音数据的实部数据和虚部数据;
将所述待增强的语音数据的实部数据和虚部数据输入所述训练后的语音增强模型,通过所述训练后的语音增强模型,得到关联于所述待增强的语音数据的输出数据;
将关联于所述待增强的语音数据的输出数据转换至时域数据形式,得到所述语音增强后的语音数据。
8.一种语音增强装置,其特征在于,包括:
样本获得模块,被配置为执行获取多个纯净语音数据、多个噪声音频数据和多个回声语音数据,根据多个所述纯净语音数据、多个所述噪声音频数据、多个所述回声语音数据,得到语音增强样本集,其中,所述语音增强样本集包括待增强语音样本、与所述待增强语音样本相关联的参考音频数据、与所述待增强语音样本相关联的纯净语音数据,其中所述待增强语音样本包括含有噪声的待增强语音样本、含有回声的待增强语音样本、含有噪声和回声的待增强语音样本,其中,所述回声语音数据为通过采集扬声器播放的语音而得到的语音数据;
训练模块,被配置为执行利用所述语音增强样本集中的所述待增强语音样本和所述参考音频数据,对待训练的语音增强模型进行训练,得到训练后的语音增强模型;
语音增强模块,被配置为执行利用所述训练后的语音增强模型,对待增强的语音数据进行语音增强,得到语音增强后的语音数据。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如权利要求1至7任一项所述的语音增强方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时,使得所述电子设备能够实现如权利要求1至7任一项所述的语音增强方法。
CN202211522863.6A 2022-11-30 2022-11-30 语音增强方法、装置、电子设备和计算机可读存储介质 Pending CN118116399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211522863.6A CN118116399A (zh) 2022-11-30 2022-11-30 语音增强方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211522863.6A CN118116399A (zh) 2022-11-30 2022-11-30 语音增强方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN118116399A true CN118116399A (zh) 2024-05-31

Family

ID=91214472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211522863.6A Pending CN118116399A (zh) 2022-11-30 2022-11-30 语音增强方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN118116399A (zh)

Similar Documents

Publication Publication Date Title
CN111489760B (zh) 语音信号去混响处理方法、装置、计算机设备和存储介质
US20190206417A1 (en) Content-based audio stream separation
CN103391347B (zh) 一种自动录音的方法及装置
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
CN110931031A (zh) 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
CN113539283A (zh) 基于人工智能的音频处理方法、装置、电子设备及存储介质
CN107863099A (zh) 一种新型双麦克风语音检测和增强方法
CN113611324B (zh) 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN113763977A (zh) 消除回声信号的方法、装置、计算设备和存储介质
US20080219457A1 (en) Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise
US11380312B1 (en) Residual echo suppression for keyword detection
CN117693791A (zh) 言语增强
Watcharasupat et al. End-to-end complex-valued multidilated convolutional neural network for joint acoustic echo cancellation and noise suppression
CN114242043A (zh) 语音处理方法、设备、存储介质及程序产品
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、系统及设备
Zhang et al. Hybrid AHS: A hybrid of Kalman filter and deep learning for acoustic howling suppression
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
CN118116399A (zh) 语音增强方法、装置、电子设备和计算机可读存储介质
CN117643075A (zh) 用于言语增强的数据扩充
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统
CN114333874A (zh) 处理音频信号的方法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Chun et al. Comparison of cnn-based speech dereverberation using neural vocoder
CN114373473A (zh) 通过低延迟深度学习实现同时降噪和去混响
CN111009259B (zh) 一种音频处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination