CN113707163A

CN113707163A - 语音处理方法及其装置和模型训练方法及其装置

Info

Publication number: CN113707163A
Application number: CN202111013082.XA
Authority: CN
Inventors: 郑羲光; 范欣悦; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26
Anticipated expiration: 2041-08-31
Also published as: CN113707163B

Abstract

提供一种语音处理方法及其装置和模型训练方法及其装置。一种语音处理模型的训练方法可包括以下步骤：获取利用高保真音频采集设备采集的无损语音信号；通过将无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应，以生成训练信号；利用训练信号和语音处理模型来获得语音预测信号；根据无损语音信号和语音预测信号来训练语音处理模型。通过使用本公开的语音处理模型可得到高质量的人声信号。

Description

语音处理方法及其装置和模型训练方法及其装置

技术领域

本公开涉及音频技术领域和人工智能领域，尤其涉及一种语音处理方法及其装置和模型训练方法及其装置。

背景技术

随着深度学习技术的发展，基于神经网络的语音增强技术也在不断进步。例如，基于深度学习的语音降噪网络相比于传统的降噪算法可以大幅地提高降噪性能。然而，在拍摄诸如短视频的实际场景下采集语音信号时，由于说话人和采集设备的距离较远(如大于2米)和/或采集设备为低保真设备(如智能手机自带的麦克风)而使采集的语音音质大幅降低，诸如表现为低频或特定频段缺失，采集信号包含环境混响等问题，因此，在诸如短视频制作过程中仅降低背景噪声对语音的影响并不能满足用户对于高音质语音的需求。

发明内容

本公开提供一种语音处理方法及其装置和模型训练方法及其装置，以至少解决上述问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供了一种语音处理模型的训练方法，可包括以下步骤：获取利用高保真音频采集设备采集的无损语音信号；通过将所述无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应，以生成训练信号；利用所述训练信号和所述语音处理模型来获得语音预测信号；根据所述无损语音信号和所述语音预测信号来训练所述语音处理模型。

可选地，利用所述训练信号和所述语音处理模型来获得语音预测信号，可包括：通过对所述训练信号进行短时傅里叶变换来得到所述训练信号的实部数据和虚部数据；基于所述训练信号的实部数据和虚部数据通过所述语音处理模型来得到所述语音预测信号的实部数据和虚部数据；通过对所述语音预测信号的实部数据和虚部数据进行短时傅里叶逆变换来得到所述语音预测信号。

可选地，训练所述语音处理模型，可包括：根据所述无损语音信号的实部数据和虚部数据以及所述语音预测信号的实部数据和虚部数据来训练所述语音处理模型。

可选地，利用所述训练信号和所述语音处理模型来获得语音预测信号，可包括：获取所述训练信号的幅度谱；基于所述训练信号的幅度谱通过所述语音处理模型来得到所述语音预测信号的幅度谱；基于所述语音预测信号的幅度谱通过声码器来得到所述语音预测信号。

可选地，训练所述语音处理模型，可包括：根据所述无损语音信号的幅度谱和所述语音预测信号的幅度谱来训练所述语音处理模型。

可选地，利用所述训练信号和所述语音处理模型来获得语音预测信号，可包括：通过对所述训练信号进行修正离散余弦变换来得到所述训练信号的修正离散余弦变换系数；基于所述训练信号的修正离散余弦变换系数通过所述语音处理模型来得到所述语音预测信号的修正离散余弦变换系数；通过对所述语音预测信号的修正离散余弦变换系数进行修正离散余弦逆变换来得到所述语音预测信号。

可选地，训练所述语音处理模型，可包括：根据所述无损语音信号的修正离散余弦变换系数和所述语音预测信号的修正离散余弦变换系数来训练所述语音处理模型。

根据本公开实施例的第二方面，提供了一种语音处理方法，可包括以下步骤：获取语音信号；基于所述语音信号利用通过如上所述的训练方法得到的语音处理模型来获得与所述语音信号相应的高音质语音信号。

根据本公开实施例的第三方面，提供了一种语音处理模型的训练装置，所述训练装置可包括：获取模块，被配置为获取利用高保真音频采集设备采集的无损语音信号；生成模块，被配置为通过将所述无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应，以生成训练信号；训练模块，被配置为利用所述训练信号和所述语音处理模型来获得语音预测信号，并且根据所述无损语音信号和所述语音预测信号来训练所述语音处理模型。

可选地，训练模块可被配置为通过对所述训练信号进行短时傅里叶变换来得到所述训练信号的实部数据和虚部数据；基于所述训练信号的实部数据和虚部数据通过所述语音处理模型来得到所述语音预测信号的实部数据和虚部数据；通过对所述语音预测信号的实部数据和虚部数据进行短时傅里叶逆变换来得到所述语音预测信号。

可选地，训练模块可被配置为根据所述无损语音信号的实部数据和虚部数据以及所述语音预测信号的实部数据和虚部数据来训练所述语音处理模型。

可选地，训练模块可被配置为获取所述训练信号的幅度谱；基于所述训练信号的幅度谱通过所述语音处理模型来得到所述语音预测信号的幅度谱；基于所述语音预测信号的幅度谱通过声码器来得到所述语音预测信号。

可选地，训练模块可被配置为根据所述无损语音信号的幅度谱和所述语音预测信号的幅度谱来训练所述语音处理模型。

可选地，训练模块可被配置为通过对所述训练信号进行修正离散余弦变换来得到所述训练信号的修正离散余弦变换系数；基于所述训练信号的修正离散余弦变换系数通过所述语音处理模型来得到所述语音预测信号的修正离散余弦变换系数；通过对所述语音预测信号的修正离散余弦变换系数进行修正离散余弦逆变换来得到所述语音预测信号。

可选地，训练模块可被配置为根据所述无损语音信号的修正离散余弦变换系数和所述语音预测信号的修正离散余弦变换系数来训练所述语音处理模型。

根据本公开实施例的第四方面，提供一种语音处理装置，所述语音处理装置可包括：获取模块，被配置为获取语音信号；处理模块，被配置为基于所述语音信号利用通过如上所述的训练方法得到的语音处理模型来获得与所述语音信号相应的高音质语音信号。

根据本公开实施例的第五方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音处理方法和模型训练方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音处理方法和模型训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的语音处理方法和模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

对低音质的语音使用神经网络来得到高音质的语音。此外，可使用神经网络实现根据低音质的语音生成任意缺失的频段的语音信号分量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音处理方法的流程图。

图2是根据一示例性实施例示出的一种语音处理模型的训练方法的流程图。

图3是根据另一示例性实施例示出的一种语音处理模型的训练方法的流程图。

图4是根据一示例性实施例示出的语音处理装置的框图；

图5是根据一示例性实施例示出的一种语音处理设备的结构示意图；

图6是根据一示例性实施例示出的语音处理模型的训练装置的框图；

图7是根据另一示例性实施例示出的一种语音处理方法的流程图；

图8是根据又一示例性实施例示出的一种语音处理方法的流程图；

图9是根据又一示例性实施例示出的一种语音处理方法的流程图；

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在相关技术中，通过分析信号频谱特点，根据当前信号频谱与一标准参考频谱之间的差距，生成不同频带的增益(EQ)，将其加载到输入信号，以达到调整输入信号的频谱特性的目的。然而，这种方法存在以下问题：如果想要增强某一个频段而输入信号在该频段信号缺失(或非常弱)，使用EQ提高增益无法达到预期效果。

本公开通过使用神经网络来实现根据输入信号生成任意缺失的频段的语音信号分量，从而得到高音质的语音信号。在本公开中，高音质的语音也可被称为高质量语音，表示在理想环境(诸如录音棚)下使用高保真音频采集设备(诸如高保真麦克风)采集的无损语音。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置进行详细描述。

图1是根据一示例性实施例示出的一种语音处理方法的流程图。如图1所示，该语音处理方法可应用于在诸如以下场景采集的语音信号：用户与音频采集设备之间的距离较远，诸如在拍摄者与音频采集设备相距2米或以上的情况下采集拍摄者的语音；音频采集设备为低保真采集设备，诸如使用智能手机自带的麦克风采集用户语音等。然而上述示例仅是用于说明，本公开可适用于在任何不能采集到高音质语音的场景下采集的语音信号。

图1的语音处理方法可在任何具有音频处理功能的电子设备中实现。电子设备可以是包括如下中的至少一个，例如，智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器(e-book reader)、桌上型PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器、相机和可穿戴装置等。

参照图1，在步骤S101，获取语音信号。这里，获取的语音信号可以是低音质的语音信号(在下文中可被称为低质量语音)，诸如具有某一频段信号缺失或非常弱、难以听清楚、语音断断续续等特点的语音信号。获取的语音信号可能包括环境噪声、各种房间混响和/或麦克风设备脉冲响应信号等。

例如，获取的语音信号可以是在嘈杂的环境下采集的用户语音、在有环境噪声和混响的房间内采集的用户语音、在用户远离音频采集设备的情况下采集的用户语音。然而，上述示例仅用于说明，本公开不限于上述示例。

在步骤S102，基于获取的语音信号使用语音处理模型来得到与该语音信号相应的高音质语音信号。

根据本公开的实施例的语音处理模型可以是基于任何神经网络训练得到的模型。下面将参照图2和图3来详细描述如何得到本公开的语音处理模型。

参照图2，在步骤S201，获取利用高保真音频采集设备采集的无损语音信号。这里，无损语音信号可指上面描述的高质量语音信号。在训练模型前，首先在诸如录音棚中使用高保真音频采集设备采集多个用户的人声信号。

在步骤S202，通过将获取的无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应，以生成训练信号。

作为示例，可使用下面的等式(1)来得到训练信号：

S′＝(g_s·S*IR_room+g_N·N*IR_room)*IR_mic (1)

其中，S′表示生成的训练信号，S表示采集的无损语音信号(即纯净的人声信号)，N表示各种噪声信号，IR_room表示各种房间混响，IR_mic表示麦克风冲击响应，g_s表示语音部分增益，g_N表示噪声部分增益，·表示乘号，*表示卷积运算。

上述生成训练信号的示例仅是示例性的，本公开不限于此。

在步骤S203，利用训练信号和语音处理模型来获得语音预测信号。作为示例，将训练信号输入至语音处理模型，然后语音处理模型可输出语音预测信号。

语音处理模型可使用任何神经网络来训练得到。例如，可使用UNET网络结构来得到语音处理模型。

此外，可首先对训练信号进行处理，然后将处理后的数据作为语音处理模型的输入。例如，可首先对训练信号进行短时傅里叶变换(STFT)来得到训练信号的实部和虚部，使用语音处理模型来得到预测的实部和虚部，再通过对预测出的实部和虚部进行短时傅里叶逆变换(ISTFT)来得到相应的语音预测信号。

又例如，可对训练信号进行STFT或者修正离散余弦变换(MDCT)来得到训练信号的幅度谱(实数)，使用语音处理模型来得到预测的幅度谱，再对预测出的幅度谱使用声码器来得到相应的语音预测信号。

又例如，可对训练信号进行MDCT来得到训练信号的MDCT系数，使用语音处理模型来得到预测的MDCT系数，再通过对预测出的MDCT系数进行MDCT逆变换来得到相应的语音预测信号。上述示例仅是示例性的，本公开不限于此。

在步骤S204，根据无损语音信号和语音预测信号来训练语音处理模型。

作为示例，可通过构建无损信号与语音预测信号之间的频谱均方误差MSE函数、对数能量谱MAE函数或时域MSE函数并基于均方误差来训练语音处理模型。

此外，在使用语音处理模型预测出预测信号的实部数据和虚部数据的情况下，可使用无损语音信号的实部数据和虚部数据与预测出的实部数据和虚部数据进行比较，使得基于无损语音信号的实部数据和虚部数据与预测出的实部数据和虚部数据所计算出的损失来训练语音处理模型。可选地，可利用无损语音信号的实部数据和虚部数据与预测出的实部数据和虚部数据来构建第一损失函数，并且使用无损语音信号和语音预测信号(即使用预测出的实部和虚部来得到语音预测信号)来构建第二损失函数，根据由第一损失函数的损失和第二损失函数所计算出的损失(诸如使损失最小化)来训练语音处理模型。也可对第一函数函数和第二损失函数应用不同的权重。

此外，在使用语音处理模型来得到预测信号的幅度谱的情况下，可使用无损语音信号的幅度谱与预测出的幅度谱进行比较，使得基于无损语音信号的幅度谱和预测出的幅度谱所计算出的损失来训练语音处理模型。可选地，可利用无损语音信号的幅度谱与预测出的幅度谱来构建第一损失函数，并且使用无损语音信号和语音预测信号(即使用预测出的幅度谱来得到语音预测信号)来构建第二损失函数，根据由第一损失函数的损失和第二损失函数所计算的损失来训练语音处理模型。也可对第一函数函数和第二损失函数应用不同的权重。

此外，在使用语音处理模型来得到预测信号的MDCT系数的情况下，可使用无损语音信号的MDCT系数与预测出的MDCT系数进行比较，使得基于无损语音信号的MDCT系数和预测出的MDCT系数所计算出的损失来训练语音处理模型。可选地，可利用无损语音信号的MDCT系数与预测出的MDCT系数来构建第一损失函数，并且使用无损语音信号和语音预测信号(即使用预测出的MDCT系数来得到语音预测信号)来构建第二损失函数，根据由第一损失函数的损失和第二损失函数的损失所计算的损失来训练语音处理模型。也可对第一函数函数和第二损失函数应用不同的权重。

上述示例仅是示例性的，本公开的语音处理模型可根据输入数据来得到不同的输出。

参照图3，通过高质量人声和各种噪声进行混合，同时加入各种房间混响和麦克风设备冲击响应，生成低质量人声。例如，可利用等式(1)来生成低质量人声。在训练语音处理模型时，使用采集到的真实的高质量人声和生成的低质量人声作为训练数据。

语音处理模型可采用任何神经网络。

将生成的低质量人声输入至语音处理模型，以得到预测出的高质量人声。

利用预测出的高质量人声与采集的真实的高质量人声来构建损失函数，例如，构建预测出的高质量人声与采集的真实的高质量人声之间的频谱MSE、对数能量谱MAE或者时域MSE，并且基于MSE来训练语音处理模型。

图4是根据一示例性实施例示出的一种语音处理装置的框图。

参照图4，语音处理装置400可包括获取模块401和处理模块402。语音处理装置400中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略语音处理装置400中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

参照图4，获取模块401可获取语音信号。

处理模块402可基于获取的语音信号使用神经网络(例如本公开的语音处理模型)来获得相应的高音质语音信号。

作为示例，采集的语音音质由于说话人和采集设备的距离远(如大于2米)和/或采集设备为智能手机自带麦克风而大幅降低，表现为低频或特定频段缺失，或者由于采集信号包含环境混响而难以听清楚说话者说什么，此时可将在这样的情况下采集的语音信号输入至本公开的语音处理模型，以输出高质量的语音信号，例如，可根据输入信号生成任意缺失频段的语音信号分量。经过语音处理模型的处理可得到高音质的人声信号。

语音处理装置400可从例如服务器获取训练好的语音处理模型，或者可自己训练语音处理模型，或者可根据处理数据对语音处理模型的参数进行更新。

图5是本公开实施例的硬件运行环境的语音处理设备的结构示意图。

如图5所示，语音处理设备500可包括：处理组件501、通信总线502、网络接口503、输入输出接口504、存储器505以及电源组件506。其中，通信总线502用于实现这些组件之间的连接通信号。输入输出接口504可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口504还可包括标准的有线接口、无线接口。网络接口503可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器505可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器505可选的还可以是独立于前述处理组件501的存储装置。

本领域技术人员可以理解，图5中示出的结构并不构成对语音处理设备500的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种存储介质的存储器505中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、语音处理程序或模型训练程序以及数据库。

在图5所示的语音处理设备500中，网络接口503主要用于与外部设备/终端进行数据通信；输入输出接口504主要用于与用户进行数据交互；语音处理设备500中的处理组件501、存储器505可被设置在语音处理设备500中，语音处理设备500通过处理组件501调用存储器505中存储的语音处理程序或模型训练程序以及由操作系统提供的各种API，执行本公开实施例提供的语音处理方法和模型训练方法。

处理组件501可以包括至少一个处理器，存储器505中存储有计算机可以执行指令集合，当计算机可以执行指令集合被至少一个处理器执行时，执行根据本公开实施例的语音处理方法和模型训练方法。此外，处理组件501可执行编码操作和解码操作等。然而，上述示例仅是示例性的，本公开不限于此。

作为示例，语音处理设备500可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，语音处理设备500并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。语音处理设备500还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在语音处理设备500中，处理组件501可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件501还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件501可运行存储在存储器中的指令或代码，其中，存储器505还可以存储数据。指令和数据还可以经由网络接口503而通过网络被发送和接收，其中，网络接口503可以采用任何已知的传输协议。

存储器505可以与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器505可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理器可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

图5所示的语音处理设备可使用语音处理模型对低质量人声信号进行处理以得到高质量人声信号，或者可通过上述的模型训练方法来得到本公开的语音处理模型，或者可从外部装置获得训练好的语音处理模型，然后根据使用模型过程中的数据来更新语音处理模型的参数。

图6是根据一示例性实施例示出的语音处理模型的训练装置的框图。

参照图6，训练装置600可包括获取模块601、生成模块602和训练模块603。训练装置600中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略训练装置600中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块601可获取利用高保真音频采集设备采集的无损语音信号。

生成模块602可通过将无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应，以生成训练信号。

训练模块603可利用训练信号和语音处理模型来获得语音预测信号，并且根据无损语音信号和语音预测信号来训练语音处理模型。

作为示例，训练模块603可通过对训练信号进行短时傅里叶变换来得到训练信号的实部数据和虚部数据；基于训练信号的实部数据和虚部数据通过语音处理模型来得到语音预测信号的实部数据和虚部数据；通过对语音预测信号的实部数据和虚部数据进行短时傅里叶逆变换来得到语音预测信号。训练模块603可根据无损语音信号的实部数据和虚部数据以及语音预测信号的实部数据和虚部数据来训练语音处理模型。

作为另一示例，训练模块603可获取训练信号的幅度谱；基于训练信号的幅度谱通过语音处理模型来得到语音预测信号的幅度谱；基于语音预测信号的幅度谱通过声码器来得到语音预测信号。训练模块603可根据无损语音信号的幅度谱和语音预测信号的幅度谱来训练语音处理模型。

作为又一示例，训练模块603可通过对训练信号进行修正离散余弦变换来得到训练信号的修正离散余弦变换系数；基于训练信号的修正离散余弦变换系数通过语音处理模型来得到语音预测信号的修正离散余弦变换系数；通过对语音预测信号的修正离散余弦变换系数进行修正离散余弦逆变换来得到语音预测信号。训练模块603可根据无损语音信号的修正离散余弦变换系数与语音预测信号的修正离散余弦变换系数来训练语音处理模型。

图7是根据另一示例性实施例示出的一种语音处理方法的流程图。

参照图7，对采集到的低质量人声S进行短时傅里叶变换(STFT)来得到该信号的实部S_real和虚部S_imag，将S_real和S_imag输入至语音处理模型来得到预测的实部S’_real和虚部S’_imag，再通过对预测出的实部S’_real和虚部S’_imag进行短时傅里叶逆变换(ISTFT)来得到与低质量人声相应的高质量人声。

图8是根据又一示例性实施例示出的一种语音处理方法的流程图。

参照图8，可对采集到的低质量人声S进行STFT或者MDCT来得到该信号的幅度谱(实数)S_mag，将S_mag输入至语音处理模型来得到预测的幅度谱S’_mag，再对预测出的幅度谱S’_mag使用声码器来得到相应的高质量人声。

图9是根据又一示例性实施例示出的一种语音处理方法的流程图。

参照图9，可对采集到的低质量人声S信号进行MDCT来得到该信号的MDCT系数S_madct，将S_madct输入至语音处理模型来得到预测的MDCT系数S’_madct，再通过对预测出的MDCT系数S’_madct进行MDCT逆变换来得到相应的高质量人声。

图7至图9所示的方法仅是示例性的，可通过训练语音处理模型直接输出高质量人声信号。

此外，虽然图7至图9示出的语音处理模型不是直接输出高质量人声信号，但是可将在输入语音处理模型之前的处理和对语音处理模型输出的处理添加至语音处理模型。

根据本公开的实施例，可提供一种电子设备。图10是根据本公开实施例的电子设备的框图，该电子设备1000可包括至少一个存储器1002和至少一个处理器1001，所述至少一个存储器1002存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器1001执行时，执行根据本公开实施例的语音处理方法和模型训练方法。

处理器1001可包括中央处理器(CPU)、音频处理器、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器1001还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器1002可包括操作系统(例如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、音频处理程序、模型训练程序以及数据库。

存储器1002可与处理器1001集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1002可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1002和处理器1001可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1001能够读取存储在存储器1002中的文件。

此外，电子设备1000还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备1000的所有组件可经由总线和/或网络而彼此连接。

作为示例，电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

本领域技术人员可理解，图10中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的语音处理方法和模型训练方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述语音处理方法和模型训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理模型的训练方法，其特征在于，所述训练方法包括：

获取利用高保真音频采集设备采集的无损语音信号；

通过将所述无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应，以生成训练信号；

利用所述训练信号和所述语音处理模型来获得语音预测信号；

根据所述无损语音信号和所述语音预测信号来训练所述语音处理模型。

2.如权利要求1所述的训练方法，其特征在于，利用所述训练信号和所述语音处理模型来获得语音预测信号，包括：

通过对所述训练信号进行短时傅里叶变换来得到所述训练信号的实部数据和虚部数据；

基于所述训练信号的实部数据和虚部数据通过所述语音处理模型来得到所述语音预测信号的实部数据和虚部数据；

通过对所述语音预测信号的实部数据和虚部数据进行短时傅里叶逆变换来得到所述语音预测信号。

3.如权利要求2所述的训练方法，其特征在于，训练所述语音处理模型，包括：

根据所述无损语音信号的实部数据和虚部数据以及所述语音预测信号的实部数据和虚部数据来训练所述语音处理模型。

4.如权利要求1所述的训练方法，其特征在于，利用所述训练信号和所述语音处理模型来获得语音预测信号，包括：

获取所述训练信号的幅度谱；

基于所述训练信号的幅度谱通过所述语音处理模型来得到所述语音预测信号的幅度谱；

基于所述语音预测信号的幅度谱通过声码器来得到所述语音预测信号。

5.如权利要求1所述的训练方法，其特征在于，利用所述训练信号和所述语音处理模型来获得语音预测信号，包括：

通过对所述训练信号进行修正离散余弦变换来得到所述训练信号的修正离散余弦变换系数；

基于所述训练信号的修正离散余弦变换系数通过所述语音处理模型来得到所述语音预测信号的修正离散余弦变换系数；

通过对所述语音预测信号的修正离散余弦变换系数进行修正离散余弦逆变换来得到所述语音预测信号。

6.一种语音处理方法，其特征在于，所述语音处理方法包括：

获取语音信号；

基于所述语音信号利用通过如权利要求1-5中任一项所述的训练方法得到的语音处理模型来获得与所述语音信号相应的高音质语音信号。

7.一种语音处理模型的训练装置，其特征在于，所述训练装置包括：

获取模块，被配置为获取利用高保真音频采集设备采集的无损语音信号；

生成模块，被配置为通过将所述无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应，以生成训练信号；

训练模块，被配置为利用所述训练信号和所述语音处理模型来获得语音预测信号，并且根据所述无损语音信号和所述语音预测信号来训练所述语音处理模型。

8.一种语音处理装置，其特征在于，所述语音处理装置包括：

获取模块，被配置为获取语音信号；

处理模块，被配置为基于所述语音信号利用通过如权利要求1-5中任一项所述的训练方法得到的语音处理模型来获得与所述语音信号相应的高音质语音信号。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的训练方法或如权利要求6所述的语音处理方法。

10.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的训练方法或如权利要求6所述的语音处理方法。