CN113793619B

CN113793619B - 一种语音增强方法、装置以及处理设备

Info

Publication number: CN113793619B
Application number: CN202110852033.9A
Authority: CN
Inventors: 李登实; 赵兰馨; 高雨; 官端正
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-10-13
Anticipated expiration: 2041-07-27
Also published as: CN113793619A

Abstract

本申请提供了一种语音增强方法、装置以及处理设备，用于实现一种语音增强机制，保障高精度的降噪处理，以具有更高的实用价值。方法包括：处理设备获取发送方发送的第一语音数据；处理设备提取第一语音数据的第一语音特征以及第一背景噪声分贝特征；处理设备采集自身所处环境的第二背景噪声分贝特征；处理设备将第一语音特征、第一背景噪声分贝特征以及第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征；处理设备根据第二语音特征，对第一语音数据进行语音增强处理，得到第二语音数据。

Description

一种语音增强方法、装置以及处理设备

技术领域

本申请涉及语音领域，具体涉及一种语音增强方法、装置以及处理设备。

背景技术

可以理解，在语音通话过程中，经常由于双方的所处环境都存在不同的环境噪声，从而导致采集到的语音以及播放的语音的清晰度，都出现一定程度下降的情况，在该情况下，容易丢失一些通话内容的丢失，影响了通话质量。因此，降噪处理，为语音通话过程中的一大重要的处理功能。

所谓降噪，可以理解为降低语音中的环境噪声，从而使得语音中的人声更加的突出、清晰，达到提升语音质量的目的。

而在现有的相关技术的研究过程中，发明人发现，其对于语音中存在的噪声，降噪精度有限，仍存在一定的优化空间，方可适于实用。

发明内容

本申请提供了一种语音增强方法、装置以及处理设备，用于实现一种语音增强机制，保障高精度的降噪处理，以具有更高的实用价值。

第一方面，本申请提供了一种语音增强方法，方法包括：

处理设备获取发送方发送的第一语音数据；

处理设备提取第一语音数据的第一语音特征以及第一背景噪声分贝特征；

处理设备采集自身所处环境的第二背景噪声分贝特征；

处理设备将第一语音特征、第一背景噪声分贝特征以及第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得StarGAN模型以第三背景噪声分贝特征转换为第四背景噪声分贝特征为转换条件，并以第四语音特征作为转换目标，对第三语音特征进行语音特征变换处理，进行模型的训练得到的；

处理设备根据第二语音特征，对第一语音数据进行语音增强处理，得到第二语音数据。

结合本申请第一方面，在本申请第一方面第一种可能的实现方式中，在处理设备将第一语音特征、第一背景噪声分贝特征以及第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征之前，方法还包括：

处理设备获取语音数据集合；

处理设备提取语音数据集合中每组语音数据对应的语音特征以及背景噪声分贝特征；

在每一轮的模型训练过程中，处理设备随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得StarGAN模型以第三背景噪声分贝特征转换为第四背景噪声分贝特征作为转换条件，以第四语音特征作为转换目标，对第三语音特征进行语音特征变换处理，进行模型的训练。

结合本申请第一方面第一种可能的实现方式，在本申请第一方面第二种可能的实现方式中，语音数据集合具体包括在零分贝的背景噪声下采集的语音数据以及在不同分贝的背景噪声下采集到的Lombard语音数据，Lombard语音数据是指在发送方为降低干扰、提高语音可懂度时调整了说话方式的场景下得到的语音数据。

结合本申请第一方面第一种可能的实现方式，在本申请第一方面第三种可能的实现方式中，模型训练过程中涉及的损失函数包括对抗性损失函数、域分类损失函数以及周期性一致损失函数。

结合本申请第一方面第一种可能的实现方式，在本申请第一方面第四种可能的实现方式中，第一背景噪声分贝特征、第二背景噪声分贝特征、第三背景噪声分贝特征以及第三背景噪声分贝特征，分别为背景噪声的分贝范围。

结合本申请第一方面第一种可能的实现方式，在本申请第一方面第五种可能的实现方式中，第一语音特征、第二语音特征、第三语音特征以及第四语音特征，分别包括频谱包络特征以及基频特征。

结合本申请第一方面第五种可能的实现方式，在本申请第一方面第六种可能的实现方式中，频谱包络特征以及基频特征由WORLD声码器提取得到，处理设备根据第二语音特征，对第一语音数据进行语音增强处理，得到第二语音数据，包括：

处理设备将第二语音特征作为输入数据，通过WORLD声码器进行语音合成，以对第一语音数据进行语音增强处理，得到第二语音数据。

第二方面，本申请提供了一种语音增强装置，装置包括：

获取单元，用于获取发送方发送的第一语音数据；

提取单元，用于提取第一语音数据的第一语音特征以及第一背景噪声分贝特征；

采集单元，用于采集自身所处环境的第二背景噪声分贝特征；

处理单元，用于将第一语音特征、第一背景噪声分贝特征以及第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得StarGAN模型以第三背景噪声分贝特征转换为第四背景噪声分贝特征作为转换条件，并以第四语音特征作为转换目标，对第三语音特征进行语音特征变换处理，进行模型的训练得到的；

增强单元，用于根据第二语音特征，对第一语音数据进行语音增强处理，得到第二语音数据。

结合本申请第二方面，在本申请第二方面第一种可能的实现方式中，装置还包括训练单元，用于：

获取语音数据集合；

提取语音数据集合中每组语音数据对应的语音特征以及背景噪声分贝特征；

在每一轮的模型训练过程中，随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得StarGAN模型以第三背景噪声分贝特征转换为第四背景噪声分贝特征作为转换条件，以第四语音特征作为转换目标，对第三语音特征进行语音特征变换处理，进行模型的训练。

结合本申请第二方面第一种可能的实现方式，在本申请第二方面第二种可能的实现方式中，语音数据集合具体包括在零分贝的背景噪声下采集的语音数据以及在不同分贝的背景噪声下采集到的Lombard语音数据，Lombard语音数据是指在发送方为降低干扰、提高语音可懂度时调整了说话方式的场景下得到的语音数据。

结合本申请第二方面第一种可能的实现方式，在本申请第二方面第三种可能的实现方式中，模型训练过程中涉及的损失函数包括对抗性损失函数、域分类损失函数以及周期性一致损失函数。

结合本申请第二方面第一种可能的实现方式，在本申请第二方面第四种可能的实现方式中，第一背景噪声分贝特征、第二背景噪声分贝特征、第三背景噪声分贝特征以及第三背景噪声分贝特征，分别为背景噪声的分贝范围。

结合本申请第二方面第一种可能的实现方式，在本申请第二方面第五种可能的实现方式中，第一语音特征、第二语音特征、第三语音特征以及第四语音特征，分别包括频谱包络特征以及基频特征。

结合本申请第二方面第五种可能的实现方式，在本申请第二方面第六种可能的实现方式中，频谱包络特征以及基频特征由WORLD声码器提取得到，增强单元，具体用于：

将第二语音特征作为输入数据，通过WORLD声码器进行语音合成，以对第一语音数据进行语音增强处理，得到第二语音数据。

第三方面，本申请提供了一种处理设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

从以上内容可得出，本申请具有以下的有益效果：

针对于语音降噪，本申请提出一种语音增强机制，以发送方的背景噪声分贝特征转换为接收方的背景噪声分贝特征作为转换条件，通过神经网络模型对发送方发送的语音数据的语音特征进行语音特征变换处理，再根据处理得到的语音特征进行语音增强处理，从而可得到适配接收方的环境噪声的语音数据，达到高精度降噪，提高语音可懂度的效果。

此外，在本申请中，由于神经网络模型具体还采用的是StarGAN模型，其在模型中可实现多个域的迁移，提高了域迁移的可拓展性和鲁棒性，相比于现有的神经网络模型需要在不同的两个域之间相互进行特征提取，存在k个域需要k(k-1)个生成器的问题，StarGAN模型中只需要配置一个生成器，因此模型的训练效率大大提高，并且还更容易获得更高的模型处理精度，即，对于本申请的降噪处理所涉及的语音特征变换处理，也可进一步提高其处理精度，进而可继续扩大降噪、语音可懂度的提升效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请语音增强方法的一种流程示意图；

图2为本申请模型训练的一种场景示意图；

图3为本申请语音增强装置的一种结构示意图；

图4为本申请处理设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

在介绍本申请提供的语音增强方法之前，首先介绍本申请所涉及的背景内容。

本申请提供的语音增强方法、装置以及计算机可读存储介质，可应用于处理设备，用于实现一种语音增强机制，保障高精度的降噪处理，以具有更高的实用价值。

本申请提及的语音增强方法，其执行主体可以为语音增强装置，或者集成了该语音增强装置的服务器、物理主机或者用户设备(User Equipment，UE)等类型的处理设备。其中，语音增强装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备，处理设备具体还可以通过设备集群的方式设置。

作为一种可广泛应用的实现方式，本申请提供的处理设备，具体可以为用户手边的智能手机，在与其他用户通过手机进行语音收听或者实时语音通话的过程中，可通过应用本申请所提供的语音增强方法，对其他用户(发送方)发送过来的语音数据进行语音增强处理，以达到本地播放的语音具有更高的语音可懂度的效果，实现更高的语音会话质量。

下面，开始介绍本申请提供的语音增强方法。

首先，参阅图1，图1示出了本申请语音增强方法的一种流程示意图，本申请提供的语音增强方法，具体可包括如下步骤S101至步骤S105：

步骤S101，处理设备获取发送方发送的第一语音数据；

可以理解，在本申请中，处理设备一般是作为语音通话过程中的一方存在的，当自身作为接收方时，可接收到来自对面方，即发送方发送过来的语音数据。

此外，当自身作为发送方时，对面方则可作为接收方。

而该语音数据，可以为实时语音通话所涉及的语音数据，例如用户之间可在社交软件上发起实时的语音聊天，在语音聊天过程中，双方则都涉及到向对方发送自己发起的语音数据。

或者，语音数据，也可以为语音收听场景所涉及的语音数据，用户可如文字聊天形式般，单方面发送自己发起的语音数据，对方在收到语音数据时，可点击聊天界面里的语音数据展示模块，触发接听语音，此时，语音数据是可能为历史的语音数据的。

步骤S102，处理设备提取第一语音数据的第一语音特征以及第一背景噪声分贝特征；

在获取到发送方发送过来的语音数据后，则可对其进行特征提取，提取出本申请关注的语音特征以及背景噪声分贝特征。

容易理解，语音特征为语音数据中人声部分的特征，背景噪声分贝特征则为语音数据中背景噪声的特征，其中，背景噪声分贝特征主要是从背景噪声的分贝方面进行数字化的体现。

步骤S103，处理设备采集自身所处环境的第二背景噪声分贝特征；

针对于处理设备本地的降噪处理，可以理解，可以采集自身所处环境的实时背景噪声的特征，即，从背景噪声的分贝方面进行数字化的体现的背景噪声分贝特征。

可以理解，步骤S103中的背景噪声分贝特征，既可以是如步骤S102中从本地采集的语音数据(可包含人声，或者语音数据直接为当前所处时间段中专门或者其他应用场景下采集到的语音数据)中通过提取手段提取得到；也可以是在处理设备本地所处环境中未存在人声的情况下，直接采集到的，当然，在这采集过程中也可能存在一些数据处理，示例性的，可通过声压计直接测量本地的背景噪声的分贝值。

步骤S104，处理设备将第一语音特征、第一背景噪声分贝特征以及第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得StarGAN模型以第三背景噪声分贝特征转换为第四背景噪声分贝特征作为转换条件，并以第四语音特征作为语音转换目标，对第三语音特征进行语音特征变换处理，进行模型的训练得到的；

在本申请中，针对于语音降噪，本申请提出一种语音增强机制，以发送方的背景噪声分贝特征转换为接收方的背景噪声分贝特征作为转换条件，通过神经网络模型对发送方发送的语音数据的语音特征进行语音特征变换处理，再根据处理得到的语音特征进行语音增强处理，从而可得到适配接收方的环境噪声的语音数据，达到高精度降噪，提高语音可懂度的效果。

从可看出，本申请所提出的语音增强机制，是从接收方侧出发，动态适应背景噪声的思路进行的，基于双方背景噪声之间的映射，调整了语音特征的清晰度，进而可提高所播放语音的语音可懂度。

其中，进行模型的应用之前，还包括模型的训练处理，其训练过程，主要包括：

处理设备获取语音数据集合；

可以理解，语音数据集合，一般是由工作人员手动配置的，集合中的语音数据，可以是真实的历史语音数据，例如两两用户在语音会话过程中所涉及的语音数据，也可以是工作人员手动配置或者通过调参所加工得到的语音数据。

与步骤S102类似的，对于语音数据集合中包含的不同语音数据，都可提取其语音特征以及背景噪声分贝特征。

而在具体的模型训练过程中，是包括多轮的模型训练环节的，或者说，包括多轮的模型优化环节，以两组语音数据作为基础单位进行的模型训练，逐步地训练模型对于映射背景噪声分贝特征的同时变换语音特征的目的。

其中，针对于模型的训练，本申请还考虑到在日常语音通话过程中涉及的一种人工提高语音可懂度的处理，例如，在实际应用中，用户之间在进行语音会话时，当发现一方或者双方都存在一定的环境噪声，影响了语音会话质量时，往往会主动或者潜意识地改变自身在录入语音时的音量、音调或者音色等特征，以在环境噪声趋于不变的情况下，提高语音可懂度，此时，该场景下的语音数据，则可称为Lombard语音数据，Lombard语音数据是指在发送方为降低干扰、提高语音可懂度时调整了说话方式的场景下得到的语音数据。

这类语音数据可引入至本申请，作为模型训练用的语音数据的类型，以实现在语音特征变换处理过程中，可更为贴近于用户的习惯，实现更为平滑、自然的语音特征变换效果。

Lombard语音数据，可在不同分贝的背景噪声下采集到，例如50dB(分贝)背景噪声的Lombard语音数据、70dB背景噪声的Lombard语音数据。

当然，语音数据集合中，还可包括零(0)dB背景噪声的正常语音数据，以提供完整的数据支持。

此外，为便于提高模型的训练效率，以及后续实际应用中模型的处理效率，在本申请中所提及的背景噪声分贝特征，除了可以为具体的分贝值，还可以为背景噪声的分贝范围，例如0dB-55dB、55dB-70dB、70-100dB。

可以理解，在实际应用中，环境噪声的影响通常处于动态波动的状态，噪声源输出的噪声往往不是固定的，噪声源本身也可能出现变化，例如增加了新的噪声源，因此，可配置不同的分贝范围，以对环境噪声分贝特征进行范围上的划分，便于数据上的梳理，进而可提高模型的训练效率，以及后续实际应用中模型的处理效率。

其中，对于不同分贝范围的环境噪声，还可通过范围标识进行标识，例如0dB-55dB环境噪声下的语音归为正常语音，55dB-70dB环境噪声下的语音归为Lombard等级1，70dB以上环境噪声下的语音归为Lombard等级2。

此外，对于语音数据提取的语音特征，在本申请中，具体可以通过频谱包络特征以及基频特征两者进行体现。

频谱包络特征，可以理解为将语音中不同频率的振幅最高点连结起来形成的曲线特征；

基频特征，可以理解为语音中自由振荡系统的最低振荡频率。

本申请将频谱包络特征以及基频特征两者作为重要的语音特征，当然，在实际应用中，还可存在或者考虑其他方面的具体语音特征，具体在此不做限定。

对于StarGAN模型，其模型本身包括生成器、判别器以及分类器三个部分，这三个部分可以理解为整体的StarGAN模型所包含的三个子神经网络，每个子神经网络可进行单独的模型训练，也可从整体上进行模型训练。

下面，可从图2示出的本申请模型训练的一种场景示意图进行理解，在模型训练过程中，背景噪声分贝特征作为一种语音属性标签，可将真实源语音信号特征(第三语音特征)与目标语音属性标签(第四背景噪声分贝特征)输入StarGAN网络框架中的生成器，生成具有目标语音属性标签(第四背景噪声分贝特征)的虚假语音特征，与目标语音属性标签(第四背景噪声分贝特征)输入StarGAN网络框架中的判别器，同时，真实的目标语音特征(第四语音特征)与目标语音属性标签(第四背景噪声分贝特征)也输入判别器，由判别器判断输入的虚假语音特征是否匹配真实的目标语音特征(第四语音特征)、目标语音属性标签(第四背景噪声分贝特征)，若判别器判断匹配，则输出真，反之，则输出假。真实语音特征(第四语音特征)与生成的虚假语音特征输入分类器，训练分类器对输入语音特征进行分类。生成的虚假目标语音特征与源语音属性标签输入生成器，生成虚假的源语音特征。

可以发现，对于StarGAN模型的训练，其在输入两组语音数据进行训练时，模型内部还包括了多次反复的语音特征的生成、匹配以及分类，通过反反复复的训练，达到优化模型处理精度的效果，接着还可继续输入两组语音数据，继续训练模型。

而对于模型训练过程中涉及的损失函数，则可具体包括对抗性损失函数、域分类损失函数以及周期性一致损失函数。

对抗性损失函数：

其中，y～p(y|c)表示y为带有目标语音属性标签c的真实目标语音信号特征，x～p(x)表示x为带有任意属性的真实语音信号特征，c～p(c)表示c为任意一种真实语音中存在的属性标签。

当判别器正确地将生成器生成的虚假目标语音信号特征G(x,c)和真实目标语音信号特征y判断为真假语音特征时，即D(G(x，c)，c)＝0、D(y，c)＝1时，取值最小，而当/>在生成器成功欺骗判别器时取最小值，即D(G(x，c)，c)＝1，使G(x,c)被判别器错误地判别为真实语音特性，因此，本申请希望对判别器最小化/>对生成器最小化/>

域分类损失函数：

其中，p_C(c|y)为真实目标语音特征y属于目标语音属性标签c的概率，p_C(c|G(x，c))为生成器生成的虚假目标语音信号特征G(x,c)属于目标语音属性标签c的概率。

故和/>在分类器正确地将真实目标语音信号特征y和虚假目标语音信号特征G(x,c)归类为属于属性c时取最小值。因此，本申请希望对分类器最小化对生成器最小化/>

本申请还认为，在实际应用中，仅使用上述损失函数对生成器、判别器和分类器进行训练还不能保证生成器将保留输入语音的语言信息，为了使G(x,c)是一个双向映射，即真实源语音信号特征x可映射到虚假目标语音特征G(x,c)，并可将G(x,c)反向映射回源语音特征G(G(x,c),c'),c'为源语音属性标签，本申请希望真实源语音特征x与虚假源语音特征G(G(x,c),c')尽可能相同，因此还继续引入了一个最小化的周期一致性损失。

周期一致性损失函数：

L_cyc(G)＝E_{c′～p(c)，x～p(x|c′)，c～p(c)}[||G(G(x，c)，c)′-x||_ρ]，

其中，x～p(x|c')表示x为具有属性c'的真实源语音信号特征，对G(G(x,c),c′)-x求范数，即两个特征序列间的距离，ρ是一个正常数，故L_cyc(G)在G(G(x,c),c')与x越相同时取最小值，因此，本申请希望对生成器最小化L_cyc(G)。

综上所述，本申请StarGAN模型最小化生成器、判别器和分类器的全部目标可以如下：

对于模型的训练目标，本申请可配置为语音可懂度等考量因素，以语音可懂度为例，可将语音可懂度指标(Speech Intelligibility in Bits，SIIB)作为语音可懂度的量化方式，SIIB是指说话者(发送方)和听者(接收方)之间共享信息量的估计值，以比特每秒为单位，通过计算正确识别的单词或音素的数量来量化语音可懂度。

在实际应运中，语音可懂度取决于每个频带中信号的可听性，而可听性又与每个频带的信噪比(Signal-Noise Ratio，SNR)具有很高的相关性，因此客观语音可懂度(SIIB)可以写成如下形式：

其中，K为频谱的被划分的频段个数，W_K表示第K个频段的频带重要性，其满足下式：

然后可以通过函数将客观语音质量的值映射为语音质量得分，作为SIIB。

步骤S105，处理设备根据第二语音特征，对第一语音数据进行语音增强处理，得到第二语音数据。

在得到语音特征变换处理得到的语音特征后，则可根据该语音特征，达到对发送方发送过来的语音数据进行语音增强的目的，得到提高了语音可懂度的语音数据，该语音数据，则可在本地的语音会话中，对用户进行语音输出。

其中，作为一种适于实用的实现方式，在本申请中，语音数据与语义特征之间的转换，可除了可根据具体的数据之间的转换关系进行转换，还可通过一些列现有的数据处理工具实现，例如可采用WORLD声码器，WORLD声码器整体的语音合成过程中，可以理解为用3个算法提取3个参数，然后用一个合成算法把他们当作输入，实现高质量的语音合成。

1)输入语音数据wave，通过DIO算法估计出基频f0；

2)f0和wave作为输入，由CheapTrick算法估计出频谱包络sp；

3)输入f0/sp/wave，用PLATINUM算法将提取出来的信号进行估计，得到非周期参数。

从这可发现，当本申请采用WROLD声码器进行语音特征的提取以及后续语音数据的合成时，还可涉及到非周期参数，以促进还原更为真实的语音，而本申请，则在合成过程中，则可对涉及的频谱包络sp以及基频f0进行调整，以达到语音特征变换、提高语音可懂度的目的。

对应的，在上述提及的第二语音数据的获得处理中，还可包括：

以上是本申请提供语音增强方法的介绍，为便于更好的实施本申请提供的语音增强方法，本申请还从功能模块角度提供了一种语音增强装置。

参阅图3，图3为本申请语音增强装置的一种结构示意图，在本申请中，语音增强装置300具体可包括如下结构：

获取单元301，用于获取发送方发送的第一语音数据；

提取单元302，用于提取第一语音数据的第一语音特征以及第一背景噪声分贝特征；

采集单元303，用于采集自身所处环境的第二背景噪声分贝特征；

处理单元304，用于将第一语音特征、第一背景噪声分贝特征以及第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得StarGAN模型以第三背景噪声分贝特征转换为第四背景噪声分贝特征作为转换条件，并以第四语音特征作为转换目标，对第三语音特征进行语音特征变换处理，进行模型的训练得到的；

增强单元305，用于根据第二语音特征，对第一语音数据进行语音增强处理，得到第二语音数据。

在一种示例性的实现方式中，装置还包括训练单元306，用于：

获取语音数据集合；

在又一种示例性的实现方式中，语音数据集合具体包括在零分贝的背景噪声下采集的语音数据以及在不同分贝的背景噪声下采集到的Lombard语音数据，Lombard语音数据是指在发送方为降低干扰、提高语音可懂度时调整了说话方式的场景下得到的语音数据。

在又一种示例性的实现方式中，模型训练过程中涉及的损失函数包括对抗性损失函数、域分类损失函数以及周期性一致损失函数。

在又一种示例性的实现方式中，第一背景噪声分贝特征、第二背景噪声分贝特征、第三背景噪声分贝特征以及第三背景噪声分贝特征，分别为背景噪声的分贝范围。

在又一种示例性的实现方式中，第一语音特征、第二语音特征、第三语音特征以及第四语音特征，分别包括频谱包络特征以及基频特征。

在又一种示例性的实现方式中，频谱包络特征以及基频特征由WORLD声码器提取得到，增强单元305，具体用于：

本申请还从硬件结构角度提供了一种处理设备，参阅图4，图4示出了本申请处理设备的一种结构示意图，具体的，本申请处理设备可包括处理器401、存储器402以及输入输出设备403，处理器401用于执行存储器402中存储的计算机程序时实现如图1对应实施例中语音增强方法的各步骤；或者，处理器401用于执行存储器402中存储的计算机程序时实现如图3对应实施例中各单元的功能，存储器402用于存储处理器401执行上述图1对应实施例中语音增强方法所需的计算机程序。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

处理设备可包括，但不仅限于处理器401、存储器402、输入输出设备403。本领域技术人员可以理解，示意仅仅是处理设备的示例，并不构成对处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如处理设备还可以包括网络接入设备、总线等，处理器401、存储器402、输入输出设备403等通过总线相连。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是处理设备的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器402可用于存储计算机程序和/或模块，处理器401通过运行或执行存储在存储器402内的计算机程序和/或模块，以及调用存储在存储器402内的数据，实现计算机装置的各种功能。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据处理设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器401用于执行存储器402中存储的计算机程序时，具体可实现以下功能：

获取发送方发送的第一语音数据；

提取第一语音数据的第一语音特征以及第一背景噪声分贝特征；

采集自身所处环境的第二背景噪声分贝特征；

将第一语音特征、第一背景噪声分贝特征以及第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得StarGAN模型以第三背景噪声分贝特征转换为第四背景噪声分贝特征作为转换条件，并以第四语音特征作为转换目标，对第三语音特征进行语音特征变换处理，进行模型的训练得到的；

根据第二语音特征，对第一语音数据进行语音增强处理，得到第二语音数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的语音增强装置、处理设备及其相应单元的具体工作过程，可以参考如图1对应实施例中语音增强方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1对应实施例中语音增强方法的步骤，具体操作可参考如图1对应实施例中语音增强方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1对应实施例中语音增强方法的步骤，因此，可以实现本申请如图1对应实施例中语音增强方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的语音增强方法、装置、处理设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音增强方法，其特征在于，所述方法包括：

处理设备获取发送方发送的第一语音数据；

所述处理设备提取所述第一语音数据的第一语音特征以及第一背景噪声分贝特征；

所述处理设备采集自身所处环境的第二背景噪声分贝特征；

所述处理设备将所述第一语音特征、所述第一背景噪声分贝特征以及所述第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，所述语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得所述StarGAN模型以所述第三背景噪声分贝特征转换为所述第四背景噪声分贝特征为转换条件，并以所述第四语音特征作为转换目标，对所述第三语音特征进行语音特征变换处理，进行模型的训练得到的；

所述处理设备根据所述第二语音特征，对所述第一语音数据进行语音增强处理，得到第二语音数据。

2.根据权利要求1所述的方法，其特征在于，在所述处理设备将所述第一语音特征、所述第一背景噪声分贝特征以及所述第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征之前，所述方法还包括：

所述处理设备获取语音数据集合；

所述处理设备提取所述语音数据集合中每组所述语音数据对应的语音特征以及背景噪声分贝特征；

在每一轮的模型训练过程中，所述处理设备随机抽取两组语音数据，并将所述第三语音数据对应的所述第三语音特征以及所述第三背景噪声分贝特征，以及第四语音数据对应的所述第四语音特征以及所述第四背景噪声分贝特征作为训练集，输入所述StarGAN模型，使得所述StarGAN模型以所述第三背景噪声分贝特征转换为所述第四背景噪声分贝特征作为转换条件，以所述第四语音特征作为转换目标，对所述第三语音特征进行语音特征变换处理，进行模型的训练。

3.根据权利要求2所述的方法，其特征在于，所述语音数据集合具体包括在零分贝的背景噪声下采集的语音数据以及在不同分贝的背景噪声下采集到的Lombard语音数据，所述Lombard语音数据是指在发送方为降低干扰、提高语音可懂度时调整了说话方式的场景下得到的语音数据。

4.根据权利要求2所述的方法，其特征在于，模型训练过程中涉及的损失函数包括对抗性损失函数、域分类损失函数以及周期性一致损失函数。

5.根据权利要求2所述的方法，其特征在于，所述第一背景噪声分贝特征、所述第二背景噪声分贝特征、所述第三背景噪声分贝特征以及所述第三背景噪声分贝特征，分别为背景噪声的分贝范围。

6.根据权利要求2所述的方法，其特征在于，所述第一语音特征、所述第二语音特征、所述第三语音特征以及所述第四语音特征，分别包括频谱包络特征以及基频特征。

7.根据权利要求6所述的方法，其特征在于，所述频谱包络特征以及所述基频特征由WORLD声码器提取得到，所述处理设备根据所述第二语音特征，对所述第一语音数据进行语音增强处理，得到第二语音数据，包括：

所述处理设备将所述第二语音特征作为输入数据，通过所述WORLD声码器进行语音合成，以对所述第一语音数据进行语音增强处理，得到所述第二语音数据。

8.一种语音增强装置，其特征在于，所述装置包括：

获取单元，用于获取发送方发送的第一语音数据；

提取单元，用于提取所述第一语音数据的第一语音特征以及第一背景噪声分贝特征；

处理单元，用于将所述第一语音特征、所述第一背景噪声分贝特征以及所述第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，所述语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得所述StarGAN模型以所述第三背景噪声分贝特征转换为所述第四背景噪声分贝特征作为转换条件，并以所述第四语音特征作为转换目标，对所述第三语音特征进行语音特征变换处理，进行模型的训练得到的；

增强单元，用于根据所述第二语音特征，对所述第一语音数据进行语音增强处理，得到第二语音数据。

9.一种处理设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的方法。