CN112908302A

CN112908302A - 一种音频处理方法、装置、设备及可读存储介质

Info

Publication number: CN112908302A
Application number: CN202110114544.0A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-06-04
Anticipated expiration: 2041-01-26
Also published as: CN112908302B

Abstract

本申请公开了一种音频处理方法、装置、设备及可读存储介质，该方法包括：对输入干声进行换气声检测，确定输入干声中的换气声音频；提取换气声音频的音频特征，并基于音频特征确定出目标换气声音频；对输入干声中的目标换气声音频进行替换处理，得到输出干声；将输出干声与背景音频进行合成处理，得到目标音频。可见，该方法，通过对输入干声中的需要改善的目标换气声音频进行替换处理，能够改善输入干声中的换气声，使得输出干声中的换气声更能体现其存在意义，最终使得合成的目标音频音质更佳。

Description

一种音频处理方法、装置、设备及可读存储介质

技术领域

本申请涉及音频技术领域，特别是涉及一种音频处理方法、装置、设备及可读存储介质。

背景技术

干声即纯人声，包括自然人声以及人工合成人声。对于自然人声，可能会因发声的人或声音采集设备的本身的问题导致出现音质较差的问题。而人工合成人声，则可能会因合成算法、参考声音等因素导致所合成的人声有音质差等问题。干声本身音质差，对干声进行进一步合成处理，如加音乐背景，最终也会因干声音质差导致最终的合成效果差。

综上所述，如何有效地解决提升合成音频的音质等问题，是目前本领域技术人员急需解决的技术问题。

申请内容

本申请的目的是提供一种音频处理方法、装置、设备及可读存储介质，通过对输入干声中的需要改善的目标换气声进行改善，能够改善输入干声中的换气声，使得输出干声中的换气声更能体现其存在意义，使得输出干声的音质更佳。

为实现上述目的，本申请第一方面提供了一种音频处理方法，包括：

对输入干声进行换气声检测，确定所述输入干声中的换气声音频；

提取所述换气声音频的音频特征，并基于所述音频特征确定出目标换气声音频；

对所述输入干声中的所述目标换气声音频进行替换处理，得到输出干声；

将所述输出干声与背景音频进行合成处理，得到目标音频。

为实现上述目的，本申请第二方面提供了一种音频处理装置，包括：

换气声检测模块，用于对输入干声进行换气声检测，确定所述输入干声中的换气声音频；

特征提取模块，用于提取所述换气声音频的音频特征，并基于所述音频特征确定出目标换气声音频；

替换处理模块，用于对所述输入干声中的所述目标换气声音频进行替换处理，得到输出干声；

合成处理模块，用于将所述输出干声与背景音频进行合成处理，得到目标音频。

为实现上述目的，本申请第三方面提供了一种音频处理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述音频处理方法的步骤。

为实现上述目的，本申请第四方面提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述音频处理方法的步骤。

应用本申请实施例所提供的方法，对输入干声进行换气声检测，确定输入干声中的换气声音频；提取换气声音频的音频特征，并基于音频特征确定出目标换气声音频；对输入干声中的目标换气声音频进行替换处理，得到输出干声；将输出干声与背景音频进行合成处理，得到目标音频。

经过研究发现：对于干声中的自然人声，恰当的换气声，会引起听众共鸣，而若出现不恰当的换气声，会引起听众反感；对于干声中的合成人声，含有合适的换气声，会使得合成人声更加贴近自然人声，即合成效果更佳，但是，因现有的合成方法、合成信息本身的缺陷，会使得合成的干声中出现不恰当的换气声。即，换气声对于情绪的表达，对于合成干声的自然度等方面均有着重要作用，对换气声进行处理，便可提高干声的音质。基于此，在本方法中提出通过对输入干声中的换气声进行处理，进而提升干声的音质。

具体的，在本方法中，对输入干声进行换气声检测，便可确定出输入干声中的换气声音频。然后，再提取出换气声音频的音频特征，并基于音频特征确定出目标换气声音频。对输入干声中的目标换气声音频进行替换处理，得到替换了目标换气声音频的输出干声；将输出干声与背景音频进行合成处理，得到目标音频。根据换气声特征，找出输入干声中需要改善处理的目标换气声音频并进行替换处理，然后对输出干声和背景音乐进行合成，得到目标音频。可见，本方法，通过对输入干声中的需要改善的目标换气声音频进行替换处理，能够改善输入干声中的换气声，使得输出干声中的换气声更能体现其存在意义，最终使得合成的目标音频音质更佳。

相应地，本申请实施例还提供了与上述音频处理方法相对应的音频处理装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本申请的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请，但并不构成对本申请的限制。在附图中：

图1为本申请实施例中一种音频处理系统的架构图；

图2为本申请实施例中一种音频处理方法的流程图；

图3为本申请实施例中第一种音频处理方法的具体实施流程图；

图4为本申请实施例中第二种音频处理方法的具体实施流程图；

图5为本申请实施例中第三种音频处理方法的具体实施流程图；

图6为本申请实施例中一种目标换气声音频波形示意图；

图7为本申请实施例中一种替换后的标准换气声音频波形示意图；

图8为本申请实施例中一种音频处理装置的结构示意图；

图9为本申请实施例中一种音频处理设备的结构示意图；

图10为本申请实施例中一种音频处理设备的具体结构示意图。

具体实施方式

本申请的申请人研究发现，干声中一般会包括换气声，而换气声会影响干声的音质。其中，换气声指人们在发声(如说话、唱歌)开始前、发声过程中的吸气声音。具体的，对于干声中自然人声所包含的换气声，换气声对情绪的表达有着重要作用，例如对于低落情绪，换气声会轻而长；对于高亢情绪，换气声而显得短而急促；干声中的合成人声，为了使得合成人声更加符合自然人声的效果，会特意合成出有换气声的合成人声，而因合成算法或合成参考信息本身的缺陷，会合成出不合适宜的换气声，例如合成出音质差、时间不合适的换气声。换气声本身对于情绪表达，以及合成声音自然段等方便都有重要作用。而不合适的换气声会引起听众反感，影响干声音质。

基于此，在本申请中提出了一种音频处理方法，对输入干声进行换气声检测，便可确定输入干声中的换气声音频。然后，提取该换气声音频的换气声特征，并基于该音频特征找出输入干声中需要替换的目标换气声音频，并进行替换处理，得到音质效果更佳的输出干声，将该输出干声与背景音频进行合成处理，便可得到目标音频。

相应地，本申请对应该音频处理方法，还提出了一种音频处理装置、设备和可读存储介质，具有上述技术效果。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请提供的音频处理方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种音频处理系统的架构图，如图1所示，包括第一设备100和第二设备200，第一设备100与第二设备200之间可通过物理总线直连，也可通过无线连接，还可通过网络连接。特别地，若第一设备与第二设备通过物理总线直连，该第一设备和第二设备可以具体为同一个装置中的不同组成设备。

其中，第一设备可以具体为录音设备，即通过对其所处空间的声音进行采集，得到干声中的自然人声；该第一设备还可具体为人声合成设备；该第一设备还可通过接收其他设备发送的声音信号，并对其进行处理(如去噪，去背景音乐)，得到干声，通过人声合成算法，对合成输入信息进行合成处理，得到干声中的合成人声。其中，自然人声、合成人声可以对应歌声、阅读声、谈话声等具体声音。

第一设备向第二设备输入干声，第二设备得到输入干声之后，对输入干声进行检测，得到需要替换的目标换气声音频，然后再针对目标换气声音频进行替换处理，得到音质提升后的输出干声，进而将输出干声与背景音频进行合成处理，得到目标音频。特别地，第二设备可将目标音频反馈给第一设备，也可将目标音频直接进行播放输出，当然，也可将其发送给除第一设备、第二设备本身之外的第三设备，由第三设备对目标音频进行播放或进一步合成处理、优化处理等操作。

需要注意的是，上述第二设备的具体结构和功能还可具体参考本申请所提供的音频处理设备，即上述第二设备可以具体为音频处理设备。

本申请实施例公开了一种音频处理方法，可以通过替换换气声音频的方式，来提升干声与背景音频的合成音质。

请参考图2，图2为本申请实施例中一种音频处理方法的流程图，该方法包括以下步骤：

S101、对输入干声进行换气声检测，确定输入干声中的换气声音频。

在本实施例中，该输入干声可以为自然人声，也可以为合成人声。另外，对于输入干声可以具体为歌声、阅读声、朗读声、谈话声等任意一种人声。

对于，输入干声可以具体由其他设备或应用输入的，当然也可自行采集录制或合成得到，当然还可通过读取存储介质的方式得到。在本申请实施例中对于如何获得输入干声的方式并不做限定。

输入干声，即输入的干声音频。其中，干声音频，指录制或合成的干声波形文件。由于MP3等有损编码格式会因为不同解码器的差异导致实际读取的音频存在有时间偏移。所以，为了保证干声波形的时间准确性，以可优先选用如WAV(Waveform Audio File Format)格式等无损编码格式来保存干声音频。

对输入干声进行换气声检测，便可确定换气声音频。该换气声音频即指与换气声对应的音频。

具体的，可预先训练出可用于检测输入干声中的换气声音频的检测模型，如此，便可利用检测模型对输入干声进行换气声检测，并将检测模型的输出结果确定出作为换气声音频。其中，输出结果可具体为换气声音频的起止时间，也可具体为换气声音频内容。若输出结果为起止时间，可基于该起止时间便可从输出干声中找到换气声音频。在本实施例中，对于检测模型本身的结构原理均不做限定。

S102、提取换气声音频的音频特征，并基于音频特征确定出目标换气声音频。

具体的，在本实施例中将与换气声的相关的特征均称之为换气声特征。也就是说，换气声特征可具体包括换气声音频的时长，换气声音量大小，换气声的音质高低，换气声音频内容(如有无噪音)等。

在本实施例中，可预先设置替换规则或替换条件，即当输入干声中的某个换气声音频的换气声特征符合替换规则或触发替换条件时，则可将对应的换气声音频确定为需要进行替换的目标换气声音频。其中，替换规则或替换条件可根据具体的音质改善要求进行设置或调整，在实施例中并不限定其具体内容。

需要说明的是，对于输入干声中，所确定出的目标换气声音频的数量可以为一个也可以为多个。另外，对于设置了多种不同的替换规则或替换条件的情况下，所确定出的多个目标换气音频可因满足不同的替换规则或触发不同的替换条件的情况下，将多个换气声音频确定为目标换气声音频。当然，即便是设置了多种不同的替换规则或替换条件，所确定出的多个目标换气声音频，也可均与某一个替换规则或替换条件所对应，如均对于基于时长而需替换的目标换气声音频。

S103、对输入干声中的目标换气声音频进行替换处理，得到输出干声。

在确定出输入干声中的目标换气声音频之后，便可对输入干声中的目标换气声音频进行替换处理，如此，便可得到替换了目标换气声音频的输出干声。

特别地，目标换气声的替换方式可以根据该目标换气声音频的换气声特征而定。例如，对于换气声音频中存有噪声的换气声，其对应的替换处理方式，便可具体为将该目标换气声音频替换为无噪音的标准换气声，对目标换气声音频进行去噪处理(或称之为降噪处理)，将去燥处理后得到的换气声音频替换掉输入干声中的目标换气声音频；而对于目标换气声音频本身音质较差的问题，则可直接将目标换气声音频进行替换处理；对于目标换气声音频存在时长过短的情况，则可直接进行消音处理(或称之为静音处理)，即将目标换气声音频替换为静音音频。

需要说明的是，当换气声特征包括多种类型的特征时，可逐一按照每一种类型对应特征选出目标换气声音频，并针对该目标换气声音频进行替换之后，再基于下一种类型对应的特征选出新的目标换气声音频，并针对新的目标换气声音频进行替换处理，直到所有需要替换的目标换气声音频均完成替换。当然，也可基于多种类型的特征一次性选出所有种类的特征对应的目标换气声音频，进行批量性地替换处理。

S104、将输出干声与背景音频进行合成处理，得到目标音频。

将输入干声中的目标换气声音频进行替换处理之后，便可得到输出干声。将该输出干声与背景音频进行合成处理，便可得到音质效果更佳的目标音频。

本实施例所提供的音频处理方法既可以通过计算机后台处理，也可以通过云端处理，以提升处理效率高，以及运行速度。

需要说明的是，基于上述实施例，本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。

在本申请的一种具体实施方式中，上述步骤S101对输入干声进行换气声检测，确定输入干声中的换气声音频，可具体包括：

步骤一、利用训练好的换气声检测网络，检测输入干声中的换气声；

步骤二、将换气声对应的音频确定为换气声音频。

也就是说，在本实施例中，可以预先训练一个换气声检测网络，然后对输入干声进行换气声检测，得到换气声对应的音频，即得到换气声音频。具体的，该换气声检测网络可采用深度学习网络模型或机器学习网络模型，将有换气声音频正确检测结果的干声作为训练样本对模型进行训练，直到训练轮次或准确率达到预设阈值，即视为完成训练。如此，通过对换气声检测网络进行深化训练，便可提升换气声检测的准确率。

在本申请的一种具体实施例方式中，当音频特征包括音质和时长，基于音频特征确定出目标换气声音频，包括：

情况一、若时长大于上限时长，则将换气声音频确定为目标换气声音频；

情况二、若时长小于下限时长，则在音质低于音质阈值的情况下，将换气声音频确定为目标换气声音频。

也就是说，当换气声音频具有市场和音质两种音频特征时，当时长大于了上限时长，则可直接将该换气声音频确定为目标换气声音频；当时长小于下限阈值，则还需进一步判断音质是否低于音质阈值，如果是，则将换气声音频确定为目标换气声音频。

也就是说，当存在两种或两种以上的音频特征的情况下，还可基于需求，对不同音频特征设置替换筛选的优先等级。例如，当换气声音频的音质较差时，即便时长和内容符合需求，也可将该换气声音频确定为目标换气声音频。

在本申请的一种具体实施例方式中，还可利用基频确定换气声音频的真伪，并根据真伪检测结果对换气声音频进行筛选。具体的，在执行步骤S101得到换气声音频之后，还可针对换气声音频进行真伪检测，进而将假的换气声音频剔除。以避免将真实非换气声音频的内容如歌词对应声音内容进行错误处理。实现过程，包括：

步骤一、利用基频对换气声音频进行真伪检测；

步骤二、根据真伪检测结果，剔除换气声音频中的伪换气声。

具体的，通过基频判断换气声音频真伪的内在原理：换气声的产生由于不存在声带的震动，即不存在共振频率，那么换气声对应的基频应当为0或者很小的值；而一般的人说话或者唱歌的基频至少在50Hz以上，所以通过基频可以复验步骤S101的检测结果，可以提升换气声音频的检测准确率，进一步可以避免对非换气声进行了错误的处理。

举例说明：对于检测出的某个换气声音频，计算出其基频为a，若a为0或接近0，则确定该换气声音频对应真换气声，进行保留；若a不仅不为0，也不接近0，反而在50Hz以上，此时可确定该换气声音频对应假换气声，可将该换气声音频剔除。如此，后续确定目标换气声音频时，该假换气声音频不会被考虑，即该假换气声音频不会被错误地确定为目标换气声音频，也不会错误地进行换气声音频替换处理，不会影响处理准确率。

在本申请的一种具体实施例方式中，上述步骤S102对换气声音频提取音频声特征，可以具体包括：对换气声音频进行音质特征提取、时长特征提取、内容特征提取中至少一种，得到音频特征；相应地，音质特征包括各个换气声音频的时长、音质和内容标识中的至少一项特征。

也就是说，在对换气声音频进行音频特征提取时，若对换气声音频进行了音质提取，则可得到输入干声中各个换气声音频的音质特征。此时，音频特征便可包括各个换气声音频的音质。

若对换气声音频进行了时长检测，则可得到输入干声中各个换气声音频的时长。此时，音频特征便可包括输入干声中各个换气声音频的时长。

若对换气声音频进行了内容检测，则可得到输入干声中各个换气声音频的内容标识。此时，音频特征便可包括输入干声中各个换气声音频的内容标识。

当然，对输入干声中的换气声音频进行特征提取时，可以对其进行内容检测、时长检测和音质检测中的任意一种或多种(如既进行内容检测又进行时长检测)。如此，音频特征便可包括时长、内容标识、音质中的至少一种特征。

其中，音质检测可以采用客观音质评估方法对输入干声中的各个换气声音频进行质量评估。这里评估方法可以包括但不限于PESQ。PESQ(Perceptual Evaluation ofSpeech Quality)，为一种语音质量的知觉评估方法，通过对比标准换气声音频和输入干声中的换气声音频，给出质量评估结果。其中，标准换气声音频可以来自标准换气声音频库，该标准换气声音频可以不是一种声音，而是多种声音，标准换气声音频具体为经过预先的人工挑选，将质量较好的换气声音频进行集中，得到标准换气声音频库。在质量评估时，如果换气声音频的质量都达不到标准换气声音频库内的每一个标准换气声音频的质量，则认为该换气声音频的质量较差，否则认为该换气声音频的质量较好。

在实际应用中，可预先训练出分别用于音质检测、时长检测和内容检测的检测模型。然后，在需要对换气声音频进行特征提取的时候，便可利用这些检测模型进行检测，进而获得音频特征。需要说明的是，在本实施例中，对于这些检测模型的具体的架构、具体实现原理等均不做限定。即，检测模型可以具体为深度神经网络模型，也可以为机器学习模式，也可以为其他能够实现相应检测功能的模型。

针对换气声音频进行不同的特征提取/检测，所得到的音频便有所不同，而针对不同的音频特征进而确定目标换气声音频的方式也有所不同。为了便于区别，下面针对不同的音频特征，对具体如何确定目标换气声音频进行分别说明。

在本申请的一种具体实施方式中，若音频特征包括内容标识，相应地，上述音频处理方法的具体实现流程可参见图3，图3为本申请实施例中第一种音频处理方法的具体实施流程图，实现过程包括：

S201、对换气声音频进行换气声内容检测，得到音频特征。

其中，音频特征至少包括各个换气声音频的内容标识。该内容标识可为纯换气声或非纯换气声，纯换气声即无换气声之外的声音(即不存在无法被感知的其他声音)，非纯换气声可具体分为词混换气声和噪混换气声。其中，词混换气声即指换气声和相应的发声词互相叠加，如人工合成干声中，将换气声和歌词声叠加在一起了，或录制干声时，有旁人在说话或换气；噪混换气声即指换气声和噪声混合在一起了，如录制时，录制环境存在噪音，或录音设备本身有问题导致出现难以忽视的噪声。

S202、将换气声音频中内容标识为非纯换气声的换气声音频确定为目标换气声。

对于纯换气声，在内容改善上，无需进行改进；对于非纯换气声，便可进行内容改善，即对于非纯换气声的换气声，可将其确定为目标换气声音频。

S203、对输入干声中的目标换气声进行降噪处理，得到输出干声。

降噪处理即将声音中视为噪音的一部分内容去除，而保留另外一部分非噪音内容。

S204、将输出干声与背景音频进行合成处理，得到目标音频。

在本实施例中，对于目标换气声音频具体对应词混换气声时，降噪处理所去除的部分为换气声部分，即将词声保留；对于目标换气声音频具体对应噪混换气声，降噪处理所去除的部分为噪声部分，即保留换气声部分。

在具体实现时，可针对不同的去噪需求，分别训练出不同的去噪模型，然后利用去噪模型对目标换气声音频进行降噪处理，得到输出干声。在本实施例中，对于去噪模型的具体结构、原理等均不做限定，即该去噪模型可以具体为神经网络模型、机器学习模型等任意一种可通过样本训练便可满足本申请中的去噪需求的模型即可。

在本申请的一种具体实施方式中，若换气声特征包括时长，相应地，上述音频处理方法的具体实现流程可参见图4，图4为本申请实施例中第二种音频处理方法的具体实施流程图，实现过程包括：

S301、对换气声音频进行换气声时长检测，得到音频特征。

其中，该音频特征至少包括各个换气声音频的时长。

S302、在时长位于预设时长区间的情况下，将换气声音频确定为目标换气声音频。

其中，预设时长区间为针对换气声音频时长而设置的非合理范围。该预设时长区间可以具体为针对一些参考干声中非合理的换气声音频进行统计，最终得到一个类似正态分布的一个时长统计分布图，然后取以峰值为基值，在横轴上向左向右取到一点比例的面积，得到2个端点，将这2个端点之外的时长范围确定为该预设时长区间，即分别对应时长过短和时长过长。

另外，考虑到不同的类型的干声，其换气声音频的时长需求会不同，还可针对不同的类型的干声，单独确定出对应的预设时长区间。举例说明，若预设时长区间为区间[a，b]，而输入干声中的某个换气声音频的时长为c，若c属于区间[a，b]，则此时满足基于时长改善的条件，即换气声音频的时长需改善，可将该换气声音频确定为目标换气声；若不属于区间[a，b]，则此时换气声音频不满足基于时长改善的条件，则无需将该换气声音频确定为目标换气声。

S303、对输入干声中的目标换气声音频进行替换处理，得到输出干声。

对于目标换气声音频进行替换处理，即从时长的角度将目标换气声音频的时长调整至合理范围内。

需要说明的是，若采用拉伸或压缩的方式调整换气声的时长，可能会导致整体的输入干声的时长发生变化。基于此，在本实施例中对于目标换气声音频的从时长角度进行改善，并非指要对目标换气声音频的时长进行拉伸或压缩，而是通过如替换、消音等方式对目标换气声音频的呈现时长进行调整，使得在不影响输出干声整体时长的情况下，控制目标换气声音频的时长处于指定范围内。

具体的，步骤S303可具体包括将输入干声中的目标换气声音频替换为标准换气声音频，得到输出干声。也就是说，可以预先设置标准换气声音频，在确定出目标换气声音频之后，便可直接将其替换为标准换气声音频。当然，在实际应用中，还可根据不同的需求，对目标换气声音频采用不同的替换方式。

举例说明，在实际应用中，可根据目标换气声音频的时长，采用不同的替换处理方式。步骤S303可包括以下两种情况：

情况一：若目标换气声音频的时长小于第一时长阈值，则对输入干声中的目标换气声音频进行静音处理，得到输出干声。

其中，第一时长阈值可具体为指定范围的下限值，如0.05秒(当然还可以为其他具体时长)。

对于时长过短的目标换气声音频，一般来说，对音质的影响较小，也可直接保留，即不做处理。但对于一些特定的歌曲(如舒缓的歌曲)或特殊发音者(如肺活量降低需要频繁换气的人)，若出现较短的换气声，则需要进行剔除处理，从而保障音质效果。

情况二：若目标换气声音频的时长大于第二时长阈值，则对输入干声中的目标换气声音频进行替换处理，得到输出干声。

其中，第二时长阈值可具体为指定范围的上限值，如1秒，当然还可以为其他具体数值。

即，对于时长过长的目标换气声音频，若用t1表示目标换气声音频的起始时间，用t2表示其结束时间，则可将t1-t2中，选出一段满足指定范围的△t进行替换处理，而将其他部分进行消音或静音处理，也可使得处理后的换气声时长在指定范围之内。

当然，也可对△t范围内的换气声音频直接进行保留处理，并对其他部分进行消音或静音处理，如此便可使得留下的换气声时长在指定范围之内。

S304、将输出干声与背景音频进行合成处理，得到目标音频。

如此，便可改善输入干声中的换气声音频时长问题，能够使得最终的合成音频更加自然。

在本申请的一种具体实施方式中，若音质特征包括音质，相应地，上述音频处理方法的具体实现流程可参见图5，图5为本申请实施例中第三种音频处理方法的具体实施流程图，实现过程包括：

S401、对换气声音频进行换气声音质检测，得到音质特征。

其中，音质特征至少包括各个换气声音频的音质。

S402、在音质低于音质阈值的情况下，将换气声音频确定为目标换气声音频。

其中，音质阈值可以基于预先选择的多个标换气声音频的音质评估结果而确定。例如，可将这多个音质评估结果中的最小值或较小值作为该音质阈值。

当音质低于音质阈值，可表明该换气声音频的音质需改善，可将该换气声音频确定为目标换气声音频。

S403、对输入干声中的目标换气声音频进行替换处理，得到输出干声。

可直接将目标换气声音频替换为标准换气声音频。具体的，考虑到各个目标换气声音频的时长存在不一致的情况，还可设置多种不同时长的目标换气声音频。然后在需要替换目标换气声音频时，找出与该目标换气声音频的时长相同的目标换气声音频进行替换即可。如此，便可得到输出干声中便无音质低于音质阈值的目标换气声音频。

S404、将输出干声与背景音频进行合成处理，得到目标音频。

如此，便可改善输入干声中换气声音频的音质问题，能够使得最终的合成音频的音质更佳。

在本申请的一种具体实施方式中，对于步骤S103将输入干声中的目标换气声音频替换为标准换气声音频，得到输出干声，可具体包括：在目标换气声音频的时长大于标准换气声音频的情况下，从目标换气声音频选取与标准换气声音频等时长音频替换为标准换气声音频，并对目标换气声音频中未替换部分进行静音处理，得到输出干声。也就是说，若目标换气声音频的时长比标准换气声音频的时长更长，则可从目标换气声音频中选取与标准换气声音频等时长音频替换为标准换气声音频。并且，对目标换气声音频中未替换部分进行静音处理。如此，便可得到输出干声。该输出干声整体时长不会因为替换换气声音频而改变，不会影响后续的合成操作。

在本申请的一种具体实施方式中，对于步骤S103将输入干声中的目标换气声音频替换为标准换气声音频，得到输出干声，可具体包括：在目标换气声音频的时长小于标准换气声音频的情况下，将输入干声中的目标换气声音频替换为标准换气声音频，得到时长被延长的输出干声。也就是说，在目标换气声音频的时长小于标准换气声音频的情况下，可直接将目标换气声音频替换为标准换气声音频从而得到整体时长被延长的输出干声。如此，便可避免因换气声过短而不自然的问题。

在本申请的一种具体实施方式中，对于需要对目标换气声音频进行替换处理(即对输入干声中的目标换气声音频进行替换处理，得到输出干声)，还可采用如下改进过程来实现：

步骤一、获取输入干声的类别标签。

其中，类别标签可具体为输入干声所对应的情绪类别标签(如舒缓、快节奏、悲伤等)，也可以为发声者本身的标签(如男声、女声、童声、美声等)。

步骤二、从标准换气声音频库中选出与类别标签匹配的目标标准换气声音频。

即，标准换气声音频库中的各个标准换气声音频也具有相应地的类别标签，以便选出与目标换气声音频对应类别标签一致的目标换气声音频。

例如，若输入干声的情绪类别标签为舒缓，则从标准换气声音频库中找出情绪类别标签为舒缓的标准换气声音频，并将其确定为目标标准换气声音频；若输入干声的标签为童声，则从标准换气声音频库中找出标签为童声的标准换气声音频，并将其确定为目标标准换气声音频。

步骤三、将输入干声中的目标换气声音频替换为目标标准换气声音频，得到输出干声。

在对目标换气声音频进行替换时，可直接将输入干声中的目标换气声音频直接替换为目标标准换气声音频，从而获得输出干声。具体的，可预先设置多种时长的标准换气声音频，则可直接将目标换气声音频替换为时长一致的标准换气声音频。

若未设置多种时长的标准换气声音频，则对于目标换气声音频的时长短于标准换气声音频，可以采用上述实施例所描述的消音或直接保留的方式进行处理，当然，也可截选与该目标换气声音频时长一致的标准换气声音频进行替换。对于目标换气声音频的时长大于标准换气声音频的，可在目标换气声音频中选择一段时长与标准换气声音频时长一致的部分进行替换，而对其他部分进行静音处理。

为了提高替换效果，若目标换气声音频的时长大于标准换气声音频的时长，则在输入干声中，将目标换气声音频的末端部分替换为标准换气声音频，并对目标换气声音频的首端部分进行静音处理，得到输出干声。

举例说明：通过将目标换气声音频y(对应t1至t2时间段)进行换气声音频替换，即将目标换气声音频y替换为标准换气声音频X。为了更加符合实际演唱过程中换气声之后紧接着是人唱歌或发词对应的声音，可采用从t2开始往t1的方向上替换为标准换气声音频X，若标准换气声音频的时长为d，那么在t1至(t2-d)的时间范围内进行声音的静音处理，(t2-d)到t2的使得进行替换处理。

为了使得替换后的换气声音频更加自然，在得到输出干声之后，还可以对输出干声中的标准换气声进行淡出处理(如降低音频值)。

举例说明，请参考图6和图7，图6为替换前的目标换气声音频，图7为替换后的目标换气声音频。

采用从t2开始往t1的方向上替换为标准换气声音频，若标准换气声音频的时长为d，那么在t1至(t2-d)的时间范围内进行声音的静音处理，(t2-d)到t2的使得进行替换处理，并在t2时刻进行声音的淡出处理。

为便于本领域技术人员更好地理解本申请所提供的音频处理方法，下面结合具体的应用场景为例，对音频处理方法进行详细说明。

在歌声合成领域，人们可以通过音频信号处理技术和深度学习技术进行干声的合成，这些合成的声音不仅听起来像人唱的，而且也具备丰富的音乐律动感，在整体听感上可以接近甚至达到自然人声的效果。特别地，若合成的干声中，在歌曲句子的起唱阶段，有一个像人正常唱歌似的换气声，那么这个换气声对于合成歌曲的情绪调节能力、歌声自然度(像人一样换气)等方面将有重要作用。

但是，在现有技术进行换气声合成的时候，会因起止时间问题，即换气声的时间检测不准导致换气声的起止时间出现错误；参考换气声的音质问题，即合成的参考歌曲中的换气声音质差导致换气声的合成质量降低等问题导致合成的换气声音质变差。

采用本申请实施例所提供的音频处理方法对合成干声进行处理后，可以提升合成音频中的换气声的音质，让合成的换气声更自然、悦耳，从而有助于调节合成歌曲的自然度、情绪特点等方面。具体的实现过程如下：

步骤1：输入需要进行音质提升的干声。

步骤2：换气声检测。

可采用基于神经网络的声音事件检测技术，对步骤1的输入干声进行换气声检测，得到输入干声中是否含有换气声，以及换气声的起止时间信息。例如，可将输入干声记为Audio，时间范围记为T秒，那么经过检测，可得到有2种检测结果，第一种是Audio内无换气声；第二种是Audio有换气声，且起止时间为：(t1-t2，t3-t4)，即有2段换气声，一段为在t1至t2的时间区间内，另一段在t3至t4的时间区间内。

其中，基于神经网络的声音事件检测技术，一般可采用深度神经网络为主要框架，通过将目标声音和非目标声音的标签划分获得确定标签的数据集，然后通过基于诸如CNN、DNN、RNN及其变化形式等网络模型对数据集进行训练，得到预训练模型，最后通过预训练模型对输入音频进行声音事件检测。例如，在换气声的事件检测中，目标声音即各种换气声，非目标声音即除了换气声之外的其他声音。

步骤3：针对换气声时长进行改善。

通过对检测为换气声的音频起止时间进行处理，对于检测的换气声持续时长过大的情况，进行换气声的替换，避免步骤2检测不准带来的时长过大问题。具体包括：

首先，将步骤2的检测结果解析。若检测认为存在换气声，则获取每一段换气声的起止时间。如第一段换气声的起止时间分别为t1，t2。

其次，通过基频确认换气声的真伪。获取步骤1的输入干声在t1至t2时间范围内的音频，记为y，提取音频y的基频并计算基频的均值，记为F0，若F0大于一定的阈值，如100Hz，则音频y为非换气声。通过基频可以复验步骤2的检测结果，提升换气声的检测准确率。

然后，在确定是换气声的前提下，计算换气声的时长，即deltaT＝t2–t1。一般的，人唱歌过程中的换气声在一秒以内，如果deltaT远大于1秒，那么可以认为t1至t2时间范围内的音频并不是严格的完整换气声。则进行下一步的换气声替换。

最后，替换换气声。通过将t1至t2时间段内的音频y进行换气声替换，即将音频y替换为标准的换气声X。

步骤4：针对换气声质量进行改善。

检测出换气声y的质量，如果质量较高，那么进行下一步的合成步骤；如果质量一般，说明输入干声的换气声y虽然可能是换气声，但是音质较差，如在录制过程中混入了环境噪声，或者因为录制者本人的问题导致发声的换气声y并不是常规、可听的换气声。那么需要对质量一般或较差的y进行处理，具体实现过程包括：

首先，采用客观音质评估方法对音频y进行质量评估。在质量评估时，如果音频y的质量都达不到标准换气声音频库内的每一个换气声的质量，则认为音频y的质量较差，否则认为音频y的质量较好。

其次，在得到质量评估结果后，若评估认为音频y的质量较差，那么对音频y进行换气声替换。

步骤5：声音合成。

可采用基于深度学习的神经网络进行声音的合成。一般地，声音合成技术，主要包括基于参数提取的声音合成以及基于深度学习的声音合成，前者是通过将录制干声进行声学参数提取，然后将数据标签和声学参数进行训练；后者是通过深度学习算法，对录制干声进行诸如端到端的训练与合成。

在进行声音合成的之前，会将输入干声进行换气声的检测与处理，得到质量更高的换气声，这将有利于声音合成的效果，提升合成后的声音的自然度。这表现为，在合成的声音中，因为有一个更好听、更接近真人换气的声音的存在，而让合成的声音在听感上更具有真实感和情绪表现力。

步骤6：输出合成声音。

即将合成的声音进行输出，比如输出到移动终端、后台存储、扬声器播放等方式。

在采用了本申请实施例所提供的音频处理方法后，在确定的数据集和神经网络模型的情况下，通过对输入干声中的换气声的检测、时长处理、质量处理、音频替换等处理步骤，获得质量更高的换气声的过滤结果，这将有利于提升换气声的音质，提高合成声音的自然度和情绪表现能力。

这些有更高音质的合成歌曲，不仅可以丰富现有的用户听歌体验，而且可以扩充现有的高品质歌曲数量。因此，本方案具有重要的技术和经济优势。

相应于上面的方法实施例，本申请实施例还提供了一种音频处理装置，下文描述的音频处理装置与上文描述的音频处理方法可相互对应参照。

参见图8所示，该装置包括以下模块：

换气声检测模块101，用于对输入干声进行换气声检测，确定输入干声中的换气声音频；

特征提取模块102，用于提取换气声音频的音频特征，并基于音频特征确定出目标换气声音频；

替换处理模块103，用于对输入干声中的目标换气声音频进行替换处理，得到输出干声；

合成处理模块104，用于将输出干声与背景音频进行合成处理，得到目标音频。

应用本申请实施例所提供的装置，对输入干声进行换气声检测，确定输入干声中的换气声音频；提取换气声音频的音频特征，并基于音频特征确定出目标换气声音频；对输入干声中的目标换气声音频进行替换处理，得到输出干声；将输出干声与背景音频进行合成处理，得到目标音频。

经过研究发现：对于干声中的自然人声，恰当的换气声，会引起听众共鸣，而若出现不恰当的换气声，会引起听众反感；对于干声中的合成人声，含有合适的换气声，会使得合成人声更加贴近自然人声，即合成效果更佳，但是，因现有的合成方法、合成信息本身的缺陷，会使得合成的干声中出现不恰当的换气声。即，换气声对于情绪的表达，对于合成干声的自然度等方面均有着重要作用，对换气声进行处理，便可提高干声的音质。基于此，在装置中提出通过对输入干声中的换气声进行处理，进而提升干声的音质。

具体的，在装置中，对输入干声进行换气声检测，便可确定出输入干声中的换气声音频。然后，再提取出换气声音频的音频特征，并基于音频特征确定出目标换气声音频。对输入干声中的目标换气声音频进行替换处理，得到替换了目标换气声音频的输出干声；将输出干声与背景音频进行合成处理，得到目标音频。根据换气声特征，找出输入干声中需要改善处理的目标换气声音频并进行替换处理，然后对输出干声和背景音乐进行合成，得到目标音频。可见，装置，通过对输入干声中的需要改善的目标换气声音频进行替换处理，能够改善输入干声中的换气声，使得输出干声中的换气声更能体现其存在意义，最终使得合成的目标音频音质更佳。

在上述实施例的基础上，作为一种优选实施方式，换气声检测模块101，具体用于利用训练好的换气声检测网络，检测输入干声中的换气声；将换气声对应的音频确定为换气声音频。

在上述实施例的基础上，作为一种优选实施方式，音频特征为时长，特征提取模块102，具体用于在时长位于预设时长区间的情况下，将换气声音频确定为目标换气声音频。

在上述实施例的基础上，作为一种优选实施方式，音频特征为音质，特征提取模块102，具体用于在音质低于音质阈值的情况下，将换气声音频确定为目标换气声音频。

在上述实施例的基础上，作为一种优选实施方式，音频特征包括音质和时长，特征提取模块102，具体用于若时长大于上限时长，则将换气声音频确定为目标换气声音频；若时长小于下限时长，则在音质低于音质阈值的情况下，将换气声音频确定为目标换气声音频。

在上述实施例的基础上，作为一种优选实施方式，还包括：换气声真伪鉴宝筛选模块，用于在对输入干声进行换气声检测，确定输入干声中的换气声音频之后，利用基频对换气声音频进行真伪检测；根据真伪检测结果，剔除换气声音频中的伪换气声。

在上述实施例的基础上，作为一种优选实施方式，替换处理模块103，具体用于，将输入干声中的目标换气声音频替换为标准换气声音频，得到输出干声。

在上述实施例的基础上，作为一种优选实施方式，替换处理模块103，具体用于在目标换气声音频的时长小于标准换气声音频的情况下，将输入干声中的目标换气声音频替换为标准换气声音频，得到时长被延长的输出干声。

在上述实施例的基础上，作为一种优选实施方式，替换处理模块103，具体用于在目标换气声音频的时长大于标准换气声音频的情况下，从目标换气声音频选取与标准换气声音频等时长音频替换为标准换气声音频，并对目标换气声音频中未替换部分进行静音处理，得到输出干声。

在上述实施例的基础上，作为一种优选实施方式，替换处理模块103，具体用于获取输入干声的类别标签；从标准换气声音频库中选出与类别标签匹配的目标标准换气声音频；将输入干声中的目标换气声音频替换为目标标准换气声音频，得到输出干声。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。本申请还提供了一种音频处理设备，参见图9，其示出了本申请实施例提供的一种音频处理设备的结构示意图，该音频处理设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述音频处理实施例的步骤。

具体的，请参考图10，图10为本实施例提供的一种音频处理设备的具体结构示意图，该音频处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在音频处理设备301上执行存储器332中的一系列指令操作。

音频处理设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的音频处理方法中的步骤可以由音频处理设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种音频处理方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的音频处理方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种音频处理方法，其特征在于，包括：

将所述输出干声与背景音频进行合成处理，得到目标音频。

2.根据权利要求1所述的音频处理方法，其特征在于，所述对输入干声进行换气声检测，确定所述输入干声中的换气声音频，包括：

利用训练好的换气声检测网络，检测所述输入干声中的换气声；

将所述换气声对应的音频确定为换气声音频。

3.根据权利要求1所述的音频处理方法，其特征在于，所述音频特征为时长，所述基于所述音频特征确定出目标换气声音频，包括：

在所述时长位于预设时长区间的情况下，将所述换气声音频确定为所述目标换气声音频。

4.根据权利要求1所述的音频处理方法，其特征在于，所述音频特征为音质，所述基于所述音频特征确定出目标换气声音频，包括：

在所述音质低于音质阈值的情况下，将所述换气声音频确定为所述目标换气声音频。

5.根据权利要求1所述的音频处理方法，其特征在于，所述音频特征包括音质和时长，所述基于所述音频特征确定出目标换气声音频，包括：

若所述时长大于上限时长，则将所述换气声音频确定为所述目标换气声音频；

若所述时长小于下限时长，则在所述音质低于音质阈值的情况下，将所述换气声音频确定为所述目标换气声音频。

6.根据权利要求1所述的音频处理方法，其特征在于，在所述对输入干声进行换气声检测，确定所述输入干声中的换气声音频之后，还包括：

利用基频对所述换气声音频进行真伪检测；

根据真伪检测结果，剔除所述换气声音频中的伪换气声。

7.根据权利要求1至6任一项所述的音频处理方法，其特征在于，对所述输入干声中的所述目标换气声音频进行替换处理，得到输出干声，包括：

将所述输入干声中的所述目标换气声音频替换为标准换气声音频，得到所述输出干声。

8.根据权利要求7所述的音频处理方法，其特征在于，将所述输入干声中的所述目标换气声音频替换为标准换气声音频，得到所述输出干声，包括：

在所述目标换气声音频的时长小于所述标准换气声音频的情况下，将所述输入干声中的所述目标换气声音频替换为所述标准换气声音频，得到时长被延长的所述输出干声。

9.根据权利要求7所述的音频处理方法，其特征在于，将所述输入干声中的所述目标换气声音频替换为标准换气声音频，得到所述输出干声，包括：

在所述目标换气声音频的时长大于所述标准换气声音频的情况下，从所述目标换气声音频选取与所述标准换气声音频等时长音频替换为所述标准换气声音频，并对所述目标换气声音频中未替换部分进行静音处理，得到所述输出干声。

10.根据权利要求7所述的音频处理方法，其特征在于，将所述输入干声中的所述目标换气声音频替换为标准换气声音频，得到所述输出干声，包括：

获取所述输入干声的类别标签；

从标准换气声音频库中选出与所述类别标签匹配的目标标准换气声音频；

将所述输入干声中的所述目标换气声音频替换为所述目标标准换气声音频，得到所述输出干声。

11.一种音频处理装置，其特征在于，包括：

12.一种音频处理设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至10任一项所述音频处理方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述音频处理方法的步骤。