CN117672261A

CN117672261A - 一种音频处理方法、装置、设备及介质

Info

Publication number: CN117672261A
Application number: CN202211051939.1A
Authority: CN
Inventors: 孟卫明; 王月岭; 刘鹏; 高雪松; 陈维强
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-08

Abstract

本申请提供一种音频处理方法、装置、设备及介质，该方法中针对待处理的音频，确定音频的目标音频种类后，在音频中选取待混淆音素，采用待混淆音素对应的目标混淆数据对该待混淆音素对应的时间区间内的音频进行处理，因为只对部分音素进行了处理，因此能够保证音频听起来与原音频相似，但因音频中包含的声纹特征已经发生变化，因此实现了用户声纹特征的混淆，保护了用户的声纹。

Description

一种音频处理方法、装置、设备及介质

技术领域

本申请属于音频领域，尤其涉及一种音频处理方法、装置、设备及介质。

背景技术

家庭智能语音交互设备、以及用户实时聊天软件中的音频功能，方便了用户使用。但是随着声纹识别算法日趋成熟，用户交互的音频有暴露声纹的风险。现在已经达到了收集用户5条以上的音频，即可通过识别该音频的声纹，在万计的用户中检测出该音频的归属用户，导致用户的隐私无法得到保护。

关于声纹保护，现有的方案为通过变声器将用户的音频的频率转换，或者将用户的音频转换为文本后，再调用声音合成算法将文本转换为音频，以实现声纹保护。但是如上两种声纹保护方式，都需要在用户录音后，再对整个录音音频进行转换，不能实时保护；同时，如上两种方式，在用户对讲或发送录音等场景，接收方用户听取转换后的音频仅有内容一致，音色发生了极大变换，接收方用户会感觉换了个人，无法达到友好交互的目的，以及交互较机械生硬，不具备感情色彩。

因此迫切需要一种使音频听起来和原音频相似，但是声纹已被改变的声纹保护方法。

发明内容

本申请提供了一种音频处理方法、装置、设备及介质，用以解决现有技术的音频处理方法中使音频音色发生了较大变换，无法达到友好交互的问题。

第一方面，本申请提供了一种音频处理方法，所述方法包括：

针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类；

识别所述音频中每个音素的起始位置，并选取待混淆音素；

在预先保存的各音频种类的各音素对应的混淆数据中，确定所述目标音频种类的所述待混淆音素对应的目标混淆数据；

在所述音频中确定所述待混淆音素所在的时间区间，根据所述目标混淆数据对所述时间区间内的音频进行处理。

在一种可能的实施方式中，所述混淆数据为基频及泛频的频率及能量值，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频；

将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内。

在一种可能的实施方式中，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频之前，所述方法还包括：

确定所述时间区间内所述待混淆音素对应的原基频及泛频的原能量和；

确定所述目标基频及目标泛频的目标能量和；

根据所述原能量和与所述目标能量和的比值确定增益衰减系数；

所述将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内包括：

采用所述增益衰减系数对所述目标基频及目标泛频的能量值处理，将所述目标基频及目标泛频的频率及处理后的能量值添加到所述音频的所述时间区间内。

在一种可能的实施方式中，所述混淆数据为混淆音频，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

将所述目标混淆音频与所述时间区间内的音频进行采样合成。

在一种可能的实施方式中，所述采用预先训练完成的识别模型，确定所述音频的目标音频种类包括：

采用预先训练完成的第一模型，确定所述音频归属的目标用户的年龄段及性别；

采用预先训练完成的第二模型，确定所述音频与预设的各个声音风格的音频的相似度；根据所述与预设的各个声音风格的音频的相似度，确定所述音频的目标声音风格；

将所述年龄段、性别及目标声音风格确定为所述音频的目标音频种类。

在一种可能的实施方式中，所述根据所述相似度，确定所述音频的目标声音风格包括：

若所述与预设的各个声音风格的音频的相似度中存在第一相似度阈值与第二相似度阈值范围内的相似度，则将位于所述范围内且最大的相似度对应的音频的声音风格确定为所述目标声音风格；其中所述第一相似度阈值大于所述第二相似度阈值；

若不存在位于所述范围内的相似度，且相似度均大于所述第一相似度阈值，则确定最小的相似度对应的音频的声音风格为所述目标声音风格；

若不存在位于所述范围内的相似度，且相似度均小于所述第二相似度阈值，则确定最大的相似度对应的音频的声音风格为所述目标声音风格。

在一种可能的实施方式中，所述选取待混淆音素包括：

根据预设的混淆比例及所述音频中出现的音素的总数量，确定选取的待混淆音素的数量；

根据所述数量及所述总数量，确定每组包含的音素数量；

根据所述音频中音素出现的顺序，按照所述音素数量进行分组，在每组中任一选取一个音素作为待混淆音素。

第二方面，本申请提供了一种音频处理装置，所述装置包括：

确定模块，用于针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类；识别所述音频中每个音素的起始位置，并选取待混淆音素；在预先保存的各音频种类的各音素对应的混淆数据中，确定所述目标音频种类的所述待混淆音素对应的目标混淆数据；

处理模块，用于在所述音频中确定所述待混淆音素所在的时间区间，根据所述目标混淆数据对所述时间区间内的音频进行处理。

在一种可能的实施方式中，所述处理模块，具体用于过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频；将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内。

在一种可能的实施方式中，所述确定模块，具体用于确定所述时间区间内所述待混淆音素对应的原基频及泛频的原能量和；确定所述目标基频及目标泛频的目标能量和；根据所述原能量和与所述目标能量和的比值确定增益衰减系数；所述将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内包括：采用所述增益衰减系数对所述目标基频及目标泛频的能量值处理，将所述目标基频及目标泛频的频率及处理后的能量值添加到所述音频的所述时间区间内。

在一种可能的实施方式中，所述处理模块，具体用于将所述目标混淆音频与所述时间区间内的音频进行采样合成。

在一种可能的实施方式中，所述确定模块，具体用于采用预先训练完成的第一模型，确定所述音频归属的目标用户的年龄段及性别；采用预先训练完成的第二模型，确定所述音频与预设的各个声音风格的音频的相似度；根据所述与预设的各个声音风格的音频的相似度，确定所述音频的目标声音风格；将所述年龄段、性别及目标声音风格确定为所述音频的目标音频种类。

在一种可能的实施方式中，所述确定模块，具体用于若所述与预设的各个声音风格的音频的相似度中存在第一相似度阈值与第二相似度阈值范围内的相似度，则将位于所述范围内且最大的相似度对应的音频的声音风格确定为所述目标声音风格；其中所述第一相似度阈值大于所述第二相似度阈值；若不存在位于所述范围内的相似度，且相似度均大于所述第一相似度阈值，则确定最小的相似度对应的音频的声音风格为所述目标声音风格；若不存在位于所述范围内的相似度，且相似度均小于所述第二相似度阈值，则确定最大的相似度对应的音频的声音风格为所述目标声音风格。

在一种可能的实施方式中，所述确定模块，具体用于根据预设的混淆比例及所述音频中出现的音素的总数量，确定选取的待混淆音素的数量；根据所述数量及所述总数量，确定每组包含的音素数量；根据所述音频中音素出现的顺序，按照所述音素数量进行分组，在每组中任一选取一个音素作为待混淆音素。

第三方面，本申请还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述音频处理方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述音频处理方法的步骤。

在本申请中，针对待处理的音频，确定音频的目标音频种类后，在音频中选取待混淆音素，采用待混淆音素对应的目标混淆数据对该待混淆音素对应的时间区间内的音频进行处理，因为只对部分音素进行了处理，因此能够保证音频听起来与原音频相似，但因音频中包含的声纹特征已经发生变化，因此实现了用户声纹特征的混淆，保护了用户的声纹。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音频处理方法的过程示意图；

图2为本申请实施例提供的一种音素识别后的音频示意图；

图3为本申请实施例提供的一种用户原始音频的音素频谱特征图；

图4为本申请实施例提供的一种FIR带通滤波器的频率响应示意图；

图5a为本申请实施例提供的一种过滤后的音素频谱特征图；

图5b为本申请实施例提供的一种音频处理过程示意图之一；

图6为本申请实施例提供的一种待混淆音素对应的目标基频及目标泛频的频率及能量值频谱图；

图7a为本申请实施例提供的一种时间区间对应的合成后的音素的频谱图；

图7b为本申请实施例提供的一种音频处理过程示意图之二；

图8为本申请实施例提供的一种音频处理装置的结构示意图；

图9为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请提供了一种音频处理方法、装置、设备及介质，该方法包括：针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类；识别所述音频中每个音素的起始位置，并选取待混淆音素；在预先保存的各音频种类的各音素对应的混淆数据中，确定所述目标音频种类的所述待混淆音素对应的目标混淆数据；在所述音频中确定所述待混淆音素所在的时间区间，根据所述目标混淆数据对所述时间区间内的音频进行处理。

为了对用户的声纹进行保护，并且使改变后的音频听起来和原音频相似，本申请提供了一种音频处理方法、装置、设备及介质。

图1为本申请实施例提供的一种音频处理方法的过程示意图。如图1所示，该过程包含以下步骤：

S101：针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类。

本实施例提供的音频处理方法应用于电子设备，该电子设备可以是手机、PC、平板电脑、音响、智能电视等具有音频处理能力的设备。

声纹识别的关键点包括：特征提取和模式识别。特征提取就是通过对用户音频文件的处理，得到隐含在声音中的声纹特征；模式识别即为将声纹特征与提前学习的特征库进行匹配，根据相似度或聚类算法等识别出一条匹配特征库，进而识别出用户身份。

声纹特征主要是人类的发音机制的声学特征，例如频谱、倒频谱、共振峰、基音、反射系数等等。如上的5条声学特征，更改其中一项或两项即可实现声纹特征变化。但是直接更改如上的特征，可能会造成改变后的用户音频听起来跟原用户音频的声音不像，甚至破坏原用户音频的语音交互内容，无法准确的识别语音交互内容。

为了使改变后的音频听起来和原音频比较像，针对待处理的音频，需要先判断出音频的目标音频种类，其中一个音频种类标识一类用户，音频种类可以从一个维度标识用户，例如标识用户的年龄，或者标识用户的性别，但是比较清晰准确的标识用户，该音频种类可以从用户的性别、年龄段以及声音风格角度综合进行标识。

若确定了音频的目标音频种类，则根据该目标音频种类再对该音频进行对应的处理，避免处理后的音频出现男女声音混合，或小孩、老人声音混合的情况，导致用户体验感差。

S102：识别所述音频中每个音素的起始位置，并选取待混淆音素。

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。为了使改变后的音频听起来跟原音频相似的同时实现声纹特征变化，将音频内容进行音素拆分，可以随机选取音频中的某几个音素或者选取设定数量的音素作为待混淆音素，对选取的待混淆音素的某特征进行处理，即可实现用户的音频中大部分语音交互特征如音色和背景音等得到保留，使得处理后的音频和原音频听起来比较像。但因为部分音素的特征被转换，当采用声纹识别算法对该音频进行处理时，提取不到与原音频一摸一样的特征，从而无法准确的定位用户，以实现对用户声纹的保护。

具体的，识别该音频中每个音素的起始位置，可采用可学习的片段特征音素边界检测方法，听觉注意力线索的音节/元音/音素边界检测方法，基于音素后验概率和层次凝聚聚类算法的音素边界检测方法，或者基于语谱能量的音素边界检测方法等对音频中的音素来进行识别，该过程为现有技术，本申请对此不做限定。

图2为本申请实施例提供的一种音素识别后的音频示意图，图中横轴表示时间，虚线代表每个音素出现的起始位置，如图2所示，经过处理后，可以得到在整个音频文件中，不同的音素的起始位置，进而能够从中选取待混淆音素。具体的，可以采用上述方法中的可学习的片段特征音素边界检测方法实现音素边界检测，识别该音频中每个音素的起始位置，在每个音素的起始位置标记时间戳，即该音素在该音频出现的起始位置的时间点。

S103：在预先保存的各音频种类的各音素对应的混淆数据中，确定所述目标音频种类的所述待混淆音素对应的目标混淆数据。

为了实现声纹保护，在本申请实施例中，预先保存有各音频种类的各音素对应的混淆数据，包括不限于：各音频种类的各音素对应的混淆音频，并且针对每个音素可以保存不同长度的混淆音频。根据目标音频种类及选取的待混淆音素，可以确定出该目标音频种类的待混淆音素对应的目标混淆数据。

S104：在所述音频中确定所述待混淆音素所在的时间区间，根据所述目标混淆数据对所述时间区间内的音频进行处理。

当确定了目标音频种类的待混淆音素对应的目标混淆数据后，可以采用该目标混淆数据，对音频中该音素对应的特征信息进行替换。首先，可以在该音频中识别待混淆音素。

因为通过上述检测方法，可以检测出音频中每个音素的起始位置，并在每个音素的起始位置标记有时间戳，因此可以确定音频中该待混淆音素所在的时间区间，该时间区间即为该待混淆音素对应的起始位置到该音频中该待混淆音素之后的一个音素的起始位置。

根据目标混淆数据对该时间区间内的音频进行处理，即对该时间区间内的待混淆音素进行调整，实现用户声纹特征的混淆。

在本申请实施例中，针对待处理的音频，确定音频的目标音频种类后，在音频中选取待混淆音素，采用待混淆音素对应的目标混淆数据对该待混淆音素对应的时间区间内的音频进行处理，因为只对部分音素进行了处理，因此能够保证音频听起来与原音频相似的同时，但因音频中包含的声纹特征已经发生变化，因此实现了用户声纹特征的混淆，保护了用户的声纹。

为了最大限度的保留用户交流时可能存在的环境音、用户发声特色音等，在上述实施例的基础上，在本申请实施例中，所述混淆数据为基频及泛频的频率及能量值，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频；将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内。

因为用户声学结构，例如声带的厚度形状等不同，用户发音的频率会有所差异。图3为本申请实施例提供的一种用户原始音频的音素频谱特征图，如图3所示，其中横轴表示频率，频率的单位为Hz，纵轴表示能量值，该能量值的单位为db。音素的频谱特征包括基频和泛频的频率及能量值，泛频包含多种泛音的频段，包括第一泛音至第六泛音，其中，基频至第六泛音的频率是成倍增长的。

具体的，如图3所示，基频的频率为632Hz，能量值为27db；第一泛音的频率为1264Hz，能量值为34db；第二泛音的频率为1896Hz，能量值为30db，第三泛音的频率为2528Hz，能量值为31db，第四泛音的频率为3160Hz，能量值为26db，第五泛音的频率为3792Hz，能量值为33db，第六泛音的频率为4424Hz，能量值为29db。

本申请实施例对其中关键的基频和泛频中的第一泛音至第六泛音的频率进行处理，即对基频和泛频进行处理。过滤该音频的时间区间内待混淆音素对应的原基频及泛频，也就是过滤该音频的需要进行处理的时间区间内的待混淆音素对应的原基频及第一泛音至第六泛音的频率。可以通过示波器或频谱仪得到音频对应的频谱图，进而可以根据待混淆音素在音频中的时间区间确定待混淆音素的原基频及第一泛音至第六泛音的频率。具体的，可采用数字信号处理的有限脉冲响应((Finite Impulse Response，FIR)带通滤波器，对原基频及第一泛音至第六泛音的频率进行滤除。

图4为本申请实施例提供的一种FIR带通滤波器的频率响应示意图，如图4所示，图中横轴表示频率，纵轴表示能量值，通过该FIR带通滤波器后，滤除了568Hz-695 Hz，1137Hz-1390 Hz，1706Hz-2085 Hz，2275Hz-2780 Hz，2844Hz-3476 Hz，3412Hz-4171 Hz，3981Hz-4866 Hz频段的频率。

结合图3所示，滤除掉了图3中的音素的基频及第一泛音至第六泛音的频率的频谱特征图如图5a所示，图5a为本申请实施例提供的一种过滤后的音素频谱特征图。图5a中横轴为频率，纵轴表示能量值。

将确定的目标音频种类的待混淆音素对应的目标基频及目标泛频的频率及能量值添加到该过滤后的音频的该待混淆音素所在的时间区间内。

图5b为本申请实施例提供的一种音频处理过程示意图之一。如图5b所示，该过程包括以下步骤：

S501：针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类。

S502：识别所述音频中每个音素的起始位置，并选取待混淆音素。

S503：在预先保存的各音频种类的各音素对应的基频及泛频的频率及能量值中，确定所述目标音频种类的所述待混淆音素对应的目标基频及目标泛频的频率及能量值。

S504：过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频；将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内。

在本申请实施例中，混淆数据为基频及泛频的频率及能量值，通过过滤音频的待混淆音素的时间区间内，该待混淆音素对应的原基频及泛频，再将目标基频及目标泛频的频率及能量值添加到该时间区间内，从而改变音频的待混淆音素的频率及能量值，造成音频的声纹特征改变、保护用户的声纹的同时，最大限度的保留用户交流时可能存在的环境音以及用户发声特色音。

为了保证处理后的音频频率的能量值不会产生大幅变化，在上述各实施例的基础上，在本申请实施例中，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频之前，所述方法还包括：

确定所述时间区间内所述待混淆音素对应的原基频及泛频的原能量和；确定所述目标基频及目标泛频的目标能量和；根据所述原能量和与所述目标能量和的比值确定增益衰减系数；

所述将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内包括：采用所述增益衰减系数对所述目标基频及目标泛频的能量值处理，将所述目标基频及目标泛频的频率及处理后的能量值添加到所述音频的所述时间区间内。

如果直接将目标基频及目标泛频的频率及能量值添加到该音频的待混淆音素所在的时间区间内，可能会导致处理后的时间区间内的频率的能量值过大，造成音频变得不自然，不利于用户的语音交互。

为了保证处理后的时间区间内的频率的能量值不会产生大幅变化，首先确定对音频需要进行处理的时间区间内待混淆音素对应的原基频及泛频的原能量和，并确定待混淆音素对应的目标基频及目标泛频的目标能量和；根据该原能量和与该目标能量和的比值确定增益衰减系数。

再采用该增益衰减系数对目标基频及目标泛频的能量值进行处理，也就是将目标基频及目标泛频的能量值衰减该增益衰减系数倍，将目标基频及目标泛频的频率及处理后的能量值添加到音频需要进行处理的时间区间内。

具体的，还以上述图3中的音素对应的原基频及第一泛音至第六泛音的频率为例，如图3所示，原基频及第一泛音至第六泛音的频率对应的能量值分别为：27db，34db，30db，31db，26db，33db和29db，将这些能量值求和得到原基频及泛频的原能量和为210db。

图6为本申请实施例提供的一种待混淆音素对应的目标基频及目标泛频的频率及能量值频谱图。如图6所示，目标基频及目标泛频包括的基频及第一泛音至第六泛音的频率对应的能量值分别为：57.4db，67.1db，65.9db，61.4db，59.1db，61.9db和51.2db，将这些能量值求和得到目标基频及目标泛频的目标能量和为424db。增益衰减系数为该原能量和与该目标能量和的比值：γ＝210/424＝0.495。采用该增益衰减系数对目标基频及目标泛频的能量值进行0.495倍增益衰减处理后，再将目标基频及目标泛频的频率及衰减处理后的能量值与过滤后的该时间区间内的音频进行合成。图7a为本申请实施例提供的一种时间区间对应的合成后的音素的频谱图。

假定该待混淆音素的原基频和泛频过滤后的音频表示为f(t)，w为目标基频及目标泛频的频率，P0、P1、P2、P3、P4、P5、P6分别表示目标基频及目标泛频对应的能量值，则该待混淆音素和目标基频及目标泛频的频率合成后的音频可以用下列函数表示：

f(t)+γ*P0*sin(2*pi*w*t)+γ*P1*sin(2*pi*w*t*2)+γ*P2*sin(2*pi*w*t*3)+γ*P3*sin(2*pi*w*t*4)+γ*P4*sin(2*pi*w*t*5)+γ*P5*sin(2*pi*w*t*6)+γ*P6*sin(2*pi*w*t*7)

其中，f(t)为该待混淆音素的原基频和泛频过滤后的音频，γ为增益衰减系数，P0、P1、P2、P3、P4、P5、P6分别表示目标基频及目标泛频对应的能量值，w为目标基频及目标泛频的频率，t表示目标基频及目标泛频的时间区间的长度，pi为3.14159。

在本申请实施例中，根据时间区间内待混淆音素对应的原基频及泛频的原能量和，以及目标基频及目标泛频的目标能量和，确定增益衰减系数；再采用该增益衰减系数对目标基频及目标泛频的能量值进行处理，从而保证处理后的音频频率的能量值不会产生大幅变化，处理后的音频与原音频相似，且听起来不会太生硬。

为了能够使得处理后的音频听起来与原音频相似，在上述各实施例的基础上，在本申请实施例中，所述采用预先训练完成的识别模型，确定所述音频的目标音频种类包括：

采用预先训练完成的第一模型，确定所述音频归属的目标用户的年龄段及性别；采用预先训练完成的第二模型，确定所述音频与预设的各个声音风格的音频的相似度；根据所述与预设的各个声音风格的音频的相似度，确定所述音频的目标声音风格；将所述年龄段、性别及目标声音风格确定为所述音频的目标音频种类。

为了准确的对目标用户的音频种类进行标识，在本申请实施例中，在年龄段，性别和声音风格等多个维度对用户的音频种类进行标识。为了准确的确定用户的音频的目目标音频种类，需要分别识别年龄段，性别和声音风格。

在本申请实施例中，采用预先训练完成的第一模型，可以确定音频归属的目标用户的年龄段及性别。具体的，可以按照不同年龄段的男女变声差异，划分不同的标签，从而来训练第一模型，进而通过训练完成的第一模型，确定音频归属的目标用户的年龄段及性别。

下面以一个具体的例子来进行说明：

年龄段及性别	标签
		0-6岁	婴幼儿
7-12岁	少儿
		13-17岁(适用于男)	少年
13-22岁(适用于女)	少女
		18-35岁(适用于男)	男青年
23-35岁(适用于女)	女青年
		36-69	中年
>69	老年

表1

如上表1所示，年龄段及性别对应的标签包括婴幼儿，少年，少年，男青年，女青年，中年和老年，其中按照不同年龄段的男女变声差异对标签进行划分，例如年龄段为0-6岁的婴幼儿的男女声音差异不大，因此可以将该年龄段的音频归属的目标用户的年龄段及性别标签直接确定为婴幼儿即可。同理，年龄段为7-12岁的音频归属的目标用户的年龄段及性别标签为少儿，年龄段为13-17岁、性别为男的音频归属的目标用户的年龄段及性别标签为少年，年龄段为13-22岁、性别为女的音频归属的目标用户的年龄段及性别标签为少女，年龄段为18-35岁、性别为男的音频归属的目标用户的年龄段及性别标签为男青年，年龄段为23-35岁、性别为女的音频归属的目标用户的年龄段及性别标签为女青年，年龄段为36-69岁的音频归属的目标用户的年龄段及性别标签为中年，年龄段大于69岁的音频归属的目标用户的年龄段及性别标签为老年。

第一模型可以采用现有的分类模型，例如采用人工智能平台(Platform ofArtificial Intelligence，PAI)的模型。还可以通过音频的声纹特征与预先保存的不同年龄段及性别的音频声纹特征模板比对，计算特征相似度来判定年龄段及性别。

采用预先训练完成的第二模型，可以确定该音频与预设的各个声音风格的音频的相似度；根据与预设的各个声音风格的音频的相似度，确定该音频的目标声音风格。其中可以将相似度最大值对应的声音风格作为该用户的声音风格，或者将相似度的最小值对应的声音风格作为该用户的声音风格。

在本申请实施例中，可以按照音频的各频率成分组成及强度特性，划分不同的声音风格，来训练第二模型。具体的，划分的声音风格有：洪钟、脆雷、金玉、银铃、狮虎、兼有、哑声、白声、咽喉声等。

通过训练完成的第二模型，确定该音频与预设的各个声音风格的音频的相似度，例如分别为{洪钟：80％，脆雷：50％，金玉：35％，银铃：42％，狮虎：60％，兼有：70％，哑声：20％，白声：33％，咽喉：59％}，根据与预设的各个声音风格的音频的相似度，确定该音频的目标声音风格。例如可以将银铃作为目标风格，或者将狮虎作为目标风格，将该年龄段、性别及目标声音风格的组合确定为该音频的目标音频种类。例如确定的年龄段、性别和目标风格分别是年龄段为23-35岁、性别为女，目标风格为银铃，则目标种类是女青年银铃。

为了确定合适的目标声音风格，在上述各实施例的基础上，在本申请实施例中，所述根据所述相似度，确定所述音频的目标声音风格包括：

因为可以根据目标声音风格，确定包含该目标声音风格的对应的目标混淆数据对音频进行处理，所以，若目标声音风格与预设的各个声音风格的音频的相似度过高，则可能导致声纹变化不大，若目标声音风格与预设的各个声音风格的音频的相似度过低，则可能导致处理后的音频很生硬。为了确定合适的目标声音风格，预先设置有第一相似度阈值和第二相似度阈值，其中第一相似度阈值大于第二相似度阈值，且第一相似度阈值与第二相似度阈值相差不大。具体的，可以设置第一相似度阈值为60％，第二相似度为50％，或者第一相似度阈值为65％，第二相似度为45％，由此可以保证选取的目标声音风格适中。

如果与预设的各个声音风格的音频的相似度中存在50％-60％的范围内的相似度，则将位于该范围内且最大的相似度对应的声音风格确定为目标声音风格；如果不存在位于该范围内的相似度，且相似度均大于60％，则确定最小的相似度对应的声音风格为目标声音风格；如果不存在位于该范围内的相似度，且相似度均小于50％，则确定最大的相似度对应的声音风格为目标声音风格。如果不存在位于该范围内的相似度，且相似度小于50％或大于60％均有，则确定最接近50％或60％的相似度对应的音频的声音风格为目标声音风格。

例如，与预设的各个声音风格的相似度计算结果为：{洪钟：80％，脆雷：50％，金玉：35％，银铃：60％，狮虎：46％，兼有：70％，哑声：20％，白声：33％，咽喉：59％}，相似度位于50％-60％范围内的有{脆雷：50％，银铃：60％，咽喉：59％}，则将其中最大的相似度60％对应的声音风格-银铃，确定为目标声音风格。

采用上述实施例中的方案确定目标声音风格，可以不导致声纹变化太大，也不会导致处理后的音频很生硬，从而可以实现对音频的自然调整。

为了选取合适的待混淆音素，在上述各实施例的基础上，在本申请实施例中，所述选取待混淆音素包括：

根据所述数量及所述总数量，确定每组包含的音素数量；

由于要根据选取的待混淆音素对音频进行处理，若选取的待混淆音素的数量太多且所位于的时间区间太集中，则会导致处理后的音频听起来不像原音频，用户语音交互体验不好；若选取的待混淆音素的数量太少且所位于时间区间太分散，则可能导致处理后的音频声纹改变不大，则无法对用户的声纹进行保护。

因此，在本申请实施例中预设有混淆比例，根据预设的混淆比例及该音频中出现的音素的总数量，确定选取的待混淆音素的数量。其中，总数量是根据标记的每个音素的起始位置统计得出的，重复出现的音素因为出现的位置不同也统计为不同的音素。

根据该数量及总数量，确定每组包含的音素数量；根据音频中音素出现的顺序，按照音素数量进行分组，在每组中任意选取一个音素作为待混淆音素。从而保证选取的待混淆音素的数量和所位于时间区间合适。例如也可以将每组中固定位置的音素作为待混淆音素，例如将每组中第一个音素作为待混淆音素，或者将最后一个音素作为待混淆音素。

以上述图2为例，如图2所示，该音频中出现的音素的总数量为20个，假定预设的混淆比例为20％，则选取的待混淆音素的数量为4个，确定每组包含的音素数量为5个，根据音频中音素出现的顺序，进行分组，在每组中任意选取一个音素作为待混淆音素，即根据音频中音素出现的顺序，每5个音素随机选定其中一个音素为待混淆音素。例如选取后的待混淆音素如下：

选定音素编号	音素时间区间	音素
			3	247-360ms	/i/
6	488-614ms	/a:/
			12	1364-1464ms	/I/
18	1804-1912ms	/e/

表2

表中选定音素的编号列代表选定的待混淆因素分别在音频中出现的顺序，音素时间区间列为选定的的待混淆音素分别列在音频中出现的时间区间，音素即为选取的待混淆音素。具体的，第二行表示选定的待混淆音素为音频中的第3个音素，该音素所在时间区间为247-360ms，该音素为/i/；第三行表示选定的待混淆音素为音频中的第6个音素，该音素所在时间区间为488-614ms，该音素为/a:/；第四行表示选定的待混淆音素为音频中的第12个音素，该音素所在时间区间为1364-1464ms，该音素为/I/；第五行表示选定的待混淆音素为音频中的第18个音素，该音素所在时间区间为1804-1912ms，该音素为/e/。

采用上述实施例中的方案确定待混淆音素，可以保证选取的待混淆音素的数量和在音频中出现的时间区间合适，从而保证处理后的音频更自然。

为了使处理后的音频听起来和原音频相似，但是声纹改变，在上述各实施例的基础上，在本申请实施例中，所述混淆数据为混淆音频，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

混淆数据还可以为混淆音频，在预先保存的各音频种类的各音素对应的混淆音频中，确定该目标音频种类的待混淆音素对应的目标混淆音频。

在音频中确定待混淆音素所在的时间区间之后，可以将该目标混淆音频与该时间区间内的音频进行采样合成。由于该目标混淆音频是与该音频的目标音频种类的待混淆音素对应的，从而使处理后的音频听起来和原音频相似，但是声纹改变。

图7b为本申请实施例提供的一种音频处理过程示意图之二。如图7b所示，该过程包括以下步骤：

S701：针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类。

S702：识别所述音频中每个音素的起始位置，并选取待混淆音素。

S703：在预先保存的各音频种类的各音素对应的混淆音频中，确定所述目标音频种类的所述待混淆音素对应的目标混淆音频。

S704：将所述目标混淆音频与所述时间区间内的音频进行采样合成。

在本申请实施例中，混淆数据为混淆音频，在音频中确定待混淆音素所在的时间区间之后，将该目标混淆音频与该时间区间内的音频进行采样合成处理，从而使处理后的音频听起来和原音频相似，但是声纹改变，以保护用户的声纹。

在上述各实施例的基础上，本申请还提供了一种音频处理装置，图8为本申请实施例提供的一种音频处理装置的结构示意图，如图8所示，所述装置包括：

确定模块801，用于针对待处理的音频，采用预先训练完成的识别模型，确定所述音频的目标音频种类；识别所述音频中每个音素的起始位置，并选取待混淆音素；在预先保存的各音频种类的各音素对应的混淆数据中，确定所述目标音频种类的所述待混淆音素对应的目标混淆数据；

处理模块802，用于在所述音频中确定所述待混淆音素所在的时间区间，根据所述目标混淆数据对所述时间区间内的音频进行处理。

在一种可能的实施方式中，所述处理模块802，具体用于过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频；将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内。

在一种可能的实施方式中，所述确定模块801，具体用于确定所述时间区间内所述待混淆音素对应的原基频及泛频的原能量和；确定所述目标基频及目标泛频的目标能量和；根据所述原能量和与所述目标能量和的比值确定增益衰减系数；所述将所述目标基频及目标泛频的频率及能量值添加到所述音频的所述时间区间内包括：采用所述增益衰减系数对所述目标基频及目标泛频的能量值处理，将所述目标基频及目标泛频的频率及处理后的能量值添加到所述音频的所述时间区间内。

在一种可能的实施方式中，所述处理模块802，具体用于将所述目标混淆音频与所述时间区间内的音频进行采样合成。

在一种可能的实施方式中，所述确定模块801，具体用于采用预先训练完成的第一模型，确定所述音频归属的目标用户的年龄段及性别；采用预先训练完成的第二模型，确定所述音频与预设的各个声音风格的音频的相似度；根据所述与预设的各个声音风格的音频的相似度，确定所述音频的目标声音风格；将所述年龄段、性别及目标声音风格确定为所述音频的目标音频种类。

在一种可能的实施方式中，所述确定模块801，具体用于若所述与预设的各个声音风格的音频的相似度中存在第一相似度阈值与第二相似度阈值范围内的相似度，则将位于所述范围内且最大的相似度对应的音频的声音风格确定为所述目标声音风格；其中所述第一相似度阈值大于所述第二相似度阈值；若不存在位于所述范围内的相似度，且相似度均大于所述第一相似度阈值，则确定最小的相似度对应的音频的声音风格为所述目标声音风格；若不存在位于所述范围内的相似度，且相似度均小于所述第二相似度阈值，则确定最大的相似度对应的音频的声音风格为所述目标声音风格。

在一种可能的实施方式中，所述确定模块801，具体用于根据预设的混淆比例及所述音频中出现的音素的总数量，确定选取的待混淆音素的数量；根据所述数量及所述总数量，确定每组包含的音素数量；根据所述音频中音素出现的顺序，按照所述音素数量进行分组，在每组中任一选取一个音素作为待混淆音素。

该装置具体可以部署在终端中，终端的其他功能具体参见上述其他实施例的描述。

在上述各实施例的基础上，本申请还提供了一种电子设备，图9为本申请提供的一种电子设备结构示意图。如图9所示，包括：处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信；

所述存储器903中存储有计算机程序，当所述程序被所述处理器901执行时，使得所述处理器901以完成上述任一所述一种音频处理方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口902用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在上述各实施例的基础上，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，计算机可执行指令用于使计算机执行前述任一所述音频处理方法所执行的流程。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

识别所述音频中每个音素的起始位置，并选取待混淆音素；

2.根据权利要求1所述的方法，其特征在于，所述混淆数据为基频及泛频的频率及能量值，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

3.根据权利要求2所述的方法，其特征在于，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述过滤所述音频的所述时间区间内所述待混淆音素对应的原基频及泛频之前，所述方法还包括：

确定所述目标基频及目标泛频的目标能量和；

4.根据权利要求1所述的方法，其特征在于，所述混淆数据为混淆音频，所述在所述音频中确定所述待混淆音素所在的时间区间之后，所述根据所述目标混淆数据对所述时间区间内的音频进行处理包括：

5.根据权利要求1所述的方法，其特征在于，所述采用预先训练完成的识别模型，确定所述音频的目标音频种类包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述相似度，确定所述音频的目标声音风格包括：

7.根据权利要求1所述的方法，其特征在于，所述选取待混淆音素包括：

根据所述数量及所述总数量，确定每组包含的音素数量；

8.一种音频处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述音频处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述音频处理方法的步骤。