CN110956971B

CN110956971B - 音频处理方法、装置、终端及存储介质

Info

Publication number: CN110956971B
Application number: CN201911219026.4A
Authority: CN
Inventors: 黄中一
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-08-01
Anticipated expiration: 2039-12-03
Also published as: CN110956971A

Abstract

本发明公开了一种音频处理方法、装置、终端及存储介质，属于音频处理技术领域。所述方法包括：通过提取第一音频的第一音色特征，基于该第一音色特征，筛选出相近的目标音频，基于目标音频的目标音色特征，将第一音频转换为融合有目标音色特征和第一音色特征的第二音频，从而对音频的音色进行了改变，丰富了音频处理过程。且梅尔频谱影响了音频的磁性程度、基频微扰、振幅微扰等多种特性，因此，第二音频融合了第一音频和目标音频的梅尔频谱等音色特征，使得处理之后的音频在音色上有进一步的美化，提高了音频处理之后得到的音频的真实性。

Description

音频处理方法、装置、终端及存储介质

技术领域

本发明涉及音频处理技术领域，特别涉及一种音频处理方法、装置、终端及存储介质。

背景技术

随着网络技术的发展，用户可以录制自己的音频、视频等，并发布到网络中，其他用户从网络中进行浏览。其中，在录制时，终端可以先对用户的声音进行处理，再上传至网络。

相关技术中，音频处理过程包括：用户唱歌时，终端采集用户的原声音频，提取原声音频的基频和共振峰，并计算二者的比值，根据该比值，对原声音频进行共鸣美化处理，例如，当该比值大于2时，对第一共振峰位置的频带进行削弱，以使二者的比值变小，从而对原声音频进行美化。

上述方法实际上是仅仅修改原声音频的第一共振峰特征，只能改变音频的音高，例如，音频的尖锐程度，使得音频在听觉上从尖锐到低沉的改变，音频其他方面的特征并未改变，从而导致基于上述音频处理过程后的音频真实性较差。

发明内容

本发明实施例提供了一种音频处理方法、装置、终端及存储介质，能够解决音频处理过程后的音频真实性较差的问题。所述技术方案如下：

一方面，提供了一种音频处理方法，所述方法包括：

当接收到音频处理指令时，获取待处理的第一音频；

从所述第一音频中提取所述第一音频的第一音色特征，所述第一音色特征至少包括所述第一音频的梅尔频谱；

基于所述第一音频的第一音色特征，从多个备选音频中确定与所述第一音频之间相似度满足筛选条件的目标音频；

基于所述目标音频的目标音色特征，将所述第一音频转换为第二音频，所述第二音频融合所述目标音频的目标音色特征和所述第一音色特征。

在一种可能实现方式中，所述基于所述目标音频的目标音色特征，将所述第一音频转换为第二音频包括：

获取声音美化度，所述声音美化度用于指示所述第二音频与所述目标音频的相似程度；

将所述声音美化度、所述第一音色特征、所述目标音色特征和所述第一音频输入目标模型，输出所述第二音频，所述目标模型用于将原音频转换为融合有目标音频的目标音色特征的另一音频。

在一种可能实现方式中，所述获取声音美化度包括以下任一项：

在第一音频采集过程中，获取用户输入的声音美化度，将所述声音美化度作为所述声音美化度；

获取所述用户的历史美化度，将所述历史美化度作为所述声音美化度；

获取系统默认美化度，将所述系统默认美化度作为所述声音美化度。

在一种可能实现方式中，所述基于所述第一音频的第一音色特征，从多个备选音频中确定与所述第一音频之间相似度满足筛选条件的目标音频包括：

根据所述第一音频的第一音色特征和所述多个备选音频的备选音色特征，从多个备选音频中筛选出与所述第一音频之间的相似度超过目标阈值的多个第三音频；

在目标应用的应用界面上显示所述多个第三音频的音频标识；

基于所述多个第三音频的音频标识中被选中的目标音频标识，确定出所述多个第三音频中的目标音频。

在一种可能实现方式中，所述第一音色特征还包括所述第一音频的基频、共振峰、谐波、梅尔倒谱系数、能量、过零率中的至少一项。

另一方面，提供了一种音频处理装置，所述装置包括：

获取模块，用于当接收到音频处理指令时，获取待处理的第一音频；

提取模块，用于从所述第一音频中提取所述第一音频的第一音色特征，所述第一音色特征至少包括所述第一音频的梅尔频谱；

确定模块，用于基于所述第一音频的第一音色特征，从多个备选音频中确定与所述第一音频之间相似度满足筛选条件的目标音频；

转化模块，用于基于所述目标音频的目标音色特征，将所述第一音频转换为第二音频，所述第二音频融合所述目标音频的目标音色特征和所述第一音色特征。

在一种可能实现方式中，所述转化模块，还用于获取声音美化度，所述声音美化度用于指示所述第二音频与所述目标音频的相似程度；将所述声音美化度、所述第一音色特征、所述目标音色特征和所述第一音频输入目标模型，输出所述第二音频，所述目标模型用于将原音频转换为融合有目标音频的目标音色特征的另一音频。

在一种可能实现方式中，所述转化模块，还用于以下任一项：

在一种可能实现方式中，所述确定模块，还用于根据所述第一音频的第一音色特征和所述多个备选音频的备选音色特征，从多个备选音频中筛选出与所述第一音频之间的相似度超过目标阈值的多个第三音频；在目标应用的应用界面上显示所述多个第三音频的音频标识；基于所述多个第三音频的音频标识中被选中的目标音频标识，确定出所述多个第三音频中的目标音频。

另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述的音频处理方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述的音频处理方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法及装置，通过提取该第一音频的第一音色特征，基于该第一音色特征，筛选出相近的目标音频，基于目标音频的目标音色特征，将第一音频转换为融合有目标音色特征和第一音色特征的第二音频，从而对音频的音色进行了改变，丰富了音频处理过程。且梅尔频谱影响了音频的磁性程度、基频微扰、振幅微扰等多种特性，因此，第二音频融合了第一音频和目标音频的梅尔频谱等音色特征，使得处理之后的音频在音色上有进一步的美化，提高了音频处理之后得到的音频的真实性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频处理方法的流程图；

图2是本发明实施例提供的一种音频处理方法的流程图；

图3是本发明实施例提供的一种音频处理过程的流程图；

图4是本发明实施例提供的一种音频处理装置的结构示意图；

图5是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种音频处理方法的流程图。该发明实施例的执行主体为终端，参见图1，该方法包括：

101、当接收到音频处理指令时，获取待处理的第一音频；

102、从该第一音频中提取该第一音频的第一音色特征，该第一音色特征至少包括该第一音频的梅尔频谱；

103、基于该第一音频的第一音色特征，从多个备选音频中确定与该第一音频之间相似度满足筛选条件的目标音频；

104、基于该目标音频的目标音色特征，将该第一音频转换为第二音频，该第二音频融合该目标音频的目标音色特征和该第一音色特征。

在一种可能实现方式中，该基于该目标音频的目标音色特征，将该第一音频转换为第二音频包括：

获取声音美化度，该声音美化度用于指示该第二音频与该目标音频的相似程度；

将该声音美化度、该第一音色特征、该目标音色特征和该第一音频输入目标模型，输出该第二音频，该目标模型用于将原音频转换为融合有目标音频的目标音色特征的另一音频。

在一种可能实现方式中，该获取声音美化度包括以下任一项：

在第一音频采集过程中，获取用户输入的声音美化度，将该声音美化度作为该声音美化度；

获取该用户的历史美化度，将该历史美化度作为该声音美化度；

获取系统默认美化度，将该系统默认美化度作为该声音美化度。

在一种可能实现方式中，该基于该第一音频的第一音色特征，从多个备选音频中确定与该第一音频之间相似度满足筛选条件的目标音频包括：

根据该第一音频的第一音色特征和该多个备选音频的备选音色特征，从多个备选音频中筛选出与该第一音频之间的相似度超过目标阈值的多个第三音频；

在目标应用的应用界面上显示该多个第三音频的音频标识；

基于该多个第三音频的音频标识中被选中的目标音频标识，确定出该多个第三音频中的目标音频。

在一种可能实现方式中，该第一音色特征还包括该第一音频的基频、共振峰、谐波、梅尔倒谱系数、能量、过零率中的至少一项。

本发明实施例提供的方法，通过提取该第一音频的第一音色特征，基于该第一音色特征，筛选出相近的目标音频，基于目标音频的目标音色特征，将第一音频转换为融合有目标音色特征和第一音色特征的第二音频，从而对音频的音色进行了改变，丰富了音频处理过程。且梅尔频谱影响了音频的磁性程度、基频微扰、振幅微扰等多种特性，因此，第二音频融合了第一音频和目标音频的梅尔频谱等音色特征，使得处理之后的音频在音色上有进一步的美化，提高了音频处理之后得到的音频的真实性。

图2是本发明实施例提供的一种音频处理方法的流程图。该发明实施例的执行主体为终端，参见图2，该方法包括：

201、当接收到音频处理指令时，终端获取待处理的第一音频。

本发明实施例中，该终端可以安装有目标应用，该目标应用可以对音频进行处理。终端可以开启该目标应用，为用户录制终端录制多媒体文件，并通过本发明实施例的方法，对多媒体文件中的音频进行处理。例如，音频、视频。例如，该目标音频可以为音频播放器、直播应用、短视频应用等。终端可以采用直播应用，录制用户唱歌的音频、跳舞的视频等。该终端还可以将录制的多媒体文件上传至该目标应用的网络平台上。

本步骤中，终端可以在录制音频过程中，同步对所录制的音频进行处理。在一种可能的实施方式中，用户可以点击该目标应用的应用界面的录制按钮，以触发终端录制音频并对音频进行处理。当应用界面的录制按钮被触发时，终端接收音频处理指令，采集用户的第一音频。在另一种可能的实施方式中，终端也可以对已有音频进行处理，当终端接收到音频处理指令时，该终端从目标存储空间中获取该第一音频。该目标存储空间中存储有第一音频。当然，该第一音频还可能为该用户的好友用户所发送的音频，该终端还可以接收好友用户的终端所发送的第一音频。本发明实施例对该终端获取第一音频的方式不做具体限定。

202、终端从该第一音频中提取该第一音频的第一音色特征。

本发明实施例中，该第一音色特征至少包括该第一音频的梅尔频谱；本步骤中，该终端可以采用深度神经网络，提取第一音频的第一音色特征。其中，该音色特征可以采用向量的形式表示，例如，该计算机设备可以通过深度神经网络，提取该第一音频的第一特征向量。

在一种可能的实施方式中，该第一音色特征还可以包括该第一音频的基频、共振峰、谐波、梅尔倒谱系数、能量、过零率中的一项或多项。相应的，该计算机设备可以通过深度神经网络模型，提取该第一音色特征包括的多个特征项。在一个可能示例中，该计算机设备将该第一音频输入该深度神经网络，通过该深度神经网络，输出该第一音频的x-vector(矢量)声纹特征的特征向量。当然，第一音色特征也可以为其他特征向量的形式，例如，该计算机设备还可以通过该深度神经网络，提取该第一音频的i-vector声纹特征的特征向量、d-vector声纹特征的特征向量。当然，该终端还可以通过非深度学习的音频处理系统进行提取第一音色特征所包括的多个特征项。

需要说明的是，该终端可以提取梅尔频谱作为音色特征，后续采用梅尔频谱来进行音频处理，由于梅尔频谱影响了声音的磁性程度、基频微扰、振幅微扰等多方面的特性，因此，提取梅尔频谱能够很好描述音频的音色特征，并且，该终端还可以提取音频的基频、共振峰、谐波、梅尔倒谱系数、能量、过零率作为音色特征，更加全面、准确的得到待处理的音频的音色特征，进一步保证后续音频处理过程的全面、准确性。

203、终端基于该第一音频的第一音色特征，从多个备选音频中确定与该第一音频之间相似度满足筛选条件的目标音频。

本发明实施例中，该多个备选音频可以为具备多种特质的声音，例如，富有磁性的人声、听起来清脆悦耳的人声、低沉浑厚的人声、年龄较小的人声等。该备选音频可以为明星的声音、经典卡通人物的声音或者动物的声音等。该终端可以预先获取并存储多个备选音频的备选音色特征，该终端可以根据该第一音频的第一音色特征和多个备选音频的备选音色特征之间的相似度，从多个备选音频中筛选出相似度满足筛选条件的目标音频。后续音频处理过程中，该终端可以将该目标音频作为音频处理的参照，参照该目标音频的音色特征，对第一音频进行处理。在一个可能示例中，该筛选条件可以为相似度最大、相似度为多个相似度中的中位数等。

在一种可能的实施方式中，终端还可以从多个备选音频中选出几个第三音频，由用户来选择作为美化标准的目标音频。该过程可以包括：该终端根据该第一音频的第一音色特征和该多个备选音频的备选音色特征，从多个备选音频中筛选出与该第一音频之间的相似度超过目标阈值的多个第三音频；该终端在目标应用的应用界面上显示该多个第三音频的音频标识；该终端基于该多个第三音频的音频标识中被选中的目标音频标识，确定出该多个第三音频中的目标音频。在一个可能示例中，该终端可以在应用界面上在目标应用的应用界面上显示该多个第三音频的音频标识，用户可以触发任一音频标识，终端获取用户触发的目标音频标识后，得到用户所选择的目标音频。该音频标识可以为人名、卡通动画人物的名称、动物名称等等。

在一种可能的实施方式中，该终端可以通过确定第一音色特征的特征向量与备选音色特征的特征向量之间的距离，确定第一音频与备选音频之间的相似度，其中，该终端可以确定第一音色特征的特征向量与备选音色特征的特征向量欧几里得距离、余弦距离等，作为第一音频与备选音频之间的相似度。或者，该终端还可以直接通过深度学习度量函数来计算第一音频与备选音频之间的相似度。本发明实施例对确定相似度的实现方式不做具体限定。

204、终端基于该目标音频的音色特征，将该第一音频转换为第二音频。

本发明实施例中，该第二音频融合该目标音频的目标音色特征和该第一音色特征。该终端可以根据该目标音频的的目标音色特征和该第一音频的第一音色特征，对第一音频和目标音频进行融合，得到融合有目标音色特征和第一音色特征的第二音频。

在一种可能的实施方式中，该终端可以获取声音美化度，基于该声音美化度对第一音频和目标音频进行融合。该声音美化度用于指示该第二音频与目标音频的相似程度，相应的，本步骤可以通过以下步骤2041-2042实现。

2041、终端获取声音美化度。

本发明实施例中，用户可以基于需要来确定声音美化度，或者，该终端也可以按照系统默认的美化度作为该音频处理的声音美化度。相应的，本步骤可以包括以下三种实现方式。

第一种方式、终端在第一音频采集过程中，获取用户输入的声音美化度，将该声音美化度作为该声音美化度。

在一种可能的实施方式中，终端可以在采集用户的音频过程中，实时进行音频处理，则该终端可以在该应用界面上显示声音美化度的目标输入区域，用户可以在该目标输入区域中输入所需的声音美化度。在一个可能示例中，该应用界面中，该声音美化度可以为一个滑动条的形式，则本步骤可以包括：终端在第一音频采集过程中，在应用界面的目标输入区域显示滑动条，该滑动条用于指示声音美化度的大小，该终端获取用户基于该滑动条输入的声音美化度的大小。例如，该滑动条包括可以被滑动的条形图标，用户可以滑动该条形图标来输入该声音美化度的大小。当然，该目标输入区域还可以为其他表现形式，例如，该目标输入区域还可以圆形饼图的形式，圆形饼图内包括可转动的半径，用户可以转动半径来调节声音美化度的大小，终端获取用户转动半径所输入的声音美化度的大小。

该声音美化度的取值可以为0到1之间。声音美化度越小，表示第二音频与目标音频的相似程度越小，也即是，第一音频被美化的程度越小，第一音频中属于原声的个性特征越明显。反之，声音美化度越大，表示第二音频与目标音频的相似程度越大，也即是，第一音频被美化的程度越大。

第二种方式、终端获取该用户的历史美化度，将该历史美化度作为该声音美化度。

该终端可以存储历史音频处理时采用的历史美化度，该终端将历史美化度作为本次音频处理采用的声音美化度。在一种可能的实施方式中，该终端还可以存储历史音频处理过程中，采用的历史目标音频，则本步骤中，该终端可以从多个历史目标音频中，筛选出与本次音频处理时的目标音频相同的历史音频处理过程，并且采用该历史音频处理过程的历史美化度，作为本次音频处理的声音美化度。

第三种方式、终端获取系统默认美化度，将该系统默认美化度作为该声音美化度。

该目标应用中还可以配置有系统默认的美化度，则该终端直接获取该系统默认美化度，作为本次音频处理采用的声音美化度。

2042、终端将该声音美化度、该第一音色特征、该目标音色特征和该第一音频输入目标模型，输出该第二音频。

本发明实施例中，该终端可以通过目标模型对第一音频进行转化，该终端可以预先获取并存储该目标模型，该目标模型用于将原音频转换为融合有目标音频的音色特征的另一音频。本步骤中，该终端调用该目标模型，将声音美化度、第一音色特征的特征向量、目标音色特征的特征向量以及第一音频，输入到该目标模型中，通过该目标模型的声音转换过程，得到融合了目标音色特征的第二音频。其中，该目标模型可以为终端事先训练得到的模型，例如，该目标模型可以为：Auto VC模型、Star GAN模型。

在一种可能的实施方式中，以Star GAN模型为例。该终端可以事先基于大量音频对Star GAN网络进行训练，得到的训练好的Star GAN模型。该Star GAN模型包括转换函数，例如，基频转换函数，该终端可以根据声音美化度和该基频转换函数，将第一音频的第一基频和该目标音频中的目标基频，转换为第二基频；在该Star GAN模型中，该终端还可以根据表示第一音色特征的x-vector向量、表示目标音色特征的x-vector向量以及第一音频，重构第二音频的频谱包络特征，该终端根据该第二音频的频谱包络特征和该第二基频，通过该Star GAN模型中训练好的合成器，合成得到第二音频。

在另一种可能的实施方式中，该终端还可以根据该第一音频的音色特征、该目标音频的目标音色特征和该声音美化度，对该第一音频的音色特征进行调整，得到该第二音频。例如，该声音美化度可以为0到1之间的数值，以目标音色特征所包括的目标梅尔频谱为例，该终端可以计算该声音美化度与该目标梅尔频谱之积，以及根据该声音美化度，计算第一音频的第一音色特征所占比重，并计算第一音色特征中第一梅尔频谱，计算第一音色特征所占比重与该第一梅尔频谱之积，该终端将两个乘积的和，作为第二音频的第二梅尔频谱。

需要说明的是，本步骤中，该终端可以提取梅尔频谱作为音色特征，后续采用梅尔频谱来进行音频处理，由于梅尔频谱影响了声音的磁性程度、基频微扰、振幅微扰等多方面的特性，因此，本发明实施例的音频处理过程，能够很好的对声音的音色进行美化。并且，该终端还可以提取音频的基频、共振峰、谐波、梅尔倒谱系数、能量、过零率作为音色特征，使得音频美化处理过程更加准确，从而更全面、丰富的对声音进行了美化处理。

为了更清晰的介绍本发明实施例的实施过程，下面以图3该的流程，对上述步骤201-204的过程进行介绍，如图3所示，该终端获取模板中收集的多个备选音频的音色特征，以及，获取待处理的第一音频的第一音色特征，该终端将第一音频和备选音频进行音色对比，确定出第一音频最接近的目标音频，该终端根据该目标音频的目标音色特征、声音美化度，对第一音频进行变换，得到融合有第一音色特征和目标音色特征的第二音频，并且，用户还可以随时调节声音美化度的大小，终端可以随时基于声音美化度，将第二音频与目标音频之间的相似程度调整到用户需要的大小。

本发明实施例中，终端可以提取该第一音频的第一音色特征，基于该第一音色特征，筛选出相近的目标音频，基于目标音频的目标音色特征，将第一音频转换为融合有目标音色特征和第一音色特征的第二音频，从而对音频的音色进行了改变，丰富了音频处理过程。且梅尔频谱影响了音频的磁性程度、基频微扰、振幅微扰等多种特性，因此，第二音频融合了第一音频和目标音频的梅尔频谱等音色特征，使得处理之后的音频在音色上有进一步的美化，提高了音频处理之后得到的音频的真实性。

图4是本发明实施例提供的一种音频处理装置的结构示意图。参见图4，该装置包括：

获取模块401，用于当接收到音频处理指令时，获取待处理的第一音频；

提取模块402，用于从该第一音频中提取该第一音频的第一音色特征，该第一音色特征至少包括该第一音频的梅尔频谱；

确定模块403，用于基于该第一音频的第一音色特征，从多个备选音频中确定与该第一音频之间相似度满足筛选条件的目标音频；

转化模块404，用于基于该目标音频的目标音色特征，将该第一音频转换为第二音频，该第二音频融合该目标音频的目标音色特征和该第一音色特征。

在一种可能实现方式中，该转化模块404，还用于获取声音美化度，该声音美化度用于指示该第二音频与该目标音频的相似程度；将该声音美化度、该第一音色特征、该目标音色特征和该第一音频输入目标模型，输出该第二音频，该目标模型用于将原音频转换为融合有目标音频的目标音色特征的另一音频。

在一种可能实现方式中，该转化模块404，还用于以下任一项：

在一种可能实现方式中，该确定模块403，还用于根据该第一音频的第一音色特征和该多个备选音频的备选音色特征，从多个备选音频中筛选出与该第一音频之间的相似度超过目标阈值的多个第三音频；在目标应用的应用界面上显示该多个第三音频的音频标识；基于该多个第三音频的音频标识中被选中的目标音频标识，确定出该多个第三音频中的目标音频。

本发明实施例提供的装置，通过提取该第一音频的第一音色特征，基于该第一音色特征，筛选出相近的目标音频，基于目标音频的目标音色特征，将第一音频转换为融合有目标音色特征和第一音色特征的第二音频，从而对音频的音色进行了改变，丰富了音频处理过程。且梅尔频谱影响了音频的磁性程度、基频微扰、振幅微扰等多种特性，因此，第二音频融合了第一音频和目标音频的梅尔频谱等音色特征，使得处理之后的音频在音色上有进一步的美化，提高了音频处理之后得到的音频的真实性。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的音频处理装置在音频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5示出了本发明一个示例性实施例提供的终端的结构框图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中的音频处理方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

当接收到音频处理指令时，获取待处理的第一音频；

获取声音美化度，所述声音美化度用于指示第二音频与所述目标音频的相似程度；

将所述声音美化度、所述第一音色特征、所述目标音频的目标音色特征和所述第一音频输入目标模型，输出所述第二音频，所述目标模型用于将原音频转换为融合有目标音频的目标音色特征的另一音频。

2.根据权利要求1所述的方法，其特征在于，所述获取声音美化度包括以下任一项：

在第一音频采集过程中，获取用户输入的声音美化度，将所述用户输入的声音美化度作为所述声音美化度；

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一音频的第一音色特征，从多个备选音频中确定与所述第一音频之间相似度满足筛选条件的目标音频包括：

4.根据权利要求1所述的方法，其特征在于，所述第一音色特征还包括所述第一音频的基频、共振峰、谐波、梅尔倒谱系数、能量、过零率中的至少一项。

5.一种音频处理装置，其特征在于，所述装置包括：

转化模块，用于基于所述目标音频的目标音色特征，将所述第一音频转换为第二音频，所述第二音频融合所述目标音频的目标音色特征和所述第一音色特征；

所述转化模块，还用于获取声音美化度，所述声音美化度用于指示所述第二音频与所述目标音频的相似程度；将所述声音美化度、所述第一音色特征、所述目标音色特征和所述第一音频输入目标模型，输出所述第二音频，所述目标模型用于将原音频转换为融合有目标音频的目标音色特征的另一音频。

6.根据权利要求5所述的装置，其特征在于，所述转化模块，还用于以下任一项：

7.根据权利要求5所述的装置，其特征在于，

所述确定模块，还用于根据所述第一音频的第一音色特征和所述多个备选音频的备选音色特征，从多个备选音频中筛选出与所述第一音频之间的相似度超过目标阈值的多个第三音频；在目标应用的应用界面上显示所述多个第三音频的音频标识；基于所述多个第三音频的音频标识中被选中的目标音频标识，确定出所述多个第三音频中的目标音频。

8.根据权利要求5所述的装置，其特征在于，所述第一音色特征还包括所述第一音频的基频、共振峰、谐波、梅尔倒谱系数、能量、过零率中的至少一项。

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求4任一项所述的音频处理方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求4任一项所述的音频处理方法所执行的操作。