CN107863095A

CN107863095A - 音频信号处理方法、装置和存储介质

Info

Publication number: CN107863095A
Application number: CN201711168514.8A
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-03-30
Also published as: US20200143779A1; WO2019101015A1; US10964300B2; EP3614383A1; EP3614383A4

Abstract

本发明公开了一种音频信号处理方法、装置和存储介质，属于终端技术领域。方法包括：获取用户演唱目标歌曲的第一音频信号；从所述第一音频信号中提取所述用户的音色信息；获取所述目标歌曲的标准音频信号的音准信息；根据所述音色信息和所述音准信息，生成所述目标歌曲的第二音频信号。由于在生成目标歌曲的第二音频信号时，是基于标准音频信号的音准信息和用户的音色信息生成的。因此，即使用户的唱功较差，也会生成高质量的音频信号，从而提高了生成的音频信号的质量。

Description

音频信号处理方法、装置和存储介质

技术领域

本发明涉及终端技术领域，特别涉及一种音频信号处理方法、装置和存储介质。

背景技术

随着终端技术的发展，终端中支持的应用越来越多，终端不仅支持基本的通信功能的应用，还支持娱乐功能的应用。用户可以通过终端上安装的娱乐功能的应用进行娱乐活动。例如，终端支持K歌应用，用户可以通过终端上安装的K歌应用录制歌曲。

目前，终端通过该K歌应用录制某个目标歌曲时，终端直接采集用户演唱该目标歌曲的音频信号，将音频信号作为该目标歌曲的音频信号。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

上述方法中直接将用户的音频信号作为该目标歌曲的音频信号，然而当用户的唱功较差时，终端录制的该目标歌曲的音频信号的质量较差。

发明内容

为了解决现有技术的问题，本发明提供了一种音频信号处理方法、装置和存储介质。技术方案如下：

第一方面，本发明提供了一种音频信号处理方法，所述方法包括：

获取用户演唱目标歌曲的第一音频信号；

从所述第一音频信号中提取所述用户的音色信息；

获取所述目标歌曲的标准音频信号的音准信息；

根据所述音色信息和所述音准信息，生成所述目标歌曲的第二音频信号。

在一个可能的实现方式中，所述从所述第一音频信号中提取所述用户的音色信息，包括：

对所述第一音频信号进行分帧处理，得到分帧后的第一音频信号；

对所述分帧后的第一音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第一短时频谱信号；

从所述第一短时频谱信号中提取所述第一音频信号的第一频谱包络，将所述第一频谱包络作为所述音色信息。

在一个可能的实现方式中，所述获取所述目标歌曲的标准音频信号的音准信息，包括：

根据所述目标歌曲的歌曲标识，获取所述目标歌曲的标准音频信号，从所述标准音频信号中提取所述标准音频信号的音准信息；或者，

根据所述目标歌曲的歌曲标识，从歌曲标识和标准音频信号的音准信息的对应关系中获取所述目标歌曲的标准音频信号的音准信息。

在一个可能的实现方式中，所述从所述标准音频信号中提取所述标准音频信号的音准信息，包括：

对所述标准音频信号进行分帧处理，得到分帧后的第二音频信号；

对所述分帧后的第二音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第二短时频谱信号；

从所述第二短时频谱信号中提取所述标准音频信号的第二频谱包络；

根据所述第二短时频谱信号和所述第二频谱包络，生成所述标准音频信号的激励谱，将所述激励谱作为所述标准音频信号的音准信息。

在一个可能的实现方式中，所述标准音频信号为指定用户演唱所述目标歌曲的音频信号，所述指定用户为所述目标歌曲的原唱或者音准度满足条件的演唱者。

在一个可能的实现方式中，所述根据所述音色信息和所述音准信息，生成所述目标歌曲的第二音频信号，包括：

将所述音色信息和所述音准信息，合成第三短时频谱信号；

对所述第三短时频谱信号进行逆傅里叶变换，得到所述目标歌曲的第二音频信号。

在一个可能的实现方式中，所述将所述音色信息和所述音准信息，合成第三短时频谱信号，包括：

根据所述音色信息对应的第二频谱包络和所述音准信息对应的激励谱，通过以下公式一，确定第三短时频谱信号；

公式一：

Y_i(k)为所述第三短时频谱信号中的第i帧频谱信号的频谱值，E_i(k)为第i帧频谱的激励分量，为第i帧频谱的包络值。

第二方面，本发明提供了一种音频信号处理装置，所述装置包括：

第一获取模块，用于获取用户演唱目标歌曲的第一音频信号；

提取模块，用于从所述第一音频信号中提取所述用户的音色信息；

第二获取模块，用于获取所述目标歌曲的标准音频信号的音准信息；

生成模块，用于根据所述音色信息和所述音准信息，生成所述目标歌曲的第二音频信号。

在一个可能的实现方式中，所述提取模块，还用于对所述第一音频信号进行分帧处理，得到分帧后的第一音频信号；对所述分帧后的第一音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第一短时频谱信号；从所述第一短时频谱信号中提取所述第一音频信号的第一频谱包络，将所述第一频谱包络作为所述音色信息。

在一个可能的实现方式中，所述第二获取模块，还用于根据所述目标歌曲的歌曲标识，获取所述目标歌曲的标准音频信号，从所述标准音频信号中提取所述标准音频信号的音准信息；或者，

所述第二获取模块，还用于根据所述目标歌曲的歌曲标识，从歌曲标识和标准音频信号的音准信息的对应关系中获取所述目标歌曲的标准音频信号的音准信息。

在一个可能的实现方式中，所述第二获取模块，还用于对所述标准音频信号进行分帧处理，得到分帧后的第二音频信号；对所述分帧后的第二音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第二短时频谱信号；从所述第二短时频谱信号中提取所述标准音频信号的第二频谱包络；根据所述第二短时频谱信号和所述第二频谱包络，生成所述标准音频信号的激励谱，将所述激励谱作为所述标准音频信号的音准信息。

在一个可能的实现方式中，所述生成模块，还用于将所述音色信息和所述音准信息，合成第三短时频谱信号；对所述第三短时频谱信号进行逆傅里叶变换，得到所述目标歌曲的第二音频信号。

在一个可能的实现方式中，所述生成模块，还用于根据所述音色信息对应的第二频谱包络和所述音准信息对应的激励谱，通过以下公式一，确定第三短时频谱信号；

公式一：

第三方面，本发明提供了一种音频信号处理装置，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面任一可能实现方式中所述的音频处理方法。

第四方面，本发明提供了一种存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面任一可能实现方式中所述的音频处理方法。

在本发明实施例中，从用户演唱目标歌曲的第一音频信号中提取用户的音色信息，获取该目标歌曲的标准音频信号的音准信息，根据该音色信息和该音准信息，生成该目标歌曲的第二音频信号。由于在生成目标歌曲的第二音频信号时，是基于标准音频信号的音准信息和用户的音色信息生成的。因此，即使用户的唱功较差，也会生成高质量的音频信号，从而提高了生成的音频信号的质量。

附图说明

图1是本发明实施例提供的一种音频信号处理的方法流程图；

图2是本发明实施例提供的一种音频信号处理的方法流程图；

图3是本发明实施例提供的一种音频信号处理的装置结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种音频信号处理方法，参见图1，该方法包括：

步骤101：获取用户演唱目标歌曲的第一音频信号。

步骤102：从第一音频信号中提取用户的音色信息。

步骤103：获取目标歌曲的标准音频信号的音准信息。

步骤104：根据该音色信息和该音准信息，生成目标歌曲的第二音频信号。

在一个可能的实现方式中，从第一音频信号中提取用户的音色信息，包括：

对第一音频信号进行分帧处理，得到分帧后的第一音频信号；

对分帧后的第一音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第一短时频谱信号；

从第一短时频谱信号中提取第一音频信号的第一频谱包络，将第一频谱包络作为该音色信息。

在一个可能的实现方式中，获取目标歌曲的标准音频信号的音准信息，包括：

根据目标歌曲的歌曲标识，获取目标歌曲的标准音频信号，从标准音频信号中提取标准音频信号的音准信息；或者，

根据目标歌曲的歌曲标识，从歌曲标识和标准音频信号的音准信息的对应关系中获取目标歌曲的标准音频信号的音准信息。

在一个可能的实现方式中，从标准音频信号中提取标准音频信号的音准信息，包括：

对该标准音频信号进行分帧处理，得到分帧后的第二音频信号；

对分帧后的第二音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第二短时频谱信号；

从第二短时频谱信号中提取标准音频信号的第二频谱包络；

根据第二短时频谱信号和第二频谱包络，生成该标准音频信号的激励谱，将激励谱作为标准音频信号的音准信息。

在一个可能的实现方式中，该标准音频信号为指定用户演唱目标歌曲的音频信号，指定用户为目标歌曲的原唱或者音准度满足条件的演唱者。

在一个可能的实现方式中，根据该音色信息和该音准信息，生成目标歌曲的第二音频信号，包括：

将该音色信息和该音准信息，合成第三短时频谱信号；

对第三短时频谱信号进行逆傅里叶变换，得到目标歌曲的第二音频信号。

在一个可能的实现方式中，将该音色信息和该音准信息，合成第三短时频谱信号，包括：

根据该音色信息对应的第二频谱包络和该音准信息对应的激励谱，通过以下公式一，确定第三短时频谱信号；

公式一：

Y_i(k)为第三短时频谱信号中的第i帧频谱信号的频谱值，E_i(k)为第i帧频谱的激励分量，为第i帧频谱的包络值。

本发明实施例提供了一种音频信号处理方法，该方法的执行主体为指定应用的客户端或者安装该客户端的终端，该指定应用可以为音频录制信号的应用，也可以为社交应用。录制音频信号的应用可以为照相机、摄像机、录音机或者K歌应用等。社交应用可以为即时通信应用或者直播应用。终端可以为手机设备、PAD(Portable Android Device，平板电脑)设备或者电脑设备等任一能够处理音频信号的设备。在本发明实施例中以执行主体为终端，指定应用为K歌应用为例进行说明。参见图2，该方法包括：

步骤201：终端获取用户演唱目标歌曲的第一音频信号。

第一音频信号可以为终端当前录制的音频信号，也可以为本地音频库中存储的音频信号，也可以为用户的好友用户发送的音频信号。在本发明实施例中，对第一音频信号的来源不作具体限定。目标歌曲可以为任一歌曲，在本发明实施例中，对目标歌曲也不作具体限定。

(一)：当第一音频信号为终端当前录制的音频信号时，本步骤可以为：终端获取用户选择的目标歌曲的歌曲标识；当检测到录制开始指令时，终端开始采集音频信号，当检测到录制结束指令时，终端停止采集音频信号，将采集的音频信号作为第一音频信号。

在一个可能的实现方式中，终端的主界面中包括多个歌曲标识；用户可以在该多个歌曲标识中选择歌曲，终端获取用户选择的歌曲的歌曲标识，将选择的歌曲的歌曲标识确定为目标歌曲的歌曲标识。在一个可能的实现方式中，终端的主界面中还包括搜索输入框和搜索按钮；用户可以通过在该搜索输入框中输入目标歌曲的歌曲标识，通过该搜索按钮搜索目标歌曲。相应的，终端检测到搜索按钮被触发时，将搜索输入框中输入的歌曲的歌曲标识确定为目标歌曲的歌曲标识。其中，歌曲标识可以为歌曲的名称、演唱该歌曲的演唱者标识，演唱者标识可以为演唱者姓名或者昵称等。

(二)：当第一音频信号为本地音频库中存储的音频信号，则本步骤可以为：终端获取用户选择的目标歌曲的歌曲标识，根据该目标歌曲的歌曲标识，从本地音频库中获取用户演唱该目标歌曲的第一音频信号。

(三)：当第一音频信号为用户的好友用户发送的音频信号，则本步骤可以为：终端在用户与该好友用户的聊天对话框中选择该用户好友发送的第一音频信号。

步骤202：终端从第一音频信号中提取用户的音色信息。

第一音频信号中包括的频谱包络和激励谱，频谱包络指示音色信息，激励谱指示音准信息。音色信息包括音色。本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)：终端对第一音频信号进行分帧处理，得到分帧后的第一音频信号。

终端以预设帧长和预设帧移对第一音频信号进行分帧处理，得到分帧后的第一音频信号。

预设帧长和预设帧移都可以根据需要进行设置并更改，在本发明实施例中，对预设帧长和预设帧移都不作具体限定。

(2)：终端对分帧后的第一音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第一短时频谱信号。

在本发明实施例中，采用汉明窗对分帧后的第一音频信号进行加窗处理。并且，随着窗的移动对位于窗口内的音频信号进行短时傅里叶变换，将时域上的音频信号转换为频域上的音频信号，得到第一短时频谱信号。

(3)：终端从第一短时频谱信号中提取第一音频信号的第一频谱包络，将第一音频包络作为用户的音色信息。

终端采用倒谱法，从第一短时频谱信号中提取第一音频信号的第一频谱包络。

步骤203：终端获取目标歌曲的标准音频信号的音准信息。

在本发明实施例中，终端可以当前从目标歌曲的标准音频信号中提取音准信息，也即以下第一种实现方式；终端也可以事先提取好目标歌曲的音准信息，在本步骤中直接获取已存储的目标歌曲的标准音频信号的音准信息，也即以下第二种实现方式。

对于第一种实现方式，本步骤可以通过以下步骤(1)至(2)实现：

(1)：终端根据目标歌曲的歌曲标识，获取目标歌曲的标准音频信号。

终端的歌曲库中关联存储多个歌曲标识和标准音频信号；在本步骤中，终端根据目标歌曲的歌曲标识，从歌曲库中获取目标歌曲的标准音频信号。其中，歌曲库中存储的目标歌曲的标准音频信号为指定用户演唱该目标歌曲的音频信号。指定用户为该目标歌曲的原唱或者音准度满足条件的演唱者。

终端中关联存储多个歌曲和音频信号库，任一歌曲对应的音频信号库包括该任一歌曲的多个音频信号。在本步骤中，终端根据该目标歌曲的歌曲标识，从歌曲标识和音频信号库的对应关系中获取该目标歌曲的音频信号库，从该音频信号库中获取音准度满足条件的演唱者的标准音频信号。

终端从该音频信号库中获取音准度满足条件的演唱者的标准音频信号的步骤可以为：终端确定该音频信号库中每个音频信号的音准度，根据每个音频信号的音准度，从该音频信号库中选择音准度满足条件的指定用户演唱的音频信号。

音准度满足条件的演唱者是指音准度大于预设阈值的演唱者，或者多个演唱者中音准度最高的演唱者。

(2)：终端从该标准音频信号中提取该标准音频信号的音准信息。

其中，标准音频信号包括频谱包络和激励谱，频谱包络指示音色信息，激励谱指示音准信息。音准信息包括音高和音长。相应的，本步骤可以通过以下步骤(2-1)至(2-4)实现，包括：

(2-1)：终端对该标准音频信号进行分帧处理，得到分帧后的第二音频信号。

终端以预设帧长和预设帧移对标准音频信号进行分帧处理，得到分帧后的第二音频信号。

(2-2)：终端对分帧后的第二音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第二短时频谱信号。

在本发明实施例中，采用汉明窗对分帧后的第一音频信号进行加窗处理。并且，随着窗的移动对位于窗口内的音频信号进行短时傅里叶变换，将时域上的音频信号转换为频域上的音频信号，得到第二短时频谱信号。

(2-3)：终端从第二短时频谱信号中提取该标准音频信号的第二频谱包络。

终端采用倒谱法，从第二短时频谱信号中提取该标准音频信号的第二频谱包络。

(2-4)：终端根据第二短时频谱信号和第二频谱包络，生成该标准音频信号的激励谱，将该激励谱作为该标准音频信号的音准信息。

对于每帧频谱，终端根据该帧频谱的频谱值与包络值，确定该帧频谱的激励分量，将每帧频谱的激励分量组成激励谱。其中，终端确定该帧频谱的频谱值与包络值的比值，将该比值确定为该帧频谱的激励分量。

例如，第i帧频谱的频谱值为X_i(k)，第i帧频谱的包络值为H_i(k)，则第i帧频谱的激励分量为其中，i为帧号。

对于第二种实现方式，终端事先提取歌曲库中的每个歌曲的标准音频信号的音准信息，关联存储每个歌曲的歌曲标识和音准信息的对应关系。相应的，在本步骤中，终端根据目标歌曲的歌曲标识，从歌曲标识和标准音频信号的音准信息的对应关系中获取该目标歌曲的标准音频信号的音准信息。

需要说明的是，终端提取歌曲库中的每个歌曲的标准音频信号的音准信息的过程和上述终端提取目标歌曲的标准音频信号的音准信息的过程相同，在此不再赘述。

在本发明实施例中，终端也可以将用户好友演唱该目标歌曲的音准信息和用户的音色信息合成目标歌曲的第二音频信号。相应的，终端获取目标歌曲的标准音频信号的音准信息的步骤可以为：

终端获取用户的好友用户发送的音频信号，将好友用户发送的音频信号作为标准音频信号，从该标准音频信号中提取该标准音频信号的音准信息。

在本发明实施例中，不仅可以实现将原唱或者高水准唱功的演唱者的音准信息与用户的音色信息合成高质量歌曲作品，还能够将用户好友的音频信号作为基准音频信号，从而实现将用户演唱该目标歌曲的音准信息和用户的音色信息合成高质量歌曲作品，提高了趣味性。

步骤204：终端根据该音色信息和该音准信息，生成该目标歌曲的第二音频信号。

本步骤可以通过以下步骤(1)和(2)实现，包括：

(1)：终端将该音色信息和该音准信息，合成第三短时频谱信号。

终端根据第二频谱包络和该激励谱，通过以下公式一确定第三短时频谱信号。

公式一：

其中，Y_i(k)为第三短时频谱信号中的第i帧频谱的频谱值，E_i(k)为第i帧频谱的激励分量，为第i帧频谱的包络值。

(2)：终端对第三短时频谱信号进行逆傅里叶变换，得到该目标歌曲的第二音频信号。

终端对第二频谱信号进行逆傅里叶变换，将第三短时频谱信号转换为时域信号，得到该目标歌曲的第二音频信号。

步骤205：终端接收对第二音频信号的操作指令，根据该操作指令，对第二音频信号进行处理。

该操作指令可以为存储指令、第一分享指令和第二分享指令。存储指令用于指示终端存储第二音频信号，第一分享指令用于指示终端将第二音频信号分享给目标用户，第二分享指令用于指示终端将第二音频信号分享到用户的信息展示平台。

(一)：当该操作指令为存储指令时，终端根据该操作指令，对第二音频信号进行处理的步骤可以为：终端根据该操作指令，将该第二音频信号存储到指定存储空间中。其中，指定存储空间可以为终端本地的音频库，也可以为云服务器中的该用户的用户账号对应的存储空间。

当该指定存储空间为云服务器中的该用户的用户账号对应的存储空间时，终端根据该操作指令，将该第二音频信号存储到指定存储空间中的步骤可以为：终端向云服务器发送存储请求，该存储请求携带用户标识和该第三音频信号。云服务器接收该存储请求，根据该用户标识，将第三音频信号存储到该用户标识对应的存储空间中。

在终端将第二音频信号存储到云服务器中的该用户的用户账户对应的存储空间之前，云服务器对终端进行身份验证；在身份验证通过后，才进行后续的存储过程。其中，云服务器对终端进行身份验证的步骤可以为：终端向云服务器发送验证请求，该验证请求携带该用户的用户账号和用户密码。云服务器接收终端发送的验证请求，当该用户账号和该用户密码匹配时，对该用户验证通过；当该用户账号和该用户密码不匹配时，对该用户验证不通过。

在本发明实施例中，将第二音频信号存储到云服务器之前，先对用户进行身份验证，在验证通过后，才进行后续的存储过程，从而提高了第二音频信号的安全性。

(二)：当该操作指令为第一分享指令时，终端根据该操作指令，对第二音频信号进行处理的步骤可以为：终端获取用户选择的目标用户，向服务器发送第二音频信号和该目标用户的用户标识。服务器接收第二音频信号和该目标用户的用户标识，根据该目标用户的用户标识，将第二音频信号发送给该目标用户对应的终端。其中，目标用户包括至少一个用户和/或至少一个群组。

(三)：当该操作指令为第二分享指令时，终端根据该操作指令，对第二音频信号进行处理的步骤可以为：终端向服务器发送该第二音频信号和该用户的用户标识。服务器接收第二音频信号和该用户的用户标识，根据该用户的用户标识，将该第二音频信号分享到该用户的信息展示平台中。

其中，用户标识可以为用户事先在服务器中注册的用户账号等。群组标识可以为群组名称、二维码等。需要说明的是，在本发明实施例中，在社交应用中增加了处理音频信号的功能，丰富了社交应用的功能，且提高了用户体验。

本发明实施例提供了一种音频信号处理装置，该装置应用在终端中，用于执行上述处理音频信号的方法中终端执行的步骤，参见图3，该装置包括：

第一获取模块301，用于获取用户演唱目标歌曲的第一音频信号；

提取模块302，用于从第一音频信号中提取该用户的音色信息；

第二获取模块303，用于获取目标歌曲的标准音频信号的音准信息；

生成模块304，用于根据该音色信息和该音准信息，生成该目标歌曲的第二音频信号。

在一个可能的实现方式中，提取模块302，还用于对第一音频信号进行分帧处理，得到分帧后的第一音频信号；对分帧后的第一音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第一短时频谱信号；从第一短时频谱信号中提取第一音频信号的第一频谱包络，将第一频谱包络作为该音色信息。

在一个可能的实现方式中，第二获取模块303，还用于根据该目标歌曲的歌曲标识，获取该目标歌曲的标准音频信号，从该标准音频信号中提取该标准音频信号的音准信息；或者，

第二获取模块303，还用于根据该目标歌曲的歌曲标识，从歌曲标识和标准音频信号的音准信息的对应关系中获取该目标歌曲的标准音频信号的音准信息。

在一个可能的实现方式中，第二获取模块303，还用于对该标准音频信号进行分帧处理，得到分帧后的第二音频信号；对分帧后的第二音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第二短时频谱信号；从第二短时频谱信号中提取标准音频信号的第二频谱包络；根据第二短时频谱信号和第二频谱包络，生成该标准音频信号的激励谱，将该激励谱作为标准音频信号的音准信息。

在一个可能的实现方式中，该标准音频信号为指定用户演唱目标歌曲的音频信号，指定用户为该目标歌曲的原唱或者音准度满足条件的演唱者。

在一个可能的实现方式中，生成模块304，还用于将该音色信息和该音准信息，合成第三短时频谱信号；对第三短时频谱信号进行逆傅里叶变换，得到目标歌曲的第二音频信号。

在一个可能的实现方式中，生成模块304，还用于根据该音色信息对应的第二频谱包络和该音准信息对应的激励谱，通过以下公式一，确定第三短时频谱信号；

公式一：

需要说明的是：上述实施例提供的音频信号处理装置在音频信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频信号处理装置与音频信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种终端的结构示意图。该终端可以用于实施上述实施例所示出的处理音频信号的方法中的终端所执行的功能。具体来讲：

终端400可以包括RF(Radio Frequency，射频)电路410、包括有一个或一个以上计算机可读存储介质的存储器420、输入单元430、显示单元440、传感器450、音频电路460、传输模块470、包括有一个或者一个以上处理核心的处理器480、以及电源490等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器480处理；另外，将涉及上行的数据发送给基站。通常，RF电路410包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路410还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器420可用于存储软件程序以及模块，如上述示例性实施例所示出的终端所对应的软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行各种功能应用以及数据处理，如实现基于视频的交互等。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端400的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器420还可以包括存储器控制器，以提供处理器480和输入单元430对存储器420的访问。

输入单元430可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元430可包括触敏表面431以及其他输入终端432。触敏表面431，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面431上或在触敏表面431附近的操作)，并根据预先设定的程式驱动相应的链接装置。可选的，触敏表面431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面431。除了触敏表面431，输入单元430还可以包括其他输入终端432。具体地，其他输入终端432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及终端400的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元440可包括显示面板441，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板441。进一步的，触敏表面431可覆盖显示面板441，当触敏表面431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图4中，触敏表面431与显示面板441是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面431与显示面板441集成而实现输入和输出功能。

终端400还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在终端400移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与终端400之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经RF电路410以发送给比如另一终端，或者将音频数据输出至存储器420以便进一步处理。音频电路460还可能包括耳塞插孔，以提供外设耳机与终端400的通信。

终端400通过传输模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线或有线的宽带互联网访问。虽然图4示出了传输模块470，但是可以理解的是，其并不属于终端400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是终端400的控制中心，利用各种接口和线路链接整个手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行终端400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器480可包括一个或多个处理核心；优选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

终端400还包括给各个部件供电的电源490(比如电池)，优选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源490还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端400还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端400的显示单元是触摸屏显示器，终端400还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于实施上述实施例中终端所执行操作的指令。

在示例性实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，例如存储有计算机程序的存储器，上述计算机程序被处理器执行时实现上述实施例中的处理音频信号的方法。例如，所述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

获取用户演唱目标歌曲的第一音频信号；

从所述第一音频信号中提取所述用户的音色信息；

获取所述目标歌曲的标准音频信号的音准信息；

2.根据权利要求1所述的方法，其特征在于，所述从所述第一音频信号中提取所述用户的音色信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述目标歌曲的标准音频信号的音准信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述标准音频信号中提取所述标准音频信号的音准信息，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述标准音频信号为指定用户演唱所述目标歌曲的音频信号，所述指定用户为所述目标歌曲的原唱或者音准度满足条件的演唱者。

6.根据权利要求1-4任一所述的方法，其特征在于，所述根据所述音色信息和所述音准信息，生成所述目标歌曲的第二音频信号，包括：

将所述音色信息和所述音准信息，合成第三短时频谱信号；

7.根据权利要求6所述的方法，其特征在于，所述将所述音色信息和所述音准信息，合成第三短时频谱信号，包括：

公式一：

8.一种音频信号处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

所述提取模块，还用于对所述第一音频信号进行分帧处理，得到分帧后的第一音频信号；对所述分帧后的第一音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第一短时频谱信号；从所述第一短时频谱信号中提取所述第一音频信号的第一频谱包络，将所述第一频谱包络作为所述音色信息。

10.根据权利要求8所述的装置，其特征在于，

所述第二获取模块，还用于根据所述目标歌曲的歌曲标识，获取所述目标歌曲的标准音频信号，从所述标准音频信号中提取所述标准音频信号的音准信息；或者，

11.根据权利要求10所述的装置，其特征在于，

所述第二获取模块，还用于对所述标准音频信号进行分帧处理，得到分帧后的第二音频信号；对所述分帧后的第二音频信号进行加窗处理，并对位于窗口内的音频信号进行短时傅里叶变换，得到第二短时频谱信号；从所述第二短时频谱信号中提取所述标准音频信号的第二频谱包络；根据所述第二短时频谱信号和所述第二频谱包络，生成所述标准音频信号的激励谱，将所述激励谱作为所述标准音频信号的音准信息。

12.根据权利要求8-11任一所述的装置，其特征在于，所述标准音频信号为指定用户演唱所述目标歌曲的音频信号，所述指定用户为所述目标歌曲的原唱或者音准度满足条件的演唱者。

13.根据权利要求8-11任一所述的装置，其特征在于，

所述生成模块，还用于将所述音色信息和所述音准信息，合成第三短时频谱信号；对所述第三短时频谱信号进行逆傅里叶变换，得到所述目标歌曲的第二音频信号。

14.根据权利要求13所述的装置，其特征在于，

所述生成模块，还用于根据所述音色信息对应的第二频谱包络和所述音准信息对应的激励谱，通过以下公式一，确定第三短时频谱信号；

公式一：

15.一种音频信号处理装置，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7中任一权利要求所述的音频处理方法。

16.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7中任一权利要求所述的音频处理方法。