CN107731241A

CN107731241A - 处理音频信号的方法、装置和存储介质

Info

Publication number: CN107731241A
Application number: CN201710905508.XA
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-02-23
Anticipated expiration: 2037-09-29
Also published as: CN107731241B

Abstract

本发明公开了一种处理音频信号的方法、装置和存储介质，属于信号处理领域。方法包括：对待处理的第一音频信号进行变调处理，得到第二音频信号；从第二音频信号中提取第一频谱包络和激励谱，第一频谱包络对应音频信号的音色，激励谱对应音频信号的音高；对第一频谱包络进行还原处理，得到第二频谱包络；根据第二频谱包络和激励谱，生成第三音频信号。由于从对第一音频信号进行变调处理得到的第二音频信号中分离出激励谱和第一频谱包络，因此激励谱和第一频谱包络在时域上是对应的，而对第一频谱包络进行还原处理并不改变频谱包络的时域，因此不会影响基于激励谱和第二频谱包络生成的第三频谱信号的自然度，从而提高了生成的第三音频信号的自然度。

Description

处理音频信号的方法、装置和存储介质

技术领域

本发明涉及信号处理领域，特别涉及一种处理音频信号的方法、装置和存储介质。

背景技术

随着终端技术的发展，终端不仅可以录制音频信号，还可以对录制的音频信号进行处理。例如，对音频信号进行变调不变速处理。其中，变调不变速处理是指改变音频信号的音高，而不改变音频信号的音色。

现有技术中，终端对待处理的第一音频信号进行变调不变速处理的过程为：终端从第一音频信号中提取第一音频信号的频谱包络，频谱包络对应音频信号的音调音色。终端根据频谱包络从第一音频信号中提取第一激励谱，第一激励谱对应音频信号的音高；对第一激励谱进行变调处理，得到第二激励谱，基于频谱包络和第二激励谱生成第二音频信号。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

由于对第一激励谱进行变调处理时，在时域上改变了第一激励谱，从而导致生成的第二激励谱与频谱包络在时域上是错位，从而影响了生成的第二音频信号的自然度，也即导致自然度低。

发明内容

本发明提供了一种处理音频信号的方法、装置和存储介质，可以解决自然度低的问题。技术方案如下：

第一方面，本发明实施例提供了一种处理音频信号的方法，所述方法包括：

对待处理的第一音频信号进行变调处理，得到第二音频信号；

从所述第二音频信号中提取第一频谱包络和激励谱，所述第一频谱包络对应音频信号的音色，所述激励谱对应音频信号的音高；

对所述第一频谱包络进行还原处理，得到第二频谱包络；

根据所述第二频谱包络和所述激励谱，生成第三音频信号。

在一种可能的实现方式中，所述对待处理的第一音频信号进行变调处理，得到第二音频信号，包括：

确定第一音高调整系数；

基于所述第一音高调整系数，对所述第一音频信号进行变速不变调处理，得到第四音频信号；

基于所述第一音高调整系数，对所述第四音频信号进行变调逆变速处理，得到所述第二音频信号。

在一种可能的实现方式中，所述从所述第二音频信号中提取第一频谱包络和激励谱，包括：

对所述第二音频信号进行时频转换，得到第一频谱信号；

通过倒谱法，从所述第一频谱信号中提取所述第一频谱包络；

根据所述第一频谱信号和所述第一频谱包络，生成所述激励谱。

在一种可能的实现方式中，所述根据所述第一频谱信号和所述第一频谱包络，生成所述激励谱，包括：

对于每帧频谱信号，根据所述帧频谱信号的频谱值与包络值，确定所述帧频谱信号的激励分量；

将所述每帧频谱信号的激励分量组成所述激励谱。

在一种可能的实现方式中，所述对所述第一频谱包络进行还原处理，得到第二频谱包络，包括：

确定第二音高调整系数，所述第二音高调整系数为所述第一音高调整系数的倒数；

基于所述第二音高调整系数，对所述第一频谱包络进行重采样，得到所述第二频谱包络。

在一种可能的实现方式中，所述根据所述第二频谱包络和所述激励谱，生成第三音频信号，包括：

将所述第二频谱包络和所述激励谱合成第二频谱信号；

对所述第三频谱信号进行时频转换，得到所述第三音频信号。

在一种可能的实现方式中，所述对待处理的第一音频信号进行变调处理，得到第二音频信号之前，所述方法还包括：

获取当前录制的音频信号，将所述当前录制的音频信号确定为所述第一音频信号；或者，

获取用户从本地音频库中选择的音频信号，将所述选择的音频信号确定为所述第一音频信号；或者，

获取对端发送的音频信号，将所述对端发送的音频信号确定为所述第一音频信号。

在一种可能的实现方式中，所述根据所述第二频谱包络和所述激励谱，生成第三音频信号之后，所述方法还包括：

在接收到用于指示存储所述第三音频信号的存储指令时，存储所述第三音频信号；和/或，

在接收到用于分享所述第三音频信号的分享指令时，向服务器发送所述第三音频信号，以使所述服务器分享所述第三音频信号。

第二方面，本发明实施例提供了一种处理音频信号的装置，所述装置包括：

变调处理，用于对待处理的第一音频信号进行变调处理，得到第二音频信号；

提取模块，用于从所述第二音频信号中提取第一频谱包络和激励谱，所述第一频谱包络对应音频信号的音色，所述激励谱对应音频信号的音高；

还原模块，用于对所述第一频谱包络进行还原处理，得到第二频谱包络；

处理模块，用于根据所述第二频谱包络和所述激励谱，生成第三音频信号。

在一种可能的实现方式中，所述变调处理，还用于确定第一音高调整系数；基于所述第一音高调整系数，对所述第一音频信号进行变速不变调处理，得到第四音频信号；基于所述第一音高调整系数，对所述第四音频信号进行变调逆变速处理，得到所述第二音频信号。

在一种可能的实现方式中，所述提取模块，还用于对所述第二音频信号进行时频转换，得到第一频谱信号；通过倒谱法，从所述第一频谱信号中提取所述第一频谱包络；根据所述第一频谱信号和所述第一频谱包络，生成所述激励谱。

在一种可能的实现方式中，所述提取模块，还用于对于每帧频谱信号，根据所述帧频谱信号的频谱值与包络值，确定所述帧频谱信号的激励分量；将所述每帧频谱信号的激励分量组成所述激励谱。

在一种可能的实现方式中，所述还原模块，还用于确定第二音高调整系数，所述第二音高调整系数为所述第一音高调整系数的倒数；基于所述第二音高调整系数，对所述第一频谱包络进行重采样，得到所述第二频谱包络。

在一种可能的实现方式中，所述处理模块，还用于将所述第二频谱包络和所述激励谱合成第二频谱信号；对所述第三频谱信号进行时频转换，得到所述第三音频信号。

在一种可能的实现方式中，所述装置还包括：

确定模块，用于获取当前录制的音频信号，将所述当前录制的音频信号确定为所述第一音频信号；或者，

确定模块，用于获取用户从本地音频库中选择的音频信号，将所述选择的音频信号确定为所述第一音频信号；或者，

确定模块，用于获取对端发送的音频信号，将所述对端发送的音频信号确定为所述第一音频信号。

在一种可能的实现方式中，所述装置还包括：

存储模块，用于在接收到用于指示存储所述第三音频信号的存储指令时，存储所述第三音频信号；和/或，

分享模块，用于在接收到用于分享所述第三音频信号的分享指令时，向服务器发送所述第三音频信号，以使所述服务器分享所述第三音频信号。

第三方面，本发明实施例提供了一种处理音频信号的装置，包括处理器和存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的计算机程序，实现第一方面任一项所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述的方法步骤。

在本发明实施例中，先对第一音频信号进行变调处理，得到第二音频信号，再通过包络提取从第二音频信号分离出激励谱和第一频谱包络，再对影响音色的第一频谱包络进行还原处理，得到第二频谱包络，将第二频谱包络和激励谱进行合并得到第三音频信号，以恢复变调前的音色。由于从对第一音频信号进行变调处理得到的第二音频信号中分离出激励谱和第一频谱包络，因此激励谱和第一频谱包络在时域上是对应的，而对第一频谱包络进行还原处理并不改变频谱包络的时域，因此，激励谱和第二频谱包络在时域上是对应的，从而不会影响基于激励谱和第二频谱包络生成的第三频谱信号的自然度，从而提高了生成的第三音频信号的自然度。

附图说明

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种处理音频信号的方法流程图；

图3是本发明实施例提供的另一种处理音频信号的方法流程图；

图4是本发明实施例提供的一种处理音频信号的装置结构示意图；

图5是本发明实施例提供的另一种处理音频信号的装置结构示意图；

图6是本发明实施例提供的另一种处理音频信号的装置结构示意图；

图7是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例处理音频信号是指对音频信号进行变速不变调处理。其中，变速不变调处理是指仅改变音频信号的音高，而不改变音频信号的音色。而音高是通过音频信号的激励谱体现的，而音色是通过音频信号的频谱包络体现的。因此，在对处理音频信号时，仅需要改变音频信号的激励谱，而不改变频谱信号的频谱包络。

该处理音频信号的方法可以应用在指定应用中，该指定应用可以为音频录制信号的应用，也可以为社交应用。录制音频信号的应用可以为照相机、摄像机或者录音机等。社交应用可以为即时通信应用或者直播应用。在指定应用的指定界面中设置处理按钮，用户可以通过触发该处理按钮以触发终端对待处理的第一音频信号进行处理。其中，指定界面可以为指定应用任一界面。例如，当指定应用为社交应用时，指定界面可以为对话框对应的界面或者主播的直播界面。

当本发明实施例提供的处理音频信号的方法应用在社交应用中时，终端对第一音频信号进行处理得到第三音频信号后，终端可以通过服务器分享第三音频信号。图1是本发明实施例提供的处理音频信号的实施环境，参见图1，该实施环境中包括终端101和服务器102。终端101和服务器102之间通过有线或者无线网络连接。终端101中运行服务器102关联的社交应用，终端101通过用户标识登录该社交应用，以登录服务器102，从而与服务器102进行交互。

终端101可以为手机设备、PAD(Portable Android Device，平板电脑)设备或者电脑设备等任一能够处理音频信号的设备。服务器102是指为终端101提供后台服务的服务器102，可以为一台服务器102，或者由若干台服务器102组成的服务器102集群，或者是一个云计算服务器102中心，本发明实施例对此不做限定。在一种可能的实现方式中，服务器102可以为终端101中安装的社交应用的后台服务器。

本发明实施例提供了一种处理音频信号的方法，该方法的执行主体可以为终端，参见图2，该方法包括：

步骤201：对待处理的第一音频信号进行变调处理，得到第二音频信号。

步骤202：从第二音频信号中提取第一频谱包络和激励谱，第一频谱包络对应音频信号的音色，激励谱对应音频信号的音高。

步骤203：对第一频谱包络进行还原处理，得到第二频谱包络。

步骤204：根据第二频谱包络和激励谱，生成第三音频信号。

在一种可能的实现方式中，对待处理的第一音频信号进行变调处理，得到第二音频信号，包括：

确定第一音高调整系数；

基于第一音高调整系数，对第一音频信号进行变速不变调处理，得到第四音频信号；

基于第一音高调整系数，对第四音频信号进行变调逆变速处理，得到第二音频信号。

在一种可能的实现方式中，从第二音频信号中提取第一频谱包络和激励谱，包括：

对第二音频信号进行时频转换，得到第一频谱信号；

通过倒谱法，从第一频谱信号中提取第一频谱包络；

根据第一频谱信号和第一频谱包络，生成激励谱。

在一种可能的实现方式中，根据第一频谱信号和第一频谱包络，生成激励谱，包括：

对于每帧频谱信号，根据帧频谱信号的频谱值与包络值，确定帧频谱信号的激励分量；

将每帧频谱信号的激励分量组成激励谱。

在一种可能的实现方式中，对第一频谱包络进行还原处理，得到第二频谱包络，包括：

确定第二音高调整系数，第二音高调整系数为第一音高调整系数的倒数；

基于第二音高调整系数，对第一频谱包络进行重采样，得到第二频谱包络。

在一种可能的实现方式中，根据第二频谱包络和激励谱，生成第三音频信号，包括：

将第二频谱包络和激励谱合成第二频谱信号；

对第三频谱信号进行时频转换，得到第三音频信号。

在一种可能的实现方式中，对待处理的第一音频信号进行变调处理，得到第二音频信号之前，方法还包括：

获取当前录制的音频信号，将当前录制的音频信号确定为第一音频信号；或者，

获取用户从本地音频库中选择的音频信号，将选择的音频信号确定为第一音频信号；或者，

获取对端发送的音频信号，将对端发送的音频信号确定为第一音频信号。

在一种可能的实现方式中，根据第二频谱包络和激励谱，生成第三音频信号之后，方法还包括：

在接收到用于指示存储第三音频信号的存储指令时，存储第三音频信号；和/或，

在接收到用于分享第三音频信号的分享指令时，向服务器发送第三音频信号，以使服务器分享第三音频信号。

本发明实施例提供了一种处理音频信号的方法，该方法应用在终端中，参见图3，该方法包括：

步骤301：终端确定待处理的第一音频信号。

第一音频信号可以为当前录制的音频信号，也可以为本地音频库中存储的音频信号，也可以为用户的好友用户发送的音频信号。在本发明实施例中，对第一音频信号的来源不作具体限定。

(一)：当第一音频信号为当前录制的音频信号时，本步骤可以为：终端获取当前录制的音频信号，将当前录制的音频信号确定为第一音频信号。

用户可以向终端触发录制开始指令和录制结束指令；当终端接收到录制开始指令时，开始进行录制；在录制过程中，当终端检测到录制结束指令时，结束录制，并获取当前录制的音频信号。

需要说明的是，用户可以通过录制按钮触发录制开始指令或者录制结束指令，用户还可以通过语音信号触发录制开始指令或者录制结束指令。当用户通过录制按钮触发录制开始指令或者录制结束指令时，指定应用的指定界面中设有录制按钮，用户可以通过触发该录制按钮，以触发录制开始指令或者录制结束指令。终端检测到该录制按钮被触发时，确定接收到录制开始指令；在录制过程中，当检测到该录制按钮被再次触发时，确定接收到录制结束指令。当用户通过语音信号触发录制开始指令或者录制结束指令时，终端采集包括录制开始指令对应的第一关键字时，确定接收到录制开始指令；在录制过程中，终端采集到包括录制结束指令对应的第二关键字时，确定接收到录制结束指令。

录制开始指令对应的第一关键字用于指示开始录制，例如第一关键字可以为“开始”、“录制”、“录”等。录制结束指令对应的第二关键字用于指示结束录制，例如第二关键字可以为“结束”、“停止”、“停”等。

例如，指定界面为与好友的聊天界面；则该聊天界面的工具栏中包括录制按钮。再如，指定界面为直播界面；则直播界面的工具栏中包括录制按钮。

(二)：当第一音频信号为本地音频库中存储的音频信号时，本步骤可以为：终端获取用户从本地音频库中选择的音频信号，将该选择的音频信号确定为第一音频信号。

本地音频库中存储至少一个音频信号，且本地音频库中存储的音频信号可以为用户历史录制的音频信号、用户的好友用户发送的音频信号或者用户从网络服务器中下载的音频信号。在本发明实施例中，对本地音频库中存储的音频信号的来源不作具体限定。

指定应用的指定界面中设有选择按钮，用户可以通过触发该选择按钮，以触发终端显示选择界面。终端检测到该选择按钮被触发时，显示选择界面，该选择界面中包括音频库中的每个音频信号的标识。用户可以在选择界面中选择一个音频信号。相应的，终端获取用户从本地音频库中选择的音频信号的步骤可以为：终端获取用户选择的音频信号的标识，根据该选择的音频信号的标识，从音频库中获取该选择的音频信号。其中，音频信号的标识可以为音频信号对应的图标或者名称等。

(三)：当第一音频信号为用户的好友用户发送的音频信号时，本步骤可以为：终端获取对端发送的音频信号，将对端发送的音频信号确定为第一音频信号。

对端发送的音频信号可以为对端当前发送的音频信号，也可以为对端历史发送的音频信号。并且，终端可以在用户与好友用户聊天的对话框中选择对端发送的音频信号，相应的，终端获取对端发送的音频信号的步骤可以为：在对话框满足弹出条件时，终端弹出包含选择按钮的提示选项；当选择按钮被触发时，终端设置对话框中的每个音频信号的属性为可选，在对话框中确定被选定的音频信号。

弹出条件包括对话框中的一条聊天消息被连续触发的时长超过第一预设时长，或对话框的空白区域被连续触发的时长超过第二预设时长。第一预设时长和第二预设时长可以相等，也可以不相等。并且，第一预设时长和第二预设时长都可以根据需要进行设置并更改，在本公开实施例中，对第一预设时长和第二预设时长都不做具体限定。例如，第一预设时长和第二预设时长不相等，第一预设时长为2s，第二预设时长为3s。需要说明的是，如果用户在对话框中不仅可以选择对端发送的音频信号，也可以选择终端发送给对端的音频信号。

步骤302：终端对第一音频信号进行变调处理，得到第二音频信号。

在本步骤中，终端可以先对第一音频信号进行变速不变调处理，然后对变速不变调处理后的第一音频信号进行变调逆变速处理，从而实现对第一音频信号的变调处理。相应的，本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)：终端确定第一音高调整系数。

第一种实现方式：终端确定第一音频信号的原始音高以及目标音高；根据该目标音高和该原始音高，确定第一音高调整系数。终端根据该目标音高和该原始音高，确定第一音高调整系数时，终端确定该目标音高和该原始音高之间的比值，将该比值确定为第一音高调整系数。

需要说明的是，该原始音高可以为第一音频信号的任一音节的原始音高，该目标音高为该任一音节的目标音高。并且，原始音高和目标音高为同一个音节的原始音高和目标音高。例如，第一音频信号包括5个音节，该原始音高可以为第1个音节的原始音高、第2个音节的原始音高、第3个音节的原始音高等等。当该原始音高为第1个音节的原始音高时，该目标音高则为第一个音节的目标音高。

第二种实现方式：用户可以手动设置第一音高调整系数；终端获取用户设置的第一音高调整系数。

终端确定出待处理的第一音频信号时，终端显示设置界面；该设置界面中包括系数输入框，用户可以在该系数输入框中输入音高调整系数；相应的，终端获取用户设置的第一音高调整系数的步骤可以为：终端获取系数输入框中的音高调整系数，将系数输入框中的音高调整系数确定为第一音高调整系数。

例如，用户想要将第一音频信号的音高升高为原来的两倍，则用户可以设置第一音高调整系数为2。

(2)：终端基于第一音高调整系数，对第一音频信号进行变速不变调处理，得到第四音频信号。

终端基于第一音高调整系数，采用波形相似重叠叠加算法对音频信号进行变速不变调处理，得到第四音频信号。其中，变速不变调处理只改变音频信号的音频时长，而不改变音频信号的音高。例如，第一音高调整系数为α，则第四音频信号的音频时长是第一音频信号的音频时长的α倍，而第一音频信号和第四音频信号的音高相同。

(3)：终端基于第一音高调整系数，对第四音频信号进行变调逆变速处理，得到第二音频信号。

终端以第一音高调整系数为采样频率，对第四音频信号进行重采样，得到第二音频信号。其中，第二音频信号的音高变为第一音频信号的音高的α倍。第二音频信号的音频时长和第一音频信号的音频时长相等，从而实现了对第一音频信号的变调不变速处理。

在本发明实施例中，由于终端分别基于第一音高调整系数，对第一音频信号进行变速不变调处理，以及对第四音频信号进行变调逆变速处理。因此，得到第二音频信号相较于第一音频信号只改变了音高，而音频信号的音频时长(语速)不变。

步骤303：终端从第二音频信号中提取第一频谱包络和激励谱，第一频谱包络对应音频信号的音色，激励谱对应音频信号的音高。

由于第二音频信号为时域信号，而激励谱和频谱包络都是从频谱信号中提取的，因此，终端需要对第二音频信号进行时频转换，从时频转换后的信号中提取第一频谱包络和激励谱。相应的，本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)：终端对第二音频信号进行时频转换，得到第一频谱信号。

终端对第二音频信号进行分帧处理，得到每个音频帧，对每个音频帧进行傅里叶变换，得到每个频谱帧，将每个频谱帧组成第一频谱信号。其中，第二音频信号为时域信号，第一频谱信号为频域信号。

终端以预设帧长和预设帧移对第二音频信号进行分帧处理。相应的，终端对第二音频信号进行分帧处理，得到每个音频帧的步骤可以为：

终端按照帧长为预设帧长，帧移为预设帧移，将第二音频信号分词多个语音段，每个语音段即为一个音频帧。

预设帧长和预设帧移都可以根据需要进行设置并更改，在本发明实施例中，对预设帧长和预设帧移都不作具体限定。

(2)：终端通过倒谱法，从第一频谱信号中提取第一频谱包络。

对于第一频谱信号中的每个频谱帧，终端从第一频谱信号中提取该频谱帧的频谱值，将每帧频谱的频谱值组成倒谱序列，对该倒谱序列进行加窗处理，将加窗处理后的倒谱序列进行傅里叶变换得到对数频谱，对该对数频谱进行指数处理，得到第一频谱包络。

例如，第i帧频谱的频谱值为X_i(k)，终端从第一频谱信号中提取第i帧频谱的频谱包络值为H_i(k)。

(3)：终端根据第一频谱信号和第一频谱包络，生成激励谱。

对于每帧频谱，终端根据该帧频谱的频谱值与包络值，确定该帧频谱的激励分量，将每帧频谱的激励分量组成激励谱。其中，终端确定该帧频谱的频谱值与包络值的比值，将该比值确定为该帧频谱的激励分量。

例如，第i帧频谱的频谱值为X_i(k)，第i帧频谱的包络值为H_i(k)，则第i帧频谱的激励分量为其中，i为帧号。

需要说明的是，步骤302是终端对第一音频信号进行变调不变速处理，因此，得到的第二音频信号对应的频谱包络在重采样后放大了α倍，由于频谱包络对应音频信号的音色，从而第二音频信号的音色改变了，需要通过以下步骤304对第一频谱包络进行还原。

步骤304：终端对第一频谱包络进行还原处理，得到第二频谱包络。

本步骤可以通过以下步骤(1)和(2)实现，包括：

(1)：终端确定第二音高调整系数。

第一种实现方式：终端根据第一音高调整系数，确定第二音高调整系数。

终端确定第一音高调整系数的倒数，将该倒数确定为第二音高调整系数。第二音高调整系数为第一音高调整系数的倒数。例如，第一音高调整系数为α，则第二音高调整系数为1/α。

第二种实现方式：终端确定第一音频信号的原始音高以及目标音高，根据该原始音高和该目标音高，确定第二音高调整系数。其中，终端确定该原始音高与该目标音高之间的比值，将该比值确定为第二音高调整系数。

(2)：终端基于第二音高调整系数，对第一频谱包络进行重采样，得到第二频谱包络。

终端以第二音高调整系数为采样频率，对第一频谱包络进行重采样，得到第二频谱包络。

步骤305：终端根据第二频谱包络和该激励谱，生成第三音频信号。

本步骤可以通过以下步骤(1)和(2)实现，包括：

(1)：终端将第二频谱包络和该激励谱合成第二频谱信号。

终端根据第二频谱包络和该激励谱，通过以下公式一确定第二频谱信号。

公式一：

其中，Y_i(k)为第i帧频谱的频谱值，E_i(k)为第i帧频谱的激励分量，为第i帧频谱的包络值。

(2)：终端对第二频谱信号进行时频转换，得到第三音频信号。

终端对第二频谱信号进行逆傅里叶变换，将第二频谱信号转换为时域信号，得到第三音频信号。

第三音频信号即为对第一音频信号进行变调不变速处理后得到的音频信号。终端得到第三音频信号之后，终端可以存储第三音频信号，该过程可以为：终端在接收到用于指示存储第三音频信号的存储指令时，存储第三音频信号。

终端在存储第三音频信号时，终端可以将第三音频信号存储到本地的音频库中，也可以将第三音频信号存储到云存储空间中。当终端将第三音频信号存储到云存储空间中时，终端存储第三音频信号的步骤可以为：

终端向云服务器发送存储请求，该存储请求携带用户标识和该第三音频信号。云服务器接收该存储请求，根据该用户标识，将第三音频信号存储到该用户标识对应的存储空间中。

在一种可能的实现方式中，终端可以关联存储第一音频信号和第三音频信号，从而实现对音频信号的管理。

在一种可能的实现方式中，当本发明实施例应用在社交应用中时，终端生成第三音频信号之后，终端可以分享第三音频信号，该过程可以为：终端在接收到用于分享第三音频信号的分享指令时，终端向服务器发送第三音频信号。服务器接收第三音频信号，分享第三音频信号。

第一种实现方式，终端将第三音频信号分享给至少一个好友用户，则终端分享第三音频信号的过程为：终端获取用户选择的每个好友用户，向服务器发送第三音频信号和每个好友用户的用户标识。服务器接收第三音频信号和每个好友用户的用户标识，根据每个好友用户的用户标识，将第三音频信号发送给每个好友用户对应的终端。

第二种实现方式，终端将第三音频信号分享给至少一个群组中的用户，则终端分享第三音频信号的过程为：终端获取用户选择的每个群组，向服务器发送第三音频信号和每个群组的群组标识。服务器接收第三音频信号和每个群组的群组标识，根据每个群组的群组标识，将第三音频信号发送给每个群组中的每个用户对应的终端。

第三种实现方式，终端将第三音频信号分享到用户的信息展示平台，则终端分享第三音频信号的过程为：终端向服务器发送该第三音频信号和该用户的用户标识。服务器接收第三音频信号和该用户的用户标识，根据该用户的用户标识，将该第三音频信号分享到该用户的信息展示平台中。

其中，用户标识可以为用户事先在服务器中注册的用户账号等。群组标识可以为群组名称、二维码等。需要说明的是，在本发明实施例中，在社交应用中增加了处理音频信号的功能，丰富了社交应用的功能，且提高了用户体验。

本发明实施例提供了一种处理音频信号的装置，该方法应用在终端中，用于执行上述处理音频信号的方法中终端执行的步骤，参见图4，该装置包括：

变调处理401，用于对待处理的第一音频信号进行变调处理401，得到第二音频信号；

提取模块402，用于从第二音频信号中提取第一频谱包络和激励谱，第一频谱包络对应音频信号的音色，激励谱对应音频信号的音高；

还原模块403，用于对第一频谱包络进行还原处理，得到第二频谱包络；

处理模块404，用于根据第二频谱包络和激励谱，生成第三音频信号。

在一种可能的实现方式中，变调处理401，还用于确定第一音高调整系数；基于第一音高调整系数，对第一音频信号进行变速不变调处理401，得到第四音频信号；基于第一音高调整系数，对第四音频信号进行变调逆变速处理，得到第二音频信号。

在一种可能的实现方式中，提取模块402，还用于对第二音频信号进行时频转换，得到第一频谱信号；通过倒谱法，从第一频谱信号中提取第一频谱包络；根据第一频谱信号和第一频谱包络，生成激励谱。

在一种可能的实现方式中，提取模块402，还用于对于每帧频谱信号，根据帧频谱信号的频谱值与包络值，确定帧频谱信号的激励分量；将每帧频谱信号的激励分量组成激励谱。

在一种可能的实现方式中，还原模块403，还用于确定第二音高调整系数，第二音高调整系数为第一音高调整系数的倒数；基于第二音高调整系数，对第一频谱包络进行重采样，得到第二频谱包络。

在一种可能的实现方式中，处理模块404，还用于将第二频谱包络和激励谱合成第二频谱信号；对第三频谱信号进行时频转换，得到第三音频信号。

参见图5，在一种可能的实现方式中，该装置还包括：

确定模块405，用于获取当前录制的音频信号，将当前录制的音频信号确定为第一音频信号；或者，

确定模块405，用于获取用户从本地音频库中选择的音频信号，将选择的音频信号确定为第一音频信号；或者，

确定模块405，用于获取对端发送的音频信号，将对端发送的音频信号确定为第一音频信号。

参见图6，在一种可能的实现方式中，该装置还包括：

存储模块406，用于在接收到用于指示存储第三音频信号的存储指令时，存储第三音频信号；和/或，

分享模块407，用于在接收到用于分享第三音频信号的分享指令时，向服务器发送第三音频信号，以使服务器分享第三音频信号。

需要说明的是：上述实施例提供的处理音频信号的装置在处理音频信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的处理音频信号的装置与处理音频信号的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种终端的结构示意图。该终端可以用于实施上述实施例所示出的处理音频信号的方法中的终端所执行的功能。具体来讲：

终端700可以包括RF(Radio Frequency，射频)电路710、包括有一个或一个以上计算机可读存储介质的存储器720、输入单元730、显示单元740、传感器750、音频电路760、传输模块770、包括有一个或者一个以上处理核心的处理器780、以及电源790等部件。本领域技术人员可以理解，图7中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器780处理；另外，将涉及上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器720可用于存储软件程序以及模块，如上述示例性实施例所示出的终端所对应的软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行各种功能应用以及数据处理，如实现基于视频的交互等。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端700的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器720还可以包括存储器控制器，以提供处理器780和输入单元730对存储器720的访问。

输入单元730可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元730可包括触敏表面731以及其他输入终端732。触敏表面731，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面731上或在触敏表面731附近的操作)，并根据预先设定的程式驱动相应的链接装置。可选的，触敏表面731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面731。除了触敏表面731，输入单元730还可以包括其他输入终端732。具体地，其他输入终端732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及终端700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元740可包括显示面板741，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板741。进一步的，触敏表面731可覆盖显示面板741，当触敏表面731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中，触敏表面731与显示面板741是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面731与显示面板741集成而实现输入和输出功能。

终端700还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在终端700移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与终端700之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一终端，或者将音频数据输出至存储器720以便进一步处理。音频电路760还可能包括耳塞插孔，以提供外设耳机与终端700的通信。

终端700通过传输模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线或有线的宽带互联网访问。虽然图7示出了传输模块770，但是可以理解的是，其并不属于终端700的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是终端700的控制中心，利用各种接口和线路链接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行终端700的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理核心；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

终端700还包括给各个部件供电的电源790(比如电池)，优选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源790还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端700还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端700的显示单元是触摸屏显示器，终端700还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于实施上述实施例中终端所执行操作的指令。

在示例性实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，例如存储有计算机程序的存储器，上述计算机程序被处理器执行时实现上述实施例中的处理音频信号的方法。例如，所述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种处理音频信号的方法，其特征在于，所述方法包括：

对所述第一频谱包络进行还原处理，得到第二频谱包络；

根据所述第二频谱包络和所述激励谱，生成第三音频信号。

2.根据权利要求1所述的方法，其特征在于，所述对待处理的第一音频信号进行变调处理，得到第二音频信号，包括：

确定第一音高调整系数；

3.根据权利要求1所述的方法，其特征在于，所述从所述第二音频信号中提取第一频谱包络和激励谱，包括：

对所述第二音频信号进行时频转换，得到第一频谱信号；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一频谱信号和所述第一频谱包络，生成所述激励谱，包括：

将所述每帧频谱信号的激励分量组成所述激励谱。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一频谱包络进行还原处理，得到第二频谱包络，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第二频谱包络和所述激励谱，生成第三音频信号，包括：

将所述第二频谱包络和所述激励谱合成第二频谱信号；

7.根据权利要求1-6任一所述的方法，其特征在于，所述对待处理的第一音频信号进行变调处理，得到第二音频信号之前，所述方法还包括：

8.根据权利要求1-6任一所述的方法，其特征在于，所述根据所述第二频谱包络和所述激励谱，生成第三音频信号之后，所述方法还包括：

9.一种处理音频信号的装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，

所述变调处理，还用于确定第一音高调整系数；基于所述第一音高调整系数，对所述第一音频信号进行变速不变调处理，得到第四音频信号；基于所述第一音高调整系数，对所述第四音频信号进行变调逆变速处理，得到所述第二音频信号。

11.根据权利要求9所述的装置，其特征在于，

所述提取模块，还用于对所述第二音频信号进行时频转换，得到第一频谱信号；通过倒谱法，从所述第一频谱信号中提取所述第一频谱包络；根据所述第一频谱信号和所述第一频谱包络，生成所述激励谱。

12.根据权利要求11所述的装置，其特征在于，

所述提取模块，还用于对于每帧频谱信号，根据所述帧频谱信号的频谱值与包络值，确定所述帧频谱信号的激励分量；将所述每帧频谱信号的激励分量组成所述激励谱。

13.根据权利要求9所述的装置，其特征在于，

所述还原模块，还用于确定第二音高调整系数，所述第二音高调整系数为所述第一音高调整系数的倒数；基于所述第二音高调整系数，对所述第一频谱包络进行重采样，得到所述第二频谱包络。

14.根据权利要求9所述的装置，其特征在于，

所述处理模块，还用于将所述第二频谱包络和所述激励谱合成第二频谱信号；对所述第三频谱信号进行时频转换，得到所述第三音频信号。

15.根据权利要求9-14任一所述的装置，其特征在于，所述装置还包括：

16.根据权利要求9-14任一所述的装置，其特征在于，所述装置还包括：

17.一种处理音频信号的装置，其特征在于，包括处理器和存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的计算机程序，实现权利要求1-8任一项所述的方法步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。