CN109243479B

CN109243479B - 音频信号处理方法、装置、电子设备及存储介质

Info

Publication number: CN109243479B
Application number: CN201811103157.1A
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2022-06-28
Anticipated expiration: 2038-09-20
Also published as: CN109243479A

Abstract

本发明公开了一种音频信号处理方法、装置、电子设备及存储介质，属于计算机技术领域。方法包括：获取第一音频信号的至少一个第一短时频谱信号；获取频域上的周期信号，频域上的周期信号的周期用于表示周期信号的基音频率；基于周期信号和至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，每个第二短时频谱信号的基音频率与周期信号的基音频率相同；基于至少一个第二短时频谱信号，得到第二音频信号，第二音频信号的基音频率和周期信号的基音频率相同。本发明得到的第二音频信号的基音频率固定不变，音高一直很平稳，产生了“外星人”的音效，且保留了该第一音频信号中的声音特性，失真率低，不会出现播放时很难听懂或听不懂的情况。

Description

音频信号处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种音频信号处理方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展和终端功能的多样化，人们可以通过终端进行录音，并采用音频信号处理方法对录音进行变调处理，产生各种各样的音效。例如，“外星人”音效。人们可以在终端上录音，通过在该终端上的操作，对该录音进行处理，从而营造出一种非正常的发音听感，从而听起来感觉不是人为发声，而是机器人的声音或是外星人的声音。

目前，音频信号处理方法通常是通过效果器、混响或加背景音的方式，通过改变该音频信号的音色，调制或延迟声波的相位或增强声波的谐波成分等方式，使得处理后的音频信号与原音频信号不同，且声音听起来平缓、机械，与正常人发音不同，产生类似“外星人”说话的效果。例如，对于语言类的音频信号，可以通过哇音器对音频信号进行处理，使得处理后的音频信号听起来类似哇鸣声。具体地，哇音器可以基于音频信号的频段，对音频信号进行处理，通常可以滤除某个特定频段之外的信号，并基于滤除的信号，增加该特定频段。例如，可以将滤除待处理的音频信号中的低频和中频信号，并基于滤除的低频和中频信号，增强高频信号。

上述方法中对音频信号中音色或频段等进行了处理，处理后的音频信号通常会失真效果严重，与原始音频信号相差较大，使得很难听懂或者听不懂，因此，上述音频信号处理方法的失真率高、效果差。

发明内容

本发明实施例提供了一种音频信号处理方法、装置、电子设备及存储介质，可以解决相关技术中失真率高、效果差的问题。所述技术方案如下：

一方面，提供了一种音频信号处理方法，所述方法包括：

获取第一音频信号的至少一个第一短时频谱信号；

获取频域上的周期信号，所述频域上的周期信号的周期用于表示所述周期信号的基音频率；

基于所述周期信号和所述至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，每个第二短时频谱信号的基音频率与所述周期信号的基音频率相同；

基于所述至少一个第二短时频谱信号，得到第二音频信号，所述第二音频信号的基音频率和所述周期信号的基音频率相同。

在一种可能实现方式中，所述获取第一音频信号的至少一个第一短时频谱信号，包括：

对所述第一音频信号进行分帧、加窗和傅里叶变换，得到所述至少一个第一短时频谱信号。

在一种可能实现方式中，所述获取频域上的周期信号，包括：

基于预设的基音频率，在频域生成周期信号；或，基于所述第一音频信号的平均基音频率，在频域生成周期信号；或，获取预设的频域上的周期信号；或，对预设的时域上的周期信号进行傅里叶变换，得到频域上的周期信号。

在一种可能实现方式中，所述基于所述周期信号和所述至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，包括：

获取每个第一短时频谱信号的相位信息和包络信息；

基于所述周期信号、所述每个第一短时频谱信号的所述相位信息和所述包络信息，得到所述至少一个第二短时频谱信号。

获取一个频域上的周期信号；

相应地，所述基于所述周期信号、所述每个第一短时频谱信号的所述相位信息和所述包络信息，得到所述至少一个第二短时频谱信号，包括：

对于每个第一短时频谱信号，以所述周期信号为模、所述第一短时频谱信号的所述相位信息为辐角，生成激励信号；

获取所述激励信号和所述第一短时频谱信号的所述包络信息的乘积，得到所述第一短时频谱信号对应的第二短时频谱信号。

基于所述至少一个第一短时频谱信号的数量，获取一组频域上的周期信号，所述一组频域上的周期信号的数量与所述至少一个第一短时频谱信号的数量相同，所述一组频域上的周期信号的周期相同；

对于每个第一短时频谱信号，以所述一组频域上的周期信号中的一个周期信号为模、所述第一短时频谱信号的所述相位信息为辐角，生成激励信号；

在一种可能实现方式中，所述基于所述至少一个第二短时频谱信号，得到第二音频信号，包括：

对所述至少一个第二短时频谱信号进行逆傅里叶变换和信号拼接，得到所述第二音频信号。

在一种可能实现方式中，所述周期信号的峰值位于所述周期信号的基音频率的倍频处，且所述周期信号的峰值与目标幅值的差值大于幅值阈值，所述目标幅值为位于相邻的两个倍频之间，且与所述两个倍频的频率差值均大于目标差值的频率处的幅值。

一方面，提供了一种音频信号处理装置，所述装置包括：

第一频谱获取模块，用于获取第一音频信号的至少一个第一短时频谱信号；

周期信号获取模块，用于获取频域上的周期信号，所述频域上的周期信号的周期用于表示所述周期信号的基音频率；

第二频谱获取模块，用于基于所述周期信号和所述至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，每个第二短时频谱信号的基音频率与所述周期信号的基音频率相同；

音频信号获取模块，用于基于所述至少一个第二短时频谱信号，得到第二音频信号，所述第二音频信号的基音频率和所述周期信号的基音频率相同。

在一种可能实现方式中，所述第一频谱获取模块用于对所述第一音频信号进行分帧、加窗和傅里叶变换，得到所述至少一个第一短时频谱信号。

在一种可能实现方式中，所述周期信号获取模块用于：

在一种可能实现方式中，所述第二频谱获取模块用于：

获取每个第一短时频谱信号的相位信息和包络信息；

在一种可能实现方式中，所述周期信号获取模块用于获取一个频域上的周期信号；

相应地，所述第二频谱获取模块用于：

在一种可能实现方式中，所述周期信号获取模块用于基于所述至少一个第一短时频谱信号的数量，获取一组频域上的周期信号，所述一组频域上的周期信号的数量与所述至少一个第一短时频谱信号的数量相同，所述一组频域上的周期信号的周期相同；

相应地，所述第二频谱获取模块用于：

在一种可能实现方式中，所述音频信号获取模块用于对所述至少一个第二短时频谱信号进行逆傅里叶变换和信号拼接，得到所述第二音频信号。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现所述音频信号处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述音频信号处理方法所执行的操作。

本发明实施例通过在频域将第一音频信号的频域信号和周期信号相结合，生成第二音频信号的频域信号，从而再将频域转化为时域，得到的第二音频信号的基音频率和周期信号的基音频率相同，因而该第二音频信号的音高一直很平稳，产生了“外星人”的音效。且第二音频信号相较于第一音频信号，仅改变了基音频率，而保留了该第一音频信号中的声音特性，失真率低，不会出现播放时很难听懂或听不懂的情况。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频信号处理方法流程图；

图2是本发明实施例提供的一种音频信号处理方法流程图；

图3是本发明实施例提供的一种音频信号处理装置结构示意图；

图4是本发明实施例提供的一种终端的结构示意图；

图5是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种音频信号处理方法流程图，参见图1，该方法可以包括以下步骤：

101、电子设备获取第一音频信号的至少一个第一短时频谱信号。

102、电子设备获取频域上的周期信号，该频域上的周期信号的周期用于表示该周期信号的基音频率。

103、电子设备基于该周期信号和该至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，每个第二短时频谱信号的基音频率与该周期信号的基音频率相同。

104、电子设备基于该至少一个第二短时频谱信号，得到第二音频信号，该第二音频信号的基音频率和该周期信号的基音频率相同。

本发明实施例通过在频域将第一音频信号的频域信号和周期信号相结合，生成第二音频信号的频域信号，从而再将频域转化为时域，得到的第二音频信号的基音频率和周期信号的基音频率相同，周期信号的基音频率固定不变，因而该第二音频信号的音高一直很平稳，产生了“外星人”的音效。且第二音频信号相较于第一音频信号，仅改变了基音频率，而保留了该第一音频信号中的声音特性，失真率低，不会出现播放时很难听懂或听不懂的情况。

在一种可能实现方式中，该获取第一音频信号的至少一个第一短时频谱信号，包括：

对该第一音频信号进行分帧、加窗和傅里叶变换，得到该至少一个第一短时频谱信号。

在一种可能实现方式中，该获取周期信号，包括：

基于预设的基音频率，在频域生成周期信号；或，基于该第一音频信号的平均基音频率，在频域生成周期信号；或，获取预设的周期信号。

在一种可能实现方式中，该基于该周期信号和该至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，包括：

获取每个第一短时频谱信号的相位信息和包络信息；

基于该周期信号、该每个第一短时频谱信号的该相位信息和该包络信息，得到该至少一个第二短时频谱信号。

在一种可能实现方式中，该获取周期信号，包括：

获取一个周期信号；

相应地，该基于该周期信号、该每个第一短时频谱信号的该相位信息和该包络信息，得到该至少一个第二短时频谱信号，包括：

对于每个第一短时频谱信号，以该周期信号为模、该第一短时频谱信号的该相位信息为辐角，生成激励信号；

获取该激励信号和该第一短时频谱信号的该包络信息的乘积，得到该第一短时频谱信号对应的第二短时频谱信号。

在一种可能实现方式中，该获取周期信号，包括：

基于该至少一个第一短时频谱信号的数量，获取一组周期信号，该一组周期信号的数量与该至少一个第一短时频谱信号的数量相同，该一组频域上的周期信号的周期相同；

对于每个第一短时频谱信号，以该一组周期信号中的一个周期信号为模、该第一短时频谱信号的该相位信息为辐角，生成激励信号；

在一种可能实现方式中，该基于该至少一个第二短时频谱信号，得到第二音频信号，包括：

对该至少一个第二短时频谱信号进行逆傅里叶变换和信号拼接，得到该第二音频信号。

在一种可能实现方式中，该周期信号的峰值位于该周期信号的基音频率的倍频处，且该周期信号的峰值与目标幅值的差值大于幅值阈值，该目标幅值为位于相邻的两个倍频之间，且与该两个倍频的频率差值均大于目标差值的频率处的幅值。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种音频信号处理方法流程图，参见图2，该方法可以包括以下步骤：

201、电子设备获取第一音频信号。

其中，该第一音频信号为待处理的音频信号，在本发明实施例中，可以对该第一音频信号进行处理，使得处理后的音频信号的频率固定，从而产生一种“外星人”音效。

在一种可能实现方式中，该电子设备可以具有音频采集功能，则该步骤201中，该第一音频信号可以由该电子设备自身采集得到，具体地，该电子设备可以由该电子设备所配置的声音采集器件来采集声音，生成第一音频信号。例如，用户可以在该电子设备上进行操作，并录制音频，则该电子设备可以采集用户的声音，生成第一音频信号。

在另一种可能实现方式中，该电子设备也可以通过与其他电子设备进行数据交互，获取到第一音频信号。例如，该电子设备可以通过外接其他声音采集设备采集声音，并将生成的第一音频信号发送至该电子设备，也可以通过网络与其他电子设备连接，从而从其他电子设备处获取得到第一音频信号。

其中，该电子设备可以为终端，也可以为服务器，本发明实施例对此不作限定。在本发明实施例中，以该电子设备通过所配置的声音采集器件采集声音，并生成第一音频信号为例进行说明，该电子设备所配置的声音采集器件可以采集周围的声音，该声音可以人发出的声音，也可以是环境中的其它声音，例如噪声、乐器发出的声音。在一种可能实现方式中，该第一音频信号是指人发出的声音，而不包括伴奏、噪声等声音。因此，该终端采集到声音，生成音频信号后，需要对该音频信号进行信号放大、噪声识别、信号去噪等处理，得到该音频信号中人的声音，从而获取到该第一音频信号。

例如，上述过程的应用场景可以是：该电子设备的用户对该电子设备的麦克风进行演唱或说话，由该电子设备对该用户演唱或说话的声音进行采集以及处理，使得后续或当时播放时，与该用户发音不同，每个字的音调一致，可以产生类似“外星人”说话的效果。具体地，该电子设备的用户可以开启该电子设备的声音采集功能，以触发该电子设备所配置的声音采集器件对周围的声音进行采集，上述步骤可以通过用户点击该电子设备所安装的应用中预设的功能按钮来实现。然后，用户可以在该电子设备所安装的应用中点击相应的功能按钮来选择播放音效，以触发该电子设备获取音频信号，并对该第一音频信号进行处理。当然，该电子设备也可以在采集到用户的声音后，即自动对该第一音频信号进行处理，本发明实施例对此不作限定。

202、电子设备获取第一音频信号的至少一个第一短时频谱信号。

在信号处理时，在时域对信号进行处理时计算方式复杂繁琐，通常可以将信号转换至频域处理，则电子设备在获取到第一音频信号后，可以将该第一音频信号转换至频域的信号。具体地，该步骤202可以为：电子设备对该第一音频信号进行分帧、加窗和傅里叶变换，得到该至少一个第一短时频谱信号。

其中，人在发声音时，声带并不会严格按照固定频率震动，因此，声音会出现抖动，第一音频信号的基音频率并不稳定。对于基音频率，人在发声音时，根据声带是否震动可以将人发出的声音分为清音和浊音，人在发清音时声带不震动，人在发浊音时声带震动，清音信号与白噪声同理，没有明显的准周期特性，而浊音信号在时域上明显体现出准周期特性，也即是，该浊音信号为准周期信号。除了上述清音信号、浊音信号，该第一音频信号中还可以包括谐波信号而浊音信号的频率即对应于音频的音高。需要说明的是，本发明实施例涉及的基音频率即是指基音信号的频率，也即是上述浊音信号的频率。

电子设备对该第一音频信号进行处理时，可以假设短时间内的第一音频信号平稳，例如，可以假设第一音频信号在10至30毫秒(ms)这样的短时间内是平稳的，从而可以将该第一音频信号分为至少一个平稳信号，也即是对第一音频信号进行分帧。

具体地，该电子设备以一定的帧长(例如20ms)截取该第一音频信号，得到至少一帧第一信号片段。如果后续需要进行加窗，该电子设备在分帧时，还可以设置有帧移，也即是，在分帧时上一帧的结束时间点与下一帧的开始时间点不重合，则该上一帧的结束时间点和下一帧的开始时间点之间的时长即为帧移。这样相邻帧的第一信号片段之间有重叠，后续在加窗时，可以将该重叠区域除去，使得得到的信号连续，并可以后续对分帧和加窗后得到的平稳信号进行傅里叶变换，得到第一音频信号在频域上的信号，也即是短时频谱信号。具体地，可以通过窗函数对分帧得到的至少一帧第一信号片段进行处理，得到至少一帧第二信号片段。例如，可以加汉明窗对至少一帧第一信号片段进行处理，当然，也可以是其它窗函数，例如，汉宁窗。然后可以对至少一帧第二信号片段进行傅里叶变换，得到上述至少一个第一短时频谱信号。也即是每帧第二信号片段均对应得到一个第一短时频谱信号。

需要说明的是，上述电子设备对第一音频信号进行分帧、加窗和傅里叶变换时可以采用任一种分帧、加窗和傅里叶变换方法，本发明实施例对此不作限定。

203、电子设备获取频域上的周期信号。

在本发明实施例中，电子设备可以执行该步骤203，获取到频域上的周期信号，从而可以以该周期信号为准，将第一音频信号中的声音特性添加在该周期信号上，再将其转换成时域上的信号，从而得到处理后的音频信号。其中，该频域上的周期信号的周期用于表示该周期信号的基音频率。

在一种可能实现方式中，该周期信号的峰值位于该周期信号的基音频率的倍频处，且该周期信号的峰值与目标幅值的差值大于幅值阈值，该目标幅值为位于相邻的两个倍频之间，且与该两个倍频的频率差值均大于目标差值的频率处的幅值。例如，该周期信号可以为以预设的基音频率对应的余弦信号，并将该余弦信号的负值置零。当然，该周期信号也可以为三角波、脉冲等具有明显峰值的信号，本发明实施例对该周期信号的具体形式不作限定。其中，该幅值阈值和目标差值均可以由相关技术人员预先设置，本发明实施例对此不作具体限定。这样该周期信号的幅值仅在基音频率的倍频处比较大，在其他频率处比较小，从而使得该周期信号除了基音频率得到的谐波信号之外，几乎没有其他信号的干扰，则该周期信号的周期性较好，基音频率固定，通过该周期信号处理得到的音频信号的周期性则较好，基音频率也固定，且无杂音，播放的时候更清晰，能够达到较好的“外星人”音效。

电子设备可以获取预设的周期信号，也可以在需要对第一音频信号进行处理时再生成，相应地，该步骤203中电子设备至少采用下述任一种实现方式获取周期信号：

第一种方式、电子设备基于预设的基音频率，在频域生成周期信号。

在该第一种方式中，在该电子设备中可以预先存储有基音频率，则电子设备在需要获取周期信号时，可以获取基音频率，基于该基音频率，在频域生成周期信号。具体地，该电子设备还可以在时域生成周期信号，再将时域的周期信号转换为频域的周期信号。

第二种方式、电子设备基于该第一音频信号的平均基音频率，在频域生成周期信号。

在该第二种方式中，电子设备还可以获取第一音频信号的平均基音频率，从而将该平均基音频率作为该周期信号的基音频率，从而在频域生成周期信号，这样通过该周期信号的基音频率为该第一音频信号的平均基音频率，为基于该第一音频信号得到的，与该第一音频信号相关，则通过该周期信号得到的音频信号与第一音频信号更相似，更能还原第一音频信号的信息，从而提高了音频信号的处理效果，提高了用户体验。

其中，该电子设备获取该第一音频信号的平均基音频率的过程可以基于任一种基音频率提取方法、任一种基音周期提取方法或音高提取方法，本发明实施例在此不作过多赘述。

第三种方式、电子设备获取预设的周期信号。

在该第三种方式中，电子设备还可以预先生成并存储周期信号，或预先从其他电子设备处获取到周期信号，从而在该电子设备需要对第一音频信号进行处理时，可以获取预设的周期信号。这样电子设备在对第一音频信号处理的过程中可以省去生成周期信号所需花费的时间，从而可以提高音频信号的处理效果。

第四种方式、电子设备对预设的时域上的周期信号进行傅里叶变换，得到频域上的周期信号。

在该第四种方式中，在该电子设备中可以预先存储有时域上的周期信号，从而电子设备在需要对第一音频信号进行处理时，获取该时域上的周期信号，并对该时域上的周期信号进行傅里叶变换，得到频域上的周期信号。

需要说明的是，上述仅提供了四种获取周期信号的实现方式，电子设备还可以通过其他方式获取周期信号，本发明实施例对此不作限定。在一种可能实现方式中，上述步骤202中电子设备基于第一音频信号，获取得到至少一个第一短时频谱信号，相应地，在该步骤203中电子设备可以仅获取一个周期信号，从而基于该周期信号与每个第一短时频谱信号进行后续处理，也可以基于每个第一短时频谱信号均获取一个周期信号，从而在后续可以基于一个周期信号与一个第一短时频谱信号进行后续处理，也即是，周期信号和第一短时频谱信号一一对应，也即是该步骤203可以包括下述两种情况：

第一种情况：电子设备获取一个频域上的周期信号。

在该第一种情况中，电子设备获取一个周期信号，从而基于每个第一短时频谱信号进行处理时，均可以基于这个周期信号进行处理，这样基于同样的周期信号得到音频信号的基音频率可以均与该周期信号的基音频率相同，从而可以产生“外星人”音效。且重复利用同一个周期信号，减少了电子设备的运算量，从而可以有效提高音频信号处理过程整体所需花费的时间，从而可以提高音频信号的处理效率。

第二种情况：电子设备基于该至少一个第一短时频谱信号的数量，获取一组频域上的周期信号，该一组频域上的周期信号的数量与该至少一个第一短时频谱信号的数量相同，该一组频域上的周期信号的周期相同。

在该第二种情况中，由于基于每个第一短时频谱信号进行处理时均需要周期信号，则上述步骤202中生成至少一个第一短时频谱信号后，则可以基于第一短时频谱信号的数量，生成相同数量的周期信号，这样每个周期信号与一个短时频谱信号对应，也可以不对应，后续在对每个第一短时频谱信号进行处理时，均可以基于这一组周期信号中的一个周期信号实现。

需要说明的是，该一组频域上的周期信号的周期相同，也即是这一组周期信号的基音频率需要相同，这样基于这一组周期信号得到的每个音频信号片段的基音频率都相同，从而在将音频信号片段拼接在一起后得到的音频信号的基音频率固定不变，可以产生“外星人”音效。

204、电子设备获取每个第一短时频谱信号的相位信息和包络信息。

电子设备获取到周期信号和第一音频信号的至少一个第一短时频谱信号后，可以将每个第一短时频谱信号中的声音特性，分别添加在周期信号上，从而每个第一短时频谱信号均对应得到一个处理后的信号。则电子设备可以先提取每个第一短时频谱信号中的声音特性，例如，相位信息和包络信息。其中，该相位信息可以用于表征左右声道的位置，当然，该相位信息也可以用于表征声音的其他信息，本发明实施例在此不作限定，包络信息可以用于表征声音的音色信息。

具体地，电子设备可以通过第一预设公式提取每个第一短时频谱信号的相位信息。在一种可能实现方式中，电子设备还可以根据第一短时频谱信号的类型，获取该类型对应的公式，从而通过该公式获取每个第一短时频谱信号的相位信息。电子设备也可以通过预设的算法提取每个第一短时频谱信号的包络信息，例如，希尔伯特变换、小波变换或倒谱法等。

例如，上述至少一个第一短时频谱信号可以为X_i(k)，其中，i为第一短时频谱信号的标识，每个第一短时频谱信号为一帧信号，则i为每帧第一短时频谱信号的标识。k为频率信息，该频率信息通常为傅里叶变换后的频点下标，该频点下标表示的频率通常可以该由频点下标、采样率和傅里叶变换长度等共同决定。可以从每个第一短时频谱信号X_i(k)中获取到相位信息

通过倒谱法从每个第一短时频谱信号X_i(k)中获取当前帧i的包络信息H_i(k)。

需要说明的是，该步骤204中电子设备可以采用任一种相位提取和包络提取方法实现，本发明实施例在此不一一列举，也不对具体采用哪种实现方式作过多限定。

205、电子设备基于该周期信号、该每个第一短时频谱信号的该相位信息和该包络信息，得到该至少一个第二短时频谱信号。

电子设备获取到每个第一短时频谱信号中的声音特性后，则可以将其分别添加在周期信号上，得到每个第一短时频谱信号对应的第二短时频谱信号。也即是，电子设备可以将上述步骤204中得到的相位信息和包络信息与周期信号相结合，生成新的信号。其中，每个第二短时频谱信号即为综合了周期信号和一个第一短时频谱信号的特性的信号，也即是经过处理后的音频信号在频域上的信号。这样每个第二短时频谱信号的基音频率均与该周期信号的基音频率相同，且该第二短时频谱信号中包括第一短时频谱信号中的声音特性。

对应于步骤203中获取周期信号可能包括的两种情况，该步骤205相应包括两种情况：

第一种情况：对应于步骤203中第一种情况，对于每个第一短时频谱信号，电子设备以该周期信号为模、该第一短时频谱信号的该相位信息为辐角，生成激励信号。电子设备获取该激励信号和该第一短时频谱信号的该包络信息的乘积，得到该第一短时频谱信号对应的第二短时频谱信号。

在该第一种情况中，电子设备在步骤203中获取到一个周期信号，可以分别结合每个第一短时频谱信号和该周期信号，生成第一短时频谱信号对应的第二短时频谱信号。这样重复利用同一个周期信号，无需获取多个周期信号，可以有效减少周期信号生成过程所需花费的时间，提高了音频信号的处理效率，或者有效减少预先存储的周期信号所需占用的存储空间。

例如，电子设备可以获取得到周期信号A(k)，并将该周期信号A(k)和每个第一短时频谱信号的相位信息

相结合，生成激励信号

则周期信号A(k)作为激励信号的模，相位信息

作为激励信号的辐角。电子设备可以再结合每个激励信号

与每个第一短时频谱信号的包络信息H_i(k)，得到至少一个第二短时频谱信号

第二种情况：对应于步骤203中第二种情况，对于每个第一短时频谱信号，电子设备以该一组频域上的周期信号中的一个周期信号为模、该第一短时频谱信号的该相位信息为辐角，生成激励信号。电子设备获取该激励信号和该第一短时频谱信号的该包络信息的乘积，得到该第一短时频谱信号对应的第二短时频谱信号。

在该第二种情况中，电子设备可以获取到与第一短时频谱信号的数量相同的一组频域上的周期信号，从而每个第一短时频谱信号均与一个周期信号结合得到一个第二短时频谱信号。该一组频域上的周期信号中的每个周期信号可以与第一短时频谱信号对应，也可以不与第一短时频谱信号对应，则相应地，电子设备在获取第二短时频谱信号时，对每个第一短时频谱信号进行处理时，可以从该一组频域上的周期信号中获取对应的周期信号，也可以随机从该一组频域上的周期信号中选择一个周期信号进行上述步骤，本发明实施例对此不作限定。该电子设备具体结合周期信号和第一短时频谱信号的过程与上述第一种情况所示的过程同理，本发明实施例在此不多做赘述。

上述步骤204和步骤205是基于该周期信号和该至少一个第一短时频谱信号，得到至少一个第二短时频谱信号的过程，其中，每个第二短时频谱信号的基音频率与周期信号的基音频率相同。上述方法中基于同一个周期信号或基于基音频率相同的一组周期信号，均可以使得至少一个第二短时频谱信号的基音频率均相同，后续综合该至少一个第二短时频谱信号得到的音频信号的基音频率固定，且该第二短时频谱信号中包括第一短时频谱信号中的声音特性，从而基于该第二短时频谱信号得到的音频信号既与第一音频信号中声音相似，失真率低，且音调固定、平稳或机械，可以产生类似机器人或“外星人”的音效，因此，上述音频信号处理方法的效果较好。

206、电子设备基于该至少一个第二短时频谱信号，得到第二音频信号。

电子设备在获取到至少一个第二短时频谱信号之后，由于该至少一个第二短时频谱信号为频域的信号，且为至少一个音频信号片段，则电子设备可以将其从频域转换到时域，且可以将该至少一个第二短时频谱信号的时域信号拼接得到最终处理完成的第二音频信号。

具体地，该步骤206可以为：电子设备对该至少一个第二短时频谱信号进行逆傅里叶变换和信号拼接，得到该第二音频信号。电子设备可以对每个第二短时频谱信号进行逆傅里叶变换，得到至少一个第二音频信号片段，然后基于该至少一个第二音频信号片段的起始时间点和终止时间点，对该至少一个第二音频信号片段进行拼接，得到第二音频信号。

当然，上述信号拼接过程仅为一种示例性说明，在一种可能实现方式中，电子设备在获取到至少一个第一短时频谱信号时，每个第一短时频谱信号还可以携带有片段标识，基于第一短时频谱信号获取第二短时频谱信号时，第二短时频谱信号也可以携带有片段标识，电子设备可以基于每个第二短时频谱信号的片段标识，确定对应的第二音频信号片段的拼接顺序，从而完成信号拼接，得到第二音频信号。本发明实施例对上述逆傅里叶变换过程和信号拼接过程采用的实现方式不作具体限定。

这样通过上述步骤，电子设备对第一音频信号进行处理，得到的第二音频信号的基音频率和周期信号的基音频率相同，周期信号的基音频率固定不变，因而该第二音频信号的音高一直很平稳，因此听起来有一种类似“机器人”或“外星人”说话的感觉，也即是产生了“外星人”音效。且上述处理过程中，处理后的第二音频信号相较于第一音频信号，仅改变了基音频率，而保留了该第一音频信号中的声音特性，失真率低，不会出现播放时很难听懂或听不懂的情况。

207、电子设备播放该第二音频信号。

电子设备对第一音频信号进行上述变调处理得到第二音频信号后，可以由该电子设备所配置的音频播放器件对该第二音频信号进行播放，该第二音频信号在进行播放时，由于第二音频信号的基音频率与周期信号的基音频率相同，而周期信号的基音频率固定不变，因而该第二音频信号的音高一直很平稳，因此听起来有一种类似“机器人”或“外星人”说话的感觉，也即是产生了“外星人”音效。

当然，该电子设备也可以存储该第二音频信号，以便于后续想要播放该第二音频信号时，可以直接获取并播放该第二音频信号，而无需再重新对第一音频信号进行处理。进一步地，该电子设备也可以将该第二音频信号和第一音频信号对应存储，这样后续既可以播放第一音频信号，也可以播放第二音频信号。当然，该电子设备也可以将该第二音频信号发送至其他电子设备进行播放，例如，可以将该第二音频信号发送至音频播放设备，由音频播放设备对该第二音频信号进行播放，本发明实施例对获取到第二音频信号后如何处理该第二音频信号不作限定。

图3是本发明实施例提供的一种音频信号处理装置的结构示意图，参见图3，该装置包括：

第一频谱获取模块301，用于获取第一音频信号的至少一个第一短时频谱信号；

周期信号获取模块302，用于获取频域上的周期信号，该频域上的周期信号的周期用于表示该周期信号的基音频率；

第二频谱获取模块303，用于基于该周期信号和该至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，每个第二短时频谱信号的基音频率与该周期信号的基音频率相同；

音频信号获取模块304，用于基于该至少一个第二短时频谱信号，得到第二音频信号，该第二音频信号的基音频率和该周期信号的基音频率相同。

在一种可能实现方式中，该第一频谱获取模块301用于对该第一音频信号进行分帧、加窗和傅里叶变换，得到该至少一个第一短时频谱信号。

在一种可能实现方式中，该周期信号获取模块302用于：

在一种可能实现方式中，该第二频谱获取模块303用于：

获取每个第一短时频谱信号的相位信息和包络信息；

在一种可能实现方式中，该周期信号获取模块302用于获取一个频域上的周期信号；

相应地，该第二频谱获取模块303用于：

在一种可能实现方式中，该周期信号获取模块302用于基于该至少一个第一短时频谱信号的数量，获取一组频域上的周期信号，该一组频域上的周期信号的数量与该至少一个第一短时频谱信号的数量相同，该一组频域上的周期信号的周期相同；

相应地，该第二频谱获取模块303用于：

对于每个第一短时频谱信号，以该一组频域上的周期信号中的一个周期信号为模、该第一短时频谱信号的该相位信息为辐角，生成激励信号；

在一种可能实现方式中，该音频信号获取模块304用于对该至少一个第二短时频谱信号进行逆傅里叶变换，得到该第二音频信号。

本发明实施例提供的装置，通过在频域将第一音频信号的频域信号和周期信号相结合，生成第二音频信号的频域信号，从而再将频域转化为时域，得到的第二音频信号的基音频率和周期信号的基音频率相同，因而该第二音频信号的音高一直很平稳，产生了“外星人”的音效。且第二音频信号相较于第一音频信号，仅改变了基音频率，而保留了该第一音频信号中的声音特性，失真率低，不会出现播放时很难听懂或听不懂的情况。

需要说明的是：上述实施例提供的音频信号处理装置在处理音频信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频信号处理装置与音频信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述电子设备可以被提供为下述图4所示的终端，也可以被提供为下述图5所示的服务器，本发明实施例对此不作限定。

图4是本发明实施例提供的一种终端的结构示意图。该终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本发明中方法实施例提供的音频信号处理方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图5是本发明实施例提供的一种服务器的结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)501和一个或一个以上的存储器502，其中，该存储器502中存储有至少一条指令，该至少一条指令由该处理器501加载并执行以实现上述各个方法实施例提供的音频信号处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的音频信号处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

获取第一音频信号的至少一个第一短时频谱信号；

基于所述周期信号和所述至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，每个第二短时频谱信号的基音频率与所述周期信号的基音频率相同，所述周期信号的峰值位于所述周期信号的基音频率的倍频处，且所述周期信号的峰值与目标幅值的差值大于幅值阈值，所述目标幅值为位于相邻的两个倍频之间，且与所述两个倍频的频率差值均大于目标差值的频率处的幅值，所述周期信号为具有明显峰值的信号；

2.根据权利要求1所述的方法，其特征在于，所述获取第一音频信号的至少一个第一短时频谱信号，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取频域上的周期信号，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述周期信号和所述至少一个第一短时频谱信号，得到至少一个第二短时频谱信号，包括：

获取每个第一短时频谱信号的相位信息和包络信息；

5.根据权利要求4所述的方法，其特征在于，所述获取频域上的周期信号，包括：

获取一个频域上的周期信号；

6.根据权利要求4所述的方法，其特征在于，所述获取频域上的周期信号，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个第二短时频谱信号，得到第二音频信号，包括：

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音频信号处理方法所执行的操作。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音频信号处理方法所执行的操作。