CN109147809A

CN109147809A - 音频信号处理方法、装置、终端及存储介质

Info

Publication number: CN109147809A
Application number: CN201811103154.8A
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-01-04

Abstract

本发明公开了一种音频信号处理方法、装置、终端及存储介质，属于信息处理技术领域。本发明实施例基于第二基频信息，对第一音频信号对应的至少一个第一短时频谱信号分别进行调整，使得生成的每个第二短时频谱信号的基频信息与第二基频信息相同。进而，基于至少一个第二短时频谱信号得到的第二音频信号，能够清晰地表达原来的第一音频信号所要表达的内容，同时，该第二音频信号的基频信息较为平稳，音频效果较好。

Description

音频信号处理方法、装置、终端及存储介质

技术领域

本发明涉及信息处理技术领域，特别涉及一种音频信号处理方法、装置、终端及存储介质。

背景技术

随着信息处理技术的不断发展，人们对特殊音效的要求越来越高，为了满足人们对特殊音效的要求，或者增强电影配音等的真实感，需要对音频信号进行处理，进而得到符合要求的特殊音效。例如，可以对音频信号进行处理，生成一种模仿“外星人”说话的音效。

目前，常用的音频信号处理方法为：在现有音频信号的基础上，通过叠加具有特殊音色的音频信号，对现有音频信号进行混音处理，例如，可以通过添加混响或背景音等来模仿“外星人”说话。此外，还可以通过哇音器对现有音频信号进行滤波处理，哇音器通过突出现有音频信号的一个特定频段，大量削减其他频段，使得现有音频信号产生一种类似哇鸣声的音效，进而可以营造一种模仿“外星人”说话的效果。

基于上述音频信号处理方法，生成的音频信号比较混杂，不能清晰地传达原来音频信号所要表达的内容，还需要借助其他方式才能传达原来音频信号所要表达的内容，音频效果差。

发明内容

本发明实施例提供了一种音频信号处理方法、装置、终端及存储介质,能够解决生成的音频信号混杂，不能清晰地传达原来音频信号所要表达的内容的问题。所述技术方案如下：

一方面，提供了一种音频信号处理方法，所述方法包括：

获取第一音频信号的至少一个第一短时频谱信号和至少一个第一基频信息，每个第一短时频谱信号对应一个第一基频信息；

根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号，所述每个第二短时频谱信号的基频信息与所述第二基频信息相同；

基于所述至少一个第二短时频谱信号，生成第二音频信号。

在一种可能实现方式中，所述获取第一音频信号的至少一个第一短时频谱信号和至少一个第一基频信息包括：

基于所述第一音频信号进行分帧和加窗，得到至少一个第一音频片段；

基于所述至少一个第一音频片段，进行时频变换，生成所述至少一个第一短时频谱信号；

基于所述至少一个第一音频片段，获取所述至少一个第一短时频谱信号对应的至少一个第一基频信息。

在一种可能实现方式中，所述根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号包括：

基于所述每个第一短时频谱信号，获取频谱包络信号和第一激励信号；

根据所述每个第一基频信息和所述第二基频信息的比值，对所述第一激励信号进行调整，生成第二激励信号，所述第二激励信号的基频信息与所述第二基频信息相同；

基于所述频谱包络信号和所述第二激励信号，生成所述至少一个第二短时频谱信号。

在一种可能实现方式中，所述根据所述每个第一基频信息和第二基频信息的比值，对所述第一激励信号进行调整，生成第二激励信号包括：

基于所述第一激励信号，获取第一幅值和相位；

根据所述每个第一基频信息和所述第二基频信息的比值，对所述第一幅值进行调整，生成第二幅值，所述第二幅值对应的基频信息与所述第二基频信息相同；

基于所述第二幅值和所述相位，生成第二激励信号。

在一种可能实现方式中，所述基于所述至少一个第二短时频谱信号，生成第二音频信号包括：

基于所述至少一个第二短时频谱信号，做时频逆变换，得到至少一个第二时域信号；

将所述至少一个第二时域信号合并成所述第二音频信号。

一方面，提供了一种音频信号处理装置，所述装置包括：

获取模块，用于获取第一音频信号的至少一个第一短时频谱信号和至少一个第一基频信息，每个第一短时频谱信号对应一个第一基频信息；

调整模块，用于根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号，所述每个第二短时频谱信号的基频信息与所述第二基频信息相同；

生成模块，用于基于所述至少一个第二短时频谱信号，生成第二音频信号。

在一种可能实现方式中,所述获取模块用于：

在一种可能实现方式中,所述调整模块包括：

获取单元，用于基于所述每个第一短时频谱信号，获取频谱包络信号和第一激励信号；

调整单元，用于根据所述每个第一基频信息和所述第二基频信息的比值，对所述第一激励信号进行调整，生成第二激励信号，所述第二激励信号的基频信息与所述第二基频信息相同；

生成单元，用于基于所述频谱包络信号和所述第二激励信号，生成所述至少一个第二短时频谱信号。

在一种可能实现方式中,所述调整单元用于：

基于所述第一激励信号，获取第一幅值和相位；

基于所述第二幅值和所述相位，生成第二激励信号。

在一种可能实现方式中,所述生成模块用于：

将所述至少一个第二时域信号合并成所述第二音频信号。

一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述音频信号处理方法所执行的操作。

一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述音频信号处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述音频信号处理方法所执行的操作。

本发明实施例基于第二基频信息，对第一音频信号对应的至少一个第一短时频谱信号分别进行调整，使得生成的每个第二短时频谱信号的基频信息与第二基频信息相同。进而，基于至少一个第二短时频谱信号得到的第二音频信号，能够清晰地表达原来的第一音频信号所要表达的内容，同时，该第二音频信号的基频信息较为平稳，音频效果较好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频信号处理方法的流程图；

图2是本发明实施例提供的一种音频信号处理方法的流程图；

图3是本发明实施例提供的一种音频信号处理装置的结构示意图；

图4是本发明实施例提供的一种终端的结构框图；

图5是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种音频信号处理方法的流程图，参见图1，该实施例包括：

101、获取第一音频信号的至少一个第一短时频谱信号和至少一个第一基频信息，每个第一短时频谱信号对应一个第一基频信息。

102、根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号，该每个第二短时频谱信号的基频信息与该第二基频信息相同。

103、基于该至少一个第二短时频谱信号，生成第二音频信号。

在一些实施例中，上述获取第一音频信号的至少一个第一短时频谱信号和至少一个第一基频信息包括：

基于该第一音频信号进行分帧和加窗，得到至少一个第一音频片段；

基于该至少一个第一音频片段，进行时频变换，生成该至少一个第一短时频谱信号；

基于该至少一个第一音频片段，获取该至少一个第一短时频谱信号对应的至少一个第一基频信息。

在一些实施例中，上述根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号包括：

基于该每个第一短时频谱信号，获取频谱包络信号和第一激励信号；

根据该每个第一基频信息和该第二基频信息的比值，对该第一激励信号进行调整，生成第二激励信号，该第二激励信号的基频信息与该第二基频信息相同；

基于该频谱包络信号和该第二激励信号，生成该至少一个第二短时频谱信号。

在一些实施例中，上述根据该每个第一基频信息和该第二基频信息的比值，对该第一激励信号进行调整，生成第二激励信号包括：

基于该第一激励信号，获取第一幅值和相位；

根据该每个第一基频信息和该第二基频信息的比值，对该第一幅值进行调整，生成第二幅值，该第二幅值对应的基频信息与该第二基频信息相同；

基于该第二幅值和该相位，生成第二激励信号。

在一些实施例中，上述基于该至少一个第二短时频谱信号，生成第二音频信号包括：

基于该至少一个第二短时频谱信号，做时频逆变换，得到至少一个第二时域信号；

将该至少一个第二时域信号合并成该第二音频信号。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种音频信号处理方法的流程图，该音频信号处理方法可以应用于任一种电子设备中。参见图2，该实施例包括：

201、电子设备获取第一音频信号。

在本发明实施例中，该电子设备具有存储功能和音频信号处理功能，该第一音频信号为待处理的模拟信号，且该模拟信号为时域上的信号。其中，该电子设备可以是终端，也可以是服务器。

以终端为获取信号的电子设备为例，该终端上的应用程序具有采集音频信号进行录制的功能，且该终端上的应用程序可以对采集到的第一音频信号进行处理。

以服务器为获取信号的电子设备为例，终端可以将采集到的第一音频信号上传到服务器中，服务器对接收到的该第一音频信号进行后续处理。

本发明实施例在此对获取信号的电子设备不做限定。

202、电子设备基于该第一音频信号进行分帧和加窗，得到至少一个第一音频片段。

在本发明实施例中，该第一音频信号可以为实时录制的语音信号，当然，该第一音频信号也可以为已经存储在终端或者服务器中的音频信号。其中，该第一音频信号是以时间为自变量的函数，用于描述第一音频信号的幅值在不同时刻的变化，但不能描述该第一音频信号的频率等参数的变化。因此，为了便于对该第一音频信号进行更加精准的分析和处理，电子设备需要将该第一音频信号处理为频域上的信号。其中，频域上的信号是以频率为自变量的函数，用于描述该第一音频信号的幅值在不同频率上的变化，电子设备基于频域对第一音频信号分析，可以将复杂的信号转换为简单信号的叠加，进而，可以更加精确的得到该第一音频信号的各个参数之间的关系。

具体地，电子设备在将该时域上的第一音频信号转换为频域上的信号时，可以先对该第一音频信号进行分帧，也即是，可以在电子设备中设定适当的截取时间长度，将该第一音频信号分为至少一个短时音频信号，其中，每个短时音频信号即为一帧，且每帧音频为平稳信号。例如，电子设备可以对该第一音频信号进行分帧，使得分帧后的每个短时音频信号的时间为20毫秒，当然，电子设备也可以将该第一音频信号分为至少一个其他时间长度的短时音频信号，本发明实施例对此不做限定。上述过程将包含大量数据的第一音频信号分为多个短时平稳信号进行处理，更加便于电子设备对每个短时平稳信号进行精确的分析和处理。

进一步地，在对该第一音频信号进行分帧的基础上，电子设备还需要对该第一音频信号进行加窗。具体地，在分帧的过程中，要使相邻的两个短时音频信号相互重叠一部分，也即是，前一个短时音频信号的尾部与后一个短时音频信号的头部重叠一部分。进而，电子设备将分帧后的至少一个短时音频信号分别乘上一个窗函数，得到对应的至少一个第一音频片段，该至少一个第一音频片段即为加窗后的多个短时音频信号。其中，该窗函数可以为hann(汉宁)窗函数或者hamming(汉明)窗函数等，本发明实施例对此不做限定。上述过程避免了分帧后的至少一个短时音频信号的起始和结束的地方信号不连续的问题。

203、电子设备基于该至少一个第一音频片段，进行时频变换，生成该至少一个第一短时频谱信号。

在本发明实施例中，上述步骤202中得到的至少一个第一音频片段仍为时域上的音频信号，因此，电子设备可以通过时频变换，将时域上的该至少一个第一音频片段转换为频域上的信号。例如，电子设备可以对该至少一个第一音频片段进行傅里叶变换，其中，傅里叶变换为一种积分变换，在信号处理中，用于将时域信号转换为频域信号，也即是，将时域信号转换为表达幅值与频率关系的信号。

具体地，电子设备对每个第一音频片段做傅里叶变换，将关于时间的信号函数转换为关于频谱的信号函数，也即是，由从时间的角度分析信号，转换为从频率的角度分析信号。进而，电子设备可以将时域上的该至少一个第一音频片段转换为多个不同频率的正弦波信号的叠加。

上述步骤202至步骤203即是将时域上的第一音频信号转换为频域上的至少一个第一短时频谱信号的过程。基于上述过程，电子设备可以得到每个第一短时频谱信号的幅值与频率的关系，更便于对信号进行数学分析及处理等。在其他实施例中，除上述傅里叶变换之外，电子设备还可以对该至少一第一音频片段进行其他时频变换方式，本发明实施例在此不做限定。

204、电子设备基于该至少一个第一音频片段，获取该至少一个第一短时频谱信号对应的至少一个第一基频信息。

在本发明实施例中，第一基频信息指的是基于第一音频片段提取的基音频率，该基音频率决定该第一音频片段的音高，其中，基音是每个第一音频片段中最低的音，基音的参数决定了整个第一音频片段的参数。电子设备基于该至少一个第一音频片段，提取每个第一音频片段的第一基频信息，每个第一基频信息与每个第一音频片段转换成的第一短时频谱信号相对应。

具体地，电子设备可以通过基频提取算法，提取每个第一音频片段的第一基频信息，例如，电子设备可以通过时域自相关算法、YIN算法、PYIN算法等，对上述至少一个第一音频片段分别进行处理，得到对应的至少一个第一基频信息。

以通过时域自相关算法提取基频为例，每个第一音频片段对应一个自相关函数，该自相关函数用于度量信号本身在不同时间点的相似性，该自相关函数的周期性与对应的第一音频片段的基音的周期性相同，因此，电子设备可以基于该自相关函数，获取每个第一音频片段的基音周期，进而，得到每个第一音频片段的基频。具体地，由于每个第一音频片段都是周期信号，因此，在每个第一音频片段的周期的整数倍上，其对应的自相关函数都可以达到最大值，进而，基于自相关函数的相邻两个最大值的时间差，电子设备可以得到每个第一音频片段的基音周期。进一步地，每个第一音频片段的基音周期的倒数即为该每个第一音频片段的基频。

需要说明的是，电子设备可以在时域上分析该至少一个第一音频片段，以提取该至少一个第一音频片段对应的至少一个第一基频信息，也可以在频域上分析该至少一个第一短时频谱信号，以提取该至少一个第一短时频谱信号对应的至少一个第一基频信息，上述举例是以时域上的基频提取算法为例进行说明的，本发明实施例在此对该至少一个第一基频信息的提取算法不做限定。

上述步骤202至步骤204为电子设备获取第一音频信号的至少一个第一短时频谱信号和至少一个第二基频信息的过程，除上述获取该至少一个第一短时频谱信号和该至少一个第二基频信息的方式之外，在其他实施例中，电子设备还可以通过其他方式来获取该至少一个第一短时频谱信号和该至少一个第二基频信息，本发明在此不做限定。

205、电子设备基于该每个第一短时频谱信号，获取频谱包络信号和第一激励信号。

在本发明实施例中，该每个第一短时频谱信号即为由上述时域上的每个第一音频片段转换得到的频域上的信号，该频谱包络信号指的是每个第一短时频谱信号的不同频率对应的振幅的最高点的连线所对应的函数，该频谱包络信号用于表示该上述第一音频信号的音色信息。此外，该第一激励信号是一种输入信号，该第一激励信号用于电子设备获取更加精准的该每个第一短时频谱信号的参数信息。对于该每个第一短时频谱信号的第一激励信号，电子设备可以设定该第一激励信号的生成方式。在本发明实施例中，电子设备可以基于频谱包络信号设定对应的第一激励信号的生成方式。

具体地，电子设备可以通过信号提取算法，从每个第一短时频谱信号中提取对应的频谱包络信号。例如，可以采用倒谱法来提取该频谱包络信号，下面对采用倒谱法提取频谱包络信号的过程作具体介绍：

(1)电子设备从每个第一短时频谱信号中提取对应的频谱值，将该每个第一短时频谱信号的频谱值组成倒谱序列；

(2)电子设备对该倒谱序列进行加窗处理；

(3)电子设备将加窗处理后的倒谱序列进行傅里叶变换，得到对数频谱；

(4)电子设备对该对数频谱进行指数处理，得到该频谱包络信号。

例如，可以设定第i帧第一短时频谱信号对应的频谱值为X_i(k)，则可以设定基于上述倒谱法获取的频谱包络信号对应的包络值为H_i(k)，其中，k表示频率信息，即为时频变换后的频点下标。

进一步地，可以基于上述每个第一短时频谱信号的频谱值和对应的频谱包络信号的包络值，设定第一激励信号的生成方式，进而得到该第一激励信号。具体地，对于每个第一短时频谱信号，电子设备可以设定根据该每个第一短时频谱信号的频谱值和包络值的比值，生成该每个第一短时频谱信号的第一激励分量，并基于该每个第一短时频谱信号的第一激励分量，组成该第一激励信号。

例如，电子设备可以设定第i帧第一短时频谱信号对应的频谱值为X_i(k)，设定对应的频谱包络信号的包络值为H_i(k)，设定对应的第一激励分量为E_i(k)，则该第一激励分量E_i(k)可以为其中，k表示频率信息，即为时频变换后的频点下标。由上述至少一个第一短时频谱信号对应的所有第一激励分量组成该第一激励信号。

需要说明的是，对于上述频谱值、包络值、第一激励分量的标识方式，还可以通过其他方式进行标识，本发明实施例对此不做限定。此外，电子设备还可以通过其他方式获取频谱包络信号和第一激励信号，本发明实施例在此不做一一限定。

206、电子设备基于该第一激励信号，获取第一幅值和相位。

在本发明实施例中，基于步骤205得到的该第一激励信号为频域上的信号，进而，基于频域分析，电子设备可以较为方便的得到该第一激励信号对应的第一幅值和相位。其中，电子设备获取该第一幅值是为了后续对该第一幅值进行调整，基于对该第一幅值进行调整，电子设备可以得到固定基频信息的音频信号，此外，电子设备获取相位是为了在后续调整过程中，保持该相位不变，进而，保持时域上的音频信号的起始位置不变。

具体地，该第一激励信号的每个第一激励分量的绝对值即为其对应的第一幅值，此外，电子设备基于频域上的该第一激励信号可以得到该第一音频信号的相位谱，进而，电子设备可以得到与每个第一激励分量对应的相位。

例如，电子设备可以设定第一激励分量为E_i(k)，则与该第一激励分量对应的第一幅值为|E_i(k)|，电子设备可以设定该第一激励分量对应的相位为其中，k表示频率信息，即为时频变换后的频点下标。当然，在其他实施例中，还可以采用其他方式来标识该第一幅值和该相位，本发明实施例在此不做限定。

207、电子设备根据该每个第一基频信息和该第二基频信息的比值，对该第一幅值进行调整，生成第二幅值，该第二幅值对应的基频信息与该第二基频信息相同。

在本发明实施例中，该每个第一基频信息指的是上述步骤204中电子设备获取到的每个第一音频片段对应的基音频率，该第二基频信息指的是电子设备预设的固定基音频率，也即是，电子设备可以设定一个固定的基音频率，该固定的基音频率用于对当前第一音频信号对应的每个第一短时频谱信号的基音频率进行调整，最终使得调整后的至少一个短时频谱信号的基音频率都相等，且都等于上述设定的固定基音频率，也即是，上述第二基频信息为目标基音频率。

具体地，本发明实施例中，电子设备可以通过调整第一激励信号对应的第一幅值，进而调整每个第一短时频谱信号的基音频率。电子设备可以基于该第一基频信息和该第二基频信息，确定调整系数，例如，可以将该第一基频信息与该第二基频信息的比值，作为该调整系数。进而，电子设备基于该调整系数，对该第一激励信号中每个第一激励分量对应的第一幅值进行调整，例如，电子设备可以将每个第一幅值乘上对应的调整系数，实现对该每个第一幅值的线性伸缩，进而得到与每个第一幅值相对应的第二幅值，其中，调整后的该第二幅值对应的基频信息与上述第二基频信息相等。

需要说明的是，除上述生成第二幅值的方式之外，电子设备还可以采用其他方式来生成该第二幅值，只要使得每个第二幅值对应的基频信息相等，且都等于上述电子设备设定的第二基频信息即可，本发明实施例在此不做限定。

208、电子设备基于该第二幅值和该相位，生成第二激励信号。

在本发明实施例中，为了保持调整后的信号在时域上的起始位置不变，需要基于上述第一激励信号提取出的相位进行还原处理。本发明实施例基于上述每个第二幅值和相位进行处理，以得到调整后的至少一个第二激励分量，进而，基于该至少一个第二激励分量，组成第二激励信号。其中，该第二激励信号对应的基频信息与上述第二基频信息相同，该第二激励信号的相位与对应的第一激励分量的相位相同。

例如，电子设备可以设定该第二幅值为A_i(k)，设定该相位为设定调整后的第二激励分量为则可以通过以下公式来确定该第二激励分量

其中k表示频率信息，即为时频变换后的频点下标。当然，也可以用其他方式来标识该第二幅值、相位、第二激励分量，此外，也可以通过其他方式来确定该第二激励分量，只要使得该第二激励分量的基频信息与第二基频信息相等，且其相位与对应的第一激励分量的相位相等即可，本发明实施例在此不做限定。

上述步骤206至步骤208即为根据每个第一基频信息和第二基频信息的比值，对该第一激励信号进行调整，生成第二激励信号的步骤，除上述对第一激励信号进行调整的方式之外，在其他实施例中，电子设备还可以采用其他方式对第一激励信号进行调整，只要使得生成的该第二激励信号的相位不变，且其基频信息与第二基频信息相等即可，本发明实施例在此不做限定。

209、电子设备基于该频谱包络信号和该第二激励信号，生成该至少一个第二短时频谱信号。

在本发明实施例中，该频谱包络信号表示的是该第一音频信号的音色信息，因此，为了不改变原始第一音频信号的音色信息，电子设备需要基于由第一音频信号得到的频谱包络信号，进行还原处理。本发明实施例基于上述步骤205中获取的频谱包络信号的包络值和步骤208中获取的第二激励信号中的至少一个第二激励分量进行还原处理，得到至少一个第二短时频谱信号。其中，该至少一个第二短时频谱信号对应的频谱包络信号的频谱值，与上述由至少一个第一短时频谱信号得到的频谱值相等，且，每个第二短时频谱信号对应基频信息与上述第二基频信息相等。

基于步骤209中得到的第二激励信号中的至少一个第二激励分量以及步骤205中得到的频谱包络信号的包络值H_i(k)，可以通过以下公式得到还原后的至少一个第二短时频谱信号，设定每个第二短时频谱信号的频谱值为Yi(k)，则其中，k表示频率信息，即为时频变换后的频点下标。当然，也可以用其他方式来标识该每个第二短时频谱信号，本发明实施例在此不做限定。

上述步骤205至步骤209即为根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号的过程，除上述对每个第一短时频谱信号的调整方式之外，在其他实施例中，电子设备还可以通过其他方式来对每个第一短时频谱信号进行调整，只要使得生成的至少一个短时频谱信号的频谱包络信号不变、相位不变且基频信息与第二基频信息相等即可，本发明实施例在此不做限定。

210、电子设备基于该至少一个第二短时频谱信号，做时频逆变换，得到至少一个第二时域信号。

在本发明实施例中，上述步骤209中得到的该至少一个第二短时频谱信号为频域上的信号，为了使得调整后的信号能够在电子设备中进行播放，电子设备需要将上述频域上的至少一第二短时频谱信号转换为时域上的信号，也即是转换为该至少一个第二时域信号。

具体地，电子设备基于每个第二短时频谱信号的函数进行时频逆变换，例如，电子设备可以对每个第二短时频谱信号的函数进行傅里叶逆变换，生成与每个第二短时频谱信号的函数对应的反函数，进而，根据该至少一第二短时频谱信号得到的至少一反函数，得到对应的至少一第二时域信号。其中，该每个第二短时频谱信号的函数为以频谱为自变量的函数，该反函数为以时间为自变量的函数。在其他实施例中，除上述傅里叶逆变换之外，电子设备还可以对每个第二短时频谱信号进行其他的时频逆变换方式，本发明实施例在此不做限定。

211、电子设备将该至少一个第二时域信号合并成该第二音频信号。

在本发明实施例中，基于步骤210得到的该至少一个第二时域信号为时域上的多个音频信号片段，因此，要想在电子设备上将调整后的音频信号播放出来，还需要将该至少一个第二时域信号拼接成连续的音频信号，也即是该第二音频信号。

上述步骤210至步骤211即为基于至少一个第二短时频谱信号，生成第二音频信号的过程，除上述生成第二音频信号的方式之外，在其他实施例中，电子设备还可以通过其他方式将至少一个第二短时频谱信号转换为第二音频信号，本发明实施例在此不做限定。

对于上述第二音频信号，其频谱包络信号的包络值与第一音频信号的包络值相等，其相位与第一激励信号的相位相等，且对应的每个第二时域信号的基频信息都为与第二基频信息相等的固定基频信息，电子设备从而得到了发音清晰，且基频信息平稳的音频信号。

本发明实施例基于第二基频信息，对第一音频信号对应的至少一个第一短时频谱信号分别进行调整，使得生成的每个第二短时频谱信号的基频信息与第二基频信息相同。进而，基于至少一个第二短时频谱信号得到的第二音频信号，能够清晰地表达原来的第一音频信号所要表达的内容，同时，该第二音频信号的基频信息较为平稳。

图3是本发明实施例提供的一种音频信号处理装置的结构示意图。参见图3，该装置包括：获取模块301、调整模块302、生成模块302。

获取模块301，用于获取第一音频信号的至少一个第一短时频谱信号和至少一个第一基频信息，每个第一短时频谱信号对应一个第一基频信息；

调整模块302，用于根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号，该每个第二短时频谱信号的基频信息与该第二基频信息相同；

生成模块303，用于基于该至少一个第二短时频谱信号，生成第二音频信号。

在一些实施例中,该获取模块301用于：

在一些实施例中,该调整模块302包括：

获取单元，用于基于该每个第一短时频谱信号，获取频谱包络信号和第一激励信号；

调整单元，用于根据该每个第一基频信息和该第二基频信息的比值，对该第一激励信号进行调整，生成第二激励信号，该第二激励信号的基频信息与该第二基频信息相同；

生成单元，用于基于该频谱包络信号和该第二激励信号，生成该至少一个第二短时频谱信号。

在一些实施例中,该调整单元用于：

基于该第一激励信号，获取第一幅值和相位；

基于该第二幅值和该相位，生成第二激励信号。

在一些实施例中,该生成模块303用于：

将该至少一个第二时域信号合并成该第二音频信号。

需要说明的是：上述实施例提供的音频信号处理装置在音频信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频信号处理装置与音频信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种终端400的结构框图。该终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本发明中方法实施例提供的音频信号处理方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图5是本发明实施例提供的一种服务器的结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)501和一个或一个以上的存储器502，其中，该存储器502中存储有至少一条指令，该至少一条指令由该处理器501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音频信号处理方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上该仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

基于所述至少一个第二短时频谱信号，生成第二音频信号。

2.根据权利要求1所述的方法，其特征在于，所述获取第一音频信号的至少一个第一短时频谱信号和至少一个第一基频信息包括：

3.根据权利要求1所述的方法，其特征在于，所述根据每个第一基频信息和第二基频信息，对每个第一短时频谱信号进行调整，生成至少一个第二短时频谱信号包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述每个第一基频信息和所述第二基频信息的比值，对所述第一激励信号进行调整，生成第二激励信号包括：

基于所述第一激励信号，获取第一幅值和相位；

基于所述第二幅值和所述相位，生成第二激励信号。

5.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个第二短时频谱信号，生成第二音频信号包括：

将所述至少一个第二时域信号合并成所述第二音频信号。

6.一种音频信号处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述获取模块用于：

8.根据权利要求6所述的装置，其特征在于，所述调整模块包括：

9.根据权利要求8所述的装置，其特征在于，所述调整单元用于：

基于所述第一激励信号，获取第一幅值和相位；

基于所述第二幅值和所述相位，生成第二激励信号。

10.根据权利要求6所述的装置，其特征在于，所述生成模块用于：

将所述至少一个第二时域信号合并成所述第二音频信号。

11.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频信号处理方法所执行的操作。

12.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频信号处理方法所执行的操作。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频信号处理方法所执行的操作。