CN109065068A

CN109065068A - 音频处理方法、装置及存储介质

Info

Publication number: CN109065068A
Application number: CN201810950948.1A
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2018-12-21
Anticipated expiration: 2038-08-17
Also published as: CN109065068B

Abstract

本发明公开了一种音频处理方法、装置及存储介质，属于语音技术领域。所述方法包括：获取待处理的第一音频；提取第一音频的基频信息、频谱包络信息和第一激励信号；根据该基频信息，确定目标周期信号，目标周期信号的峰值位于所述基频信息指示的基频的倍频处；将目标周期信号和第一激励信号进行叠加处理，得到第二激励信号；将第二激励信号和该频谱包络信息进行合成处理，得到第二音频。本发明可以在提升第一音频中的人声清晰度的同时，避免对第一音频中杂音的放大，提高了处理后的音频质量。

Description

音频处理方法、装置及存储介质

技术领域

本发明涉及语音技术领域，特别涉及一种音频处理方法、装置及存储介质。

背景技术

实际应用中，受到音源的录制场景或设备的限制，音频中一般不仅包括人声，还可能包括气息声、环境噪声或设备噪声等一定程度的杂音，导致音频中的人声不清晰。而为了提高音频中人声的清晰度，需要对音频进行处理。

相关技术中，提供了一种音频处理方法，包括：获取待处理的第一音频，然后对第一音频进行傅里叶变换，得到第一音频在频域上的第一频谱信号，再根据该第一频谱信号，使用均衡器增大频谱中的中高频信号的能量，得到第二频谱信号，最后，对第二频谱信号进行逆傅里叶变换，得到第二音频。由于人声的频率一般处于中高频区间，因此，通过增大中高频信号的能量，即可增大人声的亮度，使人声在音频中更加清晰。

但是，增大中高频信号的能量的方法，不仅会放大人声，还可能会放大处于中高频的气息声、环境噪声或设备噪声等杂音，导致处理后的音频中的杂音较大，音频质量较差。

发明内容

本发明实施例提供了一种音频处理方法、装置及存储介质，可以用于解决相关技术中存在的处理后的音频中杂音较大的问题。所述技术方案如下：

一方面，提供了一种音频处理方法，所述方法包括：

获取待处理的第一音频；

提取所述第一音频的基频信息、频谱包络信息和第一激励信号；

根据所述基频信息，确定目标周期信号，所述目标周期信号的峰值位于所述基频信息指示的基频的倍频处；

将所述目标周期信号和所述第一激励信号进行叠加处理，得到第二激励信号；

将所述第二激励信号和所述频谱包络信息进行合成处理，得到第二音频。

可选地，所述提取所述第一音频的基频信息、频谱包络信息和第一激励信号，包括：

对所述第一音频进行分帧处理，得到多个音频帧；

对于所述多个音频帧中的每个音频帧，提取所述每个音频帧的基频信息、频谱包络信息和第一激励信号。

可选地，所述提取所述每个音频帧的基频信息、频谱包络信息和第一激励信号，包括：

通过预设基频提取算法，提取所述每个音频帧的基频信息；

对所述每个音频帧进行傅里叶变换，得到所述每个音频帧的频谱信号；

从所述每个音频帧的频谱信号中，获取所述每个音频帧的频谱包络信息；

根据所述每个音频帧的频谱信号和频谱包络信息，确定所述每个音频帧的第一激励信号。

可选地，所述根据所述基频信息，确定目标周期信号，包括：

根据所述每个音频帧的基频信息，确定所述每个音频帧的目标周期信号，所述每个音频帧的目标周期信号的峰值位于所述每个音频帧的基频的倍频处；

所述将所述目标周期信号和所述第一激励信号进行叠加处理，得到第二激励信号，包括：

将所述每个音频帧的目标周期信号和第一激励信号进行叠加处理，得到所述每个音频帧的第二激励信号；

所述将所述第二激励信号和所述频谱包络信息进行合成处理，得到第二语音信号，包括：

将所述每个音频帧的第二激励信号和频谱包络信息进行组合处理，得到处理后的所述每个音频帧；

将处理后的多个音频帧组成的音频，确定为所述第二音频。

可选地，所述根据所述每个音频帧的基频信息，确定所述每个音频帧的目标周期信号，包括：

根据所述每个音频帧的基频信息，在频域上生成以所述每个音频帧的基频为周期，且峰值在所述每个音频帧的基频的倍频处的周期信号；

将生成的周期信号确定为所述每个音频帧的目标周期信号。

第二方面，提供了一种音频处理装置，所述装置包括：

获取模块，用于获取待处理的第一音频；

提取模块，用于提取所述第一音频的基频信息、频谱包络信息和第一激励信号；

确定模块，用于根据所述基频信息，确定目标周期信号，所述目标周期信号的峰值位于所述基频信息指示的基频的倍频处；

叠加模块，用于将所述目标周期信号和所述第一激励信号进行叠加处理，得到第二激励信号；

合成模块，用于将所述第二激励信号和所述频谱包络信息进行合成处理，得到第二音频。

可选地，所述提取模块包括：

处理单元，用于对所述第一音频进行分帧处理，得到多个音频帧；

提取单元，用于对于所述多个音频帧中的每个音频帧，提取所述每个音频帧的基频信息、频谱包络信息和第一激励信号。

可选地，所述提取单元用于：

通过预设基频提取算法，提取所述每个音频帧的基频信息；

可选地，所述确定模块用于：

所述叠加模块用于：

所述合成模块用于：

将处理后的多个音频帧组成的音频，确定为所述第二音频。

可选地，所述确定模块用于：

将生成的周期信号确定为所述每个音频帧的目标周期信号。

第三方面，提供了一种音频处理装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任一种音频处理方法的步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述任一种音频处理方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，对于待处理的第一音频，可以先提取第一音频的基频信息、频谱包络信息和第一激励信号，然后根据该基频信息，确定峰值位于基频信息指示的基频的倍频处的目标周期信号，再将目标周期信号和第一激励信号进行叠加处理，得到第二激励信号，最后将第二激励信号和第一音频的频谱包络信息进行合成处理，即可得到处理后的第二音频。需要说明的是，音频中的人声一般由清音和浊音组成，由于清音不具有规律性，且不伴随声带的振动，对人声的清晰度影响不大，而浊音伴随声带的振动，对人声的清晰度影响较大，且具有一定的规律性，因此本发明实施例中针对人声中的浊音进行处理。由于浊音一般由基音和泛音组成，还会包含一定程度的杂音，且泛音一般在基频的倍频处，基频是指基音的频率，因此，从第一音频中提取的基频信息能够指示泛音的位置，而根据基频确定的目标周期信号可以定向增强泛音的能量，从而定向增强人声中浊音的能量。另外，频谱包络信息用于表征人声的音色，第一激励信号用于表征人声的声带振动信号，因此，通过将目标周期信号和第一激励信号进行叠加处理，即可准确增强人声的振动能量，之后再与频谱包络信息组合，即可得到准确放大人声的第二音频，从而在提升人声清晰度的同时，避免了对原始音频中杂音的放大，提高了音频处理质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频处理方法的流程图；

图2是本发明实施例提供的另一种音频处理方法的流程图；

图3是本发明实施例提供的一种音频处理装置的结构框图；

图4是本发明实施例提供的一种终端400的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例的应用场景和实施环境予以说明。

本发明实施例提供的音频处理方法应用于提升音频中人声的亮度，使得音频中的人声更加清晰的场景中。比例，应用于提升录音音频中说话人的声音的清晰度，使得听众能够更加清晰地听清其中说话人的声音，或者应用于提升歌曲音频中歌手的声音的清晰度，使得听众能够更加清晰地听清其中歌手的声音等场景中。

相关技术中提供的音频处理方法中，不仅会放大音频中的人声能量，还会放大其中的杂音能量，使得处理后的音频中具有较大杂音。本发明实施例中，为了在提升人声清晰度的同时，避免放大杂音，提供了一种新的音频处理方法，详见下述说明。

另外，本发明实施例提供的音频处理方法可以应用于音频处理装置中，该音频处理装置可以为终端、服务器等电子设备，终端可以包括手机、平板电脑或计算机等。进一步地，本发明实施例还可以通过音频处理软件实现该音频处理方法，比如，终端可以安装该音频处理软件，并通过运行该音频处理软件，按照本发明实施例提供的方法对音频进行处理。

图1是本发明实施例提供的一种音频处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤101：获取待处理的第一音频。

步骤102：提取该第一音频的基频信息、频谱包络信息和第一激励信号。

步骤103：根据该基频信息，确定目标周期信号。

其中，该目标周期信号的峰值位于该基频信息指示的基频的倍频处。

步骤104：将该目标周期信号和该第一激励信号进行叠加处理，得到第二激励信号。

步骤105：将该第二激励信号和该频谱包络信息进行合成处理，得到第二音频。

可选地，该提取该第一音频的基频信息、频谱包络信息和第一激励信号，包括：

对该第一音频进行分帧处理，得到多个音频帧；

对于该多个音频帧中的每个音频帧，提取该每个音频帧的基频信息、频谱包络信息和第一激励信号。

可选地，该提取该每个音频帧的基频信息、频谱包络信息和第一激励信号，包括：

通过预设基频提取算法，提取该每个音频帧的基频信息；

对该每个音频帧进行傅里叶变换，得到该每个音频帧的频谱信号；

从该每个音频帧的频谱信号中，获取该每个音频帧的频谱包络信息；

根据该每个音频帧的频谱信号和频谱包络信息，确定该每个音频帧的第一激励信号。

可选地，该根据该基频信息，确定目标周期信号，包括：

根据该每个音频帧的基频信息，确定该每个音频帧的目标周期信号，该每个音频帧的目标周期信号的峰值位于该每个音频帧的基频的倍频处；

该将该目标周期信号和该第一激励信号进行叠加处理，得到第二激励信号，包括：

将该每个音频帧的目标周期信号和第一激励信号进行叠加处理，得到该每个音频帧的第二激励信号；

该将该第二激励信号和该频谱包络信息进行合成处理，得到第二语音信号，包括：

将该每个音频帧的第二激励信号和频谱包络信息进行组合处理，得到处理后的该每个音频帧；

将处理后的多个音频帧组成的音频，确定为该第二音频。

可选地，该根据该每个音频帧的基频信息，确定该每个音频帧的目标周期信号，包括：

根据该每个音频帧的基频信息，在频域上生成以该每个音频帧的基频为周期，且峰值在该每个音频帧的基频的倍频处的周期信号；

将生成的周期信号确定为该每个音频帧的目标周期信号。

上述所有可选技术方案，均可按照任意结合形成本发明的可选实施例，本发明实施例对此不再一一赘述。

图2是本发明实施例提供的另一种音频处理方法的流程图，该方法应用于音频处理装置中，参见图2，该方法包括：

步骤201：获取待处理的第一音频。

其中，第一音频可以为歌曲音频、录音音频或视频中的音频等。而且，第一音频可以从本地存储空间中获取得到，可以从其他设备接收得到，可以从网络中下载得到，也可以由用户上传得到，本发明实施例第一音频的获取方式不做限定。

步骤202：提取第一音频的基频信息、频谱包络信息和第一激励信号。

具体地，可以在接收到对第一音频的处理指令时，提取第一音频的基频信息、频谱包络信息和第一激励信号。其中，处理指令用于指示提升第一音频中人声的清晰度，且该处理指令可以由用户触发通过指定操作触发，该指定操作可以为点击操作、滑动操作或语音操作等，本发明实施例对此不做限定。比如，用户可以在选择第一音频后，点击显示界面中包括的处理选项，通过该处理选项触发对第一音频的处理指令。

其中，第一音频的基频信息用于指示第一音频的基频，基频是指基音的频率。而且，第一音频的基频信息能够指示第一音频中人声包括的泛音的位置，便于后续定向增强人声的能量。

需要说明的是，音频中的人声通常由清音和浊音组成，清音不具有规律性，且由于不伴随声带的振动，因此对人声的清晰度影响不大，浊音由于伴随声带的振动，因此对人声的清晰度影响较大，而且浊音具有一定的规律性，一般由基音和泛音组成，且会包含一定程度的杂音。基音是指浊音中频率最低的振动产生的音，可以决定音频的音高。泛音是指频率为基音的整数倍的纯音，泛音还可以称为谐波。杂音是浊音中除基音和泛音之外的气息声、环境噪声或设备噪声等。

本发明实施例中，考虑到人声中的浊音具有一定的规律性，便于进行处理，且浊音中的泛音一般在基频的倍频处，因此，可以先从第一音频中提取基频信息，以便根据提取的基频信息确定泛音的位置。

其中，频谱包络信息用于表征人声的音色，第一激励信号用于表征人声中除音色之外的声带振动信号。需要说明的是，在语音信号的角度上讲，音频通常由频谱包络信息和激励信号组合而成，频谱包络信息用于表征音频中人声的音色，激励信号用于表征人声的声带振动信号。本发明实施例中，可以通过对第一音频进行分离处理，得到第一音频的频谱包络信息和第一激励信号。

具体地，提取该第一音频的基频信息、频谱包络信息和第一激励信号可以包括以下两种实现方式：

第一种实现方式：将第一音频作为一个整体进行处理，先提取第一音频的基频信息，然后再对第一音频进行分离处理，以分离出第一音频的频谱包络信息和第一激励信号。

具体地，第一种实现方式可以包括以下步骤1)-4)：

1)通过预设基频提取算法，提取第一音频的基频信息。

其中，该预设基频提取算法也称音高提取算法，用于提取音频的基频信息，具体可以为时域自相关算法、YIN算法或PYIN算法等。

2)对第一音频进行傅里叶变换，得到第一音频的频谱信号。

第一音频的频谱信号是指第一音频在音频空间上的表达。对第一音频进行傅里叶变换，是为了将第一音频从时域空间上的表达转换为频域空间上的表达。

3)从第一音频的频谱信号中，获取第一音频的频谱包络信息。

具体地，可以采用倒谱法，从第一音频的频谱信号中，获取第一音频的频谱包络信息。例如，可以从第一音频的频谱信号X(k)中，获取第一音频的频谱包络信息H(k)。

4)根据第一音频的频谱信号和频谱包络信息，确定第一音频的第一激励信号。

由于第一音频的频谱信号是由频谱包络信息和第一激励信号组合而成，因此，根据第一音频的频谱信号和频谱包络信息，即可确定出第一音频的第一激励信号。具体地，根据第一音频的频谱信号和频谱包络信息，可以采用以下公式(1)确定第一音频的第一激励信号：

其中，E(k)为第一音频的第一激励信号，X(k)为第一音频的频谱信号，H(k)为第一音频的频谱包络信息。

第二种实现方式：对第一音频进行分帧处理，得到多个音频帧，然后对于多个音频帧中的每个音频帧，提取每个音频帧的基频信息、频谱包络信息和第一激励信号。

也即是，先对第一音频进行分帧处理，得到第一音频的每个音频帧，然后提取每个音频帧的基频信息、频谱包络信息和第一激励信号。

具体地，提取每个音频帧的基频信息、频谱包络信息和第一激励信号可以包括如下步骤1)-4)：

1)通过预设基频提取算法，提取每个音频帧的基频信息。

2)对每个音频帧进行傅里叶变换，得到每个音频帧的频谱信号。

每个音频帧的频谱信号是指每个音频帧在音频空间上的表达。对每个音频帧进行傅里叶变换，是为了将对应音频帧从时域空间上的表达转换为频域空间上的表达。

3)从每个音频帧的频谱信号中，获取每个音频帧的频谱包络信息。

具体地，可以采用倒谱法，从每个音频帧的频谱信号中，获取每个音频帧的频谱包络信息。例如，对于多个音频帧中的第i个音频帧，假设第i个音频帧的频谱信号为X_i(k)，则可以从X_i(k)中获取第i个音频帧的频谱包络信息H_i(k)。

4)根据每个音频帧的频谱信号和频谱包络信息，确定每个音频帧的第一激励信号。

具体地，可以根据每个音频帧的频谱信号和频谱包络信息，可以采用以下公式(2)确定每个音频帧的第一激励信号：

其中，E_i(k)为多个音频帧中的第i个音频帧的第一激励信号，X_i(k)为第i个音频帧的频谱信号，H_i(k)为第i个音频帧的频谱包络信息。

步骤203：根据该基频信息，确定目标周期信号，该目标周期信号的峰值位于该基频信息指示的基频的倍频处。

也即是，可以根据该基频信息，生成一个周期性的谐波信号，且该谐波信号的峰值位于提取的基频的倍频处。由于其峰值位于基频的倍频处，也即是，该目标周期信号的幅值在频率为基频的倍频处最大，因此利用该目标周期信号，即可定向放大第一音频中的泛音能量，也即是，可以定向放大第一音频中的人声能量，从而避免了对第一音频中杂音的放大。

其中，目标周期信号的峰值可以预先设置，具体可以为基频的所有倍频处，也可以为基频的指定倍频处，本发明实施例对此不做限定。示例的，可以选择位于预设频率范围内的基频的倍频处，作为目标周期信号的峰值位置。

具体地，根据该基频信息，确定目标周期信号包括以下两种实现方式：

第一种实现方式：当采用上述第一种实现方式提取第一音频的基频信息时，根据第一音频的基频信息，确定第一音频的目标周期信号。

其中，第一音频的目标周期信号用于增强第一音频的第一激励信号，从而增强整个第一音频中人声的声带振动能量。

具体地，可以根据第一音频的基频信息，在频域上生成以第一音频的基频为周期，且峰值位于第一音频的基频的倍频处的周期信号，并将生成的周期信号确定为第一音频的目标周期信号。

第二种实现方式：当采用上述第二种实现方式提取第一音频中每个音频帧的基频信息时，可以根据每个音频帧的基频信息，确定每个音频帧的目标周期信号，且每个音频帧的目标周期信号的峰值位于对应音频帧的基频的倍频处。

其中，每个音频帧的目标周期信号用于增强每个音频帧的第一激励信号，从而增强每个音频帧中的人声的声带振动能量。

具体地，可以根据每个音频帧的基频信息，在频域上生成以对应音频帧的基频为周期，且峰值在对应音频帧的基频的倍频处的周期信号，然后将生成的周期信号确定为对应音频帧的目标周期信号。

进一步地，采用上述两种方式生成周期信号之后，还可以对生成的周期信号进行负值置零处理，并将处理后的周期信号确定为目标周期信号。其中，对生成的周期信号进行负值置零处理是指将生成的周期信号中负值处的幅值置为零。例如，可以在频域上生成以基频为周期且峰值位于基频的倍频处的余弦信号，然后对该余弦信号进行负值置零处理，也即是，将该余弦信号中为负值的幅值置为零，再将处理后的余弦信号确定为目标周期信号。

步骤204：将目标周期信号和第一激励信号进行叠加处理，得到第二激励信号。

由于目标周期信号的峰值位于基频的倍频处，因此，将目标周期信号和第一激励信号进行叠加处理之后，即可增强第一激励信号在基频的倍频处的能量，也即是，定向增强了泛音位置的能量，实现了对第一音频中周期性地谐波能量的定向增强，进而实现了对人声能量的定向增强。

具体地，将目标周期信号和第一激励信号进行叠加处理可以包括以下两种实现方式：

第一种实现方式：当采用步骤203中的第一种实现方式确定第一音频的目标周期信号时，可以将第一音频的目标周期信号和第一音频的第一激励信号进行叠加处理，得到第一音频的激励信号。

具体地，可以将第一音频的第一激励信号的幅值和相位进行分离，然后将第一激励信号的幅值与第一音频的目标周期信号按预设比例进行叠加，再与第一激励信号的相位合成为第一音频的第二激励信号。

例如，假设第一音频的第一激励信号为第一音频的目标周期信号为A(k)，预设比例为α，则对E(k)的幅值和相位进行分离，可以得到第一激励信号的幅值|E(k)|和相位然后，将|E(k)|与A(k)按照预设比例进行叠加处理，再与进行合成，可以得到第一音频的第二激励信号

第二种实现方式：当采用步骤203中的第二种实现方式确定每个音频帧的目标周期信号时，可以将每个音频帧的目标周期信号和第一激励信号进行叠加处理，得到每个音频帧的第二激励信号。

具体地，可以将每个音频帧的第一激励信号的幅值和相位进行分离，然后将第一激励信号的幅值与对应音频帧的目标周期信号按预设比例进行叠加，再与第一激励信号的相位合成为对应音频帧的第二激励信号。

例如，假设多个音频帧中的第i个音频帧的第一激励信号为第i个音频帧的目标周期信号为A_i(k)，预设比例为α，则对E_i(k)的幅值和相位进行分离，可以得到第一激励信号的幅值|E_i(k)|和相位然后，将|E_i(k)|与A_i(k)按照预设比例进行叠加处理，再与进行合成，可以得到第i个音频帧的第二激励信号

步骤205：将第二激励信号和频谱包络信息进行合成处理，得到第二音频。

由于第二激励信号是通过目标周期信号进行叠加处理得到的，因此，将第二激励信号和频谱包络信息合成处理后，即可得到人声能量定向发大的第二音频，也即是，相对于第一音频来说，第二音频中人声的清晰度得到了明显的提升，且杂音也并未放大，从而在提升人声清晰度的同时，避免了对杂音的放大，提高了音频处理质量。

具体地，将第二激励信号和频谱包络信息进行合成处理，得到第二音频可以包括如下两种实现方式：

第一种实现方式：当采用上述步骤204中的第一种实现方式得到第一音频的第二激励信号时，可以将第一音频的第二激励信号和第一音频的频谱包络信息进行合成处理，得到第二音频的频谱信号，对第二音频的频谱信号进行逆傅里叶变换，得到第二音频。

具体地，可以采用以下公式(3)，将第一音频的第二激励信号和第一音频的频谱包络信息进行合成处理，得到第二音频的频谱信号：

其中，Y(k)为第二音频的频谱信号，为第一音频的第二激励信号，H(k)为第一音频的频谱包络信息。

第二种实现方式：当采用上述步骤204中的第二种实现方式得到每个音频帧的第二激励信号时，可以将每个音频帧的第二激励信号和频谱包络信息进行组合处理，得到处理后的每个音频帧，然后将处理后的多个音频帧组成的音频，确定为第二音频。

具体地，可以将每个音频帧的第二激励信号和频谱包络信息进行组合处理，得到处理后的每个音频帧的频谱信号，然后，对处理后的每个音频帧的频谱信号进行逆傅里叶变换，得到处理后的每个音频帧。

具体地，可以采用以下公式(4)，将每个音频帧的第二激励信号和频谱包络信息进行组合处理，得到处理后的每个音频帧的频谱信号：

其中，Y_i(k)为多个音频帧中处理后的第i个音频帧的频谱信号，为第i个音频帧的第二激励信号，H_i(k)为第i个音频帧的频谱包络信息。

图3是本发明实施例提供的一种音频处理装置的结构框图，如图3所示，该装置包括获取模块301、提取模块302、确定模块303、叠加模块304和合成模块305。

获取模块301，用于获取待处理的第一音频；

提取模块302，用于提取该第一音频的基频信息、频谱包络信息和第一激励信号；

确定模块303，用于根据该基频信息，确定目标周期信号，该目标周期信号的峰值位于该基频信息指示的基频的倍频处；

叠加模块304，用于将该目标周期信号和该第一激励信号进行叠加处理，得到第二激励信号；

合成模块305，用于将该第二激励信号和该频谱包络信息进行合成处理，得到第二音频。

可选地，该提取模块302包括：

处理单元，用于对该第一音频进行分帧处理，得到多个音频帧；

提取单元，用于对于该多个音频帧中的每个音频帧，提取该每个音频帧的基频信息、频谱包络信息和第一激励信号。

可选地，该提取单元用于：

通过预设基频提取算法，提取该每个音频帧的基频信息；

可选地，该确定模块303用于：

该叠加模块304用于：

该合成模块305用于：

将处理后的多个音频帧组成的音频，确定为该第二音频。

可选地，该确定模块303用于：

将生成的周期信号确定为该每个音频帧的目标周期信号。

需要说明的是：上述实施例提供的音频处理装置在对音频进行处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种终端400的结构框图。该终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本实施例中，终端还包括有一个或者一个以上的程序，这一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，所述一个或者一个以上程序包含用于进行本发明实施例提供的音频处理方法的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取待处理的第一音频；

2.如权利要求1所述的方法，其特征在于，所述提取所述第一音频的基频信息、频谱包络信息和第一激励信号，包括：

对所述第一音频进行分帧处理，得到多个音频帧；

3.如权利要求2所述的方法，其特征在于，所述提取所述每个音频帧的基频信息、频谱包络信息和第一激励信号，包括：

通过预设基频提取算法，提取所述每个音频帧的基频信息；

4.如权利要求2所述的方法，其特征在于，所述根据所述基频信息，确定目标周期信号，包括：

将处理后的多个音频帧组成的音频，确定为所述第二音频。

5.如权利要求4所述的方法，其特征在于，所述根据所述每个音频帧的基频信息，确定所述每个音频帧的目标周期信号，包括：

将生成的周期信号确定为所述每个音频帧的目标周期信号。

6.一种音频处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的第一音频；

7.如权利要求6所述的装置，其特征在于，所述提取模块包括：

8.如权利要求7所述的装置，其特征在于，所述提取单元用于：

通过预设基频提取算法，提取所述每个音频帧的基频信息；

9.如权利要求7所述的装置，其特征在于，所述确定模块用于：

所述叠加模块用于：

所述合成模块用于：

将处理后的多个音频帧组成的音频，确定为所述第二音频。

10.如权利要求9所述的装置，其特征在于，所述确定模块用于：

将生成的周期信号确定为所述每个音频帧的目标周期信号。

11.一种音频处理装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-5所述的任一项方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-5所述的任一项方法的步骤。