CN112086104B

CN112086104B - 音频信号的基频获取方法、装置、电子设备和存储介质

Info

Publication number: CN112086104B
Application number: CN202010829745.4A
Authority: CN
Inventors: 方桂萍; 肖全之; 闫玉凤
Original assignee: Zhuhai Jieli Technology Co Ltd
Current assignee: Zhuhai Jieli Technology Co Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2022-04-29
Anticipated expiration: 2040-08-18
Also published as: CN112086104A

Abstract

本申请涉及一种音频信号的基频获取方法、装置、电子设备和介质。包括：对时域音频信号进行分帧，得到多个信号帧；对各信号帧进行低通滤波，并下采样，得到多个第一音频点；将位于音频点选择区间中第一音频点作为第一目标音频点，并确定各第一目标音频点的自相关误差，形成曲线；确定曲线最小波谷值对应的第一区间以及次最小波谷值对应第二区间；对低通滤波后的各信号帧上采样，得到多个第二音频点；将位于第一区间以及第二区间的第二音频点作为第二目标音频点，并确定各第二目标音频点的自相关误差；将自相关误差最小的第二目标音频点对应的频率作为各信号帧的初始基频；根据初始基频确定各信号帧的基频。本申请能提高基频获取的精度。

Description

音频信号的基频获取方法、装置、电子设备和存储介质

技术领域

本申请涉及音频技术领域，特别是涉及一种音频信号的基频获取方法、装置、电子设备和存储介质。

背景技术

随着音频处理技术的发展，语音合成技术已经成为了人们日常生活的重要组成部分，在直播声卡、多模式K歌麦等产品中都有广泛应用。而对于语音合成技术而言，由于语音的音高与基频的频率存在对应关系，基频的准确获取则关系到合成后的语音的准确性。

目前，音频信号中的基频获取一般是通过训练好的神经网络得到音频信号中的基频，然而，目前的基频获取方法，查找基频的范围过大，因此得到基频精度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种音频信号的基频获取方法、装置、电子设备和存储介质。

一种音频信号的基频获取方法，所述方法包括：

对时域音频信号进行分帧，得到所述时域音频信号的多个时域信号帧；

对各时域信号帧进行低通滤波，并针对低通滤波后的各时域信号帧进行下采样，得到所述低通滤波后的各时域信号帧包含的多个第一音频数据点；

将所述多个第一音频数据点中位于预设的音频数据点选择区间中的音频数据点作为第一目标音频数据点，得到多个第一目标音频数据点，并确定各第一目标音频数据点的自相关误差，形成自相关误差曲线；

确定所述自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间；

针对所述低通滤波后的各时域信号帧进行上采样，得到所述低通滤波后的各时域信号帧包含的多个第二音频数据点；

将所述多个第二音频数据点中位于所述第一时间区间以及所述第二时间区间的音频数据点作为第二目标音频数据点，得到多个第二目标音频数据点，并确定各第二目标音频数据点的自相关误差；

将自相关误差最小的第二目标音频数据点对应的音频频率作为所述各时域信号帧的初始基频；

根据所述初始基频确定所述各时域信号帧的基频；包括：从所述初始基频中提取出预设数量的时域信号帧对应的初始基频，作为所述各时域信号帧对应的目标基频；确定当前时域信号帧；若所述当前时域信号帧为首帧，则将所述当前时域信号帧对应的初始基频作为所述当前时域信号帧的基频；若所述当前时域信号帧为非首帧，则获取位于所述当前时域信号帧之前的预设数量的时域信号帧对应的初始基频；将所述当前时域信号帧对应的初始基频、所述位于所述当前时域信号帧之前的预设数量的时域信号帧对应的初始基频的音频中值作为所述当前时域信号帧的基频。

在其中一个实施例中，所述确定各第一目标音频数据点的自相关误差，包括：获取预设的第一参考时间区间的区间长度；基于所述区间长度，确定所述各第一目标音频数据点对应的第二参考时间区间；根据所述第一参考时间区间以及所述第二参考时间区间得到所述各第一目标音频数据点的自相关误差。

在其中一个实施例中，所述根据所述第一参考时间区间以及所述第二参考时间区间得到所述各第一目标音频数据点的自相关误差，包括：将所述多个第一音频数据点中位于所述第一参考时间区间中的音频数据点作为第一参考频点，得到多个第一参考频点，以及所述多个第一参考频点的频率作为第一参考频率；将所述多个第一音频数据点中位于所述第二参考时间区间中的音频数据点作为第二参考频点，得到多个第二参考频点，以及所述多个第二参考频点的频率作为第二参考频率；获取各第一参考频率与各第二参考频率的误差平方值，得到多个误差平方值；将所述多个误差平方值进行求和处理，得到所述各第一目标音频数据点的自相关误差。

在其中一个实施例中，所述确定所述自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间，包括：确定所述最小波谷值对应的第一时间值以及所述次最小波谷值对应的第二时间值；获取预设的时长区间范围；根据所述第一时间值以及所述时长区间范围得到所述第一时间区间，以及根据所述第二时间值以及所述时长区间范围得到所述第二时间区间。

在其中一个实施例中，所述根据所述第一时间值以及所述时长区间范围得到所述第一时间区间，以及根据所述第二时间值以及所述时长区间范围得到所述第二时间区间，包括：以所述第一时间值作为第一区间中点，以及以所述时长区间范围作为所述第一区间中点与区间端点之间的区间长度，生成所述第一时间区间；和/或以所述第二时间值作为第二区间中点，以及以所述时长区间范围作为所述第二区间中点与区间端点之间的区间长度，生成所述第二时间区间。

在其中一个实施例中，所述位于所述当前时域信号帧之前的预设数量的时域信号帧包括：位于所述当前时域信号帧之前的四个时域信号帧。

在其中一个实施例中，所述根据所述初始基频确定所述各时域信号帧的基频之后，所述方法还包括：基于所述各时域信号帧的基频，确定所述各时域信号帧的初始音高；获取与所述初始音高对应的升调音高以及降调音高；利用所述升调音高以及所述降调音高对所述各时域信号帧进行和声处理。

一种音频信号的基频获取装置，所述装置包括：

音频信号分帧模块，用于对时域音频信号进行分帧，得到所述时域音频信号的多个时域信号帧；

信号帧下采样模块，用于对各时域信号帧进行低通滤波，并针对低通滤波后的各时域信号帧进行下采样，得到所述低通滤波后的各时域信号帧包含的多个第一音频数据点；

第一自相关模块，用于将所述多个第一音频数据点中位于预设的音频数据点选择区间中的音频数据点作为第一目标音频数据点，得到多个第一目标音频数据点，并确定各第一目标音频数据点的自相关误差，形成自相关误差曲线；

波谷区间确定模块，用于确定所述自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间；

信号帧上采样模块，用于针对所述低通滤波后的各时域信号帧进行上采样，得到所述低通滤波后的各时域信号帧包含的多个第二音频数据点；

第二自相关模块，用于将所述多个第二音频数据点中位于所述第一时间区间以及所述第二时间区间的音频数据点作为第二目标音频数据点，得到多个第二目标音频数据点，并确定各第二目标音频数据点的自相关误差；

初始基频确定模块，用于将自相关误差最小的第二目标音频数据点对应的音频频率作为所述各时域信号帧的初始基频；

信号帧基频确定模块，用于根据所述初始基频确定所述各时域信号帧的基频；进一步用于从所述初始基频中提取出预设数量的时域信号帧对应的初始基频，作为所述各时域信号帧对应的目标基频；确定当前时域信号帧；若所述当前时域信号帧为首帧，则将所述当前时域信号帧对应的初始基频作为所述当前时域信号帧的基频；若所述当前时域信号帧为非首帧，则获取位于所述当前时域信号帧之前的预设数量的时域信号帧对应的初始基频；将所述当前时域信号帧对应的初始基频、所述位于所述当前时域信号帧之前的预设数量的时域信号帧对应的初始基频的音频中值作为所述当前时域信号帧的基频。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述音频信号的基频获取方法、装置、电子设备和存储介质，对时域音频信号进行分帧，得到时域音频信号的多个时域信号帧；对各时域信号帧进行低通滤波，并针对低通滤波后的各时域信号帧进行下采样，得到低通滤波后的各时域信号帧包含的多个第一音频数据点；将多个第一音频数据点中位于预设的音频数据点选择区间中的音频数据点作为第一目标音频数据点，得到多个第一目标音频数据点，并确定各第一目标音频数据点的自相关误差，形成自相关误差曲线；确定自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间；针对低通滤波后的各时域信号帧进行上采样，得到低通滤波后的各时域信号帧包含的多个第二音频数据点；将多个第二音频数据点中位于第一时间区间以及第二时间区间的音频数据点作为第二目标音频数据点，得到多个第二目标音频数据点，并确定各第二目标音频数据点的自相关误差；将自相关误差最小的第二目标音频数据点对应的音频频率作为各时域信号帧的初始基频；根据初始基频确定各时域信号帧的基频。本申请通过下采样后得到音频数据点选择区间中第一目标音频数据点查找自相关误差曲线的波谷，再通过上采样对波谷附近第二目标音频数据点求取自相关误差，可以将查找基频的范围缩小，有利于提高基频获取的精度。

附图说明

图1为一个实施例中音频信号的基频获取方法的流程示意图；

图2为一个实施例中确定各第一目标音频数据点的自相关误差的流程示意图；

图3为一个实施例中根据第一参考时间区间以及第二参考时间区间得到各第一目标音频数据点的自相关误差的流程示意图；

图4为一个实施例中确定自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间的流程示意图；

图5为一个应用实例中基于改进基频搜索的和声处理系统的结构示意图；

图6为一个应用实例中第一缓存区存储音频数据点的位置示意图；

图7为一个应用实例中音频信号误差平方值曲线图；

图8为一个实施例中音频信号的基频获取装置的结构框图；

图9为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种音频信号的基频获取方法，本实施例以该方法应用于终端进行举例说明，本实施例中，该方法包括以下步骤：

步骤S101，终端对时域音频信号进行分帧，得到时域音频信号的多个时域信号帧。

其中，时域音频信号为需要进行音频处理的音频信号，终端可以对时域音频信号进行分帧处理，从而得到该时域音频信号的多个时域信号帧。具体来说，终端可以按照一帧处理长度5ms的方式提取时域音频信号，从而得到多个时域信号帧。

步骤S102，终端对各时域信号帧进行低通滤波，并针对低通滤波后的各时域信号帧进行下采样，得到低通滤波后的各时域信号帧包含的多个第一音频数据点。

终端得到组成时域音频信号的时域信号帧后，可以通过低通滤波器，对每个时域信号帧进行低通滤波处理，并利用低频采样频率，对低通滤波后的时域信号帧进行下采样处理，从而得到多个音频采样数据点作为各时域信号帧包含的多个第一音频数据点。

步骤S103，终端将所述多个第一音频数据点中位于预设的音频数据点选择区间中的音频数据点作为第一目标音频数据点，得到多个第一目标音频数据点，并确定各第一目标音频数据点的自相关误差，形成自相关误差曲线。

音频数据点选择区间可以根据用户需要进行设置，与当前的时域信号帧对应。具体来说，终端可以根据设置的音频数据点选择区间，从第一音频数据点中选出位于与当前的时域信号帧对应的音频数据点选择区间中音频数据点，将其作为当前的时域信号帧对应的第一目标音频数据点，从而得到多个第一目标音频数据点。之后可对得到的每个第一目标音频数据点进行自相关误差计算，从而形成当前的时域信号帧的自相关误差曲线。

步骤S104，终端确定自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间。

步骤S103中终端得到自相关误差曲线后，可以从自相关误差曲线中找出曲线的最小波谷值，以及次最小波谷值，并基于得到的最小波谷值以及次最小波谷值分别获取当前的时域信号帧的第一时间区间以及第二时间区间。

步骤S105，终端针对低通滤波后的各时域信号帧进行上采样，得到低通滤波后的各时域信号帧包含的多个第二音频数据点。

之后，终端可以再次对低通滤波后的各时域信号帧进行采样，此时可利用高采样频率进行上采样，以提高时间分辨率，从而可得到每个时域信号帧包含的多个第二音频数据点。

步骤S106，终端将多个第二音频数据点中位于第一时间区间以及第二时间区间的音频数据点作为第二目标音频数据点，得到多个第二目标音频数据点，并确定各第二目标音频数据点的自相关误差。

终端得到第二音频数据点后，可以从第二音频数据点中选出位于与当前的时域信号帧对应的第一时间区间以及第二时间区间的音频数据点，将其作为当前的时域信号帧对应的第二目标音频数据点，从而得到多个第二目标音频数据点。之后可对得到的每个第二目标音频数据点再次进行自相关误差计算，从而得到当前的时域信号帧对应的每个第二目标音频数据点的自相关误差。

步骤S107，终端将自相关误差最小的第二目标音频数据点对应的音频频率作为各时域信号帧的初始基频；

步骤S108，终端根据初始基频确定各时域信号帧的基频。

终端得到当前的时域信号帧对应的每个第二目标音频数据点的自相关误差后，可从中选出自相关误差最小的第二目标音频数据点，并将其对应的音频频率作为当前时域信号帧的初始基频，同时，终端可对时域音频信号的每个时域信号帧都执行上述过程，从而得到各时域信号帧的初始基频。最后，终端可根据得到的多个初始基频确定当前时域信号帧的基频，并重复此过程，进而得到每个时域信号帧的基频。

上述音频信号的基频获取方法中，终端对时域音频信号进行分帧，得到时域音频信号的多个时域信号帧；对各时域信号帧进行低通滤波，并针对低通滤波后的各时域信号帧进行下采样，得到低通滤波后的各时域信号帧包含的多个第一音频数据点；将多个第一音频数据点中位于预设的音频数据点选择区间中的音频数据点作为第一目标音频数据点，得到多个第一目标音频数据点，并确定各第一目标音频数据点的自相关误差，形成自相关误差曲线；确定自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间；针对低通滤波后的各时域信号帧进行上采样，得到低通滤波后的各时域信号帧包含的多个第二音频数据点；将多个第二音频数据点中位于第一时间区间以及第二时间区间的音频数据点作为第二目标音频数据点，得到多个第二目标音频数据点，并确定各第二目标音频数据点的自相关误差；将自相关误差最小的第二目标音频数据点对应的音频频率作为各时域信号帧的初始基频；根据初始基频确定各时域信号帧的基频。本申请中终端通过下采样后得到音频数据点选择区间中第一目标音频数据点查找自相关误差曲线的波谷，再通过上采样对波谷附近第二目标音频数据点求取自相关误差，可以将查找基频的范围缩小，有利于提高基频获取的精度。

在一个实施例中，为了进一步提高得到的各时域信号帧的基频的精度，步骤S108可以进一步包括：终端确定当前时域信号帧；若当前时域信号帧为首帧，则将当前时域信号帧对应的初始基频作为当前时域信号帧的基频；若当前时域信号帧为非首帧，则获取位于所述当前时域信号帧之前的预设数量的时域信号帧对应的初始基频；将当前时域信号帧对应的初始基频、位于所述当前时域信号帧之前的预设数量的时域信号帧对应的初始基频的音频中值作为当前时域信号帧的基频。

其中，当前时域信号帧为当前需要确定基频的时域信号帧，位于当前时域信号帧之前的预设数量的时域信号帧则是时间顺序在当前时域信号帧以前的时域信号帧，预设数量则可以根据需要进行设定，例如可以设定为当前时域信号帧之前的4帧。具体来说，终端可以确定当前时域信号帧，如果当前时域信号帧为第一帧，即首帧，或者当前时域信号帧之前的时域信号帧的数量少于预设数量，终端可以将得到的当前时域信号帧的初始基频直接作为当前时域信号帧的基频，而如果当前时域信号帧并非首帧，或者当前时域信号帧之前的时域信号帧的数量大于预设数量，终端可以将得到的当前时域信号帧的初始基频，以及当前时域信号帧之前的预设帧数的初始基频进行排序，得到当前时域信号帧的基频。

例如，预设数量可以是4帧，如果当前时域信号帧非首帧，且得到的当前时域信号帧的初始基频为99Hz，那么终端需要同时获取当前时域信号帧前4帧对应的初始基频，可以分别是102Hz、101Hz、100Hz以及100HZ，那么终端可以对这5个初始基频进行排序，并从中输出中值，即100Hz作为当前时域信号帧的基频。

本实施例中，终端可通过结合多个初始基频进行中值处理的方法得到最终当前时域信号帧的基频，有利于进一步提高得到的音频信号的基频的准确性。

在一个实施例中，如图2所示，步骤S103可以包括：

步骤S201，终端获取预设的第一参考时间区间的区间长度；

步骤S202，基于区间长度，终端确定各第一目标音频数据点对应的第二参考时间区间。

其中，第一参考时间区间也可以根据用户根据实际需要进行设置，与当前的时域信号帧对应，而区间长度则是用户设置的第一参考时间区间的时间长度，例如可以是10ms。终端可以读取第一参考时间区间的区间长度，并将其作为第二参考时间区间的区间长度，并基于每个第一目标音频数据点可得到各第一目标音频数据点对应的第二参考时间区间，例如可以将第一目标音频数据点对应的时间值作为第二参考时间区间的一个区间端点，并利用的得到的区间长度，生成与该第一目标音频数据点对应的第二参考时间区间。

步骤S203，终端根据第一参考时间区间以及第二参考时间区间得到各第一目标音频数据点的自相关误差。

终端得到第一参考时间区间以及第二参考时间区间后，可以通过第一参考时间区间以及第二参考时间区间计算该第一目标音频数据点的自相关误差，同时重复上述过程，进而可得到每个第一目标音频数据点的自相关误差。

进一步地，如图3所示，步骤S203可以进一步包括：

步骤S301，终端将多个第一音频数据点中位于第一参考时间区间中的音频数据点作为第一参考频点，得到多个第一参考频点，以及多个第一参考频点的频率作为第一参考频率；

步骤S302，终端将多个第一音频数据点中位于第二参考时间区间中的音频数据点作为第二参考频点，得到多个第二参考频点，以及多个第二参考频点的频率作为第二参考频率。

具体地，步骤S201以及步骤S202中终端得到第一参考时间区间以及第二参考时间区间后，终端可以分别确定位于第一参考时间区间以及第二参考时间区间的多个第一音频数据点，分别作为第一参考频点以及第二参考频点，同时可获取每个第一参考频点的频率，作为多个第一参考频率，以及每个第二参考频点的频率，作为多个第二参考频率。

步骤S303，终端获取各第一参考频率与各第二参考频率的误差平方值，得到多个误差平方值。

由于下采样过程中，采样频率固定，且第一参考时间区间以及第二参考时间区间的区间长度也相同，因此第一参考频点的频点数与第二参考频点的频点数也是相同的，因此必定存在与第一参考频点对应的第二参考频点，可以分别求取每个第一参考频点的第一参考频率与其对应的第二参考频点的第二参考频率的误差平方值，从而得到多个误差平方值。

例如：第一参考时间区间包括的第一参考频点包括频点A、频点B以及频点C，分别对应频率A、频率B以及频率C，而第二参考时间区间中的第二参考频点则包括频点D、频点E以及频点F，分别对应频率D、频率E以及频率F，同时频点A与频点D对应，频点B与频点E对应，频点C与频点F对应，那么此时可以分别计算频率A与频率D的误差平方值，频率B与频率E的误差平方值以及频率C与频率F的误差平方值，分别得到多个误差平方值。

步骤S304，终端将多个误差平方值进行求和处理，得到各第一目标音频数据点的自相关误差。

具体地，终端可将步骤S303中得到的多个误差平方值进行求和，作为该第一目标音频数据点的自相关误差，并重复上述过程，可得到每个第一目标音频数据点的自相关误差。

本实施例中，终端可通过确定每个第一目标音频数据点对应的第二参考时间区间，计算与第一参考时间区间的自相关误差，可得到各个第一目标音频数据点的自相关误差，另外计算自相关误差是通过计算第二参考时间区间内的音频数据点与第一参考时间区间内的音频数据点的误差平方和得到，有利于提高得到的自相关误差的准确性，从而进一步提高基频获取的精度。

在一个实施例中，如图4所示，步骤S104可以进一步包括：

步骤S401，终端确定最小波谷值对应的第一时间值以及次最小波谷值对应的第二时间值。

其中，自相关误差曲线的横轴为时间轴，纵轴则表示第一目标音频数据点的自相关误差的大小，具体来说，终端首先可以从自相关误差曲线中确定自相关误差曲线的最小波谷值以及次最小波谷值，并分别获取最小波谷值以及次最小波谷值对应的横坐标，分别将其作为最小波谷值对应的第一时间值以及次最小波谷值对应的第二时间值。

步骤S402，终端获取预设的时长区间范围；

步骤S403，终端根据第一时间值以及时长区间范围得到第一时间区间，以及根据第二时间值以及时长区间范围得到第二时间区间。

其中，时长区间范围用于表示待生成的第一时间区间以及第二时间区间的区间长度，而第一时间值与第二时间值则是用于表示待生成的第一时间区间以及第二时间区间的区间位置，终端可以通过预先设定的时长区间范围，以及步骤S401中得到的第一时间值与第二时间值，进而分别得到第一时间区间以及第二时间区间。

进一步地，步骤S403可以进一步包括：终端以第一时间值作为第一区间中点，以及以时长区间范围作为第一区间中点与区间端点之间的区间长度，生成第一时间区间；终端以第二时间值作为第二区间中点，以及以时长区间范围作为第二区间中点与区间端点之间的区间长度，生成第二时间区间。

其中，时长区间范围还可以是用于描述区间中点至区间端点之间的区间长度，具体来说，终端可以将第一时间值作为第一时间区间的中点，即第一区间中点，并利用第一区间中点与时长区间范围生成第一时间区间，同时还可以将第二时间值作为第二时间区间的中点，即第二区间中点，并利用第二区间中点与时长区间范围生成第二时间区间。

例如：终端得到的最小波谷值所对应的时间值，即第一时间值为0.03s，而设定的时长区间范围为0.02ms，那么得到的第一时间区间的即为0.03s-0.02ms到0.03s+0.02ms之间。

本实施例中，终端可根据设定的时长区间范围以及最小波谷值的第一时间值与次最小波谷值对应的第二时间值，可以分别得到第一时间区间与第二时间区间，另外，还通过将第一时间值与第二时间值设定为中点的方式，相比将第一时间值与第二时间值设定为区间端点的方式，可以进一步提高得到的第一时间区间与第二时间区间的准确度，从而进一步提高基频获取的准确性。

在一个实施例中，步骤S108之后，还可以包括：终端基于各时域信号帧的基频，确定各时域信号帧的初始音高；获取与初始音高对应的升调音高以及降调音高；利用升调音高以及降调音高对各时域信号帧进行和声处理。

其中，初始音高可以通过基频的频率换算得到，而升调音高与降调音高则分别是终端对初始音高进行升调处理以及降调处理得到，终端可以利用得到的每个时域信号帧的基频确定其对应的初始音高，进而得到升调音高以及降调音高，最后可利用得到的升调音高以及降调音高对每个时域信号帧进行和声处理。

本实施例中，终端可通过得到的每个时域信号帧的基频实现和声处理，通过采用精度更高的基频进行和声处理，有利于减少和声后的音频与原声的差距，提高和声处理的效果。

在一个应用实例中，基于改进基频搜索的和声处理系统及方法，其中，该系统的整体架构，如图5所示，可包括：

拾音单元，获取音频信号。缓存音频信号，当音频信号累计缓存达到一帧数据时，将信号分别输入基频查找单元跟和声生成单元；

基频查找单元，通过基频估算算法算出对应的频率，以及该频率对应调式最接近的key值(即音阶值)，并提取原始人声输出至混响单元。

音效定制单元，通过用户需求选择语音合成的效果类型；

和声处理单元，根据基频查找单元得到的key值，然后根据程序中存储的和弦表，然后生成和弦表中对应音高的声音，然后把主旋律的声音(输入音频)跟和声效果的声音混合起来输出至混响单元。

电音处理单元，计算基频查找模块算得的频率值以及key值对应的标准key的比值，按这个比值重新调整电音单元处理器参数，然后得到电音计算的结果输出至混响单元；

混响单元：对输入的原始人声、和声、电音进行混响处理，然后输出至限幅单元。

限幅单元，由于和声单元跟电音处理单元中会改变数据的幅值。这里将数据重新限幅到数字数模转换单元的位宽，最后输出至音频输出单元，得到和声音频。

具体来说，基于改进基频搜索的和声处理方法可以包括如下步骤：

1、获取时域音频信号，这里以采样率44.1kHz，位宽16bit的数据为例。

2、进行数据缓存，当数据到达一帧处理长度5ms的时候，输入基频查找单元。

3、基频查找单元中，将输入的音频通过一个截止频率为4k的低通滤波器，然后将滤波后的数据进行下采样，这里的下采样比例P为11.025(输入采样率44.1k/4k)，向下取整。图3的第二个图是4K下采样的波形。将输出的数据写入缓存区。这里的缓存区是指先入先出的堆栈存储单元(定义为第一缓存区)，可以是存储50ms的4k采样率单声道16bit音频的空间。在未采集音频数据时(缓存区闲置的初始状态)，缓存区的用幅度值为0的音频信号(静音信号)填充。

如图6所示，以最新进入缓存区的音频数据标记为0，取0到-10ms的数据记为参考频点in_data，将缓存区中从-30ms到-12ms的位置这段区间设置为音频数据点选择区间，所述的音频数据点选择区间内的每个数据点(采样点)，作为起始点，例如，在-14ms处，存在第三个音频数据点，以10ms为频宽长度，则有-14到-4ms的数据记为s_data_3，计算s_data_3跟in_data的误差平方数组err_val_3，计算所述音频数据点选择区间的所有采样点的误差平方数组err_val_n，进一步对数组中的误差平方值求和，即Serr_val_n＝sum((in_data-s_data_n)*(in_data-s_data_n))；这里的_n表示的是从-30ms到-12ms的选取位置，得到误差平方值和曲线，如图7所示，将波谷的位置跟幅值记录下来。波谷位置即如图7中的矩形框位置。

其中，图7的是误差计算结果，纵轴是图6中频点选择区间内的频点与参考频点in_data的差值，横轴为时间轴，单位为秒(s)。

将波谷值记录到数组中，查找数组中的最小值和次最小值，信号上采样到88k(采样频率高，能够提高时间分辨率)，然后分别在最小值附近的预设时间(0.02ms)范围内和次最小值附近的预设时间(0.02ms)范围内进行查找最小值(基频)。

例如，在低采样率的时候查找到的最小波谷，分别是0.0033s的位置，0.004s的位置。然后又重新用88k做升采样处理，在升采样后，在0.0033s-0.02ms到0.0033s+0.02ms这段区间里，又计算一次自相关误差，查找最小值(基频)，同理，在0.004s-0.02ms到0.004s+0.02ms这段区间里，再查找一次最小值(基频)，最终得到的最小值记为f0，计算1/time_min的结果，即基频。

最后将查找到基频，这里记为f0，将该f0写入长度为5的先进先出的缓存区(第二缓存区)。对缓存区内的数组进行排序，输出中值，该中值即是查找到的目标基频。

按12平均律音高的频率换算得到key值，当前基频的key值计算公式如下：

key_index＝round(log(f0/65.41)/log(2)*12)

其中，以65.41Hz作为第一个key，依次增长，增长规律依照乐理中的12平均率，找到对应的key，Round表示临近取整。

4、和声效果生成单元：需要先配置调式，默认是C大调，可以切换成C小调或者G大调等。

本单元包含2个部分。

第一部分：包含计数模块、随机数生成模块、存储模块，所述的存储模块存储了常用和弦表。通过查找基频模块计算得到的key对应的和弦。计算key对应的和弦。在该实施例中，所述的key升3度的音高，和所述的key降3度的音高，确认这两个升降后的音高是否在预存的和弦组成表的结果里。

1)当两个升降后的音高在预存的和弦组成表的结果里，则所述的key升3度后，计算前后音高相差的半音个数K0，通过频率比换算公式得到的频率比为delta0，所述的key降3度后，计算前后音高相差的半音个数K1，通过频率比换算公式得到的频率比为delta1。

2)当两个升降后的音高不在预存的和弦组成表的结果里，则获取和弦表，匹配所述的和弦表中最接近所述key最接近的升调音高和降调音高，然后将所述最接近的升调音高和降调音高分别作为第一和声的音高和第二和声音高，分别计算出第一和声的音高和第二和声音高与初始key相差的半音个数KO和K1，根据频率比换算公式得到频率比delta0和delta1；

频率比换算公式：deltaN＝2^(k/12)；

第二部分：获取音频信号帧，以及当前key的升调频率比delta0和降调频率比delta1，利用当前key的升调频率比delta0和降调频率比delta1，到升调和声和降调和声；升调和声和降调和声的频谱叠加得到目标和声，并输出。

5、电音效果生成单元：也需要先配置调式，默认是C大调，可以切换成C小调或者G大调等。

6、bypass模块(断电控制模块)：Bypass(断电或掉电)的时候，数据继续经过和声模块，但不进行和声处理。

7、混响：对输入数据做常规的混响处理。

8、限幅处理输出单元：

以50ms为一个能量计算数据块大小，以10ms作为一个先进先出缓存单元，然后调整音量。音量映射曲线如图6所示，横轴是输入幅度，单位dB，纵轴是输出幅度，单位是dB；频谱通过限幅处理至16bit后，将数据输出到数模转换模块。

上述应用实例中提供的基频查找方法，通过截止频率为4k下采样得到音频数据，通过自相关的方式提取预设区间的频点计算相对误差，得到误差幅度谱，记录误差幅度谱的波谷位置和幅值，得到波谷频率数组，查找数组中最小值和次最小值，信号上采样到88k(采样频率高，能够提高时间分辨率)，分别最小值和次最小值附近的预设时间(0.02ms)范围内进行查找基频(频率最小值)，最后将查找到基频f0，所述的f0写入长度为5的先进先出的缓存区，对缓存区内的数组进行排序，输出中值，即目标基频。本应用实例依次通过波谷值查找，高采样后数据的细查，中值处理的多级查找基频的方式缩小查找范围，提高查找基频的精度。

应该理解的是，虽然本申请的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种音频信号的基频获取装置，包括：音频信号分帧模块801、信号帧下采样模块802、第一自相关模块803、波谷区间确定模块804、信号帧上采样模块805、第二自相关模块806、初始基频确定模块807和信号帧基频确定模块808，其中：

音频信号分帧模块801，用于对时域音频信号进行分帧，得到时域音频信号的多个时域信号帧；

信号帧下采样模块802，用于对各时域信号帧进行低通滤波，并针对低通滤波后的各时域信号帧进行下采样，得到低通滤波后的各时域信号帧包含的多个第一音频数据点；

第一自相关模块803，用于将多个第一音频数据点中位于预设的音频数据点选择区间中的音频数据点作为第一目标音频数据点，得到多个第一目标音频数据点，并确定各第一目标音频数据点的自相关误差，形成自相关误差曲线；

波谷区间确定模块804，用于确定自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间；

信号帧上采样模块805，用于针对低通滤波后的各时域信号帧进行上采样，得到低通滤波后的各时域信号帧包含的多个第二音频数据点；

第二自相关模块806，用于将多个第二音频数据点中位于第一时间区间以及第二时间区间的音频数据点作为第二目标音频数据点，得到多个第二目标音频数据点，并确定各第二目标音频数据点的自相关误差；

初始基频确定模块807，用于将自相关误差最小的第二目标音频数据点对应的音频频率作为各时域信号帧的初始基频；

信号帧基频确定模块808，用于根据初始基频确定各时域信号帧的基频。

在一个实施例中，第一自相关模块803，进一步用于获取预设的第一参考时间区间的区间长度；基于区间长度，确定各第一目标音频数据点对应的第二参考时间区间；根据第一参考时间区间以及第二参考时间区间得到各第一目标音频数据点的自相关误差。

在一个实施例中，第一自相关模块803，进一步用于将多个第一音频数据点中位于第一参考时间区间中的音频数据点作为第一参考频点，得到多个第一参考频点，以及多个第一参考频点的频率作为第一参考频率；将多个第一音频数据点中位于第二参考时间区间中的音频数据点作为第二参考频点，得到多个第二参考频点，以及多个第二参考频点的频率作为第二参考频率；获取各第一参考频率与各第二参考频率的误差平方值，得到多个误差平方值；将多个误差平方值进行求和处理，得到各第一目标音频数据点的自相关误差。

在一个实施例中，波谷区间确定模块804，进一步用于确定最小波谷值对应的第一时间值以及次最小波谷值对应的第二时间值；获取预设的时长区间范围；根据第一时间值以及时长区间范围得到第一时间区间，以及根据第二时间值以及时长区间范围得到第二时间区间。

在一个实施例中，波谷区间确定模块804，进一步用于以第一时间值作为第一区间中点，以及以时长区间范围作为所述第一区间中点与区间端点之间的区间长度，生成第一时间区间；以及用于以第二时间值作为第二区间中点，以及以时长区间范围作为第二区间中点与区间端点之间的区间长度，生成第二时间区间。

在一个实施例中，信号帧基频确定模块808，进一步用于确定当前时域信号帧；若当前时域信号帧为首帧，则将当前时域信号帧对应的初始基频作为当前时域信号帧的基频；若当前时域信号帧为非首帧，则获取位于当前时域信号帧之前的预设数量的时域信号帧对应的初始基频；将当前时域信号帧对应的初始基频、位于当前时域信号帧之前的预设数量的时域信号帧对应的初始基频的音频中值作为当前时域信号帧的基频。

在一个实施例中，音频信号的基频获取装置，还包括：和声处理模块，用于基于各时域信号帧的基频，确定各时域信号帧的初始音高；获取与初始音高对应的升调音高以及降调音高；利用升调音高以及降调音高对各时域信号帧进行和声处理。

关于，音频信号的基频获取装置的具体限定可以参见上文中对于，音频信号的基频获取方法的限定，在此不再赘述。上述，音频信号的基频获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种，音频信号的基频获取方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频信号的基频获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定各第一目标音频数据点的自相关误差，包括：

获取预设的第一参考时间区间的区间长度；

基于所述区间长度，确定所述各第一目标音频数据点对应的第二参考时间区间；

根据所述第一参考时间区间以及所述第二参考时间区间得到所述各第一目标音频数据点的自相关误差。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一参考时间区间以及所述第二参考时间区间得到所述各第一目标音频数据点的自相关误差，包括：

将所述多个第一音频数据点中位于所述第一参考时间区间中的音频数据点作为第一参考频点，得到多个第一参考频点，以及所述多个第一参考频点的频率作为第一参考频率；

将所述多个第一音频数据点中位于所述第二参考时间区间中的音频数据点作为第二参考频点，得到多个第二参考频点，以及所述多个第二参考频点的频率作为第二参考频率；

获取各第一参考频率与各第二参考频率的误差平方值，得到多个误差平方值；

将所述多个误差平方值进行求和处理，得到所述各第一目标音频数据点的自相关误差。

4.根据权利要求1所述的方法，其特征在于，所述确定所述自相关误差曲线的最小波谷值对应的第一时间区间以及次最小波谷值对应的第二时间区间，包括：

确定所述最小波谷值对应的第一时间值以及所述次最小波谷值对应的第二时间值；

获取预设的时长区间范围；

根据所述第一时间值以及所述时长区间范围得到所述第一时间区间，以及根据所述第二时间值以及所述时长区间范围得到所述第二时间区间。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一时间值以及所述时长区间范围得到所述第一时间区间，以及根据所述第二时间值以及所述时长区间范围得到所述第二时间区间，包括：

以所述第一时间值作为第一区间中点，以及以所述时长区间范围作为所述第一区间中点与区间端点之间的区间长度，生成所述第一时间区间；

和/或

以所述第二时间值作为第二区间中点，以及以所述时长区间范围作为所述第二区间中点与区间端点之间的区间长度，生成所述第二时间区间。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述位于所述当前时域信号帧之前的预设数量的时域信号帧包括：位于所述当前时域信号帧之前的四个时域信号帧。

7.根据权利要求1所述的方法，其特征在于，所述根据所述初始基频确定所述各时域信号帧的基频之后，所述方法还包括：

基于所述各时域信号帧的基频，确定所述各时域信号帧的初始音高；

获取与所述初始音高对应的升调音高以及降调音高；

利用所述升调音高以及所述降调音高对所述各时域信号帧进行和声处理。

8.一种音频信号的基频获取装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。