CN111415681A

CN111415681A - 一种基于音频数据确定音符的方法及装置

Info

Publication number: CN111415681A
Application number: CN202010187328.4A
Authority: CN
Inventors: 韩忠涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-14
Anticipated expiration: 2040-03-17
Also published as: CN111415681B

Abstract

一种基于音频数据确定音符的方法及装置，涉及数据处理领域。所述方法包括：当接收到音符确定指令时，获取待分析的音频数据；在频域中，确定音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率；从预设频率范围中选取多个初始频率；针对每个初始频率，生成预设数目个与初始频率成倍数关系的预测频率，预设数目个预测频率与初始频率之间的倍数包括1至预测数目之间的整数；根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值；将对应的函数值最小的初始频率作为音频数据的基础频率；采用预设的频率转换音符方式，确定基础频率对应的音符。采用本申请，能够提高基础频率的识别准确率。

Description

一种基于音频数据确定音符的方法及装置

技术领域

本申请涉及数据处理领域，尤其涉及一种基于音频数据确定音符的方法及装置。

背景技术

随着互联网技术的发展，电子设备可以具有基于音频数据确定音符的功能，例如，电子设备可以针对构成伴奏音乐的每个音频帧，基于该音频帧的音频数据进行识别，得到该音频帧对应的音符，由此，电子设备可以确定构成伴奏音乐的各音频帧对应的音符，得到伴奏音乐的乐谱。电子设备基于音频数据确定音符时，最关键的是要从每个音频帧的音频数据中提取出声音的基础频率。

相关技术中，电子设备可以通过多种提取算法，从音频数据中提取基础频率，提取算法例如基于时域分析的自相关函数算法、基于时域分析的YIN算法。然而，采用上述提取算法确定基础频率时，容易受到噪声的干扰，导致基础频率的识别准确率低。

发明内容

为了解决上述基础频率的识别准确率低的技术问题，本申请提供了一种基于音频数据确定音符的方法及装置。

第一方面，本申请提供了一种基于音频数据确定音符的方法，所述方法包括：

当接收到音符确定指令时，获取待分析的音频数据；

在频域中，确定所述音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率；

从预设频率范围中，选取多个初始频率；

针对每个初始频率，生成预设数目个与初始频率成倍数关系的预测频率，所述预设数目个预测频率与所述初始频率之间的倍数包括1至所述预测数目之间的整数；

根据所述多个预测频率、所述多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值；

将对应的函数值最小的初始频率作为所述音频数据的基础频率；

采用预设的频率转换音符方式，确定所述基础频率对应的音符。

可选的，所述根据所述多个预测频率、所述多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值，包括：

将所述多个幅值峰值中的最大值，作为最大幅值峰值；

针对每个预测频率，从多个度量频率中确定与该预测频率最接近的度量频率，得到目标度量频率；

根据第一预设损失函数、所述预测频率、所述最大幅值峰值、所述目标度量频率、所述目标度量频率对应的幅值峰值，计算与该预测频率对应的函数值；

基于所述各预测频率对应的函数值，计算该初始频率对应的函数值。

可选的，所述基于所述各预测频率对应的函数值，计算该初始频率对应的函数值，包括：

针对每个度量频率，从所述多个预测频率中确定与该度量频率最接近的目标预测频率；

根据第二预设损失函数、所述目标预测频率、所述最大幅值峰值、该度量频率、该度量频率对应的幅值峰值，计算与该度量频率对应的函数值；

基于所述各预测频率对应的函数值、所述各度量频率对应的函数值，计算与该初始频率对应的函数值。

将所述多个幅值峰值中的最大值，作为最大幅值峰值；

基于所述各度量频率对应的函数值，计算与该初始频率对应的函数值。

可选的，所述在频域中，确定所述音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率，包括：

在频域中，确定所述音频数据包含的多个初始幅值峰值；

对每个所述初始幅值峰值进行修正处理，得到修正后的幅值峰值；

将每个幅值峰值对应的频率作为度量频率。

第二方面，本申请还提供了一种基于音频数据确定音符的装置，所述装置包括：

获取模块，用于当接收到音符确定指令时，获取待分析的音频数据；

第一确定模块，用于在频域中，确定所述音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率；

选取模块，用于从预设频率范围中，选取多个初始频率；

生成模块，用于针对每个初始频率，生成预设数目个与初始频率成倍数关系的预测频率，所述预设数目个预测频率与所述初始频率之间的倍数包括1至所述预测数目之间的整数；

计算模块，用于根据所述多个预测频率、所述多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值；

第二确定模块，用于将对应的函数值最小的初始频率作为所述音频数据的基础频率；

第三确定模块，用于采用预设的频率转换音符方式，确定所述基础频率对应的音符。

可选的，所述计算模块包括：

第一计算子模块，用于将所述多个幅值峰值中的最大值，作为最大幅值峰值；

第一确定子模块，用于针对每个预测频率，从多个度量频率中确定与该预测频率最接近的度量频率，得到目标度量频率；

第二计算子模块，用于根据第一预设损失函数、所述预测频率、所述最大幅值峰值、所述目标度量频率、所述目标度量频率对应的幅值峰值，计算与该预测频率对应的函数值；

第三计算子模块，用于基于所述各预测频率对应的函数值，计算该初始频率对应的函数值。

可选的，所述第三计算子模块，具体用于：

可选的，所述计算模块，包括：

第四计算子模块，用于将所述多个幅值峰值中的最大值，作为最大幅值峰值；

第二确定子模块，用于针对每个度量频率，从所述多个预测频率中确定与该度量频率最接近的目标预测频率；

第五计算子模块，用于根据第二预设损失函数、所述目标预测频率、所述最大幅值峰值、该度量频率、该度量频率对应的幅值峰值，计算与该度量频率对应的函数值；

第六计算子模块，用于基于所述各度量频率对应的函数值，计算与该初始频率对应的函数值。

可选的，所述第一确定模块包括：

第三确定子模块，用于在频域中，确定所述音频数据包含的多个初始幅值峰值；

修正处理子模块，用于对每个所述初始幅值峰值进行修正处理，得到修正后的幅值峰值；

第四确定子模块，用于将每个幅值峰值对应的频率作为度量频率。

第三方面，本申请还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一第一方面所述的方法步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一第一方面所述的方法步骤。

第五方面，本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行任一第一方面所述的方法步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，可以在接收到音符确定指令时，获取待分析的音频数据；在频域中，确定音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率；从预设频率范围中，选取多个初始频率；针对每个初始频率，生成预设数目个与初始频率成倍数关系的预测频率，预设数目个预测频率与初始频率之间的倍数包括1至预测数目之间的整数；根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值；将对应的函数值最小的初始频率作为音频数据的基础频率；采用预设的频率转换音符方式，确定基础频率对应的音符。

本申请实施例中，利用声音在频域具有谐波属性这一特征，针对选取的每个初始频率，生成多个与初始频率成倍数关系的预测频率，然后，采用数据拟合的方式计算初始频率对应的函数值，即，根据多个预测频率、多个度量频率、每个度量频率对应的幅值峰值和预设损失函数，计算与该初始频率对应的函数值。利用初始频率对应的函数值衡量拟合程度，函数值越小表明拟合程度越高，之后，将函数值最小的初始频率作为音频数据的基础频率。

由于采用成倍数关系的多个预测频率拟合多个度量频率，能够减少在噪声影响下单个度量频率的提取失真对基础频率确定的影响，因此，能够提高基础频率的识别准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种声音的频谱图；

图2为本申请实施例提供的一种基于音频数据确定音符的方法的流程图；

图3a为本申请实施例提供的一种布莱克曼窗的示意图；

图3b为本申请实施例提供的一种音频数据的频谱图；

图4为本申请实施例提供的另一种基于音频数据确定音符的方法的流程图；

图5为本申请实施例提供的另一种基于音频数据确定音符的方法的流程图；

图6为本申请实施例提供的另一种基于音频数据确定音符的方法的流程图；

图7为本申请实施例提供的一种基于音频数据确定音符的装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种基于音频数据确定音符的方法，该方法应用于电子设备，电子设备可以是手机、平板电脑、可穿戴式电子设备等。

发明人研究发现：声音信号是随时间变化的信号，但在一个较短的时间内，通常可以认为声音信号是稳定的，所以基于一个音频帧的音频数据可以确定出一个音符。

而且，播放音乐的声音在频域中具有很明显的harmonic(谐波)属性，即，构成声音的多个频率包括：基础频率、与基础频率成倍频关系的频率，如图1所示，为本申请实施例提供的一种声音的频谱图，可见，声音的多个频率与基础频率成倍数关系。

理想情况下，从音频数据中提取出的多个度量频率之间成倍数关系，电子设备可以直接确定基础频率。然而实际处理过程中，由于噪声干扰，从音频数据中提取出的多个度量频率之间没有明确的倍数关系，因此，相关技术中，电子设备无法基于多个度量频率确定基础频率。

本申请实施例提供的基于音频数据确定音符的方法，可以基于声音的谐波属性和音频帧的音频数据确定基础频率，能够提高基础频率的识别准确率。

如图2所示，基于音频数据确定音符的方法的处理过程可以包括：

步骤201、当接收到音符确定指令时，获取待分析的音频数据。

在实施中，当想要识别某一音频中的音符时，用户可以执行音符确定操作，以使电子设备接收到音符确定指令，音频确定操作可以是发出识别音符的语音指令，音频确定操作也可以是点击电子设备中表示识别音符的预设图标。

在接收到音符确定指令后，电子设备可以获取待分析的音频数据。

电子设备可以通过多种方式获取待分析的音频数据，例如，电子设备可以采集当前场景中的音频数据，将采集到的每个音频帧的音频数据作为待分析的音频数据。电子设备也可以获取本地存储的音频数据，针对该音频数据包含的每个音频帧，将该音频帧的音频数据，作为待分析的音频数据。

通常情况下，一个音频帧可以包含几十毫秒的音频数据，本申请实施例中，可以将30ms的音频数据作为一个音频帧。

步骤202、在频域中，确定音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率。

在实施中，电子设备可以确定待分析的音频数据在频域中的频域信号，然后，电子设备可以在频域信号中，确定幅值大于预设幅值峰值阈值的坐标点，将确定出的坐标点的幅值作为幅值峰值，并将确定出的坐标点的频率作为与幅值峰值对应的度量频率。其中，预设幅值峰值阈值可以为-80dB。

本申请实施例中，电子设备可以采用STFT(Short-Time Fourier Transform，短时傅立叶变换)算法，对每个音频帧的音频数据进行分析，得到多个幅值峰值和每个幅值峰值对应的度量频率。

本申请实施例提供了一种STFT公式的表达式，如式(1)所示：

其中，X_l[k]表示短时傅立叶变换的频谱，k表示频域中第k个离散的频率位置，l表示帧序号，H表示处理时域音频时，从一个帧时间点跳到下一个帧时音频采样点时采样点的数目；N表示傅立叶变换的尺寸，也就是一个音频帧的音频数据的采样点的数目；w(n)表示分析窗口，分析窗口的类型需要根据声音的类型去选择，通常可以使用Blackman window(布莱克曼窗)。

本申请实施例还提供了一种Blackman window的公式，如式(2)所示：

w[n]＝0.42-0.5cos(2πn/M)+0.08cos(4πn/M),n＝-M/2,K,0,K,M/2 (2)

其中，M表示窗口的长度，Blackman window的时域波形图如图3a中的(1)所示，频域频谱图如图3a中的(2)所示。

如图3b所示，为本申请实施例提供的一种音频数据的频谱图，频谱图的横坐标为频率，纵坐标为幅值峰值。图3b包含多个用符号“×”标识的坐标点，每个坐标点的纵坐标为音频数据包含的幅值峰值，每个坐标点的横坐标为该幅值峰值对应的频率，也即度量频率。

步骤203、从预设频率范围中，选取多个初始频率。

其中，预设频率范围可以是100Hz-10000Hz。

在实施中，电子设备可以通过多种方式从预设频率范围中，选取初始频率。在一种可行的实现方式中，电子设备中可以预先存储有多个预设频率，电子设备可以将每个预设频率作为初始频率，得到多个初始频率。预设频率可以由开发人员根据经验设定。

在另一种可行的实现方式中，电子设备可以从预设频率范围中，随机选取多个初始频率。

以随机间隔选取为例，电子设备可以按照频率间隔和预设初始频率，选取多个初始频率。

例如，电子设备可以从预设频率范围100Hz-10000Hz中，以10Hz为频率间隔，100Hz为预设初始频率，选取990个初始频率，得到100Hz、110Hz、……、9990Hz，10000Hz。

以随机分层选取为例，电子设备中可以预先存储有多个预设频率，预设频率可以由开发人员根据经验设定。电子设备可以针对每个预设频率，确定包含该预设频率的频率区间，在该频率区间中随机选取多个频率，得到该预设频率对应的多个初始频率。由此，针对多个预设频率，电子设备可以确定出多个初始频率。

例如，预设频率为800Hz，电子设备可以针对该预设频率，确定频率区间798Hz～802Hz。然后，电子设备可以在该频率区间中随机选取5个频率，得到预设频率800Hz对应的5个初始频率。类似的，预设频率为860Hz，电子设备可以针对该预设频率，确定频率区间858Hz～862Hz。然后，电子设备可以在该频率区间中随机选取5个频率，得到预设频率860Hz对应的5个初始频率。

电子设备还可以通过其他方式从预设频率范围中选取多个初始频率，本申请实施例在此不再一一赘述。

步骤204、针对每个初始频率，生成预设数目个与初始频率成倍数关系的预测频率。

其中，预设数目个预测频率与初始频率之间的倍数包括1至预测数目之间的整数。

在实施中，电子设备可以获取预设数目，然后，电子设备可以针对每个初始频率，生成预设数目个与初始频率成倍数关系的频率，即，得到预设述目个预测频率。

例如，用N表示预设数目，用f_fund表示初始频率，用f_n表示预测频率，预设数目个与初始频率f_fund成倍数关系的预测频率f_n可以表示为：(1×f_fund,2×f_fund,L,N×f_fund)。

电子设备可以通过多种方式获取预设数目，在一种可行的实现方式中，电子设备可以从预先存储的预设数目范围中，选取某一数值作为预设数目。预设数目范围可以由开发人员根据经验设定，预设数目较大时，有利于针对包含少量噪声的音频数据确定基础频率；预设数目较小时，有利于抑制回响、环境干扰等因素的干扰。通常情况下，预设数目范围为0≤N≤10。

在另一种可行的实现方式中，预设数目可以由电子设备根据度量频率和初始频率计算得到，例如，电子设备可以计算最大度量频率与初始频率的比值，将该比值取整后的数值作为预设数目。预设数目可以表示为N＝ceil{f_max/f_fund}，其中f_max表示最大度量频率，f_fund表示初始频率。

步骤205、根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值。

在实施中，电子设备中可以预先设置有不同类别的预设损失函数，根据预设损失函数的类别的不同，电子设备根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值的方式也有所不同，具体处理过程后续会进行详细说明。

本申请实施例中，电子设备可以采用某一种类别的预设损失函数，计算与初始频率对应的函数值，即，电子设备可以根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和该预设损失函数，计算与该初始频率对应的函数值。

电子设备也可以结合多种类别的预设损失函数计算与初始频率对应的函数值，即，电子设备可以根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和多种类别的预设损失函数，计算与该初始频率对应的函数值。具体处理过程后续会进行详细说明。

在确定每个初始频率对应的函数值后，电子设备可以得到各初始频率对应的函数值。

本申请实施例中，损失函数的函数值越小，则表明预测频率与度量频率越接近。

步骤206、将对应的函数值最小的初始频率作为音频数据的基础频率。

在实施中，电子设备可以比较各初始频率对应的函数值，将对应的函数值最小的初始频率，作为音频数据的基础频率。

步骤207、采用预设的频率转换音符方式，确定基础频率对应的音符。

其中，电子设备中可以预先存储有频率与音符的对应关系。

在实施中，电子设备可以在频率与音符的对应关系所包含的多个频率中查找基础频率，再确定与基础频率对应的音符。电子设备也可以根据基础频率、预设的音符计算方式，计算基础频率对应的音符。

本申请实施例提供了一种频率与音符的对应关系，具体如表1所示：

表1

其中，0～9表示音符的八度。

在识别包含多个音频帧的音频数据的情况下，例如，识别伴奏音乐的乐谱的情况下，电子设备可以针对每个音频帧，采用上述处理方式，确定该音频帧的音频数据对应的音符，从而可以确定音频数据对应的多个音符。

本申请实施例中，可以在接收到音符确定指令时，获取待分析的音频数据；在频域中，确定音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率；从预设频率范围中，选取多个初始频率；针对每个初始频率，生成预设数目个与初始频率成倍数关系的预测频率，预设数目个预测频率与初始频率之间的倍数包括1至预测数目之间的整数；根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值；将对应的函数值最小的初始频率作为音频数据的基础频率；采用预设的频率转换音符方式，确定基础频率对应的音符。

可选的，本申请实施例提供了两种类别的预设损失函数，为了便于区分，分别称为第一预设损失函数和第二预设损失函数。

第一预设损失函数的表达式如式(3)所示：

其中，Loss_p->m是第一预设损失函数的函数值，表示从预测频率到度量频率方向的损失函数。f_n是预测频率，Δf_n是预测频率f_n与目标度量频率f_k之间的频率差值，可以表示为Δf_n＝|f_n-f_k|。a_n是预测频率的幅值峰值，可以将a_n赋值为A_k。A_max为多个幅值峰值中的最大幅值峰值。p可以取值为0.5，q可以取值为1.4，r可以取值为0.5，N表示预测频率的预设数目。

第二预设损失函数的表达式如式(4)所示：

其中，Loss_m->p是第二预设损失函数的函数值，表示从度量频率到预测频率方向的损失函数。f_k是度量频率，Δf_k是度量频率f_k与目标预测频率f_n之间的频率差值，可以表示为Δf_k＝|f_n-f_k|。a_k是度量频率的幅值峰值，a_k赋值为A_k。A_max为多个幅值峰值中的最大幅值峰值。p可以取值为0.5，q可以取值为1.4，r可以取值为0.5，K表示度量频率的数目。

本申请实施例中，针对不同类别的预设损失函数，电子设备可以选取不同的方式获取预设数目，例如，电子设备可以针对第一预设损失函数，从预设数目范围中选取预设数目。电子设备可以针对第二预设损失函数，计算最大度量频率与初始频率的比值，将该比值取整后的数值作为预设数目。

电子设备可以采用第一预设损失函数计算与初始频率对应的函数值，如图4所示，具体处理过程包括：

步骤401，将多个幅值峰值中的最大值，作为最大幅值峰值。

在实施中，电子设备可以比较音频数据包含的多个幅值峰值，将多个幅值峰值中的最大值作为最大幅值峰值。

例如，音频数据包含k个幅值峰值，k个幅值峰值可以表示为A_k，最大幅值峰值可以表示为A_max＝max{A_k}。k个幅值峰值对应的度量频率可以表示为f_k，最大度量频率可以表示为f_max＝max{f_k}。

步骤402，针对每个预测频率，从多个度量频率中确定与该预测频率最接近的度量频率，得到目标度量频率。

在实施中，电子设备可以针对每个预测频率，计算该预测频率与每个度量频率之间的频率差值，得到与多个度量频率对应的频率差值。然后，电子设备可以将对应的频率差值最小的度量频率，作为与该预测频率最接近的度量频率，也即，目标度量频率。

步骤403，根据第一预设损失函数、预测频率、最大幅值峰值、目标度量频率、目标度量频率对应的幅值峰值，计算与该预测频率对应的函数值。

在实施中，电子设备可以将预测频率f_n的幅值峰值a_n赋值为目标度量频率对应的幅值峰值A_k，然后，电子设备可以根据式(3)所示的第一预设损失函数、预测频率f_n、预测频率f_n与目标度量频率f_k之间的频率差值Δf_n＝|f_n-f_k|、最大幅值峰值A_max、预测频率的幅值峰值a_n，计算与预测频率f_n对应的函数值。

由此，电子设备可以计算得到与各预测频率对应的函数值。

步骤404，基于各预测频率对应的函数值，计算该初始频率对应的函数值。

在实施中，电子设备可以计算各预测频率对应的函数值的平均值，将平均值作为该初始频率对应的函数值。

或者，电子设备也可以根据其他类别的预设损失函数的函数值，计算初始频率对应的函数值。具体处理过程后续会进行详细说明。

本申请实施例基于表示从预测频率到度量频率这一方向的第一预设损失函数，对初始频率的多个预测频率和多个度量频率进行数据拟合，得到初始频率对应的函数值。即，针对每个预测频率，确定与该预测频率最接近的目标度量频率；再根据第一预设损失函数、预测频率、最大幅值峰值、目标度量频率、目标度量频率对应的幅值峰值，计算与该预测频率对应的函数值；再基于各预测频率对应的函数值，计算初始频率对应的函数值。

由于基于第一预设损失函数，将成倍数关系的多个预测频率与多个度量频率进行数据拟合，得到初始频率对应的函数值，因此，能够减少在噪声影响下少数度量频率的提取失真对基础频率确定的影响，从而能够提高基础频率的识别准确度和鲁棒性。

电子设备可以采用第二预设损失函数计算与初始频率对应的函数值，如图5所示，具体处理过程包括：

步骤501，将多个幅值峰值中的最大值，作为最大幅值峰值。

在实施中，此步骤的处理过程可以参照步骤401的处理过程，此处不再赘述。

步骤502，针对每个度量频率，从多个预测频率中确定与该度量频率最接近的预测频率，得到目标预测频率。

在实施中，电子设备可以针对每个度量频率，计算该度量频率与每个预测频率之间的频率差值，得到与多个预测频率对应的频率差值。然后，电子设备可以将对应的频率差值最小的预测频率，作为与该度量频率最接近的预测频率，也即，目标预测频率。

步骤503，根据第二预设损失函数、目标预测频率、最大幅值峰值、该度量频率、该度量频率对应的幅值峰值，计算与该度量频率对应的函数值。

在实施中，电子设备可以根据式(4)所示的第二预设损失函数、目标预测频率f_n、最大幅值峰值A_max、该度量频率f_k、该度量频率对应的幅值峰值a_k，计算与该度量频率对应的函数值。

步骤504，基于各度量频率对应的函数值，计算与该初始频率对应的函数值。

在实施中，电子设备可以计算各度量频率对应的函数值的平均值，将平均值作为该初始频率对应的函数值。

本申请实施例基于表示从度量频率到预测频率这一方向的第二预设损失函数，对初始频率的多个预测频率和多个度量频率进行数据拟合，得到初始频率对应的函数值。即，针对每个度量频率，确定与该度量频率最接近的目标预测频率；再根据第二预设损失函数、目标预测频率、最大幅值峰值、该度量频率、该度量频率对应的幅值峰值，计算与该度量频率对应的函数值；再基于各度量频率对应的函数值，计算初始频率对应的函数值。

由于基于第二预设损失函数，将成倍数关系的多个预测频率与多个度量频率进行数据拟合，得到初始频率对应的函数值，因此，能够减少在噪声影响402下少数度量频率的提取失真对基础频率确定的影响，从而能够提高基础频率的识别准确度和鲁棒性。

可选的，电子设备可以结合多种类别的预设损失函数计算与初始频率对应的函数值，本申请实施例提供了一种电子设备结合第一预设损失函数、第二预设损失函数，计算与初始频率对应的函数值的实现方式，如图6所示，包括：

步骤601，将多个幅值峰值中的最大值，作为最大幅值峰值。

步骤602，针对每个预测频率，从多个度量频率中确定与该预测频率最接近的度量频率，得到目标度量频率。

在实施中，此步骤的处理过程可以参照步骤402的处理过程，此处不再赘述。

步骤603，根据第一预设损失函数、预测频率、最大幅值峰值、目标度量频率、目标度量频率对应的幅值峰值，计算与该预测频率对应的函数值。

在实施中，此步骤的处理过程可以参照步骤403的处理过程，此处不再赘述。

步骤604，针对每个度量频率，从多个预测频率中确定与该度量频率最接近的目标预测频率。

在实施中，此步骤的处理过程可以参照步骤502的处理过程，此处不再赘述。

步骤605，根据第二预设损失函数、目标预测频率、最大幅值峰值、该度量频率、该度量频率对应的幅值峰值，计算与该度量频率对应的函数值。

在实施中，此步骤的处理过程可以参照步骤503的处理过程，此处不再赘述。

步骤606，基于各预测频率对应的函数值、各度量频率对应的函数值，计算与该初始频率对应的函数值。

在实施中，电子设备可以按照预设的预测频率的权重、度量频率的权重、各预测频率对应的函数值、各度量频率对应的函数值，计算与该初始频率对应的函数值。

电子设备可以采用式(5)计算初始频率对应的函数值：

Loss_total＝Loss_p->m/(N)+ρLoss_m->p/(K) (5)

其中，Loss_total表示初始频率对应的函数值，Loss_p->m表示各预测频率对应的函数值，Loss_m->p表示各度量频率对应的函数值，度量频率的权重为ρ，预测频率的权重为1。ρ为经验值，ρ可以取值为0.33。

本申请实施例对步骤602～步骤603，与步骤604～步骤605之间的执行顺序不作具体限定。

本申请实施例中，电子设备可以结合表示从预测频率到度量频率这一方向的第一预设损失函数、表示从度量频率到预测频率这一方向的第二预设损失函数，对初始频率的多个预测频率和多个度量频率进行数据拟合。由此，可以从两个方向计算基础频率，能够进一步提高基础频率的识别准确度和鲁棒性。

可选的，为了提高基础频率的计算准确度，电子设备还可以采用插值处理的方式确定音频数据的多个幅值峰值和每个幅值峰值对应的度量频率，具体处理过程包括：

步骤1、在频域中，确定音频数据包含的多个初始幅值峰值。

在实施中，电子设备可以在确定待分析的音频数据在频域中的频域信号，然后，电子设备可以在频域信号中，确定幅值大于预设幅值峰值阈值的坐标点，将确定出的坐标点的幅值峰值作为初始幅值峰值。其中，预设幅值峰值阈值可以为-80dB。

步骤2、对每个初始幅值峰值进行修正处理，得到修正后的幅值峰值。

在实施中，电子设备可以针对每个初始幅值峰值，根据该初始幅值峰值和预设的插值公式，计算修正后的幅值峰值。

本申请实施例提供了一种对初始幅值峰值进行修正处理，得到修正后的幅值峰值的实现方式：

由于音频频率信号的峰值位置组成的曲线可以近似为抛物线，每个抛物线的中心点对应于一个初始幅值峰值，电子设备可以确定抛物线的中心点，将中心点的幅值作为修正后的幅值峰值。

电子设备采用抛物线插值的方式对初始幅值峰值进行修正处理，抛物线的方程可以表示为X[n]＝a(n-p)²+b，其中，p表示抛物线的中心点，a表示抛物线的弯曲程度参数，b表示偏移量，n表示抛物线上坐标点n的横坐标，即，坐标点n的频率，X[n]表示抛物线上坐标点n的纵坐标，即，坐标点n的幅值。

电子设备可以针对频域信号中的每个抛物线，从该抛物线上取三个坐标点，这三个坐标点的横坐标分别为k_p-1、k_p和k_p+1，这三个坐标点的纵坐标可以表示为X[k_p]＝β、X[k_p-1]＝α、X[k_p+1]＝γ，其中，横坐标为k_p的坐标点的纵坐标可以为初始幅值峰值，α表示坐标点k_p-1的纵坐标，β表示k_p的纵坐标，γ表示坐标点k_p+1的纵坐标。

将三个坐标点的横坐标和纵坐标带入抛物线的方程可以得到式(6)：

通过解式(6)可以得到

中心点p的幅值为b，b的表达式即插值公式，为

然后，电子设备可以将b作为修正后的幅值峰值。

步骤3、将每个幅值峰值对应的频率作为度量频率。

本申请实施例中，电子设备可以在频域中，确定音频数据包含的多个初始幅值峰值，然后，电子设备可以对每个初始幅值峰值进行修正处理，得到修正后的幅值峰值，之后，电子设备可以将每个幅值峰值对应的频率作为度量频率。由于对音频数据包含的多个初始幅值峰值进行修正处理，因此，能够提高幅值峰值的确定精度，从而提高基础频率的识别准确度。

基于相同的技术构思，本申请实施例还提供了一种基于音频数据确定音符的装置，如图7所示，所述装置包括：

获取模块710，用于当接收到音符确定指令时，获取待分析的音频数据；

第一确定模块720，用于在频域中，确定所述音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率；

选取模块730，用于从预设频率范围中，选取多个初始频率；

生成模块740，用于针对每个初始频率，生成预设数目个与初始频率成倍数关系的预测频率，所述预设数目个预测频率与所述初始频率之间的倍数包括1至所述预测数目之间的整数；

计算模块750，用于根据所述多个预测频率、所述多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值；

第二确定模块760，用于将对应的函数值最小的初始频率作为所述音频数据的基础频率；

第三确定模块770，用于采用预设的频率转换音符方式，确定所述基础频率对应的音符。

可选的，所述计算模块包括：

可选的，所述第三计算子模块，具体用于：

可选的，所述计算模块，包括：

可选的，所述第一确定模块包括：

本申请实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述一种基于音频数据确定音符的方法步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于音频数据确定音符的方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于音频数据确定音符的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于音频数据确定音符的方法，其特征在于，所述方法包括：

当接收到音符确定指令时，获取待分析的音频数据；

从预设频率范围中，选取多个初始频率；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个预测频率、所述多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值，包括：

将所述多个幅值峰值中的最大值，作为最大幅值峰值；

3.根据权利要求2所述的方法，其特征在于，所述基于所述各预测频率对应的函数值，计算该初始频率对应的函数值，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述多个预测频率、所述多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数，计算与该初始频率对应的函数值，包括：

将所述多个幅值峰值中的最大值，作为最大幅值峰值；

5.根据权利要求1所述的方法，其特征在于，所述在频域中，确定所述音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率，包括：

在频域中，确定所述音频数据包含的多个初始幅值峰值；

将每个幅值峰值对应的频率作为度量频率。

6.一种基于音频数据确定音符的装置，其特征在于，所述装置包括：

选取模块，用于从预设频率范围中，选取多个初始频率；

7.根据权利要求6所述的装置，其特征在于，所述计算模块包括：

8.根据权利要求7所述的装置，其特征在于，所述第三计算子模块，具体用于：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法步骤。