CN110688518A

CN110688518A - 节奏点的确定方法、装置、设备及存储介质

Info

Publication number: CN110688518A
Application number: CN201910967555.6A
Authority: CN
Inventors: 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-01-14

Abstract

本申请公开了一种节奏点的确定方法、装置、设备及存储介质，属于数据处理技术领域。该方法包括：获取待处理的第一音频的多个音频帧，每个音频帧包括多个采样点，基于节奏可感知时长，将多个音频帧分成多组，每组包括至少一个音频帧，第一音频的音频时长包括多个节奏可感知时长，从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，得到多个备选节奏点，基于多个备选节奏点，确定第一音频的节奏点。如此，基于节奏可感知时长在第一音频中确定多个可能为音频的节奏点的备选节奏点，再对多个备选节奏点进行处理，如删除不能作为音频的节奏点的备选节奏点，进而确定第一音频的节奏点，提高了确定音频的节奏点的准确率。

Description

节奏点的确定方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种节奏点的确定方法、装置、设备及存储介质。

背景技术

如今，节奏与人们日常生活的联系越来越紧密，譬如人们可以随着音频的节奏进行运动、可以基于音频的节奏设计出相应的节奏游戏、可以设计灯光随着音频的节奏进行闪烁等。为了获取音频的节奏，通常需要从音频中确定节奏点，所以在相关技术领域中，如何准确地确定音频的节奏点成为当前亟需解决的问题。

发明内容

本申请实施例提供了一种节奏点的确定方法、装置、设备及存储介质，可以解决相关技术中节奏点的确定结果不准确的问题。所述技术方案如下：

一方面，提供了一种节奏点的确定方法，所述方法包括：

获取待处理的第一音频的多个音频帧，每个音频帧包括多个采样点；

基于节奏可感知时长，将所述多个音频帧分成多组，每组包括至少一个音频帧，所述第一音频的音频时长包括多个所述节奏可感知时长；

从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，得到多个备选节奏点；

基于所述多个备选节奏点，确定所述第一音频的节奏点。

在本申请一种可能的实现方式中，当每组内包括多个音频帧时，所述从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，包括：

对于多组中的任一组，基于所述任一组内的多个音频帧中每个音频帧的音频总能量，从所述任一组内的多个音频帧中确定多个目标音频帧；

从所述任一组内的多个目标音频帧中选择最大音频能量的目标音频帧；

将选择的目标音频帧内的第一个采样点确定为所述任一组的备选节奏点。

在本申请一种可能的实现方式中，所述从所述任一组内的多个音频帧中确定多个目标音频帧，包括：

对于所述任一组内的多个音频帧中的任一音频帧，当所述任一音频帧的音频总能量与相邻的下一个音频帧的音频总能量之间的差值大于音频能量阈值时，从所述任一音频帧和下一个音频帧中选择音频总能量最大的音频帧；

将选择的音频帧确定为所述任一组内的多个音频帧的一个目标音频帧。

在本申请一种可能的实现方式中，当所述第一音频中包括人声时，所述基于所述多个备选节奏点，确定所述第一音频的节奏点，包括：

确定所述第一音频中包括人声的音频部分；

将所述多个备选节奏点中除所述音频部分对应的备选节奏点之外的备选节奏点和所述音频部分对应的人声采样点确定为所述第一音频的节奏点，所述人声采样点是指存在人声的音频部分对应的采样点。

在本申请一种可能的实现方式中，所述获取待处理的第一音频的多个音频帧之前，还包括：

对所述第一音频进行过滤处理，得到第二音频，所述第二音频的频率大于等于第一预设频率阈值且小于等于第二预设频率阈值；

相应地，所述获取待处理的第一音频的多个音频帧，包括：

获取所述第二音频的多个音频帧。

在本申请一种可能的实现方式中，所述基于所述多个备选节奏点，确定所述第一音频的节奏点，包括：

当所述多个备选节奏点中存在相邻两个备选节奏点之间的时长小于所述节奏可感知时长时，将所述相邻两个备选节奏点中音频能量小的备选节奏点删除；

当删除后剩余的多个备选节奏点中不存在相邻两个备选节奏点之间的时长小于所述节奏可感知时长时，将删除后剩余的多个备选节奏点确定为所述第一音频的节奏点。

另一方面，提供了一种节奏点的确定装置，所述装置包括：

获取模块，用于获取待处理的第一音频的多个音频帧，每个音频帧包括多个采样点；

分组模块，用于基于节奏可感知时长，将所述多个音频帧分成多组，每组包括至少一个音频帧，所述第一音频的音频时长包括多个所述节奏可感知时长；

备选节奏点确定模块，用于从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，得到多个备选节奏点；

节奏点确定模块，用于基于所述多个备选节奏点，确定所述第一音频的节奏点。

在本申请一种可能的实现方式中，当每组内包括多个音频帧时，所述备选节奏点确定模块用于：

在本申请一种可能的实现方式中，所述备选节奏点确定模块用于：

在本申请一种可能的实现方式中，当所述第一音频中包括人声时，所述节奏点确定模块用于：

确定所述第一音频中包括人声的音频部分；

在本申请一种可能的实现方式中，所述获取模块还用于：

相应地，所述获取模块用于：

获取所述第二音频的多个音频帧。

在本申请一种可能的实现方式中，所述节奏点确定模块用于：

另一方面，提供了一种电子设备，包括：

处理器；

存储器，所述存储器存储有所述处理器可执行的指令；

其中，所述处理器被配置为为执行所述指令并实现上述一方面所述的节奏点的确定方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述一方面所述的节奏点的确定方法。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述一方面所述的节奏点的确定方法。

本申请实施例提供的技术方案带来的有益效果是：

获取待处理的第一音频的多个音频帧，每个音频帧包括多个采样点，基于节奏可感知时长，将多个音频帧分成多组，也就是将第一音频分为多组音频，每组音频的时长为节奏可感知时长，由于节奏可感知时长一般大于等于一个音频帧的时长，因此每组包括至少一个音频帧，第一音频的音频时长包括多个节奏可感知时长，也就说明可以基于该多个节奏可感知时长在第一音频中确定多个备选节奏点，即从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，得到多个备选节奏点，之后即可基于多个备选节奏点确定第一音频的节奏点。通过在每个节奏可感知时长对应的每组音频中确定用户最容易感知的备选节奏点，进而基于确定的备选节奏点确定音频的节奏点更符合用户的感知习惯，提高了确定音频的节奏点的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种节奏点的确定方法的流程图；

图2是根据一示例性实施例示出的一种节奏点的确定装置的结构示意图；

图3是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的节奏点的确定方法进行详细介绍之前，对本申请实施例涉及的实施环境进行简单介绍。

本申请实施例提供的节奏点的确定方法可以由电子设备来执行，该电子设备可以对音频进行数据处理。作为一种示例，该电子设备可以为笔记本电脑、便携式计算机、台式计算机等，本申请实施例对此不做限定。

在介绍完本申请实施例涉及的实施环境后，接下来将结合附图对本申请实施例提供的节奏点的确定方法进行详细介绍。

请参考图1，该图1是根据一示例性实施例示出的一种节奏点的确定方法的流程图，本实施例以该方法应用于上述实施环境中为例进行说明，该方法可以包括如下几个实现步骤：

步骤101：获取待处理的第一音频的多个音频帧，每个音频帧包括多个采样点。

可以认为需要被电子设备处理以确定节奏点的音频为第一音频，需要说明的是，该第一音频的类型可以有多种，譬如该第一音频的类型可以是歌曲，也可以是演说、辩论等，本实施例对此不做限定。还需要说明的是，该第一音频可以是用户上传的音频，也可以是电子设备中存储的音频，还可以是电子设备从服务器下载的音频，本实施例对此不做限定。

为了便于确定第一音频的节奏点，电子设备一般会对第一音频进行一些预处理，如采样、分帧等处理。第一音频在经过采样处理后，一般包括多个采样点。其中，采样点的数量可以通过音频采样率确定，也就是可以通过一秒钟内采样的点的数量来确定，音频采样率可以基于实际情况进行设置，通常情况下，音频采样率一般设置为大于等于8KHz，小于等于48KHz。

在确定第一音频的采样点后，对第一音频进行分帧处理，也就是将第一音频分为多个时长相同的音频帧，每个音频帧包括多个采样点且每个音频帧包括的采样点的数量相同，音频帧的时长可以根据实际情况进行设置，一般来说可以设置每个音频帧的时长大于等于2.5毫秒，小于等于60毫秒。

譬如，可以设置每个音频帧的时长为25毫秒，假设第一音频的时长为2分钟，当相邻两个音频帧之间的时长间隔为25毫秒时，也就是相邻两个音频帧的第一采样点之间的时长间隔为25毫秒，由于2分钟可以分为4800个25毫秒，也就可以认为该第一音频包括4800个音频帧。需要说明的是，相邻两个音频帧之间的时长间隔还可以取其他的值，譬如，可以设置相邻两个音频帧之间的时长间隔为5毫秒，也就是相邻两个音频帧的第一个采样点之间的时长间隔为5毫秒，如此当每个音频帧的时长为25毫秒，第一音频的时长为2分钟时，可以认为该第一音频包括24000个音频帧。

进一步地，在获取待处理的第一音频的多个音频帧之前，还可以对第一音频进行如下操作：对第一音频进行过滤处理，得到第二音频，第二音频的频率大于等于第一预设频率阈值且小于等于第二预设频率阈值。

一般来说，第一音频中包括的声音频率可以有多种，譬如当第一音频是由多种不同的乐器的声音合成得来时，由于不同的乐器的声音的频率有所不同，相应的合成的第一音频中也就包括多种频率的声音，如第一音频中可能包括超低频、低频、中低频、中频、中高频、高频和超高频等频率的声音。

通常来说，用户倾向于在中间频率的声音中确定节奏点，由此，在对第一音频进行节奏点确定之前，一般需要对第一音频进行过滤处理，也就是滤除较高频率或较低频率的声音，以减少对节奏点确定的影响。

其中，第一预设频率阈值和第二预设频率阈值都可以根据实际情况进行设置。譬如，可以设置第一预设频率阈值为30Hz，设置第二预设频率阈值为3000Hz，也就是滤除频率为30Hz以下和频率为3000Hz以上的声音。需要说明的是，对第一音频的过滤处理可以通过带通滤波器实现。

在对第一音频进行过滤处理后，相应地，获取待处理的第一音频的多个音频帧的具体实现方式可以为：获取该第二音频的多个音频帧。

也就是说，在得到声音频率处于一定范围内的第二音频后，电子设备要对第二音频进行处理以确定节奏点，类似的，在确定第二音频的节奏点之前，可以对第二音频进行采样、分帧等预处理，得到第二音频的多个音频帧，进而基于该多个音频帧，确定节奏点。

步骤102：基于节奏可感知时长，将该多个音频帧分成多组，每组包括至少一个音频帧，该第一音频的音频时长包括多个该节奏可感知时长。

一般来说，当相邻两个音频帧的音频总能量相差较大时，用户可以感知到两个音频帧之间的音频总能量的变化，并会认为该相邻两个音频帧包括的多个采样点中的一个采样点为节奏点。当多个节奏点在一定的时长内出现时，用户一般无法分辨该多个节奏点，也就是会认为该一定的时长内只有一个节奏点，实际应用中，认为该一定的时长便是节奏可感知时长。

经大量的实验证明，节奏可感知时长一般是大于等于40毫秒，小于等于60毫秒的，示例性的，可以认为节奏可感知时长为50毫秒，也就是当50毫秒的音频中包括多个节奏点时，用户往往认为在该50毫秒内只有一个节奏点。因此，电子设备一般会基于节奏可感知时长对第一音频进行分组处理，也就是将第一音频分为多组音频，设置每组音频的时长为节奏可感知时长，需要说明的是，还可以设置每组音频的时长大于节奏可感知时长，本实施例对此不做限定。

其中，假设每组音频的时长为节奏可感知时长，当一个音频帧的时长等于节奏可感知时长时，每组音频中包括一个音频帧，当一个音频帧的时长小于节奏可感知时长时，每组音频中可以包括多个音频帧。

在实际情况中，第一音频的时长往往包括多个节奏可感知时长，也就是第一音频往往可以基于节奏可感知时长分为多组音频，由于在每个节奏可感知时长内用户可以感知到一个节奏点，用户可以基于该多个节奏可感知时长感知到多个节奏点。

譬如，当第一音频的时长为3分钟，节奏可感知时长为50毫秒，每组音频的时长等于节奏可感知时长时，可以确定第一音频中包括3600个节奏可感知时长，也就是第一音频中包括3600组音频，进而用户可以基于该3600组音频在该第一音频中感知到3600个节奏点。

需要说明的是，上述例子是以基于该3600组音频确定3600个节奏点为例进行说明，在另一实施例中，该多组音频中可能存在有一组或多组音频，该一组或多组音频中没有可被用户感知的节奏点，也就是用户可能基于该3600组音频感知到小于3600个节奏点。

步骤103：从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，得到多个备选节奏点。

一般来说，基于一组音频中音频帧的个数的不同，相应的确定备选节奏点的方法也有所不同。接下来就不同情况下确定备选节奏点的方法进行介绍。

第一种情况下，当一组音频中包括一个音频帧时，需要在该一个音频帧包括的多个采样点中确定一个采样点作为备选节奏点，具体地，可以确定该一个音频帧的第一个采样点为备选节奏点。需要说明的是，还可以确定该一个音频帧中音频能量最大的一个采样点为备选节奏点，本实施例对此不做限定。

譬如，当第一音频被分为300组音频，每组音频中包括一个音频帧时，可以确定每组音频中音频帧的第一个采样点为备选节奏点，由此可以确定300个备选节奏点。

第二种情况下，当每组内包括多个音频帧时，从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点的具体实现方式可以为：对于多组中的任一组，基于该任一组内的多个音频帧中每个音频帧的音频总能量，从该任一组内的多个音频帧中确定多个目标音频帧。从该任一组内的多个目标音频帧中选择最大音频能量的目标音频帧。将选择的目标音频帧内的第一个采样点确定为述任一组的备选节奏点。

一般来说，可以先确定每个音频帧中各采样点的音频能量，进而通过每个音频帧中采样点的音频能量的平均值，确定每个音频帧的音频总能量。需要说明的是，音频总能量还可以通过每个音频帧中所有采样点的音频能量之和确定，或者，还可以通过音频帧的频域能量之和或平均值确定，本实施例对此不做限定。

其中，目标音频帧也就是可能包括备选节奏点的音频帧，即当每组音频中包括多个音频帧时，先基于音频总能量确定多个可能包括备选节奏点的音频帧，然后在该多个可能包括备选节奏点的音频帧中，确定一个包括备选节奏点的音频帧，进而在该包括备选节奏点的音频帧中确定备选节奏点。

示例性的，由于音频能量越大，越容易被用户感知，所以一般认为在该多个可能包括备选节奏点的音频帧中，音频总能量最大的音频帧为包括备选节奏点的音频帧。确定音频总能量最大的音频帧之后，由于每个音频帧的时长对于用户而言是一个较小的时长，也就是用户并不会明显感知到每个音频帧的第一个采样点和最后一个采样点之间的时长差异，因而可以确定该音频总能量最大的音频帧中第一个采样点为备选节奏点。需要说明的是，还可以确定该音频总能量最大的音频帧中音频能量最大的一个采样点为备选节奏点，本实施例对此不做限定。

具体地，从任一组内的多个音频帧中确定多个目标音频帧的实现方式可以为：对于任一组内的多个音频帧中的任一音频帧，当任一音频帧的音频总能量与相邻的下一个音频帧的音频总能量之间的差值大于音频能量阈值时，从任一音频帧和下一个音频帧中选择音频总能量最大的音频帧。将选择的音频帧确定为任一组内的多个音频帧的一个目标音频帧。

也就是说，一般认为当相邻音频帧之间的音频总能量之差大于音频能量阈值时，音频总能量的变化可以被用户感知，也就说明该相邻两个音频帧包括的采样点中可能有能被用户感知的节奏点，也就是备选节奏点，由于音频总能量较高的音频帧较容易被用户感知，因此一般认为该相邻两个音频帧中音频总能量最大的音频帧中可能有备选节奏点。

其中，音频能量阈值可以根据实际情况进行设置。

譬如，可以设置音频能量阈值为50dB，当第一个音频帧的音频总能量为10dB，相邻的第二个音频帧的音频总能量为70dB时，由于第一个音频帧与第二个音频帧的音频总能量之差为60dB，可以确定在第一个音频帧和第二个音频帧中有一个音频帧中可能包括备选节奏点。而由于用户易于感知音频能量较大的音频帧，由此确定第二个音频帧中可能包括备选节奏点，也就是将第二个音频帧确定为目标音频帧。

步骤104：基于该多个备选节奏点，确定该第一音频的节奏点。

一般来说，确定的该多个备选节奏点不一定都能作为第一音频的节奏点，譬如在存在两个相邻备选节奏点之间相隔的时长过短时，确定的多个备选节奏点不能够全部作为第一音频的节奏点。因此需要对该多个备选节奏点进行进一步确定，选择部分或者全部备选节奏点作为第一音频的节奏点。

具体地，基于该多个备选节奏点，确定该第一音频的节奏点的实现方式可以为：当多个备选节奏点中存在相邻两个备选节奏点之间的时长小于该节奏可感知时长时，将相邻两个备选节奏点中音频能量小的备选节奏点删除。当删除后剩余的多个备选节奏点中不存在相邻两个备选节奏点之间的时长小于该节奏可感知时长时，将删除后剩余的多个备选节奏点确定为该第一音频的节奏点。

其中，相邻两个备选节奏点之间的时长小于该节奏可感知时长，也就说明用户在该相邻两个备选节奏点之中只能感知到一个备选节奏点，由此，电子设备需要在该相邻两个备选节奏点中确定一个备选节奏点，一般来说，当存在两个备选节奏点时，用户易于感知到音频能量较大的备选节奏点，所以电子设备往往会将相邻两个备选节奏点中音频能量小的备选节奏点删掉，以保留易于被用户感知的备选节奏点。

也就是说，先对所有相邻两个备选节奏点之间的时长进行检测，当检测到存在相邻两个备选节奏点之间的时长小于节奏可感知时长时，对比相邻两个备选节奏点对应的音频能量，将相邻两个备选节奏点中音频能量较小的备选节奏点删除，直至不存在相邻两个备选节奏点之间的时长小于节奏可感知时长时，可以确定剩余的多个备选节奏点为第一音频的节奏点。

譬如，当第一个备选节奏点的音频能量为50dB，相邻的第二个备选节奏点的音频能量为70dB，第一个备选节奏点与第二个备选节奏点之间的时长为40毫秒时，删除音频能量较小的第一个备选节奏点。

进一步地，当第一音频中包括人声时，用户倾向于将人声的起始时间点或每句歌词中每个字的起始时间点感知为包括人声的音频部分的节奏点，由此用户感知到的节奏点与上述基于音频总能量确定的备选节奏点可能不同。因此当第一音频中包括人声时，在确定备选节奏点之后，还需要进行一些其他操作以准确地确定第一音频的节奏点。

具体地，当第一音频中包括人声时，基于该多个备选节奏点，确定该第一音频的节奏点的实现方式可以为：确定该第一音频中包括人声的音频部分。将该多个备选节奏点中除该音频部分对应的备选节奏点之外的备选节奏点和该音频部分对应的人声采样点确定为该第一音频的节奏点，人声采样点是指存在人声的音频部分对应的采样点。

也就是说，电子设备先将第一音频中包括人声的音频部分确定出来，删除该包括人声的音频部分对应的备选节奏点，再确定该音频部分的人声采样点，将该音频部分的人声采样点和剩余的备选节奏点确定为第一音频的节奏点，需要说明的是，电子设备可以基于神经网络模型对第一音频中包括人声的音频部分进行提取。

其中，人声采样点可以基于包括人声的音频部分的歌词信息确定，基于包括人声的音频部分中的歌词信息确定人声采样点，也就是基于包括人声的音频部分中每句歌词中每个字的起始时间点确定人声采样点，在包括人声的音频部分中，往往存在多个字的起始时间点，相应的也就存在多个人声采样点。

譬如，假设包括人声的音频部分的时长为3分钟，包括人声的音频部分的第一句歌词中第一个字从第25秒开始播放，第一句歌词中第二个字从第50秒开始播放，可以认为第25秒和第50秒是人声采样点。

人声采样点也可以基于包括人声的音频部分的音高信息确定，音高信息可以理解为是用以表示人声从无到有的一个信息，一般来说音高信息中包括有每次人声出现的起始时间点。基于包括人声的音频部分的音高信息确定人声采样点，也就是基于人声在包括人声的音频部分的起始时间点确定人声采样点，在包括人声的音频部分中，往往存在多个人声的起始时间点，相应的也就存在多个人声采样点。

譬如，假设包括人声的音频部分的时长为3分钟，包括人声的音频部分的第一个人声的起始时间点为第30秒，第二个人声的起始时间点为第45秒，可以认为第30秒和第45秒是人声采样点。

其中，包括人声的音频部分的歌词信息和音高信息通常来说是人为标注的，需要说明的是，包括人声的音频部分的歌词信息和音高信息还可以是电子设备基于第一音频生成的，本申请对此不做限定。

在本申请实施例中，获取待处理的第一音频的多个音频帧，每个音频帧包括多个采样点，基于节奏可感知时长，将多个音频帧分成多组，也就是将第一音频分为多组音频，每组音频的时长为节奏可感知时长，由于节奏可感知时长一般大于等于一个音频帧的时长，因此每组包括至少一个音频帧，第一音频的音频时长包括多个节奏可感知时长，也就说明可以基于该多个节奏可感知时长在第一音频中确定多个备选节奏点，即先从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，得到多个备选节奏点，由于该多个备选节奏点不一定都能够作为第一音频的节奏点，因此需要基于多个备选节奏点，进一步确定第一音频的节奏点。如此，先基于节奏可感知时长在第一音频中确定多个可能为音频的节奏点的备选节奏点，再对该多个备选节奏点进行进一步处理，如删除该多个备选节奏点中不能作为音频的节奏点的备选节奏点等，进而基于剩余的备选节奏点确定第一音频的节奏点，提高了确定音频的节奏点的准确率。

图2是根据一示例性实施例示出的一种节奏点的确定装置的结构示意图，该节奏点的确定装置可以由软件、硬件或者两者的结合实现。该节奏点的确定装置可以包括：

获取模块210，用于获取待处理的第一音频的多个音频帧，每个音频帧包括多个采样点；

分组模块220，用于基于节奏可感知时长，将所述多个音频帧分成多组，每组包括至少一个音频帧，所述第一音频的音频时长包括多个所述节奏可感知时长；

备选节奏点确定模块230，用于从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，得到多个备选节奏点；

节奏点确定模块240，用于基于所述多个备选节奏点，确定所述第一音频的节奏点。

在本申请一种可能的实现方式中，当每组内包括多个音频帧时，所述备选节奏点确定模块230用于：

在本申请一种可能的实现方式中，所述备选节奏点确定模块240用于：

在本申请一种可能的实现方式中，当所述第一音频中包括人声时，所述节奏点确定模块240用于：

确定所述第一音频中包括人声的音频部分；

在本申请一种可能的实现方式中，所述获取模块210还用于：

相应地，所述获取模块用于：

获取所述第二音频的多个音频帧。

在本申请一种可能的实现方式中，所述节奏点确定模块240用于：

需要说明的是：上述实施例提供的节奏点的确定装置在进行节奏点的确定时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的节奏点的确定装置与节奏点的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图3是本申请实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)301和一个或一个以上的存储器302，其中，所述存储器302中存储有至少一条指令，所述至少一条指令由所述处理器301加载并执行以实现上述各个方法实施例提供的节奏点的确定方法。

当然，该电子设备300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备300还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述图1所示实施例提供的节奏点的确定方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图1所示实施例提供的节奏点的确定方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种节奏点的确定方法，其特征在于，所述方法包括：

基于所述多个备选节奏点，确定所述第一音频的节奏点。

2.如权利要求1所述的方法，其特征在于，当每组内包括多个音频帧时，所述从每组内的至少一个音频帧包括的采样点中，确定一个采样点作为备选节奏点，包括：

3.如权利要求2所述的方法，其特征在于，所述从所述任一组内的多个音频帧中确定多个目标音频帧，包括：

4.如权利要求1所述的方法，其特征在于，当所述第一音频中包括人声时，所述基于所述多个备选节奏点，确定所述第一音频的节奏点，包括：

确定所述第一音频中包括人声的音频部分；

5.如权利要求1所述的方法，其特征在于，所述获取待处理的第一音频的多个音频帧之前，还包括：

相应地，所述获取待处理的第一音频的多个音频帧，包括：

获取所述第二音频的多个音频帧。

6.如权利要求1所述的方法，其特征在于，所述基于所述多个备选节奏点，确定所述第一音频的节奏点，包括：

7.一种节奏点的确定装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，当每组内包括多个音频帧时，所述备选节奏点确定模块用于：

9.一种电子设备，其特征在于，包括：

处理器；

存储器，所述存储器存储有所述处理器可执行的指令；

其中，所述处理器被配置为执行所述指令并实现权利要求1-6所述的任一项方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-6所述的任一项方法的步骤。