CN117524179A

CN117524179A - 歌曲节拍数据的处理方法、装置、设备及存储介质

Info

Publication number: CN117524179A
Application number: CN202311620710.XA
Authority: CN
Inventors: 许英俊; 唐华林; 黄海艳
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-02-06

Abstract

本申请涉及一种歌曲节拍数据的处理方法、装置、设备及存储介质，所述方法包括：从待处理歌曲的人声音频数据中获取音调值数据集，对音调值数据集中的音调值进行融合处理；根据歌词文件数据中各个歌词字段的时间区间信息以及融合处理后的音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值；根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数；根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。实现了准确的生成歌曲的节拍数据，使得直播软件根据歌曲的节拍数据显示的歌曲的节拍动画更准确，给予用户的演唱体验更好。

Description

歌曲节拍数据的处理方法、装置、设备及存储介质

技术领域

本申请涉及直播音频处理技术领域，特别是涉及一种歌曲节拍数据的处理方法、装置、设备及存储介质。

背景技术

随着互联网技术和流媒体技术的快速发展，网络直播逐渐成为一种日渐普及的娱乐手段和社交方式。越来越多的用户利用直播平台进行多种类型的线上互动，例如直播跳舞、直播K歌等等，直播平台也不断的为用户带来越来越丰富的功能以丰富用户的体验。

K歌功能是深受用户欢迎的直播功能之一，用户一般可以在平台上搜索歌曲资源并下载进行演唱，在用户开启演唱时，客户端将播放歌曲的伴奏音频，并且还会显示歌曲的节拍线动画，以引导用户跟随节拍线准确的唱准节拍以及音高。然而，现有技术对于歌曲节拍数据的处理存在不足，导致了显示的节拍动画不准确，十分影响用户的演唱体验。

发明内容

基于此，本申请的目的在于，提供一种歌曲节拍数据的处理方法，能够准确的生成歌曲的节拍数据，使得显示的节拍线动画更准确，给予用户的演唱体验更好。

本申请实施例第一方案提供了一种歌曲节拍数据的处理方法，包括以下步骤：

从待处理歌曲的人声音频数据中获取音调值数据集；其中，所述音调值数据集包括若干个按照时间顺序排列的音调值，所述若干个音调值为根据预设时间间隔采集所述人声音频数据中的音调得到；

依时间顺序搜索所述音调值数据集，当搜索至所述音调值数据集中不为0的音调值是第n个音调值时，执行下述融合音调值的步骤：以所述第n个音调值为起点，判断第n+1个音调值是否满足预设的融合条件，其中，所述融合条件包括第n+1个音调值不为0且与所述第n个音调值之差小于预设阈值，若满足所述融合条件，则将第n+1个音调值更改为等于所述第n个音调值，并令n的值加1，继续执行所述融合音调值的步骤，直至第n+1个音调值不再满足所述融合条件；继续搜索下一个不为0的音调值，执行所述融合音调值的步骤，直至搜索遍历所述音调值数据集；

获取所述待处理歌曲的歌词文件数据，所述歌词文件数据包括若干个歌词字段以及每个歌词字段分别对应的时间区间信息；

根据各个所述歌词字段的时间区间信息以及搜索遍历后的所述音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值；

根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数；

根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。

本申请实施例第二方面提供了一种歌曲节拍数据的处理装置，包括：

音调值数据集获取模块，用于从待处理歌曲的人声音频数据中获取音调值数据集；其中，所述音调值数据集包括若干个按照时间顺序排列的音调值，所述若干个音调值为根据预设时间间隔采集所述人声音频数据中的音调得到；

音调值融合处理模块，用于依时间顺序搜索所述音调值数据集，当搜索至所述音调值数据集中不为0的音调值是第n个音调值时，执行下述融合音调值的步骤：以所述第n个音调值为起点，判断第n+1个音调值是否满足预设的融合条件，其中，所述融合条件包括第n+1个音调值不为0且与所述第n个音调值之差小于预设阈值，若满足所述融合条件，则将第n+1个音调值更改为等于所述第n个音调值，并令n的值加1，继续执行所述融合音调值的步骤，直至第n+1个音调值不再满足所述融合条件；继续搜索下一个不为0的音调值，执行所述融合音调值的步骤，直至搜索遍历所述音调值数据集；

歌词文件数据获取模块，用于获取所述待处理歌曲的歌词文件数据，所述歌词文件数据包括若干个歌词字段以及每个歌词字段分别对应的时间区间信息；

音调值与歌词匹配模块，用于根据各个所述歌词字段的时间区间信息以及搜索遍历后的所述音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值；

节拍参数确定模块，用于根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数；

节拍数据生成模块，用于根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。

本申请实施例第三方面提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例任意一项所述方法的步骤。

本申请实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例任意一项所述方法的步骤。

本申请实施例所述的歌曲节拍数据的处理方法及装置，用户可以通过直播软件上传其想演唱的歌曲数据至直播平台服务端进行歌曲节拍数据的处理，直播平台服务端提取歌曲数据中的人声音频数据，并根据预设时间间隔采集所述人声音频数据的音调，得到包括若干个按照时间顺序排列的音调值的音调值数据集；由于即使同一音调的歌词，其人声音频的音调值多少都会有变化，导致被采集得到的多个音调值也会在一定范围内有所波动，对此，本申请对音调值数据集中的音调值进行融合处理；进一步的，根据歌词文件数据中各个歌词字段的时间区间信息以及融合处理后的音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值；根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数；根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。实现了准确的生成歌曲的节拍数据，使得直播软件根据歌曲的节拍数据显示歌曲的节拍动画更准确，给予用户的演唱体验更好。

为了更好地理解和实施，下面结合附图详细说明本申请。

附图说明

图1为本申请实施例的歌曲节拍数据的处理方法的应用场景示意图；

图2为本申请实施例的歌曲节拍数据的处理方法的流程示意图；

图3为原始音调值数据对应生成的节拍线的示意图；

图4为原始音调值数据经过融合处理之后生成的节拍线的示意图；

图5为本申请实施例的歌曲节拍数据的处理装置的装置示意图；

图6为本申请实施例的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例做进一步地详细描述。其中，下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。

应当明确，以下描述的实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。基于本申请实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况；字符“/”一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语，而且，这些术语仅用来区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。取决于语境，本申请所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请实施例提供的歌曲节拍数据的处理方法的应用场景示意图，该应用场景包括本申请实施例提供的主播客户端101、服务器102和观众客户端103，主播客户端101与观众客户端103通过服务器102进行交互。

其中，主播客户端101是指发送网络直播视频的一端，通常来说是网络直播中主播(即，直播主播用户)所采用的客户端。

观众客户端103是指接收和观看网络直播视频的一端，通常来说是网络直播中观看视频的观众(即，直播观众用户)所采用的客户端。

主播客户端101和观众客户端103所指向的硬件，本质上是指计算机设备，具体地，如图1所示，其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播客户端101和观众客户端103均可以通过公知的网络接入方式接入互联网，与服务器102建立数据通信链路。

服务器102作为一个业务服务器，其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等，以此构成逻辑上相关联的服务机群，来为相关的终端设备，例如图1中所示的主播客户端101和观众客户端103提供服务。

本申请实施例中，主播客户端101与观众客户端103可以加入同一个直播间(即直播频道)，上述的直播间是指依靠互联网技术实现的一种聊天室，通常具备音视频播控功能。主播用户通过主播客户端101在直播间内进行直播，观众客户端103的观众可以登录服务器102进入直播间观看上直播。

在直播间内，主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动，一般是主播用户以音视频流的形式为观众表演节目，并且在互动过程中还可产生经济交易行为。当然，直播间的应用形态并不局限于在线教育、在线娱乐，也可推广到其他相关场景中，例如：用户配对互动场景、视频会议场景、产品推介销售场景以及其他任何需要类似互动的场景中。

具体地，观众观看直播的过程如下：观众可以点击访问安装在观众客户端103上的直播软件，并选择进入任意一个直播间，触发观众客户端103为该观众加载直播间界面，该直播间界面内包括若干交互组件，通过加载这些交互组件可以使观众在直播间内观看直播，并进行多种线上互动。

其中一种直播方式为主播客户端101或观众客户端103将本地的歌曲数据上传至服务器102，服务器102将所述歌曲数据分离为伴奏音频数据和人声音频数据；并对人声音频数据进行处理后生成歌曲的节拍数据，将所述伴奏音频数据以及所述歌曲的节拍数据绑定并发送至主播客户端101或观众客户端103；主播客户端101或观众客户端103接收所述伴奏音频数据以及所述歌曲的节拍数据后，当用户进行演唱该歌曲时，便可以在直播间中播放所述伴奏音频数据并根据所述节拍数据在直播间界面显示节拍线动画，以便于用户跟随节拍线进行准确的演唱。但是如果服务器处理生成的节拍数据不够准确，导致主播客户端101或观众客户端103显示的节拍线动画不准确，用户就无法参考节拍线进行准确演唱，演唱体验不佳。

请参考图2，本申请实施例提供了一种歌曲节拍数据的处理方法，包括以下步骤：

S101：从待处理歌曲的人声音频数据中获取音调值数据集；其中，所述音调值数据集包括若干个按照时间顺序排列的音调值，所述若干个音调值为根据预设时间间隔采集所述人声音频数据中的音调得到；

S102：依时间顺序搜索所述音调值数据集，当搜索至所述音调值数据集中不为0的音调值是第n个音调值时，执行下述融合音调值的步骤：以所述第n个音调值为起点，判断第n+1个音调值是否满足预设的融合条件，其中，所述融合条件包括第n+1个音调值不为0且与所述第n个音调值之差小于预设阈值，若满足所述融合条件，则将第n+1个音调值更改为等于所述第n个音调值，并令n的值加1，继续执行所述融合音调值的步骤，直至第n+1个音调值不再满足所述融合条件；继续搜索下一个不为0的音调值，执行所述融合音调值的步骤，直至搜索遍历所述音调值数据集；

S103：获取所述待处理歌曲的歌词文件数据，所述歌词文件数据包括若干个歌词字段以及每个歌词字段分别对应的时间区间信息；

S104：根据各个所述歌词字段的时间区间信息以及搜索遍历后的所述音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值；

S105：根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数；

S106：根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。

本申请实施例所述歌曲节拍数据的处理方法的执行主体为计算机设备，具体可以是服务器，也可以是用户客户端，所述用户客户端包括主播客户端和/或观众客户端。在本实施例中，主要以服务器为执行主体进行说明。

对于步骤S101，从待处理歌曲的人声音频数据中获取音调值数据集；其中，所述音调值数据集包括若干个按照时间顺序排列的音调值，所述若干个音调值为根据预设时间间隔采集所述人声音频数据中的音调得到。

其中，所述待处理歌曲是包含人声和伴奏的音频数据。其可以是用户客户端发送给服务器，也可以是服务器从其他平台获取。

本实施例中，音调值数据集是根据预设时间间隔例如10毫秒，采集人声音频数据的音调得到的，其中包括若干个按照时间顺序排列的音调值，例如0、0、0、0、0、15、16、18、0、0、0、0、25、26、25、24、28、29、0、0....。

在一个实施例中，步骤S101所述从待处理歌曲的人声音频数据中获取音调值数据集的步骤之前，包括：

步骤S100，获取用户客户端上传的待处理歌曲数据，将所述待处理歌曲数据分离为伴奏音频数据和人声音频数据。

其中，所述待处理歌曲数据可以是用户在其他音乐平台上自行下载得到或者从用户本地存储的歌曲资源中获取，然后上传至服务器。

本实施例中，用户可以将其想演唱的歌曲数据上传至服务器，服务器将歌曲数据进行人声分离处理，得到伴奏音频数据和人声音频数据，并按照本申请实施例的方法在服务器中处理得到节拍数据，将伴奏音频数据和节拍数据绑定并下发至用户客户端。实现了用户可以根据需求直接上传想演唱的歌曲数据，并获取服务器的处理后得到歌曲伴奏和节拍数据，而不必担心在平台上搜索不到想唱的歌曲资源。

对于步骤S102，依时间顺序搜索所述音调值数据集，当搜索至所述音调值数据集中不为0的音调值是第n个音调值时，执行下述融合音调值的步骤：以所述第n个音调值为起点，判断第n+1个音调值是否满足预设的融合条件，其中，所述融合条件包括第n+1个音调值不为0且与所述第n个音调值之差小于预设阈值，若满足所述融合条件，则将第n+1个音调值更改为等于所述第n个音调值，并令n的值加1，继续执行所述融合音调值的步骤，直至第n+1个音调值不再满足所述融合条件；继续搜索下一个不为0的音调值，执行所述融合音调值的步骤，直至搜索遍历所述音调值数据集。

其中，所述预设阈值可以根据情况设定，例如设定为6。在一个实施例中，所述预设阈值为6，所述融合条件为“第n+1个音调值不为0且与所述第n个音调值之差小于6”。

由于即使同一音调的歌词，经过演唱得到的人声音频中，音调值多少都会有变化，例如演唱音调为do的“我”字时，人声并非严格的保持do的音调不变，而是会有些微小的变化，可能上下波动。因此在步骤S101对歌曲分离出来的人声音频进行音调采集时，采集得到的音调值也会随着人声的微小变化存在微小的波动，对此，本步骤对音调值数据集中的音调值进行融合处理，是按照时间顺序搜索所述音调值数据集，当搜索至所述音调值数据集中不为0的音调值是第n个音调值时，执行融合音调值的步骤：以所述第n个音调值为起点，判断第n+1个音调值是否满足预设的融合条件，若满足所述融合条件，则将第n+1个音调值更改为等于所述第n个音调值，并令n的值加1，继续执行所述融合音调值的步骤，直至第n+1个音调值不再满足所述融合条件；继续搜索下一个不为0的音调值，执行所述融合音调值的步骤，直至搜索遍历所述音调值数据集则完成融合处理。

本实施例以歌词“我爱你”为例，假设融合之前对应的音调值分别为(25、24、26、25、26、27)(18、17、16、17)(27、27、28、37、39、37)，那么，当音调值的融合条件为“第n+1个音调值不为0且与所述第n个音调值之差小于6”时，经过音调值融合后，它们的音调值分别为(25、25、25、25、25、25)(18、18、18、18)(27、27、27、37、37、37)。显然，最终生成的节拍动画也将不同。请参考图3、图4，本实施例以生成节拍线动画为例，图3为原始的音调值数据对应生成的节拍线的示意图，图4为原始的音调值数据经过融合处理之后生成的节拍线的示意图。可见，经过本步骤的处理之后，能够将属于同一歌词的相同音调的音调值都统一对齐，使得最终根据歌词的音调值确定的节拍数据更加准确合理，生成的节拍动画也更加准确合理，具体在本例子中，生成节拍线时同一歌词的相同音调是一条对齐的节拍线，而不是断断续续错开的散乱的多个小线段。

对于步骤S103，获取所述待处理歌曲的歌词文件数据，所述歌词文件数据包括若干个歌词字段以及每个歌词字段分别对应的时间区间信息。

其中，歌词文件数据是待处理歌曲对应的歌词文件数据，其中包括待处理歌曲的各个歌词字段以及每个歌词字段对应的时间区间信息。其中，所述歌词字段可以是字或者音(例如某些哼唱的段落，其歌词实际上是一些音而不是字)。一般而言，歌词文件数据的数据格式是：歌词字段(起始时间点，持续时间)，例如歌词“故事的小黄花”的数据格式为：故(29264，390)事(29654，392)的(30046，448)小(30494，922)黄(31416，374)花(31790，504)。当然，在本实施例中并不限定歌词文件数据的具体数据格式，仅以此说明歌词文件数据中包括歌曲的各个歌词字段以及各个歌词字段分别对应的时间区间信息。

本实施例中，所述歌词文件数据可以是用户在上传待处理歌曲时一同上传，在其他实施例中，所述歌词文件数据也可以是服务器基于待处理歌曲在网上搜索并从其他平台获取。

对于步骤S104，根据各个所述歌词字段的时间区间信息以及搜索遍历后的所述音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值。

具体的，根据采集人声音频数据的音调时所设定的时间间隔，以及搜索遍历后的音调值数据集中各个音调值的排序位置，可以确定音调值数据集中各个音调值分别对应的时间点，从而可判断任一不为0的音调值是否位于任一歌词字段的时间区间范围之内，若是，该不为0的音调值与该歌词字段对应。

在一个实施例中，若所述搜索遍历后的所述音调值数据集中的不为0的音调值没有对应的歌词字段，则将该不为0的音调值更改为0。

本实施例中，若是音调值数据集中的不为0的音调值没有对应的歌词字段，则说明该音调值为多余的杂音，因此将该音调值设为0，实现去除杂音，避免错误的生成杂音的节拍动画干扰用户的演唱。

对于步骤S105，根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数。

其中，节拍参数用于确定歌词字段的节拍信息，所述节拍信息包括音调信息和时间区间信息。本实施例中，根据节拍参数可确定歌词字段的节拍动画显示的音调信息和时间区间信息，其中，节拍动画可以是节拍线动画，也可以是其他图像形式的节拍动画。

本实施例主要以节拍线动画进行说明，节拍参数可用于确定节拍线在直播间界面显示的高度和时间区间。在节拍线动画中，歌词字段的节拍线显示的高度是根据歌词字段的音调值大小确定，显示的时间区间则是根据歌词字段的音调值(不为0)持续的时间区间确定(若音调值为0则意味着没有人声音调，也就不应显示节拍线)。

在步骤S104中，根据歌词文件数据中各个歌词字段的时间区间信息，来确定各个歌词字段对应的不为0的音调值，具体的，每个歌词字段一般都对应所述音调值数据集中某一段的若干个音调值，例如“我”、“爱”、“你”分别对应音调值(25、25、25、25、25、25)、(18、18、18、18)、(27、27、27、37、37、37)。而在本步骤中，根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数时，还需要进一步的处理才能更准确确定每个歌词字段的节拍参数，例如需要考虑“一字一音”和“一字多音”等情况，才能更准确计算每个歌词字段的音调值及音调值持续的时间，从而才能确定节拍线显示高度和时间区间。

在一个实施例中，步骤S105所述根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数的步骤，包括：

步骤S1051，若任一个歌词字段对应的音调值仅包括相同的音调值，根据该相同的音调值确定该歌词字段的节拍线高度参数，根据该歌词字段的时间区间信息确定该歌词字段的节拍线时间参数；

步骤S1052，若任一个歌词字段对应的音调值包括不同的音调值，则将其中连续且相等的音调值确定为一个局部音调值并确定所述局部音调值对应的局部时间区间信息；根据该歌词字段的各个局部音调值确定该歌词字段的多个节拍线高度参数，根据该歌词字段的各个局部音调值对应的各个局部时间区间信息，确定与所述多个节拍线高度参数一一对应的多个节拍线时间参数。

其中，所述节拍线高度参数用于确定歌词字段的节拍线显示的高度。在K歌场景中，不同高度的节拍线表示了不同的音调高低，从而能够引导用户唱出准确的音调。

其中，所述节拍线时间参数用于确定歌词字段的节拍线显示的时间区间，显然，其不仅确定了节拍线显示的时间节点(开始和结束的时间点)，并且也确定了节拍线显示的长度。

本实施例中，若任一个歌词字段对应的音调值仅包括相同的音调值，例如上述例子“我”和“爱”，则说明该歌词字段是“一字一音”，因此，可以直接根据该相同的音调值确定该歌词字段的节拍线高度参数，并根据该歌词字段的时间区间信息确定该歌词字段的节拍线时间参数，即该歌词字段的时间区间即为该歌词字段的节拍线显示的时间区间。

若是任一个歌词字段对应的音调值包括不同的音调值，例如上述例子中“你”(27、27、27、37、37、37)，则说明该歌词字段是“一字多音”，因此，将其中连续且相等的音调值确定为一个局部音调值并确定所述局部音调值对应的局部时间区间信息；根据该歌词字段的各个局部音调值确定该歌词字段的多个节拍线高度参数，根据该歌词字段的各个局部音调值对应的各个局部时间区间信息，确定与所述多个节拍线高度参数一一对应的多个节拍线时间参数。具体例如上述例子中的“你”，具有两个局部音调值分别为27和37；其中各个局部音调值对应的局部时间区间信息，可根据采集音调时的时间间隔以及所述连续且相等的音调值在音调值数据集中的排序位置进行确定。

考虑到人声音频中的人声音调区域与歌词文件数据中歌词的时间区间可能存在偏差，例如人声音频中演唱“我”这个字的音调是在第10.5秒至第11.5秒，而歌词文件数据中“我”的时间区间是在第10秒至第12秒，因此，在此种情况下，步骤S1052确定的局部音调值的时间区间信息便存在与歌词时间区间不完全匹配的问题，那么根据局部音调值的时间区间信息确定的节拍线时间参数，显然也将不够准确，可能导致节拍线显示的时间点慢于歌词时间点，由于歌词文件数据中的时间区间信息是对应伴奏音频的最标准最准确的时间区间信息，歌词字段的时间点是最为准确的时间点，因此，若是节拍线慢于歌词字段的时间点，也相当于节拍线慢于伴奏音频的节拍，并且节拍线显示的总长度显然也将偏短。

因此，在一个实施例中，步骤S1052所述若任一个歌词字段对应的音调值包括不同的音调值，则将其中连续且相等的音调值确定为一个局部音调值并确定所述局部音调值对应的局部时间区间信息的步骤，包括：

步骤S10521，若该歌词字段的第一个局部音调值的起始时间位于该歌词字段的起始时间之后，则将该第一局部音调值的起始时间更改为该歌词字段的起始时间；

步骤S10522，若该歌词字段的最后一个局部音调值的结束时间位于该歌词字段的结束时间之前，则将该最后一个局部音调值的结束时间更改为该歌词字段的结束时间。

本实施例中，以歌词文件数据中歌词字段的时间区间信息为准，对局部音调值的时间区间信息进行修正，修正的地方主要在于开头和结尾，因此，若该歌词字段的第一个局部音调值的起始时间位于该歌词字段的起始时间之后，则将该第一局部音调值的起始时间更改为该歌词字段的起始时间，对应的，其节拍线时间参数也相应的往前延伸，准确的对应歌词的起始时间点；若该歌词字段的最后一个局部音调值的结束时间位于该歌词字段的结束时间之前，则将该最后一个局部音调值的结束时间更改为该歌词字段的结束时间，对应的，其节拍线时间参数也相应的往后延伸，准确的对应歌词的结束时间点。从而实现了歌词的节拍线显示的时间节点不会慢于歌词的开始时间，能够准确的卡准节拍，并且也不会先于歌词的结束时间结束，显示的长度刚好匹配歌词的时间区间。

对于步骤S106，根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。

其中，所述节拍数据是用于生成节拍动画的数据，其可以直接是节拍动画数据，也可以是用于生成节拍动画数据的数据。具体在本实施例中，所述节拍数据用于直播软件生成节拍线动画。

在一个实施例中，步骤S106所述根据每个歌词字段的节拍参数生成所述歌曲的节拍数据的步骤，包括：

步骤S1061，根据各个歌词字段的节拍参数，生成所述歌曲的节拍线动画数据，所述歌曲的节拍线动画数据包括各个歌词字段分别对应的节拍线动画显示数据，所述节拍线动画显示数据用于在直播软件的直播间界面显示各个歌词字段的节拍线；其中，节拍线显示的高度根据所述节拍线高度参数确定，显示的时间区间根据所述节拍线时间参数确定。

步骤S1062，若任一个歌词字段的节拍线高度参数仅具有一个，则生成该歌词字段的第一节拍线动画显示数据，所述第一节拍线动画显示数据用于在直播软件的直播间界面显示一条水平的节拍线；

步骤S1063，若任一个歌词字段的节拍线高度参数有多个，则生成该歌词字段的第二节拍线动画显示数据，所述第二节拍线动画显示数据用于在直播软件的直播间界面显示带有弧线的节拍线，其中根据多个节拍线高度参数确定对应的多段子节拍线，所述弧线连接在相邻的两段子节拍线之间。

本实施例中，若任一个歌词字段的节拍线高度参数仅具有一个，说明该歌词字段是一字一音，因此根据该歌词字段的节拍线高度参数生成该歌词字段的第一节拍线动画显示数据，使得直播软件的直播间界面显示一条水平的节拍线；若任一个歌词字段的节拍线高度参数有多个，说明该歌词字段是一字多音，因此根据该歌词字段的各个节拍线高度参数生成第二节拍线动画显示数据，使得直播软件的直播间界面显示带有弧线的节拍线，其中，可根据多个节拍线高度参数确定对应的多段子节拍线，并在相邻的两段子节拍线之间用弧线连接。其中，子节拍线可以都是水平的小段节拍线，也可以仅是开始的节拍线为水平节拍线，而后续的子节拍线则不限定例如可以是具有一定弧度的。本实施例通过带有弧度的节拍线，使用户能够形象的认识到该节拍线显示的是一字多音，演唱时需要进行转音，从而能够准确的唱好，具有更好的演唱体验。

在一个实施例中，步骤S106所述根据每个歌词字段的节拍参数生成所述歌曲的节拍数据的步骤之后，还包括：

步骤S107，将所述伴奏音频数据以及所述歌曲的节拍数据发送至所述用户客户端，使所述用户客户端播放所述伴奏音频数据并根据所述节拍数据在直播间界面显示节拍动画。

本实施例中，服务器在处理得到歌曲的节拍数据之后，将歌曲的伴奏音频数据以及歌曲的节拍数据绑定并发送至用户客户端，使用户客户端在用户开启演唱时，播放所述伴奏音频数据并根据节拍数据在直播间界面显示节拍动画。应用本实施例所述的歌曲节拍数据的处理方法，用户可以上传歌曲至服务器并接收服务器处理之后返回的伴奏音频数据和节拍数据，从而便可以进行演唱，演唱时直播间界面能够显示准确的节拍动画，更加便捷和更好的体验的K歌功能。

请参考图5，本申请实施例还提供了一种歌曲节拍数据的处理装置，包括：

音调值数据集获取模块201，用于从待处理歌曲的人声音频数据中获取音调值数据集；其中，所述音调值数据集包括若干个按照时间顺序排列的音调值，所述若干个音调值为根据预设时间间隔采集所述人声音频数据中的音调得到；

音调值融合处理模块202，用于依时间顺序搜索所述音调值数据集，当搜索至所述音调值数据集中不为0的音调值是第n个音调值时，执行下述融合音调值的步骤：以所述第n个音调值为起点，判断第n+1个音调值是否满足预设的融合条件，其中，所述融合条件包括第n+1个音调值不为0且与所述第n个音调值之差小于预设阈值，若满足所述融合条件，则将第n+1个音调值更改为等于所述第n个音调值，并令n的值加1，继续执行所述融合音调值的步骤，直至第n+1个音调值不再满足所述融合条件；继续搜索下一个不为0的音调值，执行所述融合音调值的步骤，直至搜索遍历所述音调值数据集；

歌词文件数据获取模块203，用于获取所述待处理歌曲的歌词文件数据，所述歌词文件数据包括若干个歌词字段以及每个歌词字段分别对应的时间区间信息；

音调值与歌词匹配模块204，用于根据各个所述歌词字段的时间区间信息以及搜索遍历后的所述音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值；

节拍参数确定模块205，用于根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数；

节拍数据生成模块206，用于根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。

需要说明的是，上述实施例提供的歌曲节拍数据的处理装置在执行歌曲节拍数据的处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的歌曲节拍数据的处理装置与歌曲节拍数据的处理方法属于同一构思，其体现实现过程详见上述歌曲节拍数据的处理方法实施例，这里不再赘述。

请参考图6，本申请实施例还公开了一种计算机设备301，包括存储器302、处理器303以及存储在所述存储器302中的计算机程序304；所述处理器303执行所述计算机程序304时实现如上述任一项实施例所述的方法的步骤。

其中，该处理器303可以包括一个或多个处理核心。处理器303利用各种接口和线路连接计算机设备301内的各个部分，通过运行或执行存储在存储器302内的指令、程序、代码集或指令集，以及调用存储器302内的数据，执行计算机设备301的各种功能和处理数据，可选的，处理器303可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programble LogicArray，PLA)中的至少一个硬件形式来实现。处理器303可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器303中，单独通过一块芯片进行实现。

其中，存储器302可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器302包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器302可用于存储指令、程序、代码、代码集或指令集。存储器302可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器302可选的还可以是至少一个位于远离前述处理器303的存储装置。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项实施例所述的方法。即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。而前述的存储介质包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，则本申请也意图包含这些改动和变形。

Claims

1.一种歌曲节拍数据的处理方法，其特征在于，包括以下步骤：

根据每个歌词字段的节拍参数生成所述歌曲的节拍数据。

2.根据权利要求1所述的歌曲节拍数据的处理方法，其特征在于，所述根据各个所述歌词字段的时间区间信息以及搜索遍历后的所述音调值数据集，确定各个歌词字段在所述音调值数据集中分别对应的不为0的音调值的步骤，包括：

若所述搜索遍历后的所述音调值数据集中的不为0的音调值没有对应的歌词字段，则将该不为0的音调值更改为0。

3.根据权利要求1所述的歌曲节拍数据的处理方法，其特征在于，所述根据每个歌词字段的时间区间信息以及对应的音调值，确定每个歌词字段的节拍参数的步骤，包括：

若任一个歌词字段对应的音调值仅包括相同的音调值，根据该相同的音调值确定该歌词字段的节拍线高度参数，根据该歌词字段的时间区间信息确定该歌词字段的节拍线时间参数；

若任一个歌词字段对应的音调值包括不同的音调值，则将其中连续且相等的音调值确定为一个局部音调值并确定所述局部音调值对应的局部时间区间信息；根据该歌词字段的各个局部音调值确定该歌词字段的多个节拍线高度参数，根据该歌词字段的各个局部音调值对应的各个局部时间区间信息，确定与所述多个节拍线高度参数一一对应的多个节拍线时间参数。

4.根据权利要求3所述的歌曲节拍数据的处理方法，其特征在于，所述若任一个歌词字段对应的音调值包括不同的音调值，则将其中连续且相等的音调值确定为一个局部音调值并确定所述局部音调值对应的局部时间区间信息的步骤，包括：

若该歌词字段的第一个局部音调值的起始时间位于该歌词字段的起始时间之后，则将该第一局部音调值的起始时间更改为该歌词字段的起始时间；

若该歌词字段的最后一个局部音调值的结束时间位于该歌词字段的结束时间之前，则将该最后一个局部音调值的结束时间更改为该歌词字段的结束时间。

5.根据权利要求3-4任一项所述的歌曲节拍数据的处理方法，其特征在于，所述根据每个歌词字段的节拍参数生成所述歌曲的节拍数据的步骤，包括：

根据各个歌词字段的节拍参数，生成所述歌曲的节拍线动画数据，所述歌曲的节拍线动画数据包括各个歌词字段分别对应的节拍线动画显示数据，所述节拍线动画显示数据用于在直播软件的直播间界面显示各个歌词字段的节拍线；其中，节拍线显示的高度根据所述节拍线高度参数确定，显示的时间区间根据所述节拍线时间参数确定。

6.根据权利要求5所述的歌曲节拍数据的处理方法，其特征在于，所述根据各个歌词字段的的节拍参数，生成所述歌曲的节拍线动画数据的步骤，包括：

若任一个歌词字段的节拍线高度参数仅具有一个，则生成该歌词字段的第一节拍线动画显示数据，所述第一节拍线动画显示数据用于在直播软件的直播间界面显示一条水平的节拍线；

若任一个歌词字段的节拍线高度参数有多个，则生成该歌词字段的第二节拍线动画显示数据，所述第二节拍线动画显示数据用于在直播软件的直播间界面显示带有弧线的节拍线，其中根据多个节拍线高度参数确定对应的多段子节拍线，所述弧线连接在相邻的两段子节拍线之间。

7.根据权利要求1所述的歌曲节拍数据的处理方法，其特征在于，所述从待处理歌曲的人声音频数据中获取音调值数据集的步骤之前，包括步骤：

获取用户客户端上传的待处理歌曲数据，将所述待处理歌曲数据分离为伴奏音频数据和人声音频数据；

所述根据每个歌词字段的节拍参数生成所述歌曲的节拍数据的步骤之后，还包括步骤：

将所述伴奏音频数据以及所述歌曲的节拍数据发送至所述用户客户端，使所述用户客户端播放所述伴奏音频数据并根据所述节拍数据在直播间界面显示节拍动画。

8.一种歌曲节拍数据的处理装置，其特征在于，包括：

9.一种计算机设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述方法的步骤。