CN110415723A

CN110415723A - 音频分段的方法、装置、服务器及计算机可读存储介质

Info

Publication number: CN110415723A
Application number: CN201910693284.XA
Authority: CN
Inventors: 吴晗; 李文涛
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-11-05
Anticipated expiration: 2039-07-30
Also published as: CN110415723B

Abstract

本申请公开了一种音频分段的方法、装置、服务器及计算机可读存储介质，属于音频处理技术领域。所述方法包括：获取目标歌曲音频；确定所述目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点；基于所述频谱特征、所述各歌词段的开始时间点与结束时间点和所述各重音拍时间点，确定所述目标歌曲音频的各分段时间点。采用本申请，提供了一种音频分段的方法，解决了相关技术中缺少一种音频分段的方法的技术问题。使得人们可以根据歌曲音频的各音频段的特点制作相应的视频，从而，解决相关技术中歌曲音频与对应的视频的关联性较弱，违和感较大的技术问题。

Description

音频分段的方法、装置、服务器及计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，具体涉及一种音频分段的方法、装置、服务器及计算机可读存储介质。

背景技术

如今，在各种APP(application，应用程序)的音乐播放页中都配置有视频模式。当用户点击视频模式时，音乐播放页会在播放歌曲音频的同时播放歌曲音频对应的视频。

相关技术中在制作歌曲音频对应的视频时，并不会考虑歌曲音频中不同音频段的不同特点，使得歌曲音频与对应的视频的关联性较弱，从而，使得视频和音乐具有违和感。因此，相关技术中亟需一种音频分段的方法，使得人们可以根据歌曲音频的各音频段的特点制作相应的视频，从而，加强歌曲音频与对应的视频的关联性，减少违和感。

发明内容

本申请实施例提供了一种音频分段的方法、装置、服务器及计算机可读存储介质，可以解决相关技术中存在的技术问题。所述音频分段的方法、装置、服务器及计算机可读存储介质的技术方案如下：

第一方面，提供了一种音频分段的方法，所述方法包括：

获取目标歌曲音频；

确定所述目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点；

基于所述频谱特征、所述各歌词段的开始时间点与结束时间点和所述各重音拍时间点，确定所述目标歌曲音频的各分段时间点。

可选的，所述基于所述频谱特征、所述各歌词段的开始时间点与结束时间点和所述各重音拍时间点，确定所述目标歌曲音频的分段时间点，包括：

基于所述频谱特征，确定所述目标歌曲音频的各初始分段时间点；

基于所述各歌词段的开始时间点与结束时间点，对所述各初始分段时间点进行第一次调整；

基于所述各重音拍时间点，对经第一次调整后的各初始分段时间点进行第二次调整，得到所述目标歌曲音频的各分段时间点。

可选的，所述基于所述频谱特征，确定所述目标歌曲音频的各初始分段时间点，包括：

基于所述频谱特征，确定所述目标歌曲音频的前奏段、入门段、副歌段、间奏段和尾奏段分别对应的初始分段时间点。

可选的，所述方法还包括：

将包含高潮时间点的音频段确定为高潮段，其中，所述音频段包括前奏段、入门段、副歌段、间奏段和尾奏段。

可选的，所述基于所述各歌词段的开始时间点与结束时间点，对所述各初始分段时间点进行第一次调整，包括:

对于每个初始分段时间点，如果所述初始分段时间点在任一歌词段的开始时间点与结束时间点之间，则将所述初始分段时间点调整为所述结束时间点。

可选的，所述基于所述各重音拍时间点，对经第一次调整后的各初始分段时间点进行第二次调整，得到所述目标歌曲音频的各分段时间点，包括：

对于每个经第一次调整后的初始分段时间点，将所述初始分段时间点调整为所述初始分段时间点之后的第一个重音拍时间点，得到所述目标歌曲音频的分段时间点。

可选的，所述方法还包括：

对于每两个相邻的分段时间点，如果所述两个相邻的分段时间点的间隔时长比目标时长与n倍的基准时长的和大，比所述目标时长与n+1倍的基准时长的和小，则在所述两个相邻的分段时间点之间选择n+1个时间点，作为分段时间点，其中，n为大于或等于0的整数。

可选的，所述在所述两个相邻的分段时间点之间选择n+1个时间点，作为分段时间点，包括：

在所述两个相邻的分段时间点之间，均匀选择n+1个基准时间点；

对于每两个相邻的基准时间点，在所述两个相邻的基准时间点之间选择距第一基准时间点最近的重音拍时间点，作为分段时间点，其中，所述第一基准时间点为所述两个相邻的的基准时间点中较早的基准时间点；

在第二基准时间点和第一分段时间点之间，选择距所述第二基准时间点最近的重音拍时间点，作为分段时间点，其中，所述第二基准时间点是所述n+1个基准时间点中最晚的基准时间点，所述第一分段时间点是所述两个相邻的分段时间点中较晚的分段时间点。

可选的，所述方法还包括：

接收各音频段对应的视频段，其中，所述各音频段是根据所述各分段时间点划分的，每个音频段的时长与对应的视频段的时长相等；

对接收到的视频段进行拼接处理，得到所述目标歌曲音频对应的视频。

第二方面，提供了一种音频分段的装置，所述装置包括：

获取模块，用于获取目标歌曲音频；

确定模块，用于确定所述目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点；

分段模块，用于基于所述频谱特征、所述各歌词段的开始时间点与结束时间点和所述各重音拍时间点，确定所述目标歌曲音频的各分段时间点。

可选的，所述分段模块，用于：

可选的，所述装置还包括标记模块，用于：

可选的，所述分段模块，用于：

可选的，所述分段模块，还用于：

可选的，所述分段模块，用于：

可选的，所述装置还包括拼接模块，用于：

第三方面，提供了一种服务器，所述服务器包括存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如第一方面所述的音频分段的方法。

第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如第一方面所述的音频分段的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供了一种音频分段的方法，首先，获取目标歌曲音频，然后，确定目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，最后，基于频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定所目标歌曲音频的各分段时间点。从而，可以根据确定出的各分段时间点，将目标歌曲音频划分为不同的音频段，解决了相关技术中亟需一种音频分段的方法的技术问题。使得人们可以根据不同的音频段的特点制作对应的视频段，进而将各视频段拼接成目标歌曲音频对应的视频之后，由于音频段是基于重音拍时间点划分的，使得目标歌曲音频对应的视频中不同的视频段切换的时间点，与目标歌曲音频的重音拍时间点相对应。从而，加强了目标歌曲音频与对应的视频的关联性，减少了违和感。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频分段的方法的流程图；

图2是本申请实施例提供的一种音频分段的装置的结构示意图；

图3是本申请实施例提供的一种服务器的结构示意图；

图4是本申请实施例提供的一种音频片段的选取界面示意图；

图5是本申请实施例提供的一种歌曲播放界面示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种音频分段的方法，该方法可以由服务器实现。本申请实施例提供的音频分段的方法，首先，获取目标歌曲音频，然后，确定目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，最后，基于频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定所目标歌曲音频的各分段时间点。从而，可以根据确定出的各分段时间点，将目标歌曲音频划分为不同的音频段，解决了相关技术中亟需一种音频分段的方法的技术问题。

然后，服务器将目标歌曲音频和各分段时间点发送到终端，则终端显示目标歌曲音频的各音频段供用户选择，如图4所示，当用户选择好音频段之后，可以选择选取素材，然后根据选取的图像素材，制作音频段对应的视频段，制作的视频段的时长与音频段的时长相等。制作完成后，可以选择发布，将制作的视频段发布到网上。然后，服务器可以获取用户发布的视频段，并针对每一音频段选择一个视频段，并将选择的各个视频段拼接成目标歌曲音频对应的视频。然后，将目标歌曲音频对应的视频发送给终端，则终端可以在目标歌曲音频的播放界面上显示对应的视频，如图5所示(选择图5右上角的视频模式，即可播放目标歌曲音频对应的视频)。由于音频段是基于重音拍时间点划分的，所以使得视频中不同的视频段切换的时间点，与目标歌曲音频的重音拍时间点相对应。从而，加强了目标歌曲音频与对应的视频的关联性，减少了违和感。

如图1所示，该音频分段的方法的处理流程可以包括如下步骤：

在步骤101中，获取目标歌曲音频。

其中，目标歌曲音频为想要进行音频分段的歌曲音频。

在实施中，服务器获取上传的目标歌曲音频。

在步骤102中，确定目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点。

在实施中，获取目标歌曲音频之后，可以基于目标歌曲音频自身的特征，确定目标歌曲音频的频谱特征。

目标歌曲音频中携带有歌词信息，歌词信息中包含各歌词段的开始时间点和结束时间点，获取目标歌曲音频之后，即可根据目标歌曲音频中携带的歌词信息，确定各歌词段的开始时间点和结束时间点。

获取目标歌曲音频之后，服务器可以基于目标歌曲音频的BPM(Beat Per Minute，每分钟节拍数)、节拍信息等确定目标歌曲音频的各重音拍时间点。

或者，服务器在获取目标歌曲音频的同时，获取目标歌曲音频对应的打点数据，打点数据包括目标歌曲音频中的节拍时间点和对应的节拍值，节拍值一般有1、2、3和4，节拍值为1代表节拍点为重音点，节拍值为2和3代表节拍点为过渡点，节拍值为4代表节拍点为轻音点，每个重音点的节拍时间点(即重音拍时间点)为音频数据中有节奏变换的时间点。打点数据中的节拍时间点和对应的节拍值，可以为通过机器根据歌曲音频的BPM(Beat PerMinute，每分钟节拍数)、节拍信息等采集生成的，也可以为技术人员通过听该音频数据，手动标记制作的。当然，对于同一歌曲音频，技术人员可以既生成对应的人工打点数据，也可以生成机器点数据，并将二者均上传至服务器。

在步骤103中，基于频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定目标歌曲音频的各分段时间点。

其中，每两个相邻的分段时间点之间的音频片段为一个划分出的音频段，目标歌曲音频的开始时间点与相邻的分段时间点之间的音频片段也为一个划分出的音频段，目标歌曲音频的结束时间点与相邻的分段时间点之间的音频片段也为一个划分出的音频段。

在实施中，首先，确定出目标歌曲音频的哈希值，并基于哈希值，确定目标歌曲音频的标识，可选的，可以直接将哈希值作为目标歌曲音频的标识。然后，将确定出的各分段时间点与目标歌曲音频的标识进行对应存储。即可以通过查找目标歌曲音频的标识，查找目标歌曲音频的分段时间点。

确定目标歌曲音频的各分段时间点的具体步骤可以如下所述，首先，基于频谱特征，确定目标歌曲音频的各初始分段时间点。然后，基于各歌词段的开始时间点与结束时间点，对各初始分段时间点进行第一次调整。最后，基于各重音拍时间点，对经第一次调整后的各初始分段时间点进行第二次调整，得到目标歌曲音频的各分段时间点。

然后，基于确定出的各分段时间点，将目标歌曲音频划分为不同的音频段。

可选的，根据频谱特征确定目标歌曲音频的各初始分段时间点的具体过程可以如下所述，基于频谱特征，确定目标歌曲音频的前奏段、入门段、副歌段、间奏段和尾奏段分别对应的初始分段时间点。

在实施中，首先，可以基于频谱特征，确定出不包含人声的音频段(前奏段、间奏段和尾奏段)。然后，服务器根据三种音频段的不同特点，对音频段进行细分，确定出前奏段、间奏端和尾奏段。可选的，为了提高划分的准确性，可以根据各音频段在目标歌曲音频段所处的位置，对各音频段所属的类型进行调整。例如，如果确定出某一前奏段在目标歌曲音频的尾部，则将前奏段更正为尾奏段。

然后，将剩余的包含人声的音频段进行再次划分，首先，基于目标歌曲音频的频谱特征，确定出基准频谱值，然后，将大于基准频谱值的音频段确定为副歌段，将小于基准频谱值的音频段确定为入门段。

如表1所示，可以用A代表前奏段，B代表入门段，C代表副歌段，D代表间奏段，E代表尾奏段。从表1中可以看出，一个目标歌曲音频可以包括多个前奏段、入门段、副歌段、间奏段和尾奏段。

基于目标歌曲音频的频谱特征确定出的初始分段时间点，使得每两个初始分段时间点之间的音频段的整体风格一致，便于用户制作相应的视频段。

可选的，还可以确定出目标歌曲音频的高潮段，相应的处理过程可以如下所述，将包含高潮时间点的音频段确定为高潮段。

其中，音频段包括前奏段、入门段、副歌段、间奏段和尾奏段。高潮时间点可以为技术人员人工标记得出，或者由机器采集得出。

在实施中，将高潮段标记出来，可以方便用户对音频段进行选择。

可选的，对初始分段时间点进行第一次调整的具体过程可以如下所述，对于每个初始分段时间点，如果初始分段时间点在任一歌词段的开始时间点与结束时间点之间，则将初始分段时间点调整为结束时间点。

在实施中，基于频谱特征确定出的初始分段时间点，可能会落在某歌词段的开始时间点和结束时间点之间，如果不对初始分段时间点进行调整，直接根据初始分段时间点进行音频段划分，则会使得划分出的音频段有的不能包含完整的歌词，即有的音频段会将某段歌词截断，使得用户的体验变差。因此，需要对初始分段时间点进行第一次调整，即将落在某一歌词段的开始时间点和结束时间点之间的初始分段时间点，调整为该歌词段的结束时间点。若初始分段时间点未在歌词段的开始时间点和结束时间点之间，则该初始分段时间点不变，即经第一次调整后该初始分段时间点仍然为调整前的初始分段时间点。以上两种情况，均可以称为对初始分段时间点进行了第一次调整，无论调整后初始分段时间点的具体数值是否改变。

例如，划分的初始分段时间点为19s，某一歌词段的开始时间点为10s，结束时间点为20s，则调整后的初始分段时间点为20s。再例如，划分的初始分段时间点为19s，该初始分段时间点不在任一歌词段的开始时间点和结束时间点之间，则调整后的初始分段时间点仍然为19s。

可选的，对经第一次调整后的初始分段时间点进行第二次调整的具体过程可以如下所述，对于每个经第一次调整后的初始分段时间点，将初始分段时间点调整为初始分段时间点之后的第一个重音拍时间点，得到目标歌曲音频的分段时间点。

其中，经第一次调整后的初始分段时间点，并不是仅仅指初始分段时间点的具体数值有变化的初始分段时间点，而是指所有的初始分段时间点，既包括经第一次调整后具体数值改变的初始分段时间点，也包括经第一次调整后具体数值没有改变的初始分段时间点。

在实施中，为了使得目标歌曲音频对应的视频中的不同的视频段的切换时间点，与目标歌曲音频的重音拍时间点相对应，需要将初始分段时间点调整为重音拍时间点，并将该重音拍时间点作为分段时间点。

在某些情况下，对于每个经第一次调整后的初始分段时间点，若初始分段时间点之后没有重音拍时间点，则将初始分段时间点调整为初始分段时间点之前的第一个重音拍时间点。

例如，经第一次调整后的初始分段时间点为20s，在目标歌曲音频中，该初始分段时间之后的第一个重音拍时间点为20.3s，则调整后的初始分段时间点为20.3s，并且，调整后的初始分段时间20.3s即为得到的分段时间点。

再例如，经第一次调整后的初始分段时间点为180s，在目标歌曲音频中，该初始分段时间点之后不存在重音拍时间点，并且，该初始分段时间点之前的第一个重音拍时间点为179s，则调整后的初始分段时间点为179s，并且，调整后的初始分段时间点179s即为得到的分段时间点。

通过将重音拍时间点确定为分段时间点，可以使视频段的切换踩在节奏点上。从而，加强了目标歌曲音频与对应的视频的关联性，减少了违和感。

可选的，对于时长过长的音频段，可以在该音频段中继续选取分段时间点，从而将该音频段划分为多个时长较短的音频段，则相应的处理过程可以如下所述，对于每两个相邻的分段时间点，如果两个相邻的分段时间点的间隔时长比目标时长与n倍的基准时长的和大，比目标时长与n+1倍的基准时长的和小，则在两个相邻的分段时间点之间选择n+1个时间点，作为分段时间点。

其中，n为大于或等于0的整数。目标时长和基准时长可以不同，例如，目标时长可以为25s，基准时长可以为30s。

在实施中，为了防止划分的音频段过长，不利于用户制作视频，需要对时长过长的音频段进行再次划分，即在两个相距较远的分段时间点之间继续选择新的时间点作为分段时间点，从而避免划分的音频段过长，使得划分出的音频段更能满足用户制作视频的需求。

对于两个相邻的分段时间点，在两个相邻的分段时间点之间选取的新的分段时间点的数目，与两个分段时间点的间隔时长有关。具体的，如果两个相邻的分段时间点的间隔时长比目标时长与n倍的基准时长的和大，比目标时长与n+1倍的基准时长的和小，则在两个相邻的分段时间点之间选择n+1个时间点，作为分段时间点。

例如，目标时长为25s，基准时长为30s。如果两个相邻的分段时间点间隔时长小于25s，则不对两个相邻的分段时间点对应的音频段进行再次划分，即不在该两个相邻的分段时间点之间选择分段时间点。如果两个相邻的分段时间点间隔时长大于25s(25s与0倍的30s的和)，并且小于55s(25s与1倍的30s的和)，则在这两个相邻的分段时间点之间继续选择1个时间点，作为分段时间点。如果两个相邻的分段时间点间隔时长大于55s(25s与1倍的30s的和)，并且小于85s(25s与2倍的30s的和)，则在这两个相邻的分段时间点之间继续选择2个时间点，作为分段时间点。如果两个相邻的分段时间点间隔时长大于85s(25s与2倍的30s的和)，并且小于115s(25s与3倍的30s的和)，则在这两个相邻的分段时间点之间继续选择3个时间点，作为分段时间点。如果两个相邻的分段时间点间隔时长大于115s(25s与3倍的30s的和)，并且小于145s(25s与4倍的30s的和)，则在这两个相邻的分段时间点之间继续选择4个时间点，作为分段时间点。

可选的，在两个相邻的分段时间点之间选择n+1个时间点的具体过程可以如下所述，在两个相邻的分段时间点之间，均匀选择n+1个基准时间点。对于每两个相邻的基准时间点，在两个相邻的基准时间点之间选择距第一基准时间点最近的重音拍时间点，作为分段时间点，其中，第一基准时间点为两个相邻的基准时间点中较早的基准时间点。在第二基准时间点和第一分段时间点之间，选择距第二基准时间点最近的重音拍时间点，作为分段时间点，其中，第二基准时间点是n+1个基准时间点中最晚的基准时间点，第一分段时间点是两个相邻的分段时间点中较晚的分段时间点。

其中，第二基准时间点也即与两个相邻的分段时间点中较晚的分段时间点(即第一分段时间点)相邻的基准时间点。

在实施中，在两个相邻的分段时间点之间，均匀选择n+1个基准时间点是指，分段时间点与相邻的基准时间点相距的时长，以及相邻的两个基准时间点相距的时长均相等。

例如，目标时长为25s，基准时长为30s。两个相邻的分段时间点分别为T和T+t。

如果t小于25s，即两个相邻的分段时间点间隔时长小于25s，则不对两个相邻的分段时间点对应的音频段进行再次划分，即不在该两个相邻的分段时间点之间选择分段时间点。

如果t等于50s，即两个相邻的分段时间点间隔时长大于25s(25s与0倍的30s的和)，并且小于55s(25s与1倍的30s的和)，则在这两个相邻的分段时间点的1/2处选取基准时间点，即T+25s作为基准时间点。然后，在T+25s和T+t之间，选择距T+25s最近的重音拍时间点作为分段时间点，如T+26s。

如果t等于60s，即两个相邻的分段时间点间隔时长大于55s(25s与1倍的30s的和)，并且小于85s(25s与2倍的30s的和)，则在这两个相邻的分段时间点之间的1/3处和2/3处选取两个基准时间点，即T+20s和T+40s作为基准时间点。然后，在T+20s和T+40s之间，选择距T+20s最近的重音拍时间点作为分段时间点，如T+21s；在T+40s和T+t之间，选择距T+40s最近的重音拍时间点作为分段时间点，如T+42s。

如果t等于100s，即两个相邻的分段时间点间隔时长大于85s(25s与2倍的30s的和)，并且小于115s(25s与3倍的30s的和)，则在这两个相邻的分段时间点之间的1/4、2/4和3/4处选取三个基准时间点，即T+25s、T+50s和T+75s作为基准时间点。然后，在T+25s和T+50s之间，选择距T+25s最近的重音拍时间点作为分段时间点，如T+26s；在T+50s和T+75s之间，选择距T+50s最近的重音拍时间点作为分段时间点，如T+51s；在T+75s和T+t之间，选择距T+75s最近的重音拍时间点作为分段时间点，如T+76s。

如果t等于120s，即两个相邻的分段时间点间隔时长大于115s(25s与3倍的30s的和)，并且小于145s(25s与4倍的30s的和)，则在这两个相邻的分段时间点之间的1/5、2/5、3/5和4/5处选取四个基准时间点，即T+24s、T+48s、T+72s和T+96s作为基准时间点。然后，T+24s和T+48s之间选择距T+24s最近的重音拍时间点作为分段时间点，如T+26s；在T+48s和T+72s之间选择距T+48s最近的重音拍时间点作为分段时间点，如T+50s；在T+72s和T+96s之间选择距T+72s最近的重音拍时间点作为分段时间点，如T+73s。

在某些情况下，对于每两个相邻的基准时间点，如果两个相邻的基准时间点之间不存在重音拍时间点，则在第一基准时间点之前，选择距第一基准时间点最近的重音拍时间点，作为分段时间点，其中，第一基准时间点为两个相邻的基准时间点中较早的基准时间点。在第二基准时间点和第一分段时间点之间，如果不存在重音拍时间点，则在第二基准时间点之前，选择距第二基准时间点最近的重音拍时间点，作为分段时间点。其中，第二基准时间点是n+1个基准时间点中最晚的基准时间点，也即与第一分段时间点相邻的基准时间点，第一分段时间点是两个相邻的分段时间点中较晚的分段时间点。

对于经过重新选取后的各分段时间点，如果仍有两个相邻的分段时间点的间隔时长大于目标时长，则继续进行上述处理，直至任意两个相邻的分段时间点的间隔时长均小于目标时长。

如表1所示，提供了一种对目标歌曲音频进行分段的具体过程示意表。在表1中，第一列数据表示目标歌曲音频的各初始分段时间点；第二列代表基于初始分段时间点划分出的音频段的时长；第三列数据表示各音频段所属的类型，其中，A表示前奏段，B表示入门段，C表示副歌段，D表示间奏段，E表示尾奏段；第四列数据表示经第一次调整后的各初始分段时间点；第五列数据表示经第二次调整后的各初始分段时间点，也即分段时间点；第六列数据表示经第二次调整后各音频段的时长；第七列数据表示根据第六列数据中的各时长，是否对音频段进行再次划分(也即是否继续选择分段时间点)；第八列数据表示各音频段是否是高潮段或热门段。

表1

在确定目标歌曲音频各分段时间点之后，将目标歌曲音频和确定出的各分段时间点发送给终端，则终端在音频片段的选取界面显示目标歌曲音频的各音频段，如图4所示。然后，用户可以选取该目标歌曲音频的某一音频段，然后，选择图像素材制作该音频段对应的视频段，其中，该图像素材可以是视频素材，也可以是图片素材。在音频片段的选取界面下方可以显示有该用户或其余用户已经制作好的各视频段，并且，还可以将属于高潮段的音频段对应的视频段集进行标记，如图4所示。用户制作好视频段之后，可以将视频段发布到网上。

可选的，服务器可以接收发布的视频段，并对视频段进行拼接处理，相应的处理过程可以如下所述，接收各个音频段对应的视频段，对接收到的视频段进行拼接处理，得到目标歌曲音频对应的视频。

其中，各音频段是根据各分段时间点划分的，每个音频段的时长与对应的视频段的时长相等。

在实施中，对于每个音频段，服务器可能会接收到多个视频段，则首先需要对视频段进行筛选，使得对于每个音频段，均筛选出一个视频段。筛选可以是人工筛选，也可以是通过计算机设备进行筛选。

然后，将筛选出的各个视频段按照对应音频段的顺序进行拼接处理，则可以得到目标歌曲音频对应的视频。由于每个音频段的时长与对应的视频段的时长相等，所以在视频中各个视频段切换的时间点，与目标歌曲音频中的重音拍时间点相对应，所以视频播放时的节奏感较强。从而，加强了目标歌曲音频与对应的视频的关联性，减少了违和感。

当目标歌曲音频对应的视频制作完成后，服务器可以将目标歌曲音频对应的视频发送给终端，然后，终端获取视频后，可以在音乐播放页对该视频进行播放，如图5所示，当用户在音乐播放界面选择视频模式时，即可在目标歌曲音频的音乐播放界面播放目标歌曲音频对应的视频。

可选的，服务器接收各个音频段对应的视频段，并对各个音频段对应的视频段的数量进行统计，并确定对应视频段的数量最多的音频段为热门段。并且，还可以将属于热门段的音频段，对应的视频段集进行标记，显示在音频片段的选取界面的下方，如图4所示。

本申请实施例提供了一种音频分段的方法，首先，获取目标歌曲音频，然后，确定目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，最后，基于频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定所目标歌曲音频的各分段时间点。从而，可以根据确定出的各分段时间点，将目标歌曲音频划分为不同的音频段，解决了相关技术中亟需一种音频分段的方法的技术问题。使得人们可以根据不同的音频段的特点制作对应的视频段，进而将各视频段拼接成目标歌曲音频对应的视频之后，由于音频段是基于重音拍时间点划分的，使得目标歌曲音频对应的视频中不同的视频段的切换时间点，与目标歌曲音频的重音拍时间点相对应。从而，加强了目标歌曲音频与对应的视频的关联性，减少了违和感。

基于相同的技术构思，本申请实施例还提供了一种视频预览的装置，该装置可以为上述实施例中的终端，如图2所示，该装置包括：

获取模块201，用于获取目标歌曲音频；

确定模块202，用于确定目标歌曲音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点；

分段模块203，用于基于频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定目标歌曲音频的各分段时间点。

可选的，分段模块203，用于：

基于频谱特征，确定目标歌曲音频的各初始分段时间点；

基于各歌词段的开始时间点与结束时间点，对各初始分段时间点进行第一次调整；

基于各重音拍时间点，对经第一次调整后的各初始分段时间点进行第二次调整，得到目标歌曲音频的各分段时间点。

可选的，分段模块203，用于：

基于频谱特征，确定目标歌曲音频的前奏段、入门段、副歌段、间奏段和尾奏段分别对应的初始分段时间点。

可选的，装置还包括标记模块，用于：

将包含高潮时间点的音频段确定为高潮段，其中，音频段包括前奏段、入门段、副歌段、间奏段和尾奏段。

可选的，分段模块203，用于：

对于每个初始分段时间点，如果初始分段时间点在任一歌词段的开始时间点与结束时间点之间，则将初始分段时间点调整为结束时间点。

可选的，分段模块203，用于：

对于每个经第一次调整后的初始分段时间点，将初始分段时间点调整为初始分段时间点之后的第一个重音拍时间点，得到目标歌曲音频的分段时间点。

可选的，分段模块203，还用于：

对于每两个相邻的分段时间点，如果两个相邻的分段时间点的间隔时长比目标时长与n倍的基准时长的和大，比目标时长与n+1倍的基准时长的和小，则在两个相邻的分段时间点之间选择n+1个时间点，作为分段时间点，其中，n为大于或等于0的整数。

可选的，分段模块203，用于：

在两个相邻的分段时间点之间，均匀选择n+1个基准时间点；

对于每两个相邻的基准时间点，在两个相邻的基准时间点之间选择距第一基准时间点最近的重音拍时间点，作为分段时间点，其中，第一基准时间点为两个相邻的的基准时间点中较早的基准时间点；

在第二基准时间点和第一分段时间点之间，选择距第二基准时间点最近的重音拍时间点，作为分段时间点，其中，第二基准时间点是n+1个基准时间点中最晚的基准时间点，第一分段时间点是两个相邻的分段时间点中较晚的分段时间点。

可选的，装置还包括拼接模块，用于：

接收各音频段对应的视频段，其中，各音频段是根据各分段时间点划分的，每个音频段的时长与对应的视频段的时长相等；

对接收到的视频段进行拼接处理，得到目标歌曲音频对应的视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的音频分段的装置在进行音频分段时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频分段的装置与音频分段的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图3是本申请实施例提供的一种服务器的结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)301和一个或一个以上的存储器302，其中，存储器302中存储有至少一条指令，所述至少一条指令由处理器301加载并执行以实现上述音频分段的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的音频分段的方法。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory)、随机存取存储器(RandomAccess Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频分段的方法，其特征在于，所述方法包括：

获取目标歌曲音频；

2.根据权利要求1所述的方法，其特征在于，所述基于所述频谱特征、所述各歌词段的开始时间点与结束时间点和所述各重音拍时间点，确定所述目标歌曲音频的分段时间点，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述频谱特征，确定所述目标歌曲音频的各初始分段时间点，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，所述基于所述各歌词段的开始时间点与结束时间点，对所述各初始分段时间点进行第一次调整，包括:

6.根据权利要去2-4任一项所述的方法，其特征在于，所述基于所述各重音拍时间点，对经第一次调整后的各初始分段时间点进行第二次调整，得到所述目标歌曲音频的各分段时间点，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，所述在所述两个相邻的分段时间点之间选择n+1个时间点，作为分段时间点，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种音频分段的装置，其特征在于，所述装置包括：

获取模块，用于获取目标歌曲音频；

11.一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1-9任一项所述的音频分段的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1-9任一项所述的音频分段的方法。