CN112150997A

CN112150997A - 确定合唱歌词分配信息的方法、装置、设备及存储介质

Info

Publication number: CN112150997A
Application number: CN202011013567.4A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-29

Abstract

本申请公开了一种确定合唱歌词分配信息的方法，属于互联网技术领域。所述方法包括：提取目标歌曲音频中的人声音频；基于所述人声音频中静音帧的位置，将所述人声音频划分为多个发声音频段，将所述多个发声音频段确定为所述目标歌曲音频的各句歌词对应的演唱音频段；基于每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，其中，所述合唱歌词分配信息中包括所述目标歌曲音频的每句歌词对应的演唱者。采用本申请能够提高得到合唱歌词分配信息的效率。

Description

确定合唱歌词分配信息的方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种确定合唱歌词分配信息的方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，K歌应用程序(歌曲演唱应用程序)越来越火热。用户可以在通过，如手机、平板电脑等，安装K歌应用程序，然后通过K歌应用程序播放的歌曲伴奏演唱歌曲。K歌应用程序可以对用户的演唱音频进行录制，再将录制的演唱音频与对应的歌曲伴奏合成用户演唱歌曲的音频。

目前K歌应用程序提供有合唱的演唱形式。合唱的演唱形式需要预先将歌曲分为多个演唱段落，然后将歌词按照对应的演唱段落分配不同的演唱者标识，得到合唱歌词分配信息，其中，演唱者标识可以用于区分不同的用户。例如用户演唱相应的歌曲时，终端可以将对应不同演唱者标识的歌词设置为不同的颜色，用户A可以只演唱歌曲中指定颜色的歌词对应的部分，其他用户B可以在用户A的演唱音频的基础上，演唱歌曲中其他颜色的歌词对应的部分。

在实现本申请的过程中，发明人发现相关技术至少存在以下问题：

在相关技术中，首先需人工将对应的歌曲划分为多个演唱段落，然后再根据每个演唱段落对应的歌词分配演唱者标识，从而得到对应歌曲的合唱歌词分配信息。由于得到歌曲的合唱歌词分配信息需要人工参与，所以目前得到合唱歌词分配信息的效率较低。

发明内容

本申请实施例提供了一种互联网技术领域，能够提高得到合唱歌词分配信息的效率。所述技术方案如下：

一方面，提供了一种确定合唱歌词分配信息的方法，所述方法包括：

提取目标歌曲音频中的人声音频；

基于所述人声音频中静音帧的位置，将所述人声音频划分为多个发声音频段，将所述多个发声音频段确定为所述目标歌曲音频的各句歌词对应的演唱音频段；

基于每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，其中，所述合唱歌词分配信息中包括所述目标歌曲音频的每句歌词对应的演唱者。

可选的，所述基于所述人声音频中静音帧的位置，将所述人声音频划分为多个发声音频段，包括：

确定所述人声音频中各音频帧是否为静音帧，如果存在连续的超过第一预设数目的多个静音帧，则将所述多个静音帧对应的音频段确定为静音音频段；

将所述人声音频中除去所述静音音频段之后剩余的多个音频段，确定为多个发声音频段。

可选的，所述基于每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，包括：

基于所述每个演唱音频段的时长，确定至少两个第一类演唱音频段集合，其中，所述第一类演唱音频段集合中包括多个连续的演唱音频段，所述第一类演唱音频段集合中的多个演唱音频段与其它至少一个第一类演唱音频段集合中的多个演唱音频段满足时长近似条件；

基于所述第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息。

可选的，所述时长近似条件包括：两个第一类演唱音频段集合包括的演唱音频段数目相同，且在两个第一类演唱音频段集合中，任意两个在时序上位置相同的演唱音频段的时长之差小于预设差值阈值。

可选的，所述基于所述每个演唱音频段的时长，确定至少两个第一类演唱音频段集合之后，还包括：

确定至少一个第二类演唱音频段集合，其中，所述第二类演唱音频段集合中包括多个不在所述第一类演唱音频段集合中且连续的演唱音频段；

所述基于所述第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，包括：

基于所述第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，以及所述第二类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息。

可选的，所述基于所述第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，以及所述第二类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，包括：

对于所述第一类演唱音频段集合和所述第二类演唱音频段集合中的每个演唱音频段集合，在所述演唱音频段集合中，将时序上第一个演唱音频段确定为初始音频段；

由所述初始音频段之后的第N个演唱音频段开始，逐个确定每个演唱音频段与后一个演唱音频段之间的时间间隔，当当前的演唱音频段与后一个演唱音频段之间的时间间隔大于时间间隔阈值时，将所述当前的演唱音频段确定为结束音频段；

如果直到所述演唱音频段集合中时序上最后一个演唱音频段为止确定出的各时间间隔都小于或等于时间间隔阈值，则将所述演唱音频段集合中时序上最后一个演唱音频段确定为结束音频段；

如果所述演唱音频段集合中所述初始音频段之后的演唱音频段的数目小于或等于N，则将所述演唱音频段集合中时序上最后一个演唱音频段确定为结束音频段；

将从所述初始音频段至所述结束音频段的多个演唱音频段确定为连续演唱部分，将所述结束音频段的后一个演唱音频段设置为初始音频段，转至执行所述由所述初始音频段之后的第N个演唱音频段开始之后的处理，其中，N为预设正整数；

关于在所述第一类演唱音频段集合和所述第二类演唱音频段集合中确定的多个连续演唱部分，按照预设的歌词分配顺序，为各个所述连续演唱部分对应的歌词分别添加对应的演唱者标识，得到所述目标歌曲音频的合唱歌词分配信息。

另一方面，提供了一种确定合唱歌词分配信息的装置，其特征在于，所述装置包括：

提取模块，用于提取目标歌曲音频中的人声音频；

划分模块，用于基于所述人声音频中静音帧的位置，将所述人声音频划分为多个发声音频段，将所述多个发声音频段确定为所述目标歌曲音频的各句歌词对应的演唱音频段；

确定模块，用于基于每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，其中，所述合唱歌词分配信息中包括所述目标歌曲音频的每句歌词对应的演唱者。

可选的，所述划分模块，用于：

可选的，所述确定模块，用于：

可选的，所述确定模块，还用于：

所述确定模块，用于：

可选的，所述确定模块，用于：

在一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上所述的确定合唱歌词分配信息的方法所执行的操作。

在一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的确定合唱歌词分配信息的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

通过提取目标歌曲音频中的人声音频，将人声音频划分为多个演唱音频段，然后根据每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，可以确定多个连续演唱的部分，然后根据多个连续演唱的部分对应的歌词确定对应的合唱歌词分配信息，这样通过演唱音频段的时长和相邻演唱音频段之间的时间间隔可以自动得到合唱歌词分配信息，不需要人工进行参与，因此可以提高得到合唱歌词分配信息的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种确定合唱歌词分配信息的方法流程图；

图2是本申请实施例提供的一种确定合唱歌词分配信息的方法示意图；

图3是本申请实施例提供的一种确定合唱歌词分配信息的方法示意图；

图4是本申请实施例提供的一种确定合唱歌词分配信息的方法示意图；

图5是本申请实施例提供的一种确定合唱歌词分配信息的装置结构示意图；

图6是本申请实施例提供的终端结构示意图；

图7是本申请实施例提供的服务器结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的确定合唱歌词分配信息的方法可以由终端或服务器实现。其中，如果本方案由终端实现，则终端中可以安装用于录歌的应用程序，如K歌应用程序，终端具备处理器和存储器，存储器可以存储本申请实施例提供的确定合唱歌词分配信息的方法对应的处理程序，处理器可以运行对应的处理程序，实现本申请实施例提供的确定合唱歌词分配信息的方法。另外，终端还可以具备麦克风、扬声器、耳机接口、显示屏幕等部件，终端可以是手机、平板电脑、笔记本电脑、台式机等智能设备。如果本方案由服务器实现，则服务器可以是上述K歌应用程序的后台服务器，服务器可以与终端建立通信。该服务器可以是一个单独的服务器也可以是一个服务器组，如果是单独的服务器，该服务器可以负责下述方案中的所有处理，如果是服务器组，服务器组中的不同服务器分别可以负责下述方案中的不同处理，具体的处理分配情况可以由技术人员根据实际需求任意设置，此处不再赘述。

歌曲合唱是当前K歌应用程序中常见的一种功能，即可以由两个或两个以上的用户共同完成同一首歌曲的录制。录制过程可以是先由用户A完成一部分歌曲的录制，得到一个录制音频A，其中在录制音频A中包括用户A的演唱的人声音频和整首歌曲的伴奏音频。然后由其他用户B可以获取用户A的录制音频A，然后在用户A的录制音频A的基础上，将用户A未演唱的歌曲部分进行演唱，得到录制音频AB，其中，录制音频AB即为用户A和用户B合唱的合唱音频，包括用户A和用户B的演唱音频以及歌曲的伴奏音频。而本申请实施例提供的确定合唱歌词分配信息的方法，可以自动划分属于用户A演唱的歌词部分和属于用户B演唱的歌词部分，不需要进行人工划分，能够提高划分歌曲的方式效率。

图1是本申请实施例提供的一种确定合唱歌词分配信息的方法流程图。参见图1，该实施例包括：

步骤101、提取目标歌曲音频中的人声音频。

其中，目标歌曲音频可以是任一个歌曲的音频。如果本申请实施例由终端实现，则目标歌曲音频可以是用户选择演唱的歌曲对应的歌曲音频。如果本申请实施例由服务器实现，则目标歌曲可以是K歌应用程序对应的音乐库中的任一个歌曲的音频。

在实施中，当获取到目标歌曲音频之后，可以将对目标歌曲音频进行人声伴奏分离处理，得到目标歌曲音频中的人声音频，在人声音频中只有歌手演唱的人声，没有目标歌曲中的伴奏的声音。例如通过现有的人声伴奏分离处理算法对目标歌曲音频进行处理，提取出目标歌曲音频中人声音频和伴奏音频，如图2所示，其中得到的人声音频和伴奏音频以及目标歌曲音频的时长相等。

步骤102、基于人声音频中静音帧的位置，将人声音频划分为多个发声音频段，将多个发声音频段确定为目标歌曲音频的各句歌词对应的演唱音频段。

在实施中，由于得到的目标歌曲音频的人声音频的时长与目标歌曲音频的时长相等，且歌手在演唱歌曲时，需要在每句歌词之间进行换气、停顿等，所以在人声音频中会存在一些不发声的音频帧，即静音帧，然后通过静音帧对人声音频进行划分，可以得到多个存在声音的音频段，即发声音频段。由于人声音频中只包括歌手演唱目标歌曲的演唱的声音，所以每个发声音频段即为目标歌曲音频的各句歌词对应的演唱音频段。

可选的，根据静音帧的位置将人声音频划分为多个发声音频段的处理如下：确定人声音频中各音频帧是否为静音帧，如果存在连续的超过第一预设数目的多个静音帧，则将多个静音帧对应的音频段确定为静音音频段；将人声音频中除去静音音频段之后剩余的多个音频段，确定为多个发声音频段。

在实施中，在得到目标歌曲音频的人声音频之后，可以将人声音频进行切分为多个小段的音频，然后将每个小段的音频作为音频帧，检测音频帧中是否存在人声，如果不存在人声则该音频帧为静音帧。例如通过VAD算法，以10ms作为一个音频帧，对人声音频进行切分。如果切分之后人声音频对应的多个音频帧中存在连续的超过第一预设数目的多个静音帧，则将多个静音帧对应的音频段确定为静音音频段。其中，第一预设数目可以由技术人员预先设置，此处不对第一预设数目的数值进行限定。例如可以将第一预设数目设置为30，即在人声音频中出现超过300ms的静音帧时，则将超出300ms的静音帧作为静音音频段。如图3所示在确定人声音频中存在的静音音频段之后，可以将人声音频中除去静音音频段之后，剩余的多个音频段，确定为多个发声音频段。由于现有的人声伴奏分离处理算法，以及音频帧是否为静音帧时可能会存在误差，如果只通过单个静音帧对人声音频进行划分，可能会存在较大的误差，会将一些连续的发声音频帧断开，这样通过设置第一预设数目，将连续的超过第一预设数目的多个静音帧确定为静音音频段，然后以静音音频段对人声音频划分发声音频段，能够减少上述算法存在的误差对划分结果的影响。

步骤103、基于每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定目标歌曲音频的合唱歌词分配信息。

其中，合唱歌词分配信息中包括目标歌曲音频的每句歌词对应的演唱者。

在实施中，在得到目标歌曲音频对应的多个演唱音频段之后，可以根据每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，对目标歌曲音频对应的多个演唱音频段进行划分，得到多个演唱音频段的集合。例如将时长之和大于预设的第一时长阈值，相邻演唱音频段之间的时间间隔都小于第二时长阈值的多个连续的演唱音频段确定为一个演唱音频段的集合。其中每个演唱音频段的集合中包括至少一个演唱音频段，一个演唱音频段的集合中的演唱音频段对应的歌词，由同一个演唱者进行演唱。例如可以为不同的演唱音频段的集合对应的歌词添加不同的演唱者标识，得到目标歌曲音频的合唱歌词分配信息。

可选的，根据每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定目标歌曲音频的合唱歌词分配信息的处理可以如下：基于每个演唱音频段的时长，确定至少两个第一类演唱音频段集合，其中，第一类演唱音频段集合中包括多个连续的演唱音频段，第一类演唱音频段集合中的多个演唱音频段与其它至少一个第一类演唱音频段集合中的多个演唱音频段满足时长近似条件；基于第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定目标歌曲音频的合唱歌词分配信息。

其中，时长近似条件包括：两个第一类演唱音频段集合包括的演唱音频段数目相同，且在两个第一类演唱音频段集合中，任意两个在时序上位置相同的演唱音频段的时长之差小于预设差值阈值。

在实施中，由于歌曲中包括主歌和副歌，且主歌以及副歌可能会在歌曲中进行重复，所以结合实际的用户演唱歌曲的需求，可以先确定目标歌曲中存在近似重复的演唱部分。例如一个歌曲中的演唱顺序是主歌-副歌-主歌-副歌-副歌组成的，则歌曲中存在5个在时长上近似重复的演唱部分，其中包括两个主歌的演唱部分和三个副歌的演唱部分。然后可以将每个近似重复的演唱部分的对应的演唱音频段确定为第一类演唱音频段集合。然后再根据每个第一类演唱音频段集合中包括的演唱音频段之间的时间间隔，对多个演唱音频段进行划分，例如在每个第一类演唱音频段集合中，以相邻的演唱音频段的时间间隔大于第三时长阈值的时间间隔为划分节点，对第一类演唱音频段集合中的演唱音频段进行划分，得到至少一个划分的演唱音频段子集，然后至少一个划分的演唱音频段子集对应的歌词，添加不同的演唱者标识，得到目标歌曲音频的合唱歌词分配信息。

其中，确定目标歌曲中存在近似重复的演唱部分的处理可以如下：

在得到目标歌曲音频对应的多个演唱音频段之后，可以分别确定多个演唱音频段的时长，然后将多个演唱音频段的时长组成一个时长向量。例如，目标歌曲音频对应的多个演唱音频段的时长分别A、B、C、D、E、F、G、H、I、J、K、L、M，则组成的时长向量O＝[A,B,C,D,E,F,G,H,I,J,K,L,M]。然后将时长向量进行自身错位对比，即用时长向量中的第i个元素与第i+j个元素进行对比，其中i的范围为[1,n]，j的范围为[1,n-1]，其中n为时长向量O的长度。j的初始值可以是1，然后在每次进行对比之后，可以将j的值加1，对比过程可如图4所示。如果存在连续的对比对数在预设范围内的多个进行对比的时长，且多个进行对比的时长对应的各个时长差值小于预设差值阈值，且多个进行对比的时长中不存在在时长向量中相同的位置的时长，则将多个进行对比的时长确定为近似重复的演唱部分，即得到两个第一类演唱音频段集合。其中预设范围的最小值可以由技术人员进行设置，最大值等于当前进行对比的时长的对数。例如时长向量T＝[10,11,12,10,8,7,9,10,11,12,10,10,8,8]，则j的值为7时，进行对比的向量如下表1：

10	11	12	10	6	7	9	10	11	12	10	8	8
																											10	11	12	10	6	7	9	10	11	12	10	8	8

表1

根据上表则可以确定目标歌曲音频中，第1-4个演唱音频段和第8-11个演唱音频段为两个在时长上近似重复的演唱部分。

另外，在一些歌曲中可能还存在非近似重复的演唱部分的片段，所以在确定目标演唱歌曲中的多个第一类演唱音频段集合之后，还可以确定在除多个第一类演唱音频段集合包括的演唱音频段之外，是否还存在剩余的演唱音频段。如果存在剩余的演唱音频段，则可以根据剩余的演唱音频段确定至少一个第二类演唱音频段集合，相应的处理如下：确定至少一个第二类演唱音频段集合，其中，第二类演唱音频段集合中包括多个不在第一类演唱音频段集合中且连续的演唱音频段。基于第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，以及第二类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定目标歌曲音频的合唱歌词分配信息。

在实施中，在确定目标歌曲音频对应的多个演唱音频段中的第一类演唱音频段集合之后，如果还有剩余的演唱音频段，则将剩余的且连续的演唱音频段分别确定为多个第二类演唱音频段集合。例如目标歌曲音频对应有19个演唱音频段，其中第1-4个演唱音频段、第9-12个演唱音频段和第13-14个演唱音频段，分别为第一类演唱音频段集合，则第5-8个演唱音频段和第15-19个演唱音频段分别为第二类演唱音频段集合。

在确定第一类演唱音频段集合和第二类演唱音频段集合之后，可以根据第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，以及第二类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定目标歌曲音频的合唱歌词分配信息。相应的处理如下：

步骤1031、对于第一类演唱音频段集合和第二类演唱音频段集合中的每个演唱音频段集合，在演唱音频段集合中，将时序上第一个演唱音频段确定为初始音频段。

第一类演唱音频段集合或第二类演唱音频段集合中包括的演唱音频段可能存在多个，如果直接根据第一类演唱音频段集合和第二类演唱音频段集合对目标歌曲音频进行划分，则一个用户可能需要连续演唱较长的一部分歌曲之后，才能到另一个用户演唱的部分。所以在本申请实施例中，在得到第一类演唱音频段集合和第二类演唱音频段集合之后，可以对第一类演唱音频段集合和第二类演唱音频段集合中包括的多个演唱音频段继续进行划分。其中，对第一类演唱音频段集合和第二类演唱音频段集合的划分方式可以相同，对于第一类演唱音频段集合和第二类演唱音频段集合中的任意一个演唱音频段集合可以先在演唱音频段集合确定时序上的第一个演唱音频段，将第一个演唱音频段确定为初始音频段。然后执行步骤1032。

步骤1032、由初始音频段之后的第N个演唱音频段开始，逐个确定每个演唱音频段与后一个演唱音频段之间的时间间隔，当当前的演唱音频段与后一个演唱音频段之间的时间间隔大于时间间隔阈值时，将当前的演唱音频段确定为结束音频段，其中，N为预设正整数。

在确定初始音频段之后，可以从初始音频段之后的第N个演唱音频段开始，逐个确定每个演唱音频段与后一个演唱音频段之间的时间间隔，如当前演唱音频段与后一个演唱音频段之间的时间间隔大于时间间隔阈值时，将当前的演唱音频段确定为结束音频段。例如N为3，则从第4个演唱音频段开始，逐个确定第4-5演唱音频段之间的时间间隔、第5-6演唱音频段之间的时间间隔，直到确定的时间间隔大于时间间隔阈值，例如第5-6演唱音频段之间的时间间隔，大于时间间隔阈值，则将第5个演唱音频段确定为结束音频段。

其中，如果直到演唱音频段集合中时序上最后一个演唱音频段为止确定出的各时间间隔都小于或等于时间间隔阈值，则将演唱音频段集合中时序上最后一个演唱音频段确定为结束音频段，并转至执行步骤1034。

如果演唱音频段集合中初始音频段之后的演唱音频段的数目小于或等于N，则将演唱音频段集合中时序上最后一个演唱音频段确定为结束音频段，并转至执行步骤1034。

步骤1033、将从初始音频段至结束音频段的多个演唱音频段确定为连续演唱部分，将结束音频段的后一个演唱音频段设置为初始音频段，转至执行由初始音频段之后的第N个演唱音频段开始之后的处理。

在演唱音频段集合中确定一个结束音频段之后，可以将初始音频段至结束音频段的多个演唱音频段确定为连续演唱部分。然后可以将结束音频段之后的演唱音频段作为下一个初始音频段，然后继续执行步骤1032，继续在演唱音频段集合中确定结束音频段。

步骤1034、关于在第一类演唱音频段集合和第二类演唱音频段集合中确定的多个连续演唱部分，按照预设的歌词分配顺序，为各个连续演唱部分对应的歌词分别添加对应的演唱者标识，得到目标歌曲音频的合唱歌词分配信息。

其中演唱者标识是用来区分不同的演唱者，即一个演唱者对应的一个演唱者标识，不同的演唱者对应不同的演唱者标识。

在目标歌曲音频对应的多个第一类演唱音频段集合和第二类演唱音频段集合中，确定多个连续演唱部分之后，可以根据每个连续演唱部分对应的歌词，按照预设的歌词分配顺序，为多个连续演唱部分对应的歌词分别添加对应的演唱者标识。其中，歌词分配顺序可以由技术人员根据合唱歌曲的用户数量进行设置。例如合唱歌曲的用户数量为2个，则可以按照连续演唱部分的时序，依次为每个连续演唱部分对应的歌词添加不同的演唱者标识，得到目标歌曲音频的合唱歌词分配信息。

本申请实施例，通过提取目标歌曲音频中的人声音频，将人声音频划分为多个演唱音频段，然后根据每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，可以确定多个连续演唱的部分，然后根据多个连续演唱的部分对应的歌词确定对应的合唱歌词分配信息，这样通过演唱音频段的时长和相邻演唱音频段之间的时间间隔可以自动得到合唱歌词分配信息，不需要人工进行参与，因此可以提高得到合唱歌词分配信息的效率。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的一种确定合唱歌词分配信息的装置，该装置可以是上述实施例中的终端，或，服务器，该装置包括：

提取模块510，用于提取目标歌曲音频中的人声音频；

划分模块520，用于基于所述人声音频中静音帧的位置，将所述人声音频划分为多个发声音频段，将所述多个发声音频段确定为所述目标歌曲音频的各句歌词对应的演唱音频段；

确定模块530，用于基于每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，其中，所述合唱歌词分配信息中包括所述目标歌曲音频的每句歌词对应的演唱者。

可选的，所述划分模块520，用于：

可选的，所述确定模块530，用于：

可选的，所述确定模块530，还用于：

所述确定模块530，用于：

可选的，所述确定模块530，用于：

关于在所述第一类演唱音频段集合和所述第二类演唱音频段集合中确定的多个连续演唱部分对应的歌词，按照预设的歌词分配顺序，为各个连续演唱部分对应的歌词分别添加对应的演唱者标识，得到所述目标歌曲音频的合唱歌词分配信息。

需要说明的是：上述实施例提供的确定合唱歌词分配信息的装置在确定合唱歌词分配信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定合唱歌词分配信息的装置与确定合唱歌词分配信息的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的确定合唱歌词分配信息的方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中确定合唱歌词分配信息的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器，)、RAM(Random Access Memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种确定合唱歌词分配信息的方法，其特征在于，所述方法包括：

提取目标歌曲音频中的人声音频；

2.根据权利要求1所述的方法，其特征在于，所述基于所述人声音频中静音帧的位置，将所述人声音频划分为多个发声音频段，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于每个演唱音频段的时长和相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述时长近似条件包括：两个第一类演唱音频段集合包括的演唱音频段数目相同，且在两个第一类演唱音频段集合中，任意两个在时序上位置相同的演唱音频段的时长之差小于预设差值阈值。

5.根据权利要求3所述的方法，其特征在于，所述基于所述每个演唱音频段的时长，确定至少两个第一类演唱音频段集合之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一类演唱音频段集合中相邻演唱音频段之间的时间间隔，以及所述第二类演唱音频段集合中相邻演唱音频段之间的时间间隔，确定所述目标歌曲音频的合唱歌词分配信息，包括：

7.一种确定合唱歌词分配信息的装置，其特征在于，所述装置包括：

提取模块，用于提取目标歌曲音频中的人声音频；

8.根据权利要求7所述的装置，其特征在于，所述划分模块，用于：

9.根据权利要求7所述的装置，其特征在于，所述确定模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述时长近似条件包括：两个第一类演唱音频段集合包括的演唱音频段数目相同，且在两个第一类演唱音频段集合中，任意两个在时序上位置相同的演唱音频段的时长之差小于预设差值阈值。

11.根据权利要求9所述的装置，其特征在于，所述确定模块，还用于：

所述确定模块，用于：

12.根据权利要求11所述的装置，其特征在于，所述确定模块，用于：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的确定合唱歌词分配信息的方法所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的确定合唱歌词分配信息的方法所执行的操作。