CN114023299A

CN114023299A - 一种网络合唱方法及存储介质

Info

Publication number: CN114023299A
Application number: CN202111269322.2A
Authority: CN
Inventors: 钟源; 孟博涵; 吴莉; 徐继芸
Original assignee: Fujian Star Net eVideo Information Systems Co Ltd
Current assignee: Fujian Star Net eVideo Information Systems Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-08
Anticipated expiration: 2041-10-29

Abstract

一种网络合唱方法及系统，其中方法包括步骤，接收对应同一歌曲的第一演唱信息及第二演唱信息，根据预设切片规则对所述第一演唱信息及第二演唱信息进行切分片段，根据预设评分规则判定各切分片段的演唱评分，根据各切分片段的演唱评分对各切分片段进行音量的增益或减益，根据对应同一歌曲的演唱顺序，合成同一顺序的第一演唱信息的切分片段和第二演唱信息的切分片段。上述技术方案能够根据预设规则将演唱的歌曲进行分段，在需要进行混音合成的时候，能够以不同片段为比较基础，进行打分比较，再增益得分较高的演唱片段，这样能够使得混音合成的效果更好。

Description

一种网络合唱方法及存储介质

技术领域

本发明涉及音频处理领域，尤其涉及一种网络音频的处理及互动方法。

背景技术

一般意义上的合唱基本条件是声音伴奏协调一致，不同合唱者的声音协调一致，而互联网在传输过程中存在延迟，演唱者的网络条件、录音设备各有不同，难以做到异地同步联网合唱。当只有两个人进行合唱且每个人的网络条件足够好时，由于需要合成的音频量少，勉强可以做到符合人耳听力要求的联网同步合唱。但当成百上千个人一起进行互联网合唱时，由于无法保证每个人的网络条件，且合成大量音频也需要一定的处理时间，因此目前还无法实现多人的联网合唱。

目前主流的互联网合唱做法有两种：一种做法是一方录制好音视频，另一方与其做表演同步，再传给听众端。该方案一般是两人合唱，并且不能做到实时合唱。另一种做法：一个演唱者实时演唱，音频数据传给下一个演唱者，实时合成进自己的声音，再将声音数据往下传递直至最后一个演唱者，所有声音合成完后再传给听众端。该方案网络延迟会随着演唱者的增多而增加，并且中间环节出问题会导致听众端的卡顿不流畅。同时合唱活动参与用户水平不一，良莠不齐，以上方法都不能够针对网路合唱的特点进行优化，导致合唱的效果很差。

发明内容

为此，需要提供一种能够提升合唱效果的网络合唱方法，解决网络合唱效果不佳的问题。

为实现上述目的，发明人提供了一种网络合唱方法，包括如下步骤，

云端实时接收两路以上对应同一歌曲的演唱信息，

云端根据预设切分规则对所述各路演唱信息进行切分得到切分片段，根据预设评分规则判定各切分片段的演唱评分，

根据各切分片段的演唱评分对各切分片段进行音量的增益或减益处理，

根据各切分片段在所述歌曲中的对应时间的先后顺序，合成属于同一顺次的两个以上演唱信息的切分片段，得到合唱音频片段。

进一步地，根据各切分片段的演唱评分对各切分片段进行音量的增益或减益处理，若切分片段的演唱评分低于阈值，则将对应的切分片段舍弃。

具体地，还包括步骤，

统计同一演唱信息进入合唱音频片段的切分片段数量、各路切分片段的演唱评分、各路演唱信息的演唱评分、或各路演唱信息的演唱评分排行、合唱总得分中的一种以上，并向用户展示统计结果。

具体地，还包括步骤，根据在所述歌曲中的对应时间的先后顺序，实时将合成的各合唱音频片段进行拼接，得到合唱音频；

当接收用户播放请求，将合成后的合唱音频推流至用户端进行播放，

所述合成后的合唱音频携带有时间戳，根据时间戳将合成后的合唱音频与歌曲伴奏同步播放。

具体地，还包括步骤，接收用户对于展示的统计结果的互动信息，并将互动信息显示在演唱者端的界面上。

具体地，还包括步骤，

客户端接收演唱信息后进行消噪处理，然后通过HSL协议实时推送至云端。

具体地，云端检测接收的切分片段的帧数，并与预设的标准进行比较，若发现帧数不足，则对帧数不足的切分片段进行补充空白帧。

具体地，还包括步骤，

客户端接收演唱信息前,接收云端发送的同一歌曲预存的合唱音频，当客户端接收演唱信息时，同步播放接收到的所述预存的合唱音频。

具体地，使用ACG自动增益算法进行音量的增益或减益。

一种网络合唱存储介质，存储有计算机程序，所述计算机程序在被运行时执行包括如上述的网络合唱方法步骤。

区别于现有技术，上述技术方案能够根据预设规则将演唱的歌曲进行分段，在需要进行混音合成的时候，能够以不同片段为比较基础，对不同片段进行打分比较，再增益得分较高的演唱片段，这样能够使得混音合成的效果更好，在多人合唱的时候更能够突出优质的音色，满足网络合唱提升效果的需求。

附图说明

图1为具体实施方式所述的网络合唱方法流程图；

图2为具体实施方式所述的三人网络合唱方法流程图；

图3为具体实施方式所述的网络合唱存储介质示意图；

图4为具体实施方式所述的网络合唱系统示意图。

附图标记说明：

1、云端；

31、第一客户端；

32、第二客户端；

33、第三客户端

300、存储介质。

具体实施方式

从总体思路上说，发明人认为，将网络大合唱的演唱和收听分离，多个演唱者可以同时演唱，也可以有时间差。演唱者演唱时，只能听到自己的声音，听不到其他演唱者的声音，所有演唱者都演唱相同进度的歌曲，并实时上传声音数据，云端把声音同步对齐、合成后供听众端点播。这样演唱者彼此间互不干扰，消除了网络延迟可能造成声音卡顿的问题。还可以通过合成音频中的对应片段通过评分的方式来确定好坏，根据评分的高低进行混音音量的大小的处理。在演唱者变多的时候，还可以将低分的片段直接舍弃，提高合唱效果，并且该方法能够支持成千上万人同时演唱。为优化演唱者的体验，演唱过程中可以播放历史合唱录音，模拟出合唱的临场感。演唱过程中听众根据演唱评分等信息可以进行互动，比如：表情、弹幕、打分，增强对演唱效果的实时反馈。为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本实施例一种网络合唱方法，在本实施例中，方法包括步骤：

S101云端实时接收两路以上对应同一歌曲的演唱信息，

S102根据预设切分规则对所述各路演唱信息进行切分得到切分片段，根据预设评分规则判定各切分片段的演唱评分。

S103根据各切分片段的演唱评分对各切分片段进行音量的增益或减益处理，

S104根据各切分片段在所述歌曲中的对应时间的先后顺序，合成属于同一顺次的两个以上演唱信息的切分片段，得到合唱音频片段。

这里的两个以上演唱信息至少包括第一演唱信息、第二演唱信息，我们以两个演唱信息为例，第一演唱信息可以是第一客户端接收到的演唱信息，可以是针对单个曲目进行的演唱，第二演唱信息则可以是另一客户端接收到的演唱信息；客户端通过网络与云端连接，两个客户端属于不同的网络地址。另一些实施例中，也可以是同一网络地址的客户端接收到的两路互不影响的收音设备，如两路收音设备位于两个录音室，同时实时演唱。但第一演唱信息和第二演唱信息必须是属于相同的曲目进行的演唱。

预设切片规则指对合唱曲目的按照预设段落进行切分的流程，可以在合唱曲目进入演唱库前就通过人工标注，进行分割，也可以通过常见的人工智能进行段落切分，但所有演唱信息必须经过相同的预设切片规则来保证划分段落的一致。一般来说切分片段与合唱曲目的歌词断句一致即可，但如果断句超过预设时间，即断句过长，则再次切分。通过预设切片规则能够保证后续针对切分片段的评分是公平的，第一演唱信息与第二演唱信息被分为同样的片段，评分相互之间也具有可比性。

预设评分规则也必须是相同的评分标准，评分规则也可以调用现有的评分AI即可。混音过程中，若仅合成两个演唱者的演唱信息，一般不做音量减益到0处理。切分片段、评分以及混音的过程都可以在云端服务器中完成。

云端不需要接收到完整的一首歌曲的演唱信息，只需要接收到每一路演唱信息的预设的切分片段的长度，都可以先进行合唱音频片段的合成，再将合成得到的合唱音频片段，依照在歌曲中的对应先后顺序进行推流。通过这种方式，即使多人参与合唱，可以实时处理每路演唱音频，保证听众在比较小的延时就可以点播到合唱音频。

通过上述方案，我们能够在接收二者以上合唱数据的时候，以切分后的片段为比较基准，对评分高的演唱信息的切分片段增强，对评分低的演唱信息的切分片段调低音量，能够有效提升合成后混音音频的收听效果。同时还能够兼顾各合唱者的特色，例如两个演唱者的演唱信息合并后，一演唱者在抒情切分片段演唱评分较高得到了增强，另一演唱者在美声切分片段演唱评分较高，其演唱信息在该切分片段得到了增强，合成出来的音频对演唱者来说也是令人满意的，增强了合唱用户的体验。同时在实时接收处理两路数据的时候，通过切分片段的方式也减少了数据处理量，实时合成合唱音频片段并及时推流，能够有效减少网络合唱的延迟。

其他一些具体的实施例中，请看图2，本具体实施方式以三个演唱信息为例，还包括步骤，

S105接收对应同一歌曲的第三演唱信息，根据所述预设切片规则对所述第三演唱信息进行切分片段，根据预设评分规则判定各切分片段的评分，

S106根据第三演唱信息的切分片段的演唱评分对第三演唱信息的切分片段进行音量的增益或减益。

S107根据各切分片段在所述歌曲中的对应时间的先后顺序，合成属于同一顺次的三个演唱信息的切分片段，得到合唱音频片段。

在合唱过程中，任何人可随时加入合唱。每个人根据云端播放的伴奏进度进行加入合唱。当有第三个演唱进行加入合唱时，可以实时进行上述步骤，多个通路同时接收演唱信息，云端进行同步处理，通过上述方案，我们能够针对多个演唱信息进行该处理，以切分后的片段为比较基准，对评分高的演唱信息增强，对评分低的演唱信息调低音量，能够有效提升合成后混音的收听效果。同时还能够兼顾各合唱者的特色，例如多个演唱者的演唱信息合并后，一演唱者在抒情的切分片段由于演唱评分较高，其对应演唱信息得到了增强，另一演唱者在美声切分片段演唱评分较高，其对应演唱信息得到了增强，又一演唱者在高音切分片段演唱评分较高得到了增强，多个演唱者合成得到的音频对演唱者来说各自的满意度都得到了提高。上述技术方案进一步增强了合唱用户的体验。同时在处理三路以上的演唱信息的时候，也能够边实时接收，边进行切分和合成音频片段，同样达到了减少网络延迟的效果，同时能够兼容更多的合唱者。

在其他一些进一步的实施例中，为了兼容更多人的合唱，同时提升合唱音频的质量，在本次的技术方案中，根据各切分片段的演唱评分对各切分片段进行音量的增益或减益处理时，还可以进行步骤，若切分片段的演唱评分低于阈值，则将对应的切分片段舍弃。另一方面通过将切分片段的音量减益至零也能达到相同效果。这里的阈值可以根据实际需要自行设置，例如设定得分中位数作为阈值，可以保留约一半的切分片段。舍弃的具体实现方式可以简单设置为将对应的切分片段减益至零。还可以提高阈值，使得合唱中只有较为专业的片段才能够保留下来，这样在网络演唱者不断增加时，实际保留的片段数不会有较大变动，这样能够达到合唱流程中处理的数据量不会过高，满足更多人合唱的混音合成的需求。

另一些可选的实施例中，还包括步骤：统计同一演唱信息进入合唱音频片段的切分片段数量、各路切分片段的演唱评分、各路演唱信息的演唱评分、或各路演唱信息的演唱评分排行、合唱总得分中的一种以上，并向用户展示统计结果。这里的用户可以是演唱者，也可以是收听混音合成后的合唱推流的收听用户。统计同一演唱信息进入合唱音频片段的切分片段数量可以是针对特定演唱者的演唱信息，进行切分后的所有切分片段中，所有超过阈值的片段的总数。也可以是针对特定演唱者的演唱信息，所有切分片段中，在当前已经合成的合成音频片段中所有超过阈值的切分片段的总数。

一些实施例中，用户为演唱者，在用户在演唱过程中，实时进行运算，向该演唱者展示该演唱者的各路切分片段的演唱评分、各路演唱信息的演唱评分、或各路演唱信息的演唱评分排行、合唱总得分中的一种以上，统计同一个演唱者演唱评分所有超过阈值的切分片段的总数。本实施例能够达到让演唱者清楚自己的演唱水平，看看自己有多少切分片段进入了合唱音频，满足了用户的互动、评比的心理需求。另一些实施例中，用户为收听者，其收听当红小生在网络中参与的合唱，云端向收听者推送混音合成后的音频，并实时展示该演唱者(当红小生)的演唱信息中，进入合唱音频的切分片段数量或各路切分片段的演唱评分、各路演唱信息的演唱评分、或各路演唱信息的演唱评分排行、合唱总得分中的一种以上。举一反三地说，收听者客户端也可以通过类似方法同时展示多个演唱者分别收录进合成音频的片段总数。这样收听者能够有实时的反馈，满足了其追星、比较的需求，从而有更好的合唱收听的体验。上述方案也可以满足用户的互动、评比的心理需求。提升了用户体验，具有很强的实用性。

针对上述收录总数展示及总得分排行机制，还可在云端与客户端之间进行消息推送服务，让演唱者能够与听众进行互动。如进行步骤：接收用户对于展示的统计结果的互动信息，并将互动信息显示在演唱者端的界面上。统计结果的显示界面可以设置互动信息的发送按钮，互动信息包括推送：弹幕、表情、礼物等。演唱者端也可以知道哪些用户向其发送了互动信息。因此推送互动信息也能够更好地满足用户的互动需求，进一步增强了本发明方法的实用性。

其他一些进一步的实施例中，为了防止网络合唱在演唱信息上传过程中可能出现的网络丢包，还包括步骤，云端检测接收的切分片段的帧数，并与预设的标准进行比较，若发现帧数不足，则对帧数不足的切分片段进行补充空白帧。对于已经切分好的各片段，其帧数需要达到预设值才能够保证时长是足够的，但实际应用中网络延迟等问题可能造成在上传的时候就出现丢帧，云端需要对各切分片段与其预设帧数进行对比，然后获知哪些切分片段的帧数是不足的，对该片段进行末尾补足空白帧的操作。能够消除随时间变化导致的合唱片段时间进度不一致的问题，从而所有演唱信息的时间进度是一致。在一些可选的实施例中，还包括步骤：所述预设评分规则为音准评分或声纹评分。将预设评分规则设定为音准评分或声纹评分，能够满足最广大的人民群众对演唱好坏的朴素认识，通过音准评分或声纹评分得出的评分结果具有较强的普适性，使得最终混音合成的曲目让人听起来更加地美妙。

在另一些进一步的实施例中，所述演唱信息为纯人声，先需要将各个片段的合唱音频进行拼接，再将拼接后的演唱音频和伴奏混音，还包括步骤，根据在所述歌曲中的对应时间的先后顺序，实时将合成的各合唱音频片段进行拼接，得到合唱音频；当接收用户播放请求，将合成后的合唱音频推流至用户端进行播放，所述合成后的合唱音频携带有时间戳，根据时间戳将合成后的合唱音频与歌曲伴奏同步播放。这样通过时间顺序推送合唱音频片段，能够及时地对切分片段进行处理，一首歌曲的演唱信息可以不用完整地被接收再推送，可以以合唱音频片段为单位进行传输。在最终客户端播放时才合成伴奏，将将合唱音频片段推送给客户端，通过时间戳的方式减少延迟，这样能够减少数据的传输量，也能够减少云端的计算量，最终的合成效果也更好。

另一些实施例中，针对用户的音频推送方式如下，接收用户播放请求，将合成后的音频推流至用户端进行播放，合成的合唱音频携带有时间戳，根据时间戳将合成的合唱音频与客户端的歌曲伴奏同步播放。这种方案歌曲伴奏可以预先下载存储在用户端，因此能够节省直播服务器推送的音频流量，提升推送效率，减少丢包，也能够让用户端的延迟更小，试听效果更好。

在云端接收演唱信息之前，方案还进行步骤，将客户端接收演唱信息后进行消噪处理，然后通过HSL协议实时推送至云端。客户端进行消噪处理能够保证传输的演唱信息音频的音质，同时通过HSL协议传输能够保证通信的及时性和有效性。

在某些实施例中，客户端接收演唱信息前,接收云端发送的同一歌曲预存的合唱音频，当客户端接收演唱信息时，同步播放接收到的所述预存的合唱音频。播放预存的合唱音频为历史的合唱音频，通过这种方法可以使得用户在录制演唱信息时能够收听到合唱音频，让用户置身合唱的氛围中，从而用户的录制效果也更好，提升了用户体验。

在另一些实施例中，使用ACG自动增益算法进行音量的增益或减益。由于接收到的各路演唱信息音量大小不同，通过ACG算法可使各路演唱信息保持音量大小稳定，听感更好。

一些如图3所示的实施例中，介绍了一种网络合唱存储介质300，存储有计算机程序，所述计算机程序在被运行时执行包括如上述的网络合唱方法步骤。

在其他一些如图4所示的实施例中，一种网络合唱系统，包括，两个以上的客户端，分别用于接收两路以上演唱信息，并上传至云端1，所述两路以上演唱信息对应同一歌曲。所述云端1根据预设切片规则对所述两路以上演唱信息进行切分片段，根据预设评分规则判定各切分片段的演唱评分，云端1还根据各切分片段的演唱评分对各切分片段进行音量的增益或减益，各切分片段在所述歌曲中的对应时间的先后顺序，合成属于同一顺次的两个以上演唱信息的切分片段，得到合唱音频片段。

本例以两个客户端为例，包括第一客户端31，所述第一客户端31接收第一演唱信息，并上传至云端1，第二客户端32，所述第二客户端32同时接收第二演唱信息，并上传至云端1，

所述云端1根据预设切片规则对所述第一演唱信息及第二演唱信息进行切分片段，根据预设评分规则判定各切分片段的演唱评分，所述云端1还根据各切分片段的演唱评分对各切分片段进行音量的增益或减益，根据各切分片段在所述歌曲中的对应时间的先后顺序，合成属于同一顺次的两个以上演唱信息的切分片段，得到合唱音频片段。

云端1可以通过网络传输协议与客户端进行通信，通信方式可以参照现有技术，如通过HSL协议实施推流，或利用RTMP、RTSP、或者基于UDP的私有协议进行通信。

通过上述方案，系统能够在接收二者以上合唱数据的时候，以切分后的片段为比较基准，对评分高的演唱增强，对评分低的演唱调低音量，能够有效提升合成后混音的收听效果。同时还能够兼顾各合唱者的特色，例如两个演唱者的演唱信息合并后，一演唱者在抒情唱段得分较高得到了增强，另一演唱者在美声唱段得分较高，唱段得到了增强，合成出来的音轨对演唱者来说也是令人满意的。增强了合唱用户的体验。

其他一些实施例中，多个客户端，如第三客户端33等，以多个客户端同时接收演唱信息为例，接收多个对应同一歌曲的演唱信息，所述云端1根据预设切片规则对多个演唱信息进行切分片段，根据预设评分规则判定各切分片段的演唱评分并根据各切分片段的演唱评分对各切分片段进行音量的增益或减益，根据各切分片段在所述歌曲中的对应时间的先后顺序，合成属于同一顺次的两个以上演唱信息的切分片段，得到合唱音频片段。上述系统能够有效提升合成后混音的收听效果。同时还能够兼顾各合唱者的特色，例如多个演唱者的演唱信息合并后，一演唱者在抒情唱段得分较高得到了增强，另一演唱者在美声唱段得分较高，唱段得到了增强，又一演唱者在高音唱段得分较高得到了增强，多个演唱者合成出来的音轨对演唱者来说各自的满意度都得到了提高。上述技术方案进一步增强了合唱用户的体验。

其他一些进一步的实施例中，所述云端1用于混音合成演唱信息时，舍弃切片集中得分低于阈值的片段，混音合成演唱信息时，若切分片段的演唱评分低于阈值，则舍弃片段或将对应的切分片段减益至零，这样在网络演唱者不断增加时，实际保留的片段数不会有较大变动，这样能够达到合唱流程中处理的数据量不会过高，满足更多人合唱的混音合成的需求。还用于统计进入混音合成的切片数量，并向用户展示，还用于统计不同切片集或演唱信息的片段的不同总得分，并向用户展示总得分或总得分排行。这样收听者能够有实时的反馈，满足了其追星、比较的需求，从而有更好的合唱收听的体验。

进一步的一些实施例中，云端1还用于检测接收的切分片段的帧数，并与预设的标准进行比较，若发现帧数不足，则对帧数不足的切分片段进行补充空白帧。对该片段进行末尾补足空白帧的操作。能够消除随时间变化导致的合唱片段音轨不一致的问题。从而提升了混音合成的效果。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种网络合唱方法，其特征在于，包括如下步骤，

云端实时接收两路以上对应同一歌曲的演唱信息，

云端根据预设切分规则对各路所述演唱信息进行切分得到切分片段，根据预设评分规则判定各切分片段的演唱评分，

2.根据权利要求1所述的网络合唱方法，其特征在于，根据各切分片段的演唱评分对各切分片段进行音量的增益或减益处理，若切分片段的演唱评分低于阈值，则将对应的切分片段舍弃。

3.根据权利要求2所述的网络合唱方法，其特征在于，还包括步骤，

4.根据权利要求3所述的网络合唱方法，其特征在于，

还包括步骤，接收用户对于展示的统计结果的互动信息，并将互动信息显示在演唱者端的界面上。

5.根据权利要求1-3任一项所述的网络合唱方法，其特征在于，还包括步骤，根据在所述歌曲中的对应时间的先后顺序，实时将合成的各合唱音频片段进行拼接，得到合唱音频；

6.根据权利要求1-3任一项所述的网络合唱方法，其特征在于，还包括步骤，

7.根据权利要求1-3任一项所述的网络合唱方法，其特征在于，云端检测接收的切分片段的帧数，并与预设的标准进行比较，若发现帧数不足，则对帧数不足的切分片段进行补充空白帧。

8.根据权利要求1-3任一项所述的网络合唱方法，其特征在于，还包括步骤，

9.根据权利要求1-3任一项所述的网络合唱方法，其特征在于，使用ACG自动增益算法进行音量的增益或减益。

10.一种网络合唱存储介质，其特征在于，存储有计算机程序，所述计算机程序在被运行时执行包括如权利要求1-9任一项所述的网络合唱方法步骤。