CN116962746A

CN116962746A - 基于连麦直播的线上合唱方法、装置及线上合唱系统

Info

Publication number: CN116962746A
Application number: CN202210837530.6A
Authority: CN
Inventors: 赵国庆; 刘伟安; 李劲
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2022-04-14
Filing date: 2022-07-15
Publication date: 2023-10-27
Also published as: CN116962743A; CN116962748A; CN116962745A; CN116962744A; CN116962742A; CN116962747A

Abstract

本申请涉及一种基于连麦直播的线上合唱方法、装置及线上合唱系统；所述方法包括：接收至少两个连麦主播的音频信息和视频信息；对所述音频信息进行解析获取音频帧及其同步信息，以及对所述视频信息进行解析获取视频帧及其抠图信息；其中，所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度；根据各个连麦主播的同步信息，分别将所述音频帧、视频帧与伴奏歌曲进行同步；根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据；该技术方案，实现了虚拟同台合唱互动效果，增强直播互动性，延迟低、同步性好，实现主播之间异地沉浸式共演音效果，提升了合唱演示效果。

Description

基于连麦直播的线上合唱方法、装置及线上合唱系统

本申请要求于2022年04月14日提交中国专利局、申请号为202210387980.X、发明名称为“网络直播的连麦互动方法、装置及直播系统”的中国专利申请的优先权，其申请文件内容通过引用结合在本申请中。

技术领域

本申请涉及网络直播技术领域，特别是一种基于连麦直播的线上合唱方法、装置及线上合唱系统。

背景技术

目前，随着5G、云计算，人工智能技术的发展，各类设备的便携化，在线直播早已深入人们的各类生活，渗透到了游戏、娱乐和社交等领域，基于在线直播的数字音乐产业也蓬勃发展，例如在线KTV，特别是元宇宙概念的出现，在技术上已经逐步实现并形成了一定生态基础，元宇宙所带来的丰富的应用场景，前沿的技术创新，极大改变了人们当下的生活方式和习惯，基于元宇宙可以搭建虚拟的KTV舞台，并提供给异地用户之间的虚拟同台合唱和互动功能，促进了用户体验的全面升级。

当前线上合唱共演方案，主播和唱歌嘉宾连麦虚拟房间的情况下，唱歌嘉宾开唱，主播端通过虚拟房间对应的另一个虚拟房间接收唱歌嘉宾端发送的干声，主播端将干声和主播端的本地伴奏混合得到K歌混音，并生成面向观众的直播流；该技术方案的主播端通过两个有关联的虚拟房间，收集唱歌嘉宾K歌的干声并生成直播流，其功能仅限于音频互动，缺乏视频互动功能，且其混音功能在客户端实现，对终端的要求较高，当用户网络差异较大时，容易导致在终端做音频的同步比较困难。

另外，还有一种异地共演技术，利用远端摄影棚内远端场景实际拍摄的影像传送至云端服务器，再将远端摄影棚的实拍影像同步到显示装置进行颜色去背处理，并以平面3D的形式出现在本地摄影棚的本地扩增实境场景中，以达到异地共演，该技术方案在虚拟场景切换时两端需要相互等待，缺乏实时性，且远端和本地不能互动，观众端视觉效果差。

基于此，现有的线上合唱共演实现方案，缺乏虚拟互动特效，在不同主播之间进行异地共演的虚拟现实效果不足，应用于元宇宙的虚拟空间中，难以为用户提供沉浸式的应用体验。

发明内容

基于此，有必要针对上述至少一种技术缺陷，提供一种基于连麦直播的线上合唱方法、装置及视频处理系统，以提升基于连麦直播的线上合唱互动效果。

一种基于连麦直播的线上合唱方法，包括：

接收至少两个连麦主播的音频信息和视频信息；

对所述音频信息进行解析获取音频帧及其同步信息，以及对所述视频信息进行解析获取视频帧及其抠图信息；其中，所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度；

根据各个连麦主播的同步信息，分别将所述音频帧、视频帧与伴奏歌曲进行同步；

根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据。

在一个实施例中，所述抠图信息为与所述视频帧拼接的半透明通道图像；其中，所述半透明通道图像为对所述视频帧的人像图像预抠图得到。

在一个实施例中，根据各个连麦主播的同步信息，分别将所述音频帧、视频帧与伴奏歌曲进行同步，包括：

获取所述伴奏歌曲的伴奏视频帧和伴奏音频帧；

分别根据各个连麦主播的同步信息，将所述音频帧的语音音频帧时间戳与伴奏歌曲的伴奏音频帧时间戳进行同步；

分别根据各个连麦主播的同步信息，将所述音频帧的语音音频帧时间戳与所述视频帧的视频帧时间戳进行同步；

将所述伴奏视频帧对应的伴奏视频帧时间戳与伴奏音频帧对应的伴奏音频帧时间戳进行同步。

在一个实施例中，根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据，包括：

获取各个连麦主播的音频帧以及伴奏音频帧；

将所述音频帧和伴奏音频帧进行混音编码得到音频数据；

获取各个连麦主播的视频帧以及伴奏视频帧；

根据各个连麦主播的视频帧对应的抠图信息分别抠出人像图像；

将所述人像图像和伴奏视频帧进行合成并编码得到视频数据。

在一个实施例中，所述的基于连麦直播的线上合唱方法，还包括：对所述视频信息中的SEI信息进行解析获取所述视频帧对应的图像相关信息；其中，所述图像相关信息包括主播AI信息和主播特效信息。

在一个实施例中，将所述人像图像和伴奏视频帧进行合成并编码得到视频数据，包括：

获取所述伴奏视频帧以及所述主播特效信息对应的特效渲染素材；

以所述伴奏视频帧为背景图像，将各个连麦主播的人像图像绘制到所述背景图像上；

根据所述主播AI信息将所述特效渲染素材绘制到该连麦主播在所述背景图像上对应区域画面中；

输出合成图像并编码得到视频数据。

在一个实施例中，所述主播AI信息包括主播的人像关键点、人脸关键点、手势关键点、头部关键点中的一种或多种；所述主播特效信息包括开播特效和玩法礼物信息；

所述输出合成图像并编码得到视频数据之前，还包括：

获取各个连麦主播互动产生的互动特效，将所述互动特效渲染到所述背景图像上。

在一个实施例中，所述客户端包括主唱端和副唱端；

所述接收至少两个客户端上传的连麦主播的音频信息和视频信息之前，还包括：

接收主唱端发起的合唱请求，并广播合唱请求；其中，所述合唱请求包括请求发送时间、Uid和伴奏歌曲；

接收副唱端对所述合唱请求的响应信息，并启动合唱任务；

分别向所述主唱端和副唱端的客户端下发伴奏歌曲；其中，所述客户端将音频帧与伴奏歌曲的伴奏进度进行同步。

在一个实施例中，所述客户端根据所述请求发送时间计算主唱端和副唱端的伴奏启动时间，并根据所述启动时间启动播放所述伴奏歌曲。

在一个实施例中，所述的基于连麦直播的线上合唱方法，还包括：在直播过程中，接收所述主唱端定期发送的实时同步信息，将所述实时同步信息广播至各个副唱端的客户端，以使得各个副唱端的客户端对音频帧与伴奏歌曲的伴奏进度进行实时同步。

一种基于连麦直播的线上合唱装置，包括：

接收模块，用于接收至少两个客户端上传的连麦主播的音频信息和视频信息；

解析模块，用于对所述音频信息进行解析获取音频帧及其同步信息，以及对所述视频信息进行解析获取视频帧及其抠图信息；其中，所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度；

同步模块，用于根据各个连麦主播的同步信息，分别将所述音频帧、视频帧与伴奏歌曲进行同步；

合成模块，用于根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据。

一种线上合唱系统，包括：至少一个客户端和直播服务器；所述客户端用于获取连麦主播的音频信息和视频信息，并上传至直播服务器；

所述直播服务器用于执行所述的基于连麦直播的线上合唱方法的步骤。

一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的基于连麦直播的线上合唱方法。

一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述的基于连麦直播的线上合唱方法。

上述各实施例的技术方案，接收至少两个连麦主播的音频信息和视频信息，并分别解析获取音频帧及其同步信息以及视频帧及其抠图信息，然后根据各个连麦主播的同步信息对音频帧、视频帧与伴奏歌曲进行同步，最后根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并与音频帧和伴奏歌曲进行合成得到合唱音视频数据；该技术方案，基于连麦直播实现了虚拟同台合唱互动效果，增强直播互动性，音频帧与视频在直播服务器上进行合成，延迟低、同步性好，实现主播之间异地沉浸式共演音效果，提升了合唱演示效果。

另外，将主唱端和副唱端合成到同一个伴奏歌曲的背景图像中，实现了不同地域主播于同一个虚拟场景下进行合唱，同台演出效果真实；同时利用延时低和同步性高的特点，可以模拟异地同台语音、表情、手势等互动，提升了主播互动体验。

附图说明

图1是一个示例的网络直播的系统图；

图2是一个实施例的基于连麦直播的线上合唱方法流程图；

图3是一个示例的建立合唱任务及同步处理过程流程图；

图4是一个示例的视频帧的拼接示意图；

图5是一个示例的YUVA视频帧格式示意图；

图6是一个示例的同步流程图；

图7是一个示例的同步逻辑示意图；

图8是一个示例的合成流程图；

图9是一个示例的人像图像渲染层级关系图；

图10是一个实施例的基于连麦直播的线上合唱装置的结构示意图；

图11是一个示例的线上合唱系统结构示意图；

图12是一个示例的同台合唱场景示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例中，提及的“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个对象指两个或两个以上的对象。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的信息涵盖出现在“包括”或者“包含”后面列举的信息及其等同，并不排除其他信息。在本申请实施例中提及的“和/或”，表示可以存在三种关系，字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供了一种基于连麦直播的线上合唱技术方案，该技术方案是在主播连麦直播的场景下，实现了多个主播之间的线上合唱功能，对于连麦直播的系统架构，可以参考图1所示，图1是一个示例的网络直播的系统图；如图中，多个主播通过直播服务器建立连麦直播，并在连麦直播过程中，将参与连麦的人像图像绘制到以伴奏歌曲的视频帧为背景图像的画面上，从而可以形成在线同场合唱的演唱效果；例如，实现在线KTV舞台背景，可以由主播的客户端上传伴奏歌曲URL至直播服务器，直播服务器根据URL来下载伴奏歌曲，然后以伴奏歌曲的MV视频帧作为背景图像渲染成舞台背景，然后再将各个主播的人像图像渲染到舞台背景上，实现虚拟的同台合唱互动效果。图中主播端是指参与连麦直播的各个主播所登录的客户端，观众端是指观看直播的观众用户所登录的客户端。

基于上述网络直播系统，本申请提供了一种基于连麦直播的线上合唱方法，为了保证后续在混画合成，伴奏歌曲的背景图像可以按相同画布大小和比例进行裁剪；在建立直播连麦时，参与连麦的主播可以切换到横屏模式，设置开播分辨率一致；直播过程中，可以利用智能手机摄像头或者其他摄像设备来采集连麦主播的视频图像。

如图2所示，图2是一个实施例的基于连麦直播的线上合唱方法流程图，包括如下步骤：

S10，接收至少两个连麦主播的音频信息和视频信息。

此步骤中，各个连麦主播将其产生的音频信息和视频信息发送至直播服务器，其中音频信息和视频信息分别由连麦主播所在的客户端编码并上传。

在本实施例中，直播服务器可以首先建立多个连麦主播的客户端合唱连接；以的客户端包括主唱端和副唱端为例，主唱端是指发起合唱请求的连麦主播登录的客户端，副唱端是指响应合唱请求的连麦主播登录的客户端；据此，直播服务器可以接收主唱端发起的合唱请求，并发起合唱请求，一般情况下，是在直播频道内进行广播，合唱请求包括请求发送时间、主唱端Uid和伴奏歌曲信息等。

各个客户端接收到合唱请求，副唱端响应合唱请求，直播服务器接收副唱端对合唱请求的响应信息，包括响应时间、副唱端Uid(User Identification，用户身份证明)等，并启动合唱任务；同时，直播服务器分别向主唱端和副唱端下发伴奏歌曲；主唱端和副唱端接收到伴奏歌曲后，先进行同步对齐，然后播放伴奏歌曲。

在客户端播放伴奏歌曲过程中，对主唱端和副唱端的语音数据进行采集形成音频帧，为了确保同步性，在此过程中，需要将音频帧与伴奏歌曲的伴奏进度进行同步。

在一个实施例中，客户端根据所述请求发送时间计算主唱端和副唱端的伴奏启动时间，并根据启动时间启动播放所述伴奏歌曲。

为了更加清晰本实施例的建立合唱任务及同步处理过程，下面结合具体示例进行描述。如上述方案中，由主唱端发起合唱请求，参考图3所示，图3是一个示例的建立合唱任务及同步处理过程流程图，其流程可以如下：

(1)主唱端发起合唱请求，携带请求发送时刻的(NTP)时间T_NTP，Uid和伴奏歌曲的曲目信息，直播服务器在直播频道内广播合唱请求。

(2)直播频道处于开播状态的客户端收到合唱请求后，记录接收时刻T_NTP’时间，进行对应伴奏歌曲的曲目下载，伴奏歌曲的曲目就绪后，副唱端的回复合唱应答并携带延迟时间T_NTP’-NTP，即从主唱端到副唱端的延迟时间。

(3)主唱端接收副唱端的应答响应信息后，计算其伴奏歌曲的启动延迟并发起合唱同步，携带合唱信令延迟时间T_NTP’-NTP和副唱端Uid；直播服务器在频道内向各个副唱端广播合唱同步请求。

(4)各个副唱端收到合唱同步信令后，根据自身的延迟时间和各个客户端中最大的副唱端的延迟，计算出其伴奏启动延迟时间(计算方法为最大的副唱端的延迟减去自身的延迟时间)。

(5)主唱端和各个副唱端分别根据自身的伴奏启动延迟时间启动合唱任务。

(6)主唱端和各个副唱端各自利用麦克风采集语音数据，并生成音频帧和获取伴奏歌曲对应的伴奏进度，根据语音音频帧时间戳及伴奏进度生成同步信息。

作为一个示例，麦克风的耳返延迟τ，音频帧的pts为20000，伴奏进度为5ms，则语音音频帧时间戳T_pts对应的伴奏时刻为T_pts-20ms-τ，则其对应的同步信息可以描述为“(20000-20ms-Uid)：5ms”。

上述实施例的技术方案，在客户端进行同步并生成同步信息，由此可以在直播服务器上进行合唱合成时，确保了合成音频和合成视频的同步对齐，避免出现声音和画面不同现象，从而提升了合唱过程的协调性，提升了在线同台演唱效果。

为了便于抠图，本实施例中，客户端还对所采集的视频帧进行预抠图处理以获得抠图信息，然后将视频帧及其抠图信息传输到直播服务器，直播服务器再利用抠图信息来对视频帧的人像图像进行抠图。优选的，主播的视频帧按背景色(一般是绿色背景)进行拍摄，采用Alpha图像来存储人像图像的抠图信息；具体的，参考图4所示，图4是一个示例的视频帧的拼接示意图，采用绿幕拍摄主播图像，对绿幕颜色部分进行AI识别和分割，生成图像大小与视频帧一致的Alpha图像，将视频帧与Alpha图像进行横向拼接，然后对拼接图像进行编码得到视频数据。优选的，可以采用YUVA视频帧格式，视频帧和Alpha图像的拼接图像按YUVA视频帧格式进行编码，对于YUVA视频帧格式，可以参考图5所示，图5是一个示例的YUVA视频帧格式示意图；如图5中，进一步的，客户端还可以利用视频信息中的SEI信息来传输视频帧的图像相关信息；例如在进行AI识别抠图时提取的行为数据(如胳膊、手势、身体的整个轮廓等)，然后使用SEI信息来传递到直播服务器；图像相关信息可以包括主播AI信息和主播特效信息，AI信息包括人脸、手势、头部等关键点轮廓信息，主播特效信息可以包括开播特效信息、玩法礼物信息以及其他信息等。

上述技术方案，视频帧数据可以包括视频帧及其Alpha图像和图像相关信息，在直播服务器上利用Alpha图像可以对人像图像进行抠图，主播原有的特效能够在混画过程中渲染出来，同时也可以在合成图像上添加更多特效，提升混画效果；可以不用修改客户端的基础上也能看到图像，使用常规编码算法即可实现，成本更低，兼容性更好；实际操作中，只需要在视频帧右侧扩展一个区域用于存储Alpha图像，编码不会带来复杂度的成本增加，编码效率更高；同时，通过将AI关键点、特效信息、背景图像URL添加到SEI信息中，由此无需对主播客户端的编码格式进行改变，由于图像信息和附带的图像相关信息具有相关性，可以编码成标准的视频帧一同传递到直播服务器，通过将主播AI信息以及特效信息上传到直播服务器，从而可以在合成过程中进行特效内容渲染使用，无需再次进行AI关键点识别，由此可以降低直播服务器的运算量，提高处理效率。

S20，对所述音频信息进行解析获取音频帧及其同步信息，以及对所述视频信息进行解析获取视频帧及其抠图信息；其中，所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度。

此步骤中，直播服务器对音频信息进行解析可以获取音频帧及其对应的语音音频帧时间戳和伴奏歌曲的伴奏进度等同步信息，对视频信息进行解析可以获取视频帧及其抠图信息，进一步的，直播服务器还对视频信息中的SEI信息进行解析得到图像相关信息。

如前述实施例阐述，抠图信息采用与视频帧拼接的半透明通道图像来进行描述，即通过Alpha图像描述人像部分图像轮廓信息，便于在直播服务器上利用各个连麦主播的Alpha图像为对视频帧中的人像图像进行快速抠图。

在一个实施例中，在直播过程中，参考图3所示，接收所述主唱端定期发送的实时同步信息，将所述实时同步信息广播至各个副唱端的客户端，以使得各个副唱端的客户端对音频帧与伴奏歌曲的伴奏进度进行实时同步。

本实施例中，为了确保主唱端和副唱端之间数据同步性，在直播过程中主唱端持续定期进行实时同步信息广播，各个副唱端就可以根据实时同步信息来严格对齐，由此确保了在整个合唱过程中，语音音频帧与伴奏歌曲之间的同步误差在一个较小误差范围内，一般误差要求低于10ms。

S30，根据各个连麦主播的同步信息，分别将所述音频帧、视频帧与伴奏歌曲进行同步。

此步骤中，直播服务器根据接收到的主唱端和副唱端的同步信息，将音频帧、视频帧与伴奏歌曲进行同步，以确保在合唱过程中音视频的协调性。

在一个实施例中，参考图6所示，图6是一个示例的同步流程图，可以包括如下：

S301，获取所述伴奏歌曲的伴奏视频帧和伴奏音频帧；具体地，提取伴奏歌曲的伴奏视频和伴奏音频。

S302，分别根据各个连麦主播的同步信息，将所述音频帧的语音音频帧时间戳与伴奏歌曲的伴奏音频帧时间戳进行同步；具体的，分别依据主唱端和副唱端的同步信息，利用语音音频帧时间戳将音频帧与伴奏音频帧时间戳进行音频帧与伴奏歌曲音频数据之间的同步。

S303，分别根据各个连麦主播的同步信息，将所述音频帧的语音音频帧时间戳与所述视频帧的视频帧时间戳进行同步；具体的，分别依据主唱端和副唱端的同步信息，利用视频帧时间戳与语音音频帧时间戳实现各自的视频帧与音频帧之间的同步。

S304，将所述伴奏视频帧对应的伴奏视频帧时间戳与伴奏音频帧对应的伴奏音频帧时间戳进行同步；具体的，利用伴奏视频帧时间戳与伴奏音频帧时间戳，实现伴奏歌曲的伴奏音频与伴奏视频之间的同步。

参考图7所示，图7是一个示例的同步逻辑示意图，通过时间戳同步首先实现了音频帧与伴奏歌曲音频数据之间同步，然后利用同步信息进行各自视频帧与音频帧之间的同步，最后再进行伴奏歌曲的音频与视频之间的同步。

上述实施例的技术方案，能够将各个主唱端与副唱端的音视频与伴奏歌曲的音视频直接严格同步，由此确保了合成时协调性，提升直播合唱现场效果。

S40，根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据。

此步骤中，基于Alpha图像可以分别从主唱端与副唱端的视频帧中抠出人像图像，然后将人像图像与伴奏歌曲的视频帧进行合成，并将主唱端与副唱端的音频帧与伴奏歌曲的音频帧进行混流，从而实现合唱的合成过程。

在一个实施例中，参考图8所示，图8是一个示例的合成流程图，可以包括如下：

S401，获取各个连麦主播的音频帧以及伴奏音频帧；具体的，提取主唱端与副唱端的音频帧以及伴奏歌曲的伴奏音频帧。

S402，将所述音频帧和伴奏音频帧进行混音编码得到音频数据；具体的，将伴奏音频帧与主唱端与副唱端的音频帧进行编码混流得到音频数据。

S403，获取各个连麦主播的视频帧以及伴奏视频帧；具体的，提取伴奏音频帧与主唱端与副唱端的视频帧以及伴奏歌曲的伴奏视频帧。

S404，根据各个连麦主播的视频帧对应的抠图信息分别抠出人像图像；具体的，分别根据Alpha图像将主唱端与副唱端的人像图像抠出。

S405，将所述人像图像和伴奏视频帧进行合成并编码得到视频数据；具体的，将主唱端与副唱端的的人像图像和伴奏视频帧进行混画合成并，然后再进行编码得到视频数据。

作为实施例，步骤S405的合成过程可以包括如下：

a、获取所述伴奏视频帧以及所述主播特效信息对应的特效渲染素材；此处的特效可以是主唱端与副唱端的开播特效或者美颜特效等。

由于直播服务器是从视频帧的进行抠图，因此可以保留客户端的各种特效信息，并且还可以在合成视频数据中添加所需的互动特效，使得连麦互动过程还可以进行多种玩法的互动，从而提升连麦效果。

b、以所述伴奏视频帧为背景图像，将各个连麦主播的人像图像绘制到所述背景图像上。

进一步的，在绘制人像图像时，参考图9所示，图9是一个示例的人像图像渲染层级关系图，可以根据主唱端和副唱端之间的层级关系来渲染人像图像，比如主唱端在前，副唱端在后；也可以根据人像图像大小来确定层级关系进行图像绘制，如人像轮廓大的画布层级较高、人像轮廓小的画布层级较低。

进一步的，作为实施例，还可以在绘制人像图像之前，获取各个人像图像的大小参数及背景图像大小分辨率；然后根据背景图像分辨率及人像图像的大小参数对各个人像图像进行归一化处理，得到图像大小相匹配的人像图像。

上述实施例中，通过在直播服务器归一化各个主播的人像图像大小，从而可以将人脸及身体调整到匹配大小，由此可以达到无论主播和镜头距离所采集的视频图像，都可以在直播服务器上产生相同大小人像图像，从而降低了对主播的图像采集要求，使得主播可以在绿幕前自由活动。

c、根据所述主播AI信息将所述特效渲染素材绘制到该连麦主播在所述背景图像上对应区域画面中；具体的，利用主播AI信息可以快速计算得到特效渲染位置，然后直播服务器可以将特效渲染素材绘制到该连麦主播的特效渲染位置所对应区域画面中。

另外，进一步的，在绘制特效时，还可以将各个连麦主播互动产生的互动特效渲染到背景图像上，比如主唱端和副唱端的连麦主播可以实现同台KTV合唱，并且可以进行击掌、握手、摸头、拧耳朵等等同台互动。

d、输出合成图像并编码得到视频数据。

综合上述实施例，本申请的技术方案，可以实现各个连麦主播同台合唱，且主唱端与副唱端以及伴奏背景能够实现高度的同步，使得直播连麦中的主播可以在同台进行线上合唱和在线互动，合唱歌曲、虚拟礼物赠送和直播互动等；在合成得到合唱音视频数据后，直播服务器将合唱音视频流推送至观众端，通过将合唱音视频流进行编码后得到合唱音视频流推送到CDN(Content Delivery Network，内容分发网络)网络，分发至各个观众端。

下面阐述基于连麦直播的线上合唱装置的实施例。

参考图10所示，图10是一个实施例的基于连麦直播的线上合唱装置的结构示意图，包括：

接收模块10，用于接收至少两个客户端上传的连麦主播的音频信息和视频信息；

解析模块20，用于对所述音频信息进行解析获取音频帧及其同步信息，以及对所述视频信息进行解析获取视频帧及其抠图信息；其中，所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度；

同步模块30，用于根据各个连麦主播的同步信息，分别将所述音频帧、视频帧与伴奏歌曲进行同步；

合成模块40，用于根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据。

本实施例的基于连麦直播的线上合唱装置可执行本申请的实施例所提供的一种基于连麦直播的线上合唱方法，其实现原理相类似，本申请各实施例中的基于连麦直播的线上合唱装置中的各模块所执行的动作是与本申请各实施例中的基于连麦直播的线上合唱方法中的步骤相对应的，对于基于连麦直播的线上合唱装置的各模块的详细功能描述具体可以参见前文中所示的对应的基于连麦直播的线上合唱方法中的描述，此处不再赘述。

下面阐述线上合唱系统的实施例。

本实施例提供的线上合唱系统，主要是实现了线上KTV合唱功能，以及在所合成的同台场景中进行互动的功能。参考图11所示，图11是一个示例的线上合唱系统结构示意图，包括：至少一个客户端和直播服务器，客户端用于获取连麦主播的音频信息和视频信息，并上传至直播服务器，直播服务器配置为基于连麦直播的线上合唱方法的步骤。

本申请的技术方案，可以应用于连麦直播中进行基于连麦直播的线上合唱处理，作为一个示例，主播客户端可以包括开播工具和客户端，其中，开播工具集成了虚拟摄像头，具备美颜、抠图等各种功能，客户端是基于语音及视频直播的软件客户端。直播中可以提供多种类型(娱乐/交友/约战/游戏/教育等)的直播模板，多个主播在直播服务器上进行虚拟同台合唱

客户端主要实现如下功能：

(1)通过摄像头采集主播的视频图像，通过麦克风采集主播的语音数据，对主播的视频图像进行抠图、提取行为数据(如胳膊动作、手势、身体的整个轮廓等数据)得到Alpha图像数据，将视频图像帧及Alpha图像进行横向拼接得到YUVA视频图像数据；使用SEI信息传递图像相关信息，包括AI关键点信息，人脸、手势和头部等关键点信息，开播特效信息，玩法礼物信息，以及其他信息等等。

(2)实现发起连麦和合唱请求；主唱端发起合唱请求，副唱端响应合唱请求，并建立合唱连接。

(3)实现主播客户端美颜、虚拟特效处理功能；比如，开播前配置的美颜信息、处理直播过程中收到的虚拟礼物特效等等。

(4)伴奏同步功能，在连麦直播合唱过程中，对麦克风采集语音与伴奏进度进行同步。

直播服务器主要实现如下功能：

(1)各个连麦主播的音频帧、视频帧以及伴奏歌曲的音频帧和视频帧的同步功能。

(2)音频帧的混流功能，视频帧的合成功能，以及人像图像的归一化处理功能。

(3)虚拟特效内容渲染功能。

参考图12所示，图12是一个示例的同台合唱场景示意图，形成音视频数据流推送给观众端进行观看，基于上述图示的同台合唱场景，可以由元宇宙服务系统为用户创建独立的元宇宙场景，搭建出一个与现实世界并行的虚拟空间，通过利用科技手段进行链接与创造出一个现实世界映射与交互的虚拟世界，使得在该虚拟空间中各个连麦主播的人物形象可以进行自由的虚拟互动，同时主播可以同虚拟观众用户之间进行互动，虚拟观众用户之间也可以进行互动。观众用户可以通过AR眼镜、显示设备完成人机交互，每个主播端和观众端在元宇宙都要相应的身份标识，标识其在元宇宙中的唯一性，各个观众端可以通过AR眼镜接入，用户提供识别元宇宙标签与识别显示类设备中的内容以及网络的接入，并实现基本的控制操作，如手势移动切换，选择退出等功能，AR眼镜接收与直播服务器的直播视频流数据，显示类设备用于信息的显示，可以为元宇宙场景显示信息，同时为用户提供元宇宙信息，方便用户接入。

示例性的，如图12所示虚拟同台场景中，在元宇宙空间中搭建了一个虚拟KTV舞台，在该虚拟舞台周围可以构建虚拟观众席，每个观众席可以提供给观众用户进行接入，每个观众用户接入到虚拟现场后，匹配到一个观众席座位，并能够从观众席视觉观看虚拟KTV舞台上的合唱连麦主播，通过AR眼镜等设备，每个观众用户就可以与其他观众用户进行虚拟互动，比如在虚拟现场进行走动与任意观众用户互动，达到了虚拟真实生活中，拉近了观众用户之间的情感交互，提供了现场的沉浸式体验，对于合唱的连麦主播而言，除了在KTV舞台上与合唱的连麦主播进行互动外，还可以与任意观众进行互动，从而将连麦直播由分隔时空的直播互动，变成了在元宇宙空间中虚拟现实中的面对面互动的直播互动效果。

以上为基于元宇宙技术的一个应用示例，由于元宇宙场景所构建的与现实世界映射与交互的虚拟世界，以及新型社会体系的数字生活空间。而利用本申请提供的技术方案后，能够进一步加强其生态体系构建，从而为用户提供更多高质量的体验。

上述示例的线上合唱系统，基于连麦直播实现了虚拟同台合唱互动效果，增强直播互动性，音频帧与视频在直播服务器上进行合成，延迟低、同步性好，实现主播之间异地沉浸式共演音视频效果，提升了主播互动体验。将主唱端和副唱端合成到同一个伴奏歌曲的背景图像中，实现了不同地域主播于同一个虚拟场景下进行合唱，同台演出效果真实；同时利用延时低和同步性高的特点，可以模拟异地同台语音、表情、手势等互动，直播服务器通过归一化各主播的人像图像，使得主播可以自由活动采集视频图像；可以根据伴奏歌曲的MV内容进行实时切换各类场景，不需要彩排，提升了使用便利性。

下面阐述计算机设备及计算机可读存储介质的实施例。

一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于连麦直播的线上合唱方法，其特征在于，包括：

接收至少两个连麦主播的音频信息和视频信息；

2.根据权利要求1所述的基于连麦直播的线上合唱方法，其特征在于，所述抠图信息为与所述视频帧拼接的半透明通道图像；其中，所述半透明通道图像为对所述视频帧的人像图像预抠图得到。

3.根据权利要求1所述的基于连麦直播的线上合唱方法，其特征在于，根据各个连麦主播的同步信息，分别将所述音频帧、视频帧与伴奏歌曲进行同步，包括：

获取所述伴奏歌曲的伴奏视频帧和伴奏音频帧；

4.根据权利要求3所述的基于连麦直播的线上合唱方法，其特征在于，根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像，并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据，包括：

获取各个连麦主播的音频帧以及伴奏音频帧；

将所述音频帧和伴奏音频帧进行混音编码得到音频数据；

获取各个连麦主播的视频帧以及伴奏视频帧；

5.根据权利要求4所述的基于连麦直播的线上合唱方法，其特征在于，还包括：对所述视频信息中的SEI信息进行解析获取所述视频帧对应的图像相关信息；其中，所述图像相关信息包括主播AI信息和主播特效信息。

6.根据权利要求5所述的基于连麦直播的线上合唱方法，其特征在于，将所述人像图像和伴奏视频帧进行合成并编码得到视频数据，包括：

输出合成图像并编码得到视频数据。

7.根据权利要求6所述的基于连麦直播的线上合唱方法，其特征在于，将各个连麦主播的人像图像绘制到所述背景图像上之前，还包括：

获取各个人像图像的大小参数及背景图像大小分辨率；

根据背景图像分辨率及人像图像的大小参数对各个人像图像进行归一化处理，得到图像大小相匹配的人像图像。

8.根据权利要求6所述的基于连麦直播的线上合唱方法，其特征在于，所述主播AI信息包括主播的人像关键点、人脸关键点、手势关键点、头部关键点中的一种或多种；所述主播特效信息包括开播特效和玩法礼物信息；

所述输出合成图像并编码得到视频数据之前，还包括：

9.根据权利要求1-8任一项所述的基于连麦直播的线上合唱方法，其特征在于，所述客户端包括主唱端和副唱端；

接收副唱端对所述合唱请求的响应信息，并启动合唱任务；

10.根据权利要求9所述的基于连麦直播的线上合唱方法，其特征在于，所述客户端根据所述请求发送时间计算主唱端和副唱端的伴奏启动时间，并根据所述启动时间启动播放所述伴奏歌曲。

11.根据权利要求10所述的基于连麦直播的线上合唱方法，其特征在于，还包括：在直播过程中，接收所述主唱端定期发送的实时同步信息，将所述实时同步信息广播至各个副唱端的客户端，以使得各个副唱端的客户端对音频帧与伴奏歌曲的伴奏进度进行实时同步。

12.一种基于连麦直播的线上合唱装置，其特征在于，包括：

13.一种线上合唱系统，其特征在于，包括：至少一个客户端和直播服务器；所述客户端用于获取连麦主播的音频信息和视频信息，并上传至直播服务器；

所述直播服务器用于执行权利要求1-11任一项所述的基于连麦直播的线上合唱方法的步骤。

14.一种电子设备，其特征在于，该电子设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-11任一项所述的基于连麦直播的线上合唱方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行权利要求1-11任一项所述的基于连麦直播的线上合唱方法的步骤。