CN116962744A

CN116962744A - 网络直播的连麦互动方法、装置及直播系统

Info

Publication number: CN116962744A
Application number: CN202210594781.6A
Authority: CN
Inventors: 张德恒; 许少龙; 廖国光; 杨泉宇; 林忠涛; 石勇慧; 董炼; 闫理; 吴荣鑫; 龙土兴; 黄煜
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2022-04-14
Filing date: 2022-05-27
Publication date: 2023-10-27
Also published as: CN116962747A; CN116962743A; CN116962748A; CN116962742A; CN116962746A; CN116962745A

Abstract

本申请涉及一种网络直播的连麦互动方法、装置及直播系统，所述方法包括：建立当前主播端与其他主播端的直播连麦；获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息；将所述连麦主播的视频流信息上传至直播服务器；其中，所述直播服务器从所述视频流信息中抠出连麦主播的人像图像，将至少两个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，并基于所述虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端；该技术方案，实现了虚拟同台连麦效果，丰富了直播内容，增强直播互动性，提升直播连麦的沉浸式体验，实现了不同地域主播于同个虚拟场景下进行连麦，并且基于虚拟同台场景下连麦，可以延生出多种互动玩法，提升了连麦互动效果。

Description

网络直播的连麦互动方法、装置及直播系统

本申请要求于2022年04月14日提交中国专利局、申请号为202210387980.X、发明名称为“网络直播的连麦互动方法、装置及直播系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及网络直播技术领域，特别是一种网络直播的连麦互动方法、装置及直播系统。

背景技术

近年来，网络直播以其内容和形式的直观性、即时性和互动性，在促进灵活就业、促进经济社会发展、丰富人民群众精神文化生活等方面发挥了重要作用。比如，通过网络直播加强商品流通，盘活农村经济，拉近人与人之间的距离，传播文化；利用网络直播的虚拟礼物形式，使得主播可以通过在直播间中更好地展现自己才艺才华，从而为更多主播实现了自我价值。

随着移动互联网新技术新应用的迭代升级，网络直播行业进入了快速发展期，其媒体属性、社交属性、商业属性、娱乐属性日益凸显，深刻影响网络生态。直播连麦是一种网络直播中的常见互动方式，对于提升用户体验与参与感有明显作用，可以也提升直播平台的用户活跃度。

目前，常见的直播连麦方式一般是将多个连麦主播的视频画面拼接显示，每个连麦主播背景相对独立，导致直播连麦交互效果不佳，连麦主播之间难以在拼接的视频画面上开展如亲临现场般的直播互动，影响连麦互动效果。

发明内容

基于此，有必要针对上述至少一种技术缺陷，提供一种网络直播的连麦互动方法、装置及直播系统，以提升连麦互动效果。

一种网络直播的连麦互动方法，应用于连麦主播端，包括：

建立当前主播端与其他主播端的直播连麦；

获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息；

将所述连麦主播的视频流信息上传至直播服务器；

其中，所述直播服务器从所述视频流信息中抠出连麦主播的人像图像，将至少两个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，并基于所述虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端。

在一个实施例中，所述建立当前主播端与其他主播端的直播连麦，包括：

响应于直播连麦请求建立连麦连接，将当前主播端切换到横屏模式，并将当前主播端调整至与其他主播端的开播分辨率一致的比例。

在一个实施例中，所述获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息，包括：

采集当前主播端的连麦主播的原始视频图像；

对所述原始视频图像进行背景颜色分割得到Alpha图像；其中，所述人像抠图信息描述为Alpha图像；

将所述原始视频图像与所述Alpha图像进行拼接得到主播视频传输图像；

将所述主播视频传输图像进行编码，并与特效信息封装成所述连麦主播的视频流信息。

在一个实施例中，所述网络直播的连麦互动方法，还包括：对所述原始视频图像进行AI识别得到连麦主播的AI关键点信息；

所述将所述主播视频传输图像进行编码，并与特效信息封装成所述连麦主播的视频流信息，包括：

获取所述连麦主播在直播中所具有的虚拟特效，并生成描述所述虚拟特效的特效信息；

将编码的主播视频传输图像、所述AI关键点信息和特效信息封装成所述连麦主播的视频流信息。

在一个实施例中，所述的网络直播的连麦互动方法，还包括：

接收所述直播服务器下发的其他主播端上传的连麦主播的视频流信息；

根据所述视频流信息获取其他主播端的连麦主播的人像图像；

获取当前主播端的连麦主播的人像图像，在当前主播端上将各个主播端的连麦主播的人像图像以及背景图像进行合成得到虚拟同台场景。

接收所述直播服务器下发的调整参数；

根据所述调整参数对所述原始视频图像进行调整，以及生成图像调整信息进行提示。

一种网络直播的连麦互动装置，应用于连麦主播端，包括：

连麦模块，用于建立当前主播端与其他主播端的直播连麦；

编码模块，用于获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息；

上传模块，用于将所述连麦主播的视频流信息上传至直播服务器；

一种网络直播的连麦互动方法，应用于直播服务器，包括：

接收至少两个主播端上传的连麦主播的视频流信息；其中，所述视频流信息包括连麦主播的原始视频图像及其人像抠图信息；

根据所述视频流信息中的人像抠图信息从原始视频图像中抠出连麦主播的人像图像；

将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景；

基于所述虚拟同台场景进行所述连麦主播的直播连麦互动，并生成连麦视频流推送至观众端。

在一个实施例中，所述视频流信息包括：主播视频传输图像、AI关键点信息和特效信息；其中，所述主播视频传输图像包括连麦主播的原始视频图像及Alpha图像；

所述根据所述视频流信息中的人像抠图信息从原始视频图像中抠出连麦主播的人像图像，包括：

根据所述Alpha图像分别从各个连麦主播的原始视频图像中抠出所述连麦主播的人像图像；

所述将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，包括：

将至少两个连麦主播的人像图像与背景图像在视频区域进行合成；

根据所述特效信息获取各个连麦主播在直播中所具有的虚拟特效，并利用所述AI关键点信息对所述虚拟特效内容在视频区域中的位置进行换算得到所述虚拟特效内容的渲染位置；

在所述渲染位置上渲染所述虚拟特效内容，得到虚拟同台场景。

在一个实施例中，所述生成连麦视频流推送至观众端，包括：

获取连麦主播在所述虚拟同台场景上进行互动直播产生的连麦视频图像以及互动特效；

将所述连麦视频图像以及互动特效进行编码成连麦视频流；

将所述连麦视频流推送到CDN分发网络，分发至观众端。

在一个实施例中，所述基于所述虚拟同台场景进行所述连麦主播的直播连麦互动，包括：

接收第一连麦主播在直播互动中向第二连麦主播赠送的虚拟礼物；

基于所述虚拟同台场景在各个连麦主播的人像图像之间进行所述虚拟礼物赠送互动展示。

识别第一连麦主播的人像图像上的第一身体部位以及识别第二连麦主播的人像图像上的第二身体部位；

利用所述第一身体部位与第二身体部位的行为交互来虚拟所述第一连麦主播与第二连麦主播之间的虚拟互动。

从所述视频流信息中提取连麦主播的语音数据；

对所述语音数据进行语义识别，根据所述语义识别结果匹配出合成所述虚拟同台场景的背景图像。

接收卡麦客户端发送的卡麦用户的卡麦请求；

响应所述卡麦请求将所述连麦主播的视频流信息下发至所述卡麦客户端进行展示；

接收所述卡麦客户端上传的卡麦用户的音频流，并将所述音频流混入所述连麦视频流推送至观众端。

在一个实施例中，所述将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，包括：

根据设定的画布大小及其比例对所述背景图像进行调整并渲染；

获取各个连麦主播的人像图像之间的层叠关系和图像参数；

根据所述层叠关系在所述背景图像上依次渲染各个人像图像，并根据所述图像参数对人像图像进行调整，得到所述虚拟同台场景；

其中，所述图像参数包括图像位置、图像大小、图像视角中的至少一者。

在一个实施例中，所述视频流信息包括：原始视频图像、抠图轮廓信息、AI关键点信息和特效信息；

根据所述抠图轮廓信息分别从各个连麦主播的原始视频图像中抠出所述连麦主播的人像图像；

所述将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，还包括：

根据所述特效信息获取各个连麦主播在直播中所具有的虚拟特效；利用所述AI关键点信息对所述虚拟特效内容在虚拟同台场景中的位置进行换算得到所述虚拟特效内容的渲染位置，在所述渲染位置上渲染所述虚拟特效内容。

一种网络直播的连麦互动装置，应用于直播服务器，包括：

接收模块，用于接收至少两个主播端上传的连麦主播的视频流信息；其中，所述视频流信息包括连麦主播的原始视频图像及其人像抠图信息；

抠图模块，用于根据所述视频流信息中的人像抠图信息从原始视频图像中抠出连麦主播的人像图像；

合成模块，用于将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景；

直播模块，用于基于所述虚拟同台场景进行所述连麦主播的直播连麦互动，并生成连麦视频流推送至观众端。

一种直播系统，包括至少两个参与直播连麦的主播端，以及与所述主播端连接的直播服务器，其中，所述直播服务器连接观众端；

所述主播端被配置为执行上述的网络直播的连麦互动方法；

所述直播服务器被配置为执行上述的网络直播的连麦互动方法。

一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的网络直播的连麦互动方法。

一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述的网络直播的连麦互动方法。

上述各实施例的技术方案，由主播端向直播服务器上传连麦主播的视频流信息，直播服务器从视频流信息中抠出连麦主播的人像图像，再将连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，最后基于虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端；该技术方案，实现了虚拟同台连麦效果，丰富了直播内容，增强直播互动性，提升直播连麦的沉浸式体验，实现了不同地域主播于同个虚拟场景下进行连麦，并且基于虚拟同台场景下连麦，可以延生出多种互动玩法，提升了连麦互动效果。

进一步的，本申请实施例的技术方案，在连麦开播时，通过设置横屏模式和调整开播分辨率一致的比例，在混画合成虚拟同台场景时可以将视频图像进行层叠叠加显示而非拼接显示，从而可以避免边界问题对合成的虚拟同台场景显示效果的影响。

进一步的，本申请实施例提供了YUVA视频传输格式传输视频流信息的技术方案，该视频传输格式可以在多端进行传送、裁剪等，而且无需对主播端的原有YUV图像格式的改动，确保了在现有的主播端上兼容使用，降低主播端升级成本。

进一步的，本申请实施例提供了同时在主播端和直播服务器进行合成虚拟同台场景的技术方案，可以避免主播端网络延时，提升主播端本地的开播体验，也可以保证所有观众端效果的一致性。

进一步的，在合成主播端各自的虚拟特效时，本申请实施例的方案利用编码视频帧里的AI关键点信息进行换算得到虚拟特效内容的渲染位置，从而实现快速的虚拟特效内容渲染，提升了虚拟特效内容展示效果。

附图说明

图1是一个示例的网络直播的连麦互动网络拓扑图；

图2是一个实施例的网络直播的连麦互动方法流程图；

图3是一个示例的横屏模式下画布示意图；

图4是原始视频图像采集示意图；

图5是主播视频传输图像的数据格式示意图；

图6是一个示例的YUVA视频传输格式结构图；

图7是一个示例的在主播端本地合成虚拟同台场景流程示意图；

图8是一个示例的在主播端调整图像流程示意图；

图9是另一个实施例的网络直播的连麦互动方法流程图；

图10是一个示例的连麦主播的层叠关系示意图；

图11是一个示例的合成得到虚拟同台场景的示意图；

图12是一个示例的渲染虚拟特效内容示意图；

图13是一个示例的卡麦互动流程图；

图14是常规的连麦视频流互动系统框架图；

图15是本申请的连麦视频流互动系统框架图；

图16是一个实施例的网络直播的连麦互动装置的结构示意图；

图17是另一个实施例的网络直播的连麦互动装置的结构示意图；

图18是一个示例的直播系统结构示意图；

图19是一个示例的开播流程示意图；

图20是一个示例的选择背景图像界面示意图；

图21是特效来源示意图；

图22是一个示例的特效Ⅰ示意图；

图23是一个示例的层级优先级关系示意图；

图24是联合虚拟礼物特效示意图；

图25是一个示例的连麦互动示意图；

图26是一示例的用于执行网络直播的连麦互动方法的装置的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例中，提及的“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个对象指两个或两个以上的对象。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的信息涵盖出现在“包括”或者“包含”后面列举的信息及其等同，并不排除其他信息。在本申请实施例中提及的“和/或”，表示可以存在三种关系，字符“/”一般表示前后关联对象是一种“或”的关系。

参考图1所示，图1是一个示例的网络直播的连麦互动网络拓扑图；如图中，多个主播端(图中所示主播端A、B、C……)建立与直播服务器的连接，通过直播服务器来建立直播连麦，同时直播服务器生成虚拟同台场景，并将基于该虚拟同台场景上连麦主播进行直播连麦互动生成的连麦视频流推送至观众端。

基于上述连麦互动网络拓扑图，本申请提供了一种网络直播的连麦互动方法，应用于连麦主播端，如图2所示，图2是一个实施例的网络直播的连麦互动方法流程图，包括如下步骤：

S11，建立当前主播端与其他主播端的直播连麦。

一般情况下，可以定义发起连麦的主播为首麦主播，其余连麦主播为麦序上的主播(可选)，首麦主播可以从主播列表中选择一个主播来连麦，也可以从主播列表选择其他主播来替换当前连麦的主播。

在此过程中，首麦主播也可以选择背景图像，对于背景图像，可以采用二维的平面背景，也可以采用三维空间背景，背景图像可以是静态图片，也可以是动态视频，如KTV舞台背景，可以由主播端上传，也可以由直播服务器通过网络URL自动下载。

在一个实施例中，在建立直播连麦时，参与连麦主播可以响应于直播连麦请求建立连麦连接，然后将当前主播端切换到横屏模式，并将当前主播端调整至与其他主播端的开播分辨率一致的比例。

例如，在连麦建立环节，分别将连麦各方的主播端开播分辨率切换到横屏模式，如图3所示，图3是一个示例的横屏模式下画布示意图，图中是以主播A和主播B为例，在开播时，两个开播档位遵循4:3的横屏比例，背景图像也按照4:3的横屏比例进行裁剪，从而保证后续在直播服务器上进行叠加合成时背景图像、人像图像与视频区域大小吻合；本申请中，人像图像是指包含有人像部分的图像，可以是半身图像或者全身图像等。

上述实施例的方案，通过横屏模式和调整开播分辨率一致的比例，在混画合成虚拟同台场景时可以将视频图像进行层叠叠加显示而非拼接显示，从而可以避免边界问题对合成的虚拟同台场景显示效果的影响。

S12，获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息。

此步骤中，可以通过摄像头实时捕获连麦主播的原始视频图像，然后获取原始视频图像的人像抠图信息，再编码及封装成视频流信息进行上传到直播服务器。

常规的技术方案中，当需要实现异地合成视频时，一般是利用摄像设备拍摄绿幕图像，然后将绿幕图像传送至云端服务器，云端服务器绿幕图像进行抠图(颜色去背景处理)，得到人像抠图与本地的背景图像或者来自于其他通道拍摄的背景图像进行合成；这种方式中，在云端服务器(合成端)把绿幕去除后叠加背景图像，主要运算量都在合成端，对合成端要求较高，需要先接收到一条远端数据先进行处理，再合成，当背景图像需要切换时，拍摄端和合成端都需要相互等待，缺少实时性，且远端和本地无法进行互动。

另外，在图像合成过程中，常规技术是通过渲染带有透明度信息的虚拟场景图像与真实场景图像进行融合，在真实场景中显示虚拟元素获得合成图像，该技术把不同透明通道的RGBA数据按层次进行合并，最后把真实摄像头的拍到的绿幕图像中的非绿幕部分合并过去，再渲染出来，各个素材需要以RGBA的格式提供绿幕时后处理方式，合成端运算量大，不具备互动性。

为了便于将主播所具有虚拟特效和贴图特效等特效内容也传输到直播服务器上，提高合成端的主播互动性能，本申请实施例提供了以下视频流信息传输方案实施例。

在一个实施例中，对于上述步骤S12获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息的技术方案，可以包括如下步骤：

a、采集当前主播端的连麦主播的原始视频图像。

具体的，可以利用智能手机摄像头或者其他摄像设备来采集连麦主播的原始视频图像，为了便于抠图，本实施例中优选采用主播视频按背景色(一般是绿色背景)进行拍摄。

b、对所述原始视频图像进行背景颜色分割得到Alpha图像，其中人像抠图信息描述为Alpha图像，Alpha图像是指带Alpha分量的图像。

在本实施例中，为了便于存储人像抠图信息，优选的，采用Alpha通道的视频数据来存储；人像抠图信息是指主播人像从原始视频图像中进行人像部分图像进行抠图时所依据或者参考信息，例如，人像部分图像轮廓信息、人像部分透明图像等；比如，在采用绿幕拍摄原始图像时，通过对绿幕颜色部分的分割，可以得到Alpha图像。

c、将所述原始视频图像与所述Alpha图像进行拼接得到主播视频传输图像。

具体的，在通过步骤b分割得到Alpha图像之后，将原始视频图像与Alpha图像进行横向拼接。

参考图4所示，图4是原始视频图像采集示意图，通过普通摄像头采集的绿幕视频图像(如上图中Ⅰ)为原始视频图像，然后主播可以美颜特效，如胖脸、红脸、戴墨镜等，基于绿幕抠图对绿幕视频图像的绿色背景进行分割得到Alpha图像，如上图Ⅱ中右侧黑白图像；将原始视频图像与Alpha图像左右拼接得到主播视频传输图像。

d、将所述主播视频传输图像进行编码，并与特效信息封装成所述连麦主播的视频流信息。

对于拼接后的主播视频传输图像的编码格式，参考图5所示，图5是主播视频传输图像的数据格式示意图；通过原始视频图像与Alpha图像左右拼接得到的主播视频传输图像，对其进行编码成主播视频传输图像帧，形成一个新的图像帧进行传输。

结合图5所示的数据格式例子来阐述图像拼接过程，首先定义图像大小由宽(w)高(h)决定，YUV图像分为Y平面、U平面和V平面等3个平面。

在拼接之前，将Alpha图像的w、h缩放到与原始视频图像相同，比如都是400，600，在缩放的同时需要对人脸坐标点进行相应的算法处理。

在拼接过程中，包括如下步骤：

1)、创建一个宽高为2*w和h的YUV区域；

2)、Y分量根据以下方式进行拷贝：

第1行，左边w宽度放原图的第1行，右边w宽度放Alpha图像的第1行；

第2行，左边w宽度放原图的第2行，右边w宽度放Alpha图像的第2行；

……，以此类推

第h行，左边w宽度放原图的第h行，右边w宽度放Alpha图像的第h行。

3)、U、V分量的填充

第1行，左边w宽度放原图的第1行，右边w宽度用128填充；

第2行，左边w宽度放原图的第2行，右边w宽度用128填充；

……，以此类推

第h行，左边w宽度放原图的第h行，右边w宽度用128填充；

4)、输出拼接的主播视频传输图像数据。

作为实施例，还可以进一步对原始视频图像进行AI识别得到AI关键点信息，例如人脸关键点信息、手部关键点信息、头部关键点信息等；将在主播端添加美颜特效时所识别原始视频图像的AI关键点信息，一并传输到直播服务器，从而可以在直播服务器上进行互动和特效渲染时直接使用，避免在直播服务器上再次进行AI关键点识别，由此可以降低直播服务器的运算量，增强主播互动性能。

此过程中，可以采用智能手机摄像头，并基于AI算法主播的原始视频图像进行AI关键点识别得到人像图像的轮廓。

据此，在封装成连麦主播的视频流信息时，获取连麦主播在直播中所具有的虚拟特效，并生成描述虚拟特效的特效信息；将编码的主播视频传输图像、AI关键点信息和特效信息封装成连麦主播的视频流信息。

对于描述虚拟特效的特效信息，是指主播端各自的虚拟特效相关信息，一般情况下为虚拟特效ID及显示位置等。

此步骤中，原始视频图像采用YUV的视频帧格式，然后加上Alpha图像，编码后的主播视频传输图像为YUVA视频帧格式，AI关键点信息和特效信息添加到视频流的SEI数据中进行传输。

相对于常规的抠图后只上传人像图像部分图像到直播服务器的方式不同，本实施例的YUVA视频帧格式是将原始视频图像以及Alpha图像一起进行封装编码传输到直播服务器，在直播服务器上Alpha图像可以用于对原始视频图像进行抠图。

参考图6所示，图6是一个示例的YUVA视频传输格式结构图，其中原始视频图像和Alpha图像拼接得到主播视频传输图像按YUVA视频帧格式进行编码，由此无需对客户端的编码格式进行改变，同时，还可以通过SEI信息添加AI关键点信息、特效信息、背景图像URL等等。

需要说明的是，在上述方案的生成视频流信息时，可以只将原始视频图像和Alpha图像(即抠图轮廓信息)进行编码，从而可以完成在直播服务器进行合成虚拟同台场景时的抠图功能；而将AI关键点信息也进行传输，便于在直播服务器上进行AI识别功能时，可以直接利用该AI关键点信息进行使用，从而避免重复AI识别处理过程，可以减少对设备算力使用；而将特效信息也进行传输，便于在直播服务器合成虚拟同台场景时，重新渲染出连麦主播各自的虚拟礼物特效。另外，主播端还可以将连麦主播选择的背景图像URL添加到视频流中，以供直播服务器下载背景图像。

如上述技术方案，通过YUVA视频传输格式可以在多端进行传送、裁剪等，而且无需对主播端的原有YUV图像格式的改动，确保了在现有的主播端上兼容使用，降低使用成本，实际操作中，可以基于原始视频图像上扩展一个图像区域，从而在不改变原始视频图像帧格式的前提下，通过扩充图像方式将人像抠图信息绘制在扩展的图像区域上，从而使得视频图像数据可以携带人像抠图信息；由于该区域是在原始视频图像上扩展得到的，因此对于主播端而言，无需原有的颜色编码格式；例如，原始视频图像大小为400×600，因此在原始视频图像的右侧可以扩展一个400×600区域，将人像抠图信息以Alpha图像绘制在该图像区域上，得到大小为800×600的视频图像帧。该技术方案只需要在原始视频图像右侧扩展一个YUV区域用于存储Alpha图像，由于Alpha图像只需要8bit，只需要使用Y分量即可，编码不会带来复杂度的成本增加，使得编码效率高。

主播端通过YUVA视频传输格式，其他端如Web、旧版本软件可以不用修改，也能看到图像，使用H264、HEVC等编码算法即可，具有更好的兼容性，软硬件均可实现，观众端看到的图像不会因为直播互动而改变；不需要其他额外的设备，只需要开播工具处理好抠图后的数据，成本低。

S13，将连麦主播的视频流信息上传至直播服务器，通过直播服务器从视频流信息中抠出连麦主播的人像图像，将至少两个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，并基于虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端。

由于上传的视频流信息中保留了原始视频图像细节，原始图像数据可以用于后期进一步加工，具有更好的拓展性；而且各个主播之间的直播互动的时延相对于普通互动方式几乎没有增加，实时性好。

具体的，虚拟同台场景是指基于人像图像与背景图像进行混画所形成的合成虚拟场景，其可以表现为融合在一个同台场景中的概念；此步骤中，各个主播端将连麦主播的视频流信息上传至直播服务器，直播服务器可以对视频流信息进行解码；比如，通过解码得到原始视频图像，然后利用Alpha图像对原始视频图像进行抠图得到连麦主播的人像图像，将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景；最后，各个连麦主播就可以在虚拟同台场景进行直播连麦互动，进行虚拟礼物赠送和直播互动等，包括同台KTV、同台跳舞、同台知识竞赛等等；直播服务器将所生成的连麦视频流推送至观众端。

在一个实施例中，为了保证连麦主播实时预览虚拟同台场景，本实施例的网络直播的连麦互动方法，还可以包括：

步骤S14，在主播端本地合成虚拟同台场景；具体地，当前主播端接收直播服务器下发的其他主播端上传的连麦主播的视频流信息；根据视频流信息获取其他主播端的连麦主播的人像图像；获取当前主播端的连麦主播的人像图像，在当前主播端上将各个主播端的连麦主播的人像图像以及背景图像进行合成得到虚拟同台场景。

如图7所示，图7是一个示例的在主播端本地合成虚拟同台场景流程示意图，图中以主播端A和主播端B为例，直播服务器分别将主播端A和主播端B上传的视频流信息转发给对方，主播端A和主播端B在本地分别将自身的人像图像与对方的人像图像和背景图像进行合成得到虚拟同台场景。

上述实施例的方案，提供了一种创新的虚拟同台场景合成方案，即同时在主播端和直播服务器进行合成虚拟同台场景，一方面，在连麦客户上的合成，只面向连麦主播自己，且在本地实时合成，可以避免网络延时，提升主播端本地的开播体验；另一方面，直播服务器的合成面向所有观众端，由于观众端的设备差异性大，由直播服务器统一合成及输出，可保证所有观众端效果的一致性。

在一个实施例中，为了提升合成的直播服务器融合程度，本实施例的网络直播的连麦互动方法，在连麦过程当中，还可以包括如下步骤：

接收直播服务器下发的调整参数；根据调整参数对原始视频图像进行调整，以及生成图像调整信息进行提示。

如图8所示，图8是一个示例的在主播端调整图像流程示意图，具体的，可以由直播服务器根据AI关键点来进行计算参与合成的连麦主播的人像图像之间的图像大小和视觉角度等，根据图像大小和视觉角度关系来进行自动适配，向主播端下发调整参数，对原始视频图像的图像大小和进行自动调整，同时还可以生成图像调整信息进行提示，比如，为了使得主播在虚拟同台场景中的位置更优，通过在预览界面上设置一些标示信息，以提示连麦主播移动位置和拍摄角度，主播可以根据提示调整在绿幕前的位置，从而更好地与虚拟同台场景进行融合。

上述实施例的技术方案，可以使得融合虚拟同台场景具有更高融合度，虚拟同台效果更加逼真，提升了场景互动效果。

综上实施例，由主播端向直播服务器上传连麦主播的视频流信息，直播服务器从视频流信息中抠出连麦主播的人像图像，再将连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，最后基于虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端；对于直播服务器的执行方法，详细实施例可以参考后面实施例阐述。

本申请的技术方案，实现了虚拟同台连麦效果，丰富了直播内容，增强直播互动性，提升直播连麦的沉浸式体验，实现了不同地域主播于同个虚拟场景下进行连麦，并且基于虚拟同台场景下连麦，可以延生出多种互动玩法，提升了连麦互动效果。

基于上述连麦互动网络拓扑图，本申请还提供了另一种网络直播的连麦互动方法，应用于直播服务器，在以下实施例中，对于主播端的执行方法，详细实施例可以参考前面实施例阐述。

如图9所示，图9是另一个实施例的网络直播的连麦互动方法流程图，包括如下步骤：

S21，接收至少两个主播端上传的连麦主播的视频流信息；其中，所述视频流信息包括连麦主播的原始视频图像及其人像抠图信息。

此步骤中，直播服务器通过接收多个主播端编码上传的连麦主播的视频流信息，一路可以转发至各个主播端进行本地合成虚拟同台场景，另一路在直播服务器上进行合成；视频流信息至少包括了连麦主播的原始视频图像及其人像抠图信息，人像抠图信息的作用是从原始视频图像中抠出连麦主播的人像图像。

本实施例中，视频流信息中除了原始视频图像、人像抠图信息外，还可以添加AI关键点信息、特效信息和背景图像URL等等。

在一个实施例中，对于视频流信息，可以包括主播视频传输图像、AI关键点信息和特效信息等；其中，主播视频传输图像包括连麦主播的原始视频图像及Alpha图像，人像抠图信息描述为Alpha图像，主播视频传输图像由原始视频图像和Alpha图像通过拼接得到，并通过YUVA视频帧格式进行编码传输。

本实施例的YUVA视频帧格式，在主播端将原始视频图像以及Alpha图像一起进行封装编码传输到直播服务器，直播服务器通过Alpha图像可以用于对原始视频图像进行抠图。

S22，根据所述视频流信息中的人像抠图信息从原始视频图像中抠出连麦主播的人像图像。

上述步骤中，对于每一路连麦主播上传的视频流信息，利用主播视频传输图像的Alpha图像(即人像抠图信息)从原始视频图像中抠出连麦主播的人像图像；具体的，直播服务器通过Alpha图像从原始视频图像中抠出连麦主播的人像图像，用于混画合成虚拟同台前景。

如前述实施例，本申请的视频流信息采用了原始视频图像和Alpha图像拼接成主播视频传输图像再进行编码传输，直播服务器接收到原始视频图像然后再进行抠图，由此可以在连麦互动过程中延生出多种互动玩法，提升连麦互动效果。

S23，将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景。

此步骤中，直播服务器将抠图得到各个连麦主播的人像图像，按照设定的渲染位置、图像大小和视觉角度等图像参数，叠加到背景图像上进行合成得到虚拟同台场景。

在一个实施例中，对于合成得到虚拟同台场景的技术方案，可以包括如下步骤：

S231，根据设定的画布大小及其比例对背景图像进行调整并渲染。

如前面实施例所述，在直播连麦中，事先根据需求设定画布大小和横屏比例，背景图像也是先按照横屏比例进下裁剪，在直播服务器进行混画合成时，保证背景图像、各个人像图像与视频区域大小吻合；据此，在渲染背景图像时，首先根据设定画布大小和比例(如4:3)来调整背景图像。

S232，获取各个连麦主播的人像图像之间的层叠关系和图像参数；其中图像参数包括图像位置、图像大小、图像视角中的至少一者。

对于人像图像合成部分，可按照约定好的层级关系对各路视频流信息先后进行画布叠加，例如按麦序优先级处理，一麦主播画布层级较高、二麦主播画布层级较低；另外，也可以按采集到的视频流信息的人像图像大小排序处理；或者还可以按照人像图像的轮廓大小决定层次，如轮廓大的画布层级较高、人像轮廓小的画布层级较低。

参考图10所示，图10是一个示例的连麦主播的层叠关系示意图，假设对应有主播A、主播B、主播C，则对应三个叠加层次关系为按优先级为主播A＞主播B＞主播C；在叠加时如图10所示，主播A在顶层，主播B在中层，主播C在下层，背景图像在底层，图中虚线框是指各个主播的人像图像部分的最小外接矩形。

S233，根据层叠关系在背景图像上依次渲染各个人像图像，并根据图像参数对人像图像进行调整，得到虚拟同台场景。

在渲染人像图像时，每一路视频流信息所获取的人像图像均按照层叠关系在视频区域的完整区域(从顶点坐标到右下角坐标)进行渲染，使得其能够与各个连麦主播的人像图像进行更好的融合。在渲染过程中同时对人像图像进行调整，可以根据连麦主播运动位置变化来调整人像图像的图像大小，从而虚拟出在虚拟同台场景中进行空间移动的真实效果。

比如，在调整过程中，可以根据AI人脸信息来获得某个连麦主播的图像大小参数，作为参考调整其他连麦主播的图像大小参数，使得各个连麦主播在同一个场景中的大小更加匹配融合，避免出现大小不一致的情况。还可以根据AI人脸信息识别连麦主播人脸方向以确定其视觉角度，根据其视觉角度去调整其他连麦主播的视觉角度，避免出现各个连麦主播的视觉角度不对应现象。

参考图11所示，图11是一个示例的合成得到虚拟同台场景的示意图，图中以主播A、主播B和背景图像合成为例，由图可知，通过将主播A和主播B的人像图像叠加到背景图像上，在渲染过程中，根据主播A和主播B的AI人脸信息可以识别出图像大小，控制大小一致。

作为实施例，进一步的，在合成虚拟同台场景步骤中，还可以进行虚拟特效渲染的方案；据此，将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景的方法，可以包括如下步骤：

(1)将至少两个连麦主播的人像图像与背景图像在视频区域进行合成；具体的，在建立直播连麦时，各个主播端的开播分辨率一致，背景图像也进行了相同大小的裁剪，在直播服务器上进行叠加合成时背景图像、人像图像与视频区域大小吻合，便于在合成是避免边界问题影响，提升了合成效果。

(2)根据所述特效信息获取各个连麦主播在直播中所具有的虚拟特效，并利用所述AI关键点信息对所述虚拟特效内容在视频区域中的位置进行换算得到所述虚拟特效内容的渲染位置。

如前述实施例所述，在编码视频帧里的SEI数据中，可以添加虚拟特效ID及显示位置等特效信息，因此，主播端各自的虚拟特效还可以在直播服务器合成的虚拟同场场景中进行重新渲染；常规技术方案中，一般需要对主播进行AI识别，然后再换算到新位置；从而需要重复进行AI识别，增加了运算量，也影响了处理效率。

(3)在所述渲染位置上渲染所述虚拟特效内容，得到虚拟同台场景；具体的，在新位置进行渲染，避免重复进行AI识别，降低了运算量。

本实施例中，为了实现快速的渲染虚拟特效内容，直接利用编码视频帧里的AI关键点信息进行换算得到虚拟特效内容的渲染位置，从而实现快速的虚拟特效内容渲染，提升了虚拟特效内容展示效果。

参考图12所示，图12是一个示例的渲染虚拟特效内容示意图，图中是以主播A的虚拟特效渲染为例，如左图中，可以利用AI人脸关键点信息，在右图的虚拟同台场景中进行换算，然后在计算的渲染位置渲染出虚拟特效内容。

S24，基于虚拟同台场景进行连麦主播的直播连麦互动，并生成连麦视频流推送至观众端。

此步骤中，利用合成的虚拟同台场景，连麦主播直接可以进行同台的连麦互动，同时可以虚拟礼物赠送，虚拟同台PK，虚拟现场互动等等。为了便于理解，下面阐述若干示例。

作为一个示例，基于虚拟同台场景可以进行虚拟礼物赠送，对应的，在直播连麦互动方法中，直播服务器还可以接收第一连麦主播在直播互动中向第二连麦主播赠送的虚拟礼物；基于虚拟同台场景在各个连麦主播的人像图像之间进行虚拟礼物赠送互动展示。

在上述虚拟礼物赠送中，可以是主播之间的虚拟礼物赠送，也可以是来自于观众端的虚拟礼物赠送；据此，在渲染虚拟礼物时，根据虚拟礼物的特效内容设定在虚拟同台场景上进行渲染显示，由于各个连麦主播的人像图像之间存在层次优先级，虚拟礼物的特效内容也可以与各个连麦主播之间设置层次关系显示，比如，虚拟礼物的特效内容可以设置在顶层进行呈现，虚拟礼物的特效内容可以在主播A的下层呈现，在在主播B的上层呈现，由此可以实现更强烈的空间感，提升连麦互动效果。

作为一个示例，基于虚拟同台场景可以虚拟连麦主播之间身体互动，对应的，在直播连麦互动方法中，直播服务器还可以识别第一连麦主播的人像图像上的第一身体部位以及识别第二连麦主播的人像图像上的第二身体部位；利用第一身体部位与第二身体部位的行为交互来虚拟第一连麦主播与第二连麦主播之间的虚拟互动。

比如，可以虚拟主播A与主播B进行击掌、握手、摸头、拧耳朵等等同台互动；也可以虚拟主播A与主播B进行同台KTV合唱等。

在一个实施例中，本申请的网络直播的连麦互动方法，在直播连麦过程中，还可以包括基于语音自动匹配背景图像的步骤，具体地的，该步骤包括如下：

首先从视频流信息中提取连麦主播的语音数据；然后对语音数据进行语义识别，根据语义识别结果匹配出合成虚拟同台场景的背景图像。

在一个实施例中，为了提升观众参与到连麦互动中，以提升互动效果，本申请的网络直播的连麦互动方法，在直播连麦过程中还可以卡麦互动技术方案，具体地，该技术方案可以包括如下：

接收卡麦客户端发送的卡麦用户的卡麦请求，响应卡麦请求将连麦主播的视频流信息下发至卡麦客户端进行展示，接收卡麦客户端上传的卡麦用户的音频流，并将音频流混入连麦视频流推送至观众端。

参考图13，图13是一个示例的卡麦互动流程图，在此方案中，卡麦用户可以是来自于观众端(定义为卡麦客户端)，对应的，参与卡麦互动的卡麦用户，可以通过直播服务器拉取到各个连麦主播的视频流信息，通过视频流信息可以预览到原始视频图像，在卡麦互动过程中，卡麦用户的音频流通过卡麦客户端上传到直播服务器，直播服务器在向观众端推送连麦视频流时，将卡麦用户的音频流合成到连麦视频流，由此，所有观众端都能够播放卡麦用户的音频数据，从而提升了主播与观众用户之间的互动效果，对于卡麦用户的音频流，可以将其混入到连麦视频流当中，所有观众端都能够接收到，也可以将其混入到其中一个主播的音频流中，从而使得接入该主播的观众端能够接收到，另外，也可以提供独立的卡麦用户的音频流，以推送到观众端进行拉取播放。

在一个实施例中，参考图14所示，图14是常规的连麦视频流互动系统框架图，如上述图示的互动玩法系统框架，两个主播之间可以通过虚线链路传递声音和图像，观众端通过实线链路订阅音视频，采集的视频数据即为主播的原始视频图像。

而本申请的实施例中，提供了一种新的连麦视频流互动系统架构，参考图15所示，图15是本申请的连麦视频流互动系统框架图；采集的视频数据为主播的原始视频图像+Alpha图像+特效信息。

对应的，直播服务器将连麦视频流推送至观众端时，通过获取连麦主播在所述虚拟同台场景上进行互动直播产生的连麦视频图像以及互动特效；将所述连麦视频图像以及互动特效进行编码成连麦视频流；将所述连麦视频流推送到CDN(Content DeliveryNetwork，内容分发网络)网络，分发至观众端。

综上实施例，由主播端向直播服务器上传连麦主播的视频流信息，直播服务器从视频流信息中抠出连麦主播的人像图像，再将连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，最后基于虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端；对于主播端的执行方法，详细实施例可以参考前面实施例阐述。

下面阐述网络直播的连麦互动装置的实施例。

参考图16所示，图16是一个实施例的网络直播的连麦互动装置的结构示意图，应用于主播端，包括：

连麦模块11，用于建立当前主播端与其他主播端的直播连麦；

编码模块12，用于获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息；

上传模块13，用于将连麦主播的视频流信息上传至直播服务器；其中，直播服务器从视频流信息中抠出连麦主播的人像图像，将至少两个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，并基于虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端。

参考图17所示，图17是另一个实施例的网络直播的连麦互动装置的结构示意图，应用于直播服务器，包括：

接收模块21，用于接收至少两个主播端上传的连麦主播的视频流信息；其中，所述视频流信息包括连麦主播的原始视频图像及其人像抠图信息；

抠图模块22，用于根据所述视频流信息中的人像抠图信息从原始视频图像中抠出连麦主播的人像图像；

合成模块23，用于将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景；

直播模块24，用于基于虚拟同台场景进行连麦主播的直播连麦互动，并生成连麦视频流推送至观众端。

本实施例的网络直播的连麦互动装置可执行本申请的实施例所提供的一种网络直播的连麦互动方法，其实现原理相类似，本申请各实施例中的网络直播的连麦互动装置中的各模块所执行的动作是与本申请各实施例中的网络直播的连麦互动方法中的步骤相对应的，对于网络直播的连麦互动装置的各模块的详细功能描述具体可以参见前文中所示的对应的网络直播的连麦互动方法中的描述，此处不再赘述。

下面阐述直播系统的实施例。

本申请的直播系统，包括至少两个参与直播连麦的主播端，以及与主播端连接的直播服务器，其中，直播服务器连接观众端；作为实施例，主播端被配置为执行上述任意实施例的网络直播的连麦互动方法；直播服务器被配置为执行上述任意实施例的网络直播的连麦互动方法。

为了便于更加详细体现本申请的直播系统的技术方案，下面结合若干示例进行实施例描述。

参考图18，图18是一个示例的直播系统结构示意图，如图所示，主播端包括开播工具和客户端，其中，开播工具集成了虚拟摄像头，具备美颜、抠图等各种功能，客户端是基于语音及视频直播的软件客户端。直播中可以提供多种类型(娱乐/交友/约战/游戏/教育等)的直播模板，本示例中，通过面向秀场直播的娱乐模板来实现虚拟同台连麦直播，下面是以主播端A和主播端B为例进行示例描述。

一、在主播端，主要实现如下功能：

1、实现主播视频采集、转换、编码传输等功能；

开播工具负责进行摄像头采集，将主播的单色背景进行抠图提取人像数据，输出带Alpha通道的视频数据；对于开播工具的处理流程，参考图19所示，图19是一个示例的开播流程示意图；如图示，当摄像头采集到原始视频图像数据之后，开播工具主要是进行两个阶段的工作，阶段Ⅰ：对原始视频图像进行美颜、磨皮、瘦脸等美颜功能处理；阶段Ⅱ：对原始视频图像进行抠图处理，在此过程中，包括对原始视频图像进行抠图和提取行为数据(如胳膊动作、手势、身体的整个轮廓等数据)得到Alpha图像数据，使用YUV格式进行存储；客户端收到开播工具输出的带Alpha图像的视频帧数据，将视频帧数据的原始视频图像及Alpha图像进行横向拼接得到YUVA视频传输格式的主播视频传输图像，并基于常规的YUV的视频帧格式进行封装及传输；具体来说，即把YUV视频帧数据经过编码后与图像相关信息(使用SEI信息传递，由于图像信息和附带信息具有相关性，所以一同传递)打包在同一个传输的视频帧中，上传的视频帧数据包括了图像信息和图像相关信息两部分，图像相关信息包括AI关键点信息，人脸、手势和头部等关键点信息，开播特效信息，玩法礼物信息，以及其他信息等等。

2、实现发起连麦、本地合成虚拟同台场景等功能；

(1)主播A与主播B通过直播服务器进行连麦，并选定虚拟背景素材作为连麦的背景图像(背景图像的类型包括静态图片、动态视频等)，主播在此过程中，可以根据需求来选定背景图像，如图20所示，图20是一个示例的选择背景图像界面示意图，主播可以在界面面板上选择喜好的背景图像，并可以在客户端界面上进行实时预览，图中右图是单色背景实时图像，左图是替换了背景图像合成预览视图，右侧为功能区，主播可以进行根据面板提供功能进行使用。

(2)主播A在向主播B发起连麦时，将选定的虚拟背景素材以URL的形式带在视频流信息中进行编码；直播服务器接收到视频流信息后，转发给主播B，因此直播服务器和主播B通过视频流信息可以获取到虚拟背景素材的URL，由此可以获得背景图像。

(3)在一些场景中，设置鉴权和设备能力检测环节，因此，主播A与主播B需要完成连麦鉴权、设备能力检测等环节之后，执行如下处理：

a、主播A、主播B分别将本地采集及封装后的YUVA格式视频数据推送至直播服务器。

b、主播A、主播B分别下载背景图像，并绘制到合成虚拟同台场景的视频区域，如果虚拟背景是动态视频，则逐帧解析动态视频并将每帧视频画面按时序绘制到视频区域。

c、主播A、主播B分别将本地采集及封装后的YUVA格式视频数据，基于特定的AI算法进行合成，生成只有人像图像部分的透明视频帧。

(4)主播A、主播B将自身的人像图像与背景图像进行合成，在合成过程中，按照设定的层叠关系和图像参数进行渲染，背景图像渲染为最底层；具体来说，接收直播服务器转发的对方的视频流信息；对接收到的视频流信息进行解码可以得到YUV图像数据和SEI信息；通过对SEI进行解码得到图像相关信息，利用图像相关信息对虚拟礼物、特效内容、人物动作进行合成生成合成图像渲染在主播端的客户端界面上。

3、实现主播端美颜、虚拟特效处理功能；

主播A、主播B开播前配置的美颜信息、直播过程中收到的虚拟礼物特效，其中，美颜信息直接在视频采集环节带入到原始视频图像中，虚拟礼物特效转换成可传输的数据(视频帧数据里的SEI数据)进行传输到直播服务器。参考图21所示，图21是特效来源示意图，如图中所示，特效Ⅰ是美颜、磨皮、瘦脸、变脸、戴墨镜等等，特效Ⅱ是直播送礼部分，这两部分的特效在开播工具和客户端中添加到视频流信息中。参考图22，图22是一个示例的特效Ⅰ示意图，上图中所示是添加了脸部变形特效，下图中所示是添加了虚拟墨镜特效。

在特效处理过程中，特效与图像分离，客户端允许绿色特效，可以接入更多的特效，各环节的特效都可以统一展示出来，不会因为抠图影响特效展示，比如有一个特效是绿色与绿幕背景颜色一致的特效也不会被扣掉；在渲染特效时，与直播服务器进行抠图和合成虚拟同台场景的同时，在客户端上也进行相同操作，对基于抠图合成的虚拟同台场景进行实时人脸点、背景图像等信息进行换算后再次进行合成和渲染。

4、实现主播端图像自动调整功能；

当需要调整主播图像在虚拟同台场景中的图像大小时，主播端接收直播服务器下发的调整参数，依据调整参数对主播端的摄像头进行调整或者抠图处理调整，以实现相应的图像大小调整。

二、在直播服务器，主要实现如下功能：

1、实现转发主播的视频流信息功能；

直播服务器将主播端A的视频流信息转发给主播端B，从而使得主播端B可以在本地合成虚拟同台场景，同理，直播服务器将主播端B的视频流信息转发给主播端A，从而使得主播端A可以在本地合成虚拟同台场景；该合成方案，可以避免网络延时，提升主播端本地的开播体验。

2、实现在服务端合成虚拟同台场景和推流给观众端功能；

(1)直播服务器合成虚拟同台场景，面向所有观众端，观众端机器千差万别，由直播服务器统一合成及输出，可保证所有观众端效果的一致性。

(2)直播服务器的合成流程与主播端合成流程基本相同，区别在于：直播服务器的原始视频数据来源于主播端本地推送的YUVA视频数据，直播服务器合成的背景图像来源于主播A带在视频流信息中的背景图像URL。

(3)直播服务器将连麦的主播A、主播B两路人像图像合成虚拟同台场景，并在虚拟互动中输出连麦视频流数据，在合成过程中，各路视频流数据均按照视频区域的完整区域进行渲染，主播A、主播B的人像图像按照两者的层级优先级关系进行渲染。

如图23，图23是一个示例的层级优先级关系示意图，在合成虚拟同台场景时，来源于主播A的人像图像优先级高于主播B的人像图像，因此，主播A的人像图像位于主播B的人像图像的上层。

(4)实现人像图像校正适配功能；

直播服务器根据连麦直播互动过程中主播的位置变化来自动调整图像大小，使得主播A和主播B在同一个虚拟同台场景中的大小更加匹配融合，避免出现大小不一致的情况；另外，还可以根据主播A的人脸视角去调整主播B的人脸视角，避免两者视角不对应现象。通过上述调整功能，连麦直播中对主播要求低，直播服务器可以归一化各主播的人脸大小、身体大小，达到无论人物和镜头距离多远，都可以产生相同大小人物的功能，由此，主播在直播时可以在绿幕背景前自由活动，提升连麦直播效果。

3、实现虚拟特效内容渲染功能；

(1)主播A和主播B各自在连麦过程需要展示的虚拟礼物特效，根据AI关键点信息进行换算得到虚拟特效内容的渲染位置，然后在虚拟同台场景中进行渲染。

(2)在虚拟同台场景中进行的连麦互动所产生的联合虚拟礼物特效，如图24所示，图24是联合虚拟礼物特效示意图，这部分特效根据设定位置在虚拟同台场景上进行渲染，并生成连麦视频流推送到观众端。

综合上述直播服务器实现功能流程可以如下：

接收主播A和主播B双发的视频流信息，进行解码得到YUV图像数据和SEI信息，通过对SEI进行解码得到图像相关信息；根据双方的时间戳把人像图像进行对齐，并根据特效的类型进行合成；对于合成过程，首先拉取特效用到的各种素材，准备合成；然后将主播A和主播B的人像图像渲染到背景图像中；同时，对于带时间戳的特效、礼物，按时间戳对齐后渲染到相应的主播的画面中；最后，将与事件无关的特效则和对应的帧一起渲染到图像中，输出一张合成后的虚拟同台场景的图像；把合成后的图像进行编码推流到CDN分发网络，发送给各个观众端。

三、在观众端，主要实现如下功能：

(1)对于普通观众，通过观众端可以接收直播服务器推送的连麦视频流，在观众端设备上进行播放音视频数据；如图25所示，图25是一个示例的连麦互动示意图，图中所述是主播A和主播B两个主播在虚拟同台场景中进行互动的示意图。

(2)对于卡麦用户，由于有发言的诉求，通过卡麦客户端建立与直播服务器的连接，下载主播A和主播B的视频流信息，在本地进行预览，同时上传卡麦用户的音频流，由直播服务器添加到连麦视频流当中，推送给观众端。

本申请提供一种计算机设备的技术方案，用以实现网络直播的连麦互动方法相关功能。

在一个实施例中，本申请提供一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于任意实施例的的网络直播的连麦互动方法。

如图26所示，图26是一示例的计算机设备的框图。该计算机设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。参照图26，装置2600可以包括以下一个或多个组件：处理组件2602，存储器2604，电力组件2606，多媒体组件2608，音频组件2610，输入/输出(I/O)的接口2612，传感器组件2614，以及通信组件2616。

处理组件2602通常控制装置2600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。

存储器2604被配置为存储各种类型的数据以支持在设备2600的操作。如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件2606为装置2600的各种组件提供电力。

多媒体组件26026包括在装置2600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。在一些实施例中，多媒体组件2608包括一个前置摄像头和/或后置摄像头。

音频组件2610被配置为输出和/或输入音频信号。

I/O接口2612为处理组件2602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件2614包括一个或多个传感器，用于为装置2600提供各个方面的状态评估。传感器组件2614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。

通信组件2616被配置为便于装置2600和其他设备之间有线或无线方式的通信。装置2600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。

本申请提供一种计算机可读存储介质的技术方案，用以实现网络直播的连麦互动方法相关功能。该计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行任意实施例的网络直播的连麦互动方法。

在示例性实施例中，计算机可读存储介质可以是一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种网络直播的连麦互动方法，应用于连麦主播端，其特征在于，包括：

建立当前主播端与其他主播端的直播连麦；

将所述连麦主播的视频流信息上传至直播服务器；

2.根据权利要求1所述的网络直播的连麦互动方法，其特征在于，所述建立当前主播端与其他主播端的直播连麦，包括：

3.根据权利要求1所述的网络直播的连麦互动方法，其特征在于，所述获取连麦主播的原始视频图像及其人像抠图信息，并生成连麦主播的视频流信息，包括：

采集当前主播端的连麦主播的原始视频图像；

4.根据权利要求3所述的网络直播的连麦互动方法，其特征在于，还包括：对所述原始视频图像进行AI识别得到连麦主播的AI关键点信息；

5.根据权利要求4所述的网络直播的连麦互动方法，其特征在于，还包括：

6.根据权利要求4所述的网络直播的连麦互动方法，其特征在于，还包括：

接收所述直播服务器下发的调整参数；

7.一种网络直播的连麦互动装置，应用于连麦主播端，其特征在于，包括：

连麦模块，用于建立当前主播端与其他主播端的直播连麦；

8.一种网络直播的连麦互动方法，应用于直播服务器，其特征在于，包括：

9.根据权利要求8所述的网络直播的连麦互动方法，其特征在于，所述视频流信息包括：主播视频传输图像、AI关键点信息和特效信息；其中，所述主播视频传输图像包括连麦主播的原始视频图像及Alpha图像；

10.根据权利要求9所述的网络直播的连麦互动方法，其特征在于，所述生成连麦视频流推送至观众端，包括：

将所述连麦视频图像以及互动特效进行编码成连麦视频流；

将所述连麦视频流推送到CDN分发网络，分发至观众端。

11.根据权利要求8所述的网络直播的连麦互动方法，其特征在于，所述基于所述虚拟同台场景进行所述连麦主播的直播连麦互动，包括：

12.根据权利要求8所述的网络直播的连麦互动方法，其特征在于，所述基于所述虚拟同台场景进行所述连麦主播的直播连麦互动，包括：

13.根据权利要求8所述的网络直播的连麦互动方法，其特征在于，还包括：

从所述视频流信息中提取连麦主播的语音数据；

14.根据权利要求8所述的网络直播的连麦互动方法，其特征在于，还包括：

接收卡麦客户端发送的卡麦用户的卡麦请求；

15.根据权利要求8所述的网络直播的连麦互动方法，其特征在于，所述将各个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，包括：

获取各个连麦主播的人像图像之间的层叠关系和图像参数；

16.一种网络直播的连麦互动装置，应用于直播服务器，其特征在于，包括：

17.一种直播系统，其特征在于，包括至少两个参与直播连麦的主播端，以及与所述主播端连接的直播服务器，其中，所述直播服务器连接观众端；

所述主播端被配置为执行权利要求1-6任一项所述的网络直播的连麦互动方法；

所述直播服务器被配置为执行权利要求8-15任一项所述的网络直播的连麦互动方法。

18.一种计算机设备，其特征在于，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-6或8-15任一项所述的网络直播的连麦互动方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行权利要求1-6或8-15任一项所述的网络直播的连麦互动方法。