CN112511850B

CN112511850B - 连麦方法、直播显示方法、装置、设备及存储介质

Info

Publication number: CN112511850B
Application number: CN202011307652.1A
Authority: CN
Inventors: 肖定坤
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2023-08-08
Anticipated expiration: 2040-11-20
Also published as: CN112511850A

Abstract

本申请公开了一种连麦方法、直播显示方法、装置、设备及存储介质，属于直播技术领域。所述方法包括：根据第一主播账号的直播流确定第一主播账号的直播表演类型，第一主播账号处于直播状态；响应于第一主播账号的连麦请求，确定与第一主播账号匹配的第二主播账号，第二主播账号和第一主播账号属于相同的直播表演类型，第二主播账号处于直播状态；向第一主播账号推荐第二主播账号进行连麦。该直播表演类型能够反映主播用户在直播期间的表演行为的类型。即能够为第一主播账号推荐表演内容相关的主播账号进行连麦，提升了确定连麦主播的准确度。

Description

连麦方法、直播显示方法、装置、设备及存储介质

技术领域

本申请涉及直播技术领域，特别涉及一种连麦方法、直播显示方法、装置、设备及存储介质。

背景技术

直播平台除了提供单一主播账号进行直播的功能，还会提供不同的主播账号之间进行连麦的功能。例如通过连麦的方式，让登录不同主播账号的主播进行才艺PK(PlayerKilling)。

目前，在对不同主播账号进行连麦时，服务器通常为发起连麦请求的第一主播账号，与服务器随机确定的第二主播账号建立连麦。从而实现让登录不同主播账号的主播进行才艺PK。

采用上述方法进行连麦的两个主播账号，存在直播表演内容的类型不相同的可能。例如一个为唱歌主播的账号，另一个为舞蹈主播的账号。即可能出现两个表演内容不相关的主播进行连麦的情况，确定连麦主播的准确度较低。

发明内容

本申请提供了一种连麦方法、直播显示方法、装置、设备及存储介质，可以提升确定连麦主播的准确度。所述技术方案如下：

根据本申请的一方面，提供了一种连麦方法，所述方法包括：

根据第一主播账号的直播流确定所述第一主播账号的直播表演类型，所述第一主播账号处于直播状态；

响应于所述第一主播账号的连麦请求，确定与所述第一主播账号匹配的第二主播账号，所述第二主播账号和所述第一主播账号属于相同的所述直播表演类型，所述第二主播账号处于直播状态；

向所述第一主播账号推荐所述第二主播账号进行连麦。

根据本申请的另一方面，提供了一种直播显示方法，所述方法包括：

显示第一主播账号的直播界面；

响应于所述第一主播账号的连麦请求，显示第二主播账号，所述第二主播账号是服务器根据所述第一主播账号的直播表演类型确定的，所述第一主播账号的直播表演类型是所述服务器根据所述第一主播账号的直播流确定的，所述第二主播账号和所述第一主播账号属于相同的所述直播表演类型；

显示所述第一主播账号与所述第二主播账号的连麦界面。

根据本申请的另一方面，提供了一种连麦装置，所述装置包括：

第一确定模块，用于根据第一主播账号的直播流确定所述第一主播账号的直播表演类型，所述第一主播账号处于直播状态；

第二确定模块，用于响应于所述第一主播账号的连麦请求，确定与所述第一主播账号匹配的第二主播账号，所述第二主播账号和所述第一主播账号属于相同的所述直播表演类型，所述第二主播账号处于直播状态；

推荐模块，用于向所述第一主播账号推荐所述第二主播账号进行连麦。

可选地，所述第一确定模块，用于：

获取所述第一主播账号的直播流；

调用行为识别模型对所述直播流进行预测，得到所述直播表演类型，所述行为识别模型是通过表演样本集训练得到的神经网络模型，所述表演样本集包括表演样本视频以及所述表演样本视频对应的表演类型。

可选地，所述行为识别模型包括舞蹈行为识别模型、乐器演奏行为识别模型以及演唱行为识别模型中的至少一种；所述第一确定模块，用于：

调用所述舞蹈行为识别模型、所述乐器演奏行为识别模型以及所述演唱行为识别模型中的至少一种，对所述直播流进行预测。

可选地，所述乐器演奏行为识别模型包括音频分类模型、乐器识别模型以及演奏行为识别模型；所述第一确定模块，用于：

调用所述音频分类模型对所述直播流的音频帧进行预测，得到第一预测乐器种类；

调用所述乐器识别模型对所述直播流的视频帧进行预测，得到第二预测乐器种类；

调用所述演奏行为识别模型对所述直播流的视频帧进行预测，得到预测演奏行为，所述预测演奏行为用于反映所述第一主播账号直播过程中存在乐器演奏行为以及所述乐器演奏行为演奏的乐器种类；

根据所述第一预测乐器种类、所述第二预测乐器种类以及所述预测演奏行为，确定所述直播表演类型。

可选地，所述乐器演奏行为识别模型还包括演奏行为决策模型；所述第一确定模块，用于：

调用所述演奏行为决策模型根据所述第一预测乐器种类、所述第二预测乐器种类以及所述预测演奏行为，确定所述直播表演类型。

可选地，所述舞蹈行为识别模型包括第一舞蹈行为识别模型以及第二舞蹈行为识别模型；所述第一确定模块，包括：

处理模块，用于对所述直播流的视频帧进行处理，得到所述视频帧对应的光流图；

所述第一确定模块，用于调用所述第一舞蹈行为识别模型对所述视频帧进行预测，得到第一预测舞蹈行为概率；

所述第一确定模块，用于调用所述第二舞蹈行为识别模型对所述光流图进行预测，得到第二预测舞蹈行为概率；

所述第一确定模块，用于根据所述第一预测舞蹈行为概率以及所述第二预测舞蹈行为概率确定所述直播表演类型。

可选地，所述演唱行为识别模型包括第一演唱行为识别模型以及第二演唱行为识别模型；所述处理模块，还用于对所述直播流的视频帧进行处理，得到所述视频帧对应的光流图；

所述第一确定模块，用于调用所述第一演唱行为识别模型对所述视频帧进行预测，得到第一预测演唱行为概率；

所述第一确定模块，用于调用所述第二演唱行为识别模型对所述光流图进行预测，得到第二预测演唱行为概率；

所述第一确定模块，用于根据所述第一预测演唱行为概率以及所述第二预测演唱行为概率确定所述直播表演类型。

可选地，所述装置还包括：

所述第一确定模块，用于根据多个主播账号的直播流确定所述多个主播账号的直播表演类型；

第三确定模块，用于根据属于相同直播表演类型的主播账号确定主播账号集合；

所述第二确定模块，用于：

响应于所述第一主播账号的连麦请求，确定目标主播账号集合，所述目标主播账号集合中的主播账号和所述第一主播账号属于相同的所述直播表演类型；

从所述目标主播账号集合中随机确定随机主播账号作为所述第二主播账号。

可选地，所述装置还包括：

发送模块，用于响应于所述第一主播账号与所述第二主播账号建立连麦，根据所述直播表演类型，向所述第一主播账号以及所述第二主播账号发送表演比赛多媒体。

可选地，所述装置还包括：

第四确定模块，用于响应于所述第一主播账号完成所述表演比赛多媒体的表演，根据所述第一主播账号表演所述表演比赛多媒体期间的第一礼物赠送信息、第一评论信息以及第一观众数量中的至少一种，确定第一评分；

第五确定模块，用于响应于所述第二主播账号完成所述表演比赛多媒体的表演，根据所述第二主播账号表演所述表演比赛多媒体期间的第二礼物赠送信息、第二评论信息以及第二观众数量中的至少一种，确定第二评分；

所述发送模块，用于向所述第一主播账号发送所述第一评分，以及向所述第二主播账号发送所述第二评分。

根据本申请的另一方面，提供了一种直播显示装置，所述装置包括：

显示模块，用于显示第一主播账号的直播界面；

所述显示模块，用于响应于所述第一主播账号的连麦请求，显示所述第一主播账号与第二主播账号的连麦界面，所述第二主播账号是服务器根据所述第一主播账号的直播表演类型确定的，所述第一主播账号的直播表演类型是所述服务器根据所述第一主播账号的直播流确定的，所述第二主播账号和所述第一主播账号属于相同的所述直播表演类型。

可选地，所述显示模块，用于：

在所述连麦界面中显示所述第二主播账号以及所述直播表演类型。

可选地，所述显示模块，用于：

在所述连麦界面显示表演比赛多媒体，所述表演比赛多媒体是所述服务器根据所述直播表演类型确定的；

响应于所述第一主播账号完成所述表演比赛多媒体的表演，显示第一评分。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的连麦方法或直播显示方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如上方面所述的连麦方法或直播显示方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的连麦方法或直播显示方法。

本申请提供的技术方案带来的有益效果至少包括：

通过向第一主播账号推荐第二主播账号进行连麦，该第二主播账号与第一主播账号的直播表演类型相同，该直播表演类型能够反映主播用户在直播期间的表演行为的类型。即能够为第一主播账号推荐表演内容相关的主播账号进行连麦，提升了确定连麦主播的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示意性实施例提供的一种连麦系统的结构示意图；

图2是本申请实施例提供的主播连麦的实现原理的示意图；

图3是本申请实施例提供的一种连麦方法的流程示意图；

图4是本申请实施例提供的一种直播显示方法的流程示意图；

图5是本申请实施例提供的第一主播账号的直播界面的示意图；

图6是本申请实施例提供的第一主播账号与第二主播账号的连麦界面的示意图；

图7是本申请实施例提供的另一种连麦方法的流程示意图；

图8是本申请实施例提供的观众客户端显示的主播列表的示意图；

图9是本申请实施例提供的预测第一主播账号的直播表演类型的实现过程的示意图；

图10是本申请实施例提供的一种连麦装置的结构示意图；

图11是本申请实施例提供的一种第一确定模块的结构示意图；

图12是本申请实施例提供的另一种连麦装置的结构示意图；

图13是本申请实施例提供的又一种连麦装置的结构示意图；

图14是本申请实施例提供的再一种连麦装置的结构示意图；

图15是本申请实施例提供的一种直播显示装置的结构示意图；

图16是本申请实施例提供的一种服务器的结构示意图；

图17是本申请实施例提供的一种终端的结构示意图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请一个示意性实施例提供的一种连麦系统的结构示意图，如图1所示，该连麦系统10中包括：服务器110、第一终端120和至少一个第二终端130。

可选地，服务器110为一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心中的虚拟服务器等等，在此不做限定。第一终端110为智能手机、平板电脑、台式电脑和笔记本电脑等。第二终端130为智能手机、平板电脑、台式电脑和笔记本电脑等。可选地，服务器110和第一终端120之间通过有线网络或无线网络建立连接，服务器110和第二终端130之间通过有线网络或无线网络建立连接。

需要说明的是，第一终端120上安装有第一主播客户端，第一终端120通过第一主播客户端与服务器110连接，该服务器110为第一主播客户端对应的服务器。第一主播客户端可以是具有直播连麦功能的应用程序或者网页客户端。第一主播客户端为个人计算机(Personal Computer，PC)上的客户端、移动终端上的客户端以及小程序等。该应用程序可以是音乐程序、直播程序、短视频程序、交友程序、K歌程序以及婚恋程序中的任意一种。在本实施例中，以该应用程序是直播程序来举例说明。

第二终端130上安装有第二主播客户端，第二终端130通过第二主播客户端与服务器110连接，该服务器110为第二主播客户端对应的服务器。第二主播客户端可以是具有直播连麦功能的应用程序或者网页客户端。第二主播客户端为个人计算机(PersonalComputer，PC)上的客户端、移动终端上的客户端以及小程序等。该应用程序可以是音乐程序、直播程序、短视频程序、交友程序、K歌程序以及婚恋程序中的任意一种。在本实施例中，以该应用程序是直播程序来举例说明。

可选地，第一终端120上的第一主播客户端和第二终端130上的第二主播客户端是相同的。第一主播客户端与第二主播客户端为同一客户端的不同版本。第一主播客户端与第二主播客户端是不同操作系统平台(例如安卓或IOS)上的同一类型的客户端。或者，第一主播客户端与第二主播客户端是同一用户账号体系下的不同类型的客户端。

图2是本申请实施例提供的主播连麦的实现原理的示意图。如图2所示，当第一主播账号201发起连麦请求时，服务器202根据第一主播账号201的直播流，调用行为识别模型203预测第一主播账号的直播表演类型204。可选地，该行为识别模型包括舞蹈行为识别模型、乐器演奏行为识别模型以及演唱行为识别模型中的至少一种。之后服务器从主播账号集合205中的主播账号中，随机确定出第二主播账号206，并推荐给第一主播账号201建立连麦。该主播账号集合205中的主播账号的直播表演类型与第一主播账号201的直播表演类型204相同。可选地，服务器202在为第一主播账号201和第二主播账号206建立连麦后，还会根据直播表演类型204，向第一主播账号201以及第二主播账号206发送表演比赛多媒体。之后服务器202根据第一主播账号201表演该表演比赛多媒体期间的第一礼物赠送信息、第一评论信息以及第一观众数量中的至少一种，确定第一评分并发送至第一主播账号201。以及，根据第二主播账号206表演该表演比赛多媒体期间的第二礼物赠送信息、第二评论信息以及第二观众数量中的至少一种，确定第二评分并发送至第二主播账号206。服务器202还会根据第一评分与第二评分的大小关系，向第一主播账号201以及第二主播账号206发放虚拟奖励。

与第一主播账号201建立连麦关系的第二主播账号206，与第一主播账号201的直播表演类型204相同，该直播表演类型204能够反映主播用户在直播期间的表演行为的类型。即能够为第一主播账号201推荐表演内容相关的主播账号建立连麦，提升了确定连麦主播的准确度。另外，根据直播表演类型204确定表演比赛多媒体，并对第一主播账号201以及第二主播账号206表演该表演比赛多媒体进行评分，提供了一种能够提升用户体验，且具有趣味性的主播之间互动PK的玩法。该表演比赛多媒体可以是连麦时的背景音乐、舞蹈背景以及虚拟弹奏乐器等。

图3是本申请实施例提供的一种连麦方法的流程示意图。该方法可以用于如图1所示的系统中的服务器。如图3所示，该方法包括：

步骤301：根据第一主播账号的直播流确定第一主播账号的直播表演类型。

该第一主播账号为服务器中的任一主播账号。第一主播账号处于直播状态，即登录第一主播账号的主播用户正在进行直播。该直播表演类型用于反映该主播用户在直播期间的表演行为的类型，例如包括舞蹈、演唱以及乐器演奏。

可选地，服务器获取第一主播账号的直播流，并调用行为识别模型对该直播流进行预测，得到该第一主播账号的直播表演类型。该行为类型识别模型是通过表演样本集训练得到的神经网络模型(Neural Networks)，表演样本集包括表演样本视频以及表演样本视频对应的表演类型。例如该表演样本集包括舞蹈表演视频、演唱表演视频以及乐器演奏表演视频。

另外，服务器还能够根据第一主播账号设置的直播表演类型，确定该第一主播账号的直播表演类型。根据观众账号为第一主播账号设置的直播表演类型，确定该第一主播账号的直播表演类型。根据第一主播账号的直播间的管理员账号为第一主播账号设置的直播表演类型，确定该第一主播账号的直播表演类型。以及，根据直播平台的管理员为第一主播账号设置的直播表演类型，确定该第一主播账号的直播表演类型。

当第一主播账号开始直播，会触发服务器确定第一主播账号的直播表演类型。在第一主播账号直播的过程中，服务器周期性地确定第一主播账号的直播表演类型。或者，当服务器接收到第一主播账号的连麦请求时，确定第一主播账号的直播表演类型。

步骤302：响应于第一主播账号的连麦请求，确定与第一主播账号匹配的第二主播账号。

该第二主播账号为服务器中的任一主播账号。该第二主播账号与第一主播账号不同。该第二主播账号处于直播状态。第二主播账号和第一主播账号属于相同的直播表演类型，即登录第一主播账号的主播用户与登录第二主播账号的主播用户，在直播期间的表演行为的类型相同。例如都在进行舞蹈表演、演唱表演以及乐器演奏表演。

可选地，服务器根据第一主播账号的直播表演类型，从具有相同直播表演类型的全部主播账号中，获取该第二主播账号。服务器确定第二主播账号的直播表演类型的方式，可参照服务器确定第一主播账号的直播表演类型的方式，本申请在此不作赘述。服务器可以优先将发起连麦请求的且表演类型一致的主播账号确定为第二主播账号。需要说明的是，服务器确定第二主播账号的直播表演类型的方式，与确定第一主播账号的直播表演类型的方式相同或不相同。

步骤303：向第一主播账号推荐第二主播账号进行连麦。

服务器还会向第二主播账号推荐第一主播账号进行连麦，从而实现为第一主播账号与第二主播账号建立连麦。可选地，服务器在向第一主播账号推荐第二主播账号进行连麦时，还需第一主播账号进行确认操作。以及，服务器在向第二主播账号推荐第一主播账号进行连麦时，还需第二主播账号进行确认操作。当第一主播账号与第二主播账号都进行确认操作后，服务器为第一主播账号与第二主播账号建立连麦。

或者，服务器可以在收到第一主播账号的连麦请求后，将发起连麦请求的且表演类型一致的主播账号确定为第二主播账号，同时不需要第一主播账号和第二主播账号进行额外的操作，而在匹配成功后自动将第一主播账号和第二主播账号连麦。

综上所述，本申请实施例提供的方法，向第一主播账号推荐第二主播账号进行连麦，该第二主播账号与第一主播账号的直播表演类型相同，该直播表演类型能够反映主播用户在直播期间的表演行为的类型。即能够为第一主播账号推荐表演内容相关的主播账号进行连麦，提升了确定连麦主播的准确度。

图4是本申请实施例提供的一种直播显示方法的流程示意图。该方法可以用于如图1所示的系统中的任一终端。如图4所示，该方法包括：

步骤401：显示第一主播账号的直播界面。

主播客户端显示的该直播界面，为在主播客户端登录第一主播账号的主播用户，提供直播的界面。该第一主播账号为服务器中的任一主播账号。

示例地，图5是本申请实施例提供的第一主播账号的直播界面的示意图。如图5所示，该直播界面501中显示有第一主播账号的账号名称502以及第一主播账号的直播画面503。该直播界面501中还显示有第一主播账号的直播间的弹幕信息504。

步骤402：响应于第一主播账号的连麦请求，显示第一主播账号与第二主播账号的连麦界面，第二主播账号是服务器根据第一主播账号的直播表演类型确定的。

该第二主播账号为服务器中的任一主播账号。该第二主播账号与第一主播账号不同。该第二主播账号处于直播状态。第一主播账号的直播界面中还显示有连麦控件，当主播客户端接收到对该连麦控件的触发操作时，确定接收到该连麦请求。或者，当主播客户端接收到连麦请求对应的语音指令时，确定接收到该连麦操作。例如该语音指令包括“开始连麦”、“我要连麦”以及“连麦”等。

可选地，主播客户端能够在第一主播账号的直播界面中显示第一主播账号以及第一主播账号的直播表演类型。例如显示第一主播账号的账号名称，并在该名称旁显示第一主播账号的直播表演类型。并且，主播客户端在显示第二主播账号时，还能够显示第二主播账号的直播表演类型。

该第一主播账号的直播表演类型是服务器根据第一主播账号的直播流确定的。即服务器根据第一主播账号的直播流能够确定第一主播账号的直播表演类型，从而获取到第二主播账号并发送至主播客户端。该第二主播账号和第一主播账号属于相同的直播表演类型，即登录第一主播账号的主播用户与登录第二主播账号的主播用户，在直播期间的表演行为的类型相同。例如都在进行舞蹈表演、演唱表演以及乐器演奏表演。服务器确定第一主播账号与第二主播账号的直播表演类型的实现过程可参照前述实施例，本申请在此不作赘述。

示例地，继续参照图5，直播界面501中还显示有连麦按钮505以及第一主播账号的直播表演类型标签506。显示的该直播表演类型标签506是主播客户端对应的服务器确定第一主播账号的直播表演类型后，向第一主播账号所在的主播客户端发送的。当主播客户端接收到针对连麦按钮505的单击操作时，确定接收到该第一主播账号的连麦请求。

该连麦界面中显示有第一主播账号的直播画面以及第二主播账号的直播画面。当主播客户端接收到服务器为第一主播账号与第二主播账号建立连麦关系后，会显示该连麦界面。

示例地，图6是本申请实施例提供的第一主播账号与第二主播账号的连麦界面的示意图。如图6所示，该连麦界面601中显示有第一主播账号的账号名称602、与第一主播账号连麦的第二主播账号的账号名称603。以及第一主播账号的直播画面604和第二主播账号的直播画面605。

综上所述，本申请实施例提供的方法，基于第一主播账号的连麦请求，显示第一主播账号与第二主播账号的连麦界面。该第二主播账号与第一主播账号的直播表演类型相同，该直播表演类型能够反映主播用户在直播期间的表演行为的类型。即能够为第一主播账号推荐表演内容相关的主播账号进行连麦，提升了确定连麦主播的准确度。

图7是本申请实施例提供的另一种连麦方法的流程示意图。该方法可以用于如图1所示的系统。如图7所示，该方法包括：

步骤701：主播客户端显示第一主播账号的直播界面。

该主播客户端中登录有第一主播账号，该第一主播账号处于直播状态。主播客户端显示的该直播界面，为在主播客户端登录第一主播账号的主播用户，提供直播的界面。该第一主播账号为服务器中的任一主播账号。

步骤702：服务器根据第一主播账号的直播流确定第一主播账号的直播表演类型。

该直播表演类型用于反映登录第一主播账号的主播用户在直播期间的表演行为的类型，例如包括舞蹈、演唱以及乐器演奏。该直播流为第一主播账号直播时实时产生的直播流，或者为第一主播账号过去目标时间段内的直播流。例如为过去3分钟内的直播流。可选地，服务器在确定第一主播账号的直播表演类型后，还会将第一主播账号的直播表演类型发送至登录该第一主播账号的主播客户端，使得主播客户端能够在直播界面中显示第一主播账号以及该直播表演类型。

服务器在确定服务器中的主播账号的直播表演类型后，还会根据主播账号的直播表演类型对服务器中的全部主播账号进行分类，并将主播账号以及主播账号所属的分类发送至观众客户端进行显示。该观众客户端用于观看服务器中的主播账号提供的直播，该观众客户端与服务器通过有线或无线的方式建立连接。示例地，图8是本申请实施例提供的观众客户端显示的主播列表的示意图。如图8所示，在主播列表界面801中，显示有搜索框802，用于搜索观众喜爱的主播账号。该主播列表界面801按照主播账号所属的类型803，分类展示主播账号对应的封面804。例如该直播表演类型803包括舞蹈、歌手、乐器以及其他。该类型803是服务器根据服务器中的主播账号的直播表演类型确定的。

服务器获取第一主播账号的直播流，并调用行为识别模型对直播流进行预测，从而得到第一主播账号的直播表演类型。该行为识别模型是通过表演样本集训练得到的神经网络模型，该表演样本集包括表演样本视频以及表演样本视频对应的表演类型。例如包括舞蹈表演视频、演唱表演视频以及乐器演奏表演视频。可选地，服务器通过同一个行为识别模型，预测出全部直播表演类型。或者，服务器通过不同的行为识别模型，预测出全部直播表演类型。其中，每个行为识别模型用于预测至少一种直播表演类型。

可选地，行为识别模型包括舞蹈行为识别模型、乐器演奏行为识别模型以及演唱行为识别模型中的至少一种。如图9所示，步骤702的实现过程包括以下步骤7021：

在步骤7021中，调用舞蹈行为识别模型、乐器演奏行为识别模型以及演唱行为识别模型中的至少一种，对直播流进行预测。

其中，该舞蹈行为识别模型用于预测直播流属于舞蹈表演类型，该乐器演奏行为识别模型用于预测直播流属于乐器演奏表演类型，该演唱行为识别模型用于预测直播流属于演唱表演类型。该舞蹈行为识别模型是通过舞蹈表演视频训练得到的，该乐器演奏行为识别模型是通过乐器演奏表演视频训练得到的，该演唱行为识别模型是通过演唱表演视频训练得到的。可选地，该舞蹈行为识别模型、乐器演奏行为识别模型以及演唱行为识别模型基于卷积神经网络(Convolutional Neural Networks，CNN)。

可选地，该乐器演奏行为识别模型包括音频分类模型、乐器识别模型以及演奏行为识别模型。服务器调用音频分类模型对直播流的音频帧进行预测，得到第一预测乐器种类。调用乐器识别模型对直播流的视频帧进行预测，得到第二预测乐器种类。以及，调用演奏行为识别模型对直播流的视频帧进行预测，得到预测演奏行为。可选地，该被用于音频分类模型进行预测的音频帧包括直播流的全部音频帧。该被用于乐器识别模型进行预测的视频帧包括直播流的任一视频帧。该被用于演奏行为识别模型进行预测的视频帧包括直播流的至少一帧视频帧组成的视频帧序列。该第一预测乐器种类用于反映音频帧对应的声音是第一种类的乐器发出的。该第二预测乐器种类用于反映视频帧对应的图像中出现第二种类的乐器。该预测演奏行为用于反映第一主播账号直播过程中存在乐器演奏行为以及乐器演奏行为演奏的乐器种类。之后服务器根据第一预测乐器种类、第二预测乐器种类以及预测演奏行为，确定直播表演类型。可选地，该乐器演奏行为识别模型还包括演奏行为决策模型。服务器能够调用演奏行为决策模型根据第一预测乐器种类、第二预测乐器种类以及预测演奏行为，确定直播表演类型。

需要说明的是，上述乐器演奏行为识别模型是通过以下方式训练得到的：

服务器获取包括不同种类的乐器演奏视频的训练数据集，并按照乐器演奏视频在训练数据集中的排列顺序，分别提取该训练数据集中的每个乐器演奏视频的音频、视频帧、以及视频帧序列。例如提取每个乐器演奏视频中在时间序列上居中的视频帧，以目标时长的间隔从每个乐器演奏视频中提取视频帧序列。该目标时长为0.3秒。从而得到音频数据集α＝{α₁，...，α_i}，视频帧数据集β＝{β₁，...，β_i}以及视频帧序列数据集其中，i＝n，n为训练数据集中乐器演奏视频的数量。并且，服务器通过乐器类型数据集y＝{y₁，...，y_i}，表示音频数据集、视频帧数据集以及视频帧序列数据集中的第i项数据对应的乐器种类。该乐器种类是根据乐器演奏视频中演奏的乐器种类确定的。

服务器通过音频数据集以及对应的乐器类型数据集训练音频分类模型。其中，音频分类模型预测音频数据集中的第i个音频α_i，对应的乐器种类为第c类(例如第1类是小提琴、第2类是吉他、第3类是竖笛、第4类是钢琴等)的概率所组成的集合Pα_i满足：

其中，f₁( )为音频分类模型，具体为一维卷积神经网络。k≤C。可选地，服务器将概率最大的乐器种类，作为α_i对应的乐器种类，即第一预测乐器种类。并且，服务器在通过音频分类模型预测音频帧对应的第一预测乐器种类时，还能够预测该第一预测乐器种类对应的概率。

服务器通过视频帧数据集以及对应的乐器类型数据集训练乐器识别模型。其中，乐器识别模型预测视频帧数据集中的第i个视频帧β_i，对应的乐器种类为第c类的概率所组成的集合Pβ_i满足：

其中，f₂( )为乐器识别模型，具体为二维卷积神经网络。可选地，服务器将概率最大的乐器种类，作为β_i对应的乐器种类，即第二预测乐器种类。并且，服务器在通过乐器识别模型预测视频帧对应的第二预测乐器种类时，还能够预测该第二预测乐器种类对应的概率。

服务器通过视频帧序列数据集以及对应的乐器类型数据集训练演奏行为识别模型。其中，演奏行为识别模型预测视频帧序列数据集中的第i个视频帧序列反映出的乐器演奏行为演奏的乐器种类为第c类的概率/>所组成的集合/>满足：

其中，f₃( )为演奏行为识别模型，具体为三维卷积神经网络。可选地，服务器根据概率最大的乐器种类，确定对应的预测演奏行为。并且，服务器在通过演奏行为识别模型预测视频帧对应的预测演奏行为时，还能够预测该预测演奏行为对应的概率。

根据Pα_i、Pβ_i以及服务器能够得到融合数据集：

之后服务器通过融合数据集以及对应的乐器类型数据集训练演奏行为决策模型。其中，演奏行为决策模型预测训练数据集中第i个乐器演奏视频(对应P_i)，对应第c种乐器种类的概率集合Pd_i满足：

其中，f₄( )为演奏行为决策模型，具体为三层全连接层神经网络。函数argmax表示求概率集合Pd_i中最大概率所对应的乐器种类。表示最终确定的第i个乐器演奏视频对应的乐器种类。可选地，服务器根据该乐器种类，以及该乐器种类对应的概率，确定登录第一主播账号的主播用户是否存在乐器演奏行为。并且还能够确定乐器演奏行为演奏的乐器种类。从而确定直播流对应的直播表演类型。

可选地，该舞蹈行为识别模型包括第一舞蹈行为识别模型以及第二舞蹈行为识别模型。该第一舞蹈行为识别模型与第二舞蹈行为识别模型组成双流卷积神经网络(Two-Stream CNN)。服务器首先对直播流的视频帧进行处理，得到视频帧对应的光流(OpticalFlow)图。并调用第一舞蹈行为识别模型对视频帧进行预测，得到第一预测舞蹈行为概率。以及调用第二舞蹈行为识别模型对光流图进行预测，得到第二预测舞蹈行为概率。该第一预测舞蹈行为概率以及第二预测舞蹈行为概率用于反映登录第一主播账号的主播用户存在舞蹈行为的可能性。之后根据第一预测舞蹈行为概率以及第二预测舞蹈行为概率确定直播表演类型。例如计算第一预测舞蹈行为概率以及第二预测舞蹈行为概率的平均值，当计算得到的平均值大于目标均值时，确定直播表演类型为舞蹈类型。

可选地，该演唱行为识别模型包括第一演唱行为识别模型以及第二演唱行为识别模型。该第一演唱行为识别模型与第二演唱行为识别模型组成双流卷积神经网络。服务器首先对直播流的视频帧进行处理，得到视频帧对应的光流图。并调用第一演唱行为识别模型对视频帧进行预测，得到第一预测演唱行为概率。以及调用第二演唱行为识别模型对光流图进行预测，得到第二预测演唱行为概率。该第一预测演唱行为概率以及第二预测演唱行为概率用于反映登录第一主播账号的主播用户存在演唱行为的可能性。之后根据第一预测演唱行为概率以及第二预测演唱行为概率确定直播表演类型。例如计算第一预测演唱行为概率以及第二预测演唱行为概率的平均值，当计算得到的平均值大于目标均值时，确定直播表演类型为演唱类型。

需要说明的是，上述服务器执行的确定第一主播账号的直播表演类型的步骤，也能够由主播客户端执行。例如服务器将行为识别模型发送至主播客户端，主播客户端调用该行为识别模型对采集到的直播流进行预测。之后将直播表演类型发送至服务器。

步骤703：响应于第一主播账号的连麦请求，服务器确定与第一主播账号匹配的第二主播账号。

该第二主播账号为服务器中的任一主播账号。该第二主播账号与第一主播账号不同。第二主播账号处于直播状态。第二主播账号和第一主播账号属于相同的直播表演类型，即登录第一主播账号的主播用户与登录第二主播账号的主播用户，在直播期间的表演行为的类型相同。例如都在进行舞蹈表演、演唱表演以及乐器演奏表演。

服务器根据服务器中的多个主播账号的直播流确定该多个主播账号的直播表演类型。之后根据属于相同直播表演类型的主播账号确定主播账号集合，即根据主播账号的直播表演类型，将主播账号划分入不同的主播账号集合中。响应于第一主播账号的连麦请求，服务器会确定目标主播账号集合，该目标主播账号集合中的主播账号和第一主播账号属于相同的直播表演类型。之后服务器从目标主播账号集合中随机确定随机主播账号作为第二主播账号。从而实现确定与第一主播账号匹配的第二主播账号。该主播账号集合中的主播账号也处于直播状态。可选地，服务器还能够根据第一主播账号的直播间人数，从主播账号集合中选择直播间人数与第一主播账号的直播间人数最接近的主播账号作为该第二主播账号。

步骤704：服务器向第一主播账号推荐第二主播账号进行连麦。

服务器根据第一主播账号的连麦请求，确定与第一主播账号匹配的第二主播账号后，会向第一主播账号推荐第二主播账号进行连麦，服务器还会向第二主播账号推荐第一主播账号进行连麦，从而实现为第一主播账号与第二主播账号建立连麦。可选地，服务器在向第一主播账号推荐第二主播账号进行连麦时，还需第一主播账号进行确认操作。以及，服务器在向第二主播账号推荐第一主播账号进行连麦时，还需第二主播账号进行确认操作。当第一主播账号与第二主播账号都进行确认操作后，服务器为第一主播账号与第二主播账号建立连麦。

步骤705：主播客户端显示第一主播账号与第二主播账号的连麦界面。

该连麦界面中显示有第一主播账号的直播画面以及第二主播账号的直播画面。当主播客户端接收到服务器为第一主播账号与第二主播账号建立连麦关系后，会显示该连麦界面。可选地，主播客户端在该连麦界面中还会显示第二主播账号的直播表演类型。

步骤706：响应于第一主播账号与第二主播账号建立连麦，服务器根据直播表演类型，向第一主播账号以及第二主播账号发送表演比赛多媒体。

该表演比赛多媒体用于第一主播账号与第二主播账号进行PK。即第一主播账号与第二主播账号同时，或在不同时间表演该表演比赛多媒体。形成登录第一主播账号的主播用户和登录第二主播账号的主播用户之间的竞争关系。

服务器根据直播表演类型，从数据库中选择与该类型相同的歌曲、视频以及朗读文案等作为该表演比赛多媒体。例如直播表演类型为舞蹈，则服务器随机选择一首舞曲作为该表演比赛多媒体。直播表演类型为演唱，则服务器随机选择一首歌手演唱的歌曲作为该表演比赛多媒体。当服务器通过乐器演奏行为识别模型预测第一主播账号的直播表演类型为演唱时，还能够通过乐器演奏行为识别模型确定演奏的乐器的乐器种类。服务器随机选择一首使用该种类的乐器伴奏的歌曲作为该表演比赛多媒体。

可选地，当第一主播账号和第二主播账号建立连麦，并且当服务器接收到第一主播账号或第二主播账号的PK请求时，会根据直播表演类型，向第一主播账号以及第二主播账号发送表演比赛多媒体。

步骤707：主播客户端在连麦界面显示表演比赛多媒体。

该表演比赛多媒体是服务器根据直播表演类型确定的。可选地，登录第一主播账号的主播客户端，在第一主播账号与第二主播账号开始进行表演比赛多媒体PK后，会在连麦界面显示该表演比赛多媒体。登录第二主播账号的主播客户端，也会在连麦界面显示该表演比赛多媒体。

示例地，继续参照图6。当第一主播账号与第二主播账号开始进行表演比赛歌曲PK时，该连麦界面601还能够显示表演比赛歌曲606。登录第一主播账号和第二主播账号的主播用户，会分别表演该表演比赛歌曲606。

步骤708：响应于第一主播账号完成表演比赛多媒体的表演，服务器确定第一评分。

该第一评分用于反映登录第一主播账号的主播用户表演该表演比赛多媒体的表演水平。服务器根据第一主播账号表演表演比赛多媒体期间的第一礼物赠送信息、第一评论信息以及第一观众数量中的至少一种，确定第一评分。可选地，第一礼物赠送信息包括第一主播账号表演表演比赛多媒体期间接收礼物的数量以及价值。第一评论信息包括第一主播账号表演表演比赛多媒体期间收到的评论信息的数量。第一观众数量包括第一主播账号表演表演比赛多媒体期间观看第一主播账号的直播的观众账号的数量。服务器将该接收礼物的数量、接收礼物的价值、评论信息的数量以及观众账号的数量累加，从而得到该第一评分。服务器确定第一评分不局限于上述方式。例如服务器还能够通过才艺评分算法模型，根据上述信息预测出该第一评分。

响应于第二主播账号完成表演比赛多媒体的表演，服务器还能够根据第二主播账号表演表演比赛多媒体期间的第二礼物赠送信息、第二评论信息以及第二观众数量中的至少一种，确定第二评分。

步骤709：服务器向第一主播账号发送第一评分。

服务器在向第一主播账号发送第一评分时，还会向第二主播账号发送第二评分。并且，服务器还能够向第一主播账号发送第二评分，以及向第二主播账号发送第一评分。用于使登录第一主播账号的主播用户以及登录第二主播账号的主播用户在了解自己的得分的同时，还能够了解对手的得分。

可选地，服务器还能够根据第一评分和第二评分的高低，向第一主播账号或第二主播账号发放虚拟物品的奖励。

步骤710：主播客户端显示第一评分。

登录第一主播账号的主播客户端在显示第一评分时，还能够显示第二评分。登录第二主播账号的主播客户端在显示第二评分时，还能够显示第一评分。

示例地，继续参照图6。当第一主播账号完成表演比赛多媒体的表演时，该连麦界面601会显示第一主播账号的第一评分607。并且，当第二主播账号完成表演比赛多媒体的表演时，该连麦界面601还会显示第二主播账号的第二评分608。

另外，通过行为识别模型确定直播表演类型，能够避免人工确定直播表演类型，从而提升效率。通过音频分类模型、乐器识别模型以及演奏行为识别模型共同确定直播表演类型，能够提升确定直播表演类型的准确度。在建立连麦后，根据直播表演类型发送表演比赛多媒体，并对表演该表演比赛多媒体进行评分，提供了一种具有趣味性且具有公平性的主播之间的互动玩法，提升了用户体验。

需要说明的是，本申请实施例提供的方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

图10是本申请实施例提供的一种连麦装置的结构示意图。该装置可以用于如图1所示的系统中的服务器。如图10所示，该装置100包括：

第一确定模块1001，用于根据第一主播账号的直播流确定第一主播账号的直播表演类型，第一主播账号处于直播状态。

第二确定模块1002，用于响应于第一主播账号的连麦请求，确定与第一主播账号匹配的第二主播账号，第二主播账号和第一主播账号属于相同的直播表演类型，第二主播账号处于直播状态。

推荐模块1003，用于向第一主播账号推荐第二主播账号进行连麦。

可选地，第一确定模块1001，用于：

获取第一主播账号的直播流。调用行为识别模型对直播流进行预测，得到直播表演类型，行为识别模型是通过表演样本集训练得到的神经网络模型，表演样本集包括表演样本视频以及表演样本视频对应的表演类型。

可选地，行为识别模型包括舞蹈行为识别模型、乐器演奏行为识别模型以及演唱行为识别模型中的至少一种。第一确定模块1001，用于：

调用舞蹈行为识别模型、乐器演奏行为识别模型以及演唱行为识别模型中的至少一种，对直播流进行预测。

可选地，乐器演奏行为识别模型包括音频分类模型、乐器识别模型以及演奏行为识别模型。第一确定模块1001，用于：

调用音频分类模型对直播流的音频帧进行预测，得到第一预测乐器种类。调用乐器识别模型对直播流的视频帧进行预测，得到第二预测乐器种类。调用演奏行为识别模型对直播流的视频帧进行预测，得到预测演奏行为，预测演奏行为用于反映第一主播账号直播过程中存在乐器演奏行为以及乐器演奏行为演奏的乐器种类。根据第一预测乐器种类、第二预测乐器种类以及预测演奏行为，确定直播表演类型。

可选地，乐器演奏行为识别模型还包括演奏行为决策模型。第一确定模块1001，用于：

调用演奏行为决策模型根据第一预测乐器种类、第二预测乐器种类以及预测演奏行为，确定直播表演类型。

可选地，舞蹈行为识别模型包括第一舞蹈行为识别模型以及第二舞蹈行为识别模型。如图11所示，第一确定模块1001，包括：

处理子模块10011，用于对直播流的视频帧进行处理，得到视频帧对应的光流图。

第一确定模块1001，用于调用第一舞蹈行为识别模型对视频帧进行预测，得到第一预测舞蹈行为概率。

第一确定模块1001，用于调用第二舞蹈行为识别模型对光流图进行预测，得到第二预测舞蹈行为概率。

第一确定模块1001，用于根据第一预测舞蹈行为概率以及第二预测舞蹈行为概率确定直播表演类型。

可选地，演唱行为识别模型包括第一演唱行为识别模型以及第二演唱行为识别模型。处理子模块10011，还用于对直播流的视频帧进行处理，得到视频帧对应的光流图。

第一确定模块1001，用于调用第一演唱行为识别模型对视频帧进行预测，得到第一预测演唱行为概率。

第一确定模块1001，用于调用第二演唱行为识别模型对光流图进行预测，得到第二预测演唱行为概率。

第一确定模块1001，用于根据第一预测演唱行为概率以及第二预测演唱行为概率确定直播表演类型。

可选地，如图12所示，装置100还包括：

第一确定模块1001，用于根据多个主播账号的直播流确定多个主播账号的直播表演类型。

第三确定模块1004，用于根据属于相同直播表演类型的主播账号确定主播账号集合。

第二确定模块1002，用于：

响应于第一主播账号的连麦请求，确定目标主播账号集合，目标主播账号集合中的主播账号和第一主播账号属于相同的直播表演类型。从目标主播账号集合中随机确定随机主播账号作为第二主播账号。

可选地，如图13所示，装置100还包括：

发送模块1005，用于响应于第一主播账号与第二主播账号建立连麦，根据直播表演类型，向第一主播账号以及第二主播账号发送表演比赛多媒体。

可选地，如图14所示，装置100还包括：

第四确定模块1006，用于响应于第一主播账号完成表演比赛多媒体的表演，根据第一主播账号表演表演比赛多媒体期间的第一礼物赠送信息、第一评论信息以及第一观众数量中的至少一种，确定第一评分。

第五确定模块1007，用于响应于第二主播账号完成表演比赛多媒体的表演，根据第二主播账号表演表演比赛多媒体期间的第二礼物赠送信息、第二评论信息以及第二观众数量中的至少一种，确定第二评分。

发送模块1006，用于向第一主播账号发送第一评分，以及向第二主播账号发送第二评分。

图15是本申请实施例提供的一种直播显示装置的结构示意图。该装置可以用于如图1所示的系统中的任一终端。如图15所示，该装置150包括：

显示模块1501，用于显示第一主播账号的直播界面。

显示模块1501，用于响应于第一主播账号的连麦请求，显示第一主播账号与第二主播账号的连麦界面，第二主播账号是服务器根据第一主播账号的直播表演类型确定的，第一主播账号的直播表演类型是服务器根据第一主播账号的直播流确定的，第二主播账号和第一主播账号属于相同的直播表演类型。

可选地，显示模块1501，用于：

在连麦界面中显示第二主播账号以及直播表演类型。

可选地，显示模块1501，用于：

在连麦界面显示表演比赛多媒体，表演比赛多媒体是服务器根据直播表演类型确定的。

响应于第一主播账号完成表演比赛多媒体的表演，显示第一评分。

需要说明的是：上述实施例提供的连麦装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的连麦装置与连麦方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

同理，上述实施例提供的直播显示装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的直播显示装置与直播显示方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请的实施例还提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的连麦方法或直播显示方法。

可选地，该计算机设备为服务器。示例地，图16是本申请实施例提供的一种服务器的结构示意图。

所述服务器1600包括中央处理单元(Central Processing Unit，CPU)1601、包括随机存取存储器(Random Access Memory，RAM)1602和只读存储器(Read-Only Memory，ROM)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。所述计算机设备1600还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)1606，和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。

所述基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中所述显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。所述基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。所述大容量存储设备1607及其相关联的计算机可读存储介质为服务器1600提供非易失性存储。也就是说，所述大容量存储设备1607可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory，EEPROM)、闪存或其他固态存储设备，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1601执行，一个或多个程序包含用于实现上述方法实施例的指令，中央处理单元1601执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述服务器1600还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即服务器1600可以通过连接在所述系统总线1605上的网络接口单1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程服务器系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由服务器所执行的步骤。

可选地，该计算机设备还能够为终端。示例地，图17是本申请实施例提供的一种终端的结构示意图。

通常，终端1700包括有：处理器1701和存储器1702。

处理器1701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1701所执行以实现本申请中方法实施例提供的直播显示方法。

在一些实施例中，终端1700还可选包括有：外围设备接口1703和至少一个外围设备。处理器1701、存储器1702和外围设备接口1703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1703相连。具体地，外围设备包括：射频电路1704、显示屏1705、摄像头组件1706、音频电路1707、定位组件1708和电源1709中的至少一种。

外围设备接口1703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1701和存储器1702。在一些实施例中，处理器1701、存储器1702和外围设备接口1703被集成在同一芯片或电路板上；在一些其他实施例中，处理器1701、存储器1702和外围设备接口1703中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

射频电路1704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1705是触摸显示屏时，显示屏1705还具有采集在显示屏1705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1701进行处理。此时，显示屏1705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1705可以为一个，设置终端1700的前面板；在另一些实施例中，显示屏1705可以为至少两个，分别设置在终端1700的不同表面或呈折叠设计；在再一些实施例中，显示屏1705可以是柔性显示屏，设置在终端1700的弯曲表面上或折叠面上。甚至，显示屏1705还可以设置成非矩形的不规则图形，也即异形屏。显示屏1705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1706用于采集图像或视频。可选地，摄像头组件1706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端1700的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1701进行处理，或者输入至射频电路1704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1701或射频电路1704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1707还可以包括耳机插孔。

定位组件1708用于定位终端1700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1709用于为终端1700中的各个组件进行供电。电源1709可以是交流电、直流电、一次性电池或可充电电池。当电源1709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1700还包括有一个或多个传感器1710。该一个或多个传感器1710包括但不限于：加速度传感器1711、陀螺仪传感器1712、压力传感器1713、指纹传感器1714、光学传感器1715以及接近传感器1716。

加速度传感器1711可以检测以终端1700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1711可以用于检测重力加速度在三个坐标轴上的分量。处理器1701可以根据加速度传感器1711采集的重力加速度信号，控制触摸显示屏1705以横向视图或纵向视图进行用户界面的显示。加速度传感器1711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1712可以检测终端1700的机体方向及转动角度，陀螺仪传感器1712可以与加速度传感器1711协同采集用户对终端1700的3D动作。处理器1701根据陀螺仪传感器1712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1713可以设置在终端1700的侧边框和/或触摸显示屏1705的下层。当压力传感器1713设置在终端1700的侧边框时，可以检测用户对终端1700的握持信号，由处理器1701根据压力传感器1713采集的握持信号进行左右手识别或快捷操作。当压力传感器1713设置在触摸显示屏1705的下层时，由处理器1701根据用户对触摸显示屏1705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1714用于采集用户的指纹，由处理器1701根据指纹传感器1714采集到的指纹识别用户的身份，或者，由指纹传感器1714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1714可以被设置终端1700的正面、背面或侧面。当终端1700上设置有物理按键或厂商Logo时，指纹传感器1714可以与物理按键或厂商Logo集成在一起。

光学传感器1715用于采集环境光强度。在一个实施例中，处理器1701可以根据光学传感器1715采集的环境光强度，控制触摸显示屏1705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1705的显示亮度；当环境光强度较低时，调低触摸显示屏1705的显示亮度。在另一个实施例中，处理器1701还可以根据光学传感器1715采集的环境光强度，动态调整摄像头组件1706的拍摄参数。

接近传感器1716，也称距离传感器，通常设置在终端1700的前面板。接近传感器1716用于采集用户与终端1700的正面之间的距离。在一个实施例中，当接近传感器1716检测到用户与终端1700的正面之间的距离逐渐变小时，由处理器1701控制触摸显示屏1705从亮屏状态切换为息屏状态；当接近传感器1716检测到用户与终端1700的正面之间的距离逐渐变大时，由处理器1701控制触摸显示屏1705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图17中示出的结构并不构成对终端1700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例中还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，当该程序代码由计算机设备的处理器加载并执行时，实现上述各方法实施例提供的连麦方法或直播显示方法。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例提供的连麦方法或直播显示方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的可读存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同切换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种连麦方法，其特征在于，所述方法包括：

获取包括不同种类的乐器演奏视频的训练数据集，并按照所述乐器演奏视频在所述训练数据集中的排列顺序，分别提取每个所述乐器演奏视频的音频、视频帧和视频帧序列，从而得到音频数据集、视频帧数据集和视频帧序列数据集；其中，所述视频帧为对应的乐器演奏视频中在时间序列上居中的视频帧，所述视频帧序列通过在对应的乐器演奏视频中以目标时长为间隔提取得到；

训练乐器演奏行为识别模型，包括：

通过所述音频数据集以及对应的乐器类型数据集训练音频分类模型，并获得通过所述音频分类模型预测所述音频数据集中任一音频对应的不同乐器种类的概率所组成的集合，其中所述音频分类模型为一维卷积神经网络；

通过所述视频帧数据集以及对应的乐器类型数据集训练乐器识别模型，并获得通过所述乐器识别模型预测所述视频帧数据集中任一视频帧对应的不同乐器种类的概率所组成的集合，其中所述乐器识别模型为二维卷积神经网络；

通过所述视频帧序列数据集以及对应的乐器类型数据集训练演奏行为识别模型，并获得通过所述演奏行为识别模型预测所述视频帧序列数据集中任一视频帧序列反映的乐器演奏行为对应的不同乐器种类的概率所组成的集合，其中所述演奏行为识别模型为三维卷积神经网络；

根据所述音频数据集中任一音频对应的不同乐器种类的概率所组成的集合、所述视频帧数据集中任一视频帧对应的不同乐器种类的概率所组成的集合，以及所述视频帧序列数据集中任一视频帧序列反映的乐器演奏行为对应的不同乐器种类的概率所组成的集合，得到融合数据集；

通过所述融合数据集以及对应的乐器类型数据集训练演奏行为决策模型，并获得所述演奏行为决策模型预测所述训练数据集中任一乐器演奏视频对应的不同乐器种类的概率所组成的集合，其中所述演奏行为决策模型为三层全连接层神经网络；

获取第一主播账号的直播流，并调用行为识别模型对所述直播流进行预测，得到直播表演类型，所述第一主播账号处于直播状态，所述行为识别模型是通过表演样本集训练得到的神经网络模型，所述表演样本集包括表演样本视频以及所述表演样本视频对应的表演类型，其中所述行为识别模型包括所述乐器演奏行为识别模型；

向所述第一主播账号推荐所述第二主播账号进行连麦；

其中，所述调用行为识别模型对所述直播流进行预测，得到直播表演类型，包括：

调用所述音频分类模型对所述直播流的音频帧进行预测，得到第一预测乐器种类，所述音频帧包括所述直播流的全部音频帧；

调用所述乐器识别模型对所述直播流的视频帧进行预测，得到第二预测乐器种类，所述视频帧包括所述直播流的任一视频帧；

调用所述演奏行为识别模型对所述直播流的视频帧进行预测，得到预测演奏行为，所述视频帧包括所述直播流的至少一帧视频帧组成的视频帧序列，所述预测演奏行为用于反映所述第一主播账号直播过程中存在乐器演奏行为以及所述乐器演奏行为演奏的乐器种类；

2.根据权利要求1所述的方法，其特征在于，所述行为识别模型还包括舞蹈行为识别模型或演唱行为识别模型；

所述调用行为识别模型对所述直播流进行预测，得到直播表演类型，还包括：

调用所述舞蹈行为识别模型或所述演唱行为识别模型，对所述直播流进行预测。

3.根据权利要求2所述的方法，其特征在于，所述舞蹈行为识别模型包括第一舞蹈行为识别模型以及第二舞蹈行为识别模型；

调用所述舞蹈行为识别模型对所述直播流进行预测，包括：

对所述直播流的视频帧进行处理，得到所述视频帧对应的光流图；

调用所述第一舞蹈行为识别模型对所述视频帧进行预测，得到第一预测舞蹈行为概率；

调用所述第二舞蹈行为识别模型对所述光流图进行预测，得到第二预测舞蹈行为概率；

根据所述第一预测舞蹈行为概率以及所述第二预测舞蹈行为概率确定所述直播表演类型。

4.根据权利要求2所述的方法，其特征在于，所述演唱行为识别模型包括第一演唱行为识别模型以及第二演唱行为识别模型；

调用所述演唱行为识别模型对所述直播流进行预测，包括：

调用所述第一演唱行为识别模型对所述视频帧进行预测，得到第一预测演唱行为概率；

调用所述第二演唱行为识别模型对所述光流图进行预测，得到第二预测演唱行为概率；

根据所述第一预测演唱行为概率以及所述第二预测演唱行为概率确定所述直播表演类型。

5.根据权利要求1至4任一所述的方法，其特征在于，在所述响应于所述第一主播账号的连麦请求，确定与所述第一主播账号匹配的第二主播账号之前，所述方法还包括：

根据多个主播账号的直播流确定所述多个主播账号的直播表演类型；

根据属于相同直播表演类型的主播账号确定主播账号集合；

所述响应于所述第一主播账号的连麦请求，确定与所述第一主播账号匹配的第二主播账号，包括：

6.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

响应于所述第一主播账号与所述第二主播账号建立连麦，根据所述直播表演类型，向所述第一主播账号以及所述第二主播账号发送表演比赛多媒体。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

响应于所述第一主播账号完成所述表演比赛多媒体的表演，根据所述第一主播账号表演所述表演比赛多媒体期间的第一礼物赠送信息、第一评论信息以及第一观众数量中的至少一种，确定第一评分；响应于所述第二主播账号完成所述表演比赛多媒体的表演，根据所述第二主播账号表演所述表演比赛多媒体期间的第二礼物赠送信息、第二评论信息以及第二观众数量中的至少一种，确定第二评分；

向所述第一主播账号发送所述第一评分，以及向所述第二主播账号发送所述第二评分。

8.一种直播显示方法，其特征在于，所述方法包括：

训练乐器演奏行为识别模型，包括：

显示第一主播账号的直播界面；

响应于所述第一主播账号的连麦请求，显示所述第一主播账号与第二主播账号的连麦界面，所述第二主播账号是服务器根据所述第一主播账号的直播表演类型确定的，所述第一主播账号的直播表演类型是所述服务器获取所述第一主播账号的直播流，并调用行为识别模型对所述直播流进行预测得到的，所述行为识别模型是通过表演样本集训练得到的神经网络模型，所述表演样本集包括表演样本视频以及所述表演样本视频对应的表演类型，所述第二主播账号和所述第一主播账号属于相同的所述直播表演类型，其中所述行为识别模型包括所述乐器演奏行为识别模型；

其中，所述调用行为识别模型对所述直播流进行预测，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

11.一种连麦装置，其特征在于，所述装置包括：

获取模块，用于获取包括不同种类的乐器演奏视频的训练数据集，并按照所述乐器演奏视频在所述训练数据集中的排列顺序，分别提取每个所述乐器演奏视频的音频、视频帧和视频帧序列，从而得到音频数据集、视频帧数据集和视频帧序列数据集；其中，所述视频帧为对应的乐器演奏视频中在时间序列上居中的视频帧，所述视频帧序列通过在对应的乐器演奏视频中以目标时长为间隔提取得到；

训练模块，用于训练乐器演奏行为识别模型，包括：

第一确定模块，用于获取第一主播账号的直播流，并调用行为识别模型对所述直播流进行预测，确定所述第一主播账号的直播表演类型，所述第一主播账号处于直播状态，所述行为识别模型是通过表演样本集训练得到的神经网络模型，所述表演样本集包括表演样本视频以及所述表演样本视频对应的表演类型，其中所述行为识别模型包括所述乐器演奏行为识别模型；

推荐模块，用于向所述第一主播账号推荐所述第二主播账号进行连麦；

其中所述调用行为识别模型对所述直播流进行预测，包括：

12.一种直播显示装置，其特征在于，所述装置包括：

显示模块，用于显示第一主播账号的直播界面；

所述显示模块，用于响应于所述第一主播账号的连麦请求，显示所述第一主播账号与第二主播账号的连麦界面，所述第二主播账号是服务器根据所述第一主播账号的直播表演类型确定的，所述第一主播账号的直播表演类型是所述服务器获取所述第一主播账号的直播流，并调用行为识别模型对所述直播流进行预测得到的，所述行为识别模型是通过表演样本集训练得到的神经网络模型，所述表演样本集包括表演样本视频以及所述表演样本视频对应的表演类型，所述第二主播账号和所述第一主播账号属于相同的所述直播表演类型，其中所述行为识别模型包括乐器演奏行为识别模型；

其中所述调用行为识别模型对所述直播流进行预测，包括：

调用所述乐器演奏行为识别模型中的音频分类模型对所述直播流的音频帧进行预测，得到第一预测乐器种类，所述音频帧包括所述直播流的全部音频帧；

调用所述乐器演奏行为识别模型中的乐器识别模型对所述直播流的视频帧进行预测，得到第二预测乐器种类，所述视频帧包括所述直播流的任一视频帧；

调用所述乐器演奏行为识别模型中的演奏行为识别模型对所述直播流的视频帧进行预测，得到预测演奏行为，所述视频帧包括所述直播流的至少一帧视频帧组成的视频帧序列，所述预测演奏行为用于反映所述第一主播账号直播过程中存在乐器演奏行为以及所述乐器演奏行为演奏的乐器种类；

调用所述乐器演奏行为识别模型中的演奏行为决策模型根据所述第一预测乐器种类、所述第二预测乐器种类以及所述预测演奏行为，确定所述直播表演类型；

其中所述乐器演奏行为识别模型的训练过程包括：

通过所述音频数据集以及对应的乐器类型数据集训练所述音频分类模型，并获得通过所述音频分类模型预测所述音频数据集中任一音频对应的不同乐器种类的概率所组成的集合，其中所述音频分类模型为一维卷积神经网络；

通过所述视频帧数据集以及对应的乐器类型数据集训练所述乐器识别模型，并获得通过所述乐器识别模型预测所述视频帧数据集中任一视频帧对应的不同乐器种类的概率所组成的集合，其中所述乐器识别模型为二维卷积神经网络；

通过所述视频帧序列数据集以及对应的乐器类型数据集训练所述演奏行为识别模型，并获得通过所述演奏行为识别模型预测所述视频帧序列数据集中任一视频帧序列反映的乐器演奏行为对应的不同乐器种类的概率所组成的集合，其中所述演奏行为识别模型为三维卷积神经网络；

通过所述融合数据集以及对应的乐器类型数据集训练所述演奏行为决策模型，并获得所述演奏行为决策模型预测所述训练数据集中任一乐器演奏视频对应的不同乐器种类的概率所组成的集合，其中所述演奏行为决策模型为三层全连接层神经网络。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的连麦方法或权利要求8至10任一所述的直播显示方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至7任一所述的连麦方法或权利要求8至10任一所述的直播显示方法。