CN117255207A

CN117255207A - 一种直播互动方法及相关产品

Info

Publication number: CN117255207A
Application number: CN202210653780.4A
Authority: CN
Inventors: 郑尚镇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-12-19

Abstract

本申请实施例公开了一种直播互动方法及相关产品，该直播互动方法包括：显示直播界面；在直播界面中播放主播对象演出目标音乐的视频；在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。采用本申请实施例，可以扩展直播互动方式，提高直播的互动性与参与感。

Description

一种直播互动方法及相关产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种直播互动方法、一种直播互动装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

随着互联网时代的飞速发展，互联网技术取得了巨大的突破和创新，基于互联网技术所带来的普惠性，信息表达和信息传递的成本也得到极大的降低。直播行业作为一种新兴的互联网产物逐渐被人们熟知并广泛接收。由于不受场地、人数、地域等诸多因素的限制，直播被广泛地应用于各个领域，例如电商领域的卖货直播、拍卖直播；社交领域的游戏直播、互动直播、演唱会直播等等。

通过直播各种线下的活动可以基于互联网平台在线上进行，例如在线演唱会可以通过直播平台同步地观看，并且还可以通过评论、点赞、连麦等方式与主播进行互动。但是，在一些直播场景中的互动方式还有所欠缺，直播的参与感和互动性还有待进一步提升。

发明内容

本申请实施例提供一种直播互动方法及相关产品，可以扩展直播互动方式，提高直播的互动性与参与感。

一方面，本申请实施例提供了一种直播互动方法，包括：

显示直播界面；

在直播界面中播放主播对象演出目标音乐的视频；

在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

一方面，本申请实施例提供了另一种直播互动方法，包括：

向客户端发送主播对象演出目标音乐的视频，使客户端在直播界面中播放主播对象演出目标音乐的视频；

接收观众对象针对目标音乐的演绎音频；

对主播对象针对目标音乐的演出音频和观众对象针对目标音乐的演绎音频进行混音处理得到，得到合唱音频；

将合唱音频发送至客户端，使客户端在视频的播放过程中，输出合唱音频。

一方面，本申请实施例提供了一种直播互动装置，包括：

显示模块，用于显示直播界面；

播放模块，用于在直播界面中播放主播对象演出目标音乐的视频；

输出模块，用于在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

一方面，本申请实施例提供了另一种直播互动装置，包括：

收发模块，用于向客户端发送主播对象演出目标音乐的视频，使客户端在直播界面中播放主播对象演出目标音乐的视频；

收发模块，用于接收观众对象针对目标音乐的演绎音频；

处理模块，用于对主播对象针对目标音乐的演出音频和观众对象针对目标音乐的演绎音频进行混音处理得到，得到合唱音频；

收发模块，将合唱音频发送至客户端，使客户端在视频的播放过程中，输出合唱音频。

相应地，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中直播互动方法。

相应地，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中直播互动方法。

相应地，本申请实施例提供了一种计算机程序产品，计算机程序产品包括计算机程序或计算机指令，计算机程序或计算机指令被处理器执行时实现本申请实施例的直播互动方法。

在本申请实施例中，可显示直播界面，在直播界面中可播放主播对象演出目标音乐的视频，并且在视频播放的过程中，可输出主播对象与观众对象之间针对相同的音乐(即目标音乐)的合唱音频。可见，在主播对象直播演出的过程中，观众对象和主播对象之间可以共同演绎同一音乐，输出合唱音频，从而实现演出直播过程中的合唱互动，当本方案应用于在线演唱会场景下，可以模拟现场演唱会合唱，满足观众对象对在线演唱会的合唱需求。此种方式作为一种新型的直播互动方式，可以提升观众对象在直播过程中的参与感，增强观众对象与主播对象之间的互动性。

附图说明

图1是本申请一个示例性实施例提供的一种直播互动系统的架构图；

图2是本申请一个示例性实施例提供的一种直播互动方法的流程示意图一；

图3a是本申请一个示例性实施例提供的一种直播界面的示意图；

图3b是本申请一个示例性实施例提供的一种合唱互动入口的示意图；

图3c是本申请一个示例性实施例提供的一种合唱邀请的操作示意图；

图3d是本申请一个示例性实施例提供的一种录制演绎音频过程中的界面示意图；

图4是本申请一个示例性实施例提供的一种直播互动方法的流程示意图二；

图5a是本申请一个示例性实施例提供的一种在直播界面中显示观众对象的标识信息的示意图；

图5b是本申请一个示例性实施例提供的一种设置合唱收听开关的示意图；

图5c是本申请一个示例性实施例提供的一种设置权限开关的示意图；

图5d是本申请一个示例性实施例提供的一种设置合唱收听范围的操作示意图；

图5e是本申请一个示例性实施例提供的一种连线交互的效果示意图；

图5f是本申请一个示例性实施例提供的一种发布关于合唱互动的直播的操作示意图；

图5g是本申请一个示例性实施例提供的一种输出参与提示信息的示意图；

图5h是本申请一个示例性实施例提供的一种显示链接的示意图；

图5i是本申请一个示例性实施例提供的一种应用处理的示意图；

图6是本申请一个示例性实施例提供的一种直播互动方法的流程示意图三；

图7a是本申请一个示例性实施例提供的一种时延示意图；

图7b是本申请一个示例性实施例提供的一种直播互动的处理流程示意图；

图8a是本申请一个示例性实施例提供的一种直播互动装置的结构示意图；

图8b是本申请一个示例性实施例提供的另一种直播互动装置的结构示意图；

图9a是本申请一个示例性实施例提供的一种计算机设备的结构示意图；

图9b是本申请一个示例性实施例提供的另一种计算机设备的结构示意图。

具体实施方式

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

一、直播：

所谓直播是指基于互联网将一个或多个对象侧实时发生的事件同步展现给其他观看者的信息发布方式。直播通常是指视频直播或者网络直播，直播利用互联网打破地域、空间等的限制，可以直观、快速地将发布至互联网上的内容现场(例如产品展示、现场会议)同步给其他观看者。

一个直播通常会涉及多个对象，包括但不限于：主播对象、观众对象；其中，主播对象是指直播的内容提供者，直播通常是在主播对象侧架设采集设备进行直播内容的采集，直播内容通常是指采集设备所采集到的主播对象侧实时发生的事件内容。观众对象是指直播内容的观看者。从主播对象侧采集到的内容会经互联网传输给观众对象，观众对象就可实时观看到这些内容。

二、直播平台：

所谓直播平台是指允许多个(两个或两个以上)对象之间通过直播的方式进行实时交流互动的虚拟在线平台。直播平台上可以同时承载多个直播，即直播平台支持多个直播在同一时间处于开播状态。直播平台的职能包括但不限于：为直播平台中的各个直播提供资源分配、资源管理、内容管理等等技术支持；提供直播重播、点播、回放等等功能；对接入至直播平台的各个对象(主播对象或观众对象)进行管理的职能；等等。实际应用中，直播平台可以表现为直播网站、具备直播功能的客户端等等。

三、直播界面：

直播界面是指用于播放直播过程中实时画面的界面。该实时画面是由主播对象侧实时采集的内容画面。在直播界面中可展示主播对象的相关信息，例如主播对象的头像、昵称、直播热度、浏览人次，还可展示观众对象与主播对象之间的互动信息，例如赠予主播对象虚拟物品数量以及种类、对主播对象的点赞数量、观众对象与主播对象的连麦信息，等等。

四、合唱音频：

合唱音频是指对一个或多个对象几乎同时地对相同乐曲进行演奏或者是演唱的声音进行混音而得到的音频。在合唱音频中可以包括设备(如终端)收录的各种声音，例如人声、乐曲声、环境噪声等等。在线上演唱会直播场景下，输出合唱音频可以真实地模拟线下演唱会大合唱，从而带来更佳的参与体验。

基于上述术语及概念，下面将结合附图，对本申请实施例提供的直播互动系统的架构进行介绍。

请参见图1，图1是本申请一个示例性实施例提供的一种直播互动系统的架构图。如图1所示，该直播互动系统包括多个终端设备(包括第一终端100a、第二终端100b、第三终端100c……)和服务器101，各个终端设备可以和服务器101之间通过有线或无线的方式建立通信连接。

各个终端设备中可以运行有直播平台，具体可以是具备直播功能的客户端，通过终端设备可显示客户端所提供的直播界面，该直播界面可用于播放主播对象直播的内容画面，本申请中具体为主播对象演出目标音乐(例如歌曲)的视频，在视频播放的过程中，可输出主播对象与观众对象针对同一音乐(即目标音乐)的合唱音频。除此之外，直播界面中还可展示主播对象与观众对象之间的互动信息，例如主播对象与观众对象之间的评论互动、连麦互动、点赞互动、观众对象赠予主播对象的虚拟物品等。在一个实施例中，观众对象的终端设备可以录制观众对象针对目标音乐的演绎音频，进一步地，还将可以对录制的演绎音频进行预处理(例如编码处理)之后上传给服务器101，主播对象的终端设备也可以录制主播对象演出目标音乐的视频并上传给服务器101。各个终端设备还可以接收到服务器101下发的合唱音频以及主播对象演出目标音乐的视频，进而在直播界面播放视频的过程中可输出合唱音频。

需要说明的是，上述终端设备包括但不限于：手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等等设备，本申请对此不作限制。对于终端设备的数量，本申请不做限制。

服务器101可用于为具备直播功能的客户端提供服务支持，该服务支持包括但不限于：转发主播对象演出目标音乐的视频、处理各个观众对象通过客户端演绎目标音乐所录制的音频(即演绎音频)、处理主播对象演出目标音乐的音频(即演出音频)、向观众对象发送经过混音处理之后的合唱音频，等等。在一个实施例中，服务器可以基于接收到的演出音频和演绎音频进行混音处理，通过混音处理可以将演出音频和演绎音频进行偏移对齐、模拟真实场景中的合唱来调整各个音频的音量并对各个音频进行叠加之后得到合唱音频。

需要说明的是，服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。对于服务器的数量，本申请不做限制。

下面对本申请提供的直播互动方案所涉及的流程进行示例性地说明。假设第一终端100a对应主播对象，第二终端100b对应观众对象A以及第三终端100c对应观众对象B，在主播对象发起直播之后，观众对象可以观看主播对象直播的内容。

1)任一终端(假设第二终端100b)中显示直播界面，在该直播界面中播放有主播对象演出目标音乐的视频。

目标音乐可以是歌曲、歌曲片段或者是伴奏，主播对象演出目标音乐具体可以是演唱歌曲或演唱歌曲片段，也可以是使用乐器演奏伴奏旋律，视频是指主播对象直播过程中实时的演出画面，该视频通过主播对象的终端设备(即第一终端100a)采集之后，可发送给服务器101并由服务器101转发至各个观众对象的终端设备(包括第二终端100b和第三终端100c)，从而实现将演出画面同步给观众对象进行观看的功能。

2)任一终端(假设第二终端100b)在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

假设观众对象A通过第二终端100b的直播界面正在观看主播对象演出目标音乐的视频，同时还可以收听到针对该目标音乐的合唱音频，该合唱音频中可包含观众对象A演绎目标音乐的音频(即演绎音频)，这样观众对象A通过与主播对象一同演绎相同音乐，从而可实现和主播对象的互动，提升直播参与感。合唱音频是由主播对象演出目标音乐的音频(即演出音频)和观众对象演绎目标音乐的音频(即演绎音频)通过混音处理得到的。在观众对象所在的客户端支持直播过程中对观众对象演绎目标音乐的音频进行录制，该演绎音频将传输给服务器101，由服务器101处理后得到合唱音频并发送给各个对象(包括主播对象、观众对象A以及观众对象B)所对应的终端。在一种实现方式中，观众对象或者主播对象可以对输出的合唱音频进行个性化的应用处理，该应用处理包括但不限于：保存、下载、分享以及编辑。

通过本申请实施例提供的直播互动系统，终端可显示直播界面，在直播界面中可播放主播对象演出目标音乐的视频，并且在主播对象的演出视频播放的过程中，允许输出主播对象和观众对象针对相同的音乐的合唱音频。可见，观众对象可以和主播对象共同演绎同一音乐，实现与主播对象之间的互动，作为一种新型的互动方式，可以提高直播过程中观众对象的互动性及参与感。当应用于在线演唱会场景时，通过输出合唱音频可以真实地模拟线下演唱会现场合唱，实现合唱效果，进而提高演唱会直播过程中观众对象的互动性，提升观众对象的参与感。

可以理解的是，在本申请的具体实施方式中，涉及到对象的标识信息(例如地域、昵称)、合唱权限等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例提供的直播互动方法可以应用于在线演唱会场景。在线演唱会是一种通过直播平台对演唱会现场进行线上直播的活动方式。在观众对象观看演唱会直播过程中，可以提供合唱功能，观众对象通过该合唱功能可以和主播对象共同演绎同一音乐，从而各个观众对象以及主播对象均可以收听到合唱音频，获得合唱效果。例如，当主播对象正在演唱歌曲G，观众对象也可以跟随主播对象演唱该首歌曲G，观众对象可以通过终端可以录制自己的歌声，并经过编码后传输到服务器，服务器可以将观众对象和主播对象演唱歌曲G的音频经过时延对齐处理等操作之后，混合所有的声音得到合唱音频，并将该合唱音频下发给主播对象和所有观众对象，从而实现观众合唱的效果，满足演唱会直播场景下观众合唱的需求，这种模拟现场演唱会合唱的功能有利于提高观众对象在演唱会直播过程中的参与感，增强主播对象和观众对象之间的互动。

请参见图2，图2是本申请一个示例性实施例提供的一种直播互动方法的流程示意图一。该直播互动方法可以由计算机设备(例如图1中的任一终端设备，如第二终端100b)来执行，计算机设备中运行有客户端。该直播互动方法可以包括以下内容。

S201，显示直播界面。

直播界面是用于展示直播内容的界面，该直播内容由主播对象侧进行采集并上传至服务器，由服务器同步地展示给观众对象观看。观众对象侧和主播对象侧均可以显示直播界面，也即，直播界面可以显示在观众对象所登录的客户端中，也可以显示在主播对象所登录的客户端中，客户端具体是具备直播功能的客户端，例如提供直播功能的各类应用(如社交应用、购物应用、音视频娱乐应用等等)。直播界面中除了主播对象侧采集的内容画面之外，还包含主播对象的信息，包括但不限于：昵称、关注数、粉丝、主播等级、主播印象、直播热度，其中直播任务包括但不限于：观看人次、点赞总量、评论总量、虚拟物品交互数量。直播界面可以提供各种互动功能，包括但不限于：点赞、评论、连麦。

示例性地，请参见图3a所示的直播界面，该直播界面显示于观众对象所登录的客户端中，直播界面中显示有主播对象的信息，包括：头像、昵称(Jack)、观看人次(17.5万人看过)以及实时热度(196.5万热度)。直播界面中显示有主播对象的实时画面3100，以及观众对象与主播对象之间的互动信息，该互动信息包括：观众对象发表的评论3101、关注主播对象的提示信息3102、加入直播间的提示消息3103以及赠送主播对象的虚拟物品信息3104。

本申请实施例中，扩展了一种新型的直播互动方式，在该直播互动方式下可以实现各个观众对象和主播对象共同演绎相同音乐并输出合唱音频的效果，从而提高观众对象在直播过程中的参与感以及互动性。详细地，可以参见下述S202和S203的介绍。

S202，在直播界面中播放主播对象演出目标音乐的视频。

目标音乐是指主播对象演出的乐曲，具体可以是歌曲、歌曲片段、歌曲伴奏等。主播对象演出目标音乐的视频可以是主播对象演出该目标音乐的实时画面，例如主播对象跟随伴奏演唱歌曲、主播对象弹奏钢琴、主播对象清唱歌曲片段的画面等等。当直播界面显示于观众对象所登录的客户端中，直播界面中播放的视频可以是由服务器接收到主播对象侧采集的视频，并将视频转发给观众对象的终端设备而显示的，当直播界面显示于主播对象所登录的客户端中，直播界面中播放的视频是由主播对象侧的终端设备采集并显示的。如图3a所示的直播界面中播放的是主播对象Jack举办在线演唱会演唱歌曲的画面。

S203，在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

在主播对象演出目标音乐的视频的播放过程中，可输出主播对象和观众对象针对同一首音乐的合唱音频。也就是说，观众对象观看主播对象演出目标音乐的视频的过程中，观众对象可跟随主播对象对目标音乐的演出节奏演绎该目标音乐，从而产生合唱音频并在直播界面中输出。这样，观众对象可以收听到具备合唱效果的演出视频，主播对象也可以收听到各个参与目标音乐的演绎的观众对象的音频与己方演出的音频的合唱效果。这种合唱效果模拟了现场演出中的合唱，可以满足观众对象的合唱需求，进而可以提高观众对象在直播中的互动性，增强观众对象的参与感。

本申请实施例提供的直播互动方案，可显示直播界面，并通过直播界面播放主播对象演出目标音乐的视频，在视频播放的过程中，可输出观众对象和主播对象针对同一音乐的合唱音频，从而获得合唱效果。通过直播演出过程中合唱音频的输出，可以真实地模拟现场演出合唱，是一种新型的互动方式，可提高观众对象的参与感。当应用于演唱会场景下，可以满足观众对象对演唱会合唱的需求，扩展了在线演唱会场景下观众对象的互动参与方式，有利于提升观众对象与主播对象之间的互动，增强观众对象的参与感。

在一个实施例中，直播界面显示于观众对象所登录的客户端中，直播互动方法还可以包括：在视频的播放过程中，响应于合唱互动需求，录制观众对象针对目标音乐的演绎音频。

本申请实施例中“响应于”用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。终端可响应于合唱互动需求，对观众对象针对目标音乐的演绎音频进行录制。合唱互动需求是指观众对象和主播对象共同演绎相同乐曲的互动需求。演绎音频是指观众对象演绎目标音乐而产生的音频。对于演绎音频所录制的声音包括但不限于：人声、乐器声以及其他类型的声音。在一种实现方式中，观众对象针对目标音乐的演绎音频包括以下任一种或多种：观众对象演唱目标音乐而产生的演唱音频；或观众对象采用乐器演奏目标音乐而产生的演奏音频。演唱音频包括观众对象演唱目标音乐的人声，演奏音频包括观众对象使用乐器演奏该目标音乐的乐器声。观众对象演绎目标音乐所产生的任何声音均可以被录制，以便于得到合唱音频。举例来说，目标音乐为包含人声和伴奏声的歌曲，那么观众对象的演绎音频可以是演唱该首歌曲的人声音频，也可以是观众对象使用某种乐器(例如钢琴)演奏该首歌曲的伴奏音频。可见，通过观众对象侧的直播界面播放主播对象演出目标音乐的视频的过程中，支持观众对象加入合唱互动录制演绎音频。对于合唱互动需求的产生方式，可包括以下任一种：

①直播界面中设有合唱互动入口，当所述合唱互动入口被选择时，产生合唱互动需求。

直播界面中设置的合唱互动入口可以是一个合唱互动按钮或者是一个合唱互动控件，通过选择该合唱互动入口(例如点击合唱互动按钮或者合唱互动控件)，可以产生合唱互动需求，基于该合唱互动需求可以执行对观众对象演绎目标音乐的音频(即演绎音频)的录制。在一种实现方式中，合唱互动入口的设置方式包括以下任一种：设置于所述直播界面中的任意固定位置；悬浮设置于所述直播界面中的动态位置；隐藏于所述直播界面中，需要触发显示。

合唱互动入口可以设置直播界面的固定位置，该固定位置可以是直播界面中的任意位置。合唱互动入口设置在固定位置便于观众对象快捷操作。合唱互动入口也可以设置在直播界面的动态位置，该合唱互动入口在该直播界面中所处的位置可以是随着时间变化的，或者观众对象在不同时间点进入直播界面时，合唱互动入口在直播界面中所处的位置可以是不同的。为了保证合唱互动入口可以被观众对象操作，悬浮设置时合唱互动入口是在直播界面所显示的各个元素的最顶层而不被遮挡。

为了简化直播界面的元素内容，合唱互动入口也可以隐藏于直播界面中，并在需要时被触发显示。此处，触发显示包括以下任一种：到达显示时段时触发显示，存在触发操作时触发显示，具备合唱权限的条件下触发显示。也就是说，合唱互动入口可以是到达显示时段时触发显示，显示时段是指合唱互动入口开始显示的时间，例如系统自动设置了合唱互动入口在直播开始后的10分钟显示，那么在第10分钟时直播界面中可显示合唱互动入口，基于显示时段的触发显示属于自动触发显示。合唱互动入口也可以是存在触发操作时触发显示，该触发操作可以是预设的手势操作，例如在直播界面中双击空白位置可显示合唱互动入口；也可以是语音触发，例如输出语音“我要合唱”即可显示合唱互动入口，此方式可以属于手动触发显示。合唱权限是用于应允观众对象进行合唱互动的条件。具体可以由主播对象通过所登录的客户端进行设置，具备合唱权限的条件是指允许观众对象与主播对象之间进行合唱互动，因此，在具备合唱权限的条件下合唱互动入口可以被触发显示，进而可以录制观众对象演绎目标音乐的音频并输出合唱音频。以上通过自动触发或者手动触发即可显示合唱互动入口，进而可以实现合唱互动入口的即用即显示。

示例性地，请参见图3b所示的合唱互动入口的示意图，如图3b中的(1)所示，在直播界面的右下角设置有麦克风3201(即合唱互动入口)，观众对象点击麦克风3201就可以录制自己演绎乐曲的音频。如图3b中的(2)所示，在直播界面的顶部悬浮设置有合唱互动入口3211，该合唱互动入口处显示有加入合唱的提示文字：“1W+人正在合唱，快加入吧！”以及省略显示的各个观众对象的头像。如图3b中所示的合唱互动入口(如麦克风3201)也可以隐藏在直播界面中，并在具备合唱权限的条件下触发显示。

可见，通过合唱互动入口的设置，可以使得观众对象自主操控合唱互动入口而产生合唱互动需求，基于合唱互动需求可加入合唱互动，录制观众对象的演绎音频，从而增加观众对象在直播过程中的互动体验。

②直播界面中设有互动区域，当所述互动区域中接收到合唱互动操作手势时，产生所述合唱互动需求。

直播界面中设置的互动区域可以是整个直播界面，也可以是直播界面中不影响其他操作的任何区域。当观众对象在互动区域中执行合唱互动操作手势，例如按照预设手势轨迹(比如圆形)的手势操作，则互动区域中可接收到该合唱互动操作手势，从而产生合唱互动需求，在合唱互动需求之下，可以录制观众对象针对目标音乐的演绎音频。通过互动区域的设置，直播界面中无需额外设置合唱控件或者选项，而是由互动区域承载对合唱互动操作手势的响应，产生合唱互动需求，直播界面中的设置可以相对简洁，且此种方式下可以脱离实体输入设备的束缚，为对象提供更大范围的操作空间，这样即便不是很精确的操作同样可以产生合唱互动需求，进而录制演绎音频。

在一个实施例中，合唱过程中可支持任一观众对象邀请其他观众对象一起合唱，或者是接收其他观众对象的邀请一起合唱。观众对象包括第一观众对象和第二观众对象，第一观众对象为被邀请合唱的观众对象，第二观众对象为发起合唱邀请的观众对象。第一观众对象和第二观众对象之间具备社交关联关系，社交关联关系是社交网络中对象之间连接和互动的基础，该社交关联关系包括但不限于：好友关系、同事关系、同学关系。

在一种实施方式中，直播界面显示于所述第一观众对象所登录的客户端中，在第一观众对象侧，具体的实现过程可包括以下内容：接收第二观众对象向第一观众对象发出的合唱邀请信息；当合唱邀请信息被确认时，产生合唱互动需求。

在演出直播过程中，未参与合唱互动的第一观众对象通过接收并确认第二观众对象发出的合唱邀请信息可产生合唱互动需求，加入合唱互动，进而录制第一观众对象针对目标音乐的演绎音频。其中，合唱邀请信息用于指示第二观众对象请求与第一观众对象合唱演绎目标音乐。目标音乐可以是演出直播过程中的歌曲、歌曲片段等等，合唱邀请信息可以是文本、动画及视频等一种或多种形式的组合展示，例如合唱邀请信息为“好友Y邀请加入合唱”的文本。接收到的合唱邀请信息可显示在直播界面中。

第一观众对象通过确认合唱邀请信息可以接受第二观众对象的合唱邀请，产生合唱互动需求，进而与第二观众对象合唱演绎目标音乐，例如共同合唱一首歌曲。合唱邀请信息被确认的方式可以是：触发合唱邀请信息包含的确认选项，或者是，按照预定义手势操作确认合唱邀请信息。例如双击合唱邀请信息表示确认接收合唱邀请。可以理解的是，当合唱邀请信息未被确认时，例如超过预定时间未被确认，表示第一观众对象拒绝第二观众对象的合唱邀请，那么将不产生合唱互动需求，从而第一观众对象不加入合唱互动。

可见，第一观众对象可通过第二观众对象的合唱邀请加入合唱互动，丰富了观众对象参与合唱互动的方式。在演出直播过程中，具备社交关联关系的观众对象之间的互动方式也得到了进一步扩展。

在另一种实施方式中，直播界面显示于第二观众对象所登录的客户端中，在第二观众对象侧，直播界面中设有合唱邀请入口。合唱邀请入口可以是设置在直播界面中的合唱邀请按钮或者是合唱邀请选项，也可以是合唱邀请手势。该合唱邀请手势可以是预设轨迹的手势操作，如按照字母i的书写轨迹滑动的手势操作。

第二观众对象发起合唱邀请的实现内容可以包括：响应于对合唱邀请入口的触发操作，显示邀请对象列表，邀请对象列表中至少包括第一观众对象的标识；当邀请对象列表中的第一观众对象的标识被选择时，向第一观众对象发送合唱邀请信息；当接收到对所述合唱邀请信息的确认时，产生所述合唱互动需求。

对合唱邀请入口的触发操作可以是点击合唱邀请按钮或者是合唱邀请选项或者是按照预设轨迹的手势操作。合唱邀请入口被触发的时机可以是在第二观众对象准备加入合唱互动之前，即未参与合唱互动的第二观众对象可以邀请未参与合唱互动的第一观众对象进行合唱。当合唱邀请入口被触发时，可显示至少包括第一观众对象的标识的邀请对象列表，其中，第一观众对象是与第二观众对象具备社交关联关系的观众对象，例如与第二观众对象互为好友的观众对象。第一观众对象的标识包括但不限于：第一观众对象的昵称和头像。当邀请对象列表中第一观众对象的标识被选中时，可以向第一观众对象发送合唱邀请信息，该合唱邀请信息用于指示第二观众对象请求与第一观众对象合唱演绎目标音乐。并且在合唱邀请信息被第一观众对象确认时，第二观众对象侧可接收到对该合唱邀请信息的确认，从而产生合唱互动需求。

在一种实现方式中，接收到对合唱邀请信息的确认具体可以表现为：在直播界面中输出邀请确认信息，该邀请确认信息用于指示第一观众对象接受合唱邀请，从而提示第二观众对象所邀请的第一观众对象已确认接受合唱邀请并加入合唱互动。由此，通过合唱邀请可以使得具备社交关联关系的观众对象一起合唱直播中演出的目标音乐，从而扩展了观众对象之间的互动方式；借助于观众对象之间的熟悉感，也可以打造更高的互动和娱乐氛围。

在一种实现方式中，也可以支持同时邀请多个观众对象进行合唱，当对象列表中多个目标邀请对象的标识被选择，向所述多个目标邀请对象发送合唱邀请信息，从而在合唱邀请信息被确认时，产生合唱互动需求。此处多个目标邀请对象可以包括与第二观众对象具备社交关联关系的多个第一观众对象，对这多个第一观众对象的合唱邀请，和上述内容是相同的步骤，这样，一次性操作就可以邀请多个好友一起合唱，能够提高邀请效率，快捷方便。

在一种实现方式中，在第二观众对象合唱互动的过程中，也可以通过触发合唱邀请入口邀请第一观众对象加入合唱互动，即正在合唱的第二观众对象可以随时邀请未参与合唱互动的第一观众对象进行合唱。当接收到对合唱邀请信息的确认时，可以输出邀请确认信息以告知第二观众对象成功邀请第一观众对象加入合唱互动。在此方式下，邀请合唱的时机不被限制，丰富了合唱互动过程中的互动方式。

示例性地，请参见图3c所示的合唱邀请的操作示意图，如图3c中的(1)所示，第一观众对象侧的直播界面中显示有合唱邀请信息3301，该合唱邀请信息具体包括：“好友Y邀请你加入合唱”的提示文本以及“是”和“否”两个选项。第一观众对象可以选择“是”确认接受好友Y的合唱邀请，也可以选择“否”拒绝好友Y的合唱邀请。如图3c中的(2)所示，在第二观众对象侧的直播界面中，当点击合唱邀请入口3302，可以显示邀请对象列表3303，并且在邀请对象列表3303包括好友和同事的标识，具体为头像和昵称，当好友X的标识被选择时，好友X的直播界面中可显示如图3c中的(1)所示的内容，当好友X接受合唱邀请时，可以在直播界面中输出合唱确认信息3304：“好友X已接受邀请，一起合唱吧！”。

在一种实现方式中，当观众对象存在合唱互动需求，如触发合唱互动入口(例如点击合唱按钮)，或者被邀请加入合唱互动，观众对象所登录的客户端可进入RTC(Real-TimeCommunication，实时通讯)观看直播模式，并且支持录制演绎音频，并编码实时传输至服务器。在录制观众对象针对目标音乐的演绎音频之前，可以：进入录制模式，所述录制模式下的直播界面包括正在执行录制的观众对象的标识信息和直播间中的互动信息，该互动信息包括各个观众对象发表的评论信息，标识信息可以是头像、昵称等。此时观众对象是处于合唱互动的过程中，并且在录制的过程中可以实时地收听到合唱音频。当观众对象再次触发合唱互动入口(例如点击合唱按钮)，可以结束合唱，退出录制模式，结束演绎音频的录制，并正常观看直播，此时将不会收听到合唱音频。

示例性地，请参见图3d所示的录制演绎音频过程中的界面示意图，图3d所示的直播界面3401中，包括录制演绎音频的观众对象的头像3402以及其他观众对象发送的发言信息(如3403标记的内容)，以评论等形式进行展示。

在一个实施例中，在视频的播放过程中，响应于合唱互动需求，录制观众对象针对目标音乐的演绎音频之前，还可以执行如下操作：检测客户端当前所处的模式，若客户端当前处于内容分发模式，则切换至实时通信模式之后再执行录制。

通常观众对象观看直播大多数采用内容分发模式，简称CDN(Content DeliveryNetwork，内容分发网络)模式，在此模式下，客户端无法向服务器发送自己的音视频数据(例如观众对象的演绎音频)，若观众对象侧存在合唱互动需求，需要录制观众对象的声音数据并上传，因此，若客户端当前所处的模式为内容分发模式，则可以切换至实时通信模式，实时通信模式简称RTC(Real-Time Communication)模式，在此模式下，可以执行录制观众对象针对目标音乐的演绎音频，客户端可以实时地跟服务器通信从而将观众对象的声音数据(此处为演绎音频)实时地上传至服务器。若客户端当前所处的模式为RTC模式，则观众对象侧已经处于能够实时地向服务器发送音视频数据的模式，无需切换就可以直接执行录制。可见，通过对客户端当前所处模式的检测，在客户端所处模式不满足音视频传输条件时，可以切换当前所处的模式从而保证所录制的演绎音频的顺利传输。

在一个实施例中，观众对象的演绎音频发送给服务器之前，还可以进行相应的预处理，以减少数据传输所需的资源以及服务器的处理压力。具体的处理步骤包括：1)对观众对象针对目标音乐的演绎音频进行预处理，得到预处理后的演绎音频；2)将预处理后的演绎音频发送至服务器，以使得服务器基于接收到的演绎音频和主播对象的演出音频进行混音处理，得到合唱音频。

基于不同的预处理方式，预处理后的演绎音频有所不同。对于演绎音频的预处理可以使得演绎音频更高效地传输以及服务器的高效处理，因此，在终端侧可以将演绎音频进行预处理之后再发送至服务器，这样服务器接收到的演绎音频具体是经过预处理后的演绎音频，之后混音处理过程中也会相对高效地得到合唱音频。

在一种实现方式中，对观众对象针对目标音乐的演绎音频进行预处理，得到预处理后的演绎音频，包括：对演绎音频进行编码处理，得到预处理后的演绎音频；或者，对演绎音频进行回声消除处理，并对回声消除后的演绎音频进行编码处理，得到预处理后的演绎音频。

也就是说，对观众对象的演绎音频的预处理包括两种方式，一种是对演绎音频直接进行编码处理之后发送给服务器，另一种是对演绎音频先进行回声消除处理，再进行编码处理之后发送给服务器。其中，通过对演绎音频或者是回声消除后的演绎音频进行编码处理，可以降低数据的大小，提高传输效率，节省传输所需的资源。对演绎音频进行回声消除处理可以使得观众对象的演绎音频包括观众对象演绎目标音乐的声音(例如唱歌声)而不包括主播对象演出目标音乐的声音。此处采用回声消除处理是由于观众对象所录制的演绎音频是采用麦克风录制的，而扬声器的声音也会被麦克风录制，在观看主播对象演出目标音乐的视频的过程中，通过扬声器播放的声音包括主播对象演出目标音乐的声音，因此，原始录制的演绎音频中包括多路(至少两路)音频：观众对象演绎目标音乐的声音、扬声器播放的主播对象的声音以及环境噪声。通过回声消除处理可以除去麦克风录制到的扬声器播放的声音，获取观众对象的声音。回声消除处理可以使用由终端中内置的回声消除功能实现，具体根据需要可采用系统内置的回声消除功能，例如Android系统的VOICE_COMMUNICATION模式(语音通讯模式)自带的回声消除功能，也可以自定义回声消除。

可以理解的是，当观众对象采用耳麦(带麦克风的耳机)录制演绎音频时，由于没有扬声器播放声音，因此录制的演绎音频可以不用进行回声消除处理。若演绎音频是由麦克风录制的，而终端仅对演绎音频进行编码处理并将编码处理后的演绎音频发送给服务器，那么可以服务器可以先对演绎音频进行回声消除处理，除去经过麦克风录制到的扬声器播放的声音，进而执行之后的混音处理操作。在服务器执行混音处理的过程中，主播对象的演出音频可以作为观众对象的演绎音频的参考，主播对象的演出音频也可以经过如上述的预处理之后发送给服务器，例如经过编码处理之后发送给服务器，或者是经过编码处理以及回声消除处理之后发送给服务器，也可以是不做任何预处理直接发送给服务器，由服务器执行相应处理，相应处理可以包括回声消除处理。

在一个实施例中，合唱音频是基于主播对象针对目标音乐的演出音频和观众对象针对目标音乐的演绎音频进行混音处理得到的。由于在主播对象直播演出的过程中，既要通过摄影设备采集直播的现场画面，还要通过麦克风采集人声以及现场的背景声(例如演出伴奏等)，因此直播界面中所播放的主播对象演出目标音乐的视频包括主播对象针对目标音乐的演出音频以及演出画面。主播对象的演出音频可以仅仅是主播对象侧采集的伴奏音频，也可以是在伴奏下演唱歌曲的音频，即包括人声和伴奏声的演出音频。由于观众对象可以录制自己演绎目标音乐的音频(即演绎音频)，演绎音频中可包括观众对象的唱歌声和观众对象采用乐器演奏的乐器声中的一种或多种。合唱音频可以基于主播对象和具备合唱互动需求的观众对象演绎相同的音乐的音频(包括演出音频和演绎音频)进行混音处理得到的。对演出音频和演绎音频的混音处理可以由服务器执行，服务器通过混合所有存在合唱互动需求的观众对象的声音以及主播对象的音频得到合唱音频，并下发给客户端。举例来说，若目标音乐为歌曲，那么合唱音频可以是主播对象和观众对象共同合唱该歌曲产生的，若目标音乐为歌曲伴奏，那么合唱音频也可以是主播对象提供伴奏，观众对象在伴奏之下演唱该伴奏对应的歌曲而产生的。

可以理解的是，对于混音处理的详细过程可以参见下述实施例，此处主播对象以及观众对象均可接收到服务器下发的合唱音频并通过直播界面输出，在主播对象演出直播的过程中输出合唱音频，当应用于在线演唱会场景下，可以模拟真实的演唱会现场合唱，直播过程中合唱效果的获取可以满足观众对象对演唱会合唱的需求，扩展了在线演唱会场景下观众对象的互动参与方式，有利于提升演唱会直播中观众对象与主播对象之间的互动，增强观众对象的参与感。

请参见图4，图4是本申请一个示例性实施例提供的一种直播互动方法的流程示意图二。该直播互动方法可以由计算机设备(例如图1中的任一终端设备，如第二终端100b)来执行，计算机设备中运行有客户端。该直播互动方法可以包括以下内容。

S401，显示直播界面。

S402，在直播界面中播放主播对象演出目标音乐的视频。

S403，在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

上述步骤S401～S403可参见图2对应实施例中相应步骤所描述的内容，在此不做赘述。

在一个实施例中，可以：在直播界面中按照预设显示方式显示演绎目标音乐的观众对象的标识信息。由于在视频的播放过程中，允许观众对象演绎该视频对应的目标音乐，为了进一步增强互动体验，可以在直播界面中显示演绎目标音乐的观众对象的标识信息，演绎目标音乐的观众对象即参与合唱互动的观众对象，将参与合唱互动的观众对象的标识信息按照预设显示方式进行显示，可以进一步提升观众对象的参与感。其中，预设显示方式包括以下任一种：在固定位置显示、在任意位置显示、按照预设显示时长停留显示、滚动显示以及突出显示。

固定位置可以是直播界面中专用于显示观众对象的标识信息的显示区域，任意位置可以是直播界面中的任何位置；预设显示时长是指观众对象的标识信息在直播界面中显示的时长，例如10s，观众对象的标识信息可在直播界面中停留显示预设显示时长，例如停留显示10s，当超过预设显示时长时，观众对象的标识信息可隐藏于直播界面中，并支持在需要时被触发显示，例如以预设手势触发显示；滚动显示具体可以是沿预设方向(例如由下至上、由左到右)滚动显示，通过滚动显示可以实现观众对象的标识信息在直播界面中的动态呈现。突出显示可以通过对观众对象的标识信息添加合唱互动标识(比如合唱头像挂件或者是合唱称号)实现。

其中，标识信息包括以下任一种或多种：头像、昵称、地域、亲密度、活跃等级。头像和昵称可以是观众对象个性化的设置内容，可用于标识不同的观众对象，地域可以是观众对象的IP(Internet Protocol Address，互联网协议地址)所在的管理区域，也可以是观众对象自主设置的地点，例如城市C；亲密度可以是观众对象向主播对象之间进行单向互动的程度，可以通过观众对象对主播对象的点赞数量、评论数量以及赠送虚拟物品的数量等一个或多个维度的数据进行评估，例如观众对象赠送虚拟物品的数量越大，亲密度越高。活跃等级可用于评估观众对象在主播对象的直播过程中的活跃度，活跃等级越高，观众对象的活跃度越大。该活跃等级也可以基于观众对象在直播过程中的发言数量等维度的数据进行评估，例如发言数量越多，活跃等级越高。

示例性地，请参见图5a，图5a是本申请实施例提供的一种在直播界面中显示观众对象的标识信息的示意图。如图5a中所示，参与合唱互动的观众对象的标识信息，包括各个观众对象的头像、昵称等显示在固定区域5100中。

进一步地，将参与合唱互动的观众对象展示在直播界面中，还可以对观众对象进行执行相应的互动操作，该互动操作包括但不限于：查看参与合唱互动的观众对象的信息、向参与合唱互动的观众对象发送消息、点赞参与合唱互动的观众对象，等等。可以理解的是，当有新的观众对象加入合唱互动时，可以更新所输出的观众对象的标识信息，将新的观众对象的信息显示至直播界面中。

在一个实施例中，直播界面中设有合唱收听开关；合唱音频在合唱收听开关被开启的情况下被输出。具体地，合唱收听开关可设置于主播对象所登录的客户端显示的直播界面以及观众对象所登录的客户端显示的直播界面中的任一者或者两者。合唱收听开关用于控制合唱音频在本地客户端进行输出或不输出。合唱收听开关在开启的条件下可以输出合唱音频，相反，合唱收听开关被关闭的情况下，可以不输出合唱音频，当不输出合唱音频时，由于直播界面中播放主播对象演出目标音乐的视频，该视频所包含的主播对象的演出音频可以被输出。举例来说，观众对象的直播界面中设有合唱收听开关，当观众对象开启该合唱收听开关时，可以收听到参与合唱互动的观众对象和主播对象针对目标音乐的合唱音频，当观众对象关闭该合唱收听开关时，可以收听到主播对象演出目标音乐的演出音频。

示例性地，请参见图5b所示的设置合唱收听开关的示意图，如图5b中的(1)所示，5200所标记的合唱收听开关被开启的情况下，提示对象处于合唱收听模式，此时可以输出合唱音频，如图5b中的(2)所示，当5201所标记的合唱收听开关被关闭的情况下，提示对象处于普通观看模式，此时可以输出主播对象的演出音频而不会输出合唱音频，没有合唱效果。

通过在直播界面中设置合唱收听开关，可以为对象提供收听或不收听合唱音频的选择权，对象(包括观众对象和主播对象中一者或两者)可以按需对该合唱收听开关进行灵活地设置，从而在不同模式下观看直播内容。

在一个实施例中，直播界面显示于主播对象所登录的客户端中，可以：设置观众对象的合唱权限。也就是说，在主播对象侧允许主播对象对观众对象的合唱权限进行设置。其中，观众对象的合唱权限被设置为开启状态，则允许观众对象进行合唱互动；若观众对象的合唱权限被设置为关闭状态，则禁止观众对象进行合唱互动。该合唱权限是用于应允观众对象进行合唱互动的条件。

在一种实现方式中，直播界面中设有权限开关，设置观众对象的合唱权限具体可以包括：开启权限开关，则设置观众对象的合唱权限为开启状态；关闭权限开关，则设置观众对象的合唱权限为关闭状态。合唱权限的开启状态下观众对象具备合唱权限，合唱权限的关闭状态下观众对象不具备合唱权限。合唱权限的开启状态或者是关闭状态的设置可以基于主播对象的直播界面中所设置的权限开关实现。该权限开关类似于合唱收听开关，可以被开启或者是关闭，进而设置不同状态的合唱权限。进一步地，主播对象对观众对象的合唱权限的设置可以影响合唱互动入口的有效状态，例如主播对象设置观众对象授予观众对象合唱权限，那么观众对象的直播界面中原本隐藏的合唱互动入口可以触发显示，或者是显示在直播界面中的合唱互动入口由原本的操作无响应状态(比如点击无效)切换为操作响应状态(比如点击后可进入录制)。

示例性地，如图5c所示的设置权限开关的示意图，设置于主播对象所在的直播界面中，如图5c中的(1)所示，权限开关5300处于开启状态，权限开关周围输出提示文字：“允许合唱”。此时如前述3b中观众对象侧显示的合唱互动入口可被操作。如图5c中的(2)所示，权限开关处于关闭状态，权限开关5301周围输出提示文字：“禁止合唱”，此时如前述3b中观众对象侧显示的合唱互动入口不可被操作。

可见，通过为主播对象提供合唱权限的设置，可以使得主播对象自主地控制观众对象参与合唱互动的时间，主播对象和观众对象之间可以基于该合唱权限进行双向互动，从而提高互动性。

在一个实施例中，直播界面中设有合唱收听范围开关，该合唱收听范围开关可以是设置在直播界面中任意位置中的控件或者是选项。基于合唱收听范围开关可以支持以下功能：当合唱收听范围开关被开启时，触发从社交关系链列表中选择合唱收听范围；输出合唱收听范围内的对象针对目标音乐的演绎音频。

社交关系链列表是用于表示对象之间社交连接社交关联关系的联系人列表。其中，社交关联关系可以是好友关系、同事关系、同学关系等等。社交关系链列表中包括的对象是与操作合唱收听范围开关的对象具备社交关联关系，且正在参与合唱互动的观众对象。基于社交关系链列表可以选择合唱收听范围，具体可以从社交关系链列表中选择一个或多个对象的标识来锁定合唱收听范围，该合唱收听范围包含被选择的至少一个具备社交关联关系的对象标识。该对象标识可以是头像和昵称中的任一种或多种。通过合唱收听范围的设置，可限定演绎目标音乐的对象，合唱收听范围确定之后可输出该合唱收听范围内的对象针对目标音乐的演绎音频。

在一种实现方式中，输出合唱收听范围内的对象针对目标音乐的演绎音频，包括以下任一种输出方式：①将合唱收听范围内的对象针对目标音乐的演绎音频进行融合后输出；②将合唱收听范围内的对象针对目标音乐的演绎音频与主播对象针对目标音乐的演出音频进行融合后输出；③分别输出合唱收听范围内的各对象针对目标音乐的演绎音频。

当采用输出方式①或者输出方式②输出演绎音频时，演绎音频融合在目标合唱音频中进行输出，该目标合唱音频可以是合唱收听范围内的演绎音频融合后得到的，或者是合唱收听范围内的演绎音频与主播对象针对目标音乐的演出音频融合后得到的。此处的融合可以理解为混音处理，当仅包括多个演绎音频进行混音处理时，可将最早接收到的演绎音频作为基准进行对齐，各个演绎音频经过回声消除、时延对齐、混音等处理之后可得到目标合唱音频。当包括演出音频在内的混音处理时，主播对象的演出音频可作为基准进行对齐。融合处理之后输出的目标合唱音频由于时延对齐等处理，可以获得优质的合唱效果。当输出演绎音频采用输出方式③时，服务器在接收到合唱收听范围内的演绎音频之后不做任何处理之后直接转发给观众对象，由于网络时延等问题，各个演绎音频的输出可能不是在同一时刻，虽然各个演绎音频没有融合，但是各个演绎音频的输出也类似于合唱音频，在此方式下能够快速地获得合唱效果。

示例性地，请参见图5d所示的设置合唱收听范围的操作示意图。如图5d中的(1)所示，直播界面中设置有合唱收听范围开关5401，当合唱收听范围开5401被开启时，可显示社交关系链列表5402，如图5d中的(2)所示，该社交关系链列表5402中包括正在合唱的多个好友，从社交关系链列表5402中选择好友X和好友Z，可以仅收听好友X和好友Z，从而限定了合唱收听范围，进一步地，还可以在直播界面中输出合唱收听范围的设置提示信息，该设置提示信息用于提示观众对象已成功设置合唱收听范围，如图5d中的(3)所示，设置提示信息5403具体包括：“已锁定合唱收听范围，你将收听到好友X、Z的合唱！”，从而实现收听好友合唱的效果。

基于社交关系链列表可自由地选择任意的对象来确定合唱收听范围，通过将合唱收听范围限定在社交关系链列表所包括的联系人之间，可以实现仅收听好友的合唱。由于不同观众对象的社交关系链不同，各个观众对象可以定制化地设定合唱收听范围，收听到不同的演绎音频混音处理之后得到的合唱音频，或者收听到演出音频和演绎音频进行混音处理后得到的合唱音频，或者是直接收听到各个演绎音频和/或演出音频，从而丰富直播过程中的合唱收听功能。

在一个实施例中，直播界面显示于观众对象所登录的客户端中，在观众对象还可以提供以下功能：当主播对象发起与观众对象的连线交互时，输出连线提示信息；响应于对连线提示信息的确认，在直播界面中同步显示确认连线的观众对象的实时画面。

主播对象可主动对观众对象发起连线交互，此处连线交互是指主播对象与观众对象之间建立实时通讯连接且可进行双向的互动。在一种实现方式中，主播对象发起连线交互的观众对象可以是参与合唱互动的观众对象中的一个或多个。在主播对象选择任意一个或者多个观众对象进行连线交互时，在观众对象一侧的直播界面中可以输出连线提示信息，该连线提示信息用于提示观众对象存在连线交互的邀约，连线提示信息可以是文本、图像或者是动画等诸多形式，在此不做限制。连线提示信息例如是“xx向你发起连麦，是否允许”。对连线提示信息的确认表示观众对象同意主播对象向自己发起的连线交互，进而可以直播界面中同步显示自己的实时画面。其中，确认连线的观众对象的实时画面的显示方式包括以下一种或多种：叠加显示、分屏显示。当存在多个确认连线的观众对象，各个确认连线的观众对象的实时画面可以分屏显示在直播界面中，可以理解的是，确认连线的观众对象的实时画面以及主播对象正在直播的实时画面可以一同显示，主播对象一侧的直播界面中也可以同步显示确认连线的观众对象的实时画面。分屏显示可以是均分或者是不均分显示，例如主播对象的实时画面的显示占比大于观众对象的实时画面的显示占比。通过分屏显示各个对象的画面均可不被遮挡地显示；也可以叠加显示在主播对象直播的实时画面上，进一步地，叠加显示的观众对象的实时画面可以支持隐藏，从而不影响主播对象的实时画面展示。

示例性地，如图5e所示的连线交互的效果示意图。在观众对象的直播界面中，显示有连线提示信息5500：“来自JACK的连线，是否连接”，以及“是”和“否”两个操作选项，当观众对象点击“是”，则可以按照预设显示方式在直播界面中显示观众对象的实时画面，若采用叠加显示的方式，则可以如图5e中5501所标记的直播界面中叠加显示观众对象的实时画面。若采用分屏显示的方式，则可以在如图5e中5502所标记的直播界面中将各个观众对象以及主播对象的实时画面进行分屏显示。

通过为主播对象和观众对象之间提供连线交互功能，可以使得主播对象选取任意观众对象进行面对面的线上交流，丰富主播对象进行直播的氛围，进一步提升观众对象在直播过程中的参与感，增强直播互动的趣味性和互动性。

在一个实施例中，观众对象在合唱的过程中可以发布合唱直播供其他对象收听，直播界面显示于观众对象所登录的客户端中，具体地：在合唱互动的过程中，响应于直播发布需求，在合唱直播间发布观众对象关于合唱互动的直播；当进入至合唱直播间时，输出合唱直播间的直播数据。

此处直播发布需求是指以观众对象本身作为主播对象，通过直播形式发布观众对象当前观看的直播内容的需求。在一种实现方式下，直播界面中设置有直播发布按钮，触发所述直播发布按钮，产生直播发布需求，从而可以在合唱直播间发布观众对象关于合唱互动的直播。

合唱直播间是指在观众对象存在直播发布需求时为该观众对象分配的虚拟交互空间，可用于发布关于合唱互动的直播。合唱直播间可以由演出直播所在的直播平台承载，也可以由不同于演出直播的其他直播平台承载，例如演出目标音乐的视频在直播平台P1播放，而合唱直播间发布的直播在直播平台P2播放。合唱直播间的主播对象即发布关于合唱互动的直播的观众对象。在合唱直播间中发布的关于合唱互动的直播(以下简称合唱互动直播)可以实时地呈现发布关于合唱互动的直播的观众对象所采集到的画面和音频。

当进入合唱直播间时，可以输出合唱直播间的直播数据。该合唱直播间的直播数据包括以下至少一种：观众对象针对所述目标音乐的演绎音频，包含主播对象演出目标音乐的视频的直播画面，包含主播对象演出目标音乐的视频和观众对象的合唱画面的直播画面，针对所述目标音乐的合唱音频。

合唱直播间的直播数据可以包括音频数据：观众对象针对所述目标音乐的演绎音频、针对所述目标音乐的合唱音频中任一种。还可以包括画面数据：包含主播对象演出目标音乐的视频的直播画面，包含主播对象演出目标音乐的视频和观众对象的合唱画面的直播画面中的任一种。合唱直播间的直播数据也可以仅包括音频数据或者画面数据。这些直播数据均是由发布合唱互动直播的观众对象侧的设备采集得到的。

由于发布合唱互动直播的观众对象参与合唱互动，输出的直播数据可以包括发布合唱互动直播的观众对象针对目标音乐的演绎音频，或者包括发布合唱互动直播的观众对象、其它观众对象以及主播对象针对目标音乐的合唱音频，或者包括该观众对象与指定的合唱范围内的对象针对目标音乐的合唱音频。为了更加生动的展示合唱互动直播，合唱直播间的直播数据除了音频数据，还可以包括画面数据。其中，包含观众对象的合唱画面的直播画面可以是发布该合唱互动直播的观众对象演绎目标音乐的实时画面，包含主播对象演出目标音乐的视频的直播画面与该视频所展示的画面是相同的，属于原始演出直播画面。

在一种实现方式中，当合唱直播间的直播数据包括包含主播对象演出目标音乐的视频和观众对象的合唱画面的直播画面时，主播对象演出目标音乐的视频和观众对象的合唱画面被融合后再进行显示，或者主播对象演出目标音乐的视频和观众对象的合唱画面被分屏显示。

也即，合唱直播间的直播画面可以是主播对象演出目标音乐的视频和观众对象的合唱画面融合在一起所显示的画面，例如将观众对象的合唱画面经过一定特效处理后与原始直播画面融合显示；也可以是一个画面叠加在另一个画面上进行显示，例如观众对象的内容画面叠加至主播对象演出目标音乐的视频上进行显示；还可以是两个画面分屏显示，例如在显示屏幕中主播对象演出目标音乐的视频和观众对象的合唱画面各占一半分屏显示。

可以理解的是，进入合唱直播间的其他对象可以实时地输出该合唱直播间的直播数据，从而可以实时地收听到发布该合唱互动直播的观众对象侧播放的音频，以及显示合唱互动直播的直播画面。该音频具体可以是该观众对象针对目标音乐的演绎音频，也可以是所有参与合唱互动的观众对象与主播对象针对目标音乐的合唱音频，还可以是该观众对象与指定的合唱收听范围内的观众对象针对目标音乐的合唱音频。合唱互动直播的直播画面包括原始演出直播画面以及观众对象的合唱画面中的一种或多种。

举例来说，请参见图5f所示的发布关于合唱互动的直播的操作示意图。观众对象A在主播对象Jack的演出直播间中参与合唱互动，在合唱互动时观众对象A通过点击直播界面中直播发布按钮5601可以一键发布关于合唱互动的直播至合唱直播间，该合唱直播间的主播对象为观众对象A。在关于合唱互动的直播发布之后，进入观众对象A的合唱直播间可以实时地收听观众对象A在Jack的直播间中参与合唱互动的演绎音频，并且直播界面中显示的直播画面，该直播画面可以是5602所标记的分屏显示的主播对象Jack的原始演出直播画面和观众对象A的合唱画面，也可以是5603所标记的融合显示的主播对象Jack的原始演出直播画面和观众对象A的合唱画面。

由此，观众对象在参与合唱互动的过程中，支持一键发布观众对象关于合唱互动的直播，进入合唱直播的任一对象可以实时地收听到该合唱音频并观看到直播画面。通过合唱直播的形式可以更为广泛地传播原始演出直播以及观众对象参与的合唱互动，进一步增加观众对象的互动性和参与感。

在一个实施例中，还可以：输出参与提示信息，参与提示信息用于提示存在加入合唱互动的观众对象。具体地，在视频的播放过程中，支持一个或多个观众对象进行合唱互动，共同演绎主播对象演出的目标音乐。在目标音乐演出的任意时刻，可能都会有观众对象加入，和其他正在演绎该目标音乐的观众对象共同参与该目标音乐的演绎。通过在直播界面中输出参与提示信息，可以直观地提示各个对象有新的观众对象加入合唱互动，以更好地帮助各个对象了解当前合唱互动的实时参与情况，并且还可以增加新加入合唱互动的观众对象的参与感以及整体合唱的氛围感。其中，参与提示信息包括以下一种或多种：参与提示文本、参与提示动画以及参与提示图像。参与提示文本例如可以是“xx加入合唱”，参与提示动画可以是动态播放的视频或者是动图，例如在直播界面中显示一个正在舞动的麦克风，参与提示图像可以是静态显示的图像，例如多个麦克风的图片。参与提示信息可以是以上一种或多种的组合，例如参与提示文本和参与提示动画的组合，或者是参与提示文本和参与提示图像的组合，或者是仅有参与提示文本等等。在此不一一举例。示例性地，请参见图5g所示的输出参与提示信息的示意图。在直播界面中显示的参与提示信息5701包括：合唱图标以及文本“小霖加入合唱”。

S404，显示观众对象针对目标音乐的演绎音频的链接及合唱音频的链接。

链接是由直播界面指向另一个目标的连接关系，所指向的目标可以是演绎音频文件或者是合唱音频文件，也可以是演绎音频或者合唱音频的存储地址(例如服务器)。该链接具体可以表现为一个可操作按钮(或者选项)，也可以是一段文本，或者多种形式的组合，在此不做限制。通过将观众对象的演绎音频的链接以及合唱音频的链接显示出来，具体可以显示到直播界面中，进而可以为对象提供演绎音频和合唱音频的快捷获取方式，例如通过触发该链接可以获取到对应的演绎音频或者是合唱音频，并执行进一步的应用处理(如S405)。示例性地，请参见图5h所示的显示链接的示意图。在直播界面中所显示的合唱音频的链接5801以及演绎音频的链接5802均为可操作选项。可以理解的是，演绎音频的链接可以是在观众对象结束演绎目标音乐之后显示的，合唱音频的链接也可以在结束演绎目标音乐之后同步显示，或者是在所有参与合唱互动的观众对象结束对目标音乐的演绎之后显示的。需要说明的是，本申请中提供的各种音频(例如合唱音频、演绎音频等)都是符合版权要求的音频。

S405，基于链接执行应用处理。

基于链接可以为各个对象(包括主播对象和观众对象)提供对演绎音频或者是合唱音频的应用处理：基于演绎音频的链接可以执行对演绎音频的应用处理，基于合唱音频的链接可以执行对合唱音频的应用处理。其中，应用处理包括以下任一种：保存、下载、分享以及编辑。从中选择一种可以该链接所对应的音频执行相应的处理，例如选择保存，可以将音频保存至本地或者保存至云端，选择下载可以缓存音频，选择分享可以将音频发送至其他对象，例如分享给好友或者是分享至其他应用，选择编辑可以进行个性化的编辑处理等等。此外，应用处理还可以包括但不限于：收藏、转发等等。示例性地，如图5i所示的应用处理的示意图，触发合唱音频的链接可以在合唱音频的链接周围显示应用处理操作面板5901，该应用处理操作面板5901支持以上一种或多种应用处理的方式，包括保存、分享、收藏、编辑以及下载，观众对象可以选择其中任一种执行对合唱音频的应用处理。可见，通过提供音频(包括演绎音频和合唱音频)的链接，观众对象或者主播对象可以基于该链接处理对于自身来说有价值的音频数据，从而延续合唱互动环节的所带来的互动参与体验。

本申请实施例提供的直播互动方案，可以基于链接对所录制的演绎音频以及输出的合唱音频进行便捷的应用处理，支持对象个性化地处理所需的音频。此外，在主播对象演出直播的过程中，主播对象侧可以设置观众对象的合唱权限，由主播对象掌握观众对象可参与合唱互动的部分主动权，具体可以通过直播界面中的权限开关进行快速便捷地设置。主播对象还可以发起与观众对象的连线交互，进而在观众对象确认连线时在直播界面中同步显示观众对象的实时画面，增加直播的氛围感。各个对象的直播界面中可以显示观众对象的标识信息，还可以输出用于提示存在加入合唱互动的观众对象的参与提示信息，从而进一步提升观众对象的参与感和互动性，并且直播界面中设置的合唱收听开关可以根据对象的需求灵活控制合唱音频的输出，进而能够满足对象在直播过程中的不同需求。

请参见图6，图6是本申请一个示例性实施例提供的一种直播互动方法的流程示意图三。该直播互动方法可以由计算机设备(如图1中的服务101)来执行。该直播互动方法可以包括以下内容。

S601，向客户端发送主播对象演出目标音乐的视频，使客户端在直播界面中播放主播对象演出目标音乐的视频。

此处客户端具体是指观众对象所登录的客户端，服务器将主播对象演出目标音乐的视频发送给观众对象所登录的客户端，进而可以使得观众对象所登录的客户端显示的直播界面播放该视频，从而实现主播对象侧的事件实时地同步给观众对象进行观看。其中，主播对象演出目标音乐的视频可以是由主播对象所登录的客户端进行采集录制得到的，该视频可以实时地发送给服务器，并由服务器转发给观众对象所在的客户端，进而通过观众对象的客户端显示的直播界面进行播放。对于直播界面中播放主播对象演出目标音乐的视频可以参见前述图2对应实施例的介绍，在此不做赘述。

S602，接收观众对象针对目标音乐的演绎音频。

服务器接收的演绎音频是观众对象所登录的客户端进行录制并实时上传的。当观众对象侧存在合唱互动需求，观众对象所登录的客户端支持对观众对象针对目标音乐的演绎音频进行录制，录制的演绎音频就可以实时地上传给服务器并由服务器接收。

S603，对主播对象针对目标音乐的演出音频和观众对象针对目标音乐的演绎音频进行混音处理得到，得到合唱音频。

主播对象和观众对象对同一首音乐的演绎可以得到对应的音频数据，主播对象演出目标音乐的音频即演出音频，观众对象演绎目标音乐的音频即演绎音频，演出音频和演绎音频可以进行混音处理后得到合唱音频，实现合唱效果。

在一个实施例中，S603的具体实现步骤可以包括：1)对主播对象针对目标音乐的演出音频，以及演绎音频进行偏移对齐处理；2)将对齐后的主播对象针对目标音乐的演出音频与演绎音频进行混音处理，得到合唱音频。

由于每个观众对象的设备、网络带宽与稳定性的差异，发送至服务器的声音数据(即预处理后的演绎音频)在时间上可能存在误差，为了让合唱的声音(包括各个观众对象的演绎音频以及主播对象的演出音频)同步，可选择以主播对象的演出音频为基准，其他观众对象的演绎音频相对主播对象的演出音频进行偏移对齐处理，此处偏移对齐处理是指将演绎音频和演出音频之间的偏差进行调整以对齐的处理。通过偏移对象处理可以将演绎音频和演出音频同步，进而可将对齐处理后的演绎音频和演出音频进行混音，得到效果更佳的合唱音频。

在一种实现方式中，对主播对象针对目标音乐的演出音频，以及演绎音频进行偏移对齐处理，包括：确定演绎音频与主播对象的演出音频之间的相似度；基于相似度确定演绎音频与演出音频之间的偏移值；基于偏移值对齐演绎音频与演出音频。

此处将演绎音频和演出音频进行相似度比较，例如基于音频指纹(一种声音识别算法，可用于识别海量的声音样本)的比较，可以确定观众对象的演绎音频和主播对象的演出音频之间的相似度。以主播对象的演出音频为基准，可获取预设时间区间内的演出音频与演绎音频之间相似度，预设时间区间是以服务器接收到的演出音频的任一时间点为中心，分别向左和向右取一段时间区间构成的。为了避免不必要的处理资源的浪费，可以设置演绎音频和演出音频之间的相似度达到相似度阈值之后，才可采用演绎音频与演出音频进行混音的条件。这是由于当相似度达到相似度阈值说明演绎音频和演出音频演绎相同的乐曲的可能性越大，通过对齐两个音频是可以克服相应的时延偏移，并得到更佳的合唱效果的。若相似度并未达到相似度阈值，说明观众对象所录制的演绎音频和主播对象可能并不是同一音乐，例如若观众对象误触合唱互动入口录制了自己讲话的声音得到相应的音频，但该音频并不是演唱歌曲的演绎音频。通过相似度可以对此进行判断并直接丢弃该演绎音频，从而直接省略这种演绎音频的混音处理。

演绎音频和演出音频之间的偏移值是在相同音频特征所处的时间偏差值，即两个音频之间的时延偏移(或者简称时延)，该时间偏差值可基于服务器处理主播对象的演出音频的时刻为基准进行确定。举例来说，演出音频在音频特征a的时间点为t1，演绎音频中与音频特征a相同的音频特征所在的时间点为t2，且t2大于t1，那么时延偏差delay＝t2-t1。其中，t2和t1为大于0的数。如图7a所示的时延示意图，演出音频和演绎音频之间存在时延(delay)。按照偏移值可以调整演绎音频，将演绎音频和演出音频对齐，此时演绎音频和演出音频之间的偏移值为0，从而实现演绎音频相对于演出音频的偏移对齐处理。

在一种实现方式中，将对齐后的主播对象针对目标音乐的演出音频与演绎音频进行混音处理，得到合唱音频，包括：按照预设增益比例调整演绎音频的音量以及演出音频的音量；对调整后的演绎音频和演出音频进行叠加，得到合唱音频。

由于在真实的演出现场中(例如演唱会现场中)，演出对象(例如歌手，对应于主播对象)演出音乐是有其他设备例如手麦(即手持麦克风)加持的，因此在线下的演出现场演出对象的声音是较大的。为了更真实地模拟线下演出现场，在线上模拟合唱时，可以通过给主播对象和观众对象的声音的音量赋予一定的值，此处可以是将主播对象的演出音频的音量和观众对象的演绎音频的音量按照预设增益比例进行调整，调整后的演绎音频的音量通常比调整后的演出音频的音量大，这样可以更好地模拟真实演出现场。预设增益比例是指各个音频的音量之间的增益比例，可以根据经验预先设定，该预设增益比例可以是一个经验值，也可以在直播过程中基于线上录制的音频按需进行动态地调整。例如预设增益比例为100:1，那么主播对象的演出音频的音量可以为100，观众对象的演绎音频的音频可以为1，调整后的演绎音频和调整后的演出音频可以进行叠加，通过叠加可以将各个音频进行混合，获得混音效果的合唱音频。

在一个实施例中，服务器共接收到M个观众对象针对目标音乐录制得到的M个演绎音频；M为正整数。S603具体可采用以下任一种方式实现：①对M个演绎音频和主播对象的演出音频进行混音处理，得到合唱音频。②从M个演绎音频中选择P个演绎音频，并对P个演绎音频和主播对象的演出音频进行混音处理，得到合唱音频；P为正整数，且P≤M。

鉴于服务器处理声音数据的能力是有限的，因此可以基于服务器的处理能力匹配针对M个演绎音频的相应处理方式。当合唱人数(即存在合唱互动需求的观众对象的数量)较少时，对于M个演绎音频的处理在服务器的处理能力范围之内，服务器可以选择处理全部观众对象的演绎音频，即S603具体可采用方式①。可以理解的是，此方式下，对于M个演绎音频中每个演绎音频与演出音频的混音处理均可采用前述针对S603步骤详细介绍的内容，在此不做赘述。

当合唱人数超出服务器处理能力上限时，即对于M个演绎音频的处理在服务器的处理能力范围之外时，服务器可以随机选择观众对象的演绎音频进行混音处理，即S603具体可采用方式②。其中，选择包括以下任一种或多种：随机选择；按照演绎音频与主播对象针对目标音乐的演出音频之间的相似度由高至低的顺序选择；按照演绎音频对应的观众对象与主播对象之间的亲密度由高至低的顺序进行选择；以演出音频的单位时间区间为基准进行选择。

也就是说，可以从M个演绎音频中随机选择P个演绎音频；当服务器接收到海量的演绎音频时，随机选择部分演绎音频可以减轻服务器的处理压力。也可以对M个演绎音频与演出音频之间的相似度由高到低进行排序，并选择相似度排列在前P位的P个演绎音频；通过相似度的选择可以在一定情况下省略在偏移对齐处理过程中筛选与演出音频相似的演绎音频的处理步骤，从而实现更加高效的处理。也可以将M个演绎音频对应的M个观众对象与演出音频对应的主播对象之间的亲密度由高到低进行排序，并选择亲密度排列在前P位的P个主播对象的演绎音频；此处主播对象和观众对象之间的亲密度是指观众对象对主播对象的单向互动程度，可以通过例如观众对象对主播对象的点赞量、评论量以及赠送的虚拟物品数量中的任一种或多种进行评判。基于亲密度的选择可以在一定程度上激励观众对象参与主播对象的互动，从而通过合唱音频的选择给予观众对象正向的反馈。还可以是以主播对象的演出音频的单位时间区间为基准，在每个单位时间区间内随机选择观众对象的演绎音频进行混音，该单位时间区间可以是预设的划分时间区段，比如5s。演出音频按照单位时间区间可以划分为多个演出音频片段，若最后一个演出音频片段的时间不足5s，则按照实际的时间长度计算。举例来说，在一个单位时间区间内随机选择观众对象的演绎音频进行混音，而在下一个单位时间区间可重新随机选择观众对象的演绎音频进行混音，通过在不同时间区段内随机选择观众对象的演绎音频进行混音，可以在服务器的处理能力上限之下尽可能地覆盖更多观众对象的演绎音频的处理，从而提高观众对象参与合唱的概率。可以理解的是，对于P个演绎音频和主播对象的演出音频进行混音处理过程也可以参考前述针对S603步骤详细介绍的内容，在此不做赘述。

S604，将合唱音频发送至客户端，使客户端在视频的播放过程中，输出合唱音频。

基于上述混音处理得到的合唱音频可发送至观众对象所登录的客户端，这样在观众对象所登录的客户端播放主播对象演出目标音乐的视频的过程中，便可输出接收到的合唱音频，获得合唱效果。可以理解的是，合唱音频也可以发送给主播对象所登录的客户端，从而主播对象所登录的客户端也可以输出接收到的合唱音频，获得合唱效果。

本申请实施例提供的直播互动方案，可以由服务器执行，服务器可以将主播对象演出目标音乐的视频转发给观众对象所在的客户端，当观众对象所在的客户端播放该视频时，观众对象可以演绎该视频中的目标音乐，从而服务器可以接收观众对象录制的演绎音频，对于接收到观众对象的演绎音频和主播对象的演出音频可以进行混音处理，得到合唱音频并将其发送给各个客户端进行输出，这样可以模拟真实场景中的合唱效果，使观众对象获得更好的互动体验和参与体验。在此基础之上，在混音处理的过程中，为了保证合唱音频的质量，获得更好的合唱效果，会处理各个演绎音频与演出音频之间的时延偏移以对齐各个音频，并叠加获得真实的合唱效果。此外，在音频数据的处理量非常大时，还可以选择部分或者是分时间段选择进行处理，从而在服务器可控的处理范围内进行处理。

基于上述内容，提供如图7b所示的处理流程示意图。以对象在直播平台观看演唱会直播为例进行说明，观众对象可以使用合唱功能录制自己唱歌的声音，然后传输到服务器，并由服务器将主播对象与其他观众对象的声音进行混音，下发给主播对象和所有观众对象获得合唱效果。具体实现包括以下步骤：

客户端侧：

S701：合唱。观众对象可以进入主播对象的直播间，显示直播界面，并点击直播界面中的合唱按钮启动合唱。

S702：判断客户端当前是否处于RTC模式，若客户端当前处于RTC模式，可以执行S704，若客户端当前不处于RTC模式，可以执行S703。

S703：切换到RTC模式。在RTC模式下可向与服务器进行实时通信，发送自己的音视频数据。

S704：录制声音。客户端进入RTC模式观看直播，可开始录制演绎音频。录制的演绎音频可以经过回声消除(S705，可选)以及编码(S706)之后，上传给服务器(S707)。

服务器侧：

S708：混音选择。由于服务器处理声音的能力是有限的，服务器处理的声音数据的量可以与服务器的处理能力进行匹配。当合唱人数较少时，服务器可以选择处理全部合唱数据(包括演绎音频和演出音频)，当合唱人数超出服务器处理能力上限时，服务器可以随机选择观众对象的演绎音频进行混音。

S709：时延偏移。通过时延偏移可以使得合唱声音同步，具体可以选择以主播对象的演出音频为基准，让各个观众对象的演绎音频与之进行对齐。

S710：增益处理。给主播对象和观众对象的音频音量赋以一定的值以模拟真实演出场景的合唱。

S711：混音。将经过以上处理后的音频进行叠加，获得混音(即合唱音频)。

S712：下发混音。向客户端发送合唱音频，使得观众对象和主播对象获得合唱效果。

可以理解的是，上述涉及语音处理(包括演绎音频、演出音频的处理)的过程可以有多种算法(例如回声消除、音频指纹、声纹识别等等)实现，在此不做限制；当录制观众对象的语音信号需要进行回声消除处理时，在客户端也可以不经过回声消除处理而是直接编码之后传输给服务器，并由服务器进行回声消除处理。通过上述处理，可以模拟真实演出场景中的观众合唱，满足演唱会场景中观众合唱的需求，扩展了直播平台中针对在线演出场景的互动参与方式，通过合唱提高线上演唱会直播的互动性，提高观众的参与感。

请参见图8a，图8a是本申请一个示例性实施例提供的一种直播互动装置的结构示意图。上述直播互动装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该直播互动装置为一个应用软件；该直播互动装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8a所示，该直播互动装置800可以包括以下至少一种：显示模块801、播放模块802、输出模块803、录制模块804、设置模块805、处理模块806、检测模块807以及收发模块808。

显示模块801，用于显示直播界面；

播放模块802，用于在直播界面中播放主播对象演出目标音乐的视频；

输出模块803，用于在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

在一个实施例中，直播界面显示于观众对象所登录的客户端中，录制模块804，用于：在视频的播放过程中，响应于合唱互动需求，录制观众对象针对目标音乐的演绎音频；其中，合唱音频是基于主播对象针对目标音乐的演出音频和观众对象针对目标音乐的演绎音频进行混音处理得到的；观众对象针对目标音乐的演绎音频包括以下任一种或多种：观众对象演唱目标音乐而产生的演唱音频；或观众对象采用乐器演奏目标音乐而产生的演奏音频。

在一个实施例中，直播界面中设有合唱互动入口，当合唱互动入口被选择时，产生合唱互动需求；或者，直播界面中设有互动区域，当互动区域中接收到合唱互动操作手势时，产生合唱互动需求；其中，合唱互动入口的设置方式包括以下任一种：设置于直播界面中的任意固定位置；悬浮设置于直播界面中的动态位置；隐藏于直播界面中，需要触发显示；其中，触发显示包括以下任一种：到达显示时段时触发显示，存在触发操作时触发显示，具备合唱权限的条件下触发显示。

在一个实施例中，直播界面显示于主播对象所登录的客户端中，设置模块805，用于：设置观众对象的合唱权限；其中，若观众对象的合唱权限被设置为开启状态，则允许观众对象进行合唱互动；若观众对象的合唱权限被设置为关闭状态，则禁止观众对象进行合唱互动。

在一个实施例中，直播界面中设有权限开关；设置模块805，具体用于：开启权限开关，则设置观众对象的合唱权限为开启状态；关闭权限开关，则设置观众对象的合唱权限为关闭状态。

在一个实施例中，直播界面显示于观众对象所登录的客户端中，输出模块803，用于：当主播对象发起与观众对象的连线交互时，输出连线提示信息；显示模块801，用于：响应于对连线提示信息的确认，在直播界面中同步显示确认连线的观众对象的实时画面；其中，确认连线的观众对象的实时画面的显示方式包括以下一种或多种：叠加显示、分屏显示。

在一个实施例中，显示模块801，还用于：在直播界面中按照预设显示方式显示演绎目标音乐的观众对象的标识信息；其中，预设显示方式包括以下任一种：在固定位置显示、在任意位置显示、按照预设显示时长停留显示、滚动显示以及突出显示；标识信息包括以下任一种或多种：头像、昵称、地域、亲密度、活跃等级。

在一个实施例中，直播界面中设有合唱收听开关；合唱音频在合唱收听开关被开启的情况下被输出。

在一个实施例中，输出模块803，还用于：输出参与提示信息，参与提示信息用于提示存在加入合唱互动的观众对象；其中，参与提示信息包括以下一种或多种：参与提示文本、参与提示动画以及参与提示图像。

在一个实施例中，显示模块801，还用于：显示观众对象针对目标音乐的演绎音频的链接及合唱音频的链接；处理模块806，用于：基于链接执行应用处理；其中，应用处理包括以下任一种：保存、下载、分享以及编辑。

在一个实施例中，在录制模块804执行录制之前，检测模块807，用于：检测客户端当前所处的模式；若客户端当前处于内容分发模式，则切换至实时通信模式之后再执行录制。

在一个实施例中，处理模块806，还用于：对观众对象针对目标音乐的演绎音频进行预处理，得到预处理后的演绎音频；将预处理后的演绎音频发送至服务器，以使得服务器基于接收到的演绎音频和主播对象的演出音频进行混音处理，得到合唱音频。

在一个实施例中，处理模块806，具体用于：对演绎音频进行编码处理，得到预处理后的演绎音频；或者，对演绎音频进行回声消除处理，并对回声消除后的演绎音频进行编码处理，得到预处理后的演绎音频。

在一个实施例中，观众对象包括第一观众对象和第二观众对象，第一观众对象和第二观众对象之间具备社交关联关系；直播界面显示于第一观众对象所登录的客户端中，收发模块808，用于：接收第二观众对象向第一观众对象发出的合唱邀请信息，合唱邀请信息用于指示第二观众对象请求与第一观众对象合唱演绎目标音乐；当合唱邀请信息被确认时，产生合唱互动需求。

观众对象包括第一观众对象和第二观众对象，第一观众对象和第二观众对象之间具备社交关联关系；直播界面显示于第二观众对象所登录的客户端中，直播界面中设有合唱邀请入口；显示模块801，用于：响应于对合唱邀请入口的触发操作，显示邀请对象列表，邀请对象列表中至少包括第一观众对象的标识；收发模块808，用于：当邀请对象列表中的第一观众对象的标识被选择时，向第一观众对象发送合唱邀请信息，合唱邀请信息用于指示第二观众对象请求与第一观众对象合唱演绎目标音乐；当接收到对合唱邀请信息的确认时，产生合唱互动需求。

在一个实施例中，输出模块803，还用于：在合唱互动的过程中，响应于直播发布需求，在合唱直播间发布所述观众对象关于所述合唱互动的直播；当进入至所述合唱直播间时，输出所述合唱直播间的直播数据；其中，所述合唱直播间的直播数据包括以下至少一种：所述观众对象针对所述目标音乐的演绎音频，包含所述主播对象演出目标音乐的视频的直播画面，包含所述主播对象演出目标音乐的视频和所述观众对象的合唱画面的直播画面；其中，当所述合唱直播间的直播数据包括包含所述主播对象演出目标音乐的视频和所述观众对象的合唱画面的直播画面时，所述主播对象演出目标音乐的视频和所述观众对象的合唱画面被融合后再进行显示，或者所述主播对象演出目标音乐的视频和所述观众对象的合唱画面被分屏显示。

在一个实施例中，所述直播界面中设有合唱收听范围开关；输出模块803，还用于：当所述合唱收听范围开关被开启时，触发从社交关系链列表中选择合唱收听范围，所述合唱收听范围包含被选择的至少一个具备社交关联关系的对象标识；输出所述合唱收听范围内的对象针对目标音乐的演绎音频；其中，所述输出所述合唱收听范围内的对象针对目标音乐的演绎音频，包括以下至少一种输出方式：将所述合唱收听范围内的对象针对目标音乐的演绎音频进行融合后输出；将所述合唱收听范围内的对象针对目标音乐的演绎音频与所述主播对象针对所述目标音乐的演出音频进行融合后输出；分别输出所述合唱收听范围内的各对象针对所述目标音乐的演绎音频。

可以理解的是，本申请实施例所描述的直播互动装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图8b，图8b是本申请一个示例性实施例提供的另一种直播互动装置的结构示意图。上述直播互动装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该直播互动装置为一个应用软件；该直播互动装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8b所示，该直播互动装置810可以包括以下至少一种：收发模块811以及处理模块812。

收发模块811，用于向客户端发送主播对象演出目标音乐的视频，使客户端在直播界面中播放主播对象演出目标音乐的视频；

收发模块811，用于接收观众对象针对目标音乐的演绎音频；

处理模块812，用于对主播对象针对目标音乐的演出音频和观众对象针对目标音乐的演绎音频进行混音处理得到，得到合唱音频；

收发模块811，用于将合唱音频发送至客户端，使客户端在视频的播放过程中，输出合唱音频。

在一个实施例中，处理模块812，具体用于：对主播对象针对目标音乐的演出音频，以及演绎音频进行偏移对齐处理；将对齐后的主播对象针对目标音乐的演出音频与演绎音频进行混音处理，得到合唱音频。

在一个实施例中，处理模块812，具体用于：确定演绎音频与主播对象的演出音频之间的相似度；基于相似度确定演绎音频与演出音频之间的偏移值；基于偏移值对齐演绎音频与演出音频。

在一个实施例中，处理模块812，具体用于：按照预设增益比例调整演绎音频的音量以及演出音频的音量；对调整后的演绎音频和演出音频进行叠加，得到合唱音频。

在一个实施例中，共接收到M个观众对象针对目标音乐录制得到的M个演绎音频；M为正整数；在一个实施例中，处理模块812，具体还用于：对M个演绎音频和主播对象的演出音频进行混音处理，得到合唱音频；或者，从M个演绎音频中选择P个演绎音频，并对P个演绎音频和主播对象的演出音频进行混音处理，得到合唱音频；P为正整数，且P≤M，

其中，选择包括以下任一种或多种：随机选择；按照演绎音频与主播对象针对目标音乐的演出音频之间的相似度由高至低的顺序选择；按照演绎音频对应的观众对象与主播对象之间的亲密度由高至低的顺序进行选择；以演出音频的单位时间区间为基准进行选择。

请参见图9a，是本申请实施例提供的一种计算机设备的结构示意图。如图9a所示，该计算机设备可以是终端设备，具体可以包括输入设备901、输出设备902、处理器903、存储器904、网络接口905和至少一个通信总线906。其中：处理器903可以是中央处理器(CentralProcessing Unit，CPU)。处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(Programmable Logic Device，PLD)等。上述PLD可以是现场可编程逻辑门阵列(Field-Programmable Gate Array，FPGA)，通用阵列逻辑(Generic Array Logic，GAL)等。

存储器904可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random-Access Memory，RAM)；存储器904也可以包括非易失性存储器(Non-VolatileMemory)，例如快闪存储器(Flash Memory)，固态硬盘(Solid-State Drive，SSD)等；存储器904可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。存储器904可选的还可以是至少一个位于远离前述处理器903的存储装置。存储器904还可以包括上述种类的存储器的组合。如图9a所示，作为一种计算机可读存储介质的存储器904中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

网络接口905可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口作为通信接口，可用于提供数据通信功能；通信总线906负责连接各个通信元件；输入设备901接收用户输入的指令，以产生与终端设备的用户设置以及功能控制有关的信号输入，在一个实施例中，输入设备901包括但不限于触控面板、物理键盘或虚拟键盘(Keyboard)、功能键、鼠标等中的一种或多种；输出设备902用于输出数据信息，在本申请实施例中输出设备902可用于显示直播界面，输出合唱音频等，输出设备902可以包括显示屏(Display)或其他显示设备；处理器903是终端设备的控制中心，由各种接口和线路连接整个终端设备的各个部分，通过调度运行存储在存储器904中的计算机程序，执行各种功能。

其中，处理器903可以用于调用存储器中的计算机程序，以执行如下操作：通过输出设备902显示直播界面；在直播界面中播放主播对象演出目标音乐的视频；在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

在一个实施例中，直播界面显示于观众对象所登录的客户端中，处理器903，用于：在视频的播放过程中，响应于合唱互动需求，录制观众对象针对目标音乐的演绎音频；其中，合唱音频是基于主播对象针对目标音乐的演出音频和观众对象针对目标音乐的演绎音频进行混音处理得到的；观众对象针对目标音乐的演绎音频包括以下任一种或多种：观众对象演唱目标音乐而产生的演唱音频；或观众对象采用乐器演奏目标音乐而产生的演奏音频。

在一个实施例中，直播界面显示于主播对象所登录的客户端中，处理器903，用于：设置观众对象的合唱权限；其中，若观众对象的合唱权限被设置为开启状态，则允许观众对象进行合唱互动；若观众对象的合唱权限被设置为关闭状态，则禁止观众对象进行合唱互动。

在一个实施例中，直播界面中设有权限开关；处理器903，具体用于：开启权限开关，则设置观众对象的合唱权限为开启状态；关闭权限开关，则设置观众对象的合唱权限为关闭状态。

在一个实施例中，直播界面显示于观众对象所登录的客户端中，处理器903，用于：当主播对象发起与观众对象的连线交互时，输出连线提示信息；处理器903用于：响应于对连线提示信息的确认，在直播界面中同步显示确认连线的观众对象的实时画面；其中，确认连线的观众对象的实时画面的显示方式包括以下一种或多种：叠加显示、分屏显示。

在一个实施例中，处理器903，还用于：在直播界面中按照预设显示方式显示演绎目标音乐的观众对象的标识信息；其中，预设显示方式包括以下任一种：在固定位置显示、在任意位置显示、按照预设显示时长停留显示、滚动显示以及突出显示；标识信息包括以下任一种或多种：头像、昵称、地域、亲密度、活跃等级。

在一个实施例中，处理器903，还用于：输出参与提示信息，参与提示信息用于提示存在加入合唱互动的观众对象；其中，参与提示信息包括以下一种或多种：参与提示文本、参与提示动画以及参与提示图像。

在一个实施例中，处理器903，还用于：显示观众对象针对目标音乐的演绎音频的链接及合唱音频的链接；处理器903用于：基于链接执行应用处理；其中，应用处理包括以下任一种：保存、下载、分享以及编辑。

在一个实施例中，处理器903，用于：检测客户端当前所处的模式；若客户端当前处于内容分发模式，则切换至实时通信模式之后再执行录制。

在一个实施例中，处理器903，用于：对观众对象针对目标音乐的演绎音频进行预处理，得到预处理后的演绎音频；将预处理后的演绎音频发送至服务器，以使得服务器基于接收到的演绎音频和主播对象的演出音频进行混音处理，得到合唱音频。

在一个实施例中，处理器903，具体用于：对演绎音频进行编码处理，得到预处理后的演绎音频；或者，对演绎音频进行回声消除处理，并对回声消除后的演绎音频进行编码处理，得到预处理后的演绎音频。

在一个实施例中，观众对象包括第一观众对象和第二观众对象，第一观众对象和第二观众对象之间具备社交关联关系；直播界面显示于第一观众对象所登录的客户端中，处理器903，用于：接收第二观众对象向第一观众对象发出的合唱邀请信息，合唱邀请信息用于指示第二观众对象请求与第一观众对象合唱演绎目标音乐；当合唱邀请信息被确认时，产生合唱互动需求。

观众对象包括第一观众对象和第二观众对象，第一观众对象和第二观众对象之间具备社交关联关系；直播界面显示于第二观众对象所登录的客户端中，直播界面中设有合唱邀请入口；处理器903，用于：响应于对合唱邀请入口的触发操作，显示邀请对象列表，邀请对象列表中至少包括第一观众对象的标识；当邀请对象列表中的第一观众对象的标识被选择时，向第一观众对象发送合唱邀请信息，合唱邀请信息用于指示第二观众对象请求与第一观众对象合唱演绎目标音乐；当接收到对合唱邀请信息的确认时，产生合唱互动需求。

在一个实施例中，处理器903，还用于：在合唱互动的过程中，响应于直播发布需求，在合唱直播间发布所述观众对象关于所述合唱互动的直播；当进入至所述合唱直播间时，输出所述合唱直播间的直播数据；其中，所述合唱直播间的直播数据包括以下至少一种：所述观众对象针对所述目标音乐的演绎音频，包含所述主播对象演出目标音乐的视频的直播画面，包含所述主播对象演出目标音乐的视频和所述观众对象的合唱画面的直播画面；其中，当所述合唱直播间的直播数据包括包含所述主播对象演出目标音乐的视频和所述观众对象的合唱画面的直播画面时，所述主播对象演出目标音乐的视频和所述观众对象的合唱画面被融合后再进行显示，或者所述主播对象演出目标音乐的视频和所述观众对象的合唱画面被分屏显示。

在一个实施例中，所述直播界面中设有合唱收听范围开关；处理器903，还用于：当所述合唱收听范围开关被开启时，触发从社交关系链列表中选择合唱收听范围，所述合唱收听范围包含被选择的至少一个具备社交关联关系的对象标识；输出所述合唱收听范围内的对象针对目标音乐的演绎音频；其中，所述输出所述合唱收听范围内的对象针对目标音乐的演绎音频，包括以下至少一种输出方式：将所述合唱收听范围内的对象针对目标音乐的演绎音频进行融合后输出；将所述合唱收听范围内的对象针对目标音乐的演绎音频与所述主播对象针对所述目标音乐的演出音频进行融合后输出；分别输出所述合唱收听范围内的各对象针对所述目标音乐的演绎音频。

应当理解，本申请实施例中所描述的计算机设备900可执行前文所对应实施例中对该直播互动方法的描述，也可执行前文图8a所对应实施例中对该直播互动装置800的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图9b，图9b是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备910可以包含独立设备(例如服务器、节点、终端等等中的一个或者多个)，也可以包含独立设备内部的部件(例如芯片、软件模块或者硬件模块等)。该计算机设备910可以包括至少一个处理器911和通信接口912，进一步可选地，计算机设备910还可以包括至少一个存储器913和总线914。其中，处理器911、通信接口912和存储器913通过总线914相连。

其中，处理器911是进行算术运算和/或逻辑运算的模块，具体可以是中央处理器(central processing unit，CPU)、图片处理器(graphics processing unit，GPU)、微处理器(microprocessor unit，MPU)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、复杂可编程逻辑器件(Complex programmable logic device，CPLD)、协处理器(协助中央处理器完成相应处理和应用)、微控制单元(Microcontroller Unit，MCU)等处理模块中的一种或者多种的组合。

通信接口912可以用于为至少一个处理器提供信息输入或者输出。和/或，通信接口912可以用于接收外部发送的数据和/或向外部发送数据，可以为包括诸如以太网电缆等的有线链路接口，也可以是无线链路(Wi-Fi、蓝牙、通用无线传输、车载短距通信技术以及其他短距无线通信技术等)接口。通信接口912可以作为网络接口。

存储器913用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器913可以是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable read onlymemory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)等等中的一种或者多种的组合。

该计算机设备910中的至少一个处理器911用于调用至少一个存储器913中存储的计算机程序，用于执行图6所示的实施例所描述的直播互动方法。

在一种可能的实施方式中，该计算机设备910中的处理器911用于调用至少一个存储器913中存储的计算机程序，用于执行以下操作：显示直播界面；在直播界面中播放主播对象演出目标音乐的视频；在视频的播放过程中，输出主播对象与观众对象之间针对目标音乐的合唱音频。

在一个实施例中，处理器911，具体用于：对主播对象针对目标音乐的演出音频，以及演绎音频进行偏移对齐处理；将对齐后的主播对象针对目标音乐的演出音频与演绎音频进行混音处理，得到合唱音频。

在一个实施例中，处理器911，具体用于：确定演绎音频与主播对象的演出音频之间的相似度；基于相似度确定演绎音频与演出音频之间的偏移值；基于偏移值对齐演绎音频与演出音频。

在一个实施例中，处理器911，具体用于：按照预设增益比例调整演绎音频的音量以及演出音频的音量；对调整后的演绎音频和演出音频进行叠加，得到合唱音频。

在一个实施例中，共接收到M个观众对象针对目标音乐录制得到的M个演绎音频；M为正整数；在一个实施例中，处理器911，具体还用于：对M个演绎音频和主播对象的演出音频进行混音处理，得到合唱音频；或者，从M个演绎音频中选择P个演绎音频，并对P个演绎音频和主播对象的演出音频进行混音处理，得到合唱音频；P为正整数，且P≤M，

应当理解，本申请实施例中所描述的计算机设备910可执行前文所对应实施例中对该直播互动方法的描述，也可执行前文图8b所对应实施例中对该直播互动装置810的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，还应指出，本申请一个示例性实施例还提供了一种存储介质，该存储介质中存储了前述直播互动方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例中对直播互动方法的描述，这里不再赘述，对采用相同方法的有益效果描述，也在此不再赘述。可以理解的是，程序指令可以被部署在一个或能够互相通信的多个计算机设备上执行。

上述计算机可读存储介质可以是前述任一实施例提供的直播互动装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

本申请的一个方面，提供了另一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时实现本申请实施例提供的直播互动方法的步骤。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种直播互动方法，其特征在于，所述方法包括：

显示直播界面；

在所述直播界面中播放主播对象演出目标音乐的视频；

在所述视频的播放过程中，输出所述主播对象与观众对象之间针对所述目标音乐的合唱音频。

2.如权利要求1所述的方法，其特征在于，所述直播界面显示于所述观众对象所登录的客户端中，所述方法还包括：

在所述视频的播放过程中，响应于合唱互动需求，录制所述观众对象针对所述目标音乐的演绎音频；

其中，所述合唱音频是基于所述主播对象针对所述目标音乐的演出音频和所述观众对象针对所述目标音乐的演绎音频进行混音处理得到的；所述观众对象针对所述目标音乐的演绎音频包括以下任一种或多种：所述观众对象演唱所述目标音乐而产生的演唱音频；或所述观众对象采用乐器演奏所述目标音乐而产生的演奏音频。

3.如权利要求2所述的方法，其特征在于，所述直播界面中设有合唱互动入口，当所述合唱互动入口被选择时，产生所述合唱互动需求；或者，

所述直播界面中设有互动区域，当所述互动区域中接收到合唱互动操作手势时，产生所述合唱互动需求；

其中，所述合唱互动入口的设置方式包括以下任一种：设置于所述直播界面中的任意固定位置；悬浮设置于所述直播界面中的动态位置；隐藏于所述直播界面中，需要触发显示；其中，所述触发显示包括以下任一种：到达显示时段时触发显示，存在触发操作时触发显示，具备合唱权限的条件下触发显示。

4.如权利要求2所述的方法，其特征在于，所述观众对象包括第一观众对象和第二观众对象，所述第一观众对象和所述第二观众对象之间具备社交关联关系；所述直播界面显示于所述第一观众对象所登录的客户端中，所述方法还包括：

接收所述第二观众对象向所述第一观众对象发出的合唱邀请信息，所述合唱邀请信息用于指示所述第二观众对象请求与所述第一观众对象合唱演绎所述目标音乐；

当所述合唱邀请信息被确认时，产生所述合唱互动需求。

5.如权利要求2所述的方法，其特征在于，所述观众对象包括第一观众对象和第二观众对象，所述第一观众对象和所述第二观众对象之间具备社交关联关系；所述直播界面显示于所述第二观众对象所登录的客户端中，所述直播界面中设有合唱邀请入口；所述方法还包括：

响应于对所述合唱邀请入口的触发操作，显示邀请对象列表，所述邀请对象列表中至少包括所述第一观众对象的标识；

当所述邀请对象列表中的所述第一观众对象的标识被选择时，向所述第一观众对象发送合唱邀请信息，所述合唱邀请信息用于指示所述第二观众对象请求与所述第一观众对象合唱演绎所述目标音乐；

当接收到对所述合唱邀请信息的确认时，产生所述合唱互动需求。

6.如权利要求1所述的方法，其特征在于，所述直播界面显示于所述主播对象所登录的客户端中，所述方法还包括：设置所述观众对象的合唱权限；

其中，若所述观众对象的合唱权限被设置为开启状态，则允许所述观众对象进行合唱互动；若所述观众对象的合唱权限被设置为关闭状态，则禁止所述观众对象进行合唱互动。

7.如权利要求6所述的方法，其特征在于，所述直播界面中设有权限开关；所述设置所述观众对象的合唱权限，包括：

开启所述权限开关，则设置所述观众对象的合唱权限为开启状态；

关闭所述权限开关，则设置所述观众对象的合唱权限为关闭状态。

8.如权利要求1所述的方法，其特征在于，所述直播界面显示于所述观众对象所登录的客户端中，所述方法还包括：

当所述主播对象发起与所述观众对象的连线交互时，输出连线提示信息；

响应于对所述连线提示信息的确认，在所述直播界面中同步显示确认连线的观众对象的实时画面；

其中，所述确认连线的观众对象的实时画面的显示方式包括以下一种或多种：叠加显示、分屏显示。

9.如权利要求2所述的方法，其特征在于，所述方法还包括：

在合唱互动的过程中，响应于直播发布需求，在合唱直播间发布所述观众对象关于所述合唱互动的直播；

当进入至所述合唱直播间时，输出所述合唱直播间的直播数据；

其中，所述合唱直播间的直播数据包括以下至少一种：所述观众对象针对所述目标音乐的演绎音频，包含所述主播对象演出目标音乐的视频的直播画面，包含所述主播对象演出目标音乐的视频和所述观众对象的合唱画面的直播画面；

其中，当所述合唱直播间的直播数据包括包含所述主播对象演出目标音乐的视频和所述观众对象的合唱画面的直播画面时，所述主播对象演出目标音乐的视频和所述观众对象的合唱画面被融合后再进行显示，或者所述主播对象演出目标音乐的视频和所述观众对象的合唱画面被分屏显示。

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

在所述直播界面中按照预设显示方式显示演绎所述目标音乐的观众对象的标识信息；

其中，所述预设显示方式包括以下任一种：在固定位置显示、在任意位置显示、按照预设显示时长停留显示、滚动显示以及突出显示；所述标识信息包括以下任一种或多种：头像、昵称、地域、亲密度、活跃等级。

11.如权利要求1所述的方法，其特征在于，所述直播界面中设有合唱收听开关；所述合唱音频在所述合唱收听开关被开启的情况下被输出。

12.如权利要求1所述的方法，其特征在于，所述直播界面中设有合唱收听范围开关；所述方法还包括：

当所述合唱收听范围开关被开启时，触发从社交关系链列表中选择合唱收听范围，所述合唱收听范围包含被选择的至少一个具备社交关联关系的对象标识；

输出所述合唱收听范围内的对象针对目标音乐的演绎音频；

其中，所述输出所述合唱收听范围内的对象针对目标音乐的演绎音频，包括以下至少一种输出方式：将所述合唱收听范围内的对象针对目标音乐的演绎音频进行融合后输出；将所述合唱收听范围内的对象针对目标音乐的演绎音频与所述主播对象针对所述目标音乐的演出音频进行融合后输出；分别输出所述合唱收听范围内的各对象针对所述目标音乐的演绎音频。

13.如权利要求1所述的方法，其特征在于，所述方法还包括：

输出参与提示信息，所述参与提示信息用于提示存在加入合唱互动的所述观众对象；

其中，所述参与提示信息包括以下一种或多种：参与提示文本、参与提示动画以及参与提示图像。

14.如权利要求1所述的方法，其特征在于，所述方法还包括：

显示所述观众对象针对所述目标音乐的演绎音频的链接及所述合唱音频的链接；

基于所述链接执行应用处理；

其中，所述应用处理包括以下任一种：保存、下载、分享以及编辑。

15.如权利要求2所述的方法，其特征在于，所述在所述视频的播放过程中，响应于合唱互动需求，录制所述观众对象针对所述目标音乐的演绎音频之前，还包括：

检测所述客户端当前所处的模式；

若所述客户端当前处于内容分发模式，则切换至实时通信模式之后再执行录制。

16.如权利要求15所述的方法，其特征在于，所述方法还包括：

对所述观众对象针对所述目标音乐的演绎音频进行预处理，得到预处理后的演绎音频；

将预处理后的演绎音频发送至服务器，以使得服务器基于接收到的演绎音频和所述主播对象的演出音频进行混音处理，得到所述合唱音频。

17.如权利要求16所述的方法，其特征在于，所述对所述观众对象针对所述目标音乐的演绎音频进行预处理，得到预处理后的演绎音频，包括：

对所述演绎音频进行编码处理，得到预处理后的演绎音频；或者，

对所述演绎音频进行回声消除处理，并对回声消除后的演绎音频进行编码处理，得到预处理后的演绎音频。

18.一种直播互动方法，其特征在于，所述方法包括：

向客户端发送主播对象演出目标音乐的视频，使所述客户端在直播界面中播放所述主播对象演出目标音乐的视频；

接收观众对象针对所述目标音乐的演绎音频；

对所述主播对象针对所述目标音乐的演出音频和所述观众对象针对所述目标音乐的演绎音频进行混音处理得到，得到合唱音频；

将所述合唱音频发送至所述客户端，使所述客户端在所述视频的播放过程中，输出所述合唱音频。

19.如权利要求18所述的方法，其特征在于，所述对所述主播对象针对所述目标音乐的演出音频和所述观众对象针对所述目标音乐的演绎音频进行混音处理得到，得到合唱音频，包括：

对所述主播对象针对所述目标音乐的演出音频，以及所述演绎音频进行偏移对齐处理；

将对齐后的所述主播对象针对所述目标音乐的演出音频与所述演绎音频进行混音处理，得到所述合唱音频。

20.如权利要求19所述的方法，其特征在于，所述对所述主播对象针对所述目标音乐的演出音频，以及所述演绎音频进行偏移对齐处理，包括：

确定所述演绎音频与所述主播对象的演出音频之间的相似度；

基于所述相似度确定所述演绎音频与所述演出音频之间的偏移值；

基于所述偏移值对齐所述演绎音频与所述演出音频。

21.如权利要求20所述的方法，其特征在于，所述将对齐后的所述主播对象针对所述目标音乐的演出音频与所述演绎音频进行混音处理，得到所述合唱音频，包括：

按照预设增益比例调整所述演绎音频的音量以及所述演出音频的音量；

对调整后的所述演绎音频和所述演出音频进行叠加，得到所述合唱音频。

22.如权利要求18所述的方法，其特征在于，共接收到M个观众对象针对所述目标音乐录制得到的M个演绎音频；M为正整数；所述对所述主播对象针对所述目标音乐的演出音频和所述观众对象针对所述目标音乐的演绎音频进行混音处理得到，得到合唱音频，包括：

对所述M个演绎音频和所述主播对象的演出音频进行混音处理，得到合唱音频；或者，

从所述M个演绎音频中选择P个演绎音频，并对所述P个演绎音频和所述主播对象的演出音频进行混音处理，得到合唱音频；P为正整数，且P≤M，

其中，所述选择包括以下任一种或多种：随机选择；按照所述演绎音频与所述主播对象针对所述目标音乐的演出音频之间的相似度由高至低的顺序选择；按照所述演绎音频对应的所述观众对象与所述主播对象之间的亲密度由高至低的顺序进行选择；以所述演出音频的单位时间区间为基准进行选择。

23.一种直播互动装置，其特征在于，包括：

显示模块，用于显示直播界面；

播放模块，用于在所述直播界面中播放主播对象演出目标音乐的视频；

输出模块，用于在所述视频的播放过程中，输出所述主播对象与观众对象之间针对所述目标音乐的合唱音频。

24.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1至17或者执行权利要求18至22任一项所述的直播互动方法。

25.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1至17或者执行权利要求18至22任一项所述的直播互动方法。