CN113784163A

CN113784163A - 一种连麦直播方法及相关设备

Info

Publication number: CN113784163A
Application number: CN202111073971.5A
Authority: CN
Inventors: 黄青
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2021-12-10
Anticipated expiration: 2040-09-09
Also published as: CN112019874B; CN112019874A; CN113784163B

Abstract

本申请提供一种连麦直播方法及相关设备，包括：在多个终端连麦进行直播过程中，若任意终端触发变声直播模式时，获取主播基于终端实时输入的原始音频，以及主播基于终端选择的目标音色；基于目标音色对原始音频中的原始音色进行音色转换，得到转换后的目标音频；将目标音频与获取到的其他连麦的终端输入的原始音频进行混流，得到混流音频，并将混流音频发送给所有连麦终端以及进入连麦直播间的观众端。在本方案中，服务器对触发变声直播模式的终端实时输入的原始音频进行音色转换，以得到目标音频。以便于进入该直播间的观众观看。通过上述方式进行连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

Description

一种连麦直播方法及相关设备

本申请为2020年9月09日提交中国专利局、申请号为202010940695.7、发明名称为“一种连麦直播方法及相关设备”的中国专利申请的分案申请。

技术领域

本申请涉及网络直播技术领域，尤其涉及一种连麦直播方法及相关设备。

背景技术

随着互联网直播技术的发展，直播方式也越来越多，使得用户的选择也越来越广。如何增加用户粘性成为了互联网直播平台运营的重要问题。

现有技术中，常通过多个主播连麦直播的方式来吸引用户，由于主播连麦直播的环境单一，且直播内容枯燥乏味，通过上述单纯进行连麦直播的方式，会导致用户的观看直播体验差，且用户的活跃度和对直播平台的粘性不高的问题。

发明内容

有鉴于此，本申请实施例提供一种连麦直播方法及相关设备，以解决现有技术中用户的观看直播体验差，且用户的活跃度和对直播平台的粘性不高的问题。

为实现上述目的，本申请实施例提供如下技术方案：

本申请第一方面示出了一种连麦直播方法，适用于服务器，所述方法包括：

在多个终端进行连麦直播过程中，确定目标终端和其他终端；

向所述目标终端发送切换其他终端直播模式的权限；

在接收到目标终端发送的切换其他终端直播模式的模式切换请求时，基于所述模式切换请求将所述其他终端的直播模式切换为变声直播模式，使所述其他终端在预设时长内处于变声直播模式，其中，所述模式切换请求中携带有目标音色；

在所述变声直播模式下，根据所述目标音色对所述其他终端实时输入的原始音频进行音色转换，得到目标音频；

将所述转换得到的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入所述直播间的观众和主播观看。

可选的，所述模式切换请求中还携带有预设时长；所述接收目标终端发送的切换其他终端直播模式的模式切换请求，包括：

接收目标终端基于选择的目标音色和预设时长生成的切换其他终端直播模式的模式切换请求。

可选的，还包括：将所述转换得到的目标音频和获取到的其他连麦的终端触发变声直播模式后得到的目标音频进行混流，以便于进入所述直播间的观众和主播观看。

可选的，所述根据所述目标音色对所述其他终端实时输入的原始音频进行音色转换，得到目标音频，包括：

对所述其他终端实时输入的原始音频中的原始音色进行音色转换，得到转换后的目标音色；

将所述目标音色和所述原始音频中的语音内容组成目标音频。

可选的，所述确定目标终端和其他终端，包括：

获取所述所有终端的直播数据；

基于所述所有终端的直播数据，确定直播喜爱度最高的终端为目标终端，以及确定直播喜爱度低于最高直播喜爱度的终端为其他终端。

可选的，所述多个终端连麦进行直播过程中，还包括：

确定当前连麦的直播间是否处于连麦直播PK模式；

若是，在结束连麦直播PK模式时，获取进行连麦直播PK的所有终端的直播数据；

本申请第二方面示出了一种连麦直播装置，所述装置包括：

第一确定模块，用于在多个终端进行连麦直播过程中，确定目标终端和其他终端；

第二发送模块，用于向所述目标终端发送切换其他终端直播模式的权限；

切换模块，用于在接收到目标终端发送的切换其他终端直播模式的模式切换请求时，基于所述模式切换请求将所述其他终端的直播模式切换为变声直播模式，使所述其他终端在预设时长内处于变声直播模式，其中，所述模式切换请求中携带有目标音色，所述目标终端存在切换其他终端直播模式的权限；

音色转换网络，用于在所述变声直播模式下，根据所述目标音色对所述其他终端实时输入的原始音频进行音色转换，得到目标音频；

第三发送模块，用于将所述转换得到的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入所述直播间的观众和主播观看。

可选的，所述模式切换请求中还携带有预设时长；所述接收目标终端发送的切换其他终端直播模式的模式切换请求的切换模块，具体用于：

本申请第三方面示出了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储语音音色转换的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如本申请第一方面示出的一种连麦直播方法。

本申请第四方面示出了一种存储介质，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本申请第一方面示出的一种连麦直播方法。

基于上述本申请实施例提供的一种连麦直播方法及装置，该方法包括：在多个终端连麦进行直播过程中，若任意终端触发变声直播模式时，获取主播基于终端实时输入的原始音频，以及主播基于终端选择的目标音色，原始音频包括语音内容和原始音色；基于目标音色对原始音频中的原始音色进行音色转换，得到转换后的目标音频，目标音频由目标音色和语音内容构成；将目标音频与获取到的其他连麦的终端输入的原始音频进行混流，得到混流音频，并将混流音频发送给所有连麦终端以及进入连麦直播间的观众端。在本申请实施例中，服务器对触发变声直播模式的终端实时输入的原始音频进行音色转换，以得到目标音频；然后将转换后的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入该直播间的观众和主播观看。通过上述方式进行连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为为本申请提供的多个终端和服务器的应用架构图；

图2为本申请实施例提供的一种连麦直播方法的流程示意图；

图3为本申请实施例提供的音色转换网络的架构图；

图4为本申请实施例提供的另一种连麦直播方法的流程示意图；

图5为本申请实施例提供的两个终端直播PK模式示意图；

图6为本申请实施例提供的又一种连麦直播方法的流程示意图；

图7为本申请实施例提供的一种连麦直播装置的结构示意图；

图8为本申请实施例提供的另一种连麦直播装置的结构示意图；

图9为本申请实施例提供的又一种连麦直播装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请实施例中，服务器对触发变声直播模式的终端实时输入的原始音频进行音色转换，以得到目标音频；然后将转换后的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入该直播间的观众和主播观看。通过上述方式进行连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

如图1所示，为本申请提供的多个终端和服务器的应用架构图。

其中，多个终端包括终端12、终端13、终端14、终端15和终端16。

主播a通过终端12进行直播时，此时用于直播的终端12为主播终端；主播b通过终端13进行直播时，此时用于直播的终端13为主播终端。

基于该应用架构实现针对直播的处理过程包括：

主播a基于终端12通过服务器11与终端13进行连麦直播。

其中，进行连麦直播的终端的数量至少为2个。

主播a基于终端12触发变声直播模式时，终端12显示与变声直播模式对应的用户操作界面，该用户操作界面包括目标音色选择模块和原始音频输入模块。

其中，目标音色选择模块用于显示可供选择的音频，原始音频输入模块与终端12的麦克风相连，用于接收主播通过麦克风输入的原始音频。

主播a基于终端12的目标音色选择模块选择音频，并确定该音频对应的目标音色。主播a还基于终端12的原始音频输入模块接收终端12对应的麦克风输入的原始音频。基于终端12再将原始音频和目标音色发送至服务器11。

服务器11获取主播a基于终端12的输入的原始音频和选择的目标音色。

其中，原始音频包括语音内容和原始音色。

服务器11基于目标音色对原始音频中的原始音色进行音色转换，得到转换后的目标音频，该目标音频由所述目标音色和语音内容构成。

服务器11获取连麦的终端13输入的原始音频，并将转换后的目标音频与13输入的原始音频进行混流，得到混流音频。

观众通过终端14观看终端12和终端13的连麦直播间的直播内容，此时用于观看直播的终端14为观众端，当其他用户使用终端15、终端16或其他终端观看连麦直播间的直播时，也可将其他终端作为观众端。

服务器11将混流音频发送给终端12、终端13以及进入连麦直播间的观众端14。

基于上述本申请实施例公开的处理架构，参见图2，为本申请实施例示出的一种连麦直播方法的流程示意图，该方法适用于服务器，该方法包括：

步骤S201：在多个终端连麦进行直播过程中，判断是否存在任意终端触发变声直播模式，若存在，则执行步骤S202，若不存在，则继续进行连麦直播。

在具体实现步骤S201的过程中，在多个终端连麦进行直播过程中，服务器实时确定是否存在连麦终端中的任意终端触发变声直播模式，若存在至少一个终端触发变声直播模式，则说明有终端通过变声模式进行连麦直播，并执行步骤S202，若都不存在终端触发变声直播模式，则所有进行连麦直播的终端继续进行原声连麦直播。

步骤S202：获取主播基于终端实时输入的原始音频，以及主播基于终端选择的目标音色。

在步骤S202中，原始音频包括语音内容和原始音色。

可选的，主播基于终端的麦克风实时输入原始音频，以及基于终端的用户操作界面选择的目标音色，并将原始音频和目标音色发送的服务器。

在具体实现步骤S202的过程中，服务器获取原始音频中的语音内容和原始音色，以及目标音色。

需要说明的是，原始音频是指终端进行直播的过程中，主播基于终端麦克风实时输入的语音。

步骤S203：基于目标音色对原始音频中的原始音色进行音色转换，得到转换后的目标音频。

在步骤S203中，目标音频由目标音色和语音内容构成。

在具体实现步骤S203的过程中，将原始音频中的原始音色进行音色转换，使得转换后的音色与目标音色的相同，从而确定由目标音色和原始音频的语音内容构成目标音频。

步骤S204：将目标音频与获取到的其他连麦的终端输入的原始音频进行混流，得到混流音频，并将混流音频发送给其他连麦的终端以及进入多个终端连麦直播间的观众端。

在具体实现步骤S204的过程中，利用混流技术将目标音频与获取到的其他连麦的终端输入的原始音频等多路音频混合，生成一路音频流，即混流音频，并将混流音频发送给所有连麦终端以及进入连麦直播间观众端。

需要说明的是，连麦终端包括连麦邀请方以及被邀请方，含变声的主播终端。

可选的，在得到混流音频时，同时需要利用混流技术将得到的混流音频与终端的视频画面对齐，形成音视频流，并将音视频流发送给其他连麦的终端以及进入多个终端连麦直播间的观众端。

需要说明的是，音频流是指使音频能够稳定而连续的向其他连麦的终端以及进入多个终端连麦直播间的观众端输出。音视频流是指音频和视频能够稳定而连续的向其他连麦的终端以及进入多个终端连麦直播间的观众端输出。

混流技术是指将多路音频/视频数据进行合并的技术。

可选的，基于上述本申请示出的连麦直播方法，在执行步骤S203基于目标音色对原始音频中的原始音色进行音色转换，得到转换后的目标音频的过程中，包括：

利用音色转换网络对原始音频进行音色转换，得到转换后的目标音频。

需要说明的是，目标音频由目标音色和语音内容构成。

在具体实现中，利用音色转换网络对输入的原始音频和目标音色进行处理，将原始音频中的原始音色通过本申请实施例公开的音色转换网络转换为目标音色，最终输出由目标音色和语音内容构成的目标音频。

其中，音色转换网络是由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型预先构建的。

需要说明的是，由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型预先构建音色转换网络的过程，包括以下步骤：

步骤S11：基于第一数据集进行训练得到语音内容识别模型和语音说话人识别模型。

需要说明的是，第一数据集为高质量的语音数据集。

可选的，第一数据集可以是开源的语音数据集LibriSpeech，该开源的语音数据集LibriSpeech包括2400多个音色，及总时长1000多小时的高质量语音数据集。

在具体实现步骤S11的过程中，在训练语音内容识别模型时，首先，提取第一数据集中每一句语音所表达的音频内容。然后，按照预设规则分成不同的类别。最后，利用循环神经网络模型来对不同的类别的音频内容进行训练，以得到语音内容识别模型。其中，语音内容识别模型可以用于准确识别来自任意人音色的音频内容，即用户输入的原始音频的音频内容。

在训练语音说话人识别模型时，首先，提取第一数据集中每一句音频的每一音色。然后，利用循环神经网络模型来对每一音色进行训练，以得到语音说话人识别模型。其中，语音说话人识别模型用于准确识别来自音频的说话人信息，即音频的音色。

需要说明的是，若音频内容的类型为英文时，预设规则可设置为英文发音的音素；若音频内容的类型为中文时，预设规则可设置为拼音的声韵母，且该韵母是带声调的。若音频内容的类型为其他类型的外文或方言时，可经过其他类型的外文或方言的发音方式设置预设规则，对此本申请实施例不加以限制。

每一句音频对应的语音内容特征矩阵的矩阵维度为T*256，T为每句音频的长度。其中，每一T*256的矩阵表示时间长度为T的音频每一时刻下的音素内容。

每一音色的语音信息特征矩阵的矩阵维度为1*256。在本申请实施例中，根据音频的长度T对语音信息特征矩阵的矩阵维度进行复制，得到T*256维的语音信息特征矩阵。

需要说明的是，循环神经网络模型是神经网络模型中的一种，其中的部分神经元的连接组成了有向环，使得循环神经网络模型中出现内部状态或带记忆的结构，以存在对动态序列进行建模的能力。

在本申请实施例中，语音内容识别模型和语音说话人识别模型除了可以使用循环神经网络模型对语音内容识别模型和语音说话人识别模型进行构建外，还可以使用其他的神经网络模型或机器学习模型等对语音内容识别模型和语音说话人识别模型进行构建，对此本申请实施例不加以限定。

步骤S12：基于第二数据集进行训练得到声码器模型。

需要说明的是，第二数据集是指高质量的音频数据集。

可选的，第二数据集可以是开源的音频数据集LibriTTS，该开源的音频数据集LibriTTS包含2400多个音色，及音频总时长为500多小时的高质量音频数据集。

在具体实现步骤S12的过程中，在训练声码器模型时，首先，提取第二数据集中每一句语音的20维声学特征。然后，利用每一句语音的20维声学特征充分训练声码器模型，以得到声码器模型。

步骤S13：基于第二数据集进行训练得到音色转换模型。

需要说明的是，具体基于第二数据集训练得到音色转换模型的过程，包括以下步骤：

步骤S21：将第二数据集输入语音内容识别模型得到音频对应的语音内容特征矩阵，将第二数据集输入语音说话人识别模型得到音频对应的语音信息特征矩阵。

在具体实现步骤S21的过程中，利用上述训练好的语音内容识别模型对第二数据集中每一句音频进行识别，从而提取每一句音频对应的语音内容特征矩阵；利用上述训练好的语音说话人识别模型对第二数据集中每一句音频进行识别，从而提取每一句音频的对应的语音信息特征矩阵。

步骤S22：基于分离门卷积层、双向长短时记忆网络和全连接层构建初始音色转换模型。

在具体实现步骤S22的过程中，利用N个分离门卷积层、M个双向长短时记忆网络和1个全连接层搭建初始音色转换模型。

其中，N个分离门卷积层包括分离门卷积层1、分离门卷积层2…分离门卷积层N共N个分离门卷积层；M个双向长短时记忆网络包括双向长短时记忆网络1、双向长短时记忆网络2至双向长短时记忆网络M共M个双向长短时记忆网络。

需要说明的是，N和M的取值为大于等于1的正整数。

可选的，若N和M的数值，则音色转换模型识别的计算量也随之增加，但是，当N和M的增大到一定数值后，音色转换模型的转换效果反而呈现下降的趋势。为了音色转换模型能够达到更好的识别转换效果，且确定最佳的计算量，需要对音色转换模型的转换效果和计算量进行多次实验。因此，本申请在经过多次实验后，根据音色转换模型的转换计算量和转换效果，优选的，将N设置为4，M设置为2。

在实际应用中，对于N和M的设置，也可以根据技术人员的经验进行设置。

步骤S23：将语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵。

在具体实现步骤S23的过程中，利用N个分离门卷积层依次对输入的语音内容特征矩阵和语音信息特征矩阵进行特征学习，得到第一特征矩阵。

步骤S24：利用双向长短时记忆网络对第一特征矩阵进行训练，得到的第二特征矩阵。

在本申请实施例中，在对分离门卷积层输出的数据进行训练之前，需要对双向长短时记忆网络进行训练，以得到该双向长短时记忆网络，需要说明的是，双向长短时记忆网络属于神经网络模型。

在具体实现步骤S24的过程中，将分离门卷积层输出的数据输入的M个双向长短时记忆网络中的第一个双向长短时记忆网络进行训练，并将训练后的第一特征矩阵输入下一双向长短时记忆网络，直至第M个双向长短时记忆网络对上一个双向长短时记忆网络输出的训练后的第一特征矩阵进行训练，得到第二特征矩阵。

需要说明的是，双向长短时记忆网络能够为输出层输入序列中每个结点完整的过去和未来的上下文信息。

步骤S25：全连接层对第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。

在具体实现步骤S25的过程中，全连接层对经过分离门卷积层和双向长短时记忆网络的每一句音频进行训练后得到的第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。

需要说明的是，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

步骤S26：判断计算得到的预测的目标人音色的声学特征与目标声学特征的绝对差值是否在预设范围内。若绝对差值在预设范围内，执行步骤S27，若绝对差值在预设范围外，执行步骤S28。

在步骤S26的过程中，确定测的目标人音色的声学特征与目标声学特征的绝对差值，即损失函数是否在预设范围内。若在预设范围内，则执行步骤S27，若在预设范围之外，则执行步骤S28。

步骤S27：确定当前的初始音色转换模型为音色转换模型。

步骤S28：对绝对差值进行迭代计算，直至绝对差值处于预设范围内，得到训练完成的音色转换模型。

在本申请实施例中，在对绝对差值进行迭代计算之前，预先设置用于调整绝对差值的学习率、训练批次大小batch_size和迭代次数。

在具体实现步骤S28的过程中，采用时刻估计算法ADAM，基于学习率对训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵进行训练，并将训练后的训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵输入初始音色转换模型进行迭代训练，以确定损失函数是否收敛到最小值。若损失函数未收敛到最小值，则继续将训练后的训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵输入初始音色转换模型进行迭代训练，以使得损失函数收敛到最小值，从而确定最终的音色转换模型。

需要说明的是，学习率用于表示更新音色转换模型的权重的幅度大小。

训练批次大小BATCH_SIZE是每一次训练音色转换模型所需要的语音内容特征矩阵和语音信息特征矩阵。

迭代次数是指整个训练批次大小输入到音色转换模型进行训练的次数。

步骤S14：基于训练得到的语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

在具体实现步骤S14的过程中，利用上述训练好的语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

在本申请实施例中，本申请实施例还公开了建立好的音色转换网络的架构，如图3所示。

该基于建立好的音色转换网络对原始音频进行音色转换，得到转换后的目标音频的过程如下：

将原始音频的语音内容输入图3示出的音色转换网络的架构中，使得音色转换网络中的对输入的原始音频进行处理，得到语音内容特征矩阵；将目标音色输入图3示出的音色转换网络的架构中，使得音色转换网络中的语音说话人识别模型用于对目标音频进行处理，得到语音信息特征矩阵；将内容特征矩阵和语音信息特征矩阵的组合矩阵输入图3示出的音色转换模型，音色转换模型对内容特征矩阵和语音信息特征矩阵的组合矩阵进行处理，得到声学特征；将声学特征输入图3示出的音色转换网络的声码器模型，使得音色转换网络中的声码器模型将声学特征转换成由目标音色和语音内容构成的目标音频。

在本申请实施例中，利用预先构建的音色转换网络对主播基于终端实时输入的原始音频进行音色转换，能够保证转换后的音频的质量和转换后的音频的音色与目标音色的相似度。再将转换后的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入该直播间的观众和主播观看。通过上述方式进行连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

基于上述本申请实施例示出的连麦直播方法，参见图4，为本申请实施例示出的另一种连麦直播方法的流程示意图，该方法适用于服务器，该方法包括：

步骤S401：确定当前连麦的直播间是否处于连麦直播PK模式，若是，则执行步骤S402，若否，则继续利用当前连麦直播的直播模式进行直播。

在具体实现步骤S401的过程中，在多个终端连麦进行直播过程中，获取连麦的直播间的直播模式，并判断当前连麦的直播间的直播模式是否为连麦直播PK模式，若是，则执行步骤S402，若否，则继续利用当前连麦直播的直播模式进行直播。

步骤S402：在结束连麦直播PK模式时，获取进行连麦直播PK的所有终端的直播数据。

需要说明的是，直播数据用于指示用户的直播喜爱度，且所有终端的数量为大于等于2的正整数。

在具体实现步骤S402的过程中，在结束连麦直播PK模式时，获取每一进行连麦直播PK的终端的直播喜爱度。

步骤S403：基于所有终端的直播数据，确定目标终端和其他终端。

在步骤S403中，目标终端用于指示直播喜爱度最高的终端，其他终端是指直播喜爱度低于最高直播喜爱度的终端。

在具体实现步骤S403的过程中，比较每一连麦直播PK的终端的直播喜爱度，并按照直播喜爱度的高低对连麦的终端进行排序。然后，将直播喜爱度最高的终端设置为目标终端，且直播喜爱度低于最高直播喜爱度的终端设置为其他终端。

步骤S404：向目标终端发送切换其他终端直播模式的权限。

需要说明的是，切换其他终端直播模式的权限中携带有目标音频和切换时长选择指令。

在具体实现步骤S404的过程中，服务器向目标终端发送携带有目标音频和切换时长选择指令的切换其他终端直播模式的权限。

可选的，目标终端基于切换其他终端直播模式的权限携带的目标音色和预设时长选择指令，选择目标音色和预设时长；并将选择的目标音色和预设时长打包生成切换其他终端直播模式的模式切换请求，发送给服务器。

步骤S405：判断是否接收到目标终端发送的切换其他终端直播模式的模式切换请求，若接收到，执行步骤S406，若未接收到，则继续执行步骤S405。

在具体实现步骤S405的过程中，确定是否接收到切换其他终端直播模式的模式切换请求，若接收到，执行步骤S406，若未接收到，则继续执行步骤S405。

需要说明的是，模式切换请求中携带有目标终端选择目标音色和预设时长。

步骤S406：基于模式切换请求将其他终端的直播模式切换为变声直播模式，使其他终端在预设时长内处于变声直播模式。

在步骤S406中，模式切换请求中携带有变声直播模式对应的目标音色。

在具体实现步骤S406的过程中，服务器利用接收到的模式切换请求将直播喜爱度低于最高直播喜爱度的终端的直播模式切换为变声直播模式，并使直播喜爱度低于最高直播喜爱度的终端的变声直播模式的持续时长等于预设时长。

步骤S407：获取其他终端实时输入的原始音频。

可选的，每一其他终端的主播均基于自身终端的麦克风实时输入原始音频，并将该输入的原始音频发送给服务器。

在具体实现步骤S407的过程中，服务器获取每一其他终端实时输入的原始音频。

步骤S408：基于模式切换请求携带的目标音色对原始音频进行音色转换，得到转换后的目标音频。

需要说明的是，步骤S408的具体实现内容与上述实施例示出的步骤S203的具体实现内容相同，可相互参见。

需要说明的是，目标音频的数量与其他终端的数量相同。

步骤S409：将目标音频、获取到的目标终端输入的原始音频、以及获取到的其他连麦的，但不进行直播PK的终端输入的原始音频进行混流，并将混流音频发送给所有连麦终端，以及进入多个终端连麦的直播间的观众端。

在具体实现步骤S409的过程中，利用混流技术将目标音频、获取到的目标终端输入的原始音频、以及获取到的其他连麦的，但不进行直播PK的终端输入的原始音频等多路音频混合，生成一路音频流，即混流音频。然后将混流音频发送给所有连麦终端，以及进入连麦直播间的观众端。

需要说明的是，步骤S409的具体实现过程与上述步骤S204的具体实现过程相同，可相互参见。

需要说明的是，目标终端进行混流的不仅可以是上述示出的原始音频，也可以是触发变声直播模式后的目标音频，对此本申请不加以限制。

其他连麦的但不进行直播PK的终端进行混流的不仅可以是上述示出的原始音频，也可以是触发变声直播模式后的目标音频，对此本申请不加以限制。

在本申请实施例中，在接收到目标终端发送的切换其他终端直播模式的模式切换请求时，基于模式切换请求将其他终端的直播模式切换为变声直播模式，使其他终端在预设时长内处于变声直播模式。获取其他终端实时输入的原始音频，并基于模式切换请求携带的目标音色对原始音频进行音色转换，得到转换后的目标音频。然后将转换后的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入该直播间的观众和主播观看。通过上述方式进行被动变声的连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

为更好解释说明上述本申请实施例公开的直播，下面以一具体应用实例进行解释说明。

假设主播1基于终端a和主播2基于终端b进行连麦直播。

服务器确定主播1基于终端a和主播2基于终端b进行连麦直播的直播间处于连麦直播PK模式，如图5所示。

其中，主播1的主播ID为小青橘子，主播2的直播ID为周周。

服务器获取终端a和终端b的直播数据，其中，终端a的直播数据是指观众喜爱度为16984，终端b的直播数据是指观众喜爱度为101。

服务器比较终端a的观众喜爱度16984和终端b的观众喜爱度101，并按照直播喜爱度的高低对连麦的终端进行排序。然后，将确定终端a为目标终端，终端b为其他终端。

服务器向目标终端，即终端a发送携带有目标音频和切换时长选择指令的切换其他终端，即终端b直播模式的权限。

终端a基于切换其他终端直播模式的权限携带的目标音色和预设时长选择指令，选择目标音色F和预设时长30分钟；并将选择的目标音色F和预设时长30分钟打包生成切换其他终端直播模式的模式切换请求，发送给服务器。

在确定接收到终端a发送的切换其他终端直播模式的模式切换请求时，利用接收到的模式切换请求将终端b的直播模式切换为变声直播模式，使终端b在预设时长30分钟内处于变声直播模式。

获取终端b实时输入的原始音频，并将原始音频中的原始音色进行音色转换，使得转换后的音色与目标音色的相同，从而确定由目标音色和原始音频的语音内容构成目标音频。

利用混流技术将将终端b转换后的目标音频和终端a的原始音频等两路音频混合，生成混流音频。然后将混流音频发送给终端a，终端b，以及进入连麦直播间的观众端。

在本申请实施例中，通过上述方式进行连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

基于上述本申请实施例示出的连麦直播方法，参见图6，为本申请实施例示出的又一种连麦直播方法的流程示意图，该方法适用于服务器，该方法包括：

步骤S601：获取连麦直播间中发起连麦请求的观众端的用户数据。

在具体实现步骤S601的过程中，服务器确定触发连麦请求的观众端，并获取所有观众端的用户数据。

步骤S602：基于观众端的用户数据判断观众端的直播间权限类型，若观众端具有特殊权限，则执行步骤S603至步骤S605，若观众端具有普通权限，则执行步骤S606至步骤S608。

需要说明的是，直播间权限类型包括特殊权限和普通权限。

在具体实现步骤S602的过程中，判断所有观众端的用户数据中是否存在大于等于特定用户数据的观众端，若存在，则说明大于等于特定用户数据的观众端的直播间权限类型为特殊权限，并执行步骤S603至步骤S605。若不存在，则说明小于特定用户数据的观众端的直播间权限类型为普通权限，并执行步骤S606至步骤S608。

步骤S603：获取观众基于观众端实时输入的原始音频，以及观众基于观众端选择的目标音色。

步骤S604：基于目标音色对原始音频进行音色转换，得到转换后的目标音频。

步骤S605：将目标音频与获取到的其他连麦的终端输入的音频进行混流，得到混流音频，并将混流音频发送给所有连麦终端以及进入连麦直播间的观众端。

需要说明的是，步骤S603至步骤S605的具体实现过程与上述步骤S202至步骤S204的具体实现过程相同，可相互参见。

步骤S606：获取观众基于观众端实时输入的原始音频，以及观众基于观众端选择的目标音色。

步骤S607：基于目标音色对原始音频进行音色转换，得到转换后的目标音频。

需要说明的是，步骤S606至步骤S607的具体实现过程与上述步骤S202至步骤S204的具体实现过程相同，可相互参见。

步骤S608：将目标音频发送给观众端。

在具体实现步骤S608的过程中，基于目标音频生成音频流，以使得音频能够稳定而连续的发送给观众端。

在本申请实施例中，基于用户数据确定用户的直播间权限；若观众端具有特殊权限，服务器对触发变声直播模式的观众端实时输入的原始音频进行音色转换，以得到目标音频；然后将转换后的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入该直播间的观众和主播观看。若观众端具有普通权限，服务器对触发变声直播模式的观众端实时输入的原始音频进行音色转换，以得到目标音频；以便于自身观看。通过上述方式进行连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

与上述本申请实施例图2公开的连麦直播方法相对应，本申请实施例还对应公开了一种连麦直播装置的结构示意图，如图7所示，该装置包括：

第一获取模块701，用于在多个终端连麦进行直播过程中，若任意终端触发变声直播模式时，获取主播基于终端实时输入的原始音频，以及主播基于终端选择的目标音色。

需要说明的是，原始音频包括语音内容和原始音色。

音色转换网络702，用于基于目标音色对原始音频中的原始音色进行音色转换，得到转换后的目标音频。

需要说明的是，目标音频由目标音色和语音内容构成。

第一发送模块703，用于将目标音频与获取到的其他连麦的终端输入的原始音频进行混流，得到混流音频，并将混流音频发送给其他连麦的终端以及进入多个终端连麦的直播间的观众端。

需要说明的是，上述本申请实施例公开的连麦直播装置中的各个单元具体的原理和执行过程，与上述本申请实施连麦直播方法相同，可参见上述本申请实施例公开的连麦直播方法中相应的部分，这里不再进行赘述。

在本申请实施例中，服务器对触发变声直播模式的观众端实时输入的原始音频进行音色转换，以得到目标音频；然后将转换后的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入该直播间的观众和主播观看。

可选的，音色转换网络702是由所述语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型预先构建的。

语音内容识别模型，用于对输入的原始音频进行处理，得到内容特征矩阵。

语音说话人识别模型，用于对目标音频进行处理，得到语音信息特征矩阵。

音色转换模型，用于对输入的内容特征矩阵和语音信息特征矩阵的组合矩阵进行处理，得到声学特征，音色转换模型是由分离门卷积层、双向长短时记忆网络和全连接层构建的。

声码器模型，用于将声学特征转换成目标音频，目标音频由目标音色和所述语音内容构成。

与上述本申请实施例图4公开的连麦直播方法相对应，本申请实施例还对应公开了一种连麦直播装置的结构示意图，如图8所示，该装置包括：

第二获取模块801，用于在多个终端连麦进行直播过程中，确定当前连麦的直播间处于连麦直播PK模式，在结束连麦直播PK模式时，获取进行连麦直播PK的所有终端的直播数据，以及获取所述其他终端实时输入的原始音频。

第一确定模块802，用于基于所有终端的直播数据，确定目标终端和其他终端。

需要说明的是，目标终端用于指示直播喜爱度最高的终端，其他终端是指直播喜爱度低于最高直播喜爱度的终端。

第二发送模块803，用于向目标终端发送切换其他终端直播模式的权限，若接收到目标终端发送的切换其他终端直播模式的模式切换请求时，执行切换模块804。

切换模块804，基于模式切换请求将其他终端的直播模式切换为变声直播模式，使其他终端在预设时长内处于变声直播模式。

需要说明的是，模式切换请求中携带有变声直播模式对应的目标音色。

音色转换网络702，用于基于模式切换请求携带的目标音色对原始音频进行音色转换，得到转换后的目标音频。

第三发送模块805，用于将目标音频、获取到的目标终端输入的原始音频、以及获取到的其他连麦的，但不进行直播PK的终端输入的原始音频进行混流，并将混流音频发送给所有连麦终端，以及进入连麦直播间的观众端。

在本申请实施例中，在接收到目标终端发送的切换其他终端直播模式的模式切换请求时，基于模式切换请求将其他终端的直播模式切换为变声直播模式，使其他终端在预设时长内处于变声直播模式。获取其他终端实时输入的原始音频，并基于模式切换请求携带的目标音色对原始音频进行音色转换，得到转换后的目标音频。然后将转换后的目标音频和获取到的其他连麦的终端输入的原始音频进行混流，以便于进入该直播间的观众和主播观看。通过上述方式进行连麦直播，能够提高用户的直播观看体验，且增加用户对直播平台的粘性。

与上述本申请实施例图6公开的连麦直播方法相对应，本申请实施例还对应公开了一种连麦直播装置的结构示意图，如图9所示，该装置包括：

第三获取模块901，用于获取连麦直播间中发起连麦请求的观众端的用户数据。

判断模块902，用于基于观众端的用户数据判断观众端的直播间权限类型，若观众端具有特殊权限，执行第四获取模块903，若观众端具有普通权限，则执行第五获取模块905。

第四获取模块903，用于获取观众基于观众端实时输入的原始音频，以及观众基于观众端选择的目标音色。

音色转换网络702，用于基于目标音色对所述原始音频进行音色转换，得到转换后的目标音频。

第四发送模块904，用于将目标音频与获取到的其他连麦的终端输入的音频进行混流，得到混流音频，并将混流音频发送给所有连麦终端以及进入连麦直播间的观众端。

第五获取模块905，用于获取观众基于观众端实时输入的原始音频，以及所述观众基于观众端选择的目标音色。

音色转换网络702，用于基于目标音色对原始音频进行音色转换，得到转换后的目标音频。

第五发送模块906，用于将目标音频发送给观众端。

本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，存储器用于存储语音音色转换的程序代码和数据，处理器用于调用存储器中的程序指令执行上述实施例示出的连麦直播方法。

本申请实施例提供了一种存储介质，存储介质包括存储程序，其中，在程序运行时控制存储介质所在设备执行本申请实施例示出的连麦直播方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种连麦直播方法，其特征在于，适用于服务器，所述方法包括：

向所述目标终端发送切换其他终端直播模式的权限；

2.根据权利要求1所述的方法，其特征在于，所述模式切换请求中还携带有预设时长；所述接收目标终端发送的切换其他终端直播模式的模式切换请求，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：将所述转换得到的目标音频和获取到的其他连麦的终端触发变声直播模式后得到的目标音频进行混流，以便于进入所述直播间的观众和主播观看。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标音色对所述其他终端实时输入的原始音频进行音色转换，得到目标音频，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定目标终端和其他终端，包括：

获取所述所有终端的直播数据；

6.根据权利要求1所述的方法，其特征在于，多个终端连麦进行直播过程中，还包括：

确定当前连麦的直播间是否处于连麦直播PK模式；

7.一种连麦直播装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述模式切换请求中还携带有预设时长；所述接收目标终端发送的切换其他终端直播模式的模式切换请求的切换模块，具体用于：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储语音音色转换的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如权利要求1-6任一所述的连麦直播方法。

10.一种存储介质，其特征在于，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-6任一所述的连麦直播方法。