CN114374880B

CN114374880B - 联合直播方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114374880B
Application number: CN202111594558.3A
Authority: CN
Inventors: 胡小华
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-08-29
Anticipated expiration: 2041-12-23
Also published as: CN114374880A

Abstract

本公开是关于一种联合直播方法、装置、电子设备及存储介质，该方法包括：获取当前直播账户的当前直播语音和当前直播图像，以及，远程直播账户的远程直播语音；远程直播账户为与当前直播账户进行联合直播的账户；对当前直播语音和远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音；基于目标当前直播语音和目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象；展示当前直播图像和目标虚拟形象，以及，播放目标当前直播语音和目标远程直播语音。本公开降低了联合直播的门槛，提高了联合直播的通用性；减少了传输的数据量，提高了数据传输的可控性；提升了联合直播的稳定性。

Description

联合直播方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及联合直播方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网的快速发展，直播形态的普及覆盖率越来越高，承载了内容娱乐，社交，电商带货等多种业务场景。过往情况中，为了活跃直播间气氛，促进账户侧互动与付费，开播方，也称主播，一般采用隔框的真人连麦互动，比起主播单人直播效果提升是很显著的，缺点是沉浸感不足。随着技术进步发展，不少主播采用虚拟形象代替真人出镜实时开播，可以较好地通过程序化进行多虚拟形象同画面(同台)互动，下称为多人(虚拟人)联动。

相关技术中，为了能让多个虚拟形象在同一直播间(画面里)联动，多个主播连接到同一服务器房间，视频画面上，每个主播进行面部表情捕捉，并通过服务器传输实时表情的相关参数、鼠标键盘操作的特殊动作/特殊表情键值等，在每个主播开播客户端进行渲染；音频上，采用低延时语音工具传输音频，在每个主播开播客户端混音后，和画面一起流媒体封装通过推流软件推出，如图1所示。

但是，这种方案存在以下缺陷：

1)由于是音频和视频画面的处理需要经过不同的路由，且中间没有同步机制，存在画面和声音不同步的情况；

2)由于每个主播的相关参数、特殊表情和动作键值等，都需要传输到参与的主播的机器上，当同一服务器房间主播人数增多，或者需要传输的参数信息较多(如运动剧烈帧率需求高，或复杂3d模型的实时肢体驱动参数传输等)时，将出现严重卡顿的情况；

3)由于部分主播保密隐私的需求，不愿意开摄像头进行正面捕捉，或者开了摄像头但没有对正脸部时，上述方案的体验将大打折扣或者直接无法应用。

在另一相关技术中，当多账户进行联合直播时，除了直播间主视角的账户的虚拟形象可以展示动画动效，其它联合直播的参与者则采用静态图像的形式展示在画面中，同时配以游戏、视频画面等其他直播内容。由于这种方案中其它参与者的虚拟形象是静止的静态图像，所以，完全无法实现实时响应的互动效果。

发明内容

为克服相关技术中存在的问题，本公开提供一种联合直播方法、装置、电子设备及存储介质。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种联合直播方法，包括：

获取当前直播账户的当前直播语音和当前直播图像，以及，远程直播账户的远程直播语音；所述远程直播账户为与所述当前直播账户进行联合直播的账户；

对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音；

基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象；

展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音。

可选的，所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音，包括：

对所述当前直播语音和所述远程直播语音分别进行降噪处理，得到降噪后的当前直播语音和降噪后的远程直播语音；

对所述降噪后的当前直播语音和所述降噪后的远程直播语音分别进行对象声音提取，得到目标当前直播语音和目标远程直播语音。

可选的，在所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音之前，还包括：

获取所述当前直播账户的第一虚拟形象标识，以及，所述远程直播账户的第二虚拟形象标识；

所述基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象，包括：

确定出与所述第一虚拟形象标识对应的第一虚拟形象，以及，与所述第二虚拟形象标识对应的第二虚拟形象；

采用所述目标当前直播语音对所述第一虚拟形象进行驱动，得到驱动后的第一目标虚拟形象，以及，采用所述目标远程直播语音对所述第二虚拟形象进行驱动，得到驱动后的第二目标虚拟形象。

可选的，所述采用所述目标当前直播语音对所述第一虚拟形象进行驱动，得到驱动后的第一目标虚拟形象，以及，采用所述目标远程直播语音对所述第二虚拟形象进行驱动，得到驱动后的第二目标虚拟形象，包括：

基于自动语音识别、自然语言处理、语音合成中的至少一项，采用所述目标当前直播语音驱动所述第一虚拟形象的预设动画逻辑，得到驱动后的第一目标虚拟形象，以及，采用所述目标远程直播语音驱动所述第二虚拟形象的预设动画逻辑，得到驱动后的第二目标虚拟形象。

将所述当前直播语音和所述当前直播账户的第一虚拟形象标识发送至所述远程直播账户。

根据本公开实施例的第二方面，提供一种联合直播装置，包括：

获取单元，被配置为获取当前直播账户的当前直播语音和当前直播图像，以及，远程直播账户的远程直播语音；所述远程直播账户为与所述当前直播账户进行联合直播的账户；

语音处理单元，被配置为对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音；

驱动单元，被配置为基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象；

输出单元，被配置为展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音。

可选的，所述语音处理单元，包括：

降噪子单元，被配置为对所述当前直播语音和所述远程直播语音分别进行降噪处理，得到降噪后的当前直播语音和降噪后的远程直播语音；

声音提取子单元，被配置为对所述降噪后的当前直播语音和所述降噪后的远程直播语音分别进行对象声音提取，得到目标当前直播语音和目标远程直播语音。

可选的，所述获取单元，还被配置为：

在所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音之前，获取所述当前直播账户的第一虚拟形象标识，以及，所述远程直播账户的第二虚拟形象标识；

所述驱动单元，包括：

确定子单元，被配置为确定出与所述第一虚拟形象标识对应的第一虚拟形象，以及，与所述第二虚拟形象标识对应的第二虚拟形象；

驱动子单元，被配置为采用所述目标当前直播语音对所述第一虚拟形象进行驱动，得到驱动后的第一目标虚拟形象，以及，采用所述目标远程直播语音对所述第二虚拟形象进行驱动，得到驱动后的第二目标虚拟形象。

可选的，所述驱动子单元，具体被配置为：

可选的，还包括：

发送单元，被配置为在所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音之前，将所述当前直播语音和所述当前直播账户的第一虚拟形象标识发送至所述远程直播账户。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面的联合直播方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得电子设备能够执行如第一方面的联合直播方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时实现如第一方面的联合直播方法。

本公开的实施例提供的技术方案可以包括以下有益效果：本地的当前设备获取当前直播账户的当前直播语音和当前直播图像，以及，远程直播账户的远程直播语音；所述远程直播账户为与所述当前直播账户进行联合直播的账户；然后对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音，再基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象后，即可展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音。通过上述方式，多账户在进行联合直播时，当前设备在采集到当前直播账户的当前直播语音和当前直播图像的同时，获取远程直播账户的语音和虚拟形象标识，即可在当前设备中展示当前直播账户的语音、视频图像、驱动后的虚拟形象，以及，远程直播账户的语音和驱动后的虚拟形象，由于在驱动虚拟形象时不需要采集账户的面部数据，所以，即使在没有面部数据的情况下，依然可以对每个账户的虚拟形象进行语音驱动，从而展示动画动效，降低了联合直播的门槛，提高了联合直播的通用性。

而且，也正是由于在驱动虚拟形象基于语音即可驱动，所以，任一账户将语音和虚拟形象标识发送至其它各个账户即可，不需要先驱动虚拟形象，然后将驱动后的虚拟形象的所有数据发送至其它各个账户，从而大大减少了传输的数据量，提高了数据传输的可控性。

进一步，还是由于在驱动虚拟形象基于语音即可驱动，所以，避免了相关技术中声音和画面的处理需要经过不同的路由，且中间没有同步机制，导致音画不同步的情况，提升了联合直播的稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是相关技术中多个虚拟形象在同一直播间联动的逻辑示意图；

图2是根据一示例性实施例示出的一种联合直播方法的流程图。

图3A是根据一示例性实施例示出的一种联合直播的逻辑示意图一；

图3B是根据一示例性实施例示出的一种联合直播的逻辑示意图二；

图3C是根据一示例性实施例示出的一种联合直播的逻辑示意图三；

图3D是根据一示例性实施例示出的一种联合直播的逻辑示意图四；

图4是根据一示例性实施例示出的一种联合直播装置的框图。

图5是根据一示例性实施例示出的一种联合直播装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图2是根据一示例性实施例示出的一种联合直播方法的流程图，如图2所示，联合直播方法用于终端中，包括以下步骤。

在步骤S21中，获取当前直播账户的当前直播语音和当前直播图像，以及，远程直播账户的远程直播语音；所述远程直播账户为与所述当前直播账户进行联合直播的账户。

当前直播账户可以是采用当前设备进行直播的账户，远程直播账户可以是采用非当前设备进行直播，且与当前直播账户进行联合直播的账户。比如，账户A在A地使用手机A进行直播，那么手机A就是当前设备，账户A就是当前直播账户，账户B在B地使用手机B与账户A进行联合直播，那么手机B就是非当前设备，账户B就是远程直播账户。

其中，当前设备、非当前设备可以具有如下特点：

(1)在硬件体系上，设备具备中央处理器、存储器、输入部件和输出部件，也就是说，设备往往是具备通信功能的微型计算机设备。另外，还可以具有多种输入方式，诸如键盘、鼠标、触摸屏、送话器和摄像头等，并可以根据需要进行调整输入。同时，设备往往具有多种输出方式，如受话器、显示屏等，也可以根据需要进行调整；

(2)在软件体系上，设备必须具备操作系统，如Windows Mobile、Symbian、Palm、Android、iOS等。同时，这些操作系统越来越开放，基于这些开放的操作系统平台开发的个性化应用程序层出不穷，如通信簿、日程表、记事本、计算器以及各类游戏等，极大程度地满足了个性化账户的需求；

(3)在通信能力上，设备具有灵活的接入方式和高带宽通信性能，并且能根据所选择的业务和所处的环境，自动调整所选的通信方式，从而方便账户使用。设备可以支持3GPP(3rd Generation Partnership Project，第三代合作伙伴计划)、4GPP(4rd GenerationPartnership Project，第四代合作伙伴计划)、5GPP(5rd Generation PartnershipProject，第五代合作伙伴计划)、LTE(Long Term Evolution，长期演进)、WIMAX(WorldInteroperability for Microwave Access，全球微波接入互操作性)的移动通信、基于TCP/IP(Transmission Control Protocol/Internet Protocol，传输控制协议/网际协议)、UDP(User Datagram Protocol，账户数据报协议)协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式，不仅支持语音业务，更支持多种无线数据业务；

(4)在功能使用上，设备更加注重人性化、个性化和多功能化。随着计算机技术的发展，设备从“以设备为中心”的模式进入“以人为中心”的模式，集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等，充分体现了以人为本的宗旨。由于软件技术的发展，设备可以根据个人需求调整设置，更加个性化。同时，设备本身集成了众多软件和硬件，功能也越来越强大。

需要说明的是，联合直播可以是基于连麦的联合直播。比如，账户A与账户B进行连麦的联合直播，那么账户A的直播数据包括账户A的视频图像、账户A的声音，以及账户B的声音，账户B的直播数据包括账户B的视频图像、账户B的声音，以及账户A的声音。当然，基于其它方式的联合直播也适用于本实施例，在实际应用中，可以根据实际需求进行设置，本实施例对此不作限制。其中，连麦可以是两个人同时使用各自的麦克风进行互动。

进一步，在当前直播账户开启直播后，当前设备就可以开始采集当前直播账户的当前直播语音和当前直播图像(比如视频图像)了。在当前直播账户直播时，如果当前直播账户与远程直播账户进行联合直播，那么当前设备还可以获取远程直播账户的远程直播语音。其中，远程直播语音可以是远程直播账户开启直播，且与当前直播账户进行联合直播后，远程直播账户的设备采集到的语音。

比如，接上例，如果账户A的直播数据包括账户A的视频图像、账户A的声音，以及账户B的声音，那么账户B的声音就是远程直播语音。

在本实施例中，在所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音之前，还包括：

具体而言，在获取到当前直播语音和远程直播语音后，在对该当前直播语音和远程直播语音进行语音处理之前，可以获取当前直播账户预设的第一虚拟形象标识，以及，远程直播账户预设的第二虚拟形象标识。其中，第一虚拟形象标识可以是当前直播账户在开启直播之前预设完成的，第二虚拟形象标识可以是远程直播账户在开启直播之前预设完成的。在当前直播账户开启直播，且与远程直播账户进行联合直播时，当前设备可以从本地获取当前直播账户预设的第一虚拟形象标识，以及，从非当前设备获取远程直播账户预设的第二虚拟形象标识。

其中，虚拟形象标识可以是虚拟形象的标识信息，用于区分各个虚拟形象。比如，虚拟形象A的标识信息为0001，虚拟形象B的标识信息为0002。进一步，虚拟形象可以是基于VR(Virtual Reality，虚拟现实)的虚拟形象，也可以是基于AR(Augmented Reality，增强现实)的虚拟形象，当然，基于其它形式的虚拟形象也是适用于本实施例的，在实际应用中，可以根据实际需求进行设置，本实施例对此不作限制。而且，虚拟形象标识除了上述形式外，也可以是其它形式，在实际应用中，也可以根据实际需求进行设置，本实施例对此也不作限制。

具体而言，由于当前直播账户与远程直播账户需要进行联合直播，所以，任何一方都需要获取另一方的语音和虚拟形象标识，因此，当前设备获取到非当前设备的虚拟形象标识的同时，也需要将当前直播账户的当前直播语音和第一虚拟形象标识发送至远程直播账户。

在步骤S22中，对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音。

在采集到当前直播账户的当前直播语音，以及，获取到远程直播账户的远程直播语音后，可以分别对当前直播语音和远程直播语音进行语音处理，得到处理后的、语音质量更好的目标当前直播语音和目标远程直播语音。

在本实施例中，所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音，包括：

具体而言，可以先对当前直播语音和远程直播语音分别进行降噪处理，得到降噪后的当前直播语音和降噪后的远程直播语音，然后对降噪后的当前直播语音和降噪后的远程直播语音分别进行对象声音提取，得到语音质量更好、对象声音更纯净的目标当前直播语音和目标远程直播语音。

需要说明的是，在语音处理时，除了采用降噪处理和对象声音提取的方法之外，还可以采用其它的方法，在实际应用中，可以根据实际需求进行设置，本实施例对此不作限制。

在步骤S23中，基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象。

在得到目标当前直播语音和目标远程直播语音后，可以采用目标当前直播语音和目标远程直播语音对各自对应的虚拟形象进行驱动，即，采用目标当前直播语音对当前直播账户对应的虚拟形象进行驱动，以及，采用目标远程直播语音对远程直播账户对应的虚拟形象进行驱动，从而得到驱动后的各个虚拟形象，驱动后的各个虚拟形象即可展示动画动效。

在本实施例中，所述基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象，包括：

具体而言，在获取到第一虚拟形象标识和第二虚拟形象标识后，可以确定出与第一虚拟形象标识对应的第一虚拟形象，以及，确定出与第二虚拟形象标识对应的第二虚拟形象。

其中，第一虚拟形象和第二虚拟形象可以基于本地的当前设备来确定。比如，当前设备中存储有所有的虚拟形象标识，以及，每个虚拟形象标识各自对应的虚拟形象，在获取到第一虚拟形象标识和第二虚拟形象标识后，就可以从存储的虚拟形象中确定出第一虚拟形象和第二虚拟形象。

进一步，第一虚拟形象和第二虚拟形象也可以基于预设的服务器来确定。比如，服务器中存储有所有的虚拟形象标识，以及，每个虚拟形象标识各自对应的虚拟形象，当前设备在获取到第一虚拟形象标识和第二虚拟形象标识后，可以向服务器发送第一虚拟形象和第二虚拟形象的获取请求，该请求中包含第一虚拟形象标识和第二虚拟形象标识，服务器在接收到请求后就可以从存储的虚拟形象中确定出第一虚拟形象和第二虚拟形象，然后反馈给当前设备。

确定出第一虚拟形象和第二虚拟形象后，即可采用目标当前直播语音对第一虚拟形象进行语音驱动，得到驱动后的第一目标虚拟形象，以及，采用目标远程直播语音对第二虚拟形象进行语音驱动，得到驱动后的第二目标虚拟形象。

其中，所述采用所述目标当前直播语音对所述第一虚拟形象进行驱动，得到驱动后的第一目标虚拟形象，以及，采用所述目标远程直播语音对所述第二虚拟形象进行驱动，得到驱动后的第二目标虚拟形象，包括：

具体的，在对第一虚拟形象和第二虚拟形象进行语音驱动时，可以采用包括但不限于ASR(Automatic Speech Recognition，自动语音识别)、NLP(Natural LanguageProcessing，自然语言处理)、TTS(Text to Speech，语音合成)中的至少一项，以及，目标当前直播语音来驱动第一虚拟形象的预设动画逻辑，使得第一虚拟形象根据动画逻辑来展示动画动效，从而得到驱动后的第一目标虚拟形象。同理，采用包括但不限于ASR、NLP、TTS中的至少一项，以及，目标远程直播语音来驱动第二虚拟形象的预设动画逻辑，使得第二虚拟形象根据动画逻辑来展示动画动效，从而得到驱动后的第二目标虚拟形象。

其中，动画逻辑包括但不限于表情动画(比如嘴型、情绪)、身体动画、场景动画(比如天气)，当然，其它类型的动画逻辑也是适用于本实施例的，在实际应用中，可以根据实际需求进行设置，本实施例对此不作限制。

在步骤S24中，展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音。

当前设备在得到第一目标虚拟形象和第二目标虚拟形象后，就可以展示已采集到的当前直播图像、第一目标虚拟形象和第二目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音了。

为方便理解，图3A示出了本实施例的一种联合直播的逻辑示意图。参照图3A，账户A与账户B进行联合直播。针对账户A，设备A采集账户A(当前直播账户)的语音A(当前直播语音)和图像A(当前直播图像)、获取账户B(远程直播账户)的语音B(远程直播语音)和账户B的虚拟形象标识B，以及，将账户A预设的虚拟形象标识A发送至设备B，然后对语音A和语音B进行语音处理，得到目标语音A(目标当前直播语音)和目标语音B(目标远程直播语音)，再根据账户A预设的虚拟形象标识A(第一虚拟形象标识)从本地确定出对应的虚拟形象A(第一虚拟形象)，根据虚拟形象标识B(第二虚拟形象标识)从本地确定出对应的虚拟形象B(第二虚拟形象)，采用目标语音A驱动虚拟形象A，得到目标虚拟形象A(第一目标虚拟形象)，以及，采用目标语音B驱动虚拟形象B，得到目标虚拟形象B(第二目标虚拟形象)，在设备A中展示图像A、目标虚拟形象A和目标虚拟形象B，以及，播放目标语音A和目标语音B。同理，针对账户B，在设备B中展示图像B、目标虚拟形象B和目标虚拟形象A，以及，播放目标语音B和目标语音A。

进一步，图3B示出了本实施例的另一种联合直播的逻辑示意图。参照图3B，账户A与账户B进行联合直播。针对账户A，设备A采集账户A(当前直播账户)的语音A(当前直播语音)和图像A(当前直播图像)，以及，获取账户B(远程直播账户)的语音B(远程直播语音)，然后对语音A和语音B进行语音处理，得到目标语音A(目标当前直播语音)和目标语音B(目标远程直播语音)，再获取账户B的虚拟形象标识B，并根据账户A预设的虚拟形象标识A(第一虚拟形象标识)从本地确定出对应的虚拟形象A(第一虚拟形象)，根据虚拟形象标识B(第二虚拟形象标识)从本地确定出对应的虚拟形象B(第二虚拟形象)，采用目标语音A驱动虚拟形象A，得到目标虚拟形象A(第一目标虚拟形象)，以及，采用目标语音B驱动虚拟形象B，得到目标虚拟形象B(第二目标虚拟形象)，在设备A中展示图像A、目标虚拟形象A和目标虚拟形象B，以及，播放目标语音A和目标语音B。同理，针对账户B，在设备B中展示图像B、目标虚拟形象B和目标虚拟形象A，以及，播放目标语音B和目标语音A。

进一步，图3C示出了本实施例的另一种联合直播的逻辑示意图。参照图3C，账户A与账户B进行联合直播。针对账户A，设备A采集账户A(当前直播账户)的语音A(当前直播语音)和图像A(当前直播图像)，以及，获取账户B(远程直播账户)的语音B(远程直播语音)，然后对语音A和语音B进行语音处理，得到目标语音A(目标当前直播语音)和目标语音B(目标远程直播语音)，再获取账户B的虚拟形象标识B，并根据账户A预设的虚拟形象标识A(第一虚拟形象标识)从服务器获取对应的虚拟形象A(第一虚拟形象)，根据虚拟形象标识B(第二虚拟形象标识)从服务器获取对应的虚拟形象B(第二虚拟形象)，采用目标语音A驱动虚拟形象A，得到目标虚拟形象A(第一目标虚拟形象)，以及，采用目标语音B驱动虚拟形象B，得到目标虚拟形象B(第二目标虚拟形象)，在设备A中展示图像A、目标虚拟形象A和目标虚拟形象B，以及，播放目标语音A和目标语音B。同理，针对账户B，在设备B中展示图像B、目标虚拟形象B和目标虚拟形象A，以及，播放目标语音B和目标语音A。

进一步，图3D示出了本实施例的另一种联合直播的逻辑示意图。参照图3D，账户A与账户B进行联合直播。针对账户A，设备A采集账户A(当前直播账户)的语音A(当前直播语音)和图像A(当前直播图像)，以及，获取账户B(远程直播账户)的语音B(远程直播语音)，然后对语音A和语音B进行语音处理，得到目标语音A(目标当前直播语音)和目标语音B(目标远程直播语音)，再获取账户B的虚拟形象标识B，并根据账户A预设的虚拟形象标识A(第一虚拟形象标识)从服务器获取对应的虚拟形象A(第一虚拟形象)，根据虚拟形象标识B(第二虚拟形象标识)从服务器获取对应的虚拟形象B(第二虚拟形象)，采用目标语音A驱动虚拟形象A，得到目标虚拟形象A(第一目标虚拟形象)，以及，采用目标语音B驱动虚拟形象B，得到目标虚拟形象B(第二目标虚拟形象)，在设备A中展示图像A、目标虚拟形象A和目标虚拟形象B，以及，播放目标语音A和目标语音B。同理，针对账户B，在设备B中展示图像B、目标虚拟形象B和目标虚拟形象A，以及，播放目标语音B和目标语音A。

需要说明的是，本实施例仅仅采用两个账户进行详细说明，在实际应用中，超过两人的联合直播也适用于本实施例，可以根据实际需求进行调整，本实施例对联合直播的人数不作限制。

在本实施例中，本地的当前设备获取当前直播账户的当前直播语音和当前直播图像，以及，远程直播账户的远程直播语音；所述远程直播账户为与所述当前直播账户进行联合直播的账户；然后对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音，再基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象后，即可展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音。通过上述方式，多账户在进行联合直播时，当前设备在采集到当前直播账户的当前直播语音和当前直播图像的同时，获取远程直播账户的语音和虚拟形象标识，即可在当前设备中展示当前直播账户的语音、视频图像、驱动后的虚拟形象，以及，远程直播账户的语音和驱动后的虚拟形象，由于在驱动虚拟形象时不需要采集账户的面部数据，所以，即使在没有面部数据的情况下，依然可以对每个账户的虚拟形象进行语音驱动，从而展示动画动效，降低了联合直播的门槛，提高了联合直播的通用性。

图4是根据一示例性实施例示出的一种联合直播装置框图。参照图4，该装置包括检获取单元421，语音处理单元422，驱动单元423和输出单元424。

该检测模块421被配置为获取当前直播账户的当前直播语音和当前直播图像，以及，远程直播账户的远程直播语音；所述远程直播账户为与所述当前直播账户进行联合直播的账户。

该确定模块422被配置为对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音。

该转换模块423被配置为基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象。

该输出单元424被配置为展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音。

可选的，所述语音处理单元，包括：

可选的，所述获取单元，还被配置为：

所述驱动单元，包括：

可选的，所述驱动子单元，具体被配置为：

可选的，还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于联合直播的装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和账户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自账户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，账户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种联合直播方法，其特征在于，包括：

展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音；

其中，所述基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动，得到驱动后的目标虚拟形象，包括：

2.根据权利要求1所述的联合直播方法，其特征在于，所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音，包括：

3.根据权利要求1所述的联合直播方法，其特征在于，所述采用所述目标当前直播语音对所述第一虚拟形象进行驱动，得到驱动后的第一目标虚拟形象，以及，采用所述目标远程直播语音对所述第二虚拟形象进行驱动，得到驱动后的第二目标虚拟形象，包括：

4.根据权利要求1所述的联合直播方法，其特征在于，在所述对所述当前直播语音和所述远程直播语音进行语音处理，得到处理后的目标当前直播语音和目标远程直播语音之前，还包括：

5.一种联合直播装置，其特征在于，包括：

获取单元，被配置为获取当前直播账户的当前直播语音和当前直播图像、远程直播账户的远程直播语音，以及，获取所述当前直播账户的第一虚拟形象标识，以及，所述远程直播账户的第二虚拟形象标识；所述远程直播账户为与所述当前直播账户进行联合直播的账户；

输出单元，被配置为展示所述当前直播图像和所述目标虚拟形象，以及，播放所述目标当前直播语音和所述目标远程直播语音；

其中，所述驱动单元，包括：

6.根据权利要求5所述的联合直播装置，其特征在于，所述语音处理单元，包括：

7.根据权利要求5所述的联合直播装置，其特征在于，所述驱动子单元，具体被配置为：

8.根据权利要求5所述的联合直播装置，其特征在于，还包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的联合直播方法。

10.一种计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如权利要求1至4中任一项所述的联合直播方法。