CN114025186A

CN114025186A - 直播间内的虚拟语音互动方法、装置及计算机设备

Info

Publication number: CN114025186A
Application number: CN202111264158.6A
Authority: CN
Inventors: 曾家乐
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-08

Abstract

本申请涉及网络直播技术领域，提出一种直播间内的虚拟语音互动方法、装置及计算机设备，该方法包括：响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称；获取与互动场景标识对应的互动场景匹配的第一发言文本，替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本；生成模拟当前主播的声音读出第二发言文本的虚拟语音数据；将虚拟语音数据与音频流数据混流，得到混流后的音频流数据，使直播间内的客户端将混流后的音频流数据在直播间内输出。相对于现有技术，本申请能够使用户感受到主播的关注，增强主播的直播表现力，提升用户的直播互动体验。

Description

直播间内的虚拟语音互动方法、装置及计算机设备

技术领域

本申请实施例涉及网络直播技术领域，尤其涉及一种直播间内的虚拟语音互动方法、装置及计算机设备。

背景技术

随着互联网技术和流媒体技术的快速发展，网络直播逐渐成为一种日渐普及的娱乐手段。越来越多的用户在直播间内体验与主播的线上互动。

但是，由于一些主播的直播表现力不足，其直播间内的互动气氛较为沉闷，在用户连送虚拟礼物、用户分享直播间以及开启互动玩法等多种的互动场景下，其很难自主地调动直播间的氛围，提升用户的直播互动体验，因而易造成用户流失，难以提高用户的观看留存率和观看时长。

发明内容

本申请实施例提供了一种直播间内的虚拟语音互动方法、装置及计算机设备，可以解决播直播表现力不足，用户直播互动体验感较差的技术问题，该技术方案如下：

第一方面，本申请实施例提供了一种直播间内的虚拟语音互动方法，包括步骤：

响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称；

获取与互动场景标识对应的互动场景匹配的第一发言文本；

替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本；

生成模拟当前主播的声音读出第二发言文本的虚拟语音数据；其中，当前主播为创建直播间标识对应的直播间的主播；

获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据；

将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。

第二方面，本申请实施例提供了一种直播间内的虚拟语音互动装置，包括：

第一响应单元，用于响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称；

第一获取单元，用于获取与互动场景标识对应的互动场景匹配的第一发言文本；

第一替换单元，用于替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本；

第一模拟单元，用于生成模拟当前主播的声音读出第二发言文本的虚拟语音数据；其中，当前主播为创建直播间标识对应的直播间的主播；

第二获取单元，用于获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据；

第一输出单元，用于将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。

第三方面，本申请实施例提供了一种计算机设备，处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述方法的步骤。

在本申请实施例中，响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称；获取与互动场景标识对应的互动场景匹配的第一发言文本，替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本；生成模拟当前主播的声音读出第二发言文本的虚拟语音数据；其中，当前主播为创建直播间标识对应的直播间的主播；获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据；将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。本申请实施例通过在不同的互动场景下，获取到与互动场景匹配的第一发言文本，将第一发言文本中的用户名称进行替换得到第二发言文本，并在直播间内输出混流后包含模拟当前主播声音读出第二发言文本的虚拟语音数据的音频流数据，从而使用户能够感受到主播的关注，并且基于虚拟语音的互动方式，能够更有效地提升用户的直播互动体验，增强主播的直播表现力，进而有利于调动直播间的氛围，促进更多直播互动行为的产生，提高用户的观看留存率和观看时长。

为了更好地理解和实施，下面结合附图详细说明本申请的技术方案。

附图说明

图1为本申请实施例提供的直播间内的虚拟语音互动方法的应用场景示意图；

图2为本申请第一实施例提供的直播间内的虚拟语音互动方法的流程示意图；

图3为本申请第一实施例提供的直播间内的虚拟语音互动方法中S102的流程示意图；

图4为本申请实施例提供的虚拟礼物栏在直播间界面中的显示示意图；

图5为本申请实施例提供的互动玩法控件在直播间界面中的显示示意图；

图6为本申请实施例提供的直播间分享控件在直播间界面中的显示示意图；

图7为本申请第二实施例提供的直播间内的虚拟语音互动方法的流程示意图；

图8为本申请第二实施例提供的直播间内的虚拟语音互动方法中S207的流程示意图；

图9为本申请第三实施例提供的直播间内的虚拟语音互动方法的流程示意图；

图10为本申请第三实施例提供的直播间内的虚拟语音互动方法中S307的流程示意图；

图11为本申请第四实施例提供的直播间内的虚拟语音互动装置的结构示意图；

图12为本申请第五实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本领域技术人员可以理解，本申请所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的计算机设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

请参阅图1，图1为本申请实施例提供的直播间内的虚拟语音互动方法的应用场景示意图，该应用场景包括本申请实施例提供的主播客户端101、服务器102和观众客户端103，主播客户端101与观众客户端103通过服务器102进行交互。

本申请实施例提出的客户端包括该主播客户端101和该观众客户端103。

需要指出的是，在现有技术中会存在对“客户端”这一概念的多种理解，例如：可以将其理解为安装在计算机设备中的应用程序，或者，也可以将其理解为相对应于服务器的硬件设备。

在本申请实施例中，所称的“客户端”是指相对应于服务器的硬件设备，更具体来说，是指计算机设备，例如：智能手机、智能交互平板以及个人计算机等。

在客户端为智能手机、智能交互平板等移动设备时，用户可以在客户端上安装匹配的移动端应用程序，也可以在客户端上访问Web端应用程序。

在客户端为个人计算机(PC机)等非移动设备时，用户可以在客户端上安装匹配的PC端应用程序，同样也可以在客户端上访问Web端应用程序。

其中，移动端应用程序是指可安装在移动设备中的应用程序，PC端应用程序是指可安装在非移动设备中的应用程序，Web端应用程序是指需通过浏览器访问的应用程序。

具体地，Web端应用程序依据客户端类型的差异，又可以分为移动版本和PC版本，两者的页面布局方式以及可提供的服务器支持可能存在差别。

在本申请实施例中，提供至用户的直播应用程序的类型分为移动端直播应用程序、PC端直播应用程序和Web端直播应用程序。用户可以依据其采用客户端的类型不同，自主选择其参与网络直播的方式。

本申请依据采用客户端的用户身份的不同，可以将客户端分为主播客户端101和观众客户端103。

其中，主播客户端101是指发送网络直播视频的一端，通常来说是网络直播中主播(即，直播主播用户)所采用的客户端。

观众客户端103是指接收和观看网络直播视频的一端，通常来说是网络直播中观看视频的观众(即，直播观众用户)所采用的客户端。

主播客户端101和观众客户端103所指向的硬件，本质上是指计算机设备，具体地，如图1所示，其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播客户端101和观众客户端103均可以通过公知的网络接入方式接入互联网，与服务器102建立数据通信链路。

服务器102作为一个业务服务器，其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等，以此构成逻辑上相关联的服务机群，来为相关的终端设备，例如图1中所示的主播客户端101和观众客户端103提供服务。

本申请实施例中，主播客户端101与观众客户端103可以加入同一个直播间(即直播频道)，上述的直播间是指依靠互联网技术实现的一种聊天室，通常具备音视频播控功能。主播用户通过主播客户端101在直播间内进行直播，观众客户端103的观众可以登录服务器102进入直播间观看上直播。

在直播间内，主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动，一般是主播以音视频流的形式为观众用户表演节目，并且在互动过程中还可产生经济交易行为。当然，直播间的应用形态并不局限于在线娱乐，也可推广到其他相关场景中，例如视频会议场景、产品推介销售场景以及其他任何需要类似互动的场景中。

具体地，观众观看直播的过程如下：观众可以点击访问安装在观众客户端103上的直播应用程序，并选择进入任意一个直播间，触发观众客户端103为该观众加载直播间界面，该直播间界面内包括若干交互组件，例如：视频窗口、虚拟礼物栏以及公屏等。

在直播间内会存在多种互动场景，例如：连续赠送虚拟礼物的虚拟礼物连送场景以及用户发出提问的提问互动场景以及主播开启互动玩法的对战互动场景等，这时主播通常在直播间内会通过公屏聊天的方式或语音对话的方式，与用户进行互动，从而提升直播间的互动氛围，增强用户的直播互动体验。

但是，由于一些主播缺乏直播经验，直播表现力不足，其往往很难自主地调动直播间的氛围，增强与用户之间的互动体验。并且，也存在直播间内用户过多，主播难以兼顾各用户的互动行为的情况，也容易致使主播无法给予用户及时的关注。

基于上述，本申请实施例提供了一种直播间内的虚拟语音互动方法。请参阅图2，图2为本申请第一实施例提供的直播间内的虚拟语音互动方法的流程示意图，该方法包括如下步骤：

S101：响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称。

S102：获取与互动场景标识对应的互动场景匹配的第一发言文本。

S103：替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本。

S104：生成模拟当前主播的声音读出第二发言文本的虚拟语音数据；其中，当前主播为创建直播间标识对应的直播间的主播。

S105：获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据。

S106：将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。

在本实施例中，是从服务器为主要执行主体对直播间内的虚拟语音互动方法进行描述的。同时为了能够更清楚地说明直播间内的虚拟语音互动方法中的各个步骤，也会辅以客户端角度的描述，以帮助理解整体方案。其中，客户端包括主播客户端和观众客户端。

关于步骤S101，服务器响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称。

该直播互动指令可以为虚拟礼物连送指令、提问互动指令、对战互动指令以及直播间分享互动指令等任意一种在直播间内发生直播互动行为后触发服务器生成的指令。

直播互动指令中至少包括直播间标识、互动场景标识和用户标识。

其中，直播间标识为直播间(即，频道)对应的唯一标识，直播间标识用于指示在哪一直播间内发生了直播互动行为。

用户标识为用户对应的唯一标识，根据用户标识，能够确定用户标识对应的用户名称。在一个可选的实施例中，该用户名称为用户在网络直播平台中的昵称。

互动场景标识用于指示当前直播间处于哪一互动场景下，该互动场景与直播互动行为对应。例如：观众连续赠送虚拟礼物的行为对应虚拟礼物连送场景，观众发出提问的行为对应提问互动场景，主播开启互动玩法的行为对应对战互动场景，观众分享直播间的行为对应直播间分享互动场景。

关于步骤S102，服务器获取与互动场景标识对应的互动场景匹配的第一发言文本。

其中，第一发言文本是指与互动场景匹配的文本。例如：在虚拟礼物连送场景下，匹配的第一发言文本可以是“感谢XXX(用户名称)送给我的礼物”，在对应对战互动场景，匹配的第一发言文本可以是“XXX(用户名称)要不要送个XXX(礼物名称)”。

下面将详细说明如何获取到与互动场景标识对应的互动场景匹配的第一发言文本。

在一个可选的实施例中，S102获取与互动场景标识对应的互动场景匹配的第一发言文本，包括步骤：

获取在互动场景标识对应的互动场景下的真实语音数据；根据真实语音数据和预设的语音识别算法，获取第一发言文本。

具体地，服务器获取在互动场景标识对应的互动场景下的真实语音数据。

其中，该真实语音数据可以为当前主播输出的真实语音数据，即，当前主播在互动场景标识对应的互动场景下曾在直播间内输出过的真实语音数据。当前主播为创建直播间标识对应的直播间的主播。

该真实语音数据也可以为其他主播输出的真实语音数据，即，其他主播在互动场景标识对应的互动场景下曾在其直播间内输出过的真实语音数据。

真实语音数据体现了在互动场景标识对应的互动场景下的主播对用户的真实互动反馈。

之后，服务器根据真实语音数据和预设的语音识别算法，获取第一发言文本。

其中，预设的语音识别算法可以是任意一种现有的语音识别算法，该语音识别算法能够将真实语音数据转化为第一发言文本。

由于真实语音数据中可能包含一些无效数据，因此，转化得到的文本也包含无效文本，这里无效文本是指与互动场景无关的文本，故，可以通过对文本内容进行语义分析后，从中提取到更准确的与互动场景匹配的第一发言文本。

在另一个可选的实施例中，请参阅图3，S102获取与互动场景标识对应的互动场景匹配的第一发言文本，包括步骤：

S1021：获取互动场景标识对应的互动关键字。

S1022：将互动场景标识对应的互动关键字输入至预训练好的发言文本生成网络模型，获取与互动场景标识对应的互动场景匹配的第一发言文本；其中，第一发言文本中至少包括互动关键字或与互动关键字语义相似的关键字；预训练好的发言文本生成网络模型的训练数据至少包括若干种互动场景下的真实发言文本。

关于步骤S1021，服务器中预存了不同互动场景标识对应的互动关键字。

在一个可选的实施例中，该互动关键字可以是服务器从不同互动场景标识对应的互动场景下的真实发言文本中分析得来的。

具体地，该互动关键字可以为互动场景标识对应的互动场景下的真实发言文本中的高频词语。

举例来说：虚拟礼物连送场景中的“送”和“礼物”为高频词语，那么该高频词语即可以为虚拟礼物连送场景对应的互动关键字。

关于步骤S1022，服务器将互动场景标识对应的互动关键字输入至预训练好的发言文本生成网络模型，获取与互动场景标识对应的互动场景匹配的第一发言文本。

其中，第一发言文本中至少包括互动关键字或与互动关键字语义相似的关键字。

与互动关键字语义相似是指与互动关键字在第一发言文本中的语义相似。

例如：虚拟礼物连送场景中的互动关键字“送”和“礼物”，与互动关键字“送”语义相似的关键字，如“赠送”、“挑选”等，与“礼物”语义相似的关键字，如虚拟礼物的具体名称。

预训练好的发言文本生成网络模型可以是通过任意一种现有的神经网络训练方法得到的，在此不进行限定，该预训练好的发言文本生成网络模型的训练数据至少包括若干种互动场景下的真实发言文本。

在本实施例中，通过模拟真实发言文本得到第一发言文本，从而使第一发言文本更加灵活多变，有利于后续生成虚拟语音数据时，不易被用户所察觉，从而提高直播互动体验。

关于步骤S103：替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本。

例如：在虚拟礼物连送场景下，匹配的第一发言文本可以是“感谢XXX(用户名称)送给我的礼物”，用于XXX(用户名称)并不是当前连送虚拟礼物的观众，因此，需要将XXX(用户名称)替换为用户标识对应的用户名称，得到第二发言文本。

关于步骤S104，生成模拟当前主播的声音读出第二发言文本的虚拟语音数据。为了能够保证虚拟语音互动的效果，需要尽可能地模拟当前主播的声音参数，从而使用户在听到虚拟语音数据时感受到的真实性更高。其中，声音参数包括但不限于音调、音色以及响度，还可以包括情感(消极、中性以及积极)和方言发音等。

具体如何生成模拟当前主播的声音读出第二发言文本的虚拟语音数据将在第二实施例以及第三实施例中详细说明。

关于步骤S105～S106，服务器获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据，将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。

上述混流操作是由服务器完成的，在一个可选的实施例中，也可以由直播间内客户端完成混流操作，具体过程如下，服务器将虚拟语音数据和主播客户端采集的音频流数据发送至直播间内的客户端，直播间内的客户端接收虚拟语音数据和音频流数据，对虚拟语音数据和音频流数据进行混流，得到混流后的音频流数据，并将混流后的音频流数据在直播间内输出。

本申请实施例通过在不同的互动场景下，获取到与互动场景匹配的第一发言文本，将第一发言文本中的用户名称进行替换得到第二发言文本，并在直播间内输出混流后包含模拟当前主播声音读出第二发言文本的虚拟语音数据的音频流数据，从而使用户能够感受到主播的关注，并且基于虚拟语音的互动方式，能够更有效地提升用户的直播互动体验，增强主播的直播表现力，进而有利于调动直播间的氛围，促进更多直播互动行为的产生，提高用户的观看留存率和观看时长。

下面将详细说明在不同的直播互动场景下，具体如何得到第二发言文本。

(1)直播互动指令为虚拟礼物连送指令，虚拟礼物连送指令是服务器判断观众在直播间内连续赠送虚拟礼物后生成的。

请参阅图4，图4为本申请实施例提供的虚拟礼物栏在直播间界面中的显示示意图。观众可以通过浏览虚拟礼物栏41中的虚拟礼物42，选中某一虚拟礼物并赠送后，若该虚拟礼物为可连送的虚拟礼物，那么虚拟礼物42中会显示连送控件43，观众通过连续点击该连送控件43，可以实现虚拟礼物的连续赠送。上述仅为本实施例提供的连续赠送虚拟礼物的一种可实现方式。

具体地，在步骤S101之前，服务器若连续响应同一用户标识对应的虚拟礼物赠送指令，根据直播间标识、虚拟礼物连送场景对应的互动场景标识、用户标识以及虚拟礼物标识，生成虚拟礼物连送指令。

其中，该虚拟礼物赠送指令至少包括直播间标识、用户标识以及虚拟礼物标识等。

若连续响应同一用户标识对应的虚拟礼物赠送指令，则服务器会判断互动场景为虚拟礼物连送场景，因而，还会获取虚拟礼物连送场景对应的互动场景标识。

之后，根据直播间标识、虚拟礼物连送场景对应的互动场景标识、用户标识以及虚拟礼物标识，生成虚拟礼物连送指令。

在此基础上，S101包括步骤：响应于虚拟礼物连送指令，解析虚拟礼物连送指令，获取直播间标识、互动场景标识、用户标识、用户标识对应的用户名称、虚拟礼物标识以及虚拟礼物标识对应的虚拟礼物名称。

S103包括步骤：替换第一发言文本中的用户名称为用户标识对应的用户名称，并替换第一发言文本中的虚拟礼物名称为虚拟礼物标识对应的虚拟礼物名称，得到第二发言文本。

服务器若响应于虚拟礼物连送指令，除了要获取直播间标识、互动场景标识、用户标识、用户标识对应的用户名称之外，还需要获取虚拟礼物标识以及虚拟礼物标识对应的虚拟礼物名称。

并且，除了要替换第一发言文本中的用户名称为用户标识对应的用户名称之外，还要替换第一发言文本中的虚拟礼物名称为虚拟礼物标识对应的虚拟礼物名称，得到第二发言文本。

那么第二发言文本不仅能表明连送虚拟礼物的观众是谁，还能表明该观众连送了哪一虚拟礼物。

在本实施例中，针对虚拟礼物连送场景，不仅替换了第一发言文本中的用户名称为用户标识对应的用户名称，还替换了第一发言文本中的虚拟礼物名称为虚拟礼物标识对应的虚拟礼物名称，从而能够进一步提高虚拟语言互动的质量，提升用户的直播互动体验。

(2)直播互动指令为提问互动指令，下面先说明如何会生成提问互动指令，具体地，步骤S101之前，包括步骤：服务器获取在直播间内输出的真实提问文本和发出真实提问文本的用户对应的用户标识，若在预设的回复时限内，直播间内未输出关于真实提问文本的真实回复，根据直播间标识、提问互动场景对应的互动场景标识以及用户标识，生成提问互动指令。

在本实施例中，服务器会对公屏内输出的文本进行句式分析，判断是否为疑问句式或反问句式，若是，则确认该文本为真实提问文本，之后，则会在预设的回复时限内，监控直播间内是否输出关于真实提问文本的真实回复。该真实回复可以为真实回复文本，也可以是真实回复语音。

若在预设的回复时限内，直播间内未输出关于真实提问文本的真实回复，服务器根据直播间标识、提问互动场景对应的互动场景标识以及用户标识，生成提问互动指令。

在一个可选的实施例中，S102获取与互动场景标识对应的互动场景匹配的第一发言文本，该第一发言文本可以是当前主播关于该真实提问文本曾发出的真实回复文本。

在另一个可选的实施例中，S102获取与互动场景标识对应的互动场景匹配的第一发言文本，包括步骤：获取真实提问文本以及真实提问文本对应的问题关键字；将真实提问文本对应的问题关键字输入至预训练好的发言文本生成网络模型，获取与真实提问文本匹配的第一发言文本；其中，预训练好的发言文本生成网络模型的训练数据至少包括提问互动场景下关于若干真实提问文本的真实回复文本。

在提问互动场景下，问题关键字是与真实提问文本相关的，服务器可以对真实提问文本进行语义分析，从而得到真实提问文本对应的问题关键字。

例如：对于真实提问文本“主播平时喜欢做些什么”，那么经过语义分析，可以得到该真实提问文本的问题关键字为爱好或者兴趣。

服务器将真实提问文本对应的问题关键字输入至预训练好的发言文本生成网络模型，获取与真实提问文本匹配的第一发言文本。

预训练好的发言文本生成网络模型可以是通过任意一种现有的神经网络训练方法得到的，在此不进行限定，该预训练的发言文本生成网络模型的训练数据至少包括提问互动场景下关于若干真实提问文本的真实回复文本。

在一个可选的实施例中，可以将发言文本生成网络模型与发言文本鉴别网络模型组成对抗神经网络模型，对发言文本生成网络模型和发言文本鉴别网络模型进行联合训练。

在本实施例中，服务器判断在预设的回复时限内，直播间内未输出关于真实提问文本的真实回复时，会生成提问互动指令，并响应提问互动指令，获取到与真实提问文本对应的问题关键字，将问题关键字输入至预训练好的发言文本生成网络模型，获取与真实提问文本匹配的第一发言文本，从而使得第一发言文本的可信度更高，有利于提高后续虚拟语音数据的生成效果。

(3)直播互动指令为对战互动指令，下面先说明如何会生成对战互动指令，具体地，主播可以在直播间内开启互动玩法，例如：某直播平台下的欢乐斗玩法以及团战PK玩法等。

请参阅图5，图5为本申请实施例提供的互动玩法控件在直播间界面中的显示示意图。

互动玩法控件51中显示有若干互动玩法52，主播可以选择开启某一互动玩法，与其他主播进行互动。一般的互动玩法是以对战的形式展开的，具体地，服务器会根据互动玩法所需的主播数量，建立发送相同互动玩法请求的主播客户端之间的连麦会话连接，连麦的主播会进行个人或团体的对战互动。

在本实施例中，该对战互动指令可以是服务器响应于互动玩法请求后发出的，也可以是服务器在判断在对战互动中，当前主播的对战分值落后时发出的。

在此基础上，步骤S101响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称，包括步骤：

服务器响应于对战互动指令，解析对战互动指令，获取直播间标识、互动场景标识和当前主播标识；若互动场景标识对应的互动场景为对战互动场景，服务器获取当前主播标识对应的收礼记录数据；从收礼记录数据中获取当前在直播间的目标送礼用户标识以及目标送礼用户标识对应的目标虚拟礼物标识。

其中，收礼记录数据至少包括送礼用户标识、虚拟礼物标识以及虚拟礼物赠送数量。基于当前主播标识对应的收礼记录数据，能够确认哪些观众为当前主播赠送过虚拟礼物。

目标送礼用户标识对应的目标用户当前需在直播间内，目标送礼用户标识可以是随机选取的。

目标虚拟礼物标识对应的目标虚拟礼物为目标送礼用户送出的虚拟礼物赠送数量最高的虚拟礼物。可以理解的是，目标虚拟礼物为目标送礼用户最经常赠送的虚拟礼物，选择目标虚拟礼物，能够提高目标送礼用户赠送虚拟礼物的可能性。

S102中替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本，包括步骤：替换第一发言文本中的用户名称为目标送礼用户标识对应的用户名称，并替换第一发言文本中的虚拟礼物名称为目标虚拟礼物标识对应的虚拟礼物名称，得到第二发言文本。

那么第二发言文本不仅能表明当前主播希望哪位观众赠送虚拟礼物，还能表明当前主播希望该观众赠送哪一虚拟礼物。

在本实施例中，针对对战互动场景，为了提高直播互动效果，促进直播互动行为的产生，可以获取当前主播的收礼记录数据，从中选取目标送礼用户和目标虚拟礼物，进而使第二发言文本包含目标送礼用户的用户名称以及目标虚拟礼物的礼物名称，那么在将第二发言文本转换为虚拟语音数据后，就可以促进目标送礼用户的直播互动行为的产生。

(4)直播互动指令为直播间分享互动指令，直播间分享互动指令是服务器判断观众分享直播间后生成的。

请参阅图6，图6为本申请实施例提供的直播间分享控件在直播间界面中的显示示意图。观众可以在直播间分享控件61中选择分享途径，如图6所示的微博、微信以及朋友圈等。通过点击不同分享途径的图标，即可进入相应的应用程序界面中，进行直播间的分享。

具体地，S101响应于直播互动指令之前，包括步骤：服务器响应于直播间分享请求，解析直播间分享请求，获取直播间标识和用户标识；根据直播间标识、直播间分享互动场景对应的互动场景标识和用户标识，生成直播间分享互动指令。

在本实施例中，由于直播间的分享有利于提高主播的关注度，提升直播间流量，因此，为鼓励观众的直播间分享行为，会在观众进行直播间分享时，生成直播间分享互动指令，从而基于该直播间分享互动指令，能够得到直播间分享互动场景下的第二发言文本，再通过将直播间分享互动场景下的第二发言文本转化为虚拟语音数据，混流至音频流数据中输出至直播间，进而达到了使观众认为主播关注了其直播间分享行为的目的，能够有效促进直播间分享行为的产生。

在一个可选的实施例中，在步骤S101之后，步骤S102之前，该方法包括步骤：

获取用户标识对应的用户信息，判断用户标识对应的用户信息是否满足预设的虚拟语音互动条件，若是，继续执行获取与互动场景标识对应的互动场景匹配的第一发言文本的步骤，若否，取消执行获取与互动场景标识对应的互动场景匹配的第一发言文本的步骤。

即，服务器对用户标识对应的用户信息进行判断，仅当用户标识对应的用户信息满足预设的虚拟语音互动条件时，才会执行步骤S103～S106，否则，将取消执行S103～S106，从而达到节省计算资源的目的，使虚拟语音互动更具有实时性和针对性，进而能够有效地改善直播互动体验。

在一个可选的实施例中，用户标识对应的用户信息为虚拟礼物赠送信息，虚拟礼物赠送信息至少包括接收虚拟礼物的主播标识，预设的虚拟语音互动条件为用户标识对应的虚拟礼物赠送信息中包括当前主播对应的当前主播标识。也就是说，用户标识对应的用户需要为当前主播赠送过虚拟礼物，才能够与其进行虚拟语音互动。

在另一个可选的实施例中，用户标识对应的用户信息为用户身份信息，预设的虚拟语音互动条件为用户标识对应的用户身份信息为预设身份，例如：贵族，开通珍爱等。也就是说，用户标识对应的用户需具有预设身份，才能够与其进行虚拟语音互动。

在其他可选的实施例中，用户标识对应的用户信息为已加入直播间的时长信息，预设的虚拟语音互动条件为用户标识对应的已加入直播间的时长信息不大于预设时长。也就是说，用户标识对应的用户进入直播间的时长不能超过预设时长，才能够与其进行虚拟语音互动。

在一个可选的实施例中，为了加强主播对虚拟语音互动的可操控性，在S101响应于直播互动指令之前，包括步骤：

服务器将互动场景选择控件数据下发至主播客户端，使主播客户端根据互动场景选择控件数据，显示互动场景选择控件在直播间界面中。

其中，互动场景选择控件至少包括若干个互动场景标识对应互动场景名称。

之后，服务器获取通过互动场景选择控件接收的目标互动场景标识。

可以理解的是，目标互动场景标识为当前主播选择的目标互动场景对应的互动场景标识。例如：当前主播仅选择了虚拟礼物连送场景，那么，目标互动场景标识即为虚拟礼物连送场景对应的互动场景标识。

在此基础之上，S101之后，S102之前，包括步骤：

服务器判断互动场景标识是否为任意一个目标互动场景标识，若是，继续执行获取与互动场景标识对应的互动场景匹配的第一发言文本的步骤，若否，取消执行获取与互动场景标识对应的互动场景匹配的第一发言文本的步骤。

也就是说，仅在互动场景标识为任意一个目标互动场景标识时，才会执行步骤S103～S106，否则，将取消执行S103～S106。

在本实施例中，主播可以对进行虚拟礼物互动的互动场景进行选择，增强了主播的可操控性，并且还能达到节约计算资源的目的，使虚拟语音互动更具有实时性和针对性，进而能够有效地改善直播互动体验。

请参阅图7，图7为本申请第二实施例提供的直播间内的虚拟语音互动方法的流程示意图，包括如下步骤：

S201：响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称。

S202：获取与互动场景标识对应的互动场景匹配的第一发言文本。

S203：替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本。

S204：将第二发言文本输入至预训练好的第一虚拟语音生成网络模型，得到模拟当前主播的声音读出第二发言文本的虚拟语音数据；其中，第一虚拟语音生成网络模型的训练数据至少包括当前主播的若干条真实语音数据。

S205：获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据。

S206：将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。

在本实施例中，S201～S203以及S205～S206分别与步骤S101～S103以及S105～S106相同，具体可以参见第一实施例，下面将详细说明S204。

关于步骤S204，服务器将第二发言文本输入至预训练好的第一虚拟语音生成网络模型，得到模拟当前主播的声音读出第二发言文本的虚拟语音数据。

预训练好的第一虚拟语音生成网络模型可以是通过任意一种现有的神经网络训练方法得到的，在此不进行限定，第一虚拟语音生成网络模型的训练数据至少包括当前主播的若干条真实语音数据。

在一个可选的实施例中，预训练好的第一虚拟语音生成网络模型设置在服务器中。在另一个可选的实施例中，预训练好的第一虚拟语音生成网络模型与服务器建立数据连接的外部设备中，服务器需将第二发言文本发送至该外部设备，在接收外部设备返回的模拟当前主播的声音读出第二发言文本的虚拟语音数据。该外部设备可以是指虚拟语音生成服务器，与上述服务器一同构成服务器集群。

神经网络训练方法能够在训练过程中分析在不同的真实语音数据中当前主播的声音参数，其中，该声音参数包括但不限于音调、音色以及响度，还可以包括情感(消极、中性以及积极)，通过迭代训练的方式，使生成的虚拟语音数据可以达到模拟真实语音数据的效果。

在一个可选的实施中，将第二发言文本输入至预训练好的第一虚拟语音生成网络模型之前，包括步骤：

S207：将第一虚拟语音生成网络模型与第一虚拟语音鉴别网络模型组成对抗神经网络模型，对第一虚拟语音生成网络模型和第一虚拟语音鉴别网络模型进行联合训练，得到预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型。

在本实施例中，将第一虚拟语音生成网络模型与第一虚拟语音鉴别网络模型组成对抗神经网络模型进行联合训练，从而能够提高第一虚拟语音生成网络模型的训练效果，使生成的虚拟语音数据达到更好的模拟效果，进而用户在听到虚拟语音数据时感受到的真实性更高。

请参阅图8，S207中对第一虚拟语音生成网络模型和第一虚拟语音鉴别网络模型进行联合训练，得到预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型，包括步骤：

S2071：获取当前主播的若干条真实语音数据以及从若干条真实语音数据中识别出的若干句发言文本，将若干句发言文本输入至第一虚拟语音生成网络模型，获取若干条虚拟语音数据。

S2072：根据真实语音数据、虚拟语音数据、预设的第一损失函数和预设的第一模型优化算法，迭代训练第一虚拟语音鉴别网络模型，优化第一虚拟语音鉴别网络模型中的可训练参数，直至第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第一虚拟语音鉴别网络模型。

S2073：将虚拟语音数据的标签修改为真，并将虚拟语音数据输入至当前训练好的第一虚拟语音鉴别网络模型，获取虚拟语音数据的鉴别结果。

S2074：若虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型。

S2075：若虚拟语音数据的鉴别结果不满足预设的第二训练终止条件，根据虚拟语音数据的鉴别结果、虚拟语音数据的标签和预设的第二损失函数，得到第二损失函数的值，根据第二损失函数的值和预设的第二模型优化算法，优化第一虚拟语音生成网络模型的可训练参数，得到当前训练好的第一虚拟语音生成网络模型。

S2076：将若干句发言文本输入至当前训练好的第一虚拟语音生成网络模型，重新获取若干条虚拟语音数据，重复执行迭代训练第一虚拟语音鉴别网络模型的步骤以及优化第一虚拟语音生成网络模型的可训练参数的步骤，直至虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型。

关于步骤S2071，获取当前主播的若干条真实语音数据以及从若干条真实语音数据中识别出的若干句发言文本，将若干句发言文本输入至第一虚拟语音生成网络模型，获取若干条虚拟语音数据。其中，第一虚拟语音生成网络模型为随机初始化后的第一虚拟语音生成网络模型。

关于步骤S2072，该真实语音数据的标签为真，该虚拟语音数据的标签为假。通过将真实语音数据和虚拟语音数据输入至第一虚拟语音鉴别网络模型，得到真实语音数据和虚拟语音数据的鉴别结果，根据真实语音数据和虚拟语音数据的鉴别结果和预设的第一损失函数，计算第一损失函数的值，若第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第一虚拟语音鉴别网络模型，若第一损失函数的值不满足预设的第一训练终止条件，则根据第一损失函数的值和预设的第一模型优化算法，优化第一虚拟语音鉴别网络模型的可训练参数，重复上述步骤，直至第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第一虚拟语音鉴别网络模型。

关于步骤S2073～S2075，将虚拟语音数据的标签修改为真，并将虚拟语音数据输入至当前训练好的第一虚拟语音鉴别网络模型，获取虚拟语音数据的鉴别结果。若虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型。若虚拟语音数据的鉴别结果不满足预设的第二训练终止条件，根据虚拟语音数据的鉴别结果、虚拟语音数据的标签和和预设的第二模型优化算法，优化第一虚拟语音生成网络模型的可训练参数，得到当前训练好的第一虚拟语音生成网络模型。

在本实施例的对抗神经网络模型中，当其判断虚拟语音数据为真的概率在0.5附近时，意味着第一虚拟语音鉴别网络模型和第一虚拟语音生成网络模型均达到一个比较好的对抗训练效果。因此，预设的第二训练终止条件为0.5附近的一个区间，当虚拟语音数据的鉴别结果在该区间内，则虚拟语音数据的鉴别结果满足预设的第二训练终止条件。

若虚拟语音数据的鉴别结果偏向于0，则表示第一虚拟语音鉴别网络模型认为该虚拟语音数据为真的概率接近于0，这也就意味着第一虚拟语音生成网络模型生成的虚拟语音数据易被用户识别出来，第一虚拟语音生成网络模型的生成效果较差。由于，虚拟语音数据的标签修改为真，即为1，因而，根据虚拟语音数据的标签、虚拟语音数据的鉴别结果和预设的第二损失函数，所得到的第二损失函数的值较大，那么基于第二损失函数的值和预设的第二模型优化算法，就会大幅度地优化第一虚拟语音生成网络模型的可训练参数，得到当前训练好的第一虚拟语音生成网络模型。

若虚拟语音数据的鉴别结果偏向于1，则表示第一虚拟语音鉴别网络模型认为该虚拟语音数据为真的概率接近于1，这也就意味着第一虚拟语音鉴别网络模型的鉴别效果较差，其将假的虚拟语音数据判断为真，故，需要继续对第一虚拟语音鉴别网络模型进行训练。

关于步骤S2076，将若干句发言文本输入至当前训练好的第一虚拟语音生成网络模型，重新获取若干条虚拟语音数据，重复执行迭代训练第一虚拟语音鉴别网络模型的步骤以及优化第一虚拟语音生成网络模型的可训练参数的步骤，直至虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型。

关于上述第一损失函数、第二损伤函数、第一模型优化算法和第二模型优化算法在此不进行限定，可以为任意一种现有的损失函数和神经网络模型优化算法。

在本实施例中，通过将第一虚拟语音生成网络模型和第一虚拟语音鉴别网络模型组成对抗神经网络模型，对第一虚拟语音生成网络模型和第一虚拟语音鉴别网络模型进行联合训练，能够使得生成的虚拟语音数据的可信度更高，更易于被用户认为是当前主播的真实声音，从而能够进一步提升用户的直播互动体验。

在一个可选的实施例中，服务器会接收直播间内的客户端发送的对混流后的音频流数据的评价文本；其中，评价文本为直播间内的客户端分析各自用户在直播间输出的发言文本得到的。服务器可以根据混流后的音频流数据和混流后的音频流数据的评价文本，优化预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型。

在本实施例中，通过收集各用户在直播间输出的对虚拟语音数据的评价文本，能够了解虚拟语音数据中存在的问题，从而更有利于对第一虚拟语音生成网络模型和第一虚拟语音鉴别网络模型进行优化。

在一个可选的实施例中，由于第二发言文本中包含用户标识对应的用户名称，而一些用户名称较为复杂，用户名称对应的虚拟语音数据易被用户察觉出来，因此，在得到虚拟语音数据后，可以对其中用户名称对应的虚拟语音数据进行替换。

若当前主播曾经说过该用户名称，可以将虚拟语音数据中该用户名称对应的虚拟语音数据替换为当前主播说出该用户名称的真实语音数据，从而进一步提升虚拟语音数据的可信度，提升用户的直播互动体验。

请参阅图9，图9为本申请第三实施例提供的直播间内的虚拟语音互动方法的流程示意图，包括如下步骤：

S301：响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称。

S302：获取与互动场景标识对应的互动场景匹配的第一发言文本。

S303：替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本。

S304：将第二发言文本输入至预训练好的第二虚拟语音生成网络模型，得到模拟当前主播的声音读出第二发言文本的虚拟语音数据；其中，第二虚拟语音生成网络模型的训练数据至少包括当前主播的同一方言类别下的若干条真实语音数据；其中，方言类别为当前主播的常在地区的方言或当前主播在方言互动玩法中已使用的方言。

S305：获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据。

S306：将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。

在本实施例中，S301～S303以及S305～S306分别与步骤S101～S103以及S105～S106相同，具体可以参见第一实施例，下面将详细说明S304。

关于步骤S304，服务器将第二发言文本输入至预训练好的第二虚拟语音生成网络模型，得到模拟当前主播的声音读出第二发言文本的虚拟语音数据。

预训练好的第二虚拟语音生成网络模型可以是通过任意一种现有的神经网络训练方法得到的，在此不进行限定，第二虚拟语音生成网络模型的训练数据至少包括当前主播的同一方言类别下的若干条真实语音数据。

可以理解的是，若想要得到不同方言类别下的虚拟语音数据，需要训练不同方言类别下的第二虚拟语音生成网络模型。

其中，方言类别为当前主播的常在地区的方言或当前主播在方言互动玩法中已使用的方言。在一个可选的实施例中，方言互动玩法可以是指主播连麦时学习对方方言的互动玩法。

在一个可选的实施中，将第二发言文本输入至预训练好的第二虚拟语音生成网络模型之前，包括步骤：

S307：将第二虚拟语音生成网络模型与第二虚拟语音鉴别网络模型组成对抗神经网络模型，对第二虚拟语音生成网络模型和第二虚拟语音鉴别网络模型进行联合训练，得到预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型。

在本实施例中，将第二虚拟语音生成网络模型与第二虚拟语音鉴别网络模型组成对抗神经网络模型进行联合训练，从而能够提高第二虚拟语音生成网络模型的训练效果，使生成的虚拟语音数据达到更好的模拟效果，体现当前主播的方言发音，进而用户在听到虚拟语音数据时感受到的真实性更高，亲切感更强。

请参阅图10，S307中对第二虚拟语音生成网络模型和第二虚拟语音鉴别网络模型进行联合训练，得到预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型，包括步骤：

S3071：获取当前主播的同一方言类别下的若干条真实语音数据以及从若干条真实语音数据中识别出的若干句发言文本，将若干句发言文本输入至第二虚拟语音生成网络模型，获取方言类别下的若干条虚拟语音数据。

S3072：根据真实语音数据、虚拟语音数据、预设的第一损失函数和预设的第一模型优化算法，迭代训练第二虚拟语音鉴别网络模型，优化第二虚拟语音鉴别网络模型中的可训练参数，直至第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第二虚拟语音鉴别网络模型。

S3073：将虚拟语音数据的标签修改为真，并将虚拟语音数据输入至当前训练好的第二虚拟语音鉴别网络模型，获取虚拟语音数据的鉴别结果。

S3074：若虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型。

S3075：若虚拟语音数据的鉴别结果不满足预设的第二训练终止条件，根据虚拟语音数据的鉴别结果、虚拟语音数据的标签和预设的第二损失函数，得到第二损失函数的值，根据第二损失函数的值和预设的第二模型优化算法，优化第二虚拟语音生成网络模型的可训练参数，得到当前训练好的第二虚拟语音生成网络模型。

S3076：将若干句发言文本输入至当前训练好的第二虚拟语音生成网络模型，重新获取方言类别下的若干条虚拟语音数据，重复执行迭代训练第二虚拟语音鉴别网络模型的步骤以及优化第二虚拟语音生成网络模型的可训练参数的步骤，直至虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型。

关于步骤S3071，获取当前主播的同一方言类别下的若干条真实语音数据以及从若干条真实语音数据中识别出的若干句发言文本，将若干句发言文本输入至第二虚拟语音生成网络模型，获取该方言类别下的若干条虚拟语音数据。其中，第二虚拟语音生成网络模型为随机初始化后的第二虚拟语音生成网络模型。

关于步骤S3072，该真实语音数据的标签为真，该虚拟语音数据的标签为假。通过将真实语音数据和虚拟语音数据输入至第二虚拟语音鉴别网络模型，得到真实语音数据和虚拟语音数据的鉴别结果，根据真实语音数据和虚拟语音数据的鉴别结果和预设的第一损失函数，计算第一损失函数的值，若第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第二虚拟语音鉴别网络模型，若第一损失函数的值不满足预设的第一训练终止条件，则根据第一损失函数的值和预设的第一模型优化算法，优化第二虚拟语音鉴别网络模型的可训练参数，重复上述步骤，直至第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第二虚拟语音鉴别网络模型。

关于步骤S3073～S3075，将虚拟语音数据的标签修改为真，并将虚拟语音数据输入至当前训练好的第二虚拟语音鉴别网络模型，获取虚拟语音数据的鉴别结果。若虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型。若虚拟语音数据的鉴别结果不满足预设的第二训练终止条件，根据虚拟语音数据的鉴别结果、虚拟语音数据的标签和和预设的第二模型优化算法，优化第二虚拟语音生成网络模型的可训练参数，得到当前训练好的第二虚拟语音生成网络模型。

在本实施例的对抗神经网络模型中，当其判断虚拟语音数据为真的概率在0.5附近时，意味着第二虚拟语音鉴别网络模型和第二虚拟语音生成网络模型均达到一个比较好的对抗训练效果。因此，预设的第二训练终止条件为0.5附近的一个区间，当虚拟语音数据的鉴别结果在该区间内，则虚拟语音数据的鉴别结果满足预设的第二训练终止条件。

若虚拟语音数据的鉴别结果偏向于0，则表示第二虚拟语音鉴别网络模型认为该虚拟语音数据为真的概率接近于0，这也就意味着第二虚拟语音生成网络模型生成的虚拟语音数据易被用户识别出来，第二虚拟语音生成网络模型的生成效果较差。由于，虚拟语音数据的标签修改为真，即为1，因而，根据虚拟语音数据的标签、虚拟语音数据的鉴别结果和预设的第二损失函数，所得到的第二损失函数的值较大，那么基于第二损失函数的值和预设的第二模型优化算法，就会大幅度地优化第二虚拟语音生成网络模型的可训练参数，得到当前训练好的第二虚拟语音生成网络模型。

若虚拟语音数据的鉴别结果偏向于1，则表示第二虚拟语音鉴别网络模型认为该虚拟语音数据为真的概率接近于1，这也就意味着第二虚拟语音鉴别网络模型的鉴别效果较差，其将假的虚拟语音数据判断为真，故，需要继续对第二虚拟语音鉴别网络模型进行训练。

关于步骤S2076，将若干句发言文本输入至当前训练好的第二虚拟语音生成网络模型，重新获取该方言类别下的若干条虚拟语音数据，重复执行迭代训练第二虚拟语音鉴别网络模型的步骤以及优化第二虚拟语音生成网络模型的可训练参数的步骤，直至虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型。

在本实施例中，通过将第二虚拟语音生成网络模型和第二虚拟语音鉴别网络模型组成对抗神经网络模型，对第二虚拟语音生成网络模型和第二虚拟语音鉴别网络模型进行联合训练，能够使得生成的虚拟语音数据的可信度更高，并且由于虚拟语音数据为方言，所带来的亲切感更强，更易于被用户认为是当前主播的真实声音，从而能够进一步提升用户的直播互动体验。

请参阅图11，为本申请第四实施例提供的直播间内的虚拟语音互动装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。该装置11包括：

第一响应单元111，用于响应于直播互动指令，解析直播互动指令，获取直播间标识、互动场景标识、用户标识以及用户标识对应的用户名称；

第一获取单元112，用于获取与互动场景标识对应的互动场景匹配的第一发言文本；

第一替换单元113，用于替换第一发言文本中的用户名称为用户标识对应的用户名称，得到第二发言文本；

第一模拟单元114，用于生成模拟当前主播的声音读出第二发言文本的虚拟语音数据；其中，当前主播为创建直播间标识对应的直播间的主播；

第二获取单元115，用于获取主播客户端采集的音频流数据，将虚拟语音数据与音频流数据混流，得到混流后的音频流数据；

第一输出单元116，用于将混流后的音频流数据发送至直播间内的客户端，使直播间内的客户端将混流后的音频流数据在直播间内输出。

在本申请实施例中，该直播间内的虚拟语音互动装置应用于服务器中。需要说明的是，上述实施例提供的直播间内的虚拟语音互动装置在执行直播间内的虚拟语音互动方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的直播间内的虚拟语音互动装置与直播间内的虚拟语音互动方法属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

请参阅图12，为本申请第五实施例提供的计算机设备的结构示意图。如图12所示，该计算机设备12可以包括：处理器120、存储器121以及存储在该存储器121并可以在该处理器120上运行的计算机程序122，例如：直播间内的虚拟语音互动程序；该处理器120执行该计算机程序122时实现上述第一实施例至第三实施例中的步骤。

其中，该处理器120可以包括一个或多个处理核心。处理器120利用各种接口和线路连接计算机设备12内的各个部分，通过运行或执行存储在存储器121内的指令、程序、代码集或指令集，以及调用存储器121内的数据，执行计算机设备12的各种功能和处理数据，可选的，处理器120可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programble LogicArray，PLA)中的至少一个硬件形式来实现。处理器120可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器120中，单独通过一块芯片进行实现。

其中，存储器121可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器121包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器121可用于存储指令、程序、代码、代码集或指令集。存储器121可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器121可选的还可以是至少一个位于远离前述处理器120的存储装置。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质可以存储有多条指令，该指令适用于由处理器加载并执行上述实施例的方法步骤，具体执行过程可以参见上述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种直播间内的虚拟语音互动方法，其特征在于，所述方法包括步骤：

响应于直播互动指令，解析所述直播互动指令，获取直播间标识、互动场景标识、用户标识以及所述用户标识对应的用户名称；

获取与所述互动场景标识对应的互动场景匹配的第一发言文本；

替换所述第一发言文本中的用户名称为所述用户标识对应的用户名称，得到第二发言文本；

生成模拟当前主播的声音读出所述第二发言文本的虚拟语音数据；其中，所述当前主播为创建所述直播间标识对应的直播间的主播；

获取主播客户端采集的音频流数据，将所述虚拟语音数据与所述音频流数据混流，得到混流后的音频流数据；

将所述混流后的音频流数据发送至直播间内的客户端，使所述直播间内的客户端将所述混流后的音频流数据在所述直播间内输出。

2.根据权利要求1所述的直播间内的虚拟语音互动方法，其特征在于，获取与所述互动场景标识对应的互动场景匹配的第一发言文本，包括步骤：

获取在所述互动场景标识对应的互动场景下的真实语音数据；

根据所述真实语音数据和预设的语音识别算法，获取所述第一发言文本。

3.根据权利要求1所述的直播间内的虚拟语音互动方法，其特征在于，获取与所述互动场景标识对应的互动场景匹配的第一发言文本，包括步骤：

获取所述互动场景标识对应的互动关键字；

将所述互动场景标识对应的互动关键字输入至预训练好的发言文本生成网络模型，获取与所述互动场景标识对应的互动场景匹配的所述第一发言文本；其中，所述第一发言文本中至少包括所述互动关键字或与所述互动关键字语义相似的关键字；所述预训练好的发言文本生成网络模型的训练数据至少包括若干种所述互动场景下的真实发言文本。

4.根据权利要求1所述的直播间内的虚拟语音互动方法，其特征在于，所述响应于直播互动指令之前，包括步骤：

若连续响应同一所述用户标识对应的虚拟礼物赠送指令，根据所述直播间标识、虚拟礼物连送场景对应的所述互动场景标识、所述用户标识以及虚拟礼物标识，生成所述虚拟礼物连送指令；

所述响应于直播互动指令，解析所述直播互动指令，获取直播间标识、互动场景标识、用户标识以及所述用户标识对应的用户名称，包括步骤：

响应于所述虚拟礼物连送指令，解析所述虚拟礼物连送指令，获取所述直播间标识、所述互动场景标识、所述用户标识、所述用户标识对应的用户名称、所述虚拟礼物标识以及所述虚拟礼物标识对应的虚拟礼物名称；

所述替换所述第一发言文本中的用户名称为所述用户标识对应的用户名称，得到第二发言文本，包括步骤：

替换所述第一发言文本中的用户名称为所述用户标识对应的用户名称，并替换所述第一发言文本中的虚拟礼物名称为所述虚拟礼物标识对应的虚拟礼物名称，得到所述第二发言文本。

5.根据权利要求1所述的直播间内的虚拟语音互动方法，其特征在于，所述直播互动指令为提问互动指令，所述响应于直播互动指令之前，包括步骤：

获取在所述直播间内输出的真实提问文本和发出所述真实提问文本的用户对应的用户标识，若在预设的回复时限内，所述直播间内未输出关于所述真实提问文本的真实回复，根据所述直播间标识、提问互动场景对应的所述互动场景标识以及所述用户标识，生成所述提问互动指令；

所述获取与所述互动场景标识对应的互动场景匹配的第一发言文本，包括步骤：

获取所述真实提问文本以及所述真实提问文本对应的问题关键字；

将所述真实提问文本对应的问题关键字输入至预训练好的发言文本生成网络模型，获取与所述真实提问文本匹配的所述第一发言文本；其中，所述预训练好的发言文本生成网络模型的训练数据至少包括所述提问互动场景下关于若干所述真实提问文本的真实回复文本。

6.根据权利要求1所述的直播间内的虚拟语音互动方法，其特征在于，所述直播互动指令为对战互动指令，所述响应于直播互动指令，解析所述直播互动指令，获取直播间标识、互动场景标识、用户标识以及所述用户标识对应的用户名称，包括步骤：

响应于所述对战互动指令，解析所述对战互动指令，获取所述直播间标识、所述互动场景标识和当前主播标识；

若所述互动场景标识对应的互动场景为对战互动场景，获取所述当前主播标识对应的收礼记录数据；其中，所述收礼记录数据至少包括送礼用户标识、虚拟礼物标识以及虚拟礼物赠送数量；

从所述收礼记录数据中获取当前在所述直播间的目标送礼用户标识以及所述目标送礼用户标识对应的目标虚拟礼物标识；其中，所述目标虚拟礼物标识对应的目标虚拟礼物为目标送礼用户送出的虚拟礼物赠送数量最高的虚拟礼物；

替换所述第一发言文本中的用户名称为所述目标送礼用户标识对应的用户名称，并替换所述第一发言文本中的虚拟礼物名称为所述目标虚拟礼物标识对应的虚拟礼物名称，得到所述第二发言文本。

7.根据权利要求1所述的直播间内的虚拟语音互动方法，其特征在于，所述直播互动指令为直播间分享互动指令，所述响应于直播互动指令之前，包括步骤：

响应于直播间分享请求，解析所述直播间分享请求，获取所述直播间标识和所述用户标识；

根据所述直播间标识、直播间分享互动场景对应的所述互动场景标识和所述用户标识，生成所述直播间分享互动指令。

8.根据权利要求1至7任意一项所述的直播间内的虚拟语音互动方法，其特征在于，所述生成模拟当前主播的声音读出所述第二发言文本的虚拟语音数据，包括步骤：

将所述第二发言文本输入至预训练好的第一虚拟语音生成网络模型，得到模拟所述当前主播的声音读出所述第二发言文本的所述虚拟语音数据；其中，所述第一虚拟语音生成网络模型的训练数据至少包括所述当前主播的若干条真实语音数据。

9.根据权利要求8所述的直播间内的虚拟语音互动方法，其特征在于，所述将所述第二发言文本输入至预训练好的第一虚拟语音生成网络模型之前，包括步骤：

将所述第一虚拟语音生成网络模型与第一虚拟语音鉴别网络模型组成对抗神经网络模型，对所述第一虚拟语音生成网络模型和所述第一虚拟语音鉴别网络模型进行联合训练，得到所述预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型。

10.根据权利要求9所述的直播间内的虚拟语音互动方法，其特征在于，所述对所述第一虚拟语音生成网络模型和所述第一虚拟语音鉴别网络模型进行联合训练，得到所述预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型，包括步骤：

获取所述当前主播的若干条真实语音数据以及从若干条所述真实语音数据中识别出的若干句发言文本，将若干句所述发言文本输入至第一虚拟语音生成网络模型，获取若干条虚拟语音数据；

根据所述真实语音数据、所述虚拟语音数据、预设的第一损失函数和预设的第一模型优化算法，迭代训练第一虚拟语音鉴别网络模型，优化所述第一虚拟语音鉴别网络模型中的可训练参数，直至所述第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第一虚拟语音鉴别网络模型；

将所述虚拟语音数据的标签修改为真，并将所述虚拟语音数据输入至所述当前训练好的第一虚拟语音鉴别网络模型，获取所述虚拟语音数据的鉴别结果；

若所述虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到所述预训练好的第一虚拟语音生成网络模型和预训练好的第一虚拟语音鉴别网络模型；

若所述虚拟语音数据的鉴别结果不满足所述预设的第二训练终止条件，根据所述虚拟语音数据的鉴别结果、所述虚拟语音数据的标签和预设的第二损失函数，得到第二损失函数的值，根据所述第二损失函数的值和预设的第二模型优化算法，优化所述第一虚拟语音生成网络模型的可训练参数，得到当前训练好的第一虚拟语音生成网络模型；

将若干句所述发言文本输入至所述当前训练好的第一虚拟语音生成网络模型，重新获取若干条所述虚拟语音数据，重复执行迭代训练所述第一虚拟语音鉴别网络模型的步骤以及优化所述第一虚拟语音生成网络模型的可训练参数的步骤，直至所述虚拟语音数据的鉴别结果满足所述预设的第二训练终止条件，得到所述预训练好的第一虚拟语音生成网络模型和所述预训练好的第一虚拟语音鉴别网络模型。

11.根据权利要求1至7任意一项所述的直播间内的虚拟语音互动方法，其特征在于，所述生成模拟当前主播的声音读出所述第二发言文本的虚拟语音数据，包括步骤：

将所述第二发言文本输入至预训练好的第二虚拟语音生成网络模型，得到模拟所述当前主播的声音读出所述第二发言文本的所述虚拟语音数据；其中，所述第二虚拟语音生成网络模型的训练数据至少包括所述当前主播的同一方言类别下的若干条真实语音数据；所述方言类别为所述当前主播的常在地区的方言或所述当前主播在方言互动玩法中已使用的方言。

12.根据权利要求11所述的直播间内的虚拟语音互动方法，其特征在于，所述将所述第二发言文本输入至预训练好的第二虚拟语音生成网络模型之前，包括步骤：

将所述第二虚拟语音生成网络模型与第二虚拟语音鉴别网络模型组成对抗神经网络模型，对所述第二虚拟语音生成网络模型和所述第二虚拟语音鉴别网络模型进行联合训练，得到所述预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型。

13.根据权利要求12所述的直播间内的虚拟语音互动方法，其特征在于，所述对所述第二虚拟语音生成网络模型和所述第二虚拟语音鉴别网络模型进行联合训练，得到所述预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型，包括步骤：

获取所述当前主播的同一所述方言类别下的若干条真实语音数据以及从若干条所述真实语音数据中识别出的若干句发言文本，将若干句所述发言文本输入至第二虚拟语音生成网络模型，获取所述方言类别下的若干条虚拟语音数据；

根据所述真实语音数据、所述虚拟语音数据、预设的第一损失函数和预设的第一模型优化算法，迭代训练第二虚拟语音鉴别网络模型，优化所述第二虚拟语音鉴别网络模型中的可训练参数，直至所述第一损失函数的值满足预设的第一训练终止条件，得到当前训练好的第二虚拟语音鉴别网络模型；

将所述虚拟语音数据的标签修改为真，并将所述虚拟语音数据输入至所述当前训练好的第二虚拟语音鉴别网络模型，获取所述虚拟语音数据的鉴别结果；

若所述虚拟语音数据的鉴别结果满足预设的第二训练终止条件，得到所述预训练好的第二虚拟语音生成网络模型和预训练好的第二虚拟语音鉴别网络模型；

若所述虚拟语音数据的鉴别结果不满足所述预设的第二训练终止条件，根据所述虚拟语音数据的鉴别结果、所述虚拟语音数据的标签和预设的第二损失函数，得到第二损失函数的值，根据所述第二损失函数的值和预设的第二模型优化算法，优化所述第二虚拟语音生成网络模型的可训练参数，得到当前训练好的第二虚拟语音生成网络模型；

将若干句所述发言文本输入至所述当前训练好的第二虚拟语音生成网络模型，重新获取所述方言类别下的若干条虚拟语音数据，重复执行迭代训练所述第二虚拟语音鉴别网络模型的步骤以及优化所述第二虚拟语音生成网络模型的可训练参数的步骤，直至所述虚拟语音数据的鉴别结果满足所述预设的第二训练终止条件，得到所述预训练好的第二虚拟语音生成网络模型和所述预训练好的第二虚拟语音鉴别网络模型。

14.根据权利要求1至7任意一项所述的直播间内的虚拟语音互动方法，其特征在于，所述获取直播间标识、互动场景标识、用户标识以及所述用户标识对应的用户名称之后，获取与所述互动场景标识对应的互动场景匹配的第一发言文本之前，还包括步骤：

获取所述用户标识对应的用户信息，判断所述用户标识对应的用户信息是否满足预设的虚拟语音互动条件，若是，继续执行所述获取与所述互动场景标识对应的互动场景匹配的第一发言文本的步骤，若否，取消执行所述获取与所述互动场景标识对应的互动场景匹配的第一发言文本的步骤。

15.根据权利要求14所述的直播间内的虚拟语音互动方法，其特征在于：

所述用户标识对应的用户信息为虚拟礼物赠送信息，所述虚拟礼物赠送信息至少包括接收虚拟礼物的主播标识，预设的虚拟语音互动条件为所述用户标识对应的虚拟礼物赠送信息中包括所述当前主播对应的当前主播标识，或，所述用户标识对应的用户信息为用户身份信息，预设的虚拟语音互动条件为所述用户标识对应的用户身份信息为预设身份，或，所述用户标识对应的用户信息为已加入所述直播间的时长信息，预设的虚拟语音互动条件为所述用户标识对应的已加入所述直播间的时长信息不大于预设时长。

16.根据权利要求1至7任意一项所述的直播间内的虚拟语音互动方法，其特征在于，所述响应于直播互动指令之前，包括步骤：

将互动场景选择控件数据下发至所述主播客户端，使所述主播客户端根据所述互动场景选择控件数据，显示互动场景选择控件在直播间界面中；其中，所述互动场景选择控件至少包括若干个所述互动场景标识对应互动场景名称；

获取通过所述互动场景选择控件接收的目标互动场景标识；

所述获取直播间标识、互动场景标识、用户标识以及所述用户标识对应的用户名称之后，所述获取与所述互动场景标识对应的互动场景匹配的第一发言文本之前，包括步骤：

判断所述互动场景标识是否为任意一个所述目标互动场景标识，若是，继续执行所述获取与所述互动场景标识对应的互动场景匹配的第一发言文本的步骤，若否，取消执行所述获取与所述互动场景标识对应的互动场景匹配的第一发言文本的步骤。

17.根据权利要求9所述的直播间内的虚拟语音互动方法，其特征在于，所述方法还包括步骤：

接收所述直播间内的客户端发送的对所述混流后的音频流数据的评价文本；其中，所述评价文本为所述直播间内的客户端分析各自用户在所述直播间输出的发言文本得到的；

根据所述混流后的音频流数据和所述混流后的音频流数据的评价文本，优化所述预训练好的第一虚拟语音生成网络模型和所述预训练好的第一虚拟语音鉴别网络模型。

18.一种直播间内的虚拟语音互动装置，其特征在于，包括：

第一响应单元，用于响应于直播互动指令，解析所述直播互动指令，获取直播间标识、互动场景标识、用户标识以及所述用户标识对应的用户名称；

第一获取单元，用于获取与所述互动场景标识对应的互动场景匹配的第一发言文本；

第一替换单元，用于替换所述第一发言文本中的用户名称为所述用户标识对应的用户名称，得到第二发言文本；

第一模拟单元，用于生成模拟当前主播的声音读出所述第二发言文本的虚拟语音数据；其中，所述当前主播为创建所述直播间标识对应的直播间的主播；

第二获取单元，用于获取主播客户端采集的音频流数据，将所述虚拟语音数据与所述音频流数据混流，得到混流后的音频流数据；

第一输出单元，用于将所述混流后的音频流数据发送至直播间内的客户端，使所述直播间内的客户端将所述混流后的音频流数据在所述直播间内输出。

19.一种计算机设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至17任意一项所述方法的步骤。

20.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至17任意一项所述方法的步骤。