CN112562705A

CN112562705A - 直播互动方法、装置、电子设备及可读存储介质

Info

Publication number: CN112562705A
Application number: CN202011508099.8A
Authority: CN
Inventors: 徐子豪; 刘炉
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2021-03-26
Also published as: CN110085244B; CN110085244A

Abstract

本申请实施例提供一种直播互动方法、装置、电子设备及可读存储介质，通过将主播输入的第一音频数据进行切分，并从得到的多个音频片段中提取出内容特征图，然后通过提取该内容特征图的内容特征向量，并对该内容特征向量进行转换，得到具有目标音色风格的风格转换图。接着对内容特征图和风格转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。最后，根据第二音频数据生成该主播对应的虚拟形象的互动视频流，并发送给客户端进行播放。如此，能够针对任意主播，在不改变音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。

Description

直播互动方法、装置、电子设备及可读存储介质

本申请是申请号为2019103685107、申请日为2019年5月5日、发明名称为“直播互动方法、装置、电子设备及可读存储介质”的中国申请的分案申请。

技术领域

本申请涉及互联网直播领域，具体而言，涉及直播互动方法、装置、电子设备及可读存储介质。

背景技术

在互联网直播中，以虚拟形象代替主播的实际形象参与到直播互动中，是目前较为流行的一种直播方式。

目前的直播方式中，虚拟形象的音色大多采用主播的原音色风格或者预先固定的某一种音色风格提供直播数据流，无法将其转换为其它音色风格与观众进行互动，如此无法满足特定主播或特定观众的某些特定需求，从而会导致互动直播效果降低。例如观众可能更希望听到的声音是自己所喜欢明星的音色风格，或是自己熟悉的人的音色风格。又例如，主播可能并不希望将自己的音色风格展示给其它观众而暴露隐私问题。

发明内容

有鉴于此，本申请实施例的目的在于提供一种直播互动方法、装置、电子设备及可读存储介质，以解决上述问题。

根据本申请实施例的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可执行指令。当电子设备运行时，所述处理器执行所述机器可执行指令，以执行直播互动方法。

根据本申请实施例的另一方面，提供一种直播互动方法，应用于主播端，所述主播端中存储有至少一种风格转换模型，每种风格转换模型与一种音色风格相对应，所述方法包括：

根据接收到的音色转换请求，每间隔预设时间，将主播输入的第一音频数据进行切分，得到多个音频片段，并从所述多个音频片段中提取出音频特征图，所述音频特征图包括内容特征图，所述音色转换请求包括目标音色风格；

将所述内容特征图输入到预设的特征向量提取网络，提取所述内容特征图的内容特征向量；

采用所述目标音色风格对应的风格转换模型对所述内容特征向量进行转换，得到具有所述目标音色风格的风格转换图；

对所述内容特征图和所述风格转换图进行特征反转换，得到具有该目标音色风格的第二音频数据；

根据所述第二音频数据生成该主播对应的虚拟形象的互动视频流，并发送给客户端进行播放。

根据本申请实施例的另一方面，提供一种直播互动装置，应用于主播端，所述主播端中存储有至少一种风格转换模型，每种风格转换模型与一种音色风格相对应，所述装置包括：

提取模块，用于根据接收到的音色转换请求，每间隔预设时间，将主播输入的第一音频数据进行切分，得到多个音频片段，并从所述多个音频片段中提取出音频特征图，所述音频特征图包括内容特征图，所述音色转换请求包括目标音色风格；

输入模块，用于将所述内容特征图输入到预设的特征向量提取网络，提取所述内容特征图的内容特征向量；

转换模块，用于采用所述目标音色风格对应的风格转换模型对所述内容特征向量进行转换，得到具有所述目标音色风格的风格转换图；

反转换模块，用于对所述内容特征图和所述风格转换图进行特征反转换，得到具有该目标音色风格的第二音频数据；

生成发送模块，用于根据所述第二音频数据生成该主播对应的虚拟形象的互动视频流，并发送给客户端进行播放。

根据本申请实施例的另一方面，提供一种可读存储介质，该可读存储介质上存储有机器可执行指令，该计算机程序被处理器运行时可以执行上述的直播互动方法的步骤。

基于上述任一方面，相较于现有技术而言，本申请实施例通过将主播输入的第一音频数据进行切分，并从得到的多个音频片段中提取出内容特征图，然后通过预设的特征向量提取网络提取内容特征向量，而后采用目标音色风格对应的风格转换模型对内容特征向量进行转换，得到具有目标音色风格的风格转换图。接着对内容特征图和风格转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。最后，根据第二音频数据生成该主播对应的虚拟形象的互动视频流，并发送给客户端进行播放。如此，能够针对任意主播提供的音频内容，在不改变音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的直播系统的示意图；

图2示出了本申请实施例所提供的直播互动方法的流程示意图之一；

图3示出了本申请实施例所提供的一种直播互联网应用中选择目标音色风格的界面示意图；

图4示出了本申请实施例所提供的主播端的直播界面示意图；

图5示出了本申请实施例所提供的直播互动方法的流程示意图之二；

图6示出了本申请实施例所提供的图5中所示的步骤S101包括的各个子步骤的流程示意图；

图7示出了本申请实施例所提供的风格转换模型的训练流程示意图；

图8示出了本申请实施例所提供的电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

参照图1所示，图1是本申请实施例提供的直播系统10的架构示意图。例如，直播系统10可以是用于诸如互联网直播之类的服务平台。直播系统10可以包括直播服务器200、主播端100以及客户端300，直播服务器200分别与主播端100以及客户端300通信连接，用于为主播端100以及客户端300提供直播服务。例如直播服务器200中可以存储有主播端100与各个直播频道之间的对应关系，当客户端300选择直播频道后，直播服务器200可根据各个直播频道与主播端100的对应关系，向属于同一直播频道内的客户端300发送直播视频流。

在一些实施场景中，主播端100和客户端300可以互换使用。例如，主播端100的主播可以使用主播端100来为观众提供直播视频服务，或者作为观众查看其它主播提供的直播视频。又例如，客户端300的观众也可以使用客户端300观看所关注的主播提供的直播视频，或者作为主播为其它观众提供直播视频服务。本实施例中，主播端100和客户端300可以包括但不限于任何一种基于智能操作系统的手持式电子产品，其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互，诸如智能手机、平板电脑、个人电脑等。其中，智能操作系统包括但不限于任何通过向移动设备提供各种移动应用来丰富设备功能的操作系统，诸如安卓(Android)、iOS、Windows Phone等。其中，主播端100和客户端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，直播系统10还可以包括用于采集主播的主播视频帧的视频采集装置400，视频采集装置400直接安装或者集成于主播端100，也可以独立于主播端100并与主播端100连接。

参照图2所示，图2示出了本申请实施例提供的直播互动方法的流程示意图，该直播互动方法可由图1中所示的主播端100执行。应当理解，在其它实施例中，本实施例的直播互动方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该直播互动方法的详细步骤介绍如下。

步骤S110，根据接收到的音色转换请求，每间隔预设时间，将主播输入的第一音频数据进行切分，得到多个音频片段，并从多个音频片段中提取出音频特征图。

步骤S120，将内容特征图输入到预设的特征向量提取网络，提取内容特征图的内容特征向量。

步骤S130，采用目标音色风格对应的风格转换模型对内容特征向量进行转换，得到具有目标音色风格的风格转换图。

步骤S140，对内容特征图和风格转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。

步骤S150，根据第二音频数据生成该主播对应的虚拟形象的互动视频流，并发送给客户端300进行播放。

在本实施例中，针对步骤S110，任意主播都可以通过点击主播端100上安装的直播互联网应用启动并进入直播界面开始直播，在直播过程中会产生直播视频流、直播图片、直播音频、文字弹幕等数据。

可选地，该音色转换请求中可以包括该主播或者进入该主播的直播间的观众选择的目标音色风格，该目标音色风格可以理解为该主播或者进入该主播的直播间的观众在听前述直播音频时希望听到的音色风格。例如，该主播可能希望自己输出的音频数据听起来如同自己喜欢的偶像明星的音色风格，或者自己熟悉的朋友的音色风格，又或者自己喜欢的说话腔调(例如“北京腔”“台湾腔”等)的音色风格。又例如，对于一部分观众而言可能也希望自己听到的该主播输出的音频数据听起来类似自己喜欢的偶像明星的音色风格，或者自己熟悉的朋友的音色风格。基于此，该音色转换请求既可以由主播对应的主播端100发出，也可以由进入该主播的直播间的观众的客户端300发出。

例如，主播端100或者客户端300上安装的直播互联网应用的界面中可以设置有针对该目标音色风格的选择界面，该选择界面显示有多个不同音色风格的选项，该主播或者进入该主播的直播间的观众可以从该选择界面中展示的各个选项中选择自己所需要的目标音色风格对应的选项，然后通过主播端100或者客户端300生成对应的音色转换请求。

仅作为示例，请参阅图3，示出了主播端100或者客户端300上安装的直播互联网应用的界面示意图，该界面中显示有不同音色风格的选项，分别包括音色风格A、音色风格B、音色风格C、音色风格D等，该主播或者进入该主播的直播间的观众可以从该选择界面中选择自己所需要的目标音色风格对应的选项。例如，该主播喜好自己一个熟悉的朋友A的音色风格，而音色风格A为朋友A的音色风格，则该主播可以选择音色风格A，然后通过主播端100生成对应的音色转换请求。又例如，该主播的直播间的观众喜好歌星张学友的音色风格，而音色风格B为歌星张学友的音色风格，则该观众可以选择音色风格B，然后通过客户端300生成对应的音色转换请求。

其中，第一音频数据可以是该主播预先录制的音频数据，也可以是在直播过程中实时输出的音频数据，本实施例对此不作具体限制。

经本申请发明人研究发现，任何一段音频数据都可以由一连串的波形图表示，基于此，执行步骤S110以提取出音频特征图的一种示例性方式可以是：每间隔预设时间(例如每隔10秒)将第一音频数据进行切分，得到多个音频片段，然后提取每个音频片段的声波图、频谱图或语谱图或者每个音频片段的声波图、频谱图或语谱图进行图像处理变换后的图像作为音频特征图。由此，本实施例通过将第一音频数据进行切分，可以避免一次性处理的音频数据量过大所导致的主播端100的卡顿，另一方面切分得到的每个音频片段的时间长度一致，可以便于后续处理。

音频特征图可以包括内容特征图和风格特征图，风格特征图可以用于表示第一音频数据的风格特征，例如音色风格等；内容特征图可以用于表示第一音频数据的内容特征，例如音量大小、说话内容等。

针对步骤S120，该预设的特征向量提取网络可以采用卷积神经网络，卷积神经网络是一种前馈神经网络，其人工神经元可以响应一部分覆盖范围内的周围单元，对于图像处理具有出色表现。卷积神经网络可以通过多层卷积提取物体的抽象特征完成物体识别。基于此，可以通过卷积神经网络来提取内容特征图的内容特征向量。可选地，该预设的特征向量提取网络可以使用目视图像生成器(Visual Graphics Generator，VGG)模型、深度残差网络(Deep Residual Network，ResNet)模型等用于提取图像的向量特征的模型。

本实施例中，主播端100中预先存储有针对在步骤S130的至少一种风格转换模型，每种风格转换模型与一种音色风格相对应，每种风格转换模型可以用于将任意主播的内容特征图转换为具有目标音色风格的风格转换图。

针对步骤S140，由于风格转换图替换了原有音频特征图中的风格特征图，该步骤中的内容特征图和转换后的风格转换图可以理解为具有该目标音色风格的音频特征图。为了生成观众可以听到的音频数据，本实施例还需要将该内容特征图和转换后的风格转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。这样，该第二音频数据综合了该第一音频数据对应的内容特征图和转换后的风格转换图的风格特征，从而在不改变该第一音频数据的内容的同时，达到该目标音色风格所对应的听觉效果。

值得说明的是，尽管现有技术中会采用一些变声变音功能(例如老人声音、小孩声音等)以改变说话的声音，但是此方案中转换的声音效果并不理想，无法达到较好的逼真效果，并且仍旧无法转换为所需要音色风格。通过本实施例提供的技术方案，转换后的音色即为所需要的目标音色风格的音色，具有极强的逼真效果。

另外还需要特别说明的是，由于本方案提供的风格转换模型能够学习所对应的音色风格的风格特征向量，因此针对任意主播输出的任意内容都可以将其转换为具有所对应的音色风格的风格转换图，无需针对每个主播单独训练风格转换模型，极大降低了训练工作量。其中，针对风格转换模型的具体训练过程将在后文中进行详细阐述。

针对步骤S140，为了提高直播互动过程中的趣味性，在直播间的显示界面中可以虚拟形象代替该主播的实际形象与观众进行互动。例如，虚拟形象可以实时模仿该主播的表情、动作等特征属性，以便代表该主播与观众进行互动，即观众可以通过虚拟形象与该主播进行互动，该观众可以是主播众多订阅粉丝中的任意一个。另外，第一虚拟形象可以模仿该主播做出与主播内容相关的操作或动作，例如，手持某一产品、介绍某一产品等等。

在生成第二音频数据后，可以实时生成与第二音频数据中每一帧音频帧对应的该主播对应的虚拟形象的互动视频帧。例如，可以通过识别第二音频数据中每一帧音频帧中的情感内容或者特定关键词，然后根据情感内容控制该虚拟形象以对应的情感表现形式执行互动动作，或者根据特定关键词去查找对应的关键词所对应的互动表现形式执行互动动作，并记录该虚拟形象执行互动动作时的互动视频帧。

接着，将每一音频帧及其对应的互动视频帧进行合成，得到虚拟形象的互动视频流。例如，可以针对每一音频帧，解析出该音频帧中包含的文字内容，然后将该音频帧、该音频帧中包含的文字内容及该音频帧对应的互动视频帧进行合成，从而得到该主播对应的虚拟形象的互动视频流。在此基础上，可以通过直播服务器200将虚拟形象的互动视频流发送给客户端300进行播放。

例如，请参阅图4，示出了主播端100的一种直播界面示例图，在该直播界面中，可以包括直播界面显示框、主播视频帧显示框、弹幕区、虚拟形象区域以及主播的每帧音频帧的文字内容XXXXX。其中，直播界面显示框用于显示当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流，主播视频帧显示框用于显示视频采集装置实时采集到的主播视频帧，虚拟形象区域用于展示主播的虚拟形象和虚拟形象的互动视频帧，弹幕区用于展示观众与主播之间的互动内容(例如AAAAA、BBBBB、CCCCC、DDDDD、EEEEE)。

可以理解，图4所示的直播界面仅为示意，在实际直播过程中该直播界面包括还可以直播信息区，直播信息区可以包括直播间名称、主播用户帐号、主播头像、观众用户帐号、观众头像、主播的被关注次数、主播的人气指数、主播接收到的礼物排行榜中的至少一项信息。

如此，本实施例能够在不改变音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。

作为一种可能的实施方式，请参阅图5，在前述步骤S110之前，本实施例提供的直播方法还可以包括如下步骤：

步骤S101，预先根据训练样本训练得到目标音色风格对应的风格转换模型，具体请参阅图6，步骤S101可以包括如下子步骤：

子步骤S1011，获取训练样本，训练样本包括第一音频样本和任意主播的第二音频样本。

本实施例中，第一音频样本可以是具有目标音色风格的任意音频样本。例如，若目标音色风格为某个演员A的音色风格，则可以收集大量演员A的音频数据作为第一音频样本。

本实施例中，第二音频样本不作具体限制，可以是任意主播或者其它任意用户的音频数据，均可以收集作为该第二音频样本。

请结合参阅图7，本实施例的训练过程涉及到特征提取网络、特征向量提取网络以及初始转换网络。下面基于图7对本步骤S101中风格转换模型的训练过程进行示例性阐述。

子步骤S1012，分别提取第一音频样本的参考风格特征图和第二音频样本的内容特征图。

参见图7所示，可以按照上述从主播输入的第一音频数据中提取音频特征图的方式，通过特征提取网络提取第一音频样本的参考风格特征图和第二音频样本的内容特征图。

子步骤S1013，通过特征向量提取网络分别提取参考风格特征图对应的参考风格特征向量和内容特征图对应的内容特征向量。

子步骤S1014，根据内容特征向量和参考风格特征向量训练初始转换模型，得到目标音色风格对应的风格转换模型，并存储在主播端100中。

下面基于图7对本子步骤S1014的详细训练过程进行示例性阐述。

第一、将内容特征向量输入到初始转换模型中，生成内容特征向量的参考风格转换图。

第二、通过特征向量提取网络提取参考风格转换图对应的参考风格转换特征向量。

第三、根据内容特征向量、参考风格特征向量以及参考风格转换特征向量调整初始转换模型的网络参数。

详细地，本实施例可以计算参考风格特征向量与参考风格转换特征向量之间的第一向量差异值，以及参考风格转换特征向量与内容特征向量之间的第二向量差异值。可选地，前述第一向量差异值和第一向量差异值的计算方式可以是：生成内容特征向量对应的内容特征灰度图、参考风格特征向量对应的参考风格灰度图以及参考风格转换特征向量对应的参考风格转换特征灰度图。

接着，计算参考风格灰度图与参考风格转换特征灰度图之间的像素差异值作为第一向量差异值。例如，可以计算参考风格灰度图中的像素点的灰度像素值以及参考风格转换特征灰度图对应位置的像素点的灰度像素值之间的灰度差值，并计算参考风格灰度图中的每个像素点和参考风格转换特征灰度图中对应位置的之间的差值平方值。而后，对所有像素点分别对应的差值平方值进行求和，得到参考风格灰度图与参考风格转换特征灰度图之间的像素差异值作为第一向量差异值。

同时，计算参考风格转换特征灰度图与内容特征灰度图之间的像素差异值作为第二向量差异值。例如，可以计算参考风格转换特征灰度图中的像素点的灰度像素值以及内容特征灰度图对应位置的像素点的灰度像素值之间的灰度差值，并计算参考风格转换特征灰度图中的每个像素点和内容特征灰度图中对应位置的像素点之间的差值平方值。而后，对所有像素点分别对应的差值平方值进行求和，得到参考风格转换特征灰度图与内容特征灰度图之间的像素差异值作为第二向量差异值。

值得说明的是，在实际训练阶段，本领域技术人员还可以增加除前述第一向量差异值和第二向量差异值之外的其它损失函数，本申请对此不作详细限制。

在前述基础上，可以根据第一向量差异值和第二向量差异值进行反向传播训练，并计算初始转换模型的网络参数的梯度。接着，根据计算得到的梯度，采用随机梯度下降法更新初始转换模型的网络参数后继续训练，直到初始转换模型满足训练终止条件时，输出训练得到的目标音色风格对应的风格转换模型。

其中，随机梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值)。梯度下降的方向可以通过对函数求导得到，一般情况下，当梯度向量为0时表明到了一个极值点，此时梯度的幅值也为0，而采用梯度下降算法进行最优化求解时，算法迭代的终止条件是梯度向量的幅值接近0即可，可以设置个非常小的常数阈值。

其中，上述的训练终止条件可以包括以下三种条件中的至少一种：

1)迭代训练次数达到设定次数；2)第一向量差异值和第二向量差异值低于设定阈值；3)第一向量差异值和第二向量差异值不再下降。

此外，在实际实施过程中，也可以不限于采用上述示例作为训练终止条件，本领域技术人员可以根据实际需求设计与上述示例不同的训练终止条件。

基于上述步骤得到的目标音色风格对应的风格转换模型，可以用于将任意主播的音频数据对应的内容特征图转换为具有目标音色风格的风格特征转换图，在不改变任意主播的音频数据的音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。并且目标音色风格对应的风格转换模型可以针对任意主播所输出的任意音频内容均使用，无需再针对每个主播单独训练风格转换模型，极大降低了训练工作量。

值得说明的是，以上仅为前述目标音色风格对应的风格转换模型的训练过程中，针对其它音色风格对应的风格转换模型的训练，可以参照上述实施例的相关描述，在此不再赘述。

图8示出了本申请实施例提供的电子设备的示意图，本实施例中，该电子设备可以是指图1所示的主播端100，其包括存储介质110、处理器120以及直播互动装置500。本实施例中，存储介质110与处理器120均位于主播端100中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于主播端100之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

存储介质110作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的直播互动方法对应的程序指令/模块(例如，该直播互动装置500包括的提取模块510、输入模块520、转换模块530、反转换模块540以及生成送模块550)。存储介质110可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储介质110可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储介质110可进一步包括相对于处理器120远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

下面分别对该直播互动装置500的各个功能模块的功能进行详细阐述。

提取模块510，用于根据接收到的音色转换请求，每间隔预设时间，将主播输入的第一音频数据进行切分，得到多个音频片段，并从多个音频片段中提取出音频特征图，音频特征图包括内容特征图，音色转换请求中包括需要将第一音频数据的音色风格进行转换的目标音色风格。可以理解，该提取模块510可以用于执行上述步骤S110，关于该提取模块510的详细实现方式可以参照上述对步骤S110有关的内容。

输入模块520，用于将内容特征图输入到预设的特征向量提取网络，提取内容特征图的内容特征向量。可以理解，该输入模块520可以用于执行上述步骤S120，关于该输入模块520的详细实现方式可以参照上述对步骤S120有关的内容。

转换模块530，用于采用目标音色风格对应的风格转换模型对内容特征向量进行转换，得到具有目标音色风格的风格转换图。可以理解，该转换模块530可以用于执行上述步骤S130，关于该转换模块530的详细实现方式可以参照上述对步骤S130有关的内容。

反转换模块540，用于对内容特征图和风格转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。可以理解，该反转换模块540可以用于执行上述步骤S140，关于该反转换模块540的详细实现方式可以参照上述对步骤S140有关的内容。

生成发送模块550，用于根据第二音频数据生成该主播对应的虚拟形象的互动视频流，并发送给客户端300进行播放。可以理解，该生成发送模块550可以用于执行上述步骤S150，关于该生成发送模块550的详细实现方式可以参照上述对步骤S150有关的内容。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的直播互动方法。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种直播互动方法，其特征在于，应用于主播端，所述主播端中存储有至少一种风格转换模型，每种风格转换模型与一种音色风格相对应，所述方法包括：

2.根据权利要求1所述的直播互动方法，其特征在于，所述风格转换模型利用第一音频样本和任意主播的第二音频样本基于深度学习的神经网络训练获得，其中，所述第一音频样本具有所述目标音色风格。

3.根据权利要求1所述的直播互动方法，其特征在于，在所述根据接收到的音色转换请求，每间隔预设时间，将主播输入的第一音频数据进行切分，得到多个音频片段，并从所述多个音频片段中提取出音频特征图之前，所述方法还包括：

预先根据训练样本训练得到所述目标音色风格对应的风格转换模型，具体包括：

获取训练样本，所述训练样本包括第一音频样本和任意主播的第二音频样本，其中，所述第一音频样本具有所述目标音色风格；

分别提取所述第一音频样本的参考风格特征图和所述第二音频样本的内容特征图；

通过所述特征向量提取网络分别提取所述参考风格特征图对应的参考风格特征向量和所述内容特征图对应的内容特征向量；

根据所述内容特征向量和所述参考风格特征向量训练初始转换模型，得到所述目标音色风格对应的风格转换模型，并存储在所述主播端中。

4.根据权利要求3所述的直播互动方法，其特征在于，所述根据所述内容特征向量和所述参考风格特征向量训练初始转换模型，得到所述目标音色风格对应的风格转换模型的步骤，包括：

将所述内容特征向量输入到初始转换模型中，生成所述内容特征向量的参考风格转换图；

通过所述特征向量提取网络提取所述参考风格转换图对应的参考风格转换特征向量；

根据所述内容特征向量、所述参考风格特征向量以及所述参考风格转换特征向量调整所述初始转换模型的网络参数。

5.根据权利要求4所述的直播互动方法，其特征在于，所述根据所述内容特征向量、所述参考风格特征向量以及所述参考风格转换特征向量调整所述初始转换模型的网络参数的步骤，包括：

计算所述参考风格特征向量与所述参考风格转换特征向量之间的第一向量差异值以及所述参考风格转换特征向量与所述内容特征向量之间的第二向量差异值；

根据所述第一向量差异值和所述第二向量差异值进行反向传播训练，并计算所述初始转换模型的网络参数的梯度；

根据计算得到的所述梯度，采用随机梯度下降法更新所述初始转换模型的网络参数后继续训练，直到所述初始转换模型满足训练终止条件时，输出训练得到的所述目标音色风格对应的风格转换模型。

6.根据权利要求5所述的直播互动方法，其特征在于，所述计算所述参考风格特征向量与所述参考风格转换特征向量之间的第一向量差异值以及所述参考风格转换特征向量与所述内容特征向量之间的第二向量差异值的步骤，包括：

生成所述内容特征向量对应的内容特征灰度图、所述参考风格特征向量对应的参考风格灰度图以及所述参考风格转换特征向量对应的参考风格转换特征灰度图；

计算所述参考风格灰度图与所述参考风格转换特征灰度图之间的像素差异值作为所述第一向量差异值，并计算所述参考风格转换特征灰度图与所述内容特征灰度图之间的像素差异值作为所述第二向量差异值。

7.根据权利要求6所述的直播互动方法，其特征在于，所述计算所述参考风格灰度图与所述参考风格转换特征灰度图之间的像素差异值作为所述第一向量差异值的步骤，包括：

计算所述参考风格灰度图中的像素点的灰度像素值以及所述参考风格转换特征灰度图对应位置的像素点的灰度像素值之间的灰度差值，并计算所述参考风格灰度图中的每个像素点和所述参考风格转换特征灰度图中对应位置的之间的差值平方值；

对所有像素点分别对应的差值平方值进行求和，得到所述参考风格灰度图与所述参考风格转换特征灰度图之间的像素差异值；

计算所述参考风格转换特征灰度图与所述内容特征灰度图之间的像素差异值作为所述第二向量差异值的步骤，包括：

计算所述参考风格转换特征灰度图中的像素点的灰度像素值以及所述内容特征灰度图对应位置的像素点的灰度像素值之间的灰度差值，并计算所述参考风格转换特征灰度图中的每个像素点和所述内容特征灰度图中对应位置的像素点之间的差值平方值；

对所有像素点分别对应的差值平方值进行求和，得到所述参考风格转换特征灰度图与所述内容特征灰度图之间的像素差异值。

8.根据权利要求1-7中任意一项所述的直播互动方法，其特征在于，所述根据所述第二音频数据生成该主播对应的虚拟形象的互动视频流，并发送给客户端进行播放的步骤，包括：

针对所述第二音频数据中每一音频帧，生成该音频帧对应的所述虚拟形象的互动视频帧；

将每一音频帧及其对应的互动视频帧进行合成，得到所述虚拟形象的互动视频流，并将所述虚拟形象的互动视频流发送给客户端进行播放。

9.根据权利要求8所述的直播互动方法，其特征在于，所述将每一音频帧及其对应的互动视频帧进行合成，得到所述虚拟形象的互动视频流的步骤，包括：

针对每一音频帧，解析出该音频帧中包含的文字内容；

将该音频帧、该音频帧中包含的文字内容及该音频帧对应的互动视频帧进行合成，从而得到该主播对应的虚拟形象的互动视频流。

10.一种直播互动装置，其特征在于，应用于主播端，所述主播端中存储有至少一种风格转换模型，每种风格转换模型与一种音色风格相对应，所述装置包括：

提取模块，用于根据接收到的音色转换请求，每间隔预设时间，将主播输入的第一音频数据进行切分，得到多个音频片段，并从所述多个音频片段中提取出音频特征图，所述音频特征图包括内容特征图，所述音色转换请求中包括需要将所述第一音频数据的音色风格进行转换的目标音色风格；

11.一种电子设备，其特征在于，所述电子设备包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以实现权利要求1-9中任意一项所述的直播互动方法。

12.一种可读存储介质，其特征在于，所述可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-9中任意一项所述的直播互动方法。