CN110071938B

CN110071938B - 虚拟形象互动方法、装置、电子设备及可读存储介质

Info

Publication number: CN110071938B
Application number: CN201910368515.XA
Authority: CN
Inventors: 徐子豪; 刘炉
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2021-12-03
Anticipated expiration: 2039-05-05
Also published as: CN110071938A

Abstract

本申请实施例提供一种虚拟形象互动方法、装置、电子设备及可读存储介质，通过提取特定主播的第一音频数据对应的内容特征图，并将内容特征图输入到目标音色风格对应的音色转换模型中，生成具有目标音色风格的风格特征转换图。然后对内容特征图和风格特征转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。最后根据第二音频数据生成该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将虚拟形象的互动视频流发送给直播接收终端进行播放。如此，能够在不改变音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。

Description

虚拟形象互动方法、装置、电子设备及可读存储介质

技术领域

本申请涉及互联网直播领域，具体而言，涉及一种虚拟形象互动方法、装置、电子设备及可读存储介质。

背景技术

在互联网直播中，展现给观众的声音风格(音色)大多是采用主播的原音色风格或者预先固定的某一种音色风格。在一些特定的需求下，例如，观众希望听到所喜欢的偶像或者一种特别的音色风格，又或者主播希望以非本人的音色进行主播等情况，目前的直播方法则无法满足这些需求。

发明内容

有鉴于此，本申请实施例的目的在于提供一种虚拟形象互动方法、装置、电子设备及可读存储介质，以解决或者改善上述问题。

根据本申请实施例的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可执行指令。当电子设备运行时，处理器执行所述机器可执行指令，以执行虚拟形象互动方法。

根据本申请实施例的另一方面，提供一种虚拟形象互动方法，应用于直播提供终端，所述直播提供终端中存储有针对特定主播的至少一种音色风格分别对应的音色转换模型，所述方法包括：

提取所述特定主播的第一音频数据对应的音频特征图；

将所述音频特征图包括的内容特征图输入到所述直播提供终端中存储的与设定的目标音色风格对应的音色转换模型中，生成具有所述目标音色风格的风格特征转换图；

对所述内容特征图和所述风格特征转换图进行特征反转换，得到具有该目标音色风格的第二音频数据；

根据所述第二音频数据生成该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放。

根据本申请实施例的另一方面，提供一种虚拟形象互动装置，应用于直播提供终端，所述直播提供终端中存储有针对特定主播的至少一种音色风格分别对应的音色转换模型，所述装置包括：

提取模块，用于提取所述特定主播的第一音频数据对应的音频特征图；

生成模块，用于将所述音频特征图包括的内容特征图输入到所述直播提供终端中存储的与设定的目标音色风格对应的音色转换模型中，生成具有所述目标音色风格的风格特征转换图；

反转换模块，用于对所述内容特征图和所述风格特征转换图进行特征反转换，得到具有该目标音色风格的第二音频数据；

发送模块，用于根据所述第二音频数据生成该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放。

根据本申请实施例的另一方面，提供一种可读存储介质，该可读存储介质上存储有机器可执行指令，该计算机程序被处理器运行时可以执行上述的虚拟形象互动方法的步骤。

基于上述任一方面，相较于现有技术而言，本申请实施例通过提取特定主播的第一音频数据对应的内容特征图，并将内容特征图输入到目标音色风格对应的音色转换模型中，生成具有目标音色风格的风格特征转换图。然后对内容特征图和风格特征转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。最后根据第二音频数据生成该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将虚拟形象的互动视频流发送给直播接收终端进行播放。如此，能够在不改变音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。

为使本申请实施例的上述目的、特征和优点能更明显易懂，下面将结合实施例，并配合所附附图，作详细说明。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的直播系统的应用场景示意框图；

图2示出了本申请实施例所提供的虚拟形象互动方法的流程示意图之一；

图3示出了本申请实施例所提供的一种直播互联网应用中选择目标音色风格的界面示意图；

图4示出了本申请实施例所提供的直播提供终端的直播界面示意图；

图5示出了本申请实施例所提供的虚拟形象互动方法的流程示意图之二；

图6示出了本申请实施例所提供的图5中所示的步骤S101包括的各个子步骤的流程示意图；

图7示出了本申请实施例所提供的音色转换模型的网络结构示意图；

图8示出了本申请实施例所提供的图1所示的直播提供终端的示例性电子设备的组件示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

参照图1所示，图1是本申请实施例提供的直播系统10的架构示意图。例如，直播系统10可以是用于诸如互联网直播之类的服务平台。直播系统10可以包括直播服务器200、直播提供终端100以及直播接收终端300，直播服务器200分别与直播提供终端100以及直播接收终端300通信连接，用于为直播提供终端100以及直播接收终端300提供直播服务。例如，直播提供终端100可以将直播间的直播视频流发送给直播服务器200，观众可以通过直播接收终端300从直播服务器200拉取直播视频流以观看直播间的直播视频。又例如，直播服务器200也可以在观众订阅的直播间开播时向该观众的直播接收终端300发送通知消息。直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。

可以理解，图1所示的直播系统10仅为一种可行的示例，在其它可行的实施例中，该直播系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

在一些实施场景中，直播提供终端100和直播接收终端300可以互换使用。例如，直播提供终端100的主播可以使用直播提供终端100来为观众提供直播视频服务，或者作为观众查看其它主播提供的直播视频。又例如，直播接收终端300的观众也可以使用直播接收终端300观看所关注的主播提供的直播视频，或者作为主播为其它观众提供直播视频服务。

本实施例中，直播提供终端100和直播接收终端300可以是，但不限于智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中，直播提供终端100和直播接收终端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，直播系统10还可以包括用于采集主播的主播视频帧的视频采集装置400，视频采集装置400直接安装或者集成于直播提供终端100，也可以独立于直播提供终端100并与直播提供终端100连接。

图2示出了本申请实施例提供的虚拟形象互动方法的流程示意图，该虚拟形象互动方法可由图1中所示的直播提供终端100执行。应当理解，在其它实施例中，本实施例的虚拟形象互动方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该虚拟形象互动方法的详细步骤介绍如下。

步骤S110，提取特定主播的第一音频数据对应的音频特征图。

步骤S120，将内容特征图输入到目标音色风格对应的音色转换模型中，生成具有目标音色风格的风格特征转换图。

步骤S130，对内容特征图和风格特征转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。

步骤S140，根据第二音频数据生成该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将虚拟形象的互动视频流发送给直播接收终端进行播放。

在本实施例中，针对步骤S110，特定主播可以通过点击直播提供终端上安装的直播互联网应用启动并进入直播界面开始直播，在直播过程中会产生直播视频流、直播图片、直播音频、文字等数据。

可选地，该目标直播或者进入该特定主播的直播间的观众通过选择指定的目标音色风格后生成音色转换请求，该目标音色风格可以理解为该特定主播或者进入该特定主播的直播间的观众在听前述直播音频时希望听到的音色风格。例如，该特定主播可能希望自己的第一音频数据听起来类似自己喜欢的偶像明星的音色风格，或者自己熟悉的朋友的音色风格，又或者自己喜欢的说话腔调(例如“北京腔”“台湾腔”等)的音色风格。又例如，对于一部分观众而言可能也希望自己听到的该特定主播的第一音频数据听起来类似自己喜欢的偶像明星的音色风格，或者自己熟悉的朋友的音色风格。如此，该音色转换请求既可以由特定主播对应的直播提供终端发出，也可以由进入该特定主播的直播间的观众的直播接收终端发出。

例如，直播提供终端或者直播接收终端上安装的直播互联网应用的界面中可以设置有针对该目标音色风格的选择界面，该选择界面显示有多个不同音色风格的选项，该特定主播或者进入该特定主播的直播间的观众可以从该选择界面中展示的各个选项中选择自己所需要的目标音色风格对应的选项，然后通过直播提供终端或者直播接收终端生成对应的音色转换请求。

仅作为示例，请参阅图4，示出了直播提供终端或者直播接收终端上安装的直播互联网应用的界面示意图，该界面中显示有不同音色风格的选项，分别包括音色风格A、音色风格B、音色风格C、音色风格D等，该特定主播或者进入该特定主播的直播间的观众可以从该选择界面中选择自己所需要的目标音色风格对应的选项。例如，该特定主播喜好自己一个熟悉的朋友A的音色风格，而音色风格A为朋友A的音色风格，则该特定主播可以选择音色风格A，然后通过直播提供终端生成对应的音色转换请求。又例如，该特定主播的直播间的观众喜好歌星张学友的音色风格，则该观众可以选择音色风格A，然后通过直播接收终端生成对应的音色转换请求。

其中，第一音频数据可以是该特定主播预先录制的音频数据，也可以是在直播过程中实时输出的音频数据，本实施例对此不作具体限制。

任何一段音频数据都可以由一连串的波形图表示，基于此，提取该特定主播的第一音频数据对应的音频特征图的一种示例性方式可以是：每间隔预设时间(例如每隔5秒)将第一音频数据进行切分，得到多个音频片段，然后提取每个音频片段的声波图、频谱图或语谱图或者每个音频片段的声波图、频谱图或语谱图进行图像处理变换后的图像作为音频特征图。由此，本实施例通过将第一音频数据进行切分，可以避免一次性处理的音频数据量过大所导致的直播提供终端的卡顿，另一方面切分得到的每个音频片段的时间长度一致，可以便于后续处理。

音频特征图可以包括内容特征图和风格特征图，内容特征图可以用于表示第一音频数据的内容特征，例如音量大小、说话内容等；风格特征图可以用于表示第一音频数据的风格特征，例如音色风格等。

本实施例中，直播提供终端中预先存储有针对在步骤S120所述的上述特定主播的至少一种音色风格分别对应的音色转换模型，也即存储有针对上述特定主播的目标音色风格对应的音色转换模型，该音色转换模型可以利用该目标音色风格的第一音频样本和该特定主播的第二音频样本基于神经网络模型训练获得，以用于将该特定主播的内容特征图转换为具有目标音色风格的风格特征转换图。

针对步骤S130，内容特征图和风格特征转换图构成转换至该目标音色风格的音频特征图，在此基础上，将该目标音色风格的音频特征图进行特征反转换，即可得到具有该目标音色风格的第二音频数据。如此，该第二音频数据综合了该第一音频数据对应的内容特征图和转换后的风格特征转换图的风格特征，从而在不改变该第一音频数据的内容的同时，达到该目标音色风格所对应的声音效果。

尽管现有技术中会采用一些变声变音功能(例如老人声音、小孩声音等)以改变说话的声音，但是此方案中转换的声音效果并不理想，无法达到较好的逼真效果，并且仍旧无法转换为所需要音色风格。通过本实施例提供的技术方案，转换后的音色即为所需要的目标音色风格的音色，具有极强的逼真效果。

针对步骤S140，为了提高直播互动过程中的趣味性，在直播间的显示界面中可以虚拟形象代替该特定主播的实际形象与观众进行互动。例如，虚拟形象可以实时模仿该特定主播的表情、动作等特征属性，以便代表该特定主播与观众进行互动，即观众可以通过虚拟形象与该特定主播进行互动，该观众可以是主播众多订阅粉丝中的任意一个。另外，第一虚拟形象可以模仿该特定主播做出与与主播内容相关的操作或动作，例如，手持某一产品、介绍某一产品等等。

其中，该虚拟形象可以采用二维虚拟形象或三维虚拟形象等，本申请实施例对该虚拟形象的名称或表现形式不作具体限定。

在生成第二音频数据后，可以实时生成与第二音频数据中每一帧音频帧对应的该特定主播对应的虚拟形象的互动视频帧。例如，可以通过识别第二音频数据中每一帧音频帧中的情感内容或者特定关键词，然后根据情感内容控制该虚拟形象以对应的情感表现形式执行互动动作，或者根据特定关键词去查找对应的关键词所对应的互动表现形式执行互动动作，并记录该虚拟形象执行互动动作时的互动视频帧。

接着，将每一帧音频帧和对应的互动视频帧进行关联合成，得到该特定主播对应的虚拟形象的互动视频流。例如，可以针对前述的每一帧音频帧，将该帧音频帧和对应的互动视频帧进行关联合成，并识别出该帧音频帧中包含的文字内容，然后将文字内容添加在对应的互动视频帧中，得到每帧音频帧对应的互动视频帧，从而得到该特定主播对应的虚拟形象的互动视频流。在此基础上，可以通过直播服务器将虚拟形象的互动视频流发送给直播接收终端进行播放。

例如，请参阅图4，示出了直播提供终端的一种直播界面示例图，在该直播界面中，可以包括直播界面显示框、主播视频帧显示框、弹幕区、虚拟形象区域以及特定主播的每帧音频帧的文字内容XXXXX。其中，直播界面显示框用于显示当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流，主播视频帧显示框用于显示视频采集装置实时采集到的主播视频帧，虚拟形象区域用于展示主播的虚拟形象和虚拟形象的互动视频帧，弹幕区用于展示观众与主播之间的互动内容(例如AAAAA、BBBBB、CCCCC、DDDDD、EEEEE)。

如此，本实施例能够在不改变音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。

作为一种可能的实施方式，请参阅图5，在前述步骤S110之前，本实施例提供的虚拟形象互动方法还可以包括如下步骤：

步骤S101，预先根据目标音色风格的第一音频样本和该特定主播的第二音频样本训练得到目标音色风格对应的音色转换模型，具体请参阅图6，步骤S101可以包括如下子步骤：

子步骤S1011，获取具有目标音色风格的第一音频样本和该特定主播的第二音频样本。

例如，若目标音色风格为明星A的音色风格，则可以收集大量明星A的音频数据作为第一音频样本。

子步骤S1012，分别提取第一音频样本的风格特征图和第二音频样本的内容特征图。

子步骤S1013，根据第一音频样本的风格特征图和第二音频样本的内容特征图训练得到目标音色风格对应的音色转换模型，并存储在直播提供终端中。

详细地，请结合参阅图7，本实施例中，该音色转换模型可以包括输入层、多层卷积提取层、全连接层以及分类层，每个卷积提取层之后设置一个激活函数层和池化层，全连接层位于最后一个池化层之后，分类层位于全连接层之后。

下面基于图7所示的音色转换模型对本子步骤S1013中音色转换模型的训练过程进行示例性阐述。

第一、分别将第一音频样本的风格特征图和第二音频样本的内容特征图输入到深度学习网络的输入层进行预处理，得到预处理风格特征图和预处理内容特征图。

详细地，由于后续需要使用随机梯度下降法进行训练，因此输入的每第一音频样本的风格特征图和第二音频样本的内容特征图需要进行标准化处理。

例如，可以将第一音频样本的风格特征图和第二音频样本的内容特征图进行均值化，详细地，可以分别将每个第一音频样本的风格特征图和第二音频样本的内容特征图的各个维度都中心化到0，第一音频样本的风格特征图和第二音频样本的内容特征图各自求和后再求平均值得到均值样本，然后将第一音频样本的风格特征图和第二音频样本的内容特征图减去其对应的均值样本，得到预处理风格特征图和预处理内容特征图。

又例如，还可以将分别将第一音频样本的风格特征图和第二音频样本的内容特征图的数据幅度归一化到同样的范围，比如对于每个特征而言，范围是[-1，1]，从而得到预处理风格特征图和预处理内容特征图。

又例如，还可以分别将第一音频样本的风格特征图和第二音频样本的内容特征图进行PCA降维，让每个维度的相关度取消，特征和特征之间是相互独立的，然后再分别对第一音频样本的风格特征图和第二音频样本的内容特征图在每个特征轴上的幅度归一化，得到预处理风格特征图和预处理内容特征图。

第二、针对深度学习网络的每个卷积层，分别通过该卷积层提取预处理风格特征图对应的多维风格特征图和预处理内容特征图对应的多维内容特征图。

本实施例中，每个卷积层的功能是对输入的图像数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，也即一个神经元。对于多维风格特征图和多维内容特征图，有一个性质称作局部关联性质，一个预处理风格特征图和一个预处理内容特征图的像素点影响最大的是该预处理风格特征图和预处理内容特征图周边的像素点，而与距离这个像素点比较远的像素点二者之间关系不大。如此，每一个神经元只需要和上一层局部连接，相当于每一个神经元扫描一小区域，然后许多神经元(这些神经元权值共享)合起来就相当于扫描了全局的特征图，这样就构成一个一维特征图，多维特征图像也即提取了这个预处理风格特征图和预处理内容特征图的多维特征得到，由此提取得到预处理风格特征图对应的多维风格特征图和预处理内容特征图对应的多维内容特征图。

第三、分别生成多维风格特征图对应的第一预测特征图和多维内容特征图对应的第二预测特征图。

本实施例中，可以将多维风格特征图和多维内容特征图输入到该卷积层所连接的激活函数层中进行非线性映射，而后将非线性映射后的多维风格特征图和多维内容特征图输入到所连接的池化层中进行池化处理，并将池化处理得到的池化多维风格特征图和池化多维内容特征图输入到下一层卷积层进行特征提取。在此基础上，将深度学习网络的最后一层池化层输出的池化多维风格特征图和池化多维内容特征图输入到深度学习网络的全连接层。而后，将全连接层得到的池化多维风格特征图对应的第一全连接特征输出值，以及池化多维内容特征图对应的第二全连接特征输出值分别输入到分类层中进行预测分类，分别得到第一全连接特征输出值对应的第一预测特征图和第二全连接特征输出值对应的第二预测特征图。

第四、根据第一预测特征图和第二预测特征图调整深度学习网络的网络参数，具体阐述如下。

本实施例中，可首先计算第一预测特征图与第一音频样本的风格特征图之间的第一损失函数值，以及第二预测特征图与第二音频样本的内容特征图之间的第二损失函数值。可选地，第一损失函数值可以根据第一预测特征图与第一音频样本的风格特征图的风格特征的均方差得到，也可以根据其他能表征第一预测特征图与第一音频样本的风格特征图的风格特征之间差异的计算方式得到。相对应地，第二损失函数值可以根据第二预测特征图与第二音频样本的内容特征图的内容特征的均方差得到，也可以根据其他能表征第二预测特征图与第二音频样本的内容特征图的内容特征之间差异的计算方式得到。

接着，根据第一损失函数值和第二损失函数值进行反向传播训练，并计算深度学习网络的网络参数的梯度。

最后，根据计算得到的梯度，采用随机梯度下降法更新深度学习网络的网络参数后继续训练，直到深度学习网络满足训练终止条件时，输出训练得到的目标音色风格对应的音色转换模型。

其中，上述的训练终止条件可以包括以下三种条件中的至少一种：

1)迭代训练次数达到设定次数；2)第一损失函数值和第二损失函数值低于设定阈值；3)第一损失函数值和第二损失函数值不再下降。

其中，在条件1)中，为了节省运算量，可以设置迭代次数的最大值，如果迭代次数达到设定次数，可以停止本迭代周期的迭代，将最后得到的深度学习网络作为音色转换模型。在条件2)中，如果第一损失函数值和第二损失函数值低于设定阈值，说明当前的音色转换模型已经基本可以满足条件，此时可以停止迭代。在条件3)中，第一损失函数值和第二损失函数值不再下降，表明已经形成了最佳的音色转换模型，可以停止迭代。

需要说明的是，上述迭代停止条件可以结合使用，也可以择一使用，例如，可以在第一损失函数值和第二损失函数值不再下降停止迭代，或者，在迭代次数达到设定次数时停止迭代，或者，在第一损失函数值和第二损失函数值不再下降时停止迭代。或者，还可以在第一损失函数值和第二损失函数值低于设定阈值，并且第一损失函数值和第二损失函数值不再下降时，停止迭代。

此外，在实际实施过程中，也可以不限于采用上述示例作为训练终止条件，本领域技术人员可以根据实际需求设计与上述示例不同的训练终止条件。

基于上述步骤得到的目标音色风格对应的音色转换模型，可以用于将该特定主播的第一音频数据对应的内容特征图转换为具有目标音色风格的风格特征转换图，在不改变第一音频数据的音频内容的同时，将虚拟形象直播过程中的音色风格转换为目标音色风格以与观众进行互动，进而提高直播过程中的互动效果，更大程度上地调动观众与主播的互动。

图8示出了本申请实施例提供的图1中所示的直播提供终端的示例性电子设备的组件示意图，直播提供终端可包括存储介质110、处理器120以及虚拟形象互动装置500。本实施例中，存储介质110与处理器120均位于直播提供终端中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于直播提供终端之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

处理器120是该直播提供终端的控制中心，利用各种接口和线路连接整个直播提供终端的各个部分，通过运行或执行存储在存储介质110内的软件程序和/或模块，以及调用存储在存储介质110内的数据，执行该直播提供终端的各种功能和处理数据，从而对终端进行整体监控。可选地，处理器120可包括一个或多个处理核心；例如，处理器120可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

处理器120可以是中央处理单元(Central Processing Unit，CPU)，该处理器120还可以是其他通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器120也可以是任何常规的处理器等。

该存储介质110可以包括只读存储器和随机存取存储器，并向处理器120提供指令和数据。存储介质110的一部分还可以包括非易失性随机存取存储器。

虚拟形象互动装置500可以理解为上述直播提供终端，或直播提供终端的处理器120，也可以理解为独立于上述直播提供终端或处理器120之外的在直播提供终端控制下实现上述虚拟形象互动方法的软件功能模块。如图5所示，该虚拟形象互动装置500可以包括提取模块510、生成模块520、反转换模块530以及发送模块540，下面分别对该虚拟形象互动装置500的各个功能模块的功能进行详细阐述。

提取模块510，用于提取特定主播的第一音频数据对应的音频特征图。可以理解，该提取模块510可以用于执行上述步骤S110，关于该提取模块510的详细实现方式可以参照上述对步骤S110有关的内容。

生成模块520，用于将音频特征图包括的内容特征图输入到直播提供终端100中存储的与设定的目标音色风格对应的音色转换模型中，生成具有目标音色风格的风格特征转换图。可以理解，该生成模块520可以用于执行上述步骤S120，关于该生成模块520的详细实现方式可以参照上述对步骤S120有关的内容。

反转换模块530，用于对内容特征图和风格特征转换图进行特征反转换，得到具有该目标音色风格的第二音频数据。可以理解，该反转换模块530可以用于执行上述步骤S130，关于该反转换模块530的详细实现方式可以参照上述对步骤S130有关的内容。

发送模块540，用于根据第二音频数据生成该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将虚拟形象的互动视频流发送给直播接收终端进行播放。可以理解，该发送模块540可以用于执行上述步骤S140，关于该发送模块540的详细实现方式可以参照上述对步骤S140有关的内容。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的虚拟形象互动方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种虚拟形象互动方法，其特征在于，应用于直播提供终端，所述方法包括：

获取具有目标音色风格的第一音频样本和特定主播的第二音频样本；

分别提取所述第一音频样本的风格特征图和所述第二音频样本的内容特征图；

针对深度学习网络的每个卷积层，分别通过该卷积层提取预处理风格特征图对应的多维风格特征图和预处理内容特征图对应的多维内容特征图；

分别生成所述多维风格特征图对应的第一预测特征图和所述多维内容特征图对应的第二预测特征图；

根据所述第一预测特征图和所述第二预测特征图调整所述深度学习网络的网络参数，以得到音色转换模型，并存储在所述直播提供终端中；

提取所述特定主播的第一音频数据对应的音频特征图；

2.根据权利要求1所述的虚拟形象互动方法，其特征在于，所述提取所述特定主播的第一音频数据对应的音频特征图的步骤，包括：

每间隔预设时间将所述第一音频数据进行切分，得到多个音频片段；

提取每个音频片段的声波图、频谱图或语谱图作为所述音频特征图。

3.根据权利要求1所述的虚拟形象互动方法，其特征在于，所述音色转换模型包括输入层、多层卷积提取层、全连接层以及分类层，每个卷积提取层之后设置一个激活函数层和池化层，所述全连接层位于最后一个池化层之后，所述分类层位于所述全连接层之后。

4.根据权利要求3所述的虚拟形象互动方法，其特征在于，所述分别生成所述多维风格特征图对应的第一预测特征图和所述多维内容特征图对应的第二预测特征图的步骤，包括：

将所述多维风格特征图和所述多维内容特征图输入到该卷积层所连接的激活函数层中进行非线性映射，而后将非线性映射后的多维风格特征图和多维内容特征图输入到所连接的池化层中进行池化处理，并将池化处理得到的池化多维风格特征图和池化多维内容特征图输入到下一层卷积层进行特征提取；

将所述深度学习网络的最后一层池化层输出的池化多维风格特征图和池化多维内容特征图输入到所述深度学习网络的全连接层；

将所述全连接层得到的所述池化多维风格特征图对应的第一全连接特征输出值，以及所述池化多维内容特征图对应的第二全连接特征输出值分别输入到分类层中进行预测分类，分别得到所述第一全连接特征输出值对应的第一预测特征图和所述第二全连接特征输出值对应的第二预测特征图。

5.根据权利要求1所述的虚拟形象互动方法，其特征在于，所述根据所述第一预测特征图和所述第二预测特征图调整所述深度学习网络的网络参数的步骤，包括：

计算所述第一预测特征图与所述第一音频样本的风格特征图之间的第一损失函数值，以及第二预测特征图与所述第二音频样本的内容特征图之间的第二损失函数值；

根据所述第一损失函数值和所述第二损失函数值进行反向传播训练，并计算所述深度学习网络的网络参数的梯度；

根据计算得到的所述梯度，采用随机梯度下降法更新所述深度学习网络的网络参数后继续训练，直到所述深度学习网络满足训练终止条件时，输出训练得到的所述目标音色风格对应的音色转换模型。

6.根据权利要求1-5中任意一项所述的虚拟形象互动方法，其特征在于，所述根据所述第二音频数据生成该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放的步骤，包括：

生成与所述第二音频数据中每一帧音频帧对应的该特定主播对应的虚拟形象的互动视频帧；

将每一帧音频帧和对应的互动视频帧进行关联合成，得到该特定主播对应的虚拟形象的互动视频流，并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放。

7.根据权利要求6所述的虚拟形象互动方法，其特征在于，所述将每一帧音频帧和对应的互动视频帧进行关联合成，得到该特定主播对应的虚拟形象的互动视频流的步骤，包括：

针对每一帧音频帧，将该帧音频帧和对应的互动视频帧进行关联合成，并识别出该帧音频帧中包含的文字内容；

将所述文字内容添加在所述对应的互动视频帧中，得到每帧音频帧对应的互动视频帧，从而得到该特定主播对应的虚拟形象的互动视频流。

8.根据权利要求1所述的虚拟形象互动方法，其特征在于，所述目标音色风格所对应的音色转换请求由所述特定主播对应的直播提供终端发出或者由所述直播接收终端发出。

9.一种虚拟形象互动装置，其特征在于，应用于直播提供终端，所述装置包括：

生成模块，用于获取具有目标音色风格的第一音频样本和特定主播的第二音频样本；

所述生成模块，还用于将所述音频特征图包括的内容特征图输入到所述直播提供终端中存储的与设定的目标音色风格对应的音色转换模型中，生成具有所述目标音色风格的风格特征转换图；

10.一种电子设备，其特征在于，所述电子设备包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-8中任意一项所述的虚拟形象互动方法。

11.一种可读存储介质，其特征在于，所述可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-8中任意一项所述的虚拟形象互动方法。