CN115187704A

CN115187704A - 虚拟主播生成方法、装置、设备及存储介质

Info

Publication number: CN115187704A
Application number: CN202210683777.7A
Authority: CN
Inventors: 魏舒; 周超勇; 刘玉宇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-10-14

Abstract

本发明涉及人工智能技术领域，公开了一种虚拟主播生成方法、装置、设备及存储介质。本方法包括：通过将获取的待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络进行序列变换处理，得到面部表情参数；将面部表情参数输入至循环神经网络模型，得到对应的人脸特征；确定与人脸特征对应的目标虚拟人脸，并确定与人脸特征匹配的目标动作视频；将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。本方案通过对待处理音频进行转换处理，生成音频对应的虚拟主播，解决了传统技术中虚拟主播生成效率较低的技术问题。

Description

虚拟主播生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种虚拟主播生成方法、装置、设备及存储介质。

背景技术

虚拟主播是基于语音、NLP、视觉等领先科技，使用虚拟形象在视频中与客户进行交互的主播/客服。虚拟主播可代替传统人工客服坐席，由于虚拟主播属于计算程序的产物，其可以做到全时间段待命工作，解决了人工客服坐席的绝大部分缺陷，例如公司客服成本，工作质量、效率等等。

目前，对于生成虚拟主播的实现中，主要是通过构建模型的方式来生成，但是模型的训练则需要大量的训练数据，并且这些训练数据需要囊括不同的场景，这就导致了数据采集的困难度，尤其是对应场景单一的情况下，更加困难，同时训练模型需要很大的资源开销，不利于效率的提高，并且由于数据采集的困难导致模型的准确率低。

发明内容

本发明的主要目的是通过对待处理音频进行特征提取得到对应人脸特征，进一步地生成待处理音频对应的虚拟主播，在保证生成效果的前提下解决了传统技术中虚拟主播生成效率较低的技术问题。

本发明第一方面提供了一种虚拟主播生成方法，包括：获取待处理音频，将所述待处理音频拆分成音素，并对所述音素进行向量化处理，得到所述待处理音频的音素序列特征向量；将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数；将所述面部表情参数输入至预设循环神经网络模型，得到所述面部表情参数对应的人脸特征；确定与所述人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与所述人脸特征匹配的目标动作视频；将所述目标虚拟人脸和所述目标动作视频输入至预设人脸模型中，生成所述待处理音频对应的虚拟主播。

可选地，在本发明第一方面的第一种实现方式中，所述获取待处理音频，将所述待处理音频拆分成音素，包括：对所述待处理音频进行文本识别，得到所述待处理音频对应文本格式的待处理文本；对所述待处理文本中的标点符号进行删除，得到标准文本；基于预设音标规则对所述标准文本进行标记，得到所述标准文本中的每个字对应的音素。

可选地，在本发明第一方面的第二种实现方式中，所述将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数，包括：将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络中的输入门计算所述音素序列特征向量的状态值；通过所述双向长短期记忆网络中的遗忘门计算所述音素序列特征向量的激活值；根据所述状态值和所述激活值计算所述音素序列特征向量的状态更新值；所述双向长短期记忆网络的输出门计算所述状态更新值对应的唇型特征序列，并对所述唇型特征序列进行变换处理，得到得到面部表情参数。

可选地，在本发明第一方面的第三种实现方式中，在所述将所述面部表情参数输入至预设循环神经网络模型，得到所述面部表情参数对应的人脸特征之前，还包括：获取预设真人主播所录制的训练视频样本，对所述训练音频样本进行音素切分，以得到训练音素文本；从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的面部表情参数，并根据所述面部表情参数，确定所述真人主播的人脸特征；将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对所述预设循环神经网络模型进行训练，得到人脸特征识别模型。

可选地，在本发明第一方面的第四种实现方式中，所述确定与所述人脸特征对应的目标虚拟人脸，包括：确定所述人脸特征对应的目标虚拟人脸类型；根据所述目标虚拟人脸类型，从所述预设的人脸素材库中确定与所述人脸特征对应的目标虚拟人脸。

可选地，在本发明第一方面的第五种实现方式中，在所述将所述目标虚拟人脸和所述目标动作视频输入至预设人脸模型中，生成所述待处理音频对应的虚拟主播之前，还包括：获取历史音频数据，将所述历史音频数据进行预处理，得到历史音素序列特征向量；对所述历史音素序列特征向量进行变换处理，得到人脸面部表情参数；将所述人脸面部表情参数输入预设3D人脸模型进行迭代优化，得到初始人脸模型；根据所述人脸面部表情参数得到人脸面部图像，对所述人脸面部图像进行特征提取，得到所述人脸面部图像中携带的多个人脸特征，并将所述多个人脸特征作为训练样本数据；将所述训练样本数据输入预设对抗网络进行训练，并将训练好的对抗网络和所述初始人脸模型进行训练，得到标准人脸模型。

可选地，在本发明第一方面的第六种实现方式中，所述将所述人脸面部表情参数输入预设3D人脸模型进行迭代优化，得到初始人脸模型包括：计算所述人脸面部表情参数和预设的真实面部参数之间的损失值；当检测到所述损失值小于预设的阈值时，将所述3D人脸模型作为初始人脸模型输出；当检测到所述损失值大于或者等于所述预设的人脸阈值时，对所述3D人脸模型的内部参数进行调整，并通过所述3D人脸模型中的双向长短期记忆网络对所述历史音素序列特征向量进行序列变换处理，直到所述损失值小于所述预设的阈值时，得到为初始人脸模型。

本发明第二方面提供了一种虚拟主播生成装置，包括：向量化模块，用于获取待处理音频，将所述待处理音频拆分成音素，并对所述音素进行向量化处理，得到所述待处理音频的音素序列特征向量；序列变换模块，用于将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数；输入模块，用于将所述面部表情参数输入至预设循环神经网络模型，得到所述面部表情参数对应的人脸特征；确定模块，用于确定与所述人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与所述人脸特征匹配的目标动作视频；生成模块，用于将所述目标虚拟人脸和所述目标动作视频输入至预设人脸模型中，生成所述待处理音频对应的虚拟主播。

可选地，在本发明第二方面的第一种实现方式中，所述向量化模块具体用于：对所述待处理音频进行文本识别，得到所述待处理音频对应文本格式的待处理文本；对所述待处理文本中的标点符号进行删除，得到标准文本；基于预设音标规则对所述标准文本进行标记，得到所述标准文本中的每个字对应的音素。

可选地，在本发明第二方面的第二种实现方式中，所述序列变换模块具体用于：将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络中的输入门计算所述音素序列特征向量的状态值；通过所述双向长短期记忆网络中的遗忘门计算所述音素序列特征向量的激活值；根据所述状态值和所述激活值计算所述音素序列特征向量的状态更新值；所述双向长短期记忆网络的输出门计算所述状态更新值对应的唇型特征序列，并对所述唇型特征序列进行变换处理，得到得到面部表情参数。

可选地，在本发明第二方面的第三种实现方式中，所述虚拟主播生成装置还包括：切分模块，用于获取预设真人主播所录制的训练视频样本，对所述训练音频样本进行音素切分，以得到训练音素文本；第一特征提取模块，用于从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的面部表情参数，并根据所述面部表情参数，确定所述真人主播的人脸特征；第一训练模块，用于将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对所述预设循环神经网络模型进行训练，得到人脸特征识别模型。

可选地，在本发明第二方面的第四种实现方式中，所述确定模块具体用于：确定所述人脸特征对应的目标虚拟人脸类型；根据所述目标虚拟人脸类型，从所述预设的人脸素材库中确定与所述人脸特征对应的目标虚拟人脸。

可选地，在本发明第二方面的第五种实现方式中，所述虚拟主播生成装置还包括：预处理模块，用于获取历史音频数据，将所述历史音频数据进行预处理，得到历史音素序列特征向量；对所述历史音素序列特征向量进行变换处理，得到人脸面部表情参数；优化模块，用于将所述人脸面部表情参数输入预设3D人脸模型进行迭代优化，得到初始人脸模型；第二特征提取模块，用于根据所述人脸面部表情参数得到人脸面部图像，对所述人脸面部图像进行特征提取，得到所述人脸面部图像中携带的多个人脸特征，并将所述多个人脸特征作为训练样本数据；第二训练模块，用于将所述训练样本数据输入预设对抗网络进行训练，并将训练好的对抗网络和所述初始人脸模型进行训练，得到标准人脸模型。

可选地，在本发明第二方面的第六种实现方式中，所述优化模块包括：计算单元，用于计算所述人脸面部表情参数和预设的真实面部参数之间的损失值；检测单元，用于当检测到所述损失值小于预设的阈值时，将所述3D人脸模型作为初始人脸模型输出；当检测到所述损失值大于或者等于所述预设的人脸阈值时，对所述3D人脸模型的内部参数进行调整，并通过所述3D人脸模型中的双向长短期记忆网络对所述历史音素序列特征向量进行序列变换处理，直到所述损失值小于所述预设的阈值时，得到为初始人脸模型。

本发明第三方面提供了一种虚拟主播生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述虚拟主播生成设备执行上述的虚拟主播生成方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的虚拟主播生成方法的各个步骤。

本发明提供的技术方案中，通过将获取的待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络进行序列变换处理，得到面部表情参数；将面部表情参数输入至循环神经网络模型，得到对应的人脸特征；确定与人脸特征对应的目标虚拟人脸，并确定与人脸特征匹配的目标动作视频；将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。本方案通过对待处理音频进行转换处理，生成音频对应的虚拟主播，解决了传统技术中虚拟主播生成效率较低的技术问题。

附图说明

图1为本发明提供的虚拟主播生成方法的第一个实施例示意图；

图2为本发明提供的虚拟主播生成方法的第二个实施例示意图；

图3为本发明提供的虚拟主播生成方法的第三个实施例示意图；

图4为本发明提供的虚拟主播生成方法的第四个实施例示意图；

图5为本发明提供的虚拟主播生成方法的第五个实施例示意图；

图6为本发明提供的虚拟主播生成装置的第一个实施例示意图；

图7为本发明提供的虚拟主播生成装置的第二个实施例示意图；

图8为本发明提供的虚拟主播生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种虚拟主播生成方法、装置、设备及存储介质，本发明的技术方案中，首先通过将获取的待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络进行序列变换处理，得到面部表情参数；将面部表情参数输入至循环神经网络模型，得到对应的人脸特征；确定与人脸特征对应的目标虚拟人脸，并确定与人脸特征匹配的目标动作视频；将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。本方案通过对待处理音频进行转换处理，生成音频对应的虚拟主播，解决了传统技术中虚拟主播生成效率较低的技术问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中虚拟主播生成方法的第一个实施例包括：

101、获取待处理音频，将待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；

本实施例中，利用文本转换软件对所述待处理音频进行文本转换，得到初始文本，由于所述文本转换软件会根据所述待处理音频中语音的停顿来进行标点符号的标记，故所述初始文本中还包含多个标点符号，为了方便后续将文本拆分成音素，需要去除所述初始文本中的标点符号。

进一步地，根据所述预设的音标规则中字符和音素的一一对应关系对所述标准文本中的每个字符进行标记，得到音素。例如，本申请实施例中所述预设的音标规则为国际音标规则，标记字符“啊”进行对应的音素为a，得到的音素为[a]。

具体地，利用预设的无监督模型对所述音素进行向量化处理，得到音素序列特征向量。

102、将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过双向长短期记忆网络对音素序列特征向量进行序列变换处理，得到面部表情参数；

本实施例中，将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过双向长短期记忆网络对音素序列特征向量进行序列变换处理，得到面部表情参数。

具体地，预设的卷积神经网络模型可以由两个双向LSTM网络(Bi-directionallong Short-Term Memory，双向长短期记忆网络)构成。所述双向长短期记忆网络是一种时间循环神经网络，包括：输入门、遗忘门以及输出门。

具体地，所述利用预设的卷积神经网络模型中的双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数。

103、将面部表情参数输入至预设循环神经网络模型，得到面部表情参数对应的人脸特征；

本实施例中，将面部表情参数输入至预设循环神经网络模型，得到面部表情参数对应的人脸特征。其中，循环神经网络，英文为Recurrent Neural Network，缩写为RNN。

具体地，首先训练预设循环神经网络模型。训练预设循环神经网络模型，是通过录制真人主播的训练视频样本，将训练视频样本中所包含的训练音频样本进行切分，以得到训练音素文本，并将训练音素文本及所述训练视频样本中所包含的训练音素文本所对应的真人主播的形象输入至预设循环神经网络模型，以使循环神经网络模型自动学习训练音素文本与所述训练音素文本所对应的真人主播形象的真人主播的人脸特征之间的关联关系，从而将训练音素文本与真人主播的形象所包含的真人主播的人脸特征进行匹配。

104、确定与人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与人脸特征匹配的目标动作视频；

本实施例中，确定与人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与人脸特征匹配的目标动作视频。其中，在生成虚拟主播时，除了上述需要从预设的人脸素材库中确定与特征信息匹配的目标虚拟人脸之外，还需要从预设的动作视频库中，确定与特征信息匹配的目标动作视频。具体地，

从预设的动作视频库中，确定与特征信息匹配的目标动作视频时，例如，可以先确定特征信息对应的目标服饰类型；并根据目标服饰类型，从预设的动作视频库中确定目标动作视频。在确定出特征信息对应的目标服饰类型后，就可以根据目标服饰类型，从预设的动作视频库中确定目标动作视频。动作视频库中包括多个动作视频之外，还可以包括各动作视频对应的服饰类型，且各服饰类型可以标注在对应的动作视频上。

进一步地，根据目标服饰类型，从预设的动作视频库中确定目标动作视频时，可以包括两种情况，一种情况为：根据目标服饰类型，从预设的动作视频库中，确定目标动作视频类型对应的动作视频，且动作视频的数量为一个时，可以直接将该动作视频确定为目标动作视频。

105、将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。

本实施例中，将所述待处理音频输入至所述标准人脸模型中，得到虚拟主播视频，所述虚拟主播视频中的虚拟主播会说出与所述待处理音频一致的话术。

详细地，所述标准人脸模型在生成的拟真程度上会更逼真，而且嘴型的流畅程度上相较于原始的2D方案会更好，不会存在不同嘴型之间的突变，更接近于真人状态下的嘴型。

具体地，目标动作视频中的人脸图像可以理解为真实的人脸图像，即目标动作视频中的用户的人脸图像。示例的，将目标虚拟人脸与目标动作视频中的人脸图像进行融合时，可以采用人脸融合技术，将目标虚拟人脸与目标动作视频中的人脸图像进行融合，从而生成虚拟主播。

可以看出，本实施例中，在获取虚拟主播时，可以先获取目标对象的人脸特征，并将该目标对象的人脸特征作为虚拟主播生成依据，有针对性地从预设的人脸素材库中确定与人脸特征匹配的目标虚拟人脸，以及从预设的动作视频库中，确定与人脸特征匹配的目标动作视频；再将虚拟人脸与动作视频中的人脸图像进行融合，这样可以有针对地生成目标对象代言场景下的虚拟主播，使得后续可以通过虚拟主播代言目标对象。

本发明实施例中，通过将获取的待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络进行序列变换处理，得到面部表情参数；将面部表情参数输入至循环神经网络模型，得到对应的人脸特征；确定与人脸特征对应的目标虚拟人脸，并确定与人脸特征匹配的目标动作视频；将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。本方案通过对待处理音频进行转换处理，生成音频对应的虚拟主播，解决了传统技术中虚拟主播生成效率较低的技术问题。

请参阅图2，本发明实施例中虚拟主播生成方法的第二个实施例包括：

201、对待处理音频进行文本识别，得到待处理音频对应文本格式的待处理文本；

本实施例中，对待处理音频进行文本识别，得到待处理音频对应文本格式的待处理文本。具体地，利用文本转换软件对所述待处理音频进行文本转换，得到待处理文本，由于所述文本转换软件会根据所述待处理音频中语音的停顿来进行标点符号的标记，故所述待处理文本中还包含多个标点符号，为了方便后续将文本拆分成音素，需要去除所述待处理文本中的标点符号。

202、对待处理文本中的标点符号进行删除，得到标准文本；

本实施例中，对待处理文本中的标点符号进行删除，得到标准文本。具体地，由于所述文本转换软件会根据所述待处理音频中语音的停顿来进行标点符号的标记，故所述待处理文本中还包含多个标点符号，为了方便后续将文本拆分成音素，需要去除所述待处理文本中的标点符号。

203、基于预设音标规则对标准文本进行标记，得到标准文本中的每个字对应的音素；

本实施例中，根据所述预设的音标规则中字符和音素的一一对应关系对所述标准文本中的每个字符进行标记，得到音素。例如，本申请实施例中所述预设的音标规则为国际音标规则，标记字符“啊”进行对应的音素为a，得到的音素为[a]。

204、将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过双向长短期记忆网络对音素序列特征向量进行序列变换处理，得到面部表情参数；

205、将面部表情参数输入至预设循环神经网络模型，得到面部表情参数对应的人脸特征；

206、确定人脸特征对应的目标虚拟人脸类型；

本实施例中，从预设的人脸素材库中确定与人脸特征匹配的目标虚拟人脸，以及从预设的动作视频库中，确定与人脸特征匹配的目标动作视频。其中，人脸素材库中包括多个虚拟人脸。

可以理解的是，从预设的人脸素材库中确定与人脸特征匹配的目标虚拟人脸之前，需要预先建立预设的人脸素材库。示例的，在预先建立人脸素材库时，可以通过人脸生成网络模型创建多个有真实偶像气质的虚拟人脸，并基于该多个有真实偶像气质的虚拟人脸建立预设的人脸素材库。需要说明的是，在获取到新的虚拟人脸时，还可以采用该新的虚拟人脸对预设的人脸素材库进行更新。

207、根据目标虚拟人脸类型，从预设的人脸素材库中确定与人脸特征对应的目标虚拟人脸；

本实施例中，从预设的人脸素材库中确定与特征信息匹配的目标虚拟人脸时，示例的，可以先确定特征信息对应的目标虚拟人脸类型，并根据目标虚拟人脸类型，从预设的人脸素材库中确定目标虚拟人脸。

具体地，虚拟人脸类型可以青春类型、活泼类型、大方类型、庄重类型、美丽类型、帅气类型、阳光类型等，具体可以根据实际需要进行设置，在此，本公开实施例只是以这几种类型为例进行说明，但并不代表本公开实施例仅局限于此。比如，当目标对象为儿童运动鞋，特征信息包括适应人群为儿童，类型为运动类时，对应的目标虚拟人脸类型可以为青春类型，和/或活泼类型等；当目标对象为老年产品时，特征信息包括适应人群为老年人，类型为保健类时，对应的目标虚拟人脸类型可以为大方类型，和/或庄重类型等。

在确定出特征信息对应的目标虚拟人脸类型后，就可以根据目标虚拟人脸类型，从预设的人脸素材库中确定目标虚拟人脸。示例的，人脸素材库中包括多个虚拟人脸之外，还可以包括各虚拟人脸对应的虚拟人脸类型，且各虚拟人脸类型可以标注在对应的虚拟人脸上。具体地，根据目标虚拟人脸类型，从预设的人脸素材库中确定目标虚拟人脸时，可以包括两种情况，一种情况为：根据目标虚拟人脸类型，从预设的人脸素材库中，确定目标虚拟人脸类型对应的虚拟人脸，且虚拟人脸的数量为一个时，可以直接将该虚拟人脸确定为目标虚拟人脸。

208、将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。

本实施例中步骤204-205、208与第一实施例中的步骤102-103、105类似，此处不再赘述。

请参阅图3，本发明实施例中虚拟主播生成方法的第三个实施例包括：

301、获取待处理音频，将待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；

302、将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过双向长短期记忆网络中的输入门计算音素序列特征向量的状态值；

本实施例中，将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过双向长短期记忆网络中的输入门计算音素序列特征向量的状态值。具体地，Bi-LSTM神经网络结构模型分为2个独立的LSTM，输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取，将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。Bi-LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息，实验证明，这种神经网络结构模型对文本特征提取效率和性能要优于单个LSTM结构模型。值得提的是，Bi-LSTM中的2个LSTM神经网络参数是相互独立的，它们只共享word-embedding词向量列表。

303、通过双向长短期记忆网络中的遗忘门计算音素序列特征向量的激活值；

本实施例中，通过双向长短期记忆网络中的遗忘门计算音素序列特征向量的激活值。其中，输入门是用来控制输入i’(t)进出多少或者是否允许进出的门控设备；输出门是用来控制t时刻状态值m(t)对外多少是可见的门控设备；遗忘门是控制RNN中历史状态m(t-1)流动到t时刻后允许多少进入t时刻的门控设备。

具体地，所述遗忘门是指当输入新的信息时，模型若需遗忘旧的信息，此时通过遗忘门来完成。遗忘门是LSTM单元的关键组成部分，可以控制哪些信息要保留、哪些信息要遗忘，并且以某种方式避免梯度随时间反向传播时引发的梯度消失和梯度爆炸的问题。遗忘门决定LSTM从上一时刻的细胞状态图片中丢弃什么信息。该门读取图片和图片，然后通过sigmoid将其映射到0到1之间的数值，最终该数值再与细胞状态图片相乘，来决定图片该丢弃什么信息。当该数值为1时表示完全地保留图片的信息，当该数值为0时表示完全地丢弃图片的信息。

304、根据状态值和激活值计算音素序列特征向量的状态更新值；

本实施例中，根据状态值和激活值计算音素序列特征向量的状态更新值。其中，所述状态值是指作为每一层激活函数f的输入，处于网络层的内部，所以称之为状态值。所述激活值是指状态值经过了激活函数f后的输出，也就是第i层的最终输出。

305、双向长短期记忆网络的输出门计算状态更新值对应的唇型特征序列，并对唇型特征序列进行变换处理，得到得到面部表情参数；

本实施例中，双向长短期记忆网络的输出门计算状态更新值对应的唇型特征序列，并对唇型特征序列进行变换处理，得到得到面部表情参数。具体地，所述输出门是指输出值基于细胞状态，但是会有一个过滤的过程。这里也包括两部分操作：第一部分，由sigmoid组成的“输出门”产生的介于0到1之间的控制信号图片；第二部分，将最终产生的输出信息图片与控制信号图片相乘，得到最终的输出值图片。输出门控制记忆单元图片对当前输出图片的影响，即记忆单元中的哪一部分会在时间步t输出。

具体地，所述输入门用于控制网络当前输入数据图片流入记忆单元的多少，即有多少输入信息可以保存到图片中。输入门包括两部分，第一部分：由sigmoid组成的“输入门”产生的介于0到1之间的控制信号图片，用来控制图片输入的程度；第二部分：通过一个tanh层产生当前时刻的候选细胞状图片，这个值将由图片决定添加到细胞状态中的程度。

306、将面部表情参数输入至预设循环神经网络模型，得到面部表情参数对应的人脸特征；

307、确定与人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与人脸特征匹配的目标动作视频；

308、将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。

本实施例中步骤301、306-308与第一实施例中的步骤101、103-105类似，此处不再赘述。

请参阅图4，本发明实施例中虚拟主播生成方法的第四个实施例包括：

401、获取待处理音频，将待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；

402、将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过双向长短期记忆网络对音素序列特征向量进行序列变换处理，得到面部表情参数；

403、获取预设真人主播所录制的训练视频样本，对训练音频样本进行音素切分，以得到训练音素文本；

本实施例中，音素(英文为Phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。具体地，根据获取的训练视频样本生成音频后，对所述音频进行切分且对齐，从而得到所述训练视频样本所对应的音素文本，后续根据所述音素文本构建虚拟人脸，并将虚拟人脸与音频一起作为虚拟视频播放时，所述音素文本对应虚拟视频中的每帧。

具体地，采用预设真人主播所对应的训练视频样本训练所述预设循环神经网络模型。采用预设真人主播所对应的训练视频样本训练所述预设循环神经网络模型时，录制预设真人主播所对应的训练视频样本，可以录制预设时间段内的预设真人主播所对应的训练视频样本，要求所述预设真人主播正面脸录制、露出全脸，录制时可以进行补光及采用麦克风录音，例如，可以录制2个小时至3个小时时长的训练视频样本即能满足本实施例中对预设循环神经网络模型的训练要求，所述训练视频样本包括训练音频样本及所述预设真人主播的形象，将所述训练音频样本进行音素切分，以得到训练音素文本。

404、从预设真人主播的形象中提取训练音素文本所对应的训练真人主播的面部表情参数，并根据面部表情参数，确定真人主播的人脸特征；

本实施例中，从预设真人主播的形象中提取训练音素文本所对应的训练真人主播的面部表情参数，并根据面部表情参数，确定真人主播的人脸特征。具体地，从所述训练视频样本中提取所述训练音素文本所对应的训练真人主播的人脸特征，例如，可以提取人脸的3DMM特征(即3Dmax的Morph(变形)，3D可变形模型)，其中，每一个音素对应视频的每一视频帧。

将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对预设循环神经网络模型进行训练，例如将上述所获取的音素文本，做Embedding，得到预设循环神经网络模型的输入向量，再使用预先提取的3DMM共150维特征，作为预设循环神经网络模型的Label。

405、将训练音素文本及训练真人主播的人脸特征输入预设循环神经网络模型，以对预设循环神经网络模型进行训练，得到人脸特征识别模型；

本实施例中，将训练音素文本及训练真人主播的人脸特征输入预设循环神经网络模型，以对预设循环神经网络模型进行训练，得到人脸特征识别模型。具体地，对预设循环神经网络模型进行训练包括以下两个过程：1)前向传播时：Embedding特征向量经过两层双向RNN，得到150维特征Predict。2)反向传播时：根据Predict和Label计算MSE/MAE/L1/L2等Loss，反向更新进行梯度更新。后续使用预设循环神经网络模型构建虚拟人脸时，只需输入音素文本(假设长度为N)，根据上述的前向传播过程，即可得到Ppredict的N*150维3DMM特征，分别对应视频N帧的每一帧，用于后续虚拟主播中每一帧的人脸重建，进而得到完整连续的虚拟主播视频。

406、将面部表情参数输入至预设循环神经网络模型，得到面部表情参数对应的人脸特征；

407、确定与人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与人脸特征匹配的目标动作视频；

408、将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。

本实施例中步骤401-402、406-408与第一实施例中的步骤101-102、103-105类似，此处不再赘述。

请参阅图5，本发明实施例中虚拟主播生成方法的第五个实施例包括：

501、获取待处理音频，将待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；

502、将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过双向长短期记忆网络对音素序列特征向量进行序列变换处理，得到面部表情参数；

503、将面部表情参数输入至预设循环神经网络模型，得到面部表情参数对应的人脸特征；

504、确定与人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与人脸特征匹配的目标动作视频；

505、获取历史音频数据，将历史音频数据进行预处理，得到历史音素序列特征向量；

本实施例中，所述历史音频数据是指虚拟主播视频中的虚拟主播所说话术对应的语音音频，所述音素是指根据语音的发音动作所划分出来的最小语音单位，例如，音频“啊”的音素为(ā)，“爱”的音素为(ài)，“代”的音素为(dài)等。

因为语音音频的音频特征分布差异较大，例如男声，女声，不同年龄人群的声音特征分布差异区别较大，而不同的音频特征对后续的模型处理都会造成不同的影响。本申请将所述历史音频数据拆分成音素，可以避免受到音频特征带来的影响。

506、对历史音素序列特征向量进行变换处理，得到人脸面部表情参数；

本实施例中，利用预设的3D人脸模型中的双向长短期记忆网络对所述历史音素序列特征向量进行第一序列变换处理，得到嘴型特征序列，并对所述嘴型特征序列进行第二序列变换处理，得到人脸面部表情参数。

本实施例中，所述预设的3D人脸模型可以由两个双向LSTM网络(Bi-directionallong Short-Term Memory，双向长短期记忆网络)构成。所述双向长短期记忆网络是一种时间循环神经网络，包括：输入门、遗忘门以及输出门。

507、计算人脸面部表情参数和预设的真实面部参数之间的损失值；

本实施例中，计算人脸面部表情参数和预设的真实面部参数之间的损失值。具体地，计算所述人脸面部表情参数和预设的真实面部参数之间的损失值；在所述损失值小于预设的人脸阈值时，将所述3D人脸模型作为初始人脸模型输出；

在所述损失值大于或者等于所述预设的人脸阈值时，对所述3D人脸模型的内部参数进行调整，并返回利用预设的3D人脸模型中的双向长短期记忆网络对所述音素序列特征向量进行第一序列变换处理的步骤，直到所述损失值小于所述预设的人脸阈值时，输出为初始人脸模型。其中，所述内部参数可以为模型的梯度参数或者权重参数。

508、当检测到损失值小于预设的阈值时，将3D人脸模型作为初始人脸模型输出；

本实施例中，计算所述人脸面部表情参数和预设的真实面部参数之间的损失值；在所述损失值小于预设的人脸阈值时，将所述3D人脸模型作为初始人脸模型输出。

509、当检测到损失值大于或者等于预设的人脸阈值时，对3D人脸模型的内部参数进行调整，并通过3D人脸模型中的双向长短期记忆网络对历史音素序列特征向量进行序列变换处理，直到损失值小于预设的阈值时，得到为初始人脸模型；

本实施例中，在所述损失值大于或者等于所述预设的人脸阈值时，对所述3D人脸模型的内部参数进行调整，并返回利用预设的3D人脸模型中的双向长短期记忆网络对所述音素序列特征向量进行第一序列变换处理的步骤，直到所述损失值小于所述预设的人脸阈值时，输出为初始人脸模型。其中，所述内部参数可以为模型的梯度参数或者权重参数。

510、根据人脸面部表情参数得到人脸面部图像，对人脸面部图像进行特征提取，得到人脸面部图像中携带的多个人脸特征，并将多个人脸特征作为训练样本数据；

本实施例中，将所述人脸面部表情参数映射至预设的坐标轴上，得到人脸面部图像，所述光流信息是指所述人脸面部图像上的光照信息，所述人脸特征集是指通过arcface人脸网络对所述人脸面部图像进行特征提取得到的数据集。

本实施例中，将训练样本数据输入预设对抗网络进行训练，并将训练好的对抗网络和初始人脸模型进行训练，得到标准人脸模型。具体地，所述利用所述训练数据集对预设的对抗网络进行训练，得到训练好的对抗网络，包括：获取所述对抗网络中的生成器和判别器，并初始化所述生成器和所述判别器的参数；将所述训练数据集输入至所述生成器中，得到人脸输出参数集；利用所述判别器对所述人脸输出参数集进行判别处理，得到判别标签；利用预设的交叉熵损失函数计算所述判别标签和预设的真实标签之间的交叉熵损失值；在所述交叉熵损失值大于或者等于预设的判别阈值时，对所述生成器的参数进行调整更新，并返回将所述训练数据集输入至所述生成器中的步骤，直到所述交叉熵损失值小于所述预设的判别阈值时，得到训练好的对抗网络。其中，所述对抗网络(GAN，GenerativeAdversarial Networks)是一种深度学习模型，所述生成器是对输入的数据集进行处理生成满足要求数据的机器，所述判别器是判断所述生成器生成的数据与预先设定的真实数据之间差异性的机器，所述对抗网络根据所述生成器和所述判别器之间的互相博弈学习，产生更优异的输出数据。

511、将训练样本数据输入预设对抗网络进行训练，并将训练好的对抗网络和初始人脸模型进行训练，得到标准人脸模型。

本实施例中，所述对抗网络(GAN，Generative Adversarial Networks)是一种深度学习模型，所述生成器是对输入的数据集进行处理生成满足要求数据的机器，所述判别器是判断所述生成器生成的数据与预先设定的真实数据之间差异性的机器，所述对抗网络根据所述生成器和所述判别器之间的互相博弈学习，产生更优异的输出数据。利用所述训练好的对抗网络对所述初始人脸模型进行对抗训练，令所述初始人脸模型为所述对抗网络中的判别器来进行训练，进而得到满足条件的生成器作为标准人脸模型。

本实施例中步骤501-504与第一实施例中的101-104类似，此处不再赘述。

在本发明实施例中，通过将获取的待处理音频拆分成音素，并对音素进行向量化处理，得到待处理音频的音素序列特征向量；将音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络进行序列变换处理，得到面部表情参数；将面部表情参数输入至循环神经网络模型，得到对应的人脸特征；确定与人脸特征对应的目标虚拟人脸，并确定与人脸特征匹配的目标动作视频；将目标虚拟人脸和目标动作视频输入至预设人脸模型中，生成待处理音频对应的虚拟主播。本方案通过对待处理音频进行转换处理，生成音频对应的虚拟主播，解决了传统技术中虚拟主播生成效率较低的技术问题。

上面对本发明实施例中虚拟主播生成方法进行了描述，下面对本发明实施例中虚拟主播生成装置进行描述，请参阅图6，本发明实施例中虚拟主播生成装置的第一个实施例包括：

向量化模块601，用于获取待处理音频，将所述待处理音频拆分成音素，并对所述音素进行向量化处理，得到所述待处理音频的音素序列特征向量；

序列变换模块602，用于将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数；

输入模块603，用于将所述面部表情参数输入至预设循环神经网络模型，得到所述面部表情参数对应的人脸特征；

确定模块604，用于确定与所述人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与所述人脸特征匹配的目标动作视频；

生成模块605，用于将所述目标虚拟人脸和所述目标动作视频输入至预设人脸模型中，生成所述待处理音频对应的虚拟主播。

请参阅图7，本发明实施例中虚拟主播生成装置的第二个实施例，该虚拟主播生成装置具体包括：

本实施例中，所述向量化模块601具体用于：

对所述待处理音频进行文本识别，得到所述待处理音频对应文本格式的待处理文本；

对所述待处理文本中的标点符号进行删除，得到标准文本；

基于预设音标规则对所述标准文本进行标记，得到所述标准文本中的每个字对应的音素。

本实施例中，所述序列变换模块602具体用于：

将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络中的输入门计算所述音素序列特征向量的状态值；

通过所述双向长短期记忆网络中的遗忘门计算所述音素序列特征向量的激活值；

根据所述状态值和所述激活值计算所述音素序列特征向量的状态更新值；

所述双向长短期记忆网络的输出门计算所述状态更新值对应的唇型特征序列，并对所述唇型特征序列进行变换处理，得到得到面部表情参数。

本实施例中，所述虚拟主播生成装置还包括：

切分模块606，用于获取预设真人主播所录制的训练视频样本，对所述训练音频样本进行音素切分，以得到训练音素文本；

第一特征提取模块607，用于从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的面部表情参数，并根据所述面部表情参数，确定所述真人主播的人脸特征；

第一训练模块608，用于将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对所述预设循环神经网络模型进行训练，得到人脸特征识别模型。

本实施例中，所述确定模块604具体用于：

确定所述人脸特征对应的目标虚拟人脸类型；

根据所述目标虚拟人脸类型，从所述预设的人脸素材库中确定与所述人脸特征对应的目标虚拟人脸。

本实施例中，所述虚拟主播生成装置还包括：

预处理模块609，用于获取历史音频数据，将所述历史音频数据进行预处理，得到历史音素序列特征向量；对所述历史音素序列特征向量进行变换处理，得到人脸面部表情参数；

优化模块610，用于将所述人脸面部表情参数输入预设3D人脸模型进行迭代优化，得到初始人脸模型；

第二特征提取模块611，用于根据所述人脸面部表情参数得到人脸面部图像，对所述人脸面部图像进行特征提取，得到所述人脸面部图像中携带的多个人脸特征，并将所述多个人脸特征作为训练样本数据；

第二训练模块612，用于将所述训练样本数据输入预设对抗网络进行训练，并将训练好的对抗网络和所述初始人脸模型进行训练，得到标准人脸模型。

本实施例中，所述优化模块610包括：

计算单元6101，用于计算所述人脸面部表情参数和预设的真实面部参数之间的损失值；

检测单元6102，用于当检测到所述损失值小于预设的阈值时，将所述3D人脸模型作为初始人脸模型输出；当检测到所述损失值大于或者等于所述预设的人脸阈值时，对所述3D人脸模型的内部参数进行调整，并通过所述3D人脸模型中的双向长短期记忆网络对所述历史音素序列特征向量进行序列变换处理，直到所述损失值小于所述预设的阈值时，得到为初始人脸模型。

上面图6和图7从模块化功能实体的角度对本发明实施例中的虚拟主播生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中虚拟主播生成设备进行详细描述。

图8是本发明实施例提供的一种虚拟主播生成设备的结构示意图，该虚拟主播生成设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对虚拟主播生成设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在虚拟主播生成设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的虚拟主播生成方法的步骤。

虚拟主播生成设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的虚拟主播生成设备结构并不构成对本申请提供的虚拟主播生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述虚拟主播生成方法的步骤。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟主播生成方法，其特征在于，所述虚拟主播生成方法包括：

获取待处理音频，将所述待处理音频拆分成音素，并对所述音素进行向量化处理，得到所述待处理音频的音素序列特征向量；

将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数；

将所述面部表情参数输入至预设循环神经网络模型，得到所述面部表情参数对应的人脸特征；

确定与所述人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与所述人脸特征匹配的目标动作视频；

将所述目标虚拟人脸和所述目标动作视频输入至预设人脸模型中，生成所述待处理音频对应的虚拟主播。

2.根据权利要求1所述的虚拟主播生成方法，其特征在于，所述获取待处理音频，将所述待处理音频拆分成音素，包括：

对所述待处理文本中的标点符号进行删除，得到标准文本；

3.根据权利要求1所述的虚拟主播生成方法，其特征在于，所述将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数，包括：

4.根据权利要求1-3中任一项所述的虚拟主播生成方法，其特征在于，在所述将所述面部表情参数输入至预设循环神经网络模型，得到所述面部表情参数对应的人脸特征之前，还包括：

获取预设真人主播所录制的训练视频样本，对所述训练音频样本进行音素切分，以得到训练音素文本；

从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的面部表情参数，并根据所述面部表情参数，确定所述真人主播的人脸特征；

将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对所述预设循环神经网络模型进行训练，得到人脸特征识别模型。

5.根据权利要求4所述的虚拟主播生成方法，其特征在于，所述确定与所述人脸特征对应的目标虚拟人脸，包括：

确定所述人脸特征对应的目标虚拟人脸类型；

6.根据权利要求1所述的虚拟主播生成方法，其特征在于，在所述将所述目标虚拟人脸和所述目标动作视频输入至预设人脸模型中，生成所述待处理音频对应的虚拟主播之前，还包括：

获取历史音频数据，将所述历史音频数据进行预处理，得到历史音素序列特征向量；

对所述历史音素序列特征向量进行变换处理，得到人脸面部表情参数；

将所述人脸面部表情参数输入预设3D人脸模型进行迭代优化，得到初始人脸模型；

根据所述人脸面部表情参数得到人脸面部图像，对所述人脸面部图像进行特征提取，得到所述人脸面部图像中携带的多个人脸特征，并将所述多个人脸特征作为训练样本数据；

将所述训练样本数据输入预设对抗网络进行训练，并将训练好的对抗网络和所述初始人脸模型进行训练，得到标准人脸模型。

7.根据权利要求6所述的虚拟主播生成方法，其特征在于，所述将所述人脸面部表情参数输入预设3D人脸模型进行迭代优化，得到初始人脸模型包括：

计算所述人脸面部表情参数和预设的真实面部参数之间的损失值；

当检测到所述损失值小于预设的阈值时，将所述3D人脸模型作为初始人脸模型输出；

当检测到所述损失值大于或者等于所述预设的人脸阈值时，对所述3D人脸模型的内部参数进行调整，并通过所述3D人脸模型中的双向长短期记忆网络对所述历史音素序列特征向量进行序列变换处理，直到所述损失值小于所述预设的阈值时，得到为初始人脸模型。

8.一种虚拟主播生成装置，其特征在于，所述虚拟主播生成装置包括：

向量化模块，用于获取待处理音频，将所述待处理音频拆分成音素，并对所述音素进行向量化处理，得到所述待处理音频的音素序列特征向量；

序列变换模块，用于将所述音素序列特征向量输入预设卷积神经网络模型的双向长短期记忆网络，通过所述双向长短期记忆网络对所述音素序列特征向量进行序列变换处理，得到面部表情参数；

输入模块，用于将所述面部表情参数输入至预设循环神经网络模型，得到所述面部表情参数对应的人脸特征；

确定模块，用于确定与所述人脸特征对应的目标虚拟人脸，并从预设的动作视频库中，确定与所述人脸特征匹配的目标动作视频；

生成模块，用于将所述目标虚拟人脸和所述目标动作视频输入至预设人脸模型中，生成所述待处理音频对应的虚拟主播。

9.一种虚拟主播生成设备，其特征在于，所述虚拟主播生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述虚拟主播生成设备执行如权利要求1-7中任一项所述的虚拟主播生成方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的虚拟主播生成方法的各个步骤。