CN115018988A

CN115018988A - 虚拟形象视频流生成方法、装置、设备及存储介质

Info

Publication number: CN115018988A
Application number: CN202210693119.6A
Authority: CN
Inventors: 胡停雨
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-06

Abstract

本申请涉及人工智能技术领域，揭示了一种虚拟形象视频流生成方法、装置、设备及存储介质，其中方法包括：获取目标句子；对所述目标句子进行分词处理，得到目标短语集；将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。从而实现了基于句子的文本内容生成虚拟形象视频流，使虚拟形象与语音段对应，增加了客户真实感。

Description

虚拟形象视频流生成方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种虚拟形象视频流生成方法、装置、设备及存储介质。

背景技术

近年来，受益于人工智能和互联网的快速发展，基于人工智能的客户服务得到广泛应用。目前基于人工智能的客户服务的研究集中在话术的生成，对于生成的话术采用语音播报。为了提高客户真实感，在语音播报配套虚拟形象进行客服服务时，虚拟形象与语音播报的内容关联度不大，导致增加的客户真实感的有限，降低了用户体验。

发明内容

本申请的主要目的为提供一种虚拟形象视频流生成方法、装置、设备及存储介质，旨在解决目前在语音播报配套虚拟形象进行客服服务时，虚拟形象与语音播报的内容关联度不大，导致增加的客户真实感的有限的技术问题。

为了实现上述发明目的，本申请提出一种虚拟形象视频流生成方法，所述方法包括：

获取目标句子；

对所述目标句子进行分词处理，得到目标短语集；

将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；

将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；

根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。

进一步的，所述将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集的步骤，包括：

将各个所述目标语音段中的任一个所述目标语音段作为待处理语音段；

将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，作为目标三维建模参数；

将所述目标三维建模参数输入所述三维图像生成模型的三维图像建模单元进行虚拟形象三维图像生成，作为所述目标虚拟形象三维图像集。

进一步的，所述将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，作为目标三维建模参数的步骤之前，还包括：

获取多个训练样本和初始模型，其中，各个所述训练样本中的每个所述训练样本包括：语音段样本、人体三维图像标定值和三维建模参数标定值，将所述语音段样本和所述人体三维图像标定值作为第一样本的模型输入数据，将所述三维建模参数标定值作为所述第一样本的预测标签，将所述语音段样本作为第二样本的所述模型输入数据，所述人体三维图像标定值作为所述第二样本的所述预测标签；

采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，得到预训练生成模型；

获取预训练判别器；

采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型。

进一步的，所述采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，得到预训练生成模型的步骤，包括：

将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本；

将所述第一目标样本的所述模型输入数据输入所述三维建模参数初始单元分别进行图像隐向量的提取、语音隐向量的提取及隐向量之间的隐式映射关系学习，得到第一预测数据；

根据所述第一预测数据和所述第一目标样本的所述预测标签进行损失值计算，得到目标损失值；

根据所述目标损失值更新所述三维建模参数初始单元的网络参数；

重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤，直至达到预设的第一模型训练结束条件；

将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元；

将所述三维建模参数预训练单元和所述初始模型的所述三维图像建模单元作为所述预训练生成模型。

进一步的，各个所述第一样本是预设的训练分布，所述将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元的步骤，包括：

将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为待验证单元；

获取多个验证样本集，其中，各个所述验证样本集是多种不同的未知分布；

采用每个所述验证样本集，对所述待验证单元进行准确率计算，以形成待分析准确率；

对各个所述待分析准确率进行方差计算，以形成待分析方差；

判断所述待分析方差是否最小化；

若否，则重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤；

若是，则将所述待验证单元作为所述三维建模参数预训练单元。

进一步的，所述采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型的步骤，包括：

将各个所述训练样本对应的各个所述第二样本中的任一个所述第二样本作为第二目标样本；

将所述第二目标样本的所述模型输入数据输入所述预训练生成模型的所述三维建模参数预训练单元分别进行图像隐向量的提取、语音隐向量的提取及隐向量之间的隐式映射关系学习，得到初始预测数据；

将所述初始预测数据输入所述预训练生成模型的所述三维图像建模单元进行虚拟形象三维图像生成，得到第二预测数据；

将所述第二预测数据和所述第二目标样本的所述预测标签输入所述预训练判别器进行真实性判别，得到判别结果；

根据所述判别结果对所述三维建模参数预训练单元进行网络参数更新；

重复执行所述将各个所述训练样本对应的各个所述第二样本中的任一个所述第二样本作为第二目标样本的步骤，直至达到预设的第二模型训练结束条件；

将达到所述第二模型训练结束条件的所述预训练生成模型作为所述三维图像生成模型。

进一步的，所述目标虚拟形象三维图像集中包括提示板，所述根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流的步骤，包括：

获取所述目标句子对应的操作提示文字；

将所述操作提示文字添加到每个所述目标虚拟形象三维图像集的所述提示板中，以形成待组合三维图像集；

将所述待组合三维图像集对应的所述目标短语，从所述目标句子中确定排列序号；

将各个所述待组合三维图像集，按照所述排列序号进行正序排序；

将各个所述目标语音段，按照所述排列序号进行正序排序；

将排序后的各个所述目标语音段和排序后的各个所述待组合三维图像集组合成视频流，得到所述目标句子对应的所述目标虚拟形象视频流。

本申请还提出了一种虚拟形象视频流生成装置，所述装置包括：

数据获取模块，用于获取目标句子；

目标短语集确定模块，用于对所述目标句子进行分词处理，得到目标短语集；

目标语音段确定模块，用于将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；

目标虚拟形象三维图像集确定模块，用于将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；

目标虚拟形象视频流确定模块，用于根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的虚拟形象视频流生成方法、装置、设备及存储介质，其中方法通过对所述目标句子进行分词处理，得到目标短语集；将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。通过将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集，使目标虚拟形象三维图像集与目标短语对应；而且通过根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流，从而实现了基于句子的文本内容生成虚拟形象视频流，使虚拟形象与语音段对应，增加了客户真实感，提高了用户体验。

附图说明

图1为本申请一实施例的虚拟形象视频流生成方法的流程示意图；

图2为本申请一实施例的虚拟形象视频流生成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种虚拟形象视频流生成方法，所述方法包括：

S1：获取目标句子；

S2：对所述目标句子进行分词处理，得到目标短语集；

S3：将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；

S4：将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；

S5：根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。

本实施例通过将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集，使目标虚拟形象三维图像集与目标短语对应；而且通过根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流，从而实现了基于句子的文本内容生成虚拟形象视频流，使虚拟形象与语音段对应，增加了客户真实感，提高了用户体验。

对于S1，可以获取用户输入的目标句子，也可以从数据库中获取目标句子，还可以从第三方软件应用中获取目标句子。

目标句子，是需要进行虚拟形象视频流生成的句子。目标句子是一句话对应的文本。

对于S2，对所述目标句子进行分词处理，将分词处理得到的各个目标短语作为目标短语集。

对于S3，基于ASR(自动语音识别技术)，将所述目标短语集中的每个目标短语转换成语音，将针对一个目标短语转换得到的语音作为一个目标语音段。

对于S4，将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，将针对一个所述目标语音段生成的各个虚拟形象三维图像作为目标虚拟形象三维图像集。

所述三维图像生成模型是基于卷积神经网络训练得到的模型。

可以理解的是，目标虚拟形象三维图像集中包括一个或多个虚拟形象三维图像。目标虚拟形象三维图像集中的各个虚拟形象三维图像是等时间间隔分布的。目标虚拟形象三维图像集中的各个所述虚拟形象三维图像组合成的视频片段是发出所述目标语音段对应的语音的虚拟形象流。

对于S5，根据目标短语集中的各个目标短语在所述目标句子中的位置数据，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，将生成的虚拟形象视频流作为所述目标句子对应的目标虚拟形象视频流。也就是说，各个所述目标语音段作为目标虚拟形象视频流中的语音，将各个所述目标虚拟形象三维图像集作为目标虚拟形象视频流中的图像。

其中，将所述目标虚拟形象三维图像集对应的所述目标短语，从所述目标句子中确定排列序号；将各个所述目标虚拟形象三维图像集，按照所述排列序号进行正序排序；将各个所述目标语音段，按照所述排列序号进行正序排序；将排序后的各个所述目标语音段和排序后的各个所述目标虚拟形象三维图像集组合成视频流，得到所述目标句子对应的所述目标虚拟形象视频流。

可选的，所述目标虚拟形象视频流中的虚拟形象的脸部表情(主要是嘴唇的变化)与目标句子对应。

可选的，所述目标虚拟形象视频流中的虚拟形象的脸部表情与人体动作与目标句子对应。

在一个实施例中，上述将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集的步骤，包括：

S41：将各个所述目标语音段中的任一个所述目标语音段作为待处理语音段；

S42：将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，作为目标三维建模参数；

S43：将所述目标三维建模参数输入所述三维图像生成模型的三维图像建模单元进行虚拟形象三维图像生成，作为所述目标虚拟形象三维图像集。

本实施例先对所述目标语音段进行三维建模参数的预测，然后基于预测的三维建模参数进行虚拟形象三维图像生成，从而使虚拟形象三维图像与目标语音段对应，为构造虚拟形象与语音段对应的虚拟形象视频流提供了基础。

对于S42，三维建模参数，是构建人体三维图像需要的参数。

将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，将预测得到的三维建模参数作为所述待处理语音段对应的所述目标三维建模参数。

对于S43，将所述目标三维建模参数输入所述三维图像生成模型的三维图像建模单元进行虚拟形象三维图像生成，将针对同一个所述目标语音段生成的各个虚拟形象三维图像作为所述目标虚拟形象三维图像集。

三维图像建模单元是基于Unity3D引擎得到的单元。Unity3D引擎，一般指Unity。Unity是实时3D互动内容创作和运营平台。

可以理解的是，目标虚拟形象三维图像集中的虚拟形象三维图像可以是整个人体的三维图像，也可以是人脸的三维图像。

在一个实施例中，上述将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，作为目标三维建模参数的步骤之前，还包括：

S421：获取多个训练样本和初始模型，其中，各个所述训练样本中的每个所述训练样本包括：语音段样本、人体三维图像标定值和三维建模参数标定值，将所述语音段样本和所述人体三维图像标定值作为第一样本的模型输入数据，将所述三维建模参数标定值作为所述第一样本的预测标签，将所述语音段样本作为第二样本的所述模型输入数据，所述人体三维图像标定值作为所述第二样本的所述预测标签；

S422：采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，得到预训练生成模型；

S423：获取预训练判别器；

S424：采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型。

本实施例先对三维建模参数初始单元进行训练，提高了模型预测的准确性，缩短了生成对抗训练的时间；对所述预训练生成模型和所述预训练判别器进行生成对抗训练，进一步提高了模型预测的准确性；而且将所述语音段样本和所述人体三维图像标定值作为第一样本的模型输入数据，将所述三维建模参数标定值作为所述第一样本的预测标签，将所述语音段样本作为第二样本的所述模型输入数据，所述人体三维图像标定值作为所述第二样本的所述预测标签，使三维建模参数初始单元的训练和生成对抗训练是基于范围的训练样本进行训练，从而提高了模型的准确性。

对于S421，可以获取用户输入的多个训练样本和初始模型，也可以从数据库中获取多个训练样本和初始模型，还可以从第三方软件应用中获取多个训练样本和初始模型。

可选的，所述初始模型是基于卷积神经网络得到的模型。

语音段样本，是将一个短语转换得到的语音。

人体三维图像标定值，是语音段样本对应的人体三维图像的准确结果。可以理解的是每个训练样本中的人体三维图像标定值的数量可以为一个或多个。

三维建模参数标定值，是语音段样本对应的人体三维图像的建模参数的准确结果。可以理解的是每个训练样本中的三维建模参数标定值的数量可以为一个或多个。

对于S422，采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，以实现更新所述初始模型的三维建模参数初始单元中的网络参数，将训练结束的所述初始模型作为预训练生成模型。

对于S423，可以获取用户输入的预训练判别器，也可以从数据库中获取预训练判别器，还可以从第三方软件应用中获取预训练判别器。

预训练判别器，是预先训练好的用于三维图像对比判断的判别器。预训练判别器是基于卷积神经网络得到的模型。

对于S424，采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，以实现更新所述初始模型的三维建模参数初始单元中的网络参数，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型。

在一个实施例中，上述采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，得到预训练生成模型的步骤，包括：

S4221：将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本；

S4222：将所述第一目标样本的所述模型输入数据输入所述三维建模参数初始单元分别进行图像隐向量的提取、语音隐向量的提取及隐向量之间的隐式映射关系学习，得到第一预测数据；

S4223：根据所述第一预测数据和所述第一目标样本的所述预测标签进行损失值计算，得到目标损失值；

S4224：根据所述目标损失值更新所述三维建模参数初始单元的网络参数；

S4225：重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤，直至达到预设的第一模型训练结束条件；

S4226：将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元；

S4227：将所述三维建模参数预训练单元和所述初始模型的所述三维图像建模单元作为所述预训练生成模型。

本实施例通过图像隐向量的提取、语音隐向量的提取及隐向量之间的隐式映射关系学习，从而训练了三维建模参数初始单元提取三维建模参数的能力。

对于S4222，将所述第一目标样本的所述模型输入数据输入所述三维建模参数初始单元，其中，所述三维建模参数初始单元首先对所述第一目标样本的所述模型输入数据中的语音段样本进行语音隐向量的提取，以及对所述第一目标样本的所述模型输入数据中的人体三维图像标定值进行图像隐向量的提取，然后对提取的图像隐向量和语音隐向量之间的隐式映射关系学习，将学习到的隐式映射关系作为第一预测数据。

对于S4223，将所述第一预测数据和所述第一目标样本的所述预测标签输入预设的第一损失函数进行损失值计算，将计算得到的损失值作为目标损失值。

可选的，所述第一损失函数采用交叉熵损失函数。

对于S4224，根据所述目标损失值更新所述三维建模参数初始单元的网络参数的步骤在此不做赘述。

更新之后的所述三维建模参数初始单元将用于下一次计算所述第一预测数据。

对于S4225，重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤，也就是重复执行步骤S4221至步骤S4225，直至达到预设的第一模型训练结束条件。当达到预设的第一模型训练结束条件时，停止执行步骤S4221至步骤S4225，开始执行步骤S4226。

可选的，所述第一模型训练结束条件为所述目标损失值收敛于预设数值。

对于S4226，达到所述第一模型训练结束条件的所述三维建模参数初始单元是达到预训练要求的单元，因此，将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元。

对于S4227，将所述三维建模参数预训练单元和所述初始模型的所述三维图像建模单元作为所述预训练生成模型，从而得到了能准确生成三维图像的模型。

在一个实施例中，上述各个所述第一样本是预设的训练分布，所述将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元的步骤，包括：

S42261：将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为待验证单元；

S42262：获取多个验证样本集，其中，各个所述验证样本集是多种不同的未知分布；

S42263：采用每个所述验证样本集，对所述待验证单元进行准确率计算，以形成待分析准确率；

S42264：对各个所述待分析准确率进行方差计算，以形成待分析方差；

S42265：判断所述待分析方差是否最小化；

S42266：若否，则重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤；

S42267：若是，则将所述待验证单元作为所述三维建模参数预训练单元。

本实施例的各个所述第一样本是预设的训练分布，各个所述验证样本集是多种不同的未知分布，采用各个所述验证样本集对所述待验证单元进行准确率计算，以各个准确率的方差的最小化为验证目标，从而结合机器学习与因果推断关联框架，帮助机器学习达到稳定、可解释、可回溯的目的，进一步提高了模型的准确性。

对于S42262，可以获取用户输入的多个验证样本集，也可以从数据库中获取多个验证样本集，还可以从第三方软件应用中获取多个验证样本集。

验证样本包括：语音段样本、人体三维图像标定值和三维建模参数标定值。

各个所述验证样本集是多种不同的未知分布，从而为因果推断提供了基础。

可以理解的是，每个所述验证样本集中的模型输入(也就是语音段样本、人体三维图像标定值)的分布是一种或多种未知分布。

各个所述第一样本是预设的训练分布，也就是说，各个所述第一样本中的模型输入数据的分布与训练分布相同。训练分布是已知分布。

可选的，所述训练分布为高斯分布。

对于S42263，采用每个所述验证样本集，对所述待验证单元进行预测的准确率计算，将计算得到的每个准确率作为一个待分析准确率。

对于S42264，对各个所述待分析准确率进行方差计算，将计算得到的方差作为待分析方差。

对于S42265，将此次迭代计算的待分析方差作为第i个方差，判断第i个方差是否小于第i-1个方差，并且，第i个方差是否小于第i-2个方差，若均为是，则确定所述待分析方差是最小化，否则，确定所述待分析方差不是最小化。

对于S42266，若否，也就是所述待分析方差不是最小化，此时意味着机器学习未达到稳定，因此，重复执行所述将各个所述训练样本对应的各个所述第一样本中的任一个所述第一样本作为第一目标样本的步骤，也就是重复执行步骤S4221至步骤S4226，以实现重复进行机器学习。

对于S42267，若是，也就是所述待分析方差是最小化，此时意味着机器学习达到稳定，因此，直接将将所述待验证单元作为所述三维建模参数预训练单元。

在一个实施例中，上述采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型的步骤，包括：

S4241：将各个所述训练样本对应的各个所述第二样本中的任一个所述第二样本作为第二目标样本；

S4242：将所述第二目标样本的所述模型输入数据输入所述预训练生成模型的所述三维建模参数预训练单元分别进行图像隐向量的提取、语音隐向量的提取及隐向量之间的隐式映射关系学习，得到初始预测数据；

S4243：将所述初始预测数据输入所述预训练生成模型的所述三维图像建模单元进行虚拟形象三维图像生成，得到第二预测数据；

S4244：将所述第二预测数据和所述第二目标样本的所述预测标签输入所述预训练判别器进行真实性判别，得到判别结果；

S4245：根据所述判别结果对所述三维建模参数预训练单元进行网络参数更新；

S4246：重复执行所述将各个所述训练样本对应的各个所述第二样本中的任一个所述第二样本作为第二目标样本的步骤，直至达到预设的第二模型训练结束条件；

S4247：将达到所述第二模型训练结束条件的所述预训练生成模型作为所述三维图像生成模型。

本实施例通过对所述预训练生成模型和所述预训练判别器进行生成对抗训练，并且在生成对抗训练的过程中更新三维建模参数预训练单元的网络参数，有利于进一步提升三维建模参数预训练单元的预测的准确性。

对于S4242，将所述第二目标样本的所述模型输入数据输入所述预训练生成模型的所述三维建模参数预训练单元，其中，所述三维建模参数预训练单元首先对所述第二目标样本的所述模型输入数据中的语音段样本进行语音隐向量的提取，以及对所述第二目标样本的所述模型输入数据中的人体三维图像标定值进行图像隐向量的提取，然后对提取的图像隐向量和语音隐向量之间的隐式映射关系学习，将学习到的隐式映射关系作为初始预测数据。

对于S4243，将所述初始预测数据输入所述预训练生成模型的所述三维图像建模单元进行虚拟形象三维图像生成，将生成的虚拟形象三维图像作为第二预测数据。

对于S4244，将所述第二预测数据和所述第二目标样本的所述预测标签输入所述预训练判别器进行真实性判别，得到判别结果。

对于S4245，根据所述判别结果对所述三维建模参数预训练单元进行网络参数更新的方法在此不做赘述。从而实现对判别器(也就是所述预训练判别器)的网络参数进行固定，对生成器(所述预训练生成模型中的所述三维建模参数预训练单元)的网络参数进行更新。

对于S4246，重复执行所述将各个所述训练样本对应的各个所述第二样本中的任一个所述第二样本作为第二目标样本的步骤，也就是重复执行S4241至步骤S4246，直至达到预设的第二模型训练结束条件。当达到预设的第二模型训练结束条件时，意味着已经达到了生成对抗训练的预期结果，因此停止执行S4241至步骤S4246，开始执行步骤S4247。

第二模型训练结束条件，也就是生成对抗训练的结束条件。

对于S4247，达到所述第二模型训练结束条件的所述预训练生成模型是已经达到了生成对抗训练的预期结果的模型，因此，将达到所述第二模型训练结束条件的所述预训练生成模型作为所述三维图像生成模型。

在一个实施例中，上述目标虚拟形象三维图像集中包括提示板，所述根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流的步骤，包括：

S51：获取所述目标句子对应的操作提示文字；

S52：将所述操作提示文字添加到每个所述目标虚拟形象三维图像集的所述提示板中，以形成待组合三维图像集；

S53：将所述待组合三维图像集对应的所述目标短语，从所述目标句子中确定排列序号；

S54：将各个所述待组合三维图像集，按照所述排列序号进行正序排序；

S55：将各个所述目标语音段，按照所述排列序号进行正序排序；

S56：将排序后的各个所述目标语音段和排序后的各个所述待组合三维图像集组合成视频流，得到所述目标句子对应的所述目标虚拟形象视频流。

本实施例通过将所述目标句子对应的操作提示文字添加到每个所述目标虚拟形象三维图像集的所述提示板中，然后基于所述目标句子中的排列序号进行正序排序的各个所述待组合三维图像集及各个所述目标语音段组合成视频流，从而使提示板中的文本与视频流中的语音及虚拟形象表述的文本对应，增加了客户真实感，提高了用户体验。

对于S51，可以获取用户输入的所述目标句子对应的操作提示文字，也可以从数据库中获取所述目标句子对应的操作提示文字，还可以从第三方软件应用中获取所述目标句子对应的操作提示文字。

操作提示文字，是将所述目标句子添加到预设模板中，将添加了所述目标句子的预设模板作为操作提示文字。

对于S52，采用预设的格式，将所述操作提示文字添加到每个所述目标虚拟形象三维图像集的所述提示板中，将添加了所述操作提示文字的每个所述目标虚拟形象三维图像集作为一个所述待组合三维图像集。

对于S53，将所述待组合三维图像集对应的所述目标短语在所述目标句子对应的各个短语中确定排列序号(短语的排列序号)，作为该所述待组合三维图像集的排列序号。

对于S54，将各个所述待组合三维图像集，按照所述排列序号进行正序排序，从而使各个所述待组合三维图像集的排列与所述目标句子对应的短语流程对应。

对于S55，将各个所述目标语音段，按照所述排列序号进行正序排序，从而使各个所述目标语音段的排列与所述目标句子对应的短语流程对应。

对于S56，将相同的所述排列序号的所述目标语音段和所述待组合三维图像集组合成视频片段，将各个视频片段按照所述排列序号进行拼接，将拼接得到的视频流作为所述目标句子对应的所述目标虚拟形象视频流。

参照图2，本申请还提出了一种虚拟形象视频流生成装置，所述装置包括：

数据获取模块100，用于获取目标句子；

目标短语集确定模块200，用于对所述目标句子进行分词处理，得到目标短语集；

目标语音段确定模块300，用于将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；

目标虚拟形象三维图像集确定模块400，用于将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；

目标虚拟形象视频流确定模块500，用于根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存虚拟形象视频流生成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种虚拟形象视频流生成方法。所述虚拟形象视频流生成方法，包括：获取目标句子；对所述目标句子进行分词处理，得到目标短语集；将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种虚拟形象视频流生成方法，包括步骤：获取目标句子；对所述目标句子进行分词处理，得到目标短语集；将所述目标短语集中的每个目标短语转换成语音，得到目标语音段；将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集；根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流。

上述执行的虚拟形象视频流生成方法，通过将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集，使目标虚拟形象三维图像集与目标短语对应；而且通过根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流，从而实现了基于句子的文本内容生成虚拟形象视频流，使虚拟形象与语音段对应，增加了客户真实感，提高了用户体验。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种虚拟形象视频流生成方法，其特征在于，所述方法包括：

获取目标句子；

对所述目标句子进行分词处理，得到目标短语集；

2.根据权利要求1所述的虚拟形象视频流生成方法，其特征在于，所述将每个所述目标语音段输入预设的三维图像生成模型进行虚拟形象三维图像生成，作为目标虚拟形象三维图像集的步骤，包括：

3.根据权利要求2所述的虚拟形象视频流生成方法，其特征在于，所述将所述待处理语音段输入所述三维图像生成模型的三维建模参数预测单元进行三维建模参数的预测，作为目标三维建模参数的步骤之前，还包括：

获取预训练判别器；

4.根据权利要求3所述的虚拟形象视频流生成方法，其特征在于，所述采用各个所述训练样本对应的各个所述第一样本，对所述初始模型的三维建模参数初始单元进行训练，得到预训练生成模型的步骤，包括：

5.根据权利要求4所述的虚拟形象视频流生成方法，其特征在于，各个所述第一样本是预设的训练分布，所述将达到所述第一模型训练结束条件的所述三维建模参数初始单元作为三维建模参数预训练单元的步骤，包括：

判断所述待分析方差是否最小化；

6.根据权利要求4所述的虚拟形象视频流生成方法，其特征在于，所述采用各个所述训练样本对应的各个所述第二样本，对所述预训练生成模型和所述预训练判别器进行生成对抗训练，将完成生成对抗训练的所述预训练生成模型作为所述三维图像生成模型的步骤，包括：

7.根据权利要求1所述的虚拟形象视频流生成方法，其特征在于，所述目标虚拟形象三维图像集中包括提示板，所述根据所述目标句子，对各个所述目标语音段和各个所述目标虚拟形象三维图像集进行虚拟形象视频流生成，作为所述目标句子对应的目标虚拟形象视频流的步骤，包括：

获取所述目标句子对应的操作提示文字；

将各个所述目标语音段，按照所述排列序号进行正序排序；

8.一种虚拟形象视频流生成装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标句子；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。