CN117576982B

CN117576982B - 一种基于ChatGPT的口语训练方法、装置、电子设备及介质

Info

Publication number: CN117576982B
Application number: CN202410057758.2A
Authority: CN
Inventors: 阎志民
Original assignee: Qingdao Pennon Education Technology Co ltd
Current assignee: Qingdao Pennon Education Technology Co ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-04-02
Anticipated expiration: 2044-01-16
Also published as: CN117576982A

Abstract

本申请涉及数据处理的技术领域，尤其涉及一种基于ChatGPT的口语训练方法、装置、电子设备及介质，该方法包括：获取用户训练需求以及历史训练数据，创建第一训练模型，将用户训练需求输入至第一训练模型中进行训练，得到训练输出信息，创建第二训练模型，将训练输出信息输入至第二训练模型中进行输出审核，得到输出反馈信息，判断输出反馈信息是否满足预设反馈需求，若不满足，确定二级训练口语数据以及二级训练虚拟场景，对第一训练模型进行增幅交互训练，得到第三训练模型，将用户训练需求输入至第三训练模型中进行训练，生成用户训练需求的口语训练结果，将口语训练结果返回至用户终端。本申请提高了用户对口语学习的学习效率。

Description

一种基于ChatGPT的口语训练方法、装置、电子设备及介质

技术领域

本申请涉及数据处理的技术领域，尤其是涉及一种基于ChatGPT的口语训练方法、装置、电子设备及介质。

背景技术

使用家教机进行针对课本的英语对话练习，需要提前选好一个或多个对话场景，过程中只能根据课文内容的顺序来进行练习。如果想要选取其他对话场景的话，需要结束本次练习后重新选择场景，然后再次开始一轮对话练习。增加了操作成本，缺少了生活中真实对话场景的灵活性和趣味性，不符合用户对智能设备快捷、便利的需求。

发明内容

为了解决上述中的至少一项技术问题，本申请提供一种基于ChatGPT的口语训练方法、装置、设备和介质。

第一方面，本申请提供一种基于ChatGPT的口语训练方法，采用如下的技术方案：获取用户训练需求以及历史训练数据，所述用户训练需求包括口语训练任务的一级训练口语数据和一级训练虚拟场景，所述历史训练数据用于表示在预设历史周期内所有的用户训练需求对应的训练反馈数据；

基于ChatGPT以及所述口语训练任务创建第一训练模型，并将所述用户训练需求输入至所述第一训练模型中进行训练，得到训练输出信息；

根据所述历史训练数据创建第二训练模型，并将所述训练输出信息输入至所述第二训练模型中进行输出审核，得到输出反馈信息；

判断所述输出反馈信息是否满足预设反馈需求，若不满足，则根据基于所述口语训练任务、所述一级训练口语数据以及所述一级训练虚拟场景确定二级训练口语数据以及二级训练虚拟场景，并将所述二级训练口语数据以及所述二级训练虚拟场景作为训练数据对所述第一训练模型进行增幅交互训练，得到第三训练模型，所述二级训练口语数据为所述口语训练任务在执行过程中所产生的增强口语数据，所述二级训练虚拟场景为与所述二级训练口语数据相适配的虚拟场景；

将所述用户训练需求输入至所述第三训练模型中进行训练，生成所述用户训练需求的口语训练结果，并将所述口语训练结果返回至用户终端。

在一种可能实现的方式中，所述所述将所述用户训练需求输入至所述第三训练模型中进行训练，生成所述用户训练需求的口语训练结果，之后还包括：

根据所述口语训练任务过程中产生的信息生成训练集；

基于所述训练集对所述第三训练模型进行阶段性再训练，使所述第三训练模型优化所述口语训练任务相关的知识结构。

在一种可能实现的方式中，所述方法还包括：

采集训练图像数据，所述训练图像数据包括与所述口语训练任务相对应的口语训练结果以及与所述口语训练结果对应的目标图像，所述目标图像为输出所述口语训练结果的虚拟人物图像；

对所述口语训练结果进行特征提取，得到对应的音频样本特征；

基于所述目标图像提取人脸关键点数据和面部遮挡区域的人脸图片；

通过所述音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征；

将所述音频特征输入至预设的第二神经网络中的音频编码网络，得到音频编码特征；

将所述人脸关键点数据和所述人脸图片输入所述第二神经网络中的图像编码网络，得到人脸关键点编码特征和图像编码特征；

将所述人脸关键点编码特征、所述图像编码特征与所述音频编码特征进行拼接，得到拼接特征；

将所述拼接特征输入至所述第二神经网络模型中的解码网络，得到与所述音频特征对应的预测人脸图片；

将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频特征对应的数字人模型，并将所述数字人模型返回至用户终端。

在一种可能实现的方式中，所述基于所述目标图像提取人脸关键点数据和面部遮挡区域的人脸图片，包括：

通过人脸识别库识别所述原始图片，设定目标圆心和长短轴对所述原始图片绘制椭圆并将所述原始图片中的衣领区域切除、裁剪头部区域，获得裁剪图片；

通过人脸识别库检测所述裁剪图片中的所述人脸关键点数据，并将脸颊和下巴的所述人脸关键点连接绘制成一个封闭区域，将所述封闭区域填充为黑色，得到所述面部遮挡区域的人脸图片。

在一种可能实现的方式中，所述通过所述音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征，包括：

将所述音频样本特征对应的音频特征输入到所述预设的第一神经网络模型；

提取所述音频特征对应的Fbank音频特征；

通过所述第一神经网络模型中的编码器和解码器对所述Fbank音频特征依次进行编码和解码，得到通过所述第一神经网络模型训练后的音频特征。

在一种可能实现的方式中，所述将所述拼接特征输入至所述第二神经网络模型中的解码网络，得到与所述音频特征对应的预测人脸图片，之后还包括：

获取真实人脸图片，所述真实人脸图片为与所述预测人脸图片对应的真实人脸图片；

将所述真实人脸图片与所述预测人脸图片进行绝对差值比对，评价所述预测人脸图片中数字人的准确度；

计算所述第二神经网络模型中判别器的输出和标签的平方差，判别所述预测人脸图片中数字人的真实程度；

基于所述准确度以及所述真实程度对所述预测人脸图片进行评测，得到所述预测人脸图片的评测分值。

在一种可能实现的方式中，所述通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频特征对应的数字人模型，之后还包括：

创建初始VR模型，并获取与所述初始VR模型对应的初始顶点架构及类型标签，所述类型标签包括弹性模型和柔性模型；

根据所述数字人模型的定位数据及姿态数据，检测所述数字人模型在VR场景中的映射模型；

将所述映射模型按预设标准触碰所述初始VR模型，读取当前触碰的所述初始VR模型的类型标签；

当所述初始VR模型的类型标签为所述柔性模型，则根据预设的规则将该VR模型的初始顶点架构更新为柔性顶点架构；

当所述初始VR模型的类型标签为所述弹性模型，则保留初始顶点架构；

根据所述初始VR模型的所述柔性定顶点构架/初始顶点构架以及所述数字人模型的动作计算所述初始VR模型的动态效果；

基于所述动态效果对所述初始VR模型进行更新，得到用于VR设备应用的应用VR模型。

第二方面，本申请提供一种基于ChatGPT的口语训练装置，采用如下的技术方案：

一种基于ChatGPT的口语训练装置，包括：

数据获取模块，用于获取用户训练需求以及历史训练数据，所述用户训练需求包括口语训练任务的一级训练口语数据和一级训练虚拟场景，所述历史训练数据用于表示在预设历史周期内所有的用户训练需求对应的训练反馈数据；

第一模型创建模块，用于基于ChatGPT以及所述口语训练任务创建第一训练模型，并将所述用户训练需求输入至所述第一训练模型中进行训练，得到训练输出信息；

第二模型创建模块，用于根据所述历史训练数据创建第二训练模型，并将所述训练输出信息输入至所述第二训练模型中进行输出审核，得到输出反馈信息；

需求判断模块，用于判断所述输出反馈信息是否满足预设反馈需求，若不满足，则根据基于所述口语训练任务、所述一级训练口语数据以及所述一级训练虚拟场景确定二级训练口语数据以及二级训练虚拟场景，并将所述二级训练口语数据以及所述二级训练虚拟场景作为训练数据对所述第一训练模型进行增幅交互训练，得到第三训练模型，所述二级训练口语数据为所述口语训练任务在执行过程中所产生的增强口语数据，所述二级训练虚拟场景为与所述二级训练口语数据相适配的虚拟场景；

口语生成模块，用于将所述用户训练需求输入至所述第三训练模型中进行训练，生成所述用户训练需求的口语训练结果，并将所述口语训练结果返回至用户终端。

在一种可能的实现方式中，所述装置还包括：集合生成模块以及模型优化模块，其中，

所述集合生成模块，用于根据所述口语训练任务过程中产生的信息生成训练集；

所述模型优化模块，用于基于所述训练集对所述第三训练模型进行阶段性再训练，使所述第三训练模型优化所述口语训练任务相关的知识结构。

在另一种可能的实现方式中，所述装置还包括：数据采集模块、特征提取模块、数据提取模块、第一训练模块、第二训练模块、图像编码模块、特征拼接模块、第三训练模块以及模型生成模块，其中，

所述数据采集模块，用于采集训练图像数据，所述训练图像数据包括与所述口语训练任务相对应的口语训练结果以及与所述口语训练结果对应的目标图像，所述目标图像为输出所述口语训练结果的虚拟人物图像；

所述特征提取模块，用于对所述口语训练结果进行特征提取，得到对应的音频样本特征；

所述数据提取模块，用于基于所述目标图像提取人脸关键点数据和面部遮挡区域的人脸图片；

所述第一训练模块，用于通过所述音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征；

所述第二训练模块，用于将所述音频特征输入至预设的第二神经网络中的音频编码网络，得到音频编码特征；

所述图像编码模块，用于将所述人脸关键点数据和所述人脸图片输入所述第二神经网络中的图像编码网络，得到人脸关键点编码特征和图像编码特征；

特征拼接模块，用于将所述人脸关键点编码特征、所述图像编码特征与所述音频编码特征进行拼接，得到拼接特征；

第三训练模块，用于将所述拼接特征输入至所述第二神经网络模型中的解码网络，得到与所述音频特征对应的预测人脸图片；

模型生成模块，用于将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频特征对应的数字人模型，并将所述数字人模型返回至用户终端。

在另一种可能的实现方式中，所述数据提取模块在基于所述目标图像提取人脸关键点数据和面部遮挡区域的人脸图片时，具体用于：

在另一种可能的实现方式中，所述第一训练模块在通过所述音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征时，具体用于：

提取所述音频特征对应的Fbank音频特征；

在另一种可能的实现方式中，所述装置还包括：图片获取模块、差值比对模块、程度判别模块以及图片评测模块，其中，

所述图片获取模块，用于获取真实人脸图片，所述真实人脸图片为与所述预测人脸图片对应的真实人脸图片；

所述差值比对模块，用于将所述真实人脸图片与所述预测人脸图片进行绝对差值比对，评价所述预测人脸图片中数字人的准确度；

所述程度判别模块，用于计算所述第二神经网络模型中判别器的输出和标签的平方差，判别所述预测人脸图片中数字人的真实程度；

所述图片评测模块，用于基于所述准确度以及所述真实程度对所述预测人脸图片进行评测，得到所述预测人脸图片的评测分值。

在另一种可能的实现方式中，所述装置还包括：第三模型创建模块、映射确定模块、标签读取模块、第一顶点更新模块、第二顶点更新模块、效果计算模块以及模型更新模块，其中，

第三模型创建模块，用于创建初始VR模型，并获取与所述初始VR模型对应的初始顶点架构及类型标签，所述类型标签包括弹性模型和柔性模型；

所述映射确定模块，用于根据所述数字人模型的定位数据及姿态数据，检测所述数字人模型在VR场景中的映射模型；

所述标签读取模块，用于将所述映射模型按预设标准触碰所述初始VR模型时，读取当前触碰的所述初始VR模型的类型标签；

所述第一顶点更新模块，用于当所述初始VR模型的类型标签为所述柔性模型，则根据预设的规则将该VR模型的初始顶点架构更新为柔性顶点架构；

所述第二顶点更新模块，用于当所述初始VR模型的类型标签为所述弹性模型，则保留初始顶点架构；

所述效果计算模块，用于根据所述初始VR模型的所述柔性定顶点构架/初始顶点构架以及所述数字人模型的动作计算所述初始VR模型的动态效果；

所述模型更新模块，用于基于所述动态效果对所述初始VR模型进行更新，得到用于VR设备应用的应用VR模型。

第三面，本申请提供一种电子设备，采用如下的技术方案：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行如第一方面任一项所述的一种基于ChatGPT的口语训练方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行如第一方面任一项所述基于ChatGPT的口语训练方法。

综上所述，本申请包括以下至少一种有益技术效果：

在用户通过终端设备进行口语学习时，获取用户训练需求以及历史训练数据，所述用户训练需求包括口语训练任务的一级训练口语数据和一级训练虚拟场景，所述历史训练数据用于表示在预设历史周期内所有的用户训练需求对应的训练反馈数据，然后基于ChatGPT以及所述口语训练任务创建第一训练模型，并将所述用户训练需求输入至所述第一训练模型中进行训练，得到训练输出信息，其中，口语训练任务具体为教会用户如何学习这一段口语，然后根据所述历史训练数据创建第二训练模型，并将所述训练输出信息输入至所述第二训练模型中进行输出审核，得到输出反馈信息，然后判断所述输出反馈信息是否满足预设反馈需求，若不满足，则根据基于所述口语训练任务、所述一级训练口语数据以及所述一级训练虚拟场景确定二级训练口语数据以及二级训练虚拟场景，并将所述二级训练口语数据以及所述二级训练虚拟场景作为训练数据对所述第一训练模型进行增幅交互训练，得到第三训练模型，所述二级训练口语数据为所述口语训练任务在执行过程中所产生的增强口语数据，所述二级训练虚拟场景为与所述二级训练口语数据相适配的虚拟场景，从而在英语口语训练的过程中，当孩子对某个口语训练任务理解有难度时，此时就会产生新的数据以及场景，去帮助孩子去理解，即第二训练口语数据、第二训练虚拟场景，将所述用户训练需求输入至所述第三训练模型中进行训练，生成所述用户训练需求的口语训练结果，并将所述口语训练结果返回至用户终端，用户根据用户终端设备显示的口语训练结果进行口语学习，有助于提高用户对口语学习的学习效率。

附图说明

图1为本申请实施例提供的一种基于ChatGPT的口语训练方法的流程示意图。

图2为本申请实施例提供的一种基于ChatGPT的口语训练装置的结构示意图。

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图1-3对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

本申请实施例提供了一种基于ChatGPT的口语训练方法的方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图1所示，该方法包括：

步骤S10、获取用户训练需求以及历史训练数据。

其中，用户训练需求包括口语训练任务的一级训练口语数据和一级训练虚拟场景，历史训练数据用于表示在预设历史周期内所有的用户训练需求对应的训练反馈数据。

对于本申请实施例，一级训练口语数据为口语训练任务中原本所包含的训练口语数据，例如：当口语训练任务为教会用户学习口语第一章口语内容，那么一级训练口语数据即为口语第一章的口语数据。同样的，一级训练虚拟场景为与一级训练口语数据相对应的场景，针对于一级训练口语数据的口语对话，设计与之相匹配的场景，例如：在公园、书店以及学校等等。

在本申请实施例，根据用户训练需求可以采取不同的方式获取一级训练口语数据。这些数据可以是已有的公开数据集，也可以是通过专门的录制、采集或者合成生成的数据。针对口语训练任务，可以设计虚拟场景，以模拟实际语言使用的场景。虚拟场景可以包括不同的情境、对话场景、角色扮演等，以帮助用户进行实际口语训练。虚拟场景可以通过场景建模、场景生成等方法来创建。历史训练数据可以是在预设历史周期内所有用户训练需求对应的训练反馈数据。这些数据可以包括用户的练习记录、评估结果、学习进展等。历史训练数据可以通过用户反馈、系统记录等方式来收集。这些数据可以帮助了解用户的学习情况、训练效果等，以便进行进一步的分析和优化。

步骤S11、基于ChatGPT以及口语训练任务创建第一训练模型，并将用户训练需求输入至第一训练模型中进行训练，得到训练输出信息。

具体地，准备口语训练数据，包括已有的教育材料、教程、教学视频等，在此不做限定。从而确保数据的质量和多样性，以便模型能够学习到丰富的口语训练知识。然后选择基于ChatGPT的模型作为第一训练模型。使用准备好的口语训练数据和所选的ChatGPT模型，进行模型微调。将口语训练数据输入模型，让模型学习到相关的语言知识和训练任务的特定要求。微调过程可以使用深度学习框架，如TensorFlow、PyTorch等来实现。在训练完成后，将用户训练需求输入到微调好的模型中，得到训练输出的信息。输入用户训练需求时，可以通过构造合适的输入格式，将用户需求转化为模型能够理解的输入。

步骤S12，根据历史训练数据创建第二训练模型，并将训练输出信息输入至第二训练模型中进行输出审核，得到输出反馈信息。

在本申请实施例中，第二训练模型为神经网络模型。

步骤S13、判断输出反馈信息是否满足预设反馈需求，若不满足，则根据基于口语训练任务、一级训练口语数据以及一级训练虚拟场景确定二级训练口语数据以及二级训练虚拟场景，并将二级训练口语数据以及二级训练虚拟场景作为训练数据对第一训练模型进行增幅交互训练，得到第三训练模型，二级训练口语数据为口语训练任务在执行过程中所产生的增强口语数据，二级训练虚拟场景为与二级训练口语数据相适配的虚拟场景。

具体地，在英语口语训练的过程中，当用户对某个口语训练任务理解有难度时，此时就会产生新的数据以及场景，去帮助孩子去理解，即第二训练口语数据、第二训练虚拟场景。

步骤S14，将用户训练需求输入至第三训练模型中进行训练，生成用户训练需求的口语训练结果，并将口语训练结果返回至用户终端。

基于上述实施例，在用户通过终端设备进行口语学习时，获取用户训练需求以及历史训练数据，用户训练需求包括口语训练任务的一级训练口语数据和一级训练虚拟场景，历史训练数据用于表示在预设历史周期内所有的用户训练需求对应的训练反馈数据，然后基于ChatGPT以及口语训练任务创建第一训练模型，并将用户训练需求输入至第一训练模型中进行训练，得到训练输出信息，其中，口语训练任务具体为教会用户如何学习这一段口语，然后根据历史训练数据创建第二训练模型，并将训练输出信息输入至第二训练模型中进行输出审核，得到输出反馈信息，然后判断输出反馈信息是否满足预设反馈需求，若不满足，则根据基于口语训练任务、一级训练口语数据以及一级训练虚拟场景确定二级训练口语数据以及二级训练虚拟场景，并将二级训练口语数据以及二级训练虚拟场景作为训练数据对第一训练模型进行增幅交互训练，得到第三训练模型，二级训练口语数据为口语训练任务在执行过程中所产生的增强口语数据，二级训练虚拟场景为与二级训练口语数据相适配的虚拟场景，从而在英语口语训练的过程中，当孩子对某个口语训练任务理解有难度时，此时就会产生新的数据以及场景，去帮助孩子去理解，即第二训练口语数据、第二训练虚拟场景，将用户训练需求输入至第三训练模型中进行训练，生成用户训练需求的口语训练结果，并将口语训练结果返回至用户终端，用户根据用户终端设备显示的口语训练结果进行口语学习，有助于提高用户对口语学习的学习效率。

在本申请实施例中的一种可能的实现方式，将用户训练需求输入至第三训练模型中进行训练，生成用户训练需求的口语训练结果，之后还包括：根据口语训练任务过程中产生的信息生成训练集，基于训练集对第三训练模型进行阶段性再训练，使第三训练模型优化口语训练任务相关的知识结构。

在本申请实施例中的一种可能的实现方式，方法还包括：采集训练图像数据，训练图像数据包括与口语训练任务相对应的口语训练结果以及与口语训练结果对应的目标图像，目标图像为输出口语训练结果的虚拟人物图像，对口语训练结果进行特征提取，得到对应的音频样本特征，基于目标图像提取人脸关键点数据和面部遮挡区域的人脸图片，通过音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征，将音频特征输入至预设的第二神经网络中的音频编码网络，得到音频编码特征，将人脸关键点数据和人脸图片输入第二神经网络中的图像编码网络，得到人脸关键点编码特征和图像编码特征，将人脸关键点编码特征、图像编码特征与音频编码特征进行拼接，得到拼接特征，将拼接特征输入至第二神经网络模型中的解码网络，得到与音频特征对应的预测人脸图片，将生成的预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将预测人脸图片与原模板图片融合，将融合后的预测人脸图片合成与音频特征对应的数字人模型，并将数字人模型返回至用户终端。

在本申请实施例中的一种可能的实现方式，基于目标图像提取人脸关键点数据和面部遮挡区域的人脸图片，包括：通过人脸识别库识别原始图片，设定目标圆心和长短轴对原始图片绘制椭圆并将原始图片中的衣领区域切除、裁剪头部区域，获得裁剪图片，通过人脸识别库检测裁剪图片中的人脸关键点数据，并将脸颊和下巴的人脸关键点连接绘制成一个封闭区域，将封闭区域填充为黑色，得到面部遮挡区域的人脸图片。

具体地，裁切人脸之后对人脸图片进行操作以获取裁剪图片，此处图片宽度记为x，图片长度记为y，以(x/2，y/2-175)为圆心，以(x/2+25，y)作为长短轴长度绘制椭圆，将衣领区域切除，这样做的目的为去除衣领的影响，只考虑人脸部信息，同时这样训练出来的模型能适应不同的衣服，增加模型的通用性。剪切出来裁剪图片之后，对裁剪图片进行操作获取人脸图片，本申请提供的数字人生成模型学习根据语音信息生成面部和嘴形内容。在本实施例中，需要将嘴部区域遮住作为模型的输入，为了能更准确的遮住嘴部区域，根据dlib检测的人脸关键点数据绘制人脸区域，将脸颊和下巴的人脸关键点进行连接绘绘制成一个封闭区域，然后将区域填充为黑色，完成人脸图片的生成。

在本申请实施例中的一种可能的实现方式，通过音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征，包括：将音频样本特征对应的音频特征输入到预设的第一神经网络模型，提取音频特征对应的Fbank音频特征，通过第一神经网络模型中的编码器和解码器对Fbank音频特征依次进行编码和解码，得到通过第一神经网络模型训练后的音频特征。

在本申请实施例中的一种可能的实现方式，将拼接特征输入至第二神经网络模型中的解码网络，得到与音频特征对应的预测人脸图片，之后还包括：获取真实人脸图片，真实人脸图片为与预测人脸图片对应的真实人脸图片，将真实人脸图片与预测人脸图片进行绝对差值比对，评价预测人脸图片中数字人的准确度，计算第二神经网络模型中判别器的输出和标签的平方差，判别预测人脸图片中数字人的真实程度，基于准确度以及真实程度对预测人脸图片进行评测，得到预测人脸图片的评测分值。

在本申请实施例中的一种可能的实现方式，通过融合技术将预测人脸图片与原模板图片融合，将融合后的预测人脸图片合成与音频特征对应的数字人模型，之后还包括：创建初始VR模型，并获取与初始VR模型对应的初始顶点架构及类型标签，类型标签包括弹性模型和柔性模型，根据数字人模型的定位数据及姿态数据，检测数字人模型在VR场景中的映射模型，将映射模型按预设标准触碰初始VR模型时，读取当前触碰的初始VR模型的类型标签。当初始VR模型的类型标签为柔性模型，则根据预设的规则将该VR模型的初始顶点架构更新为柔性顶点架构，当初始VR模型的类型标签为弹性模型，则保留初始顶点架构，根据初始VR模型的柔性定顶点构架/初始顶点构架以及数字人模型的动作计算初始VR模型的动态效果，基于动态效果对初始VR模型进行更新，得到用于VR设备应用的应用VR模型。

具体地，在调用VR场景所需的VR模型前，例如在设计VR模型数据库时，先对VR场景中的VR模型进行分类，一类是弹性模型，在响应触碰操作时，可以实现基本形变动作，例如拉伸、压缩及弯曲；另一类是柔性模型，其根据触碰操作可实现折叠、弯曲或凹陷响应。但无论是哪一类，先为其加载具有最少顶点数量的初始顶点架构或其他可以满足基本触碰响应且所需运算量小的初始顶点架构。可以理解的是，VR模型的类型标签与3D模型被关联地存储在数据库中。通常若数字人模型的映射模型与不特定的VR模型之间的为零，则判断为接触，但限于不用的设备精度，或者操作动态响应的不同要求，也可以设定接近零的触碰准算标准，例如2厘米的距离，或2厘米的干涉等。读取到标签时，即可视为完成了判断。具体地，在判断为触碰到时，通过当前3D模型的参数，例如该3D模型的名称，可以检索与该3D模型关联的类型标签从而完成类型标签的读取。

下面对本申请实施例提供的一种基于ChatGPT的口语训练装置进行介绍，下文描述的基于ChatGPT的口语训练装置与上文描述的基于ChatGPT的口语训练方法可相互对应参照，请参考图2，图2是本申请实施例提供的一种基于ChatGPT的口语训练装置20的结构示意图，包括：

数据获取模块21，用于获取用户训练需求以及历史训练数据，用户训练需求包括口语训练任务的一级训练口语数据和一级训练虚拟场景，历史训练数据用于表示在预设历史周期内所有的用户训练需求对应的训练反馈数据；

第一模型创建模块22，用于基于ChatGPT以及口语训练任务创建第一训练模型，并将用户训练需求输入至第一训练模型中进行训练，得到训练输出信息；

第二模型创建模块23，用于根据历史训练数据创建第二训练模型，并将训练输出信息输入至第二训练模型中进行输出审核，得到输出反馈信息；

需求判断模块24，用于判断输出反馈信息是否满足预设反馈需求，若不满足，则根据基于口语训练任务、一级训练口语数据以及一级训练虚拟场景确定二级训练口语数据以及二级训练虚拟场景，并将二级训练口语数据以及二级训练虚拟场景作为训练数据对第一训练模型进行增幅交互训练，得到第三训练模型，二级训练口语数据为口语训练任务在执行过程中所产生的增强口语数据，二级训练虚拟场景为与二级训练口语数据相适配的虚拟场景；

口语生成模块25，用于将用户训练需求输入至第三训练模型中进行训练，生成用户训练需求的口语训练结果，并将口语训练结果返回至用户终端。

本申请实施例中的一种可能的实现方式，装置20还包括：集合生成模块以及模型优化模块，其中，

集合生成模块，用于根据口语训练任务过程中产生的信息生成训练集；

模型优化模块，用于基于训练集对第三训练模型进行阶段性再训练，使第三训练模型优化口语训练任务相关的知识结构。

本申请实施例中的另一种可能的实现方式，装置20还包括：数据采集模块、特征提取模块、数据提取模块、第一训练模块、第二训练模块、图像编码模块、特征拼接模块、第三训练模块以及模型生成模块，其中，

数据采集模块，用于采集训练图像数据，训练图像数据包括与口语训练任务相对应的口语训练结果以及与口语训练结果对应的目标图像，目标图像为输出口语训练结果的虚拟人物图像；

特征提取模块，用于对口语训练结果进行特征提取，得到对应的音频样本特征；

数据提取模块，用于基于目标图像提取人脸关键点数据和面部遮挡区域的人脸图片；

第一训练模块，用于通过音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征；

第二训练模块，用于将音频特征输入至预设的第二神经网络中的音频编码网络，得到音频编码特征；

图像编码模块，用于将人脸关键点数据和人脸图片输入第二神经网络中的图像编码网络，得到人脸关键点编码特征和图像编码特征；

特征拼接模块，用于将人脸关键点编码特征、图像编码特征与音频编码特征进行拼接，得到拼接特征；

第三训练模块，用于将拼接特征输入至第二神经网络模型中的解码网络，得到与音频特征对应的预测人脸图片；

模型生成模块，用于将生成的预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将预测人脸图片与原模板图片融合，将融合后的预测人脸图片合成与音频特征对应的数字人模型，并将数字人模型返回至用户终端。

本申请实施例中的另一种可能的实现方式，数据提取模块在基于目标图像提取人脸关键点数据和面部遮挡区域的人脸图片时，具体用于：

通过人脸识别库识别原始图片，设定目标圆心和长短轴对原始图片绘制椭圆并将原始图片中的衣领区域切除、裁剪头部区域，获得裁剪图片；

通过人脸识别库检测裁剪图片中的人脸关键点数据，并将脸颊和下巴的人脸关键点连接绘制成一个封闭区域，将封闭区域填充为黑色，得到面部遮挡区域的人脸图片。

本申请实施例中的另一种可能的实现方式，第一训练模块在通过音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征时，具体用于：

将音频样本特征对应的音频特征输入到预设的第一神经网络模型；

提取音频特征对应的Fbank音频特征；

通过第一神经网络模型中的编码器和解码器对Fbank音频特征依次进行编码和解码，得到通过第一神经网络模型训练后的音频特征。

本申请实施例中的另一种可能的实现方式，装置20还包括：图片获取模块、差值比对模块、程度判别模块以及图片评测模块，其中，

图片获取模块，用于获取真实人脸图片，真实人脸图片为与预测人脸图片对应的真实人脸图片；

差值比对模块，用于将真实人脸图片与预测人脸图片进行绝对差值比对，评价预测人脸图片中数字人的准确度；

程度判别模块，用于计算第二神经网络模型中判别器的输出和标签的平方差，判别预测人脸图片中数字人的真实程度；

图片评测模块，用于基于准确度以及真实程度对预测人脸图片进行评测，得到预测人脸图片的评测分值。

本申请实施例中的另一种可能的实现方式，装置20还包括：第三模型创建模块、映射确定模块、标签读取模块、第一顶点更新模块、第二顶点更新模块、效果计算模块以及模型更新模块，其中，

第三模型创建模块，用于创建初始VR模型，并获取与初始VR模型对应的初始顶点架构及类型标签，类型标签包括弹性模型和柔性模型；

映射确定模块，用于根据数字人模型的定位数据及姿态数据，检测数字人模型在VR场景中的映射模型；

标签读取模块，用于将映射模型按预设标准触碰初始VR模型时，读取当前触碰的初始VR模型的类型标签；

第一顶点更新模块，用于当初始VR模型的类型标签为柔性模型，则根据预设的规则将该VR模型的初始顶点架构更新为柔性顶点架构；

第二顶点更新模块，用于当初始VR模型的类型标签为弹性模型，则保留初始顶点架构；

效果计算模块，用于根据初始VR模型的柔性定顶点构架/初始顶点构架以及数字人模型的动作计算初始VR模型的动态效果；

模型更新模块，用于基于动态效果对初始VR模型进行更新，得到用于VR设备应用的应用VR模型。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的电子设备与上文描述的基于ChatGPT的口语训练方法可相互对应参照。

本申请实施例提供了一种电子设备，如图3所示，图3为本申请实施例提供的一种电子设备的结构示意图，图3所示的电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（CentralProcessingUnit，中央处理器），通用处理器，DSP（DigitalSignalProcessor，数据信号处理器），ASIC（ApplicationSpecificIntegratedCircuit，专用集成电路），FPGA（FieldProgrammableGateArray，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（PeripheralComponentInterconnect，外设部件互连标准）总线或EISA（ExtendedIndustryStandardArchitecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM（ReadOnlyMemory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（RandomAccessMemory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（ElectricallyErasableProgrammableReadOnlyMemory，电可擦可编程只读存储器）、CD-ROM（CompactDiscReadOnlyMemory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请实施例方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

下面对本申请实施例提供的一种计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的方法可相互对应参照。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上基于ChatGPT的口语训练方法的步骤。

由于计算机可读存储介质部分的实施例与方法部分的实施例相互对应，因此计算机可读存储介质部分的实施例请参见方法部分的实施例的描述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于ChatGPT的口语训练方法，其特征在于，包括：

获取用户训练需求以及历史训练数据，所述用户训练需求包括口语训练任务的一级训练口语数据和一级训练虚拟场景，所述历史训练数据用于表示在预设历史周期内所有的用户训练需求对应的训练反馈数据；

将所述用户训练需求输入至所述第三训练模型中进行训练，生成所述用户训练需求的口语训练结果，并将所述口语训练结果返回至用户终端；

所述方法还包括：

2.根据权利要求1所述的一种基于ChatGPT的口语训练方法，其特征在于，所述将所述用户训练需求输入至所述第三训练模型中进行训练，生成所述用户训练需求的口语训练结果，之后还包括：

根据所述口语训练任务过程中产生的信息生成训练集；

3.根据权利要求1所述的一种基于ChatGPT的口语训练方法，其特征在于，所述基于所述目标图像提取人脸关键点数据和面部遮挡区域的人脸图片，包括：

通过人脸识别库检测所述裁剪图片中的所述人脸关键点数据，并将脸颊和下巴的所述人脸关键点连接绘制成一个封闭区域，将所述封闭区域填充为黑色，得到面部遮挡区域的人脸图片。

4.根据权利要求1所述的一种基于ChatGPT的口语训练方法，其特征在于，所述通过所述音频样本特征训练预设的第一神经网络模型，得到训练后的音频特征，包括：

将所述音频样本特征对应的音频数据输入到所述预设的第一神经网络模型；

提取所述音频特征对应的Fbank音频特征；

5.根据权利要求1所述的一种基于ChatGPT的口语训练方法，其特征在于，所述将所述拼接特征输入至所述第二神经网络模型中的解码网络，得到与所述音频特征对应的预测人脸图片，之后还包括：

6.根据权利要求1所述的一种基于ChatGPT的口语训练方法，其特征在于，所述通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频特征对应的数字人模型，之后还包括：

7.一种基于ChatGPT的口语训练装置，其特征在于，包括：

口语生成模块，用于将所述用户训练需求输入至所述第三训练模型中进行训练，生成所述用户训练需求的口语训练结果，并将所述口语训练结果返回至用户终端；

所述装置还包括：数据采集模块、特征提取模块、数据提取模块、第一训练模块、第二训练模块、图像编码模块、特征拼接模块、第三训练模块以及模型生成模块，其中，

8.一种电子设备，其特征在于，包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行权利要求1至6任一项所述的一种基于ChatGPT的口语训练方法。

9.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至6中任一项所述的一种基于ChatGPT的口语训练方法的计算机程序。