CN116483983B

CN116483983B - 一种虚拟人物情绪变化量的生成方法及相关设备

Info

Publication number: CN116483983B
Application number: CN202310751212.2A
Authority: CN
Inventors: 袁泉
Original assignee: Qizhi Yuanhui Hangzhou Technology Co ltd
Current assignee: Qizhi Yuanhui Hangzhou Technology Co ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-08-29
Anticipated expiration: 2043-06-25
Also published as: CN116483983A

Abstract

本申请提供了一种虚拟人物情绪变化量的生成方法及相关设备，通过预设语言模型和GPT语言模型，对包含多个基于不同虚拟人物特质下所面对的事件的第一数据集进行预处理，得到第二数据集。然后根据得到的第二数据集合，构建奖励函数模型，并基于此奖励函数模型以及预设强化学习模型对预设语言模型进行优化，得到经过优化后的预设语言模型。最后基于经过优化后的预设语言模型对输入数据进行语言分析与处理，即可得到与输出数据对应的情绪变化量。通过上述方法，基于具体的输入数据即可得到即时的情绪变化量，情绪变化量的生成准确率高，虚拟人物能够实时根据用户反馈的输入数据生成对应的情绪变化量以调整自身的情绪，大大提升了虚拟人物的拟人化程度。

Description

一种虚拟人物情绪变化量的生成方法及相关设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种虚拟人物情绪变化量的生成方法及相关设备。

背景技术

随着人工智能技术的飞速发展，虚拟人物广泛应用于各类场景中。虚拟人物不仅可以与用户进行对话为用户提供帮助，还可以与用户进行互动，其具备着一定的娱乐性质。

在目前的应用场景中，针对于不同的事件，虚拟人物会产生不同的情绪变化，并且针对于虚拟人物特定的人物特质，即使是在面对同样的事件时，虚拟人物也会产生不同的情绪变化，人物特质可以具体指定人物的性格特质，也可以是人物的社会关系。例如，当一个性格暴躁的人被推了一下，此时这个人的情绪是愤怒的，而如果是一个性格软弱的人被推了一下，那么此人的情绪是害怕的。因此，即使面对同一种事件，若对于虚拟人物的性格设定不同，事件所带来的情绪变化量也不同。在目前的现有技术中，其虽然可以通过GPT技术来实现基于不同人物特质下虚拟人物的情绪变化量的生成，但由于GPT模型本身的泛化性，在任务量较多时，其生成的虚拟AI人物的情绪变化量往往存在一些误差，生成的情绪变化量的准确性较差。

因此，如何解决现有技术在生成虚拟人物的情绪变化量时，情绪变化量生成准确率较低的问题，成为本领域技术人员急需解决的技术问题。

发明内容

基于上述问题，为了解决在人工智能技术中，虚拟人物的情绪变化量生成准确率低的问题，本申请提供了一种虚拟人物情绪变化量的生成方法及相关设备。

本申请实施例公开了如下技术方案：

第一方面，本申请公开了一种虚拟人物情绪变化量的生成方法，包括：

获取第一数据集；所述第一数据集包括：多个基于不同的虚拟人物特质下所面对的事件；所述虚拟人物特质至少包括：虚拟人物性格特质以及虚拟人物社会关系；

通过预设语言模型和GPT语言模型，对所述第一数据集进行预处理，得到第二数据集；所述第二数据集包括：在所述不同的虚拟人物特质下，面对所述事件时所产生的情绪变化量；所述情绪变化量用于表示在面对所述事件时所产生的情绪；

根据所述第二数据集，构建奖励函数模型；

通过所述奖励函数模型和预设强化学习模型，对所述预设语言模型进行优化，得到经过优化的预设语言模型；

获取输入数据；

将所述输入数据导入至所述经过优化的预设语言模型中，生成与所述输入数据对应的情绪变化量。

可选的，所述生成与所述输入数据对应的情绪变化量之后，还包括：

根据所述情绪变化量，确定所述虚拟人物的情绪强度；

根据所述虚拟人物的情绪强度，确定与所述情绪强度对应的情绪控制参数；

根据所述情绪控制参数，对所述虚拟人物的情绪进行控制。

可选的，所述情绪控制参数至少包括：情绪强度衰减速率和情绪维持时间；所述情绪强度衰减速率表示在单位时间内，所述情绪强度的衰减数值；所述根据所述情绪控制参数，对所述虚拟人物的情绪进行控制，具体包括：

在经过所述情绪维持时间后，根据所述情绪强度衰减速率，对所述虚拟人物的情绪强度进行调整。

可选的，所述根据所述情绪变化量，确定所述虚拟人物的情绪强度之后，还包括：

根据所述输入数据与所述虚拟人物的情绪强度，确定与所述输入数据对应的回应文本。

可选的，所述输入数据基于预设格式生成；所述输入数据至少包括：所述虚拟人物的性格特质、发生事件以及所述虚拟人物社会关系中的至少一个。

第二方面，本申请公开了一种虚拟人物情绪变化量的生成装置，包括：

第一获取模块，用于获取第一数据集；所述第一数据集包括：多个基于不同的虚拟人物特质下所面对的事件；所述虚拟人物特质至少包括：虚拟人物性格特质以及虚拟人物社会关系；

预处理模块，用于通过预设语言模型和GPT语言模型，对所述第一数据集进行预处理，得到第二数据集；所述第二数据集包括：在所述不同的虚拟人物特质下，面对所述事件时所产生的情绪变化量；所述情绪变化量用于表示在面对所述事件时所产生的情绪；

函数构建模块，用于根据所述第二数据集，构建奖励函数模型；

优化模块，用于通过所述奖励函数模型和预设强化学习模型，对所述预设语言模型进行优化，得到经过优化的预设语言模型；

第二获取模块，用于获取输入数据；

生成模块，用于将所述输入数据导入至所述经过优化的预设语言模型中，生成与所述输入数据对应的情绪变化量。

可选的，所述虚拟人物情绪变化量的生成装置，还包括：情绪控制模块；所述情绪控制模块，用于：

根据所述情绪变化量，确定所述虚拟人物的情绪强度；

根据所述情绪控制参数，对所述虚拟人物的情绪进行控制。

可选的，所述情绪控制模块，具体用于：

第三方面，本申请公开了一种电子设备，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行所述的虚拟人物情绪变化量的生成方法。

第四方面，本申请公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行所述的虚拟人物情绪变化量的生成方法。

相较于现有技术，本申请具有以下有益效果：本申请提供了一种虚拟人物情绪变化量的生成方法及相关设备，通过预设语言模型和GPT语言模型，对包含多个基于不同虚拟人物特质下所面对的事件的第一数据集进行预处理，得到第二数据集。然后根据得到的第二数据集合，构建奖励函数模型，并基于此奖励函数模型以及预设强化学习模型对预设语言模型进行优化，得到经过优化后的预设语言模型。最后基于经过优化后的预设语言模型对输入数据进行语言分析与处理，即可得到与输出数据对应的情绪变化量。通过基于奖励函数模型以及预设强化学习模型对预设语言学习模型进行优化，在需要针对特定的输入数据对虚拟人物的情绪进行改变时，基于具体的输入数据即可得到即时的情绪变化量，其整体对于情绪变化量的生成准确率高，虚拟人物能够实时根据用户反馈的输入数据生成对应的情绪变化量以调整自身的情绪，大大提升了虚拟人物的拟人化程度，提升了用户的使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种虚拟人物情绪变化量的生成方法的流程示意图；

图2为本申请实施例提供的输入数据的预设格式示意图；

图3为本申请实施例提供的一种虚拟人物情绪变化量的生成装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

正如前文描述，在目前的应用场景中，针对于不同的事件，虚拟人物会产生不同的情绪变化，并且针对于虚拟人物特定的人物特质，即使是在面对同样的事件时，虚拟人物也会产生不同的情绪变化，人物特质可以具体指定人物的性格特质，也可以是人物的社会关系。例如，当一个性格暴躁的人被推了一下，此时这个人的情绪是愤怒的，而如果是一个性格软弱的人被推了一下，那么此人的情绪是害怕的。因此，即使面对同一种事件，若对于虚拟人物的性格设定不同，事件所带来的情绪变化量也不同。在目前的现有技术中，其虽然可以通过GPT技术来实现基于不同人物特质下虚拟人物的情绪变化量的生成，但由于GPT模型本身的泛化性，在任务量较多时，其生成的虚拟AI人物的情绪变化量往往存在一些误差，生成的情绪变化量的准确性较差。

为了解决上述问题，本申请提供了一种虚拟人物情绪变化量的生成方法及相关设备，通过预设语言模型和GPT语言模型，对包含多个基于不同虚拟人物特质下所面对的事件的第一数据集进行预处理，得到第二数据集。然后根据得到的第二数据集合，构建奖励函数模型，并基于此奖励函数模型以及预设强化学习模型对预设语言模型进行优化，得到经过优化后的预设语言模型。最后基于经过优化后的预设语言模型对输入数据进行语言分析与处理，即可得到与输出数据对应的情绪变化量。通过基于奖励函数模型以及预设强化学习模型对预设语言学习模型进行优化，在需要针对特定的输入数据对虚拟人物的情绪进行改变时，基于具体的输入数据即可得到即时的情绪变化量，其整体对于情绪变化量的生成准确率高，虚拟人物能够实时根据用户反馈的输入数据生成对应的情绪变化量以调整自身的情绪，大大提升了虚拟人物的拟人化程度，提升了用户的使用体验。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例

参见图1，图1为本申请实施例提供的一种虚拟人物情绪变化量的生成方法的流程示意图，具体包括以下步骤：

S101：获取第一数据集；所述第一数据集包括：多个基于不同的虚拟人物特质下所面对的事件；所述虚拟人物特质至少包括：虚拟人物性格特质以及虚拟人物社会关系。

针对于虚拟人物的情绪具象化功能，本申请要求虚拟人物能够基于不同的人物特质，在面对不同的事件时体现出不同的情绪变化，因此，在进行第二数据集的构建之前，会先从开源数据库中获取第一数据集，并且，获取的第一数据集中包含有多种基于不同人物特质下所面对的事件，而虚拟人物特质可以是针对于虚拟人物的性格特质，例如性格温和、性格暴躁、性格软弱等等，也可以是虚拟人物的社会关系，例如医生、老师等等。在第一数据集中，包含了多种基于不同人物特质下所面临的事件，每一种发生的事件都对应了多种不同的人物特质。

S102：通过预设语言模型和GPT语言模型，对所述第一数据集进行预处理，得到第二数据集；所述第二数据集包括：在所述不同的虚拟人物特质下，面对所述事件时所产生的情绪变化量；所述情绪变化量用于表示在面对所述事件时所产生的情绪。

在得到第一数据集后，会通过预设的语言模型和GPT语言模型，对第一数据集进行预处理，得到第二数据集。不同于第一数据集，在第二数据集中，包含了基于不同人物特质下在面对不同事件时所产生的情绪变化量，在本申请中，预设语言模型与GPT模型通过对第一数据集的语言分析处理，得到了针对于每一类人物特质下面对的事件所实际对应的情绪变化量，并将得到的多个情绪变化量以及发生事件和对应的人物特质进行集合处理，最终得到第二数据集。

在实际的应用场景中，因为其GLM语言模型的开源性质，使其能够根据用户的实际需求对GLM进行实时的更新和优化，使用方便。因此，本实施例以GLM语言模型举例，将GLM语言模型作为本实施例中的预设语言模型，对本步骤进行进一步描述。

首先从第一数据库中获取基于不同人物特质下所面对的事件，然后将多种事件分别输入至GLM语言模型和GPT语言模型中，以让模型输出针对每个事件的情绪变化量，这样一来，针对于每一种人物特质下的事件，就相应的得到了两个针对于此事件的情绪变化量，然后将第一数据库中的每个事件都带入至GLM语言模型和GPT语言模型中，即可得到针对于每个事件的情绪变化量，最终构成第二数据库。在实际的应用场景中，有时GLM语言模型和GPT模型对于事件所产生的情绪变化量有可能出现较大的误差，因此，在通过模型得到每个事件的情绪变化量时，可以人为的对生成的情绪变化量的准确度进行一个初步的判断，若两个模型所产生的情绪变化量都存在较大的误差，则可以通过人工添加的方式来为不同人物特质对应的事件确定一个更为准确的情绪变化量，从而保证第二数据库的数据准确性。

S103：根据所述第二数据集，构建奖励函数模型。

在得到第二数据集后，根据得到的第二数据集，进行奖励函数模型的构建。具体的，针对于奖励函数模型，其输入数据是发生的事件以及与事件所对应的情绪变化量，奖励函数模型可以根据输入的事件以及与其对应的情绪变化量，从而确定两者之间的关联准确度。具体会输出当前事件与情绪变化量之间的得分，其得分越高，则表明情绪变化量越能够准确地反应出该事件对于此人物特质下所能够带来的情绪变化。通过利用奖励函数模型对第二数据集进行数据分析，可以确定第二数据集中情绪变化量与事件的关联程度，也即第二数据集的数据准确度。

S104：通过所述奖励函数模型和预设强化学习模型，对所述预设语言模型进行优化，得到经过优化的预设语言模型。

在完成奖励函数模型的构建后，通过奖励函数以及预设强化学习模型，对GLM语言模型进行优化，得到经过优化后的GLM语言模型。其中，经过优化后的GLM语言模型对于情绪变化量的生成准确率要高于以往的使用GPT语言模型或者GLM语言模型来生成情绪变化量的准确率。

具体的，预设强化学习模型基于现有的深度强化学习算法进行改进获得。传统的深度强化学习算法可以按照更新方式分为两类，一类是基于值的更新方式，其中，基于值的更新方式通常会直接估计动作的价值函数，然后基于动作的价值函数来选择当前的最佳动作，即在每个状态下选择当前价值最大的那个动作来执行，比较典型的算法就是Q学习算法。另一类更新方式为基于策略的更新方式，这一类算法会通过神经网络来直接近似当前策略，输出当前状态下应该选择的动作。但是这两类方法都存在一定的问题，基于值的更新算法难以扩展到连续动作空间，因为它需要计算得到当前状态下所有动作的值；而基于策略的更新算法则需要对轨迹进行完整的采样用于更新。因此，在本申请中，对两种不同的方法进行结合改进，得到上述所提及的预设强化学习算法，具体的关于预设强化学习算法的生成步骤如下：

首先从基于策略的更新方式出发，在前面提到过策略的目的是最大化动作价值函数：

式中，表示策略，/>表示策略/>的预期回报，即策略的性能指标；τ为基于当前策略得到的轨迹，/>表示在所有可能的轨迹/>上的期望值；/>表示在策略/>下产生轨迹τ的概率；/>表示在时刻t的奖励；

将累计收益展开到每一步得到：

式中，T表示轨迹的长度；表示在时刻t时的奖励。

对上式进行求导，得到策略更新梯度：

随后将轨迹展开:

式中，表示时刻t选择的动作，/>表示在时刻t的状态，/>表示在给定状态/>下，执行动作/>的概率。

显然用整个轨迹的奖励来衡量每个动作的是不够准确的，所以使用从当前状态开始的累积奖励来代替整个轨迹的累积奖励：

式中，表示在时刻/>下的奖励。

其中这一项其实就是从当前时刻t开始到未来的累积收益，具体的，会使用动作价值函数/>来近似该值，得到新的策略网络更新公式：

式中，表示在执行动作/>后，智能体从状态/>按照预设策略选择后续动作获得的预期累计奖励。

在深度强化学习中，策略网络使用神经网络来近似，被称为行动者 (Actor)网络,其更新函数如上式所示。而式中的使用另一个神经网络/>来近似，被称为评论家(Critic)网络。评论家网络使用传统的Q学习方式来进行更新。在每个状态下根据当前策略采取动作获得奖励后对当前的Q值进行更新：

式中，表示在策略/>下，状态/>和动作/>的状态-动作值函数，即/>函数的值；/>表示学习率常数；/>表示智能体在执行的动作/>后，在状态下获得的即时奖励；/>表示折扣因子常数；/>表示在状态/>下，采取动作/>在状态-动作值函数中的最大值。

将上面的更新方式扩展到深度学习中，通常使用两个神经网络，一个是用来预测实际Q值的网络，这个网络被称为行为网络 (behavior-network),该网络的参数ω实时更新，另一个网络用来获取行为网络的更新方向，被称为目标网络 (target-network)，具体的损失函数为：

式中，表示损失函数；/>表示目标状态-动作值函数；/>表示误差函数；r表示智能体在状态s下所采取的动作。

在进行更新时，首先采样得到经验 (experience)来估计Q_ω的值，然后根据当前的Q值再通过公式(1)更新策略网络参数θ，根据公式(2)更新Q函数网络参数ω，每间隔一定的时间利用行为网络的参数更新一次目标网络的参数，然后再进行采样，继续更新，循环往复，直至收敛。至此完成预设强化学习模型的构建。

S105：获取输入数据。

在完成对预设语言模型的优化后，会开始获取输入数据；输入数据具体可以是用户与虚拟人物进行互动时所下发的文本指令，也可以是特定的用于虚拟人物测试的指令。其中，输入数据基于预设格式生成；所述输入数据至少包括：所述虚拟人物的性格特质、发生事件以及所述虚拟人物社会关系中的至少一个。

关于输入数据的预设格式具体可以参照图2来进行进一步理解，输入数据具体可以划分为任务描述、样本示例和提示。而样本示例又由三部分构成，分别为人物性格特质、事件以及社会关系。在实际的应用场景中，样本示例不需要一定包含上述的三个要素，如有不涉及的部分可以省略，可以仅描述人物的性格特质和事件，其对最后的结果不会造成过多影响。相应的，在图中同样展现了对于情绪变化量的输出示例，其输出示例由两部分构成，一部分是虚拟人物感受到的情绪，另一部分是情绪的强度，也即情绪变化量。

通过对输入数据的格式进行设计，使得在通过输入数据与虚拟人物进行互动时，能够通过对输入数据的微调即可实现让虚拟人物基于人物特质、事件来输出情绪以及情绪的强度，提升了用户的使用体验。

S106：将所述输入数据导入至所述经过优化的预设语言模型中，生成与所述输入数据对应的情绪变化量。

作为一种可选的实施方式，在步骤S106之后，还包括以下三个步骤：

步骤一、根据所述情绪变化量，确定所述虚拟人物的情绪强度；

步骤二、根据所述虚拟人物的情绪强度，确定与所述情绪强度对应的情绪控制参数；

步骤三、根据所述情绪控制参数，对所述虚拟人物的情绪进行控制。

在实际的应用场景中，考虑到当情绪强度较高时，剧烈的情绪通常会维持一段时间，从而对接下来的对话产生影响。然而在现有的GPT语言模型中，其只能即时提供情绪的变化量，但无法根据实际的情绪强度来维持当前的情绪。

因此，为了解决上述问题，在得到发生事件所对应的情绪变化量后，会确定虚拟人物当前的情绪强度，并根据虚拟人物当前的情绪，确定相应的情绪控制参数，以根据情绪控制参数对虚拟人物的情绪进行实时控制。具体的，情绪控制参数中具体包括情绪强度的衰减速率和情绪维持时间，不同的情绪强度有着不同的与之对应的情绪控制参数。在确定情绪维持时间以及情绪强度衰减速率后，关于在经过情绪维持时间后，根据具体的情绪强度衰减速率，对虚拟人物的情绪强度进行调整。例如，若当前虚拟人物的情绪强度为十级愤怒状态的，此时与之相对应的情绪维持时间也相对更长，而因为其情绪强度较高，在经过情绪维持时间后，其情绪强度的衰减速率也会相对较高。

在得到虚拟人物的情绪变化量后，根据虚拟人物的情绪强度确定与其所对应的情绪控制参数，并通过情绪控制参数对虚拟人物的情绪进行实时控制，使得在虚拟人物出现强度较高的情绪变化量时，虚拟人物的情绪会维持一段时间，并随着时间逐步衰减，提高了虚拟人物的拟人化程度，虚拟人物与用户的互动更为真实，提高了用户的使用体验。

作为另一种可选的实施方式，在确定虚拟人物的情绪强度之后，还包括以下步骤：

步骤一、根据所述输入数据与所述虚拟人物的情绪强度，确定与所述输入数据对应的回应文本。

在确定虚拟人物的情绪强度之后，可以根据虚拟人物的当前情绪强度，确定相应的回应文本。可以理解的是，不同的情绪强度会决定着不同的回应文本，即使面对同一种输入文本，不同的情绪强度也会带来不一样回应文本。例如，当输入数据为：“你今天去哪？”时，若此时的情绪强度为开心的十级状态时，此时对应的回应文本即为“今天天气这么好，我想要出去郊游野餐！”，而当情绪强度为难过的十级状态时，此时对应的回应文本即为“我今天要呆在家里做家务，那也去不了，真难过”。

通过基于当前虚拟人物的情绪强度，来确定与输入数据相对应的回应文本，使得虚拟人物能够根据当前的情绪状态和强度与用户进行实时的文本互动，虚拟人物与用户之间的互动更为生动形象，虚拟人物的拟人性得到了提高。

本实施例提供了一种虚拟人物情绪变化量的生成方法，通过预设语言模型和GPT语言模型，对包含多个基于不同虚拟人物特质下所面对的事件的第一数据集进行预处理，得到第二数据集。然后根据得到的第二数据集合，构建奖励函数模型，并基于此奖励函数模型以及预设强化学习模型对预设语言模型进行优化，得到经过优化后的预设语言模型。最后基于经过优化后的预设语言模型对输入数据进行语言分析与处理，即可得到与输出数据对应的情绪变化量。通过基于奖励函数模型以及预设强化学习模型对预设语言学习模型进行优化，在需要针对特定的输入数据对虚拟人物的情绪进行改变时，基于具体的输入数据即可得到即时的情绪变化量，其整体对于情绪变化量的生成准确率高，虚拟人物能够实时根据用户反馈的输入数据生成对应的情绪变化量以调整自身的情绪，大大提升了虚拟人物的拟人化程度，提升了用户的使用体验。

下面对本申请实施例提供的一种虚拟人物情绪变化量的生成装置进行介绍，下文描述的一种虚拟人物情绪变化量的生成装置与上文描述的一种虚拟人物情绪变化量的生成方法可相互对应参照。

装置实施例

参见图3，该图为本申请实施例提供的一种虚拟人物情绪变化量的生成装置的结构示意图，包括：

第一获取模块100，用于获取第一数据集；所述第一数据集包括：多个基于不同的虚拟人物特质下所面对的事件；所述虚拟人物特质至少包括：虚拟人物性格特质以及虚拟人物社会关系；

预处理模块200，用于通过预设语言模型和GPT语言模型，对所述第一数据集进行预处理，得到第二数据集；所述第二数据集包括：在所述不同的虚拟人物特质下，面对所述事件时所产生的情绪变化量；所述情绪变化量用于表示在面对所述事件时所产生的情绪；

函数构建模块300，用于根据所述第二数据集，构建奖励函数模型；

优化模块400，用于通过所述奖励函数模型和预设强化学习模型，对所述预设语言模型进行优化，得到经过优化的预设语言模型；

第二获取模块500，用于获取输入数据；

生成模块600，用于将所述输入数据导入至所述经过优化的预设语言模型中，生成与所述输入数据对应的情绪变化量。

根据所述情绪变化量，确定所述虚拟人物的情绪强度；

根据所述情绪控制参数，对所述虚拟人物的情绪进行控制。

可选的，所述情绪控制模块，具体用于：

可选的，所述虚拟人物情绪变化量的生成装置，还包括：文本确定模块，用于根据所述输入数据与所述虚拟人物的情绪强度，确定与所述输入数据对应的回应文本。

电子设备实施例

进一步地，参见图4，该图为本申请实施例提供的一种电子设备的结构示意图，包括：

存储器11，用于存储计算机程序；

处理器12，用于执行所述计算机程序时实现上述任意方法实施例所述的虚拟人物情绪变化量的生成方法的步骤。

在本实施例中，设备可以是车载电脑、PC（Personal Computer，个人电脑），也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。

该设备可以包括存储器11、处理器12和总线13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元，例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备，例如设备上配备的插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据，例如执行故障预测方法的程序代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器（Central Processing Unit,CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行故障预测方法的程序代码等。

该总线13可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，设备还可以包括网络接口14，网络接口14可选的可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该设备与其他电子设备之间建立通信连接。

可选地，该设备还可以包括用户接口15，用户接口15可以包括显示器（Display）、输入单元比如键盘（Keyboard），可选的用户接口15还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在设备中处理的信息以及用于显示可视化的用户界面。

图4仅示出了具有组件11-15的设备，本领域技术人员可以理解的是，图4示出的结构并不构成对设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法、装置、电子设备及计算机存储介质而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的方法、装置、电子设备及计算机存储介质仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种虚拟人物情绪变化量的生成方法，其特征在于，包括：

通过预设语言模型和GPT语言模型，对所述第一数据集进行预处理，得到第二数据集；所述第二数据集包括：在所述不同的虚拟人物特质下，面对所述事件时所产生的情绪变化量；所述情绪变化量用于表示在面对所述事件时所产生的情绪；所述预设语言模型和GPT语言模型用于生成与所述多个基于不同的虚拟人物特质下所面对的事件对应的情绪变化量；

根据所述第二数据集，构建奖励函数模型；所述奖励函数模型用于确定所述事件和与所述事件对应的情绪变化量的关联程度；

通过所述奖励函数模型和预设强化学习模型，对所述预设语言模型进行优化，得到经过优化的预设语言模型；所述预设强化学习模型基于深度强化学习算法获得；

获取输入数据；

2.根据权利要求1所述的方法，其特征在于，所述生成与所述输入数据对应的情绪变化量之后，还包括：

根据所述情绪变化量，确定所述虚拟人物的情绪强度；

根据所述情绪控制参数，对所述虚拟人物的情绪进行控制。

3.根据权利要求2所述的方法，其特征在于，所述情绪控制参数至少包括：情绪强度衰减速率和情绪维持时间；所述情绪强度衰减速率表示在单位时间内，所述情绪强度的衰减数值；所述根据所述情绪控制参数，对所述虚拟人物的情绪进行控制，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述情绪变化量，确定所述虚拟人物的情绪强度之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述输入数据基于预设格式生成；所述输入数据至少包括：所述虚拟人物的性格特质、发生事件以及所述虚拟人物社会关系中的至少一个。

6.一种虚拟人物情绪变化量的生成装置，其特征在于，包括：

预处理模块，用于通过预设语言模型和GPT语言模型，对所述第一数据集进行预处理，得到第二数据集；所述第二数据集包括：在所述不同的虚拟人物特质下，面对所述事件时所产生的情绪变化量；所述情绪变化量用于表示在面对所述事件时所产生的情绪；所述预设语言模型和GPT语言模型用于生成与所述多个基于不同的虚拟人物特质下所面对的事件对应的情绪变化量；

函数构建模块，用于根据所述第二数据集，构建奖励函数模型；所述奖励函数模型用于确定所述事件和与所述事件对应的情绪变化量的关联程度；

优化模块，用于通过所述奖励函数模型和预设强化学习模型，对所述预设语言模型进行优化，得到经过优化的预设语言模型；所述预设强化学习模型基于深度强化学习算法获得；

第二获取模块，用于获取输入数据；

7.根据权利要求6所述的装置，其特征在于，还包括：情绪控制模块；所述情绪控制模块，用于：

根据所述情绪变化量，确定所述虚拟人物的情绪强度；

根据所述虚拟人物的情绪强度，确定与所述情绪强度对应的情绪控制参数；所述情绪控制参数至少包括：情绪强度衰减速率和情绪维持时间；所述情绪强度衰减速率表示在单位时间内，所述情绪强度的衰减数值；

根据所述情绪控制参数，对所述虚拟人物的情绪进行控制。

8.根据权利要求7所述的装置，其特征在于，所述情绪控制模块，具体用于：

9.一种电子设备，其特征在于，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-5中任一项所述的虚拟人物情绪变化量的生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述的虚拟人物情绪变化量的生成方法。