CN117828106B

CN117828106B - 基于记忆强化算法结合大模型驱动实现个性化npc的方法

Info

Publication number: CN117828106B
Application number: CN202410239480.0A
Authority: CN
Inventors: 胡睿
Original assignee: GUOWEI TECHNOLOGY CO LTD
Current assignee: GUOWEI TECHNOLOGY CO LTD
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-28
Anticipated expiration: 2044-03-04
Also published as: CN117828106A

Abstract

本发明公开了基于记忆强化算法结合大模型驱动实现个性化NPC的方法，涉及模型构建技术领域，依据数据质量系数确定出低质量数据类，从低质量数据类中筛选异常数据，将处理后各个数据类汇总生成模型构建数据集合；将训练后的增强式记忆网络和语言沟通模型结合，生成NPC回复模型；由反馈数据集合构建反馈系数，将若干个反馈系数汇总并构建NPC回复模型的可靠度，若可靠度低于可靠度阈值，由模型优化知识图谱给出模型优化策略，对NPC回复模型进行优化，并由可靠度集合生成优化度，依据优化度对NPC回复模型作相应性处理。构建的NPC回复模型对客服系统及其运行环境适应性高，能够对实际的使用环境更贴合，避免可靠性不足。

Description

基于记忆强化算法结合大模型驱动实现个性化NPC的方法

技术领域

本发明涉及模型构建技术领域，具体为基于记忆强化算法结合大模型驱动实现个性化NPC的方法。

背景技术

NPC是英文Non-Player Character的缩写，中文翻译过来是“非玩家控制角色”，NPC通常用于游戏中，指游戏中的非玩家角色，他们通常由电脑控制，而不是由玩家控制。NPC通常执行一些固定的任务，为玩家提供信息和帮助，或者为游戏的故事情节提供支持。在许多游戏中，NPC也可以与玩家进行交互，在实际应用中，为了降低客服人员的工作压力，其也经常用于客服系统中，辅助客服回复客户信息。

在申请公布号为CN116824091A的中国发明专利中，公开了一种数字人几何模型风格化生成与驱动方法，利用大量采集的人体三维真实数据，通过体素化建模和隐式表示，生成人体三维隐式数据集；再通过深度学习方法，对人体三维隐式数据集进行三维超分辨和模型风格学习；之后通过改变不同的三维隐式模型输入端，达成数字人几何模型风格化生成和数字人几何模型风格化驱动两个功能；三维人体体素化建模和隐式表示通过现有的三维距离场表示方法构建的；三维超分辨和模型风格学习是通过基于人体模型的三维生成网络构建的。本发明通过建立起人体真实三维数据、三维隐式体素化表达和数字人三维风格化生成的联系，可以从单个给定高精度人体模型生成与该模型对应的三维风格迁移和动态模型。

结合以上申请及现有技术，在构建个性化NPC，特别是要将其应用于客服系统时，由于客服系统内的各个账号的客户咨询信息相差较大，且需要回复的信息间的相似程度不高，因此，由客服账号手动回复客户信息时的工作量较大，若是接入个性化NPC作为辅助，则能够较大程度上提高工作效率；但是现有的NPC构建方法中，NPC使用的场景和环境主要考量的是通用性，较少直接用各种相似度不高的内容做样本数据，这导致构建的NPC在应用于客服系统时，与客服系统的适应性较差，在实际应用时可靠性不足，而同时由于用于构建NPC的样本数据种类多数据量大，若不能充分预处理，则可能导致构建的NPC模型和实际需求间会存在一定的偏差，可靠度不足。

为此，本发明提供了基于记忆强化算法结合大模型驱动实现个性化NPC的方法。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了基于记忆强化算法结合大模型驱动实现个性化NPC的方法，通过从低质量数据类中筛选异常数据，将处理后各个数据类汇总生成模型构建数据集合；将训练后的增强式记忆网络和语言沟通模型结合，生成NPC回复模型；由反馈数据集合构建反馈系数，将若干个反馈系数汇总并构建NPC回复模型的可靠度，若可靠度低于可靠度阈值，由模型优化知识图谱给出模型优化策略，对NPC回复模型进行优化，并由可靠度集合生成优化度，依据优化度对NPC回复模型作相应性处理。构建的NPC回复模型对客服系统及其运行环境适应性高，能够对实际的使用环境更贴合，避免可靠性不足，从而解决了背景技术中提出的技术问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：基于记忆强化算法结合大模型驱动实现个性化NPC的方法，包括，在客服系统处于工作状态时，对其各个账号的工作状态进行监控，由监控数据构建差异数据集合，由差异数据集合构建差异系数，进而由账号的差异系数/>构建负荷度/>，若负荷度/>超过负荷阈值，发出数据采集指令；其中，构建负荷度/>方式如下：

其中，/>，为账号的个数，权重系数：/>且/>；/>为差异系数的均值；/>为差异系数的预设目标值；

采集用于构建NPC回复模型的样本数据，对样本数据做预处理后归类获取若干个预处理数据类，依据预处理数据类的分析指标构建数据质量系数，并以其确定出低质量数据类，从低质量数据类中筛选异常数据，依据异常数据的异常程度，对低质量数据类作出相应处理，将处理后各个数据类汇总生成模型构建数据集合；

对处理后的数据做特征识别，由样本数据训练获取增强式记忆网络，并基于Transformer的语言模型训练获取相应的语言沟通模型，将训练后的增强式记忆网络和语言沟通模型结合，生成NPC回复模型；

收集客服系统内的NPC回复模型在各个账号中的使用状态数据并构建反馈数据集合，由反馈数据集合构建反馈系数，将若干个反馈系数/>汇总并构建NPC回复模型的可靠度/>，若可靠度/>低于可靠度阈值，向外部发出模型优化指令；

由模型优化知识图谱给出模型优化策略，依据模型优化策略对NPC回复模型进行优化，依据优化后NPC回复模型的使用状态数据构建可靠度集合，并由可靠度集合生成优化度，依据优化度/>对NPC回复模型作相应性处理。

进一步的，在子周期内查询每个账号与客户间的沟通记录，沟通记录中获取对不同客户沟通状态数据；包括：对不同客户之间的沟通记录做相似度分析，获取当前客户与其余客户回复记录之间不相似度的均值，以其作为差异度，并统计给各个客户的内容回复量；将获取的差异度/>及回复量/>汇总后，汇总后构建差异数据集合。

进一步的，由差异数据集合构建差异系数，方式如下：对差异度/>及回复量/>做线性归一化处理后，将相应的数据值映射至区间/>内，依照如下方式：其中，/>，/>为当前账号接入客户的个数，/>为差异度均值，/>为回复量均值，权重系数：，且/>。

进一步的，接收到数据采集指令后，收集与NPC相关的目标数据，将采集的目标数据依据类别进行归类和初步预处理，获取预处理数据类；

对获取的预处理数据类中的数据做数据质量分析，并获取相应的数据分析指标，从分析指标中获取标准分数及偏度系数/>，并在对两者做线性归一化处理后，将相应的数据值映射至区间/>内，构建对应数据组的数据质量系数/>：其中，/>为权重系数，，且/>；

若获取的数据质量系数低于质量阈值，则将其作为低质量数据类，发出异常数据筛选指令。

进一步的，在接收到异常数据筛选指令后，构建异常阈值，若低质量数据组内的数据值不在异常阈值之内，将其确定为异常数据；计算出低质量数据类中异常数据的异常度，方式如下：/>其中，/>为权重，/>，且/>，/>为第i个异常数据，/>，n为异常数据的个数，/>为低质量数据类中的数据均值；

若异常度不超过异常度阈值，对异常数据进行优化替换；若异常度/>超过异常阈值，向外部发出重新采集指令。

进一步的，对模型构建数据集合内各类数据进行特征识别，获取相应的数据特征，从数据特征中确定出用于描述NPC模型环境和对话状态的目标变量将目标变量组合成为状态向量，作为增强式记忆网络的输入，构成状态空间；为NPC的行为设计动作空间，包括回复的内容，情感表达，或者其他与对话相关的行为，确定NPC可选动作的类型和数量，在对话系统中设计奖励函数；

选择基于Transformer的语言模型，使用收集的数据和预处理的文本特征，对大模型进行训练，获取相应的语言沟通模型；使NPC回复模型依据语义环境和对话状态选择相应的动作，在NPC模型与客户交互时，使用语言沟通模型生成对话回复。

进一步的，在各个子周期内收集NPC回复模型的使用状态数据，包括NPC回复模型在使用的响应速度和回复内容时的准确率；将客服系统内各个账号的响应速度及准确率/>汇总后，构建NPC回复模型的使用状态反馈数据集合；由反馈数据集合构建反馈系数，以获取的反馈系数/>对各个账号进行标注。

进一步的，在获取各个账号的反馈系数后，将若干个反馈系数/>汇总，依照如下方式构建NPC回复模型的可靠度/>：其中，/>，/>为账号的个数，权重系数：/>且/>；/>为反馈系数的均值；/>为反馈系数的预设目标值。

进一步的，接收到模型优化指令后，获取NPC回复模型的各项参数及运行状态数据，对以上参数或数据进行特征识别，获取相应的优化特征；预先构建模型优化知识图谱，依据优化特征与优化策略间的对应性，由模型优化知识图谱给出模型优化策略；执行所述模型优化策略，对NPC回复模型的各项参数进行优化。

进一步的，观察NPC回复模型的使用状态，于各个观察子周期内获取相应的可靠度，汇总后构建可靠度集合，由可靠度集合获取相应的优化度/>，若获取的优化度/>低于优化度阈值，发出策略优化指令；

接收到策略优化指令后，使用蚁群算法构建初始模型，由样本数据训练获取优化模型，在设置优化目标后，对模型优化策略进行优化，获取优化的模型优化策略；执行优化的模型优化策略，若获取的优化度高于优化前的值，完成NPC回复模型的构建；反之，则重新由模型优化知识图谱给出模型优化策略。

（三）有益效果

本发明提供了基于记忆强化算法结合大模型驱动实现个性化NPC的方法，具备以下有益效果：

1、在获取若干个预处理数据类，并经过数据分析后，由分析获取的分析指标构建数据质量系数，从而在获取到各个数据质量系数后，能够从若干个数据类中筛选出部分低质量数据类，从而可以通过针对性的处理，提高数据质量。

2、在低质量数据类中筛选出异常数据，通过异常数据进行替换和优化，能够提高低质量数据类的数据质量；若低质量数据类中的异常数据较多，则继续对各个异常数据的异常程度进行判断，对低质量数据类的异常程度进行判断后，若其异常程度较高，则需要重新采集数据，从而在对NPC模型进行构建时，通过提高样本数据的数据质量，能够对NPC模型的可靠性形成保障。

3、在将NPC回复模型客服系统时，能够提高客服系统的工作效率和回复速度，通过在高数据质量的样本数据的基础上构建NPC模型，能够对模型的可靠性形成保障，在将其用于客服系统时，能够保障客服系统的工作效率。

4、在完成构建的NPC回复模型构建并将其应用于客服系统后，对其实际使用状态进行监控，并采集相应的数据，从而在此基础上构建反馈系数，依据反馈系数/>对NPC回复模型的使用状态进行评价，判断其可用性。

5、构建相应的可靠度，在整体上能够在整体上对NPC回复模型的使用效果进行评价，若是当前生成的NPC回复模型的使用效果能够达到预期，则NPC回复模型构建完成，在记忆强化算法结合Transformer的语言模型的基础上构建NPC回复模型，所构建的NPC回复模型对客服系统及其运行环境适应性高，能够对实际的使用环境更贴合。

6、需要对NPC回复模型进行优化时，能够快速获取相应的模型优化策略，提高模型优化效率，通过模型优化知识图谱给出模型优化策略，使模型优化策略和NPC回复模型间的匹配程度更高。

7、优先对当前的模型优化策略进行改进，在优化仍难以取得应有的效果时，则重新由模型优化知识图谱给出模型优化策略，从而在初步完成NPC回复模型的构建后，依据NPC回复模型的实际使用场景，进一步的对其进行优化和改进，从而避免出现模型和实际使用场景关联度有限，可靠性不足的情形。

附图说明

图1为本发明实现个性化NPC的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供基于记忆强化算法结合大模型驱动实现个性化NPC的方法，包括如下内容：

步骤一、在客服系统处于工作状态时，对其各个账号的工作状态进行监控，由监控数据构建差异数据集合，由差异数据集合构建差异系数，进而由账号的差异系数/>构建负荷度/>，若负荷度/>超过负荷阈值，发出数据采集指令；

所述步骤一包括如下内容：

步骤101、在客服系统处于客户接入状态时，设置包含有若干个子周期的查询周期，在子周期内查询每个账号与客户间的沟通记录，沟通记录中获取对不同客户沟通状态数据；

包括：对不同客户之间的沟通记录做相似度分析，获取当前客户与其余客户回复记录之间不相似度的均值，以其作为差异度，并统计给各个客户的内容回复量；将获取的差异度/>及回复量/>汇总后，汇总后构建差异数据集合；

步骤102、由差异数据集合构建差异系数，方式如下：对差异度/>及回复量/>做线性归一化处理后，将相应的数据值映射至区间/>内，并依照如下方式：

其中，/>，/>为当前账号接入客户的个数，/>为第i个客户的差异度，/>为差异度均值，/>为第i个客户的回复量，/>为回复量均值，权重系数：/>，且/>，其中，权重系数参考层次分析法获取；

步骤103、在获取各个账号的差异系数后，依照如下方式构建负荷度；

其中，/>，为账号的个数，权重系数：/>且/>；/>为第i个账号的差异系数，所述/>为差异系数的均值；/>为差异系数的预设目标值；

依据对客户回复状态的历史数据及对客户回复的管理预期，预设设置负荷阈值；若负荷度超过负荷阈值，则说明，当前的客户回复状态可能已经难以满足当前的工作任务，此时，需要外部辅助，减轻客服的回复的压力，向外部发出数据采集指令；

使用时，结合步骤101至103中的内容：

在客服系统处于工作状态下时，客户消息由客服手动回复，此时，通过对客服系统的运行状态进行监测，并由监测数据构建差异系数，依据差异系数/>能够对客服系统内的各个账号的工作状态进行评估，并进而由此构建负荷度/>，依据负荷度/>可以对客服系统当前运行的困难程度进行评价，若是客服系统当前的运行负荷程度较高，此时，则需要为客服系统接入辅助，以便于降低客服的运行负荷。

结合以上申请及现有技术；在构建个性化NPC，特别是要将其应用于客服系统时，由于客服系统内的各个账号的客户咨询信息相差较大，且需要回复的信息间的相似程度不高，因此，由客服账号手动回复客户信息时工作量较大，若是接入个性化NPC作为辅助，则能够较大程度上提高工作效率；但是现有的NPC构建方法中，NPC使用的场景和环境主要考量的是通用性，较少直接用各种相似度不高的内容做样本数据，这导致构建的NPC在应用于客服系统时，与客服系统的适应性较差，在实际应用时可靠性不足，而同时由于用于构建NPC的样本数据种类多数据量大，若不能充分预处理，则可能导致构建的NPC模型和实际需求间会存在一定的偏差，可靠度不足。

步骤二、采集用于构建NPC回复模型的样本数据，对样本数据做预处理后归类获取若干个预处理数据类，依据预处理数据类的分析指标构建数据质量系数，并以其确定出低质量数据类，从低质量数据类中筛选异常数据，依据异常数据的异常程度，对低质量数据类作出相应处理，将处理后各个数据类汇总生成模型构建数据集合；

所述步骤二包括如下内容：

步骤201、接收到数据采集指令后，收集与NPC相关的数据，包括对话文本、行为数据、情感数据等目标数据，将采集的目标数据依据类别进行归类，获取相应的数据类，对数据类中的数据进行初步预处理，包括进行清洗、去噪和标记，获取预处理数据类；

使用时，通过对各个数据类进行预处理后，能够提高数据质量，进而提高NPC模型构建的可靠度；

步骤202、对获取的预处理数据类中的数据做数据质量分析，并获取相应的数据分析指标，并将所获取的分析指标汇总，由分析指标构建数据质量系数，方式如下：

从分析指标中获取标准分数及偏度系数/>，并在对两者做线性归一化处理后，将相应的数据值映射至区间/>内，依照如下公式构建对应数据组的数据质量系数/>：其中，/>为权重系数，，且/>；

依据历史数据及对各个数据类的质量管理预期，预先设置质量阈值；若获取的数据质量系数低于质量阈值，则将其作为低质量数据类；在需要提高低质量数据类的数据质量时，需要对其中低质量数据进行替换，此时，向外部发出异常数据筛选指令；

使用时，在获取若干个预处理数据类，并经过数据分析后，由分析获取的分析指标构建数据质量系数，从而在获取到各个数据质量系数后，能够从若干个数据类中筛选出部分低质量数据类，从而可以通过针对性的处理，提高数据质量；

步骤203、在接收到异常数据筛选指令后，构建异常阈值，若低质量数据组内的数据值不在异常阈值/>之内，将其确定为异常数据；方式如下：

其中，/>为低质量数据类中，若干个数据内的第一四分位数，/>为第三四分位数，/>为四分位数距，/>为数据质量系数的均值；

步骤204、在筛选出异常数据后，计算出低质量数据类中异常数据的异常度，方式如下：

其中，/>为权重，，且/>，/>为第i个异常数据，/>，n为异常数据的个数，/>为低质量数据类中的数据均值；

依据历史数据及对各个数据类的质量管理预期，预设异常度阈值；若异常度不超过异常阈值，则可以对异常数据进行优化替换；

若异常度超过异常阈值，则说明当前低质量数据类的异常程度较高，难以用于构建模型，此时，也不便于继续进行优化，否则数据失真程度较高，此时，向外部发出重新采集指令；

使用时，结合步骤201至204中的内容：

在从若干个数据类中筛选出低质量数据类后，若是需要对低质量数据类进行优化，则在低质量数据类中筛选出异常数据，通过异常数据进行替换和优化，能够提高低质量数据类的数据质量；而作为进一步的内容，若低质量数据类中的异常数据较多，则继续对各个异常数据的异常程度进行判断，对低质量数据类的异常程度进行判断后，若其异常程度较高，则再对其进行优化时，优化后的数据类与实际数据偏差已经较大，若要继续维持数据质量，则需要对重新采集数据，从而在对NPC模型进行构建时，通过提高样本数据的数据质量，能够对NPC模型的可靠性形成保障。

步骤三、对处理后的数据做特征识别，由样本数据训练获取增强式记忆网络，并基于Transformer的语言模型训练获取相应的语言沟通模型，将训练后的增强式记忆网络和语言沟通模型结合，生成NPC回复模型；

所述步骤三包括如下内容：

步骤301、对模型构建数据集合内各类数据进行特征识别，获取相应的数据特征；从数据特征中确定出用于描述NPC模型环境和对话状态的各种目标变量，包括NPC当前的情感状态、对话历史、客户行为、环境特征等，将目标变量组合成为状态向量，作为增强式记忆网络的输入，构成状态空间；

步骤302、为NPC的行为设计动作空间，用于描述NPC可以采取的各种行为，包括回复的内容，情感表达，或者其他与对话相关的行为；所述动作空间为离散空间或连续空间；

确定NPC可选动作的类型和数量，例如回复的选择、情感表达的方式等，在对话系统中根据对话的流畅性、情感表达的准确性、与客户互动的效果等方面来设计奖励函数；奖励函数需要激励NPC采取对话和行为，使得NPC的表现更符合预期，同时也需要惩罚不良行为，以引导NPC学习正确的对话和行为策略；

步骤303、选择基于Transformer的语言模型，使用收集的数据和预处理的文本特征，对大模型进行训练，获取相应的语言沟通模型；将训练后的增强式记忆网络和语言沟通模型结合，生成NPC回复模型；使NPC回复模型依据语义环境和对话状态选择相应的动作，在NPC模型与客户交互时，使用语言沟通模型生成对话回复；

使用时，结合步骤301至303中的内容：

在确定NPC模型的使用需求、使用场景及完成数据采集和预处理后，由增强式记忆网络结合Transformer的语言模型，在经过设置参数和训练后获取NPC回复模型，从而完成NPC回复模型的构建，因此，在将NPC回复模型客服系统时，能够提高客服系统的工作效率和回复速度，同时，通过在高数据质量的样本数据的基础上构建NPC模型，能够对模型的可靠性形成保障，在将其用于客服系统时，能够保障客服系统的工作效率。

步骤四、收集客服系统内的NPC回复模型在各个账号中的使用状态数据并构建反馈数据集合，由反馈数据集合构建反馈系数，将若干个反馈系数/>汇总并构建NPC回复模型的可靠度/>，若可靠度/>低于可靠度阈值，向外部发出模型优化指令；

所述步骤四包括如下内容：

步骤401、在构建的NPC回复模型进入使用状态后，设置包含若干个子周期的观察周期，在各个子周期内收集NPC回复模型的使用状态数据，包括NPC回复模型在使用的响应速度和回复内容时的准确率；将客服系统内各个账号的响应速度及准确率/>汇总后，构建NPC回复模型的使用状态反馈数据集合；

步骤402、由反馈数据集合构建反馈系数，以获取的反馈系数/>对各个账号进行标注；方式如下：对响应速度/>及准确率/>做线性归一化处理后，将相应的数据值映射至区间/>内，依照如下公式：/>其中，/>为子周期的个数，/>，/>为第i个子周期的响应速度，/>为响应速度均值，/>为第i个子周期的准确率，/>为准确率均值，权重系数：，且/>，其中，权重系数参考层次分析法获取；需要说明的是，此部分的权重系数/>的取值与前值一致；

在完成构建的NPC回复模型构建并将其应用于客服系统后，对其实际使用状态进行监控，并采集相应的数据，从而在此基础上构建反馈系数，依据反馈系数/>对NPC回复模型的使用状态进行评价，判断其可用性；

步骤403、在获取各个账号的反馈系数后，将若干个反馈系数/>汇总，依照如下方式构建NPC回复模型的可靠度/>：其中，/>，/>为账号的个数，权重系数：/>且/>；/>为第i个账号的反馈系数，所述/>为反馈系数的均值；/>为反馈系数的预设目标值；

需要说明的是，此处的权重系数与之前的/>取值相同；

依据对NPC回复模型的使用效果的预期及历史数据，预先设置可靠度阈值，若可靠度低于可靠度阈值，则说明当前条件下的NPC回复模型还能满足对客户信息回复要求，需要对当前的NPC回复模型做出优化，此时，向外部发出模型优化指令；

使用时，结合步骤401至403中的内容：

在获取到客服系统内的各个账号的反馈系数后，进而构建相应的可靠度/>，从而在整体上能够在整体上对NPC回复模型的使用效果进行评价，若是当前生成的NPC回复模型的使用效果能够达到预期，则NPC回复模型构建完成，在记忆强化算法结合Transformer的语言模型的基础上构建NPC回复模型，所构建的NPC回复模型对客服系统及其运行环境适应性高，能够对实际的使用环境更贴合。

步骤五、由模型优化知识图谱给出模型优化策略，依据模型优化策略对NPC回复模型进行优化，依据优化后NPC回复模型的使用状态数据构建可靠度集合，并由可靠度集合生成优化度，依据优化度/>对NPC回复模型作相应性处理；

所述步骤五包括如下内容：

步骤501、接收到模型优化指令后，若NPC回复模型仍处于运行状态时，获取NPC回复模型的各项参数及运行状态数据，在设置优化目标后，对以上参数或数据进行特征识别，获取相应的优化特征；

以模型优化及相关词作为检索词，在经过深度检索后，预先构建模型优化知识图谱；使用训练后的匹配模型，依据优化特征与优化策略间的对应性，由模型优化知识图谱给出模型优化策略；执行所述模型优化策略，对NPC回复模型的各项参数进行优化；

使用时，由预先构建的模型优化知识图谱给出模型优化策略，在需要对NPC回复模型进行优化时，能够快速获取相应的模型优化策略，提高模型优化效率，通过模型优化知识图谱给出模型优化策略，使模型优化策略和NPC回复模型间的匹配程度更高。

步骤502、在继续使用NPC回复模型时，观察NPC回复模型的使用状态，于各个观察子周期内获取相应的可靠度，并在汇总后构建可靠度集合，对各个子周期内的可靠度做分析以获取相应的优化度/>，方式如下：其中，/>为可靠度的合格参考值，为可靠度的均值，/>，/>为子周期的个数，/>为NPC回复模型在第i个子周期内的模型可靠度；权重系数：/>，且/>；此部分的权重系数/>的取值与前文一致；

依据历史数据及对NPC回复模型的使用预期，预先设置优化度阈值，若获取的优化度低于优化度阈值，则说明对执行的优化策略未能达到预期的效果，若是不重新更换优化策略，则需要对执行的优化策略的各项参数指标做出进一步的优化，此时，发出策略优化指令；

使用时，在对NPC回复模型完成初步优化后，对优化后的使用状态进行观测，并由观测数据构建优化度，依据优化度/>对当前的优化效果进行判断，若是优化效果较差，则可能由于当前的模型策略存在部分不足，为了提高NPC回复模型的可靠性，需要进一步处理。

步骤503、接收到策略优化指令后，使用蚁群算法构建初始模型，由样本数据训练获取优化模型，在设置优化目标后，对模型优化策略进行优化，获取优化的模型优化策略；

执行优化的模型优化策略，若获取的优化度高于优化前的值，完成NPC回复模型的构建；反之，则重新由模型优化知识图谱给出模型优化策略。

使用时，结合步骤501至503中的内容：

在需要对NPC回复模型进行进一步处理时，优先对当前的模型优化策略进行改进，在优化仍难以取得应有的效果时，则重新由模型优化知识图谱给出模型优化策略，从而在初步完成NPC回复模型的构建后，依据NPC回复模型的实际使用场景，进一步的对其进行优化和改进，从而避免出现模型和实际使用场景关联度有限，可靠性不足的情形。

其中，权重系数可参考层次分析法获取，层次分析法是一种定性和定量相结合的分析方法，它可以将复杂的问题分解为多个层次，通过比较各层次因素的重要性，可以帮助决策者对复杂问题进行决策，确定最终的决策方案，在这个过程中，层次分析法可以用来确定这些指标的权重系数。

需要说明的是，知识图谱的构建可以参考如下内容：

收集与模型优化相关的各种数据源，包括模型训练数据、验证数据、测试数据，以及模型性能指标、特征工程方法等。这些数据可以来自公开数据集、行业报告、学术论文、企业内部数据等多个渠道。

根据收集到的数据和相关文献，确定知识图谱的结构，包括实体、关系、属性等。可考虑使用图数据库或知识图谱建模工具来组织和管理知识图谱的结构。

将收集到的数据和相关信息填充到知识图谱中，建立实体之间的关联，包括模型参数、优化方法、特征工程技术、模型性能指标等信息。这可以通过手工构建，也可以借助自然语言处理和信息抽取技术进行自动化构建。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一些逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-onlymemory，ROM）、随机存取存储器（randomaccessmemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：包括，

在客服系统处于工作状态时，对其各个账号的工作状态进行监控，由监控数据构建差异数据集合，由差异数据集合构建差异系数，进而由账号的差异系数/>构建负荷度/>，若负荷度/>超过负荷阈值，发出数据采集指令；其中，构建负荷度/>方式如下：

其中，为账号的个数，权重系数：/>且；/>为差异系数的均值；/>为差异系数的预设目标值；

对处理后数据做特征识别，由样本数据训练获取增强式记忆网络，并基于Transformer的语言模型训练获取相应的语言沟通模型，将训练后的增强式记忆网络和语言沟通模型结合，生成NPC回复模型；其中，对模型构建数据集合内各类数据进行特征识别，获取相应的数据特征，从数据特征中确定出用于描述NPC模型环境和对话状态的目标变量将目标变量组合成为状态向量，作为增强式记忆网络的输入，构成状态空间；为NPC的行为设计动作空间，包括回复的内容，情感表达，或者其他与对话相关的行为，确定NPC可选动作的类型和数量，在对话系统中设计奖励函数；

选择基于Transformer的语言模型，使用收集的数据和预处理的文本特征，对大模型进行训练，获取相应的语言沟通模型；使NPC回复模型依据语义环境和对话状态选择相应的动作，在NPC模型与客户交互时，使用语言沟通模型生成对话回复；

2.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：在子周期内查询每个账号与客户间的沟通记录，沟通记录中获取对不同客户沟通状态数据；包括：对不同客户之间的沟通记录做相似度分析，获取当前客户与其余客户回复记录之间不相似度的均值，以其作为差异度，并统计给各个客户的内容回复量；将获取的差异度/>及回复量/>汇总后，汇总后构建差异数据集合。

3.根据权利要求2所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：由差异数据集合构建差异系数，方式如下：对差异度/>及回复量/>做线性归一化处理后，将相应的数据值映射至区间/>内，依照如下方式：

其中，为当前账号接入客户的个数，/>为差异度均值，/>为回复量均值，权重系数：/>，且/>。

4.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：接收到数据采集指令后，收集与NPC相关的目标数据，将采集的目标数据依据类别进行归类和初步预处理，获取预处理数据类；

对获取的预处理数据类中的数据做数据质量分析，并获取相应的数据分析指标，从分析指标中获取标准分数及偏度系数/>，并在对两者做线性归一化处理后，将相应的数据值映射至区间/>内，构建对应数据组的数据质量系数/>：

其中，为权重系数，/>，且/>；

5.根据权利要求4所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：在接收到异常数据筛选指令后，构建异常阈值，若低质量数据组内的数据值不在异常阈值之内，将其确定为异常数据；计算出低质量数据类中异常数据的异常度，方式如下：

其中，为权重，/>，且/>，/>为第i个异常数据，，n为异常数据的个数，/>为低质量数据类中的数据均值；

6.根据权利要求5所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：在各个子周期内收集NPC回复模型的使用状态数据，包括NPC回复模型在使用的响应速度和回复内容时的准确率；将客服系统内各个账号的响应速度及准确率/>汇总后，构建NPC回复模型的使用状态反馈数据集合；由反馈数据集合构建反馈系数/>，以获取的反馈系数/>对各个账号进行标注。

7.根据权利要求6所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：在获取各个账号的反馈系数后，将若干个反馈系数/>汇总，依照如下方式构建NPC回复模型的可靠度/>：

其中，为账号的个数，权重系数：/>且；/>为反馈系数的均值；/>为反馈系数的预设目标值。

8.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：接收到模型优化指令后，获取NPC回复模型的各项参数及运行状态数据，对以上参数或数据进行特征识别，获取相应的优化特征；预先构建模型优化知识图谱，依据优化特征与优化策略间的对应性，由模型优化知识图谱给出模型优化策略；执行所述模型优化策略，对NPC回复模型的各项参数进行优化。

9.根据权利要求8所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：观察NPC回复模型的使用状态，于各个观察子周期内获取相应的可靠度，汇总后构建可靠度集合，由可靠度集合获取相应的优化度/>，若获取的优化度/>低于优化度阈值，发出策略优化指令；