CN116603249B

CN116603249B - 应用于角色扮演推理类游戏的大语言模型的训练方法

Info

Publication number: CN116603249B
Application number: CN202310884926.0A
Authority: CN
Inventors: 汪骞; 暴宇健; 王芳
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-03
Anticipated expiration: 2043-07-19
Also published as: CN116603249A

Abstract

本申请涉及虚拟游戏技术领域，提供了一种应用于角色扮演推理类游戏的大语言模型的训练方法。该方法包括：获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，目标游戏为角色扮演推理类；依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练；依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；利用上下文字级别训练后的大语言模型在目标游戏为各个用户提供服务，收集各个用户对大语言模型提供服务的反馈，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练。

Description

应用于角色扮演推理类游戏的大语言模型的训练方法

技术领域

本申请涉及虚拟游戏技术领域，尤其涉及一种应用于角色扮演推理类游戏的大语言模型的训练方法。

背景技术

近年来，各种新兴的角色扮演推理类游戏层出不穷，最受欢迎的包括剧本杀、密室逃脱等，且角色扮演推理类游戏线上化也成为一种趋势。线上角色扮演推理类游戏需要系统进行玩家配对，在人数不足时，提供人机补位，除此之外，还需要对玩家的问题进行回复。但是目前线上角色扮演推理类游戏中的智能服务（包括人机扮演角色以及对玩家的回复）千篇一律，并没有完全适应剧情发展。

发明内容

有鉴于此，本申请实施例提供了一种应用于角色扮演推理类游戏的大语言模型的训练方法、装置、电子设备及计算机可读存储介质，以解决现有技术中，线上角色扮演推理类游戏中的智能服务无法适应剧情发展的问题。

本申请实施例的第一方面，提供了一种应用于角色扮演推理类游戏的大语言模型的训练方法，包括：获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，目标游戏为角色扮演推理类；依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练；依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；利用上下文句级别训练后的大语言模型在目标游戏为各个用户提供服务，收集各个用户对大语言模型提供服务的反馈，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练。

本申请实施例的第二方面，提供了一种应用于角色扮演推理类游戏的大语言模型的训练装置，包括：生成模块，被配置为获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，目标游戏为角色扮演推理类；第一训练模块，被配置为依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练；第二训练模块，被配置为依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；第三训练模块，被配置为利用上下文句级别训练后的大语言模型在目标游戏为各个用户提供服务，收集各个用户对大语言模型提供服务的反馈，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：因为本申请实施例通过获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，目标游戏为角色扮演推理类；依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练；依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；利用上下文句级别训练后的大语言模型在目标游戏为各个用户提供服务，收集各个用户对大语言模型提供服务的反馈，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练，因此，采用上述技术手段，可以解决现有技术中，线上角色扮演推理类游戏中的智能服务无法适应剧情发展的问题，进而提升线上角色扮演推理类游戏的智能化。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的一种应用于角色扮演推理类游戏的大语言模型的训练方法的流程示意图；

图2是本申请实施例提供的另一种应用于角色扮演推理类游戏的大语言模型的训练方法的流程示意图；

图3是本申请实施例提供的一种应用于角色扮演推理类游戏的大语言模型的训练装置的结构示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

图1是本申请实施例提供的一种应用于角色扮演推理类游戏的大语言模型的训练方法的流程示意图。图1的应用于角色扮演推理类游戏的大语言模型的训练方法可以由计算机或服务器，或者计算机或服务器上的软件执行。如图1所示，该应用于角色扮演推理类游戏的大语言模型的训练方法包括：

S101，获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，目标游戏为角色扮演推理类；

S102，依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练；

S103，依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；

S104，利用上下文句级别训练后的大语言模型在目标游戏为各个用户提供服务，收集各个用户对大语言模型提供服务的反馈，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练。

大语言模型(Large Language Model，LLM)。目标游戏的训练数据包括目标游戏的背景数据、用户之间的交互数据和目标游戏的剧情数据，背景数据是关于目标游戏的故事背景以及故事开始的介绍等数据，交互数据是每次目标游戏中扮演各个角色的用户的交互的数据，剧情数据是目标游戏的整个故事情节，包括剧情发展。第一自回归语言任务是按照字级别训练大语言模型的任务，第二自回归语言任务是按照句级别训练大语言模型的任务。本申请实施例是大语言模型进行三次训练：上下文字级别训练、上下文句级别训练和强化学习训练，以提高大语言模型的精度。

根据本申请实施例提供的技术方案，获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，目标游戏为角色扮演推理类；依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练；依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；利用上下文句级别训练后的大语言模型在目标游戏为各个用户提供服务，收集各个用户对大语言模型提供服务的反馈，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练，因此，采用上述技术手段，可以解决现有技术中，线上角色扮演推理类游戏中的智能服务无法适应剧情发展的问题，进而提升线上角色扮演推理类游戏的智能化。

进一步地，依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练，包括：将训练数据中的每个字输入大语言模型，利用大语言模型预测每个字的下一个字的方式对大语言模型进行训练；将训练数据中的多个连续的字输入大语言模型，利用大语言模型预测多个连续的字的下一个字的方式对大语言模型进行训练；其中，上下文字级别训练为有监督学习训练。

比如训练数据中有一个对话“沃克尔：抱歉，你们要找的不是我，因为昨晚我在酒吧喝酒呢。你：您有没有谁能帮您作证呢？”可以利用大语言模型预测“抱”、“你”等的下一个字，可以利用大语言模型预测“你们要”、“因为昨晚我在酒吧喝”等的下一个字。计算预测的结果和真实的字之间的损失，进而训练大语言模型。

进一步地，依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练，包括：将训练数据中的每个句子输入大语言模型，利用大语言模型预测每个句子的下一个句子的方式对大语言模型进行训练；将训练数据中的多个连续的句子输入大语言模型，利用大语言模型预测多个连续的句子的下一个句子的方式对大语言模型进行训练；其中，上下文句级别训练为有监督学习训练。

比如训练数据中有一个对话“沃克尔：抱歉，你们要找的不是我，因为昨晚我在酒吧喝酒呢。你：您有没有谁能帮您作证呢？沃克尔：酒吧服务员可以作证。你：大概是昨天什么时间段在酒吧呢？”可以利用大语言模型预测“你”对“沃克尔”说的“抱歉，你们要找的不是我，因为昨晚我在酒吧喝酒呢”的回答等，可以利用大语言模型预测“你”在“沃克尔：抱歉，你们要找的不是我，因为昨晚我在酒吧喝酒呢。你：您有没有谁能帮您作证呢？沃克尔：酒吧服务员可以作证”之后应该怎样回答等。计算预测的结果和真实的句子之间的损失，进而训练大语言模型。

进一步地，依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练，包括：将训练数据中的数据按照交互语义进行划分，得到多个交互回合，其中，每个交互回合包括N条数据，第i条数据和第i+1条数据互为相似句，N为奇数，第N条数据没有其对应的相似句，i为开区间（0，N）内的奇数，i+1小于N；将多个交互回合依次输入上下文字级别训练后的大语言模型，利用大语言模型预测每个交互回合中第N条数据对应的相似句的方式对大语言模型进行训练；其中，上下文句级别训练为有监督学习训练。

将训练数据中的数据按照交互语义进行划分，可以是按照交互语义的主题对训练数据中的数据进行划分，每个交互回合对应一个主题，也就是说每个交互回合是围绕着一个主题进行。第i+1条数据可以看作是对第i条数据的回答，第i条数据和第i+1条数据互为相似句。利用大语言模型预测每个交互回合中第N条数据对应的相似句，是利用大语言模型预测每个交互回合中第N条数据对应的回答，也就是预测第N+1条数据。

进一步地，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练，包括：将各个用户对大语言模型提供服务的反馈作为大语言模型为各个用户提供服务的奖励；依据各个用户对应的奖励更新大语言模型的参数，以完成对大语言模型进行的强化学习训练。

还可以对各个用户对大语言模型提供服务的反馈进行打分，将打分的结果作为大语言模型为各个用户提供服务的奖励。

进一步地，依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练，包括：生成常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务；依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练的过程中，将常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务作为第二自回归语言任务的辅助任务对大语言模型进行相应的训练。

本申请实施例通过多个辅助任务提升第二自回归语言任务的训练效果。

进一步地，利用训练后的大语言模型在目标游戏为各个用户提供服务，包括：根据目标游戏的背景数据、各个用户输入的数据和目标游戏的剧情进展对各个用户进行回复或者扮演角色。

图2是本申请实施例提供的另一种应用于角色扮演推理类游戏的大语言模型的训练方法的流程示意图。如图2所示，包括：

S201，生成常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务；

S202，依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；

S203，将常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务作为第二自回归语言任务的辅助任务对大语言模型进行相应的训练。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图3是本申请实施例提供的一种应用于角色扮演推理类游戏的大语言模型的训练装置的示意图。如图3所示，该应用于角色扮演推理类游戏的大语言模型的训练装置包括：

生成模块301，被配置为获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，目标游戏为角色扮演推理类；

第一训练模块302，被配置为依据第一自回归语言任务，利用训练数据对大语言模型进行上下文字级别训练；

第二训练模块303，被配置为依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；

第三训练模块304，被配置为利用上下文句级别训练后的大语言模型在目标游戏为各个用户提供服务，收集各个用户对大语言模型提供服务的反馈，依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练。

可选地，第一训练模块302还被配置为将训练数据中的每个字输入大语言模型，利用大语言模型预测每个字的下一个字的方式对大语言模型进行训练；将训练数据中的多个连续的字输入大语言模型，利用大语言模型预测多个连续的字的下一个字的方式对大语言模型进行训练；其中，上下文字级别训练为有监督学习训练。

可选地，第二训练模块303还被配置为将训练数据中的每个句子输入大语言模型，利用大语言模型预测每个句子的下一个句子的方式对大语言模型进行训练；将训练数据中的多个连续的句子输入大语言模型，利用大语言模型预测多个连续的句子的下一个句子的方式对大语言模型进行训练；其中，上下文句级别训练为有监督学习训练。

可选地，第二训练模块303还被配置为将训练数据中的数据按照交互语义进行划分，得到多个交互回合，其中，每个交互回合包括N条数据，第i条数据和第i+1条数据互为相似句，N为奇数，第N条数据没有其对应的相似句，i为开区间（0，N）内的奇数，i+1小于N；将多个交互回合依次输入上下文字级别训练后的大语言模型，利用大语言模型预测每个交互回合中第N条数据对应的相似句的方式对大语言模型进行训练；其中，上下文句级别训练为有监督学习训练。

可选地，第三训练模块304还被配置为将各个用户对大语言模型提供服务的反馈作为大语言模型为各个用户提供服务的奖励；依据各个用户对应的奖励更新大语言模型的参数，以完成对大语言模型进行的强化学习训练。

可选地，第二训练模块303还被配置为生成常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务；依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练的过程中，将常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务作为第二自回归语言任务的辅助任务对大语言模型进行相应的训练。

可选地，第三训练模块304还被配置为根据目标游戏的背景数据、各个用户输入的数据和目标游戏的剧情进展对各个用户进行回复或者扮演角色。

可选地，第二训练模块303还被配置为生成常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务；依据第二自回归语言任务，利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；将常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务作为第二自回归语言任务的辅助任务对大语言模型进行相应的训练。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图4是本申请实施例提供的电子设备4的示意图。如图4所示，该实施例的电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4的示例，并不构成对电子设备4的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器401可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器402可以是电子设备4的内部存储单元，例如，电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备，例如，电子设备4上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种应用于角色扮演推理类游戏的大语言模型的训练方法，其特征在于，包括：

获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，所述目标游戏为角色扮演推理类，所述目标游戏的训练数据包括目标游戏的背景数据、用户之间的交互数据和目标游戏的剧情数据；

依据第一自回归语言任务，利用所述训练数据对大语言模型进行上下文字级别训练；

依据第二自回归语言任务，利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；

利用上下文句级别训练后的大语言模型在所述目标游戏为各个用户提供服务，收集各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈，依据各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈对所述上下文句级别训练后的大语言模型进行强化学习训练；

依据第一自回归语言任务，利用所述训练数据对大语言模型进行上下文字级别训练，包括：

将所述训练数据中的每个字输入所述大语言模型，利用所述大语言模型预测每个字的下一个字的方式对所述大语言模型进行训练；

将所述训练数据中的多个连续的字输入所述大语言模型，利用所述大语言模型预测多个连续的字的下一个字的方式对所述大语言模型进行训练；

其中，所述上下文字级别训练为有监督学习训练；

依据第二自回归语言任务，利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练，包括：

将所述训练数据中的每个句子输入所述上下文字级别训练后的大语言模型，利用所述上下文字级别训练后的大语言模型预测每个句子的下一个句子的方式对所述上下文字级别训练后的大语言模型进行训练；

将所述训练数据中的多个连续的句子输入所述上下文字级别训练后的大语言模型，利用所述上下文字级别训练后的大语言模型预测多个连续的句子的下一个句子的方式对所述上下文字级别训练后的大语言模型进行训练；

其中，所述上下文句级别训练为有监督学习训练；

或者，

将所述训练数据中的数据按照交互语义的主题进行划分，得到多个交互回合，每个交互回合对应一个主题，其中，每个交互回合包括N条数据，第i条数据和第i+1条数据互为相似句，N为奇数，第N条数据没有其对应的相似句，i为开区间（0，N）内的奇数，i+1小于N；

将多个交互回合依次输入所述上下文字级别训练后的大语言模型，利用所述上下文字级别训练后的大语言模型预测每个交互回合中第N条数据对应的相似句的方式对所述上下文字级别训练后的大语言模型进行训练；

其中，所述上下文句级别训练为有监督学习训练；

所述方法还包括：

生成常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务；

依据所述第二自回归语言任务，利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练的过程中，将所述常识问答任务、所述文案生成任务、所述翻译任务、所述自动摘要任务、所述文本分类任务和所述对话任务作为所述第二自回归语言任务的辅助任务对所述上下文字级别训练后的大语言模型进行相应的训练。

2.根据权利要求1所述的方法，其特征在于，依据各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈对所述上下文句级别训练后的大语言模型进行强化学习训练，包括：

将各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈作为所述上下文句级别训练后的大语言模型为各个用户提供服务的奖励；

依据各个用户对应的奖励更新所述上下文句级别训练后的大语言模型的参数，以完成对所述上下文句级别训练后的大语言模型进行的强化学习训练。

3.根据权利要求1所述的方法，其特征在于，利用上下文句级别训练后的大语言模型在所述目标游戏为各个用户提供服务，包括：

根据所述目标游戏的背景数据、各个用户输入的数据和所述目标游戏的剧情进展对各个用户进行回复或者扮演角色。

4.一种应用于角色扮演推理类游戏的大语言模型的训练装置，其特征在于，包括：

生成模块，被配置为获取目标游戏的训练数据，并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务，其中，所述目标游戏为角色扮演推理类，所述目标游戏的训练数据包括目标游戏的背景数据、用户之间的交互数据和目标游戏的剧情数据；

第一训练模块，被配置为依据第一自回归语言任务，利用所述训练数据对大语言模型进行上下文字级别训练；

第二训练模块，被配置为依据第二自回归语言任务，利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练；

第三训练模块，被配置为利用上下句字级别训练后的大语言模型在所述目标游戏为各个用户提供服务，收集各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈，依据各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈对所述上下文句级别训练后的大语言模型进行强化学习训练；

所述第一训练模块具体被配置为：将所述训练数据中的每个字输入所述大语言模型，利用所述大语言模型预测每个字的下一个字的方式对所述大语言模型进行训练；将所述训练数据中的多个连续的字输入所述大语言模型，利用所述大语言模型预测多个连续的字的下一个字的方式对所述大语言模型进行训练；其中，所述上下文字级别训练为有监督学习训练；

所述第二训练模块具体被配置为：将所述训练数据中的每个句子输入所述上下文字级别训练后的大语言模型，利用所述上下文字级别训练后的大语言模型预测每个句子的下一个句子的方式对所述上下文字级别训练后的大语言模型进行训练；将所述训练数据中的多个连续的句子输入所述上下文字级别训练后的大语言模型，利用所述上下文字级别训练后的大语言模型预测多个连续的句子的下一个句子的方式对所述上下文字级别训练后的大语言模型进行训练；其中，所述上下文句级别训练为有监督学习训练；

或者，

所述第二训练模块具体被配置为：将所述训练数据中的数据按照交互语义的主题进行划分，得到多个交互回合，每个交互回合对应一个主题，其中，每个交互回合包括N条数据，第i条数据和第i+1条数据互为相似句，N为奇数，第N条数据没有其对应的相似句，i为开区间（0，N）内的奇数，i+1小于N；将多个交互回合依次输入所述上下文字级别训练后的大语言模型，利用所述上下文字级别训练后的大语言模型预测每个交互回合中第N条数据对应的相似句的方式对所述上下文字级别训练后的大语言模型进行训练；其中，所述上下文句级别训练为有监督学习训练；

所述第二训练模块具体还被配置为：生成常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务；依据所述第二自回归语言任务，利用所述训练数据对所述上下文字级别训练后的大语言模型进行上下文句级别训练的过程中，将所述常识问答任务、所述文案生成任务、所述翻译任务、所述自动摘要任务、所述文本分类任务和所述对话任务作为所述第二自回归语言任务的辅助任务对所述上下文字级别训练后的大语言模型进行相应的训练。

5.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述方法的步骤。