CN117808946A

CN117808946A - 基于大语言模型的二次元角色构建方法及系统

Info

Publication number: CN117808946A
Application number: CN202410233286.1A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Xiamen Shenfuzhi Technology Co ltd
Current assignee: Xiamen Shenfuzhi Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-04-02

Abstract

本发明实施例公开了一种基于大语言模型的二次元角色构建方法及系统，获取完整角色描述语料库，通过大语言模型对完整角色描述语料库进行处理，得到每个角色对应的系统提示词；通过向量引擎对原始问题和完整角色描述语料库进行语义相似度检索，得到与原始问题相关的语料库信息；将原始问题、语料库信息和系统提示词生成最终提示词，通过大语言模型对最终提示词进行处理，得到指令微调数据；将指令微调数据输入二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；基于训练好的二次元角色对话模型获取二次元角色。该基于大语言模型的二次元角色构建方法解决现有技术中无法简单、科学地基于大语言模型构建二次元角色的问题。

Description

基于大语言模型的二次元角色构建方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及一种基于大语言模型的二次元角色构建方法、系统、电子设备及存储介质。

背景技术

人工智能二次元角色构建是一项利用人工智能模拟动漫、游戏等二次元作品中角色对话的技术。目前市面上大多依赖传统的自然语言处理技术构建人工智能二次元角色，虽然能在一定程度上模拟二次元角色的对话风格，但生成的对话常常缺乏流畅性，难以真实地模拟人类的对话方式，且在展现角色的个性化特征和风格方面也表现不足，处理复杂或未预见的对话情境时，应对能力有限，灵活性不足，另外，大多数自然语言处理技术依赖大量的标注数据，适应能力和扩展性较差。

亟需一种能够更准确、更自然地模拟二次元角色对话风格的方法。

发明内容

本发明实施例的目的在于提供一种基于大语言模型的二次元角色构建方法、系统、电子设备及存储介质，用以解决现有技术中无法简单、便捷、快速、科学地基于大语言模型构建二次元角色的问题。

为实现上述目的，本发明实施例提供一种基于大语言模型的二次元角色构建方法，所述方法具体包括：

获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；

获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；

将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；

构建二次元角色对话模型；

将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；

基于训练好的二次元角色对话模型获取二次元角色。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，所述获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词，包括：

通过所述大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的描述信息；

基于每个角色对应的描述信息、预设提示词模板和预制对话范例生成每个角色对应的系统提示词。

进一步地，所述构建二次元角色对话模型，包括：

基于所述完整角色描述语料库对所述二次元角色对话模型进行预训练，得到预训练好的二次元角色对话模型。

进一步地，所述将所述训练集输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型，包括：

获取一定数量的指令微调数据，基于所述指令微调数据划分为训练集、验证集和测试集；

基于所述训练集中的指令微调数据训练所述二次元角色对话模型；

基于所述验证集对训练后的所述二次元角色对话模型进行效果评估，得到满足效果条件的二次元角色对话模型；

基于所述测试集评估满足效果条件的所述二次元角色对话模型的构建结果，得到所述二次元角色对话模型所对应的评价指数。

进一步地，所述基于大语言模型的二次元角色构建方法，还包括：

二次元角色构建完成后，对所述二次元角色进行提问，得到所述二次元角色的回答结果；

基于所述回答结果对所述二次元角色进行评估，得到所述二次元角色的评估结果。

基于所述评估结果判断所述二次元角色是否合格，当所述二次元角色不合格时，重新构建所述二次元角色。

一种基于大语言模型的二次元角色构建系统，包括：

系统提示词获取模块，用于获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；

语料库信息获取模块，用于获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；

指令微调数据获取模块，用于将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；

构建模块，用于构建二次元角色对话模型；

训练模块，用于将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；

基于训练好的二次元角色对话模型获取二次元角色。

进一步地，所述基于大语言模型的二次元角色构建系统，还包括：

将训练好的二次元角色对话模型整合进二次元角色构建系统中，所述二次元角色构建系统包括交互界面。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

本发明实施例具有如下优点：

本发明中基于大语言模型的二次元角色构建方法，获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；构建二次元角色对话模型；将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；基于训练好的二次元角色对话模型获取二次元角色，解决了现有技术中无法简单、科学地基于大语言模型构建二次元角色的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明基于大语言模型的二次元角色构建方法的流程图；

图2为本发明基于大语言模型的二次元角色构建系统的第一架构图；

图3为本发明基于大语言模型的二次元角色构建系统的第二架构图；

图4为本发明提供的电子设备实体结构示意图。

其中附图标记为：

系统提示词获取模块10，语料库信息获取模块20，指令微调数据获取模块30，构建模块40，训练模块50，角色评估模块60，系统交互模块70，电子设备80，处理器801，存储器802，总线803。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1为本发明基于大语言模型的二次元角色构建方法实施例流程图，如图1所示，本发明实施例提供的一种基于大语言模型的二次元角色构建方法包括以下步骤：

S101，获取完整角色描述语料库，通过大语言模型对完整角色描述语料库进行处理，得到每个角色对应的系统提示词；

具体的，通过所述大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的描述信息；优选的，大语言模型为GPT4或Claude2；

基于每个角色对应的描述信息、预设提示词模板和预制对话范例生成每个角色对应的系统提示词（system prompt）。

S102，获取原始问题，通过向量引擎对原始问题和完整角色描述语料库进行语义相似度检索，得到与原始问题相关的语料库信息；

S103，将原始问题、语料库信息和系统提示词生成最终提示词，通过大语言模型对最终提示词进行处理，得到指令微调数据；

S104，构建二次元角色对话模型。

具体的，基于所述完整角色描述语料库对所述二次元角色对话模型进行预训练，得到预训练好的二次元角色对话模型。

S105，将指令微调数据输入二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；

具体的，获取一定数量的指令微调数据，基于所述指令微调数据划分为训练集、验证集和测试集；

基于所述验证集对训练好的所述二次元角色对话模型进行效果评估，得到满足效果条件的二次元角色对话模型；基于所述测试集评估满足效果条件的所述二次元角色对话模型的相似度计算结果，得到所述二次元角色对话模型所对应的评价指数。对二次元角色对话模型进行效果评估，得到是百分制分数(即最高分为100分，最低分为0分)，基于百分制分数确定打分大于设定数值的二次元角色对话模型，例如，打分大于90分的二次元角色对话模型为满足效果条件的二次元角色对话模型；

满足效果条件的二次元角色对话模型进行评价指数计算，得到二次元角色对话模型的评价指数，计算获得每个评价指数对应的评价值，所述评价值用于表示所述二次元角色对话模型在所述评价指数上的能力值。

S106，基于训练好的二次元角色对话模型获取二次元角色；

具体的，二次元角色构建完成后，对所述二次元角色进行提问，提问包括角色使用通用问题、关键信息问题，得到所述二次元角色的回答结果；

基于所述回答结果对所述二次元角色进行评估，评估所述回答结果的自然度、与原问题关键词的相关度，得到所述二次元角色的评估结果。

该基于大语言模型的二次元角色构建方法，获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；构建二次元角色对话模型；将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；基于训练好的二次元角色对话模型获取二次元角色。解决了现有技术中无法简单、便捷、快速、科学地基于大语言模型构建二次元角色的问题。

该基于大语言模型的二次元角色构建方法结合先进的大语言模型，专门针对中文二次元角色对话生成场景，显著提升了构建新二次元角色的效率，同时提升了对话内容的个性化和自然流畅性。通过深入分析和处理大量二次元相关中文语料，结合大语言模型的处理能力，生成具有丰富情感和精准角色特性的对话。且该基于大语言模型的二次元角色构建方法易于适应新的应用场景，满足二次元文化爱好者的多样化需求，为提高中文二次元角色交互体验的真实感和实用性做出了重要贡献。可以有效提高构建新二次元角色的效率，通过融合多种技术，生成自然且个性化的对话。通过先进的算法和技术，能够自动识别并处理不同角色的独特属性，确保每个构建出的角色呈现出丰富的个性化细节。这一全自动化的构建过程不仅大幅提高了效率，也确保了角色的多样性和真实感，使得该基于大语言模型的二次元角色构建方法能够广泛应用于各种场景中，如游戏、动漫制作或虚拟现实等。

图2-图3为本发明基于大语言模型的二次元角色构建系统实施例架构图；如图2-图3所示，本发明实施例提供的一种基于大语言模型的二次元角色构建系统，包括以下步骤：

系统提示词获取模块10，用于获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；

所述系统提示词获取模块10还用于：

语料库信息获取模块20，用于获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；

指令微调数据获取模块30，用于将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；

构建模块40，用于构建二次元角色对话模型；

所述构建模块40还用于：

训练模块50，用于将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；

所述训练模块50还用于：

基于训练好的二次元角色对话模型获取二次元角色。

角色评估模块60，用于二次元角色构建完成后，对所述二次元角色进行提问，得到所述二次元角色的回答结果；

系统交互模块70，用于将训练好的二次元角色对话模型整合进二次元角色构建系统中，所述二次元角色构建系统包括交互界面。

本发明的一种基于大语言模型的二次元角色构建系统，通过系统提示词获取模块10获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；通过语料库信息获取模块20获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；通过指令微调数据获取模块30将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；通过构建模块40构建二次元角色对话模型；通过训练模块50将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；基于训练好的二次元角色对话模型获取二次元角色。该基于大语言模型的二次元角色构建方法解决现有技术中无法简单、便捷、快速、科学地基于大语言模型构建二次元角色的问题。

图4为本发明实施例提供的电子设备实体结构示意图，如图4所示，电子设备80包括：处理器801(processor)、存储器802(memory)和总线803；

其中，处理器801、存储器802通过总线803完成相互间的通信；

处理器801用于调用存储器802中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；构建二次元角色对话模型；将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；基于训练好的二次元角色对话模型获取二次元角色。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词；获取原始问题，通过向量引擎对所述原始问题和所述完整角色描述语料库进行语义相似度检索，得到与所述原始问题相关的语料库信息；将原始问题、所述语料库信息和所述系统提示词生成最终提示词，通过所述大语言模型对所述最终提示词进行处理，得到指令微调数据；构建二次元角色对话模型；将所述指令微调数据输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型；基于训练好的二次元角色对话模型获取二次元角色。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各实施例或者实施例的某些部分的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于大语言模型的二次元角色构建方法，其特征在于，所述方法具体包括：

构建二次元角色对话模型；

基于训练好的二次元角色对话模型获取二次元角色。

2.根据权利要求1所述基于大语言模型的二次元角色构建方法，其特征在于，所述获取完整角色描述语料库，通过大语言模型对所述完整角色描述语料库进行处理，得到每个角色对应的系统提示词，包括：

3.根据权利要求1所述基于大语言模型的二次元角色构建方法，其特征在于，所述构建二次元角色对话模型，包括：

4.根据权利要求1所述基于大语言模型的二次元角色构建方法，其特征在于，所述将所述训练集输入所述二次元角色对话模型进行训练，得到训练好的二次元角色对话模型，包括：

5.根据权利要求1所述基于大语言模型的二次元角色构建方法，其特征在于，所述基于大语言模型的二次元角色构建方法，还包括：

6.根据权利要求5所述基于大语言模型的二次元角色构建方法，其特征在于，所述基于大语言模型的二次元角色构建方法，还包括：

7.一种基于大语言模型的二次元角色构建系统，其特征在于，包括：

构建模块，用于构建二次元角色对话模型；

基于训练好的二次元角色对话模型获取二次元角色。

8.根据权利要求7所述基于大语言模型的二次元角色构建系统，其特征在于，所述基于大语言模型的二次元角色构建系统，还包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中的任一项所述的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述的方法的步骤。