CN117787293A

CN117787293A - 一种基于大语言模型的个性化对话生成方法及系统

Info

Publication number: CN117787293A
Application number: CN202410214954.6A
Authority: CN
Inventors: 马廷淮; 王哲闻
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-03-29
Anticipated expiration: 2044-02-27
Also published as: CN117787293B

Abstract

本发明公开了一种基于大语言模型的个性化对话生成方法及系统，包括：对人物个性对话数据集合进行个性扩展获得人物个性扩展对话数据集；利用预训练的融合模型对人物个性扩展对话数据集中的目标回复进行更新，构成新的个性对话数据集；将个性知识提示输入至大型语言模型获得人物个性信息描述信息，由新的个性对话数据集中检索与当前对话历史信息的相关样本信息，并生成回复提示；将回复提示重新输入至大型语言模型获得最终回复信息；本发明可以有效扩展人物个性信息，并将对话历史和人物个性信息进行动态调整融合，生成能力生成更丰富、多样化和流畅的回复。

Description

一种基于大语言模型的个性化对话生成方法及系统

技术领域

本发明属于自然语言处理领域，具体涉及基于大语言模型的个性化对话生成方法及系统。

背景技术

开发像人类的对话系统是人工智能领域的一个重要主题，其中赋予聊天机器人人物个性信息是当中重要挑战之一。赋予聊天机器人人物个性信息，可以让机器人有了明确记忆，避免只根据最近的对话历史做出应，有效解决了传统的人机对话时机器人缺乏个性和特殊性的问题。现在已经有了用非结构化文本来描述人物个性信息的数据集，基于该数据集训练出的对话模型已经可以捕捉给定的人物个性化信息的简单含义，从而进行个性化对话回复。

然而，构建高质量的个性化对话数据集既昂贵又耗时，这限制了数据集的大小。现有数据集中的一个对话过程中，对人物个性化信息描述只有4~5句话，这导致了个性化对话中人物个性信息不足问题，聊天机器人很难回答超出预定义的人物个性信息的问题并且生成的回复还会与预定义的人物个性信息不一致。已有模型使用知识生成器通过常识性推理来扩展人物个性化信息，但这扩展仅限于一般的社会常识，并不是以人物个性信息为中心的知识框架。此外，个性化对话生成过程中需要额外考虑人物个性信息和对话历史，根据对话中的不同情境将这两者进行动态调整融合，生成的回复包含流畅性不足、信息冗余等问题。

发明内容

本发明提供了一种基于大语言模型的个性化对话生成方法及系统，可以有效扩展人物个性信息，并将对话历史和人物个性信息进行动态调整融合，生成能力生成更丰富、多样化和流畅的回复。

为达到上述目的，本发明所采用的技术方案是：

本发明第一方面提供了一种基于大语言模型的个性化对话生成方法，包括：

获取人物个性对话数据集合，对人物个性对话数据集合进行个性扩展获得人物个性扩展对话数据集；

利用预训练的融合模型对人物个性扩展对话数据集中的目标回复进行更新，构成新的个性对话数据集；

获取大型语言模型的当前对话历史信息，基于当前对话历史信息和人物个性扩展对话数据集中的人物个性扩展信息构造个性知识提示；

将个性知识提示输入至大型语言模型获得人物个性信息描述信息，由新的个性对话数据集中检索与大型语言模型当前对话历史信息的相关样本信息；根据所述相关样本信息、当前对话历史信息和人物个性信息描述信息生成回复提示；将回复提示重新输入至大型语言模型获得最终回复信息。

进一步地，对人物个性对话数据集合进行个性扩展获得人物个性扩展对话数据集，包括：

获取人物个性知识图谱数据集合，利用人物个性知识图谱数据集合对人物个性生成器进行训练；

利用训练后的人物个性生成器对人物个性对话数据集中的人物个性信息句子进行扩展获得人物个性扩展信息，利用句子匹配模型对人物个性对话数据集中的对话历史匹配人物个性扩展信息，得到人物个性扩展对话数据集。

进一步地，对所述融合模型进行训练过程包括：

由人物个性扩展对话数据集提取对话历史序列H，人物个性扩展信息序列P和目标回复序列T并做为输入序列；

通过对话历史编码器将对话历史序列H转化为对话历史编码向量；通过人物个性扩展信息编码器将人物个性扩展信息序列P转化为人物个性扩展信息编码向量/>；将对话历史编码向量/>、人物个性扩展信息编码向量/>和目标回复序列T输入至解码器获得初始回复；根据初始回复和输入序列计算训练损失值，根据训练损失值对融合模型的参数进行优化，重复迭代所述融合模型的训练过程直至训练损失值收敛，输出并保存训练后的融合模型。

进一步地，由人物个性扩展对话数据集提取对话历史序列H，人物个性扩展信息序列P和目标回复序列T，包括：

对人物个性扩展对话数据集中的对话历史数据用特殊令牌“”和“”拼接起来，形成对话历史输入序列，/>和/>代表用户话语，/>代表机器人的回复；

对人物个性扩展对话数据集中的目标回复数据需要在前面添加特殊令牌“”，形成目标回复输入序列；

对人物个性扩展对话数据集中的人物个性扩展数据用特殊令牌“”，“”和“/>”，形成人物扩展信息输入序列；其中，代表第i个人物个性信息句子；/>代表第i个人物个性信息句子的第1个关系；/>代表第i个人物个性信息句子的第1个扩展属性；

利用分词器对所述对话历史输入序列、目标回复输入序列和人物扩展信息输入序列分别转化得到对话历史向量序列H，人物个性扩展信息向量序列P和目标回复向量序列T。

进一步地，通过对话历史编码器将对话历史序列H转化为对话历史编码向量，包括：

；

公式中，是基于Transformer模型架构的对话历史编码器。

进一步地，通过人物个性扩展信息编码器将人物个性扩展信息序列P转化为人物个性扩展信息编码向量，包括：

将人物个性扩展信息序列P输入至自注意力获得信息序列，使用公式：

；

公式中，表示为自注意力机制；

将自注意力向量输入至图感知注意力获得编码向量/>，表示公式为：

；

公式中，Q、K 和 V 是由自注意力向量与相应的可学习参数/>、可学习参数/>和可学习参数/>相乘得到的序列，/>表示为序列K的维度；/>则是编码所需图结构的掩码，表示为类型编码矩阵；

将编码向量进行加和与规范化处理后输入至前馈神经网络中，再经过一次加和与规范化输出人物个性扩展信息编码向量/>。

进一步地，将对话历史编码向量、人物个性扩展信息编码向量/>和目标回复序列T输入至解码器获得初始回复，包括：

将目标回复序列T输入到解码器中的自注意力机制获得自注意力结果，公式为：

；

公式中，表示为自注意力机制；

将对话历史编码向量、人物个性扩展信息编码向量/>分别与自注意力结果/>进行交叉注意力计算获得人物个性扩展信息交叉注意结果/>和人物个性扩展信息交叉注意结果/>，公式为：

；

其中，表示交叉注意力机制函数；

将自注意力结果和人物个性扩展信息交叉注意结果/>进行拼接输入至全连接层，生成角色信息的权重/>，公式为：

；

其中，sigmoid是一个激活函数，FC是全连接层；

基于权重计算出输入源的掩码M_P和掩码M_H，公式如下：

；

其中，是二进制指示器，/>是一个超参数；

应用掩码对人物个性扩展信息交叉注意结果和人物个性扩展信息交叉注意结果/>进行加权求和获得融合结果res，公式为：

；

将融合结果res输入至前馈神经网络后，经过加和与规范化以及线性层得到初始回复。

进一步地，根据初始回复和输入序列计算训练损失值，包括：

；

其中，表示为训练损失值，/>代表初始回复序列中的第i个单词，/>表示输入序列，/>表示融合模型基于给定输入序列/>和已生成的初始回复序列预测的下一个单词/>的概率分布。

本发明第二方面提供了一种基于大语言模型的个性化对话生成系统，包括：

获取模块，用于获取人物个性对话数据集合，对人物个性对话数据集合进行个性扩展获得人物个性扩展对话数据集；

扩展模块，用于利用预训练的融合模型对人物个性扩展对话数据集中的目标回复进行更新，构成新的个性对话数据集；

提示模块，用于获取大型语言模型的当前对话历史信息，基于当前对话历史信息和人物个性扩展对话数据集中的人物个性扩展信息构造个性知识提示；

回复模块，用于将个性知识提示输入至大型语言模型获得人物个性信息描述信息，由新的个性对话数据集中检索与大型语言模型当前对话历史信息的相关样本信息；根据所述相关样本信息、当前对话历史信息和人物个性信息描述信息生成回复提示；将回复提示重新输入至大型语言模型获得最终回复信息。

本发明第三方面提供了电子设备包括存储介质和处理器；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行本发明第一方面所述的方法。

与现有技术相比，本发明的有益效果：

本发明获取人物个性对话数据集合，对人物个性对话数据集合进行个性扩展获得人物个性扩展对话数据集；利用预训练的所述融合模型对人物个性扩展对话数据集中的目标回复进行更新，构成新的个性对话数据集；弥补了之前以往只使用常识推理器进行扩展的方法，可以有效的动态融合人物个性扩展信息和对话历史并且能够去除冗余信息。

本发明获取大型语言模型的当前对话历史信息，基于当前对话历史信息和人物个性扩展对话数据集中的人物个性扩展信息构造个性知识提示；将个性知识提示输入至大型语言模型获得人物个性信息描述信息，由新的个性对话数据集中检索与大型语言模型当前对话历史信息的相关样本信息；根据所述相关样本信息、当前对话历史信息和人物个性信息描述信息生成回复提示；将回复提示重新输入至大型语言模型获得最终回复信息；利用了大型语言模型的固有知识和强大生成能力，从而提高了最终回复的多样性和流畅性。

附图说明

图1是本发明实施例1提供的个性化对话生成方法的流程图；

图2是本发明实施例1提供的人物个性扩展信息编码器的模型图；

图3是本发明实施例1提供的融合模型中的解码器的模型图；

图4是本发明实施例1提供的大型语言模型构造提示的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

如图1至图4所示，本实施提供了一种基于大语言模型的个性化对话生成方法，包括：

获取人物个性对话数据集合，对人物个性对话数据集合进行个性扩展获得人物个性扩展对话数据集，包括：

对所述融合模型进行训练过程包括：

由人物个性扩展对话数据集提取对话历史序列H，人物个性扩展信息序列P和目标回复序列T，包括：对人物个性扩展对话数据集中的对话历史数据用特殊令牌“”和“/>”拼接起来，形成对话历史输入序列，/>和/>代表用户话语，/>代表机器人的回复；

将对话历史序列H，人物个性扩展信息序列P和目标回复序列T做为输入序列；将输入序列输入至融合模型，所述融合模型包括对话历史编码器、人物个性扩展信息编码器和解码器。

通过对话历史编码器将对话历史序列H转化为对话历史编码向量，包括：

；

公式中，是基于Transformer模型架构的对话历史编码器。

通过人物个性扩展信息编码器将人物个性扩展信息序列P转化为人物个性扩展信息编码向量，包括：

；

公式中，表示为自注意力机制；

；

将对话历史编码向量、人物个性扩展信息编码向量/>和目标回复序列T输入至解码器获得初始回复，包括：

；

公式中，表示为自注意力机制；

；

其中，表示交叉注意力机制函数；

；

其中，sigmoid是一个激活函数，FC是全连接层；

基于权重计算出输入源的掩码M_P和掩码M_H，公式如下：

；

其中，是二进制指示器，/>是一个超参数；

；

根据初始回复和输入序列计算训练损失值，包括：

；

根据训练损失值对融合模型的参数进行优化，重复迭代所述融合模型的训练过程直至训练损失值收敛，输出并保存训练后的融合模型。

本实施例使用了人物个性知识图谱数据集训练出的人物个性生成器，能够将人物个性信息句子扩展出多种一致和吸引人的扩展属性，弥补了之前以往只使用常识推理器进行扩展的不足；训练融合模型，可以有效的动态融合人物个性扩展信息和对话历史并且能够去除冗余信息；利用了大型语言模型的固有知识和强大生成能力，从而提高了最终回复的多样性和流畅性。

实施例2

一种基于大语言模型的个性化对话生成系统，本实施所述的系统可以应用于实施例1所述的方法，所述个性化对话生成系统包括：

扩展模块，用于利用预训练的所述融合模型对人物个性扩展对话数据集中的目标回复进行更新，构成新的个性对话数据集；

实施例3

本实施例提供了电子设备包括存储介质和处理器；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行实施例1所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于大语言模型的个性化对话生成方法，其特征在于，包括：

2.根据权利要求1所述的个性化对话生成方法，其特征在于，对人物个性对话数据集合进行个性扩展获得人物个性扩展对话数据集，包括：

3.根据权利要求1所述的个性化对话生成方法，其特征在于，对所述融合模型进行训练过程包括：

4.根据权利要求3所述的个性化对话生成方法，其特征在于，由人物个性扩展对话数据集提取对话历史序列H，人物个性扩展信息序列P和目标回复序列T，包括：

5.根据权利要求3所述的个性化对话生成方法，其特征在于，通过对话历史编码器将对话历史序列H转化为对话历史编码向量，包括：

；

公式中，是基于Transformer模型架构的对话历史编码器。

6.根据权利要求3所述的个性化对话生成方法，其特征在于，通过人物个性扩展信息编码器将人物个性扩展信息序列P转化为人物个性扩展信息编码向量，包括：

；

公式中，表示为自注意力机制；

；

7.根据权利要求3所述的个性化对话生成方法，其特征在于，将对话历史编码向量、人物个性扩展信息编码向量/>和目标回复序列T输入至解码器获得初始回复，包括：

；

公式中，表示为自注意力机制；

将对话历史编码向量、人物个性扩展信息编码向量/>分别与自注意力结果/>进行交叉注意力计算获得人物个性扩展信息交叉注意结果/>和人物个性扩展信息交叉注意结果，公式为：

；

其中，表示交叉注意力机制函数；

；

其中，sigmoid是一个激活函数，FC是全连接层；

基于权重计算出输入源的掩码M_P和掩码M_H，公式如下：

；

其中，是二进制指示器，/>是一个超参数；

；

8.根据权利要求3所述的个性化对话生成方法，其特征在于，根据初始回复和输入序列计算训练损失值，包括：

；

9.一种基于大语言模型的个性化对话生成系统，其特征在于，包括：

10.电子设备包括存储介质和处理器；所述存储介质用于存储指令；其特征在于，所述处理器用于根据所述指令进行操作以执行权利要求1至权利要求8任一项所述的方法。