CN117573813B

CN117573813B - 大语言模型内部知识定位探测方法、系统、设备及介质

Info

Publication number: CN117573813B
Application number: CN202410063985.6A
Authority: CN
Inventors: 陶建华; 张帅; 车飞虎
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-03-19
Anticipated expiration: 2044-01-17
Also published as: CN117573813A

Abstract

本发明提供了一种大语言模型内部知识定位探测方法、系统、设备及介质，具体涉及知识定位技术领域，通过获取待定位文本；将待定位文本输入至预先训练的知识探测模型中，预测待定位文本在大语言模型中每层对应的激活值，输出多个预测激活值；将最大预测激活值在大语言模型中的层数作为待定位文本的定位结果。上述方法在进行知识定位探测时仅通过预先训练好的知识探测模型生成待定位文本的预测激活值，根据该预测激活值可直接获取待定位文本在大语言模型中的层数，以低成本计算的方式快速实现大语言模型内部知识的定位探测。

Description

大语言模型内部知识定位探测方法、系统、设备及介质

技术领域

本发明涉及知识定位技术领域，特别是涉及一种大语言模型内部知识定位探测方法、系统、设备及介质。

背景技术

大语言模型以神经网络参数的形式学习存储知识，这种隐式知识表示方式可解释性差，难以被人类理解。同时，随着知识的过时或错误，想修正大语言模型内部的知识是很困难的。所以对大语言模型内部知识进行知识定位探测，了解内部知识存储的位置与方式，对于大语言模型的可解释性和修正错误知识具有重要的作用。

目前针对大语言模型内部的知识定位检测方法主要有知识归因（Knowledgeattribution）和因果中介分析（causal mediation analysis）两种，但上述两种知识定位方法对于每条知识的定位均需要多次的前向计算或多次的反向梯度计算，由于大语言模型参数规模巨大，前向计算与反向梯度计算均需要耗费大量的时间与计算资源，造成知识定位的时间成本和计算成本太高。

基于此，本发明提出一种大语言模型内部探测知识定位探测方法以解决上述问题。

发明内容

本发明提供一种大语言模型内部知识定位探测方法、系统、设备及介质，以解决现有对大语言模型内部知识定位方法探测成本和计算成本太高的问题。

在本发明实施例第一方面提出一种大语言模型内部知识定位探测方法，所述方法包括：

获取待定位文本；

将所述待定位文本输入至预先训练的知识探测模型中，预测所述待定位文本在大语言模型中每层对应的激活值，输出多个预测激活值，其中，所述知识探测模型通过训练文本和所述训练文本对应的训练标签训练得到，所述训练标签是所述大语言模型针对所述训练文本经过一轮前向过程计算生成的，所述训练标签用于表征所述大语言模型对所述训练文本的响应程度，所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高；

将最大所述预测激活值在所述大语言模型中所属的层数作为所述待定位文本的定位结果。

在本发明可选地一实施例中，所述知识探测模型的训练样本是由大语言模型生成的，所述大语言模型包括嵌入层和多层堆叠的transformer块，所述多层堆叠的transformer块中每个块的结构相同，每个所述transformer块包含多头自注意力层和全连接映射层两个子层，对每个所述子层进行层归一化操作，并对两个所述子层中间进行残差连接，对每个所述transformer块之间进行残差连接；

所述知识探测模型的训练样本通过以下步骤获取：

所述训练文本经过所述嵌入层得到文本词嵌入向量表示序列，并在所述文本词嵌入向量表示序列中增加位置编码信息，建模所述文本词嵌入向量表示序列的时间先后顺序，记录第一激活向量；

记录所述训练文本经过每个所述transformer块的所述多头自注意力层与所述全连接映射层的第二激活向量；

对记录的所有所述第一激活向量和所述第二激活向量求均值，得到每一层激活向量均值，每个所述激活向量均值表示所述大语言模型对所述训练文本的响应程度，所述激活向量均值越高表明所述训练文本存储在大语言模型中对应层的概率越高；

将所有所述激活向量均值按照在所述大语言模型所属的层数从前往后组成一个向量，将所述向量作为训练所述知识探测模型的训练标签；

将所述训练文本和所述训练标签组合作为一条所述训练样本。

在本发明可选地一实施例中，所述知识探测模型的训练样本的获取步骤具体包括：

采用词嵌入矩阵将所述训练文本转化为连续特征向量；

对所述连续特征向量增加位置编码信息，并建模所述连续特征向量的时间先后顺序信息，记录所述第一激活向量；

记录每个所述transformer块的所述多头自注意力层与所述全连接映射层的所述第二激活向量，对每一层的所述第一激活向量和所述第二激活向量求均值，得到n个所述激活向量均值，其中，所述嵌入层产生一个所述第一激活向量，每个所述transformer块产生两个所述第二激活向量，其中，n为大于3的整数；

将n个所述激活向量均值按照在所述大语言模型所属的层数依次组合形成n维的向量，将所述向量作为训练所述知识探测模型的训练标签；

在本发明可选地一实施例中，所述知识探测模型为对任意神经网络模型进行训练得到的，所述知识探测模型的训练步骤包括：

将所述训练文本输入至待训练神经网络模型，并对所述训练文本进行编码，得到编码文本；

采用softmax函数将所述编码文本转换为概率值；

采用交叉熵损失函数计算所述概率值和所述训练标签之间的损失；

对所述损失进行反向传播计算梯度，以及对所述待训练神经网络模型的参数进行更新，完成所述知识探测模型的训练。

在本发明可选地一实施例中，所述神经网络模型的网络结构为基于transformer的网络结构，所述网络结构包含一个嵌入层、m层自注意力模块和一个线性层，所述知识探测模型的训练步骤具体包括：

采用所述嵌入层将所述训练文本转化为多维的向量序列；

将多维的所述向量序列输入至所述m层自注意力模块中，输出所述编码文本，其中，m为大于2的整数；

采用所述线性层将所述编码文本的维度转换为与所述训练标签的维度相同；

采用所述softmax函数对所述编码文本进行归一化处理，得到所述概率值；

对所述概率值采用交叉熵损失函数进行梯度下降训练，直至完成所述知识探测模型的训练。

在本发明可选地一实施例中，所述方法还包括：

在获取所述待定位文本的定位结果后，对所述大语言模型所在层数的存储文本和待定位文本进行对比，得到对比结果；

当所述对比结果为所述存储文本和所述待定位文本不相同的情况下，将所述存储文本更改为所述待定位文本，以修正所述大语言模型中的存储文本为正确的文本。

在本发明实施例第二方面提出一种大语言模型内部知识定位探测系统，所述系统包括：

获取模块，用于获取待定位文本；

预测模块，用于将所述待定位文本输入至预先训练的知识探测模型中，预测所述待定位文本在大语言模型中每层对应的激活值，输出多个预测激活值，其中，所述知识探测模型通过训练文本和所述训练文本对应的训练标签训练得到，所述训练标签是所述大语言模型针对所述训练文本经过一轮前向过程计算生成的，所述训练标签用于表征所述大语言模型对所述训练文本的响应程度，所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高；

定位结果获取模块，用于将最大所述预测激活值在所述大语言模型中所属的层数作为所述待定位文本的定位结果。

可选地，所述知识探测模型的训练样本是由大语言模型生成的，所述大语言模型包括嵌入层和多层堆叠的transformer块，所述多层堆叠的transformer块中每个块的结构相同，每个所述transformer块包含多头自注意力层和全连接映射层两个子层，对每个所述子层进行层归一化操作，并对两个所述子层中间进行残差连接，对每个所述transformer块之间进行残差连接；所述系统还包括样本生成模块，所述样本生成模块包括：

第一记录子模块，用于所述训练文本经过所述嵌入层得到文本词嵌入向量表示序列，并在所述文本词嵌入向量表示序列中增加位置编码信息，建模所述文本词嵌入向量表示序列的时间先后顺序，记录第一激活向量；

第二记录子模块，用于记录所述训练文本经过每个所述transformer块的所述多头自注意力层与所述全连接映射层的第二激活向量；

激活向量均值生成子模块，用于对记录的所有所述第一激活向量和所述第二激活向量求均值，得到每一层激活向量均值，每个所述激活向量均值表示所述大语言模型对所述训练文本的响应程度，所述激活向量均值越高表明所述训练文本存储在大语言模型中对应层的概率越高；

第一训练标签生成子模块，用于将所有所述激活向量均值按照在所述大语言模型所属的层数从前往后组成一个向量，将所述向量作为训练所述知识探测模型的训练标签；

第一训练样本生成子模块，用于将所述训练文本和所述训练标签组合作为一条所述训练样本。

可选地，所述样本生成模块还包括：

训练样本转化子模块，用于采用词嵌入矩阵将所述训练文本转化为连续特征向量；

记录子模块，用于对所述连续特征向量增加位置编码信息，并建模所述连续特征向量的时间先后顺序信息，记录所述第一激活向量；

向量均值生成子模块，用于记录每个所述transformer块的所述多头自注意力层与所述全连接映射层的所述第二激活向量，对每一层的所述第一激活向量和所述第二激活向量求均值，得到n个所述激活向量均值，其中，所述嵌入层产生一个所述第一激活向量，每个所述transformer块产生两个所述第二激活向量，其中，n为大于3的整数；

第二训练标签生成子模块，用于将n个所述激活向量均值按照在所述大语言模型所属的层数依次组合形成n维的向量，将所述向量作为训练所述知识探测模型的训练标签；

第二训练样本生成子模块，用于将所述训练文本和所述训练标签组合作为一条所述训练样本。

可选地，所述知识探测模型为对任意神经网络模型进行训练得到的，所述系统还包括训练模块，所述训练模块包括：

第一编码子模块，用于将所述训练文本输入至待训练神经网络模型，并对所述训练文本进行编码，得到编码文本；

转换子模块，用于采用softmax函数将所述编码文本转换为概率值；

损失计算子模块，用于采用交叉熵损失函数计算所述概率值和所述训练标签之间的损失；

参数更新子模块，用于对所述损失进行反向传播计算梯度，以及对所述待训练神经网络模型的参数进行更新，完成所述知识探测模型的训练。

其中，所述神经网络模型的网络结构为基于transformer的网络结构，所述网络结构包含一个嵌入层、m层自注意力模块和一个线性层，所述训练模块还包括：

转化子模块，用于采用所述嵌入层将所述训练文本转化为多维的向量序列；

第二编码子模块，用于将多维的所述向量序列输入至所述m层自注意力模块中，输出所述编码文本，其中，m为大于2的整数；

维度转换子模块，用于采用所述线性层将所述编码文本的维度转换为与所述训练标签的维度相同；

归一化子模块，用于采用所述softmax函数对所述编码文本进行归一化处理，得到所述概率值；

梯度下降训练子模块，用于对所述概率值采用交叉熵损失函数进行梯度下降训练，直至完成所述知识探测模型的训练。

可选地，所述系统还包括：

对比模块，用于在获取所述待定位文本的定位结果后，对所述大语言模型所在层数的存储文本和待定位文本进行对比，得到对比结果；

修正模块，用于当所述对比结果为所述存储文本和所述待定位文本不相同的情况下，将所述存储文本更改为所述待定位文本，以修正所述大语言模型中的存储文本为正确的文本。

在本发明实施例第三方面提出一种电子设备，包括：存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现如上述第一方面中任一项所述的大语言模型内部知识定位探测方法。

在本发明实施例第四方面提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项所述的大语言模型内部知识定位探测方法。

本发明包括以下优点：本发明提出一种大语言模型内部知识定位探测方法、系统、设备及介质，通过获取待定位文本；将所述待定位文本输入至预先训练的知识探测模型中，预测所述待定位文本在大语言模型中每层对应的激活值，输出多个预测激活值，其中，所述知识探测模型通过训练文本和所述训练文本对应的训练标签训练得到，所述训练标签是所述大语言模型针对所述训练文本经过一轮前向过程计算生成的，所述训练标签用于表征所述大语言模型对所述训练文本的响应程度，所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高；将最大所述预测激活值在所述大语言模型中所属的层数作为所述待定位文本的定位结果。上述大语言模型内部知识定位探测方法在进行知识定位探测时无需对原始大语言模型进行多次的前向计算或反向梯度计算，仅需通过预先训练好的知识探测模型生成待定位文本的预测激活值，根据该预测激活值可直接获取待定位文本在大语言模型中的层数，以低成本计算的方式快速实现大语言模型内部知识的定位探测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种大语言模型内部探测知识定位探测方法的步骤流程示意图；

图2是本发明实施例提供的一种知识探测模型训练样本的获取步骤流程示意图；

图3是本发明实施例提供的一种知识探测模型的训练步骤流程示意图；

图4是本发明实施例提供的一种大语言模型内部探测知识定位探测系统的架构图；

图5是本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前针对大语言模型内部的知识定位检测方法主要有知识归因和因果中介分析两种。第一种知识归因（Knowledge attribution）通过使用积分梯度法（IntegratedGradients）计算每一个输入特征对输出的归因（即重要程度），使用上述计算得到的归因定位某一条知识存储在网络结构的位置。另一种因果中介分析（causal mediationanalysis）通过定位知识存储的区域，通过两轮前向计算过程得到知识存储的位置。具体方法是在第一轮前向过程中，输入一条信息，经过大语言模型的前向计算过程，得到正确的预测值，记录下大语言模型网络内部的激活值，即中间结果；然后开始第二轮前向计算过程，在嵌入层添加随机噪声使大语言模型输出错误结果，大语言模型网络内部激活值此时也是错误的，使用第一轮记录的激活值逐层替代此时的错误激活值，查看替换激活值后对输出结果的影响，能增大正确输出概率对应的大语言模型网络层即为知识存储的位置。

但上述两种知识定位方法对于每条知识的定位均需要多次的前向计算或多次的反向梯度计算，由于大语言模型参数规模巨大，前向计算与反向梯度计算均需要耗费大量的时间与计算资源，造成知识定位的时间成本和计算成本太高。

基于此，为解决现有技术中存在的大语言模型内部知识定位探测方法的成本或计算资源太高的问题，本发明的目的在于提供一种不需要进行模型前向计算或反向梯度计算的知识定位探测方法，实现低成本与高实时性的大语言模型知识定位。

在本发明实施例的第一方面提出一种大语言模型内部探测知识定位探测方法，参阅图1，图1提出了一种大语言模型内部探测知识定位探测方法的步骤流程示意图，所述大语言模型内部探测知识定位探测方法的步骤包括：

步骤101：获取待定位文本；

步骤102：将所述待定位文本输入至预先训练的知识探测模型中，预测所述待定位文本在大语言模型中每层对应的激活值，输出多个预测激活值，其中，所述知识探测模型通过训练文本和所述训练文本对应的训练标签训练得到，所述训练标签是所述大语言模型针对所述训练文本经过一轮前向过程计算生成的，所述训练标签用于表征所述大语言模型对所述训练文本的响应程度，所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高；

步骤103：将最大所述预测激活值在所述大语言模型中所属的层数作为所述待定位文本的定位结果。

具体实施步骤101时，在大语言模型中存储了大量的知识，其中，这些知识均以三元组的形式存储在大语言模型中，三元组的类型包括【实体-关系-实体】、【实体-属性-值】等。示例性地，当三元组的类型为【实体-关系-实体】的情况下，在医疗健康领域中，实体包括医疗机构、医生、患者、药品、疾病等，医生和患者之间可能存在诊断、治疗等关系，医生和医疗机构之间可能存在隶属关系等；在地理位置领域中，实体包括世界各地各个国家的名称、各个城市等，关系包括各个国家和各个城市之间的对应关系；例如，当待定位文本的类型为【实体-关系-实体】的情况下，可以为【心胸外科医生-治疗-心脏病】、【中国-首都-北京】等等。当三元组的类型为【实体-属性-值】的情况下，在金融领域中，实体包括银行、证券、保险、投资等金融机构、产品和服务等，银行和证券之间可能存在资金融通的关系，银行和保险之间可能存在客户关系管理的关系等，例如，当待定位文本的类型为【实体-属性-值】的情况下，可以为【XX银行-投资-AA外币】，其中，AA为任意数值。

具体实施步骤102时，通过将上述获取的待定位文本输入至预先训练的知识探测模型中，通过知识探测模型可以预测待定位文本在大语言模型中每层对应的激活值，并输出多个预测激活值。其中，上述知识探测模型是通过以训练文本和所述训练文本对应的训练标签训练得到的，其中，上述训练文本为三元组类型的文本，上述训练标签为所述大语言模型针对上述训练文本经过一轮前向过程计算生成的，通过大语言模型针对训练文本生成的训练标签可以用于表征所述大语言模型对所述训练文本的响应程度，所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高，也就是表明，当知识探测模型针对待定位文本输出的预测激活值越高，表明该预测激活值对应的大语言模型的层数为该待定位文本在大语言模型中对层数的概率越高。所述用于生成训练标签的大语言模型和实际进行知识探测定位的大语言模型是相同的，例如，上述大语言模型可以为GPT（Generative Pre-trained Transformer，是一种基于深度学习的语言模型）系列、LLAMA（Large Language Model Meta AI，是一种预训练语言模型）系列等模型，具体地可以为GPT3、ChatGPT、LLaMA或ChatGLM等等。

具体实施步骤103时，由于所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高，也就是表明，当知识探测模型针对待定位文本输出的预测激活值越高，表明该预测激活值对应的大语言模型的层数为该待定位文本在大语言模型中对应层数的概率越高。因此，将最大所述预测激活值在所述大语言模型中所属的层数作为所述待定位文本的定位结果。示例性地，当大语言模型有48层的情况下，将【中国-首都-北京】作为待定位文本输入至预先训练的知识探测模型中，得到该待定位文本在大语言模型内部每层的预测激活值（共48个激活值），其中，第23层对应的预测激活值最大，即得到定位结果为待定位文本【中国-首都-北京】存储在大语言模型的第23层。

在本发明可选地一种实施例中，所述知识探测模型的训练样本是由大语言模型生成的，所述大语言模型包括嵌入层和多层堆叠的transformer块，所述多层堆叠的transformer块中每个块的结构相同，每个所述transformer块包含多头自注意力层和全连接映射层两个子层，对每个所述子层进行层归一化操作，并对两个所述子层中间进行残差连接，对每个所述transformer块之间进行残差连接。参阅图2，图2提出了一种知识探测模型训练样本的获取步骤流程示意图，所述知识探测模型的训练样本通过以下步骤获取：

步骤201：所述训练文本经过所述嵌入层得到文本词嵌入向量表示序列，并在所述文本词嵌入向量表示序列中增加位置编码信息，建模所述文本词嵌入向量表示序列的时间先后顺序，记录第一激活向量；

步骤202：记录所述训练文本经过每个所述transformer块的所述多头自注意力层与所述全连接映射层的第二激活向量；

步骤203：对记录的所有所述第一激活向量和所述第二激活向量求均值，得到每一层激活向量均值，每个所述激活向量均值表示所述大语言模型对所述训练文本的响应程度，所述激活向量均值越高表明所述训练文本存储在大语言模型中对应层的概率越高；

步骤204：将所有所述激活向量均值按照在所述大语言模型所属的层数从前往后组成一个向量，将所述向量作为训练所述知识探测模型的训练标签；

步骤205：将所述训练文本和所述训练标签组合作为一条所述训练样本。

具体地，将所述训练样本输入至大语言模型中，进行一轮前向过程的计算。首先通过嵌入层得到文本词嵌入向量表示序列，并对所述文本词嵌入向量表示序列增加位置编码信息，建模文本词嵌入向量表示序列的时间先后顺序，记录此时的中间激活向量作为第一激活向量。然后经过多层堆叠的transformer块，记录每个transformer块的多头自注意力层与全连接映射层的中间激活向量作为第二激活向量。然后对所有记录的第一激活向量和第二中间求均值，得到每一层记录的所有激活向量的均值，每个均值代表大语言模型对输入的训练文本的响应程度，均值越高表明该训练文本存储在该层的概率越高。将所有均值按照所属的层数从前往后组成一个向量，该向量作为训练知识探测模型的标签，并将所述训练文本和所述训练标签组合作为一条所述训练样本。

在本发明可选地一实施例中，所述知识探测模型的训练样本的获取步骤具体包括，首先将训练文本输入至大语言模型中，通过采用词嵌入矩阵将所述训练文本转化为连续特征向量，然后对所述连续特征向量增加位置编码信息，并建模所述连续特征向量的时间先后顺序信息，记录所述第一激活向量，然后经过多层堆叠的transformer块，记录每个所述transformer块的所述多头自注意力层与所述全连接映射层的所述第二激活向量，对每一层的所述第一激活向量和所述第二激活向量求均值，得到n个所述激活向量均值，n为大于3的整数，其中，所述嵌入层产生一个所述第一激活向量，每个所述transformer块产生两个所述第二激活向量，多头自注意力层与全连接映射层分别产生一个所述第二激活向量，将n个所述激活向量均值按照在所述大语言模型所属的层数依次组合形成n维的向量，将所述向量作为训练所述知识探测模型的训练标签；然后，将所述训练文本和所述训练标签组合作为一条所述训练样本。

示例性地，首先将输入的训练文本使用词嵌入矩阵转化为16000维的连续特征向量表示；对连续特征向量增加位置编码信息，建模特征向量的时间先后顺序信息，记录此时的中间激活向量；然后将训练文本输入到多层堆叠的transformer块中，多层堆叠的transformer块由48个相同结构的模块堆叠而成，每个模块包含两个子层部分，一部分是多头自注意力层，后面接全连接映射层，自注意力层的头数设置为12，全连接映射层的维度设置为4096，激活函数使用GLU（Gated Linear Unit），每个子层进行层归一化操作，两个子层中间进行残差连接，对多头自注意力层和全连接映射层使用dropout操作，参数设置为0.1。记录每个transformer块的多头自注意力层与全连接映射层的中间激活向量，此时激活向量的维度为4096，对每一层记录的所有中间激活向量求均值，得到48*2+1=97个激活向量均值，此时n取值为97，将97个激活向量均值按照在所述大语言模型所属的层数依次组合形成97维的向量，该向量即为训练知识探测模型的训练标签，将输入的所述训练文本和得到的所述训练标签组合作为一条训练样本。

在本发明可选地一实施例中，所述知识探测模型为对任意神经网络模型进行训练得到的，参阅图3，图3为本发明实施例提供的一种知识探测模型的训练步骤流程示意图，所述知识探测模型的训练步骤包括：

步骤301：将所述训练文本输入至待训练神经网络模型，并对所述训练文本进行编码，得到编码文本；

步骤302：采用softmax函数将所述编码文本转换为概率值；

步骤303：采用交叉熵损失函数计算所述概率值和所述训练标签之间的损失；

步骤304：对所述损失进行反向传播计算梯度，以及对所述待训练神经网络模型的参数进行更新，完成所述知识探测模型的训练。

具体地，所述知识探测模型为远小于大语言模型的任意神经网络模型，首先将训练文本输入至所述待训练的神经网络模型中，并对所述训练文本进行编码，得到编码文本，然后采用softmax函数将编码形式的编码文本转换为概率形式的概率值，再采用交叉熵损失函数计算上述概率值和训练文本对应的训练标签之间的损失，在计算得到上述损失后，通过损失进行反向传播计算梯度，并对所述待训练的神经网络模型的参数进行更新，完成所述待训练神经网络模型的训练，得到训练好的知识探测模型。

在本发明可选地一实施例中，所述神经网络模型的网络结构为基于transformer的网络结构，所述网络结构包含一个嵌入层、m层自注意力模块和一个线性层，所述知识探测模型的训练步骤具体包括，首先采用所述嵌入层将所述训练文本转化为多维的向量序列，然后将多维的所述向量序列输入至所述m层自注意力模块中，输出所述编码文本，其中，m至少为大于2的整数，采用所述线性层将所述编码文本的维度转换为与所述训练标签的维度相同，采用所述softmax函数对所述编码文本进行归一化处理，得到所述概率值；对所述概率值采用交叉熵损失函数进行梯度下降训练，直至完成所述知识探测模型的训练。

以缩小版的基于transformer网络结构作为知识探测模型进行知识探测模型训练过程的示例性说明，该缩小版的transformer网络结构中包含一个嵌入层，12层自注意力模块（此时，m取值为12），嵌入层的维度设置为512，每个transformer模块中包含两个子部分，一部分为多头自注意力层，后接全连接映射层，将多头自注意力层的头数设置为4，将全连接映射层的维度设置为1024，使用GLU（Gated Linear Unit）作为激活函数，对每个子层进行层归一化操作，两个子层之间进行残差连接，对多头自注意力层和全连接映射层使用dropout操作，dropout操作的参数设置为0.1。首先使用嵌入层将输入的训练文本转化为512维的向量序列，然后将该向量序列输入至12层自注意力模块进行编码处理，得到编码文本，然后采用一个线性层将编码文本的维度转换为与训练标签的维度相同（97维），然后使用softmax函数进行归一化处理得到归一化后的向量，将归一化后的向量采用交叉熵损失函数进行梯度下降训练，直至完成所述知识探测模型的训练。

需要说明的是，本发明实施例中大语言模型以GPT模型为例，知识探测模型以基于transformer结构的模型进行示例性说明，实际上，本发明中提出的大语言模型内部知识定位探测方法可以适用于任何结构的大语言模型，知识探测模型可以设计为任意网络结构。

在本发明可选地一实施例中，所述方法还包括，在得到所述待定位文本的定位结果后，对所述大语言模型所在层数的存储文本和待定位文本进行对比，得到对比结果，该对比结果用于对大语言模型中存储的文本进行文本修正。当所述对比结果为所述存储文本和所述待定位文本不相同的情况下，将所述存储文本更改为所述待定位文本，以修正所述大语言模型中的存储文本为正确的文本；当所述对比结果为所述存储文本和所述待定位文本相同的情况下，则认为大语言模型中该层存储的文本为正确的文本，无需进行修正。

本发明提出一种大语言模型内部知识定位探测方法，通过获取待定位文本；将所述待定位文本输入至预先训练的知识探测模型中，预测所述待定位文本在大语言模型中每层对应的激活值，输出多个预测激活值，其中，所述知识探测模型通过训练文本和所述训练文本对应的训练标签训练得到，所述训练标签是所述大语言模型针对所述训练文本经过一轮前向过程计算生成的，所述训练标签用于表征所述大语言模型对所述训练文本的响应程度，所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高；将最大所述预测激活值在所述大语言模型中所属的层数作为所述待定位文本的定位结果。上述大语言模型内部知识定位探测方法在进行知识定位探测时无需对原始大语言模型进行多次的前向计算或反向梯度计算，仅需通过预先训练好的知识探测模型生成待定位文本的预测激活值，根据该预测激活值可直接获取待定位文本在大语言模型中的层数，以低成本计算的方式快速实现大语言模型内部知识的定位探测。

基于同一发明构思，本发明实施例在第二方面提供一种大语言模型内部知识定位探测系统，参阅图4，图4是本发明实施例提供的一种大语言模型内部探测知识定位探测系统的架构图，所述系统包括：

获取模块401，用于获取待定位文本；

预测模块402，用于将所述待定位文本输入至预先训练的知识探测模型中，预测所述待定位文本在大语言模型中每层对应的激活值，输出多个预测激活值，其中，所述知识探测模型通过训练文本和所述训练文本对应的训练标签训练得到，所述训练标签是所述大语言模型针对所述训练文本经过一轮前向过程计算生成的，所述训练标签用于表征所述大语言模型对所述训练文本的响应程度，所述训练标签对应的值越高表明所述训练文本存储在大语言模型中对应层的概率越高；

定位结果获取模块403，用于将最大所述预测激活值在所述大语言模型中所属的层数作为所述待定位文本的定位结果。

其中，所述知识探测模型的训练样本是由大语言模型生成的，所述大语言模型包括嵌入层和多层堆叠的transformer块，所述多层堆叠的transformer块中每个块的结构相同，每个所述transformer块包含多头自注意力层和全连接映射层两个子层，对每个所述子层进行层归一化操作，并对两个所述子层中间进行残差连接，对每个所述transformer块之间进行残差连接；所述系统还包括样本生成模块，所述样本生成模块包括：

其中，所述样本生成模块还包括：

其中，所述知识探测模型为对任意神经网络模型进行训练得到的，所述系统还包括训练模块，所述训练模块包括：

其中，所述系统还包括：

基于同一发明构思，本发明实施例第三方面提供一种电子设备，图5示出了本发明实施例公开的一种电子设备示意图，如图5所示，电子设备100包括：存储器110和处理器120，所述电子设备的存储器不少于12G，处理器主频不低于2.4GHz，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，以实现本发明实施例公开的一种大语言模型内部知识定位探测方法。

基于同一发明构思，本发明实施例第四方面公开了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本发明实施例公开的一种大语言模型内部知识定位探测方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、系统、电子设备和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种设备及介质大语言模型内部知识定位探测方法、系统、设备及介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种大语言模型内部知识定位探测方法，其特征在于，所述方法包括：

获取待定位文本；

2.根据权利要求1所述的大语言模型内部知识定位探测方法，其特征在于，所述知识探测模型的训练样本是由大语言模型生成的，所述大语言模型包括嵌入层和多层堆叠的transformer块，所述多层堆叠的transformer块中每个块的结构相同，每个所述transformer块包含多头自注意力层和全连接映射层两个子层，对每个所述子层进行层归一化操作，并对两个所述子层中间进行残差连接，对每个所述transformer块之间进行残差连接；

所述知识探测模型的训练样本通过以下步骤获取：

3.根据权利要求2所述的大语言模型内部知识定位探测方法，其特征在于，所述知识探测模型的训练样本的获取步骤具体包括：

采用词嵌入矩阵将所述训练文本转化为连续特征向量；

4.根据权利要求1所述的大语言模型内部知识定位探测方法，其特征在于，所述知识探测模型为对任意神经网络模型进行训练得到的，所述知识探测模型的训练步骤包括：

采用softmax函数将所述编码文本转换为概率值；

5.根据权利要求4所述的大语言模型内部知识定位探测方法，其特征在于，所述神经网络模型的网络结构为基于transformer的网络结构，所述网络结构包含一个嵌入层、m层自注意力模块和一个线性层，所述知识探测模型的训练步骤具体包括：

采用所述嵌入层将所述训练文本转化为多维的向量序列；

6.根据权利要求1所述的大语言模型内部知识定位探测方法，其特征在于，所述方法还包括：

7.一种大语言模型内部知识定位探测系统，其特征在于，所述系统包括：

获取模块，用于获取待定位文本；

8.根据权利要求7所述的大语言模型内部知识定位探测系统，其特征在于，所述知识探测模型的训练样本是由大语言模型生成的，所述大语言模型包括嵌入层和多层堆叠的transformer块，所述多层堆叠的transformer块中每个块的结构相同，每个所述transformer块包含多头自注意力层和全连接映射层两个子层，对每个所述子层进行层归一化操作，并对两个所述子层中间进行残差连接，对每个所述transformer块之间进行残差连接；

所述系统还包括样本生成模块，所述样本生成模块包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-6中任一项所述的大语言模型内部知识定位探测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的大语言模型内部知识定位探测方法。