CN117540829B

CN117540829B - 一种知识共享的大语言模型协同优化方法和系统

Info

Publication number: CN117540829B
Application number: CN202311354420.5A
Authority: CN
Inventors: 何国对; 陈定甲; 钟英生; 施宇; 苏一海; 赵芸; 蒋占文; 刘旭鹏; 龙珑; 陈琳; 李明清
Original assignee: Technical Service Branch Of Guangxi Zhuang Autonomous Region Communication Industry Service Co ltd
Current assignee: Technical Service Branch Of Guangxi Zhuang Autonomous Region Communication Industry Service Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-05-17
Anticipated expiration: 2043-10-18
Also published as: CN117540829A

Abstract

本申请涉及了一种知识共享的大语言模型协同优化方法和系统，方法通过知识共享的方式达到数据隐私保护的目的，通过多客户端协同优化的方式保证每一客户端的本地语言模型的语义理解与生成能力，通过协同学习将模型训练分布到多个本地的客户端上，避免了中央化数据的集中存储，这种分布式学习方式使得模型在海量的语料库上学习到丰富的语言知识。本方法在客户端进行判定时，通过KL散度衡量服务器与客户端分布的相似度，以确定服务器与客户端的差异性，达到个性化学习的目的。

Description

一种知识共享的大语言模型协同优化方法和系统

技术领域

申请实施例涉及自然语言处理技术领域，尤其涉及一种知识共享的大语言模型协同优化方法和系统。

背景技术

大语言模型是一种新兴技术，在语义理解和回答能力方面展现出令人惊叹的成就，为创新带来了革命性的变革。通过深度学习和自然语言处理技术，大语言模型能够分析和理解输入的文本，并生成准确、连贯的回答，使得与人类的自然对话成为可能。尽管大语言模型在各方面表现都取得十分杰出的表现，但在推广落地中还存在如下缺陷：

大语言模型也存在着一个明显的缺陷，即其对大量数据的依赖性。庞大的数据集对于培训大语言模型是至关重要的，有助于模型获得更好的性能和适应性，因此在实际业务当中需要收集大量业务语料数据，但对于所有的政府或者企业来说，数据资产一种无形的资产，大部分数据受到法律法规和隐私保护的限制，这就代表着数据共享成为了一个很大的难题。

目前大语言模型无法满足定制化需求，大语言模型落地需要根据不同应用场景和用户需求进行个性化调整，以实现更精准、高效和符合预期的交互体验。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例的主要目的在于提出一种知识共享的大语言模型协同优化方法和系统，能够有效解决数据壁垒的痛点，保证各节点的个性化能力，以便融合到具体业务当中。

为实现上述目的，本发明实施例的第一方面提出了一种知识共享的大语言模型协同优化方法，用于客户端，所述知识共享的大语言模型协同优化方法包括：

获取语言数据；

根据训练好的本地语言模型对所述语言数据进行语义判断；其中所述本地语言模型通过如下方式进行训练：

接收服务器下发的当前训练次数下的第一权重参数；所述当前训练次数下的第一权重参数是服务器根据若干客户端的本地语言模型在上一训练次数分别生成的第二权重参数聚合得到；

通过KL散度衡量所述服务器的语言模型输出预测的向量与所述本地语言模型输出预测的向量之间的相似度，根据所述相似度构建损失函数，基于所述损失函数，采用所述当前训练次数下的第一权重参数对所述本地语言模型更新，得到所述本地语言模型在当前训练次数下生成的第二权重参数；

将所述当前训练次数下生成的第二权重参数上传至所述服务器，以使所述服务器根据若干客户端的本地语言模型在当前训练次数下分别生成的第二权重参数聚合得到下一训练次数下的第一权重参数；

接收所述服务器下发的下一训练次数下的第一权重参数，并依次类推进行下一次更新，直至得到训练好的所述本地语言模型。

在一些实施例中，所述损失函数包括如下公式：

其中，exp表示e^x的指数函数，表示q_τ和/>之间的散度，z_i表示第i训练次数的客户端的本地语言模型输出预测的向量，c表示训练的总次数，/>表示第i训练次数的服务器输出预测的向量，τ为设定时间间隔。

在一些实施例中，所述本地语言模型设置有词向量图嵌入模型；

所述采用所述当前训练次数下的第一权重参数对所述本地语言模型更新，包括：

根据所述词向量图嵌入模型构建词与词之间的关联关系；

根据所述当前训练次数下的第一权重参数和图嵌入特征对所述本地语言模型更新。

在一些实施例中，所述词向量图嵌入模块通过如下公式构建词与词之间的关联关系：

Z^*＝F(X,A)

F(X,A)＝A^～(A^～XW₀)W₁

其中，Z^*表示图卷积神经网络对各个文本顶点和/或词汇顶点进行聚合后的特征表示，F(.)表示图卷积神经网络聚合操作，X表示顶点特征矩阵，A表示词汇之间和/或词汇与文本之间邻接矩阵，A^～表示通过A得到的归一化对称邻接矩阵，W₀,W₁表示模型权重。

在一些实施例中，所述根据所述当前训练次数下的第一权重参数和图嵌入特征对所述本地语言模型更新的公式包括：

其中，表示第i客户端的所述本地语言模型，/>表示第i客户端的本地私有化数据，/>表示第i客户端的所述本地语言模型的第二权重参数，/>表示对所述本地语言模型采用梯度下降方式进行权重更新操作，/>为KL散度函数。

在一些实施例中，在所述将所述当前训练次数下生成的第二权重参数上传至所述服务器之后，所述知识共享的大语言模型协同优化方法还包括：

根据每一个客户端上传的当前训练次数下生成的第二权重参数和所述服务器的语言模型计算每一个客户端的信誉值；

根据所述信誉值，选取所述信誉值超出阈值的若干客户端上传的当前训练次数下生成的第二权重参数聚合得到下一训练次数下的第一权重参数。

在一些实施例中，所述选取所述信誉值超出阈值的若干客户端上传的当前训练次数下生成的第二权重参数聚合得到下一训练次数下的第一权重参数的公式包括：

其中，m表示所述信誉值超出阈值的若干客户端的数量，F_c(x_c|θ_c)表示所述服务器的语言模型，x_c表示所述服务器的私有化数据，θ_c表示第一权重参数。

本发明实施例的第二方面提出了一种知识共享的大语言模型协同优化系统，所述知识共享的大语言模型协同优化系统包括：

数据获取单元，用于获取语言数据；

语义判断单元，根据训练好的本地语言模型对所述语言数据进行语义判断；其中所述本地语言模型通过如下方式进行训练：

为实现上述目的，本发明实施例的第三方面提出了一种电子设备，包括：至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的一种知识共享的大语言模型协同优化方法。

为实现上述目的，本发明实施例的第四方面提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述的一种知识共享的大语言模型协同优化方法。

本申请一个实施例提供了一种知识共享的大语言模型协同优化方法，方法通过知识共享的方式达到数据隐私保护的目的，通过多个客户端协同优化的方式保证每一本地语言模型的语义理解与生成能力，通过协同学习将模型训练分布到多个客户端上，避免了中央化数据的集中存储，这种分布式学习方式使得模型在海量的语料库上学习到丰富的语言知识。因为协同优化势必各客户端的本地语言模型能力趋于一致，为了解决这一缺陷，本方法是通过KL散度衡量服务器的语言模型输出预测的向量与客户端的本地语言模型输出预测的向量之间的相似度，根据相似度构建损失函数，基于损失函数，采用当前训练次数下的第一权重参数对本地语言模型更新，本方法在客户端进行判定时，通过KL散度衡量服务器与客户端分布的相似度，以确定服务器与客户端的差异性，达到个性化学习的目的。

可以理解的是，上述第二方面至第四方面和相关技术相比存在的有益效果和上述第一方面和相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的一种知识共享的大语言模型协同优化方法的流程示意图；

图2是本申请另一个实施例提供的一种知识共享的大语言模型协同优化方法的流程框图；

图3是本申请一个实施例提供的信誉值筛选过程的流程框图；

图4是本申请一个实施例提供的一种知识共享的大语言模型协同优化系统的结构示意图；

图5是本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语和属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

(1)大语言模型也存在着一个明显的缺陷，即其对大量数据的依赖性。庞大的数据集对于培训大语言模型是至关重要的，有助于模型获得更好的性能和适应性，因此在实际业务当中需要收集大量业务语料数据，但对于所有的政府或者企业来说，数据资产一种无形的资产，大部分数据受到法律法规和隐私保护的限制，这就代表着数据共享成为了一个很大的难题，随着对数据隐私和安全性关注的增加，对于大型语言模型的数据收集和处理必须符合更严格的法规要求，增加开发的复杂性和成本。

(2)目前大语言模型无法满足定制化需求，大语言模型落地需要根据不同应用场景和用户需求进行个性化调整，以实现更精准、高效和符合预期的交互体验。

参照图1，本申请的一个实施例，提供了一种知识共享的大语言模型协同优化方法，用于客户端，知识共享的大语言模型协同优化方法包括：

步骤S110、获取语言数据。

步骤S120、根据训练好的本地语言模型对语言数据进行语义判断；其中本地语言模型通过如下方式进行训练：

接收服务器下发的当前训练次数下的第一权重参数；当前训练次数下的第一权重参数是服务器根据若干客户端的本地语言模型在上一训练次数分别生成的第二权重参数聚合得到。

通过KL散度衡量服务器的语言模型输出预测的向量与客户端的本地语言模型输出预测的向量之间的相似度，根据相似度构建损失函数，基于损失函数，采用当前训练次数下的第一权重参数对本地语言模型更新，得到本地语言模型在当前训练次数下生成的第二权重参数。

将当前训练次数下生成的第二权重参数上传至服务器，以使服务器根据若干客户端的本地语言模型在当前训练次数下分别生成的第二权重参数聚合得到下一训练次数下的第一权重参数。

接收服务器下发的下一训练次数下的第一权重参数，并依次类推进行下一次更新，直至得到训练好的本地语言模型。

本方法主要进行如下改进：

(1)多个客户端和服务器采用知识协同共享的方式进行本地语言模型进行更新，各端侧只共享权重，不共享数据，确保服务器端、客户端的数据隐私，避免了中央化数据的集中存储，使得本地语言模型在海量的语料库上学习到丰富的语言知识。

(2)协同优化势必各客户端的本地语言模型能力趋于一致，无法学习和训练更专业化的本地语言模型，不具备个性化能力。于是本方法在协同学习的过程中，增加本地语言模型的个性化。

结合上述步骤，进行详细介绍：

对于每一个客户端，客户端内设置有对应的一个本地语言模型，这里对模型的种类不进行具体限定，通过本地语言模型实现语言识别、语义判断等功能。对于服务器，数量为一个，可在众多客户端中选取，服务器设置有语言模型。客户端的本地语言模型在训练过程中，会预设训练次数，在每一次训练之后，将本地语言模型产生的权重(这里称为第二权重参数)发送至服务器，服务器在接收到本地语言模型的权重之后，将收到的全部权重进行聚合，得到服务器本地的语言模型产生的权重(这里称为第一权重参数)，将权重发送至各客户端，以使得客户端基于服务器发送的权重进行下一次训练。最后在多次训练之后，客户端的模型训练完成。

本步骤通过知识共享的方式达到数据隐私保护的目的，通过多客户端协同优化的方式保证每一客户端的本地语言模型的语义理解与生成能力，通过协同学习将模型训练分布到多个本地的客户端上，避免了中央化数据的集中存储，这种分布式学习方式使得模型在海量的语料库上学习到丰富的语言知识。

因为协同优化势必各客户端的本地语言模型能力趋于一致，为了解决这一缺陷，本方法是通过KL散度衡量服务器的语言模型输出预测的向量与客户端的本地语言模型输出预测的向量之间的相似度，根据相似度构建损失函数，基于损失函数，采用当前训练次数下的第一权重参数对本地语言模型更新。本方法在客户端进行判定，通过KL散度衡量服务器与客户端分布的相似度，以确定服务器与客户端的差异性，达到个性化学习的目的。

如图2和图3，以下介绍一种实施例，一种知识共享的大语言模型协同优化系统，系统包括：

多个客户端，每客户端设置有一个本地语言模型：其中/>为本地私有化数据，/>为本地语言模型的权重参数(即第二权重参数)。

服务器，服务器也设置本地的语言模型：F_c(x_c|θ_c)，其中，x_c为本地私有化数据，θ_c为服务器模型的权重参数(即第一权重参数)。

服务器端和客户端都自行对数据使用如同态加密、差分隐私等技术对数据进行保护。

以本地语言模型的一次训练过程为例，方法包括：

步骤S210、本地语言模型的训练。

如果是首次训练，则需要先使用接收到服务器的语言模型得到第一权重参数θ_c对客户端的本地语言模型进行初始化。

本地语言模型(设置成图卷积神经网络)是通过图特征的方式来刻画词与词质检的关联关系，使得模型更准确预测，有效解决模型的长依赖问题，本地语言模型的主要特点是它可以根据输入的上下文来生成下一个词。对于数据其中包含了k个文本，表示为的词汇集为/>m表示词汇的数量，图卷积神经网络关键在于构建顶点V，此处的顶点集V为/>与词汇集的集合，对于词汇顶点则采用词向量的方式得到相应的特征向量，对于文本顶点则使用所有词向量相加，以此得到顶点特征矩阵X。

邻接矩阵A构建方式如下，其顶点数量为n＝k+m，通过使用互信息(PMI)建立文本内词汇之间的关联关系，通过tf-idf算法建立词汇与文本的关联关系。通过图卷积神经网络对各个顶点进行信息聚合，得到特征表示Z^*，其方式如下：

Z^*＝F(X,A)

F(X,A)＝A^～(A^～XW₀)W₁

其中，A^～表示通过A得到的归一化对称邻接矩阵，其中W₀,W₁表示本地语言模型的权值，通过上述步骤获得顶点特征矩阵X的新特征表示Z^*，该特征表示Z^*包含了词共现、句法依赖树等信息，词汇集为的新特征表述Z^*可通过对应下标获得指定词汇的特征表示。

为了使本地语言模型能理解词与词质检的关联关系，使得本地语言模型更准确预测，有效解决本地语言模型的长依赖问题，使用基于图嵌入特征的更新机制，为第i客户端对应的本地语言模型产生第二权重参数，i∈m，通过以下步骤更新本地语言模型的/>

表示对本地语言模型采用传统的梯度下降方式进行权重更新，γ,β为权值，除此之外，采用KL散度衡量本地语言模型的词汇特征与图嵌入词汇特征的差异，驱使本地语言模型词汇特征往图嵌入词汇特征靠拢，使本地语言模型能理解词与词质检的关联关系，使得本地语言模型更准确预测。

步骤S220、客户端将本地语言模型的训练产生第二权重参数上传至客户端，由客户端进行筛选和聚合。

因为数据集的类型和质量决定了本地语言模型的精度，本地语言模型精度不高也将影响去全局模型的精度。所以本方法对客户端增加筛选流程。考虑到了服务器和客户端在协同学习中任务不同，服务器发布任务、筛选本地的客户端、聚合全局，只需筛选行为可靠、设备算力充足的诚实的客户端。这里是基于信誉值选取客户端的计算方式，根据不同客户端及客户端行为量化节点在训练中的可信度，若客户端的声誉值则淘汰该客户端，α为设定的值，客户端的信誉值计算方式如下：

先融合θ_c,加载到服务器，采用服务器的本地测试数据集/>计算融合特征模型的准确率，准确率即该客户端的信誉值，其中/>为服务器准备的本地测试数据集。

由于本地语言模型预测的质量在对客户端间存在差异，因此需要赋予不同的权重，但是聚合函数往往会导致对等体快速同质，损害群体蒸馏的有效性，其中一个关键设计是在聚合期间，每个辅助对等体将各自的权重分配给所有对等体，以获得目标分布，并用以指导服务器的语言模型的本地训练，服务器聚合所有第二权重参数，聚合步骤如下：

由于各个本地语言模型在服务器的协同下，局部的本地语言模型会有趋同性质。为了增加本地语言模型的个性化，在服务器的语言模型下放给客户端时，分为全局模型的处理与全局平均向量的处理两部分，核心思想是在保留更多的本地语法、知识信息，由于学习本地语法、知识的偏移是由本地分布与全局分布不拟合造成的，因此需要一个机制驱动本地化的学习，在本地数据中将本地语言模型的预测作为标签，然后通过对服务器下发第二权重参数进行知识蒸馏。对于蒸馏损失，模型输出的Logits被时间间隔τ转化为软预测。令z表示输入向量，i表示训练的次数，i∈c，q(c)表示本地语言模型的Softmax函数的输出。由于Softmax函数的输出为模型预测概率，因此本地预测和全局预测如下所示：

本地预测和全局预测如下所示，其中z_c表示训练的次数为c的客户端输出的预测向量，表示训练的次数为c次的服务器输出预测的向量，exp表示e^x的指数函数在客户端进行判定，本地预测与全局预测之间的损失函数/>为两者的KL散度，通过KL散度衡量服务器与客户端分布的相似度，以确定服务器与客户端的差异性，达到个性化学习的目的。

参照图4，本申请一个实施例，提供了一种知识共享的大语言模型协同优化系统，知识共享的大语言模型协同优化系统包括数据获取单元1100和语义判断单元1200，具体为：

数据获取单元1100用于获取语言数据。

语义判断单元1200根据训练好的本地语言模型对语言数据进行语义判断；其中本地语言模型通过如下方式进行训练：

需要注意的是，本实施例提供的系统与上述方法实施例是基于相同的发明构思，因此上述方法实施例的相关内容同样适用于本系统实施例，此处不再细述。

如图5，本申请实施例还提供了一种电子设备，本电子设备包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

程序被存储在存储器中，处理器执行至少一个程序以实现本公开实施上述的知识共享的大语言模型协同优化方法。

该电子设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、车载电脑等任意智能终端。

下面对本申请实施例的电子设备进行详细介绍。

处理器1600，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器1700，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器1700可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1700中，并由处理器1600来调用执行本发明实施例的知识共享的大语言模型协同优化方法。

输入/输出接口1800，用于实现信息输入及输出；

通信接口1900，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线2000，在设备的各个组件(例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900)之间传输信息；

其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述的知识共享的大语言模型协同优化方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明描述的实施例是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims

1.一种知识共享的大语言模型协同优化方法，其特征在于，用于客户端，所述知识共享的大语言模型协同优化方法包括：

获取语言数据；

接收所述服务器下发的下一训练次数下的第一权重参数，并依次类推进行下一次更新，直至得到训练好的所述本地语言模型；所述本地语言模型设置有词向量图嵌入模型；

根据所述词向量图嵌入模型构建词与词之间的关联关系；

根据所述当前训练次数下的第一权重参数和图嵌入特征对所述本地语言模型更新；

所述词向量图嵌入模块通过如下公式构建词与词之间的关联关系：

其中，表示图卷积神经网络对各个文本顶点和/或词汇顶点进行聚合后的特征表示，表示图卷积神经网络聚合操作，/>表示顶点特征矩阵，/>表示词汇之间和/或词汇与文本之间邻接矩阵，/>表示通过/>得到的归一化对称邻接矩阵，/>表示模型权重；

所述根据所述当前训练次数下的第一权重参数和图嵌入特征对所述本地语言模型更新的公式包括：

其中，表示第/>客户端的所述本地语言模型，/>表示第/>客户端的本地私有化数据，/>表示第/>客户端的所述本地语言模型的第二权重参数，/>表示对所述本地语言模型采用梯度下降方式进行权重更新操作，/>为KL散度函数，/>为权值。

2.根据权利要求1所述的知识共享的大语言模型协同优化方法，其特征在于，所述损失函数包括如下公式：

其中，表示/>的指数函数，/>表示/>和/>之间的散度，/>表示第/>训练次数的客户端的本地语言模型输出预测的向量，/>表示训练的总次数，/>表示第/>训练次数的服务器输出预测的向量，/>为设定时间间隔。

3.根据权利要求1所述的知识共享的大语言模型协同优化方法，其特征在于，在所述将所述当前训练次数下生成的第二权重参数上传至所述服务器之后，所述知识共享的大语言模型协同优化方法还包括：

4.根据权利要求3所述的知识共享的大语言模型协同优化方法，其特征在于，所述选取所述信誉值超出阈值的若干客户端上传的当前训练次数下生成的第二权重参数聚合得到下一训练次数下的第一权重参数的公式包括：

其中，表示所述信誉值超出阈值的若干客户端的数量，/>表示所述服务器的语言模型，/>表示所述服务器的私有化数据，/>表示第一权重参数。

5.一种知识共享的大语言模型协同优化系统，其特征在于，所述知识共享的大语言模型协同优化系统包括：

数据获取单元，用于获取语言数据；

根据所述词向量图嵌入模型构建词与词之间的关联关系；

6.一种电子设备，其特征在于，包括：至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行权利要求1至4任一项所述的知识共享的大语言模型协同优化方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至4任一项所述的知识共享的大语言模型协同优化方法。