CN117852627A

CN117852627A - 一种预训练模型微调方法及系统

Info

Publication number: CN117852627A
Application number: CN202410247177.5A
Authority: CN
Inventors: 江金阳; 彭一杰; 张泽良; 张�诚; 李广昊
Original assignee: Xiangjiang Laboratory
Current assignee: Xiangjiang Laboratory
Priority date: 2024-03-05
Filing date: 2024-03-05
Publication date: 2024-04-09

Abstract

本发明公开了一种预训练模型微调方法及系统，该方法包括：服务端对医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型；终端侧将本地医疗任务数据输入至该医疗预训练全局模型中进行计算，得到初始输出结果；利用噪声数据对初始输出结果进行调整，得到最终输出结果；基于最终输出结果，对医疗预训练全局模型进行更新；并上传更新后的医疗预训练全局模型；服务端对所有终端上传的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型。本发明通过联邦学习和梯度估计方法的结合，实现了大型模型的微调，从而获得性能更好的结果，有助于提高模型在各种下游任务中的适用性和效能。

Description

一种预训练模型微调方法及系统

技术领域

本发明涉及医疗预训练模型技术领域，特别涉及一种预训练模型微调方法及系统。

背景技术

大模型（也称大型预训练模型）的训练是一项复杂的技术，常用的策略包括预训练、微调等。预训练是指使用大规模数据集对模型进行无监督学习，以提高模型的泛化能力和训练效果。微调是指在预训练的基础上，使用较小的数据集对模型进行有监督学习，以适应具体需求和专门领域。医疗大模型是以海量数据和专业知识为基础，通过深度学习和自然语言处理等技术，实现医学推理、医患问答、病历自动生成和临床决策等功能。

医疗大模型通常由自然语言大模型微调而来，而在实际部署和使用中，需要更新新的医疗信息，需要进一步微调医疗大模型。医疗大模型通常利用LoRA（Low-RankAdaptation，低秩自适应）进行微调，在冻结其他参数的同时微调LoRA参数便可以实现模型微调。传统的医疗大模型在微调过程中，需要大量的医疗数据来支撑微调，这些数据通常来自于多个医疗机构，但由于医疗数据的隐私性，这些数据无法在不同医疗机构共享。这限制了医疗大模型训练的效率和最后训练的性能。此外，医疗大模型在微调过程中尤其是在反向传播过程中，需要大量的计算资源，包括高性能的GPU和CPU。这对于中小型医疗机构来说，往往是一个巨大的经济负担这也对计算资源提出了更高的要求。

因此，如何提供一种无需共享敏感医疗数据，允许每个医疗机构利用在本地计算能力、内存和数据的基础上进行合作且不需要进行反向传播训练的大型预训练模型微调技术，是目前亟待解决的问题。

发明内容

本发明实施例提供了一种预训练模型微调方法及系统，以解决现有技术中的上述问题。

为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键／重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本发明实施例的第一方面，提供了一种预训练模型微调方法。

在一个实施例中，所述预训练模型微调方法，包括：

服务端对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型，并对该医疗预训练全局模型进行广播下发；

终端侧获取服务端侧广播的具有冻结参数和可调节LoRA参数的医疗预训练全局模型，并将本地医疗任务数据输入至该医疗预训练全局模型中进行计算，得到初始输出结果；

终端侧针对所述可调节LoRA参数生成噪声数据，利用所述噪声数据对所述初始输出结果进行调整，得到最终输出结果；基于所述最终输出结果，利用梯度迭代参数估计算法对具有冻结参数和可调节LoRA参数的医疗预训练全局模型进行更新，得到更新后的医疗预训练全局模型；并向服务端侧侧上传更新后的医疗预训练全局模型；

服务端对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；并将所述最终医疗预训练全局模型下发至终端侧的各个终端，促使各个终端根据所述最终医疗预训练全局模型进行数据处理。

在一个实施例中，服务端对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型包括：

服务端侧对预先获取的医疗预训练全局模型进行冻结处理，并对冻结处理后的医疗预训练全局模型增加可训练的用于微调的LoRA参数，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型。

在一个实施例中，针对所述可调节LoRA参数生成噪声数据包括：

基于所述可调节LoRA参数和所述本地医疗任务数据，利用分布式密度函数计算所述可调节LoRA参数的噪声，得到噪声数据。

在一个实施例中，基于所述最终输出结果，利用梯度迭代参数估计算法对所述医疗预训练全局模型进行更新包括：

基于所述最终输出结果，利用梯度雅可比矩阵对所述可调节LoRA参数进行梯度估计，得到梯度估计结果；

根据所述梯度估计结果，基于预先设置的梯度下降迭代次数对所述医疗预训练全局模型的所述可调节LoRA参数进行更新；

其中，所述梯度雅可比矩阵的方程式为：

；

式中，为所述可调节LoRA参数的最终梯度期望；E为期望求解函数；L为损失函数；/>为所述医疗预训练全局模型的最终输出结果；/>为雅可比矩阵；为所述医疗预训练全局模型的初始输出结果；/>为第/>层网络层的输入数据；/>为第/>层网络层的冻结参数；/>为第/>层网络层的可调节LoRA参数；/>为第/>层网络层的噪声数据；/>为求导符号；/>为噪声分布的密度函数。

在一个实施例中，在对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型时，采用加权平均策略对对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；

且，所述联邦聚合处理的方程式为：

；

式中，为最终医疗预训练全局模型；S为终端数量；/>为终端集合；/>为第k个终端上传的更新后的医疗预训练全局模型。

根据本发明实施例的第二方面，提供了一种预训练模型微调系统。

在一个实施例中，所述预训练模型微调系统，包括：

预处理模块，位于服务端侧，用于对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型，并对该医疗预训练全局模型进行广播下发；

梯度更新模块，位于终端侧，用于获取服务端侧广播的具有冻结参数和可调节LoRA参数的医疗预训练全局模型，将本地医疗任务数据输入至该医疗预训练全局模型中进行计算，得到初始输出结果；并针对所述可调节LoRA参数生成噪声数据，利用所述噪声数据对所述初始输出结果进行调整，得到最终输出结果；基于所述最终输出结果，利用梯度迭代参数估计算法对具有冻结参数和可调节LoRA参数的医疗预训练全局模型进行更新，得到更新后的医疗预训练全局模型；并向服务端侧侧上传更新后的医疗预训练全局模型；

联邦聚合模块，位于服务端侧，用于对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；并将所述最终医疗预训练全局模型下发至终端侧的各个终端，促使各个终端根据所述最终医疗预训练全局模型进行数据处理。

在一个实施例中，所述预处理模块在对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型时，对预先获取的医疗预训练全局模型进行冻结处理，并对冻结处理后的医疗预训练全局模型增加可训练的用于微调的LoRA参数，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型。

在一个实施例中，所述梯度更新模块在针对所述可调节LoRA参数生成噪声数据时，基于所述可调节LoRA参数和所述本地医疗任务数据，利用分布式密度函数计算所述可调节LoRA参数的噪声，得到噪声数据。

在一个实施例中，所述梯度更新模块在基于所述最终输出结果，利用梯度迭代参数估计算法对所述医疗预训练全局模型进行更新时，基于所述最终输出结果，利用梯度雅可比矩阵对所述可调节LoRA参数进行梯度估计，得到梯度估计结果；根据所述梯度估计结果，基于预先设置的梯度下降迭代次数对所述医疗预训练全局模型的所述可调节LoRA参数进行更新；

其中，所述梯度雅可比矩阵的方程式为：

；

在一个实施例中，所述联邦聚合模块在对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型时，采用加权平均策略对对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；

且，所述联邦聚合处理的方程式为：

；

本发明实施例提供的技术方案可以包括以下有益效果：

本发明从服务端的角度利用联邦学习框架，在保证用户隐私和数据不共享的前提下实现各个终端的多方协同训练，允许每个终端在本地计算能力、内存和数据的基础上进行合作，确保了数据隐私不受威胁。

此外，本发明从终端的角度引入了基于梯度估计的方法，以取代传统的反向传播训练过程。这种方法降低了大型模型微调所需的计算资源，降低了中小型医疗机构的成本压力和计算压力。

而通过联邦学习和梯度估计方法的结合，实现了大型模型的微调，从而获得性能更好的结果，有助于提高模型在各种下游任务中的适用性和效能，更有效地适应特定任务，同时减少了模型参数的更新量，突破了现有限制，为大型模型的高效微调提供了新的解决方案。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种预训练模型微调方法的流程示意图；

图2是根据一示例性实施例示出的一种预训练模型微调系统的结构框图；

图3是根据一示例性实施例示出的计算机设备的结构示意图。

具体实施方式

实施例1

图1示出了本发明的一种预训练模型微调方法的一个实施例。

在该可选实施例中，所述预训练模型微调方法，包括：

步骤S101，服务端对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型，并对该医疗预训练全局模型进行广播下发；

步骤S102，终端侧获取服务端侧广播的具有冻结参数和可调节LoRA参数的医疗预训练全局模型，并将本地医疗任务数据输入至该医疗预训练全局模型中进行计算，得到初始输出结果；

步骤S103，终端侧针对所述可调节LoRA参数生成噪声数据，利用所述噪声数据对所述初始输出结果进行调整，得到最终输出结果；基于所述最终输出结果，利用梯度迭代参数估计算法对具有冻结参数和可调节LoRA参数的医疗预训练全局模型进行更新，得到更新后的医疗预训练全局模型；并向服务端侧侧上传更新后的医疗预训练全局模型；

步骤S104，服务端对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；并将所述最终医疗预训练全局模型下发至终端侧的各个终端，促使各个终端根据所述最终医疗预训练全局模型进行数据处理。

实施例2

图2示出了本发明的一种预训练模型微调系统的一个实施例。

在该可选实施例中，所述预训练模型微调系统，包括：

预处理模块201，位于服务端侧，用于对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型，并对该医疗预训练全局模型进行广播下发；

梯度更新模块202，位于终端侧，用于获取服务端侧广播的具有冻结参数和可调节LoRA参数的医疗预训练全局模型，将本地医疗任务数据输入至该医疗预训练全局模型中进行计算，得到初始输出结果；并针对所述可调节LoRA参数生成噪声数据，利用所述噪声数据对所述初始输出结果进行调整，得到最终输出结果；基于所述最终输出结果，利用梯度迭代参数估计算法对具有冻结参数和可调节LoRA参数的医疗预训练全局模型进行更新，得到更新后的医疗预训练全局模型；并向服务端侧侧上传更新后的医疗预训练全局模型；

联邦聚合模块203，位于服务端侧，用于对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；并将所述最终医疗预训练全局模型下发至终端侧的各个终端，促使各个终端根据所述最终医疗预训练全局模型进行数据处理。

在具体应用时，在服务端对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型时，服务端侧对预先获取的医疗预训练全局模型进行冻结处理，并对冻结处理后的医疗预训练全局模型增加可训练的用于微调的LoRA参数，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型。

而针对所述可调节LoRA参数生成噪声数据时，可基于所述可调节LoRA参数和所述本地医疗任务数据，利用分布式密度函数计算所述可调节LoRA参数的噪声，得到噪声数据。在基于所述最终输出结果，利用梯度迭代参数估计算法对所述医疗预训练全局模型进行更新时，则可基于所述最终输出结果，利用梯度雅可比矩阵对所述可调节LoRA参数进行梯度估计，得到梯度估计结果；根据所述梯度估计结果，基于预先设置的梯度下降迭代次数对所述医疗预训练全局模型的所述可调节LoRA参数进行更新。

而对于医疗预训练全局模型来说，其是一个具有层的神经网络。对于的神经网络来说，这个网络的第/>层具有冻结参数/>和可调节LoRA参数/>以及计算结构/>，其输入为/>，输出为/>，通过以下式子计算得到：/>。神经网络整体的输入，也就是第/>层输入是/>，第/>层即最后一层输出为/>。

因此，基于该情况，所述梯度雅可比矩阵的方程式为：

；

此外，在具体应用时，在对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型时，采用加权平均策略对对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；

且，所述联邦聚合处理的方程式为：

；

图3示出了本发明的一种计算机设备的一个实施例。该计算机设备可以是服务器，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储静态信息和动态信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法实施例中的步骤。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

此外，本发明还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

另外，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

本发明并不局限于上面已经描述并在附图中示出的结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种预训练模型微调方法，其特征在于，包括：

2.根据权利要求1所述的预训练模型微调方法，其特征在于，服务端对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型包括：

3.根据权利要求1所述的预训练模型微调方法，其特征在于，针对所述可调节LoRA参数生成噪声数据包括：

4.根据权利要求1所述的预训练模型微调方法，其特征在于，基于所述最终输出结果，利用梯度迭代参数估计算法对所述医疗预训练全局模型进行更新包括：

其中，所述梯度雅可比矩阵的方程式为：

；

5.根据权利要求1所述的预训练模型微调方法，其特征在于，在对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型时，采用加权平均策略对对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；

且，所述联邦聚合处理的方程式为：

；

6.一种预训练模型微调系统，其特征在于，包括：

7.根据权利要求6所述的预训练模型微调系统，其特征在于，所述预处理模块在对预先获取的医疗预训练全局模型进行预处理，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型时，对预先获取的医疗预训练全局模型进行冻结处理，并对冻结处理后的医疗预训练全局模型增加可训练的用于微调的LoRA参数，得到具有冻结参数和可调节LoRA参数的医疗预训练全局模型。

8.根据权利要求6所述的预训练模型微调系统，其特征在于，所述梯度更新模块在针对所述可调节LoRA参数生成噪声数据时，基于所述可调节LoRA参数和所述本地医疗任务数据，利用分布式密度函数计算所述可调节LoRA参数的噪声，得到噪声数据。

9.根据权利要求6所述的预训练模型微调系统，其特征在于，所述梯度更新模块在基于所述最终输出结果，利用梯度迭代参数估计算法对所述医疗预训练全局模型进行更新时，基于所述最终输出结果，利用梯度雅可比矩阵对所述可调节LoRA参数进行梯度估计，得到梯度估计结果；根据所述梯度估计结果，基于预先设置的梯度下降迭代次数对所述医疗预训练全局模型的所述可调节LoRA参数进行更新；

其中，所述梯度雅可比矩阵的方程式为：

；

10.根据权利要求6所述的预训练模型微调系统，其特征在于，所述联邦聚合模块在对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型时，采用加权平均策略对对终端侧所有终端上传的更新后的医疗预训练全局模型进行联邦聚合处理，得到最终医疗预训练全局模型；

且，所述联邦聚合处理的方程式为：

；