CN117077541A

CN117077541A - 一种医疗模型的参数高效微调方法和系统

Info

Publication number: CN117077541A
Application number: CN202311317002.9A
Authority: CN
Inventors: 马骏; 王晓磊; 张伟; 杨钰群
Original assignee: Beijing Xinlianxin Technology Development Co ltd
Current assignee: Ningbo Xinlian Xin Medical Technology Co ltd
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2023-11-17
Anticipated expiration: 2043-10-11
Also published as: CN117077541B

Abstract

本发明提出一种医疗模型的参数高效微调方法和系统。其中，方法包括：收集医疗数据的数据集，并划分为训练集和测试集；以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型，得到改进的Transformer模型，作为大模型；应用所述训练集对所述改进的Transformer模型进行预训练；应用所述测试集，通过微调卷积归纳偏置模块得参数，实现在低数据条件下微调预训练后的大模型。本发明提出的方案能够实现在低数据条件下微调预训练大模型，解决医疗场景中微调数据量少和域信息差距大的问题。

Description

一种医疗模型的参数高效微调方法和系统

技术领域

本发明属于人工智能领域，尤其涉及一种医疗模型的参数高效微调方法和系统。

背景技术

基于 Transformers 架构的大型语言模型 (LLM)，如 GPT、T5 和 BERT，已经在各种自然语言处理 (NLP) 任务中取得了最先进的结果。此外，还开始使用到其他领域，例如计算机视觉 (CV) (VIT、Stable Diffusion、LayoutLM) 和音频 (Whisper、XLS-R)。传统的范式是对通用网络规模数据进行大规模预训练，然后对下游任务进行微调。与不经过微调的预训练 LLM (例如，零样本推理) 相比，在下游数据集上微调这些预训练 LLM 会带来巨大的性能提升。

然而，随着模型变得越来越大，在消费级硬件上对模型进行全部参数的微调变得不可行。此外，为每个下游任务独立存储和部署微调模型变得非常昂贵，因为微调模型与原始预训练模型的大小相同。参数高效微调(Parameter-Efficient-Finetuning， PEFT) 方法旨在解决这两个问题。

参数高效微调方法仅微调少量 (额外) 模型参数，同时冻结预训练模型的大部分参数，从而大大降低了计算和存储成本。这也克服了灾难性遗忘的问题，这是在 LLM 的全参数微调条件下经常出现的一种现象。参数高效微调方法也显示出在低数据微调条件下比全参数微调更好，可以更好地泛化到目标域外的场景。参数高效微调方法可以应用于各种模态，例如图像分类以及 Stable Diffusion, Dreambooth。

对于医疗领域，全参数微调大模型更加困难，原因来自两方面：1. 医疗领域数据采集因其隐私性与高成本的特点，相比于传统图像领域，较难获得数据集。2. 预训练信息与医疗领域信息差距较大，较难进行微调学习。

发明内容

为解决上述技术问题，本发明提出一种医疗模型的参数高效微调方法的技术方案，以解决上述技术问题。

本发明第一方面公开了一种医疗模型的参数高效微调方法，所述方法包括：

步骤S1、收集医疗数据的数据集，并划分为训练集和测试集；

步骤S2、以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型，得到改进的Transformer模型，作为大模型；

步骤S3、应用所述训练集对所述改进的Transformer模型进行预训练；

步骤S4、应用所述测试集，通过微调卷积归纳偏置模块得参数，实现在低数据条件下微调预训练后的大模型。

根据本发明第一方面的方法，在所述步骤S1中，所述数据集中的未知类别的全部数据当作测试集，并随机输入医疗数据对未知类别数据进行推理分类。

根据本发明第一方面的方法，在所述步骤S2中，所述以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型的方法包括：

将所述卷积归纳偏置模块并联于Transformer模型的多头注意力模块和多层感知机，即全连接层。

根据本发明第一方面的方法，在所述步骤S2中，所述卷积归纳偏置模块的结构为：第一卷积层、第一激活函数、第二卷积层、第二激活函数和第三卷积层；

卷积归纳偏置模块的输入数据进入所述第一卷积层，第一卷积层的输出进入第一激活函数，第一激活函数的输出进入所述第二卷积层，第二卷积层的输出进入所述第二激活函数，第二激活函数的输出进入所述第三卷积层。

根据本发明第一方面的方法，在所述步骤S2中，所述第一卷积层为1×1卷积。

根据本发明第一方面的方法，在所述步骤S2中，所述第二卷积层为5×5卷积。

根据本发明第一方面的方法，在所述步骤S2中，所述第三卷积层为1×1卷积。

本发明第二方面公开了一种医疗模型的参数高效微调系统，所述系统包括：

第一处理模块，被配置为，收集医疗数据的数据集，并划分为训练集和测试集；

第二处理模块，被配置为，以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型，得到改进的Transformer模型，作为大模型；

第三处理模块，被配置为，应用所述训练集对所述改进的Transformer模型进行预训练；

第四处理模块，被配置为，应用所述测试集，通过微调卷积归纳偏置模块得参数，实现在低数据条件下微调预训练后的大模型。

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤。

综上，本发明提出的方案能够实现在低数据条件下微调预训练大模型，解决医疗场景中微调数据量少和域信息差距大的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种医疗模型的参数高效微调方法的流程图；

图2为根据本发明实施例的改进的Transformer模型结构图；

图3为根据本发明实施例的卷积归纳偏置模块结构图；

图4为根据本发明实施例的一种医疗模型的参数高效微调系统的结构图；

图5为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种医疗模型的参数高效微调方法。图1为根据本发明实施例的一种医疗模型的参数高效微调方法的流程图，如图1所示，所述方法包括：

在步骤S1，收集医疗数据的数据集，并划分为训练集和测试集。

在一些实施例中，在所述步骤S1中，所述数据集中的未知类别的全部数据当作测试集，并随机输入医疗数据对未知类别数据进行推理分类。

具体地，将已知类别数据集的80％用作已知类别训练集，20％用作已知类别测试集。未知类别数据集中全部数据当作测试集。数据集表示为：，其中医疗数据，/>为相应的分类标签。对于训练集，将数据以医疗数据和相应标签的形式输入网络。对于测试集，随机输入医疗数据进行推理分类。

在步骤S2，以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型，得到改进的Transformer模型，作为大模型。

在一些实施例中，在所述步骤S2中，所述以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型的方法包括：

如图2所示，将所述卷积归纳偏置模块并联于Transformer模型的多头注意力模块和多层感知机，即全连接层。

如图3所示，所述卷积归纳偏置模块的结构为：第一卷积层、第一激活函数、第二卷积层、第二激活函数和第三卷积层；

所述第一卷积层为1×1卷积。

所述第二卷积层为5×5卷积。

所述第三卷积层为1×1卷积。

具体地，基于Transformer结构的预训练大模型主要由多头注意力模块和全连接层组成，具有较强的全局信息，但是归纳偏置信息较少。与Transformer结构相反，卷积神经网络（Convolutional Neural Network， CNN）具有较强的归纳偏置信息。因此将可学习的卷积归纳偏置模块的归纳偏置引入到Transformer结构中，通过微调卷积归纳偏置模块，实现在低数据条件下微调预训练大模型，解决医疗场景中微调数据量少和域信息差距大的问题。

标准Transformer模型：对输入特征，输入特征正则化层(norm)：

其中，对于任意输入x,norm可以表示为：

E，Var分别表示为均值和方差。引入全连接层，/>，/>获取多头自注意力向量Q，K，V：

计算自注意力向量Q, K之间的相似度：

最终得到多头注意力模块(Multi-Head Self-Attention, MHSA)输出：

同时，添加残差链接加快模型收敛:

将输入多层感知机(Multilayer Perceptron, MLP)来增加网络非线性，同时加入残差链接和正则化层进一步加速收敛：

。

改进的Transformer模型：如图2所示，以残差链接的形式引入卷积归纳偏置模块,将其并联于多头注意力模块(MHSA)和多层感知机(MLP)。卷积归纳偏置模块结构如图3所示,其由多个卷积层和激活函数组成，具体如下：

对于输入特征特征通道为n，使用1×1的卷积（/>）进行通道降维,降低参数微调计算量，同时引入/>激活函数,增加网络非线性：

将降维后的特征输入到5×5的卷积(）和激活函数。最后使用1×1的卷积(）进行通道升维，对齐特征通道输入Transformer模块，同时卷积归纳偏置模块加入残差链接。该过程表示如下：

卷积归纳偏置模块，通过训练引入的轻量级(参数高效）卷积，/>和，对Transformer模块引入归纳偏置信息，实现在低数据条件下微调预训练大模型，解决医疗场景中微调数据量少和域信息差距大的问题。

在步骤S3，应用所述训练集对所述改进的Transformer模型进行预训练。

具体地，分类结果()与数据集中标注真实结果(y)，采用交叉熵对卷积归纳偏置模块进行监督训练：

使用Adam优化算法，通过损失函数，迭代地更新可学习的卷积归纳偏置模块权重值，直到损失函数收敛，从而达到微调预训练大模型来适应下游医疗任务的目的。

在步骤S4，应用所述测试集，通过微调卷积归纳偏置模块得参数，实现在低数据条件下微调预训练后的大模型。

具体地，表1 给出了本实施例与现有微调方法模型基于息肉病变数据集的性能评价。

表1

比较方法	正确率(%)
		全参数微调	52.3
LORA	62.1
		Adaptor	66.8
VPT	65.6
		本实施例	67.2

表2 给出了本实施例与现有微调方法模型肺部病变数据集的性能评价。

表2

比较方法	正确率(%)
		全参数微调	63.8
LORA	68.9
		Adaptor	70.6
VPT	68.9
		本发明	75.3

表3 给出了本实施例与现有微调方法模型微调时间的性能评价。

表3

比较方法	时间(小时)
		全参数微调	2.3
LORA	2.8
		Adaptor	2.9
VPT	2.7
		本发明	1.6

正确率指标的计算公式为：

以上仿真实验表明：本发明提出的基于卷积归纳偏置的参数高效的医疗模型微调方法，在测试精度上超过最新的方法，同时微调时间减小30%。实验证明，本发明是一种非常实用的医疗模型微调方法。

本发明第二方面公开了一种医疗模型的参数高效微调系统。图4为根据本发明实施例的一种医疗模型的参数高效微调系统的结构图；如图4所示，所述系统100包括：

第一处理模块101，被配置为，收集医疗数据的数据集，并划分为训练集和测试集；

第二处理模块102，被配置为，以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型，得到改进的Transformer模型，作为大模型；

第三处理模块103，被配置为，应用所述训练集对所述改进的Transformer模型进行预训练；

第四处理模块104，被配置为，应用所述测试集，通过微调卷积归纳偏置模块得参数，实现在低数据条件下微调预训练后的大模型。

根据本发明第二方面的系统，所述第一处理模块101具体被配置为，所述数据集中的未知类别的全部数据当作测试集，并随机输入医疗数据对未知类别数据进行推理分类。

具体地，将已知类别数据集的80％用作已知类别训练集，20％用作已知类别测试集。未知类别数据集中全部数据当作测试集。数据集表示为：，其中/>为医疗数据，/>为相应的分类标签。对于训练集，将数据以医疗数据和相应标签的形式输入网络。对于测试集，随机输入医疗数据进行推理分类。

根据本发明第二方面的系统，所述第二处理模块102具体被配置为，所述以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型的方法包括：

所述第一卷积层为1×1卷积。

所述第二卷积层为5×5卷积。

所述第三卷积层为1×1卷积。

标准Transformer模型：对输入特征，输入特征正则化层(norm)：

其中，对于任意输入x,norm可以表示为：

计算自注意力向量Q, K之间的相似度：

最终得到多头注意力模块(Multi-Head Self-Attention, MHSA)输出：

同时，添加残差链接加快模型收敛:

。

对于输入特征x,特征通道为n，使用1×1的卷积(）进行通道降维,降低参数微调计算量，同时引入/>激活函数,增加网络非线性：

根据本发明第二方面的系统，所述第三处理模块103具体被配置为，分类结果(）与数据集中标注真实结果(y)，采用交叉熵对卷积归纳偏置模块进行监督训练：

根据本发明第二方面的系统，所述第四处理模块104具体被配置为，表1 给出了本实施例与现有微调方法模型基于息肉病变数据集的性能评价。

表1

表2

表3

正确率指标的计算公式为：

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤。

图5为根据本发明实施例的一种电子设备的结构图，如图5所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤中的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.在一种医疗模型的参数高效微调方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种医疗模型的参数高效微调方法，其特征在于，在所述步骤S1中，所述数据集中的未知类别的全部数据当作测试集，并随机输入医疗数据对未知类别数据进行推理分类。

3.根据权利要求1所述的一种医疗模型的参数高效微调方法，其特征在于，在所述步骤S2中，所述以残差链接的形式，将卷积归纳偏置模块引入到Transformer模型的方法包括：

4.根据权利要求1所述的一种医疗模型的参数高效微调方法，其特征在于，在所述步骤S2中，所述卷积归纳偏置模块的结构为：第一卷积层、第一激活函数、第二卷积层、第二激活函数和第三卷积层；

5.根据权利要求4所述的一种医疗模型的参数高效微调方法，其特征在于，在所述步骤S2中，所述第一卷积层为1×1卷积。

6.根据权利要求4所述的一种医疗模型的参数高效微调方法，其特征在于，在所述步骤S2中，所述第二卷积层为5×5卷积。

7.根据权利要求4所述的一种医疗模型的参数高效微调方法，其特征在于，在所述步骤S2中，所述第三卷积层为1×1卷积。

8.一种用于医疗模型的参数高效微调系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的一种医疗模型的参数高效微调方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的一种医疗模型的参数高效微调方法中的步骤。