CN117077541A - 一种医疗模型的参数高效微调方法和系统 - Google Patents
一种医疗模型的参数高效微调方法和系统 Download PDFInfo
- Publication number
- CN117077541A CN117077541A CN202311317002.9A CN202311317002A CN117077541A CN 117077541 A CN117077541 A CN 117077541A CN 202311317002 A CN202311317002 A CN 202311317002A CN 117077541 A CN117077541 A CN 117077541A
- Authority
- CN
- China
- Prior art keywords
- convolution
- model
- data
- medical
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006698 induction Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 32
- 230000004913 activation Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 7
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 4
- 230000003902 lesion Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 208000037062 Polyps Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Geometry (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提出一种医疗模型的参数高效微调方法和系统。其中,方法包括:收集医疗数据的数据集,并划分为训练集和测试集;以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型;应用所述训练集对所述改进的Transformer模型进行预训练;应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。本发明提出的方案能够实现在低数据条件下微调预训练大模型,解决医疗场景中微调数据量少和域信息差距大的问题。
Description
技术领域
本发明属于人工智能领域,尤其涉及一种医疗模型的参数高效微调方法和系统。
背景技术
基于 Transformers 架构的大型语言模型 (LLM),如 GPT、T5 和 BERT,已经在各种自然语言处理 (NLP) 任务中取得了最先进的结果。此外,还开始使用到其他领域,例如计算机视觉 (CV) (VIT、Stable Diffusion、LayoutLM) 和音频 (Whisper、XLS-R)。传统的范式是对通用网络规模数据进行大规模预训练,然后对下游任务进行微调。与不经过微调的预训练 LLM (例如,零样本推理) 相比,在下游数据集上微调这些预训练 LLM 会带来巨大的性能提升。
然而,随着模型变得越来越大,在消费级硬件上对模型进行全部参数的微调变得不可行。此外,为每个下游任务独立存储和部署微调模型变得非常昂贵,因为微调模型与原始预训练模型的大小相同。参数高效微调(Parameter-Efficient-Finetuning, PEFT) 方法旨在解决这两个问题。
参数高效微调方法仅微调少量 (额外) 模型参数,同时冻结预训练模型 的大部分参数,从而大大降低了计算和存储成本。这也克服了灾难性遗忘的问题,这是在 LLM 的全参数微调条件下经常出现的一种现象。 参数高效微调方法也显示出在低数据微调条件下比全参数微调更好,可以更好地泛化到目标域外的场景。参数高效微调方法可以应用于各种模态,例如图像分类以及 Stable Diffusion, Dreambooth。
对于医疗领域,全参数微调大模型更加困难,原因来自两方面:1. 医疗领域数据采集因其隐私性与高成本的特点,相比于传统图像领域,较难获得数据集。2. 预训练信息与医疗领域信息差距较大,较难进行微调学习。
发明内容
为解决上述技术问题,本发明提出一种医疗模型的参数高效微调方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种医疗模型的参数高效微调方法,所述方法包括:
步骤S1、收集医疗数据的数据集,并划分为训练集和测试集;
步骤S2、以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型;
步骤S3、应用所述训练集对所述改进的Transformer模型进行预训练;
步骤S4、应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。
根据本发明第一方面的方法,在所述步骤S1中,所述数据集中的未知类别的全部数据当作测试集,并随机输入医疗数据对未知类别数据进行推理分类。
根据本发明第一方面的方法,在所述步骤S2中,所述以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型的方法包括:
将所述卷积归纳偏置模块并联于Transformer模型的多头注意力模块和多层感知机,即全连接层。
根据本发明第一方面的方法,在所述步骤S2中,所述卷积归纳偏置模块的结构为:第一卷积层、第一激活函数、第二卷积层、第二激活函数和第三卷积层;
卷积归纳偏置模块的输入数据进入所述第一卷积层,第一卷积层的输出进入第一激活函数,第一激活函数的输出进入所述第二卷积层,第二卷积层的输出进入所述第二激活函数,第二激活函数的输出进入所述第三卷积层。
根据本发明第一方面的方法,在所述步骤S2中,所述第一卷积层为1×1卷积。
根据本发明第一方面的方法,在所述步骤S2中,所述第二卷积层为5×5卷积。
根据本发明第一方面的方法,在所述步骤S2中,所述第三卷积层为1×1卷积。
本发明第二方面公开了一种医疗模型的参数高效微调系统,所述系统包括:
第一处理模块,被配置为,收集医疗数据的数据集,并划分为训练集和测试集;
第二处理模块,被配置为,以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型;
第三处理模块,被配置为,应用所述训练集对所述改进的Transformer模型进行预训练;
第四处理模块,被配置为,应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤。
综上,本发明提出的方案能够实现在低数据条件下微调预训练大模型,解决医疗场景中微调数据量少和域信息差距大的问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种医疗模型的参数高效微调方法的流程图;
图2为根据本发明实施例的改进的Transformer模型结构图;
图3为根据本发明实施例的卷积归纳偏置模块结构图;
图4为根据本发明实施例的一种医疗模型的参数高效微调系统的结构图;
图5为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种医疗模型的参数高效微调方法。图1为根据本发明实施例的一种医疗模型的参数高效微调方法的流程图,如图1所示,所述方法包括:
步骤S1、收集医疗数据的数据集,并划分为训练集和测试集;
步骤S2、以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型;
步骤S3、应用所述训练集对所述改进的Transformer模型进行预训练;
步骤S4、应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。
在步骤S1,收集医疗数据的数据集,并划分为训练集和测试集。
在一些实施例中,在所述步骤S1中,所述数据集中的未知类别的全部数据当作测试集,并随机输入医疗数据对未知类别数据进行推理分类。
具体地,将已知类别数据集的80%用作已知类别训练集,20%用作已知类别测试集。未知类别数据集中全部数据当作测试集。数据集表示为:,其中医疗数据,/>为相应的分类标签。对于训练集,将数据以医疗数据和相应标签的形式输入网络。对于测试集,随机输入医疗数据进行推理分类。
在步骤S2,以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型。
在一些实施例中,在所述步骤S2中,所述以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型的方法包括:
如图2所示,将所述卷积归纳偏置模块并联于Transformer模型的多头注意力模块和多层感知机,即全连接层。
如图3所示,所述卷积归纳偏置模块的结构为:第一卷积层、第一激活函数、第二卷积层、第二激活函数和第三卷积层;
卷积归纳偏置模块的输入数据进入所述第一卷积层,第一卷积层的输出进入第一激活函数,第一激活函数的输出进入所述第二卷积层,第二卷积层的输出进入所述第二激活函数,第二激活函数的输出进入所述第三卷积层。
所述第一卷积层为1×1卷积。
所述第二卷积层为5×5卷积。
所述第三卷积层为1×1卷积。
具体地,基于Transformer结构的预训练大模型主要由多头注意力模块和全连接层组成,具有较强的全局信息,但是归纳偏置信息较少。与Transformer结构相反,卷积神经网络(Convolutional Neural Network, CNN)具有较强的归纳偏置信息。因此将可学习的卷积归纳偏置模块的归纳偏置引入到Transformer结构中,通过微调卷积归纳偏置模块,实现在低数据条件下微调预训练大模型,解决医疗场景中微调数据量少和域信息差距大的问题。
标准Transformer模型:对输入特征,输入特征正则化层(norm):
其中,对于任意输入x,norm可以表示为:
E,Var分别表示为均值和方差。引入全连接层,/>,/>获取多头自注意力向量Q,K,V:
计算自注意力向量Q, K之间的相似度:
最终得到多头注意力模块(Multi-Head Self-Attention, MHSA)输出:
同时,添加残差链接加快模型收敛:
将输入多层感知机(Multilayer Perceptron, MLP)来增加网络非线性,同时加入残差链接和正则化层进一步加速收敛:
。
改进的Transformer模型:如图2所示,以残差链接的形式引入卷积归纳偏置模块,将其并联于多头注意力模块(MHSA)和多层感知机(MLP)。卷积归纳偏置模块结构如图3所示,其由多个卷积层和激活函数组成,具体如下:
对于输入特征特征通道为n,使用1×1的卷积(/>)进行通道降维,降低参数微调计算量,同时引入/>激活函数,增加网络非线性:
将降维后的特征输入到5×5的卷积()和激活函数。最后使用1×1的卷积()进行通道升维,对齐特征通道输入Transformer模块,同时卷积归纳偏置模块加入残差链接。该过程表示如下:
卷积归纳偏置模块,通过训练引入的轻量级(参数高效)卷积,/>和,对Transformer模块引入归纳偏置信息,实现在低数据条件下微调预训练大模型,解决医疗场景中微调数据量少和域信息差距大的问题。
在步骤S3,应用所述训练集对所述改进的Transformer模型进行预训练。
具体地,分类结果()与数据集中标注真实结果(y),采用交叉熵对卷积归纳偏置模块进行监督训练:
使用Adam优化算法,通过损失函数,迭代地更新可学习的卷积归纳偏置模块权重值,直到损失函数收敛,从而达到微调预训练大模型来适应下游医疗任务的目的。
在步骤S4,应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。
具体地,表1 给出了本实施例与现有微调方法模型基于息肉病变数据集的性能评价。
表1
比较方法 | 正确率(%) |
全参数微调 | 52.3 |
LORA | 62.1 |
Adaptor | 66.8 |
VPT | 65.6 |
本实施例 | 67.2 |
表2 给出了本实施例与现有微调方法模型肺部病变数据集的性能评价。
表2
比较方法 | 正确率(%) |
全参数微调 | 63.8 |
LORA | 68.9 |
Adaptor | 70.6 |
VPT | 68.9 |
本发明 | 75.3 |
表3 给出了本实施例与现有微调方法模型微调时间的性能评价。
表3
比较方法 | 时间(小时) |
全参数微调 | 2.3 |
LORA | 2.8 |
Adaptor | 2.9 |
VPT | 2.7 |
本发明 | 1.6 |
正确率指标的计算公式为:
以上仿真实验表明:本发明提出的基于卷积归纳偏置的参数高效的医疗模型微调方法,在测试精度上超过最新的方法,同时微调时间减小30%。实验证明,本发明是一种非常实用的医疗模型微调方法。
综上,本发明提出的方案能够实现在低数据条件下微调预训练大模型,解决医疗场景中微调数据量少和域信息差距大的问题。
本发明第二方面公开了一种医疗模型的参数高效微调系统。图4为根据本发明实施例的一种医疗模型的参数高效微调系统的结构图;如图4所示,所述系统100包括:
第一处理模块101,被配置为,收集医疗数据的数据集,并划分为训练集和测试集;
第二处理模块102,被配置为,以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型;
第三处理模块103,被配置为,应用所述训练集对所述改进的Transformer模型进行预训练;
第四处理模块104,被配置为,应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。
根据本发明第二方面的系统,所述第一处理模块101具体被配置为,所述数据集中的未知类别的全部数据当作测试集,并随机输入医疗数据对未知类别数据进行推理分类。
具体地,将已知类别数据集的80%用作已知类别训练集,20%用作已知类别测试集。未知类别数据集中全部数据当作测试集。数据集表示为:,其中/>为医疗数据,/>为相应的分类标签。对于训练集,将数据以医疗数据和相应标签的形式输入网络。对于测试集,随机输入医疗数据进行推理分类。
根据本发明第二方面的系统,所述第二处理模块102具体被配置为,所述以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型的方法包括:
如图2所示,将所述卷积归纳偏置模块并联于Transformer模型的多头注意力模块和多层感知机,即全连接层。
如图3所示,所述卷积归纳偏置模块的结构为:第一卷积层、第一激活函数、第二卷积层、第二激活函数和第三卷积层;
卷积归纳偏置模块的输入数据进入所述第一卷积层,第一卷积层的输出进入第一激活函数,第一激活函数的输出进入所述第二卷积层,第二卷积层的输出进入所述第二激活函数,第二激活函数的输出进入所述第三卷积层。
所述第一卷积层为1×1卷积。
所述第二卷积层为5×5卷积。
所述第三卷积层为1×1卷积。
具体地,基于Transformer结构的预训练大模型主要由多头注意力模块和全连接层组成,具有较强的全局信息,但是归纳偏置信息较少。与Transformer结构相反,卷积神经网络(Convolutional Neural Network, CNN)具有较强的归纳偏置信息。因此将可学习的卷积归纳偏置模块的归纳偏置引入到Transformer结构中,通过微调卷积归纳偏置模块,实现在低数据条件下微调预训练大模型,解决医疗场景中微调数据量少和域信息差距大的问题。
标准Transformer模型:对输入特征,输入特征正则化层(norm):
其中,对于任意输入x,norm可以表示为:
E,Var分别表示为均值和方差。引入全连接层,/>,/>获取多头自注意力向量Q,K,V:
计算自注意力向量Q, K之间的相似度:
最终得到多头注意力模块(Multi-Head Self-Attention, MHSA)输出:
同时,添加残差链接加快模型收敛:
将输入多层感知机(Multilayer Perceptron, MLP)来增加网络非线性,同时加入残差链接和正则化层进一步加速收敛:
。
改进的Transformer模型:如图2所示,以残差链接的形式引入卷积归纳偏置模块,将其并联于多头注意力模块(MHSA)和多层感知机(MLP)。卷积归纳偏置模块结构如图3所示,其由多个卷积层和激活函数组成,具体如下:
对于输入特征x,特征通道为n,使用1×1的卷积()进行通道降维,降低参数微调计算量,同时引入/>激活函数,增加网络非线性:
将降维后的特征输入到5×5的卷积()和激活函数。最后使用1×1的卷积()进行通道升维,对齐特征通道输入Transformer模块,同时卷积归纳偏置模块加入残差链接。该过程表示如下:
卷积归纳偏置模块,通过训练引入的轻量级(参数高效)卷积,/>和,对Transformer模块引入归纳偏置信息,实现在低数据条件下微调预训练大模型,解决医疗场景中微调数据量少和域信息差距大的问题。
根据本发明第二方面的系统,所述第三处理模块103具体被配置为,分类结果()与数据集中标注真实结果(y),采用交叉熵对卷积归纳偏置模块进行监督训练:
使用Adam优化算法,通过损失函数,迭代地更新可学习的卷积归纳偏置模块权重值,直到损失函数收敛,从而达到微调预训练大模型来适应下游医疗任务的目的。
根据本发明第二方面的系统,所述第四处理模块104具体被配置为,表1 给出了本实施例与现有微调方法模型基于息肉病变数据集的性能评价。
表1
比较方法 | 正确率(%) |
全参数微调 | 52.3 |
LORA | 62.1 |
Adaptor | 66.8 |
VPT | 65.6 |
本实施例 | 67.2 |
表2 给出了本实施例与现有微调方法模型肺部病变数据集的性能评价。
表2
比较方法 | 正确率(%) |
全参数微调 | 63.8 |
LORA | 68.9 |
Adaptor | 70.6 |
VPT | 68.9 |
本发明 | 75.3 |
表3 给出了本实施例与现有微调方法模型微调时间的性能评价。
表3
比较方法 | 时间(小时) |
全参数微调 | 2.3 |
LORA | 2.8 |
Adaptor | 2.9 |
VPT | 2.7 |
本发明 | 1.6 |
正确率指标的计算公式为:
以上仿真实验表明:本发明提出的基于卷积归纳偏置的参数高效的医疗模型微调方法,在测试精度上超过最新的方法,同时微调时间减小30%。实验证明,本发明是一种非常实用的医疗模型微调方法。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤。
图5为根据本发明实施例的一种电子设备的结构图,如图5所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种医疗模型的参数高效微调方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.在一种医疗模型的参数高效微调方法,其特征在于,所述方法包括:
步骤S1、收集医疗数据的数据集,并划分为训练集和测试集;
步骤S2、以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型;
步骤S3、应用所述训练集对所述改进的Transformer模型进行预训练;
步骤S4、应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。
2.根据权利要求1所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤S1中,所述数据集中的未知类别的全部数据当作测试集,并随机输入医疗数据对未知类别数据进行推理分类。
3.根据权利要求1所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤S2中,所述以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型的方法包括:
将所述卷积归纳偏置模块并联于Transformer模型的多头注意力模块和多层感知机,即全连接层。
4.根据权利要求1所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤S2中,所述卷积归纳偏置模块的结构为:第一卷积层、第一激活函数、第二卷积层、第二激活函数和第三卷积层;
卷积归纳偏置模块的输入数据进入所述第一卷积层,第一卷积层的输出进入第一激活函数,第一激活函数的输出进入所述第二卷积层,第二卷积层的输出进入所述第二激活函数,第二激活函数的输出进入所述第三卷积层。
5.根据权利要求4所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤S2中,所述第一卷积层为1×1卷积。
6.根据权利要求4所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤S2中,所述第二卷积层为5×5卷积。
7.根据权利要求4所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤S2中,所述第三卷积层为1×1卷积。
8.一种用于医疗模型的参数高效微调系统,其特征在于,所述系统包括:
第一处理模块,被配置为,收集医疗数据的数据集,并划分为训练集和测试集;
第二处理模块,被配置为,以残差链接的形式,将卷积归纳偏置模块引入到Transformer模型,得到改进的Transformer模型,作为大模型;
第三处理模块,被配置为,应用所述训练集对所述改进的Transformer模型进行预训练;
第四处理模块,被配置为,应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的一种医疗模型的参数高效微调方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的一种医疗模型的参数高效微调方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311317002.9A CN117077541B (zh) | 2023-10-11 | 2023-10-11 | 一种医疗模型的参数高效微调方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311317002.9A CN117077541B (zh) | 2023-10-11 | 2023-10-11 | 一种医疗模型的参数高效微调方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077541A true CN117077541A (zh) | 2023-11-17 |
CN117077541B CN117077541B (zh) | 2024-01-09 |
Family
ID=88702736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311317002.9A Active CN117077541B (zh) | 2023-10-11 | 2023-10-11 | 一种医疗模型的参数高效微调方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077541B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150349950A1 (en) * | 2013-11-29 | 2015-12-03 | Portland State University | Construction and uses of variable-input-length tweakable ciphers |
CN109948647A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种基于深度残差网络的心电图分类方法及系统 |
CN110796232A (zh) * | 2019-10-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 属性预测模型训练方法、属性预测方法及电子设备 |
CN114359592A (zh) * | 2021-12-31 | 2022-04-15 | 上海商汤智能科技有限公司 | 模型训练及图像处理方法、装置、设备、存储介质 |
CN114359946A (zh) * | 2021-12-14 | 2022-04-15 | 湖南师范大学 | 一种基于残差注意力Transformer的光学乐谱图像识别方法 |
CN115187689A (zh) * | 2022-07-11 | 2022-10-14 | 浙江大学 | 基于Swin-Transformer正则化的PET图像重建方法 |
-
2023
- 2023-10-11 CN CN202311317002.9A patent/CN117077541B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150349950A1 (en) * | 2013-11-29 | 2015-12-03 | Portland State University | Construction and uses of variable-input-length tweakable ciphers |
CN109948647A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种基于深度残差网络的心电图分类方法及系统 |
CN110796232A (zh) * | 2019-10-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 属性预测模型训练方法、属性预测方法及电子设备 |
CN114359946A (zh) * | 2021-12-14 | 2022-04-15 | 湖南师范大学 | 一种基于残差注意力Transformer的光学乐谱图像识别方法 |
CN114359592A (zh) * | 2021-12-31 | 2022-04-15 | 上海商汤智能科技有限公司 | 模型训练及图像处理方法、装置、设备、存储介质 |
CN115187689A (zh) * | 2022-07-11 | 2022-10-14 | 浙江大学 | 基于Swin-Transformer正则化的PET图像重建方法 |
Non-Patent Citations (1)
Title |
---|
徐洋;陈D;黄磊;谢晓尧;: "基于多层BP神经网络和无参数微调的人群计数方法", 计算机科学, no. 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN117077541B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Pruning algorithms to accelerate convolutional neural networks for edge applications: A survey | |
CN114492745B (zh) | 基于知识蒸馏机制的类增量辐射源个体识别方法 | |
Berger et al. | Efficient graph learning from noisy and incomplete data | |
Zeng et al. | Cascade neural network-based joint sampling and reconstruction for image compressed sensing | |
CN115936100A (zh) | 用于模式识别基于压缩激励注意力的神经网络剪枝方法 | |
Geyer et al. | Low-rank regularization and solution uniqueness in over-parameterized matrix sensing | |
CN112733933A (zh) | 基于统一优化目标框架图神经网络的数据分类方法及装置 | |
Zhang et al. | A view-reduction based multi-view TSK fuzzy system and its application for textile color classification | |
Gao et al. | A novel fault diagnosis method for analog circuits based on conditional variational neural networks | |
Vasan et al. | Experimental validation of LS-SVM based fault identification in analog circuits using frequency features | |
CN117077541B (zh) | 一种医疗模型的参数高效微调方法和系统 | |
CN110991247A (zh) | 一种基于深度学习与nca融合的电子元器件识别方法 | |
Zhang et al. | VESC: a new variational autoencoder based model for anomaly detection | |
CN117975120A (zh) | 晶圆缺陷分类模型的训练方法、分类方法、设备及介质 | |
US20200372363A1 (en) | Method of Training Artificial Neural Network Using Sparse Connectivity Learning | |
Ruiz et al. | Graph and graphon neural network stability | |
CN117035111A (zh) | 多任务处理方法、系统、计算机设备及存储介质 | |
Cahani et al. | Mathematical optimization and machine learning to support PCB topology identification | |
Li et al. | Identification of the nonlinear systems based on the kernel functions | |
Olea et al. | The out-of-sample prediction error of the square-root-LASSO and related estimators | |
Zhang et al. | Research on transformer fault diagnosis method based on rough set optimization BP neural network | |
CN116111984B (zh) | 滤波器的设计优化方法及装置、滤波器、设备、介质 | |
Tang et al. | Proximal linearized alternating direction method of multipliers algorithm for nonconvex image restoration with impulse noise | |
Yang et al. | Robust variable selection and parametric component identification in varying coefficient models | |
Hu | Neural-network-based interval grey prediction models with applications to forecasting the demand of printed circuit boards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: No. 558, Jingmao Street, Shengshan Town, Cixi City, Ningbo Province, China (Room 2207, 22nd Floor, Building 1, Cixi Textile City) (self declared) Patentee after: Ningbo Xinlian Xin Medical Technology Co.,Ltd. Country or region after: China Address before: No. 306, 3rd floor, No. 2 Jingshuyuan, Haidian District, Beijing, 100083 Patentee before: Beijing xinlianxin Technology Development Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |