CN117709441A

CN117709441A - 通过逐步迁移领域训练专业医疗大模型的方法

Info

Publication number: CN117709441A
Application number: CN202410167626.5A
Authority: CN
Inventors: 王中海; 詹忆冰; 陶大鹏; 张冲; 林旭; 刘伟锋; 刘宝弟; 李艳鸿; 周博豪
Original assignee: Yunnan United Visual Technology Co ltd
Current assignee: Yunnan United Visual Technology Co ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-15
Anticipated expiration: 2044-02-06
Also published as: CN117709441B

Abstract

本发明涉及通过逐步迁移领域训练专业医疗大模型的方法，属于数据处理技术领域。本发明包括步骤：将预训练模型迁移至通用医疗领域，包括：获取通用医疗数据、训练预训练大模型得到通用医疗领域大模型；训练时，使用通用医学指令数据对大模型进行有监督微调；将通用医疗领域大模型迁移至麻醉专业领域，包括：获取专业医疗数据、训练通用医疗领域大模型，获得麻醉专业大模型；训练时，在通用医疗大模型的基础上继续进行有监督微调，对于专业的医疗指令数据使用全微调的方式去训练。本发明训练了一个专业的麻醉大语言大模型，提高了医疗领域预训练模型的性能。

Description

通过逐步迁移领域训练专业医疗大模型的方法

技术领域

本发明涉及通过逐步迁移领域训练专业医疗大模型的方法，属于数据处理技术领域。

背景技术

随着大数据和人工智能技术的不断发展，预训练的大语言模型已经在自然语言处理领域取得了显著的成就，但是将预训练的大语言模型适应新的领域，如临床应用、麻醉学、放射学等，仍然是一个有挑战性但非常有潜力的任务。当前许多方法是直接在预训练大语言模型的基础上通过有监督的指令微调获得专业的医学领域大语言模型，通过使用专业医学指令数据赋予预训练大语言模型专业的医学能力，这种方法固然是有效的，但是也存在一些问题：专业医学领域指令数据的稀缺无法赋予模型全面的医学能力、大语言模型对医学术语的理解能力有所欠缺等。医学的术语和概念通常非常复杂，需要深入的领域专业知识才能正确理解，同时医学领域的问题也多种多样，大语言模型需要更全面的医学能力来应对这些问题，因此，有必要采取可行的措施提高模型的性能来解决这些问题。

发明内容

为了解决上述提到的问题，本发明提供了通过逐步迁移领域训练专业医疗大模型的方法，通过将预训练大模型迁移至通用医疗领域再迁移至麻醉专业领域的方式训练了一个专业的麻醉大语言大模型，提高了医疗领域预训练模型的性能。

本发明的技术方案是：通过逐步迁移领域训练专业医疗大模型的方法，所述方法的具体步骤如下：

Step1、将预训练模型迁移至通用医疗领域；包括：

Step1.1、获取通用医疗数据；

Step1.2、训练预训练大模型，得到通用医疗领域大模型；训练时，使用通用医学指令数据对大模型进行有监督微调；

Step2、将通用医疗领域大模型迁移至麻醉专业领域；包括：

Step2.1、获取专业医疗数据；

Step2.2、训练通用医疗领域大模型，获得麻醉专业大模型；训练时，在通用医疗大模型的基础上继续进行有监督微调，对于专业的医疗指令数据使用全微调的方式去训练。

进一步地，所述Step1.1中，获取通用医疗数据包括：

首先，收集大规模的医学领域数据，包括医学文本、病例报告、医学文章、医疗问答；医学领域数据的来源包括：

（1）通过爬取医疗网站的医疗问答、医学文章、药物说明书获取相关的医学领域数据；

（2）通过爬取医学论文获得更加专业的医学领域数据；

（3）收集已经开源的医学数据集；

（4）从医院获取包括病历报告、检查报告、诊断报告的专业医疗数据；

（5）由现有的商业大模型通过self Instruction生成医疗数据；

（6）将现有的英文医疗数据集翻译为中文医疗数据集。

进一步地，所述Step1.2中，训练预训练大模型，得到通用医疗领域大模型，具体步骤如下：

Step1.2.1、选定llama-7B为基础模型，选择参数高效微调的方式lora微调技术将基础模型快速微调到通用医疗领域；如式(1)所示；将lora应用到llama模型的每一个线性层当中，获得更多的可训练参数和自适应能力；

（1）

其中，；代表的是原模型参数，B是一个d×r维度的矩阵，A是一个r×k维度的矩阵；BA就是一个d×k维度的矩阵，和原模型的矩阵维度一样，B和A是额外添加的模块，保证原模型参数固定，B和A的模型参数更新；x是一个d维的输入向量，h是一个k维的输出向量；

Step1.2.2、使用收集到的纯文本医疗数据，包括病历报告、检查报告、医学文章、医学考试、医学问答；对基础模型进行二次增量预训练，快速为模型注入医学知识，将模型迁入医学领域；

Step1.2.3、遵从Chinese_LLaMA_Alpaca的方法对llama_7B模型的词表进行扩充；在将预训练模型迁移至通用医学领域时，扩充后选择二次增量预训练+有监督指令微调方式，或直接进行有监督指令微调，选择使用通用医疗指令数据进行有监督微调将模型迁移至通用医疗领域。

进一步地，所述Step2.1中，获取专业医疗数据包括：

通过将现有的专业医疗文本通过商业大模型转换为专业的医疗指令数据，或者通过设计模板将结构化的医疗数据转换为专业的医疗指令数据集，或者从通用医疗指令数据集中获取；

制定了与麻醉相关的关键字字典，通过匹配的方式获取到在通用医疗指令数据集中与麻醉相关的数据，同时使用商业大模型以self instruction的方式生成专业的麻醉指令数据集；真实的麻醉指令数据和生成的麻醉指令数据共同组合成专业麻醉指令数据集。

进一步地，所述Step2.2中，训练通用医疗领域大模型，获得麻醉专业大模型具体包括如下：

将经过通用医疗数据训练的lora模块合并到原模型通用医疗领域大模型上获得最终的通用医疗大模型，使用全微调的方式去训练通用医疗大模型获得最终的麻醉专业大模型。

本发明的有益效果是：

1、解决了现有的方法使得预训练大模型在理解和处理专业术语方面存在限制，稀少的专业指令数据集也会使得模型的医学能力有所欠缺的问题；

2、针对像医学领域中的麻醉学、放射学、临床医学等特定领域，直接使用医疗专业指令数据微调预训练大模型存在难以理解专业医学术语和医学概念的限制。提高大模型在专业医学领域的性能主要考虑了两个方面：一方面是提高医学指令数据的质量和多样性，另一方面是使用足够的通用医疗指令数据微调模型，以便让模型能够更好的理解和处理医学问题；

3、在专业医疗指令数据集本就稀少的情况下，使用通用医疗指令数据将模型迁移至医疗领域：使用通用医学文本对预训练大语言模型进行增量预训练或者使用通用医学指令数据对预训练大语言模型进行有监督微调；

4、在通用医疗大模型的基础上使用专业医疗指令数据继续进行有监督微调，将通用医疗大模型从通用医学领域迁移到专业医学领域。通用医疗数据一方面促进预训练大模型对医疗专业术语的理解和处理能力，一方面在专业医疗指令数据集稀少的情况下，补全预训练大模型的医学能力，使得医疗大模型能够应对更多的情况；

5、提出了一个通过逐步迁移应用领域训练专业医疗大语言模型的方式；

6、通过将预训练大模型迁移至通用医疗领域再迁移至麻醉专业领域的方式训练了一个专业的麻醉大语言大模型。

附图说明

图1为本发明预训练大模型到通用医疗领域再到专业医疗领域的整体训练框架；

图2为本发明中麻醉大语言模型的训练流程图。

具体实施方式

实施例1：如图1-图2所示，通过逐步迁移领域训练专业医疗大模型的方法，所述方法的具体步骤如下：

Step1、将预训练模型迁移至通用医疗领域；包括：

Step1.1、获取通用医疗数据，包括：

（2）通过爬取医学论文获得更加专业的医学领域数据；

（3）收集已经开源的医学数据集；

（5）由现有的商业大模型通过self Instruction生成医疗数据；

（6）将现有的英文医疗数据集翻译为中文医疗数据集。

Step1.2、训练预训练大模型，得到通用医疗领域大模型；训练时，使用通用医学指令数据对大模型进行有监督微调；所述Step1.2具体步骤如下：

Step1.2.1、选定llama-7B为基础模型，选择参数高效微调的方式lora微调技术将基础模型快速微调到通用医疗领域；如式(1)所示；lora微调技术是固定模型的全部参数，添加额外的参数模块来实现快速微调，只需要少量的参数就可以实现对全部参数的微调。将lora应用到llama模型的每一个线性层当中，获得更多的可训练参数和自适应能力；

（1）

Step1.2.3、通用医疗指令数据赋予大模型通用医疗知识和处理各种问题的能力；相比于被通用领域包裹的专业医疗大模型，被通用医疗领域包裹的专业医疗大模型可以应对更多的医疗情况。选择llama_7B作为基础模型，因为llama模型包含的中文词汇相对较少，所以遵从Chinese_LLaMA_Alpaca的方法对llama_7B模型的词表进行扩充；在将预训练模型迁移至通用医学领域时，扩充后选择二次增量预训练+有监督指令微调方式，或直接进行有监督指令微调，选择使用通用医疗指令数据进行有监督微调将模型迁移至通用医疗领域。

Step2、将通用医疗领域大模型迁移至麻醉专业领域；包括：

Step2.1、获取专业医疗数据，包括：

本发明收集足够的通用医疗指令数据和通用医疗文本数据，对于通用医疗指令数据集尽可能的保证数据的质量和多样性。通用医疗指令数据中依然包含麻醉专业领域数据，可以从其中提取出来放入麻醉专业指令数据集中继续训练，防止灾难性遗忘。

Step2.2、训练通用医疗领域大模型，获得麻醉专业大模型；训练时，在通用医疗大模型的基础上继续进行有监督微调，对于专业的医疗指令数据使用全微调的方式去训练。所述Step2.2中，训练通用医疗领域大模型，获得麻醉专业大模型具体包括如下：

将经过通用医疗数据训练的lora模块合并到原模型通用医疗领域大模型上获得最终的通用医疗大模型，专业医疗指令数据集的数量一般较少，为了更充分的学习到专业的麻醉知识，使用全微调的方式去训练通用医疗大模型获得最终的麻醉专业大模型。

如图2所示，本发明收集了大量的通用医疗指令数据，对扩充后的llama模型进行指令微调；因为llama扩充的embedding并未得到更新，所以先固定模型的其他参数，放开embeding和Im_head层，使用部分通用医疗指令数据对参数进行微调，后续将lora应用到每一个线性层进行快速微调获得在通用医疗领域的大模型。

对于例子：

Human：局部麻醉药物过敏反应的治疗要点有哪些?

Hypnos：局部麻醉药物过敏反应的治疗要点主要有: 1.停用局部麻醉药物,停止外界刺激。2.使用抗组胺药物。使用H1受体抗组胺及H2受体抗组胺抑制过敏反应。3.使用糖皮质激素，使用糖皮质激素如地塞米松控制炎症反应等；

其中，Human代表的是输入到模型的人类指令（问题），Hypnos是训练好的大模型（针对问题进行的回答）。这个模型能够进行单轮问答。这里的问题来源于一本麻醉书籍，下面是训练好的模型的回答，输入到模型的范式是(Human: 问题 \n Hypnos: )这个并不固定，看自己训练怎么设置。

本发明通过以上的方式，将预训练的大语言模型迁移至通用医疗领域，再迁移至麻醉专业领域。通用医疗数据可以对麻醉医疗数据进行补充，以应对更多样的问题，同时能够促进模型对医学专业术语的理解。

本发明这种逐步迁移模型到不同领域的方式可以训练出更完善的专业领域大模型，赋予大模型专业领域知识，又具备足够的通用领域知识。可以为后续开发放射学大语言模型、临床医学大语言模型等奠定基础；本发明的这种方法构建了专属于麻醉领域的大语言模型；

为了验证本发明的效果，验证通用医疗数据对模型的影响，将直接使用麻醉指令数据微调获得的麻醉专业领域大模型和逐步迁移获得的麻醉专业领域大模型进行比较。为了能够衡量麻醉大语言模型的能力，从真实的麻醉问答数据集中抽取一部分组成麻醉测试集，使用自动评估指标BLEU、GLUE、ROUGE、Distinct去评估模型推理的得分，BLEU计算生成句子和参考句子之间的k-gram重叠，以测量相似性。ROUGE-N评估N语法重叠，ROUGE-L测量单词匹配的最长公共子序列。GLEU自动评估句子级别的流利度。Distinct-1/2通过确定不同的n-gram计数来帮助评估生成的响应的文本多样性。然而，由于潜在参考答案的多样性，这些基于参考的指标可能不适合医疗QA场景，但能够在一定程度上可以表达出性能的优劣。

如表1所示，其中llama是使用专业麻醉指令数据集微调llama原模型获得的，Llama_expand是经过Chinese_LLaMA_Alpaca的方法扩展后的模型，使用麻醉专业指令数据进行微调获得。Llama_expand(final)是扩展词表后，使用通用医疗指令数据进行微调，然后使用麻醉专业指令数据继续微调；可以从表中看到，经过通用医疗指令数据微调的模型在麻醉测试集获得了更高的自动评估得分，通用医疗数据可以促进大语言模型对医学术语的理解能力，同时可以弥补专业医疗数据在某些医学方面的欠缺。

表1为模型在麻醉测试集上的自动评估得分

本发明将大模型从通用领域迁移到通用医疗领域，收集医学的文本数据和指令数据，通过增量预训练的方式让大模型学会大量的医学知识，同时增强大模型对医学术语的理解能力；使用通用医学指令数据对大模型进行有监督微调使；将模型迁移到通用医学领域，可以使用PEFT中的lora微调，通过固定模型的参数附加额外的参数模块达到加速微调的目的。在赋予模型通用医疗对话能力时，使用高质量的通用医学指令数据，以避免通用医疗指令数据中的杂质数据对后续专业医疗指令数据的训练产生影响；

将大模型从通用医疗领域迁移到专业医疗领域，获取富有大量专业医学知识的指令数据，在通用医疗大模型的基础上继续进行有监督微调，医学专业指令数据集一般较少，同时为了更充分的学习到专业的医学知识，对于专业的医疗指令数据使用全微调的方式去训练。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.通过逐步迁移领域训练专业医疗大模型的方法，其特征在于：所述方法的具体步骤如下：

Step1、将预训练模型迁移至通用医疗领域；包括：

Step1.1、获取通用医疗数据；

Step2、将通用医疗领域大模型迁移至麻醉专业领域；包括：

Step2.1、获取专业医疗数据；

2.根据权利要求1所述的通过逐步迁移领域训练专业医疗大模型的方法，其特征在于：所述Step1.1中，获取通用医疗数据包括：

（2）通过爬取医学论文获得更加专业的医学领域数据；

（3）收集已经开源的医学数据集；

（5）由现有的商业大模型通过self Instruction生成医疗数据；

（6）将现有的英文医疗数据集翻译为中文医疗数据集。

3.根据权利要求1所述的通过逐步迁移领域训练专业医疗大模型的方法，其特征在于：所述Step1.2中，训练预训练大模型，得到通用医疗领域大模型，具体步骤如下：

（1）；

其中，；/>代表的是原模型参数，B是一个d×r维度的矩阵，A是一个r×k维度的矩阵；BA就是一个d×k维度的矩阵，和原模型的矩阵维度一样，B和A是额外添加的模块，保证原模型参数固定，B和A的模型参数更新；x是一个d维的输入向量，h是一个k维的输出向量；

4.根据权利要求1所述的通过逐步迁移领域训练专业医疗大模型的方法，其特征在于：所述Step2.1中，获取专业医疗数据包括：

5.根据权利要求1所述的通过逐步迁移领域训练专业医疗大模型的方法，其特征在于：所述Step2.2中，训练通用医疗领域大模型，获得麻醉专业大模型具体包括如下：