CN117095827A

CN117095827A - 麻醉大模型训练方法和设备

Info

Publication number: CN117095827A
Application number: CN202311028117.6A
Authority: CN
Inventors: 程明月; 刘淇; 陈恩红; 罗彧淙; 毛清扬; 张如娇; 蒋浚哲
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-21

Abstract

本发明公开一种麻醉大模型训练方法和设备。该麻醉大模型训练方法包括：步骤1、选择一个高质量的通用基座语言大模型作为训练起点；步骤2、创建麻醉QA数据集，并对其进行数据预处理；步骤3、首先使用LoRA技术降低对微调大型模型所需的显存的需求，然后进行微调，在新的任务或领域上训练模型，并且只更新低秩自适应层的权重，同时保持预训练模型的权重固定；最后进行推理，将微调得到的LoRA权重与原始模型权重进行融合，并且保持原始模型的架构不变；步骤4、对步骤3微调后的大模型进行人工反馈的强化学习调整，获得一个准确评估大模型输出的奖励模型；步骤5、对麻醉大模型进行效果评估。该麻醉大模型训练方法大大提升了麻醉大模型的性能和准确性。

Description

麻醉大模型训练方法和设备

技术领域

本发明涉及医疗麻醉技术领域，具体地，涉及一种麻醉大模型训练方法和设备。

背景技术

在医疗麻醉领域，为了与医生或患者进行对话，以查询和解决医疗问题，应用了语言大模型的生成能力。鉴于医疗领域的特殊性，通用对话大模型在该领域的效果不佳。为解决此问题，人们尝试了多种方法。主要分为两种方法，其一是构建医疗知识库，通过检索与问题相关的医疗知识，并将问题与检索到的医疗知识结合，形成答案返回给用户。然而，该方法所需的回答时间较长。其二，直接使用医学知识数据对通用大模型进行微调，使其学习医疗知识并保留原有的对话能力，以直接回答用户的问题。然而，这种方法所提供的回答质量与训练所使用的医疗数据密切相关，难以保证回答的高质量。

因此，急需要提供一种麻醉大模型训练方法和设备来解决上述难题。

发明内容

本发明的目的是提供一种麻醉大模型训练方法和设备，该麻醉大模型训练方法和设备大大提升了麻醉大模型的性能和准确性。

为了实现上述目的，本发明一方面提供了一种麻醉大模型训练方法，该麻醉大模型训练方法包括：

步骤1、选择一个高质量的通用基座语言大模型作为训练起点；

步骤2、创建麻醉QA数据集，并对其进行数据预处理；

步骤3、首先使用LoRA技术降低对微调大型模型所需的显存的需求，然后进行微调，在新的任务或领域上训练模型，并且只更新低秩自适应层的权重，同时保持预训练模型的权重固定；最后进行推理，将微调得到的LoRA权重与原始模型权重进行融合，并且保持原始模型的架构不变；

步骤4、对步骤3微调后的大模型进行人工反馈的强化学习调整，获得一个准确评估大模型输出的奖励模型；

步骤5、对麻醉大模型进行效果评估。

优选地，所述步骤1包括：

步骤1.1、收集大量高质量的通用语料，包括多种语言和主题；

步骤1.2、收集医疗领域的专业语料，包括医患对话记录、医疗知识问答和医疗记录；

步骤1.3、确定麻醉大模型的网络架构，使用一个参数量为13B的大模型作为基座模型，其基于Transformer架构中的Decoder-only架构；并且，对其进行改进；

步骤1.4、对初始化的模型进行自监督预训练，模型通过预测下一个单词并学习句子间的关系和语言规律来建立一个初始的语言模型，即基座大模型。

优选地，步骤1.3中的改进包括：

步骤1.3.1、对每个transformer子层的输入进行归一化；

步骤1.3.2、引入SwiGLU激活函数替换ReLU非线性激活函数；

网络架构的网络参数如下：

嵌入维度为5120，多头注意力头数为40，transformer模块数为40层；预训练使用的学习率为3.0e-4，批次大小为4M，使用1.0T的tokens进行训练。

优选地，步骤2中的数据预处理包括：首先，收集与麻醉领域相关的问答数据并进行数据清洗，去除其中的噪声和不规范内容；其次，进行数据去重，确保数据集中没有重复的问题和回答。

优选地，步骤3中的LoRA技术通过在其权重矩阵中引入低秩矩阵来适应预训练的语言模型，在适应过程中进行初始化，从一个预训练的语言模型出发，在其权重矩阵中添加一个低秩自适应层；该低秩自适应层由一个随机初始化的低秩矩阵来表示。

优选地，步骤4包括：首先，训练一个奖励模型，用于评估大模型的输出；将麻醉医学数据中的问题输入到经过微调的大模型中，并重复此过程多次，以获取多个不同的输出，即每个输入对应多个不同的输出；然后，由麻醉专家对这些输出进行排序和评分；最后，利用专家排序和评分的结果来训练奖励模型，该模型将用于替代专家评估大模型输出的工作。

优选地，在步骤4中，对于每个麻醉问题的数据，使用prompt包装后，微调后的大模型为每个问题生成k个答案，麻醉工作者与专家对这些答案进行比较，一共生成了(k 2)个有好坏之分的答案比较对；接着，奖励模型在相同输入的两个模型输出之间的比较数据集上进行训练；使用交叉熵损失，比较对作为标签；不同的奖励代表人类标注者更倾向于选择一个答案而不是另一个答案的几率对数；

由此，在训练奖励模型需要优化的损失为：

其中，是带有参数θ的输入x和输出y的奖励模型的输出，y_w是y_w和y_l对中的人类标注者更偏好的输出，D是人类比较的数据集；

然后，基于已训练的奖励模型，采用强化学习的方法来指导微调后的大模型参数更新；此处，使用PPO(Proximal Policy Optimization)策略作为指导策略，通过使用PPO算法对奖励模型进行优化，能够更新大模型的参数，让模型输出符合标注者的偏好；至此，完成了对麻醉大模型的全面训练；

使用强化学习方法需要优化的目标为：

其中，是学习的强化学习策略，π^SFT是监督训练模型，D_pretrain是预训练分布；KL奖励系数β和预训练损失系数γ分别控制KL惩罚项和预训练梯度的强度；对于PPO模型，γ设置为0。

优选地，在步骤5中，进行模型效果评估时，首先需要准备一组涵盖各种与麻醉相关的问题的问题集合，然后，将这些问题输入到麻醉大模型中进行推理，模型会基于其在训练阶段所学到的知识和规律给出一个预测的回答；最后，对这些回答进行分析和评估。

优选地，在步骤5中采用多种指标和方法对模型的准确性和可靠性进行评估，包括：

计算模型的准确率，即模型正确回答问题的比例；

通过将模型的回答与专家提供的标准答案进行比较；

评估模型的可靠性，即模型对于相似问题的一致性；

人工评估，即由专家对模型生成的回答进行审核，判断其准确性和可靠性。

本发明另一方面还提供了一种麻醉大模型训练设备，该麻醉大模型训练设备包括：存储器和至少一个处理器，存储器中存储有指令，存储器和至少一个处理器通过线路互连；至少一个处理器调用存储器中的指令，以使得麻醉大模型训练设备执行如上述的麻醉大模型训练方法的步骤。

根据上述技术方案，本发明通过微调通用大模型来实现麻醉大模型的创建。在该方法中，首先，构建了一个高质量的医疗麻醉问答数据集。然后，利用这些数据对通用大模型(例如ChatGLM)进行微调，旨在弥补通用大模型在医疗麻醉领域缺乏知识、回答效果不佳的问题。最终，实现了一个能够在麻醉领域对用户提问进行高质量回答的麻醉大模型。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是根据本发明提供的一种麻醉大模型训练方法的流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

参见图1，本发明提供一种麻醉大模型训练方法，该麻醉大模型训练方法包括：

步骤2、创建麻醉QA数据集，并对其进行数据预处理；

步骤5、对麻醉大模型进行效果评估。

具体的，在麻醉大模型的训练之前，首要任务是选择一个高质量的通用基座语言大模型作为起点。这个选择过程经历了以下三个关键步骤：

首先，需要找到大量高质量的通用语料，以确保基座模型具备对话语言能力。这些通用语料涵盖了各种语言和主题，让基座模型能够更好地理解和生成自然的对话。

其次，还需要收集一些医疗领域的专业语料，以增强模型在医学知识方面的表达能力。这些专业语料包括了医患对话记录、医疗知识问答、医疗记录等，使得基座模型具备了一定的医学知识基础。

然后，确定麻醉大模型的网络架构。使用一个参数量为13B的大模型作为基座模型，它基于Transformer架构中的Decoder-only架构，并进行了一些改进：

1、对每个transformer子层的输入进行归一化；

2、引入SwiGLU激活函数替换ReLU非线性激活函数以提高性能。其网络参数如下：嵌入维度为5120，多头注意力头数为40，transformer模块数为40层。预训练使用的学习率为3.0e-4，批次大小为4M，使用1.0T的tokens进行训练。

最后，对初始化的模型进行自监督预训练。在自监督预训练阶段，模型通过预测下一个单词并学习句子间的关系和语言规律来建立一个初始的语言模型。这个预训练过程为接下来的麻醉大模型训练奠定了基础，称之为基座大模型。

通过完成上述步骤，基座大模型将具备出色的语言能力，能够自然而流畅地进行对话，并且具备一定的医学专业知识，为麻醉相关问题的回答提供有力支持。

而为了微调麻醉大模型，需要首先创建一个麻醉QA数据集，并对其进行数据预处理：

首先，需要收集与麻醉领域相关的问答数据。这些数据可以从医学文献、实际医生经验和专业讨论中获取。

收集到足够的数据后，接下来需要对数据进行预处理。首先是数据清洗，去除其中的噪声和不规范内容，例如字词错误、语法错误以及与麻醉无关的信息。清洗后的数据将更好地反映麻醉领域问题和回答。

然后，需要进行数据去重，确保数据集中没有重复的问题和回答。这可以通过比较问题和回答的内容来实现。去重后的数据能够提高模型训练效果，并减少冗余信息带来的干扰。

通过以上步骤，创建了一个麻醉QA数据集，为麻醉大模型的训练提供知识支持。这将有助于模型学习麻醉领域的知识，并能更好地回答与麻醉相关的问题。

在本发明中，为了减少对微调大型模型所需的显存的需求，采用一种名为LoRA(Low rank adaptation)技术的方法。在传统情况下，使用全参数微调大型模型可能需要大量的显存资源，这可能会给学校或中小企业带来较大的负担。然而，通过应用LoRA技术可以成功地降低显存需求，同时保持微调效果与全参数微调相当，这种技术为使用大型模型进行微调提供了一种更经济高效的解决方案。

具体的，LoRA技术的原理如下：

LoRA是通过在其权重矩阵中引入低秩矩阵来适应预训练的语言模型。在适应过程中，首先进行初始化。具体来说，从一个预训练的语言模型出发，在其权重矩阵中添加一个低秩自适应层。这个低秩自适应层由一个随机初始化的低秩矩阵来表示。例如，在一个n*n的全连接层中，LoRA使用n*m和m*n的两个矩阵相乘来代替这个n*n的矩阵，其中m可以设定为远小于n的值，使得计算量大大减小。

接下来是微调的过程，在新的任务或领域上训练模型，并且只更新低秩自适应层的权重，同时保持预训练模型的权重固定。这样，模型能够在不改变其对于一般知识的理解的情况下，有效地学习特定于任务的信息。

最后是推理的阶段，将微调得到的LoRA权重与原始模型权重进行融合，并且原始模型的架构不变。

可见，相较于全面微调，LoRA通过将适应过程集中在低秩矩阵上，实现了更高效的微调，这不仅减少了计算量和内存开销，还能够有效地保留预训练模型的通用知识。

此外，本发明还要对微调后的大模型进行人工反馈的强化学习调整。

人工反馈强化学习调整是一种常用的方法，用于进一步提升微调后的大模型的性能和预测能力。虽然微调可以改善大模型的预测结果，但仍有可能存在一些错误或不准确的预测，因此产生了人工反馈强化学习调整方法。

首先，训练一个奖励模型，用于评估大模型的输出。为了训练这个奖励模型，首先将麻醉医学数据中的问题输入到经过微调的大模型中，并重复此过程多次，以获取多个不同的输出。换言之，每个输入对应多个不同的输出。接下来，由麻醉专家对这些输出进行排序和评分。最后，利用专家排序和评分的结果来训练奖励模型，该模型将用于替代专家评估大模型输出的工作。通过这种方式，能够获得一个准确评估大模型输出的奖励模型。

具体的，对于每个麻醉问题的数据，使用prompt包装后，微调后的大模型为每个问题生成k个答案，麻醉工作者与专家对这些答案进行比较，一共生成了(k 2)个有好坏之分的答案比较对。接下来，奖励模型在相同输入的两个模型输出之间的比较数据集上进行训练。使用交叉熵损失，比较对作为标签。不同的奖励代表了人类标注者更倾向于选择一个答案而不是另一个答案的几率对数。

由此，在训练奖励模型需要优化的损失为：

然后，基于已训练的奖励模型，采用强化学习的方法来指导微调后的大模型参数更新；此处，使用PPO(Proximal Policy Optimization)策略作为指导策略，通过使用PPO算法对奖励模型进行优化，能够更新大模型的参数，让模型输出符合标注者的偏好；至此，完成了对麻醉大模型的全面训练。

具体来说，该环境会随机向大模型发出提示，并让大模型对提示做出回答。有了提示和回答，就会产生由奖励模型输入的奖励，并结束这一事件。这个模型就是“PPO”。

由此，使用强化学习方法需要优化的目标为：

经过以上的训练过程，麻醉大模型相比仅进行微调的大模型，具有更好地与人类对齐的能力。这种训练方式进一步提高了麻醉大模型的输出准确性，并确保了输出的安全性，使其对人类来说更加无害。

对于麻醉大模型的效果评估是训练过程中至关重要的一部分。一旦完成模型训练，需要对麻醉大模型进行推理和验证，以确保其在实际应用中的准确性和可靠性。

在进行模型效果评估时，首先需要准备一组涵盖各种与麻醉相关的问题的问题集合。这些问题涵盖了手术前的准备、药物选择、麻醉过程的监测与管理等方面，可以来自医学文献、临床案例或专家经验。确保问题的广泛性和多样性对于评估模型的全面性非常重要。

然后，将这些问题输入到麻醉大模型中进行推理。模型会基于其在训练阶段所学到的知识和规律给出一个预测的回答。需要对这些回答进行人工的分析和评估。

在评估模型的准确性和可靠性时，可以采用多种指标和方法。例如，可以计算模型的准确率，也就是模型正确回答问题的比例。也可以通过将模型的回答与专家提供的标准答案进行比较来测量。

此外，还可以评估模型的可靠性，即模型对于相似问题的一致性。可以选择一组相似的问题，然后比较模型在这些问题上的回答，看是否一致。一致性是评估模型可靠性的一个重要标准，因为目标是希望模型在不同情况下都能给出一致的回答。

除了指标和方法，还可以进行人工评估，即由专家对模型生成的回答进行审核，判断其准确性和可靠性。专家会根据自己的专业知识和经验对模型的回答进行判断和改进。

评估麻醉大模型效果是一个迭代的过程。根据评估结果，可以进一步调整和改进模型，提高其性能和效果。例如，可以调整训练数据的质量和数量，优化模型的结构和参数，或引入更多的麻醉领域知识和规则。

总之，对于麻醉大模型的效果评估是确保模型在实际应用中可靠和准确的关键步骤。通过充分的问题集合、多样的评估指标和方法，以及专家的参与，可以对模型进行全面的评估和改进，更好地应用于麻醉领域。通过上述阶段的处理，可以训练出适用于麻醉领域的大模型，并在实际应用中使用它来解决麻醉相关的问题和需求。这样的大模型可以为医疗领域提供有价值的帮助和支持。

在实际使用过程中，麻醉大模型在进行推理时，利用了两个关键的能力，这使得它能像麻醉医生或麻醉专家一样，精确地回答医患的麻醉医学问题。

首先是Cot(Chain of thought)能力，也就是推理能力。当麻醉大模型回答知识相关的问题时，它不仅仅是将内部储存的知识逐条罗列出来，而是利用推理能力将这些知识进行整合，最终向用户提供一个合理且准确的麻醉医学建议。这种推理过程可以帮助模型理解问题的背景和含义，并以更加全面和有逻辑的方式进行回答。

其次是In-context learning能力，也就是上下文学习能力。对于一些特殊情况，麻醉大模型可能无法直接调用它内蕴的知识。然而，如果用户向麻醉大模型提供一个与之前相似的案例或问答对，麻醉大模型可以通过上下文学习的能力从中找到相关的逻辑，并成功地推断出正确的答案。这种能力使得模型能够更加灵活地应对各种不确定性和复杂性情况，并给出准确的解决方案。

通过这两种关键的能力，麻醉大模型能够在训练过程中获得对麻醉知识的深入理解和推理能力。它可以将零散的知识点进行整理和综合，以更加全面和准确的方式回答用户的问题。同时，通过在上下文中进行学习和推断，麻醉大模型可以在面对新问题时依然表现出色，并准确的给出分析结果。这些能力的应用使得麻醉大模型成为了一个强大而可靠的工具，在麻醉医学领域拥有广泛的应用前景。麻醉医生和麻醉专家可以借助这个模型的能力，获得更好的判断和决策支持，为患者提供更安全和有效的麻醉医疗服务。

综上所述，本发明采用一种创新的方法，将麻醉知识集成到一个大型模型中。利用了大型模型的强大计算和学习能力，将大量的麻醉知识纳入其中。模型能够深入学习海量的医学文献、案例和标准手册，并通过训练，将这些知识转化为用户易于理解的语言表达出来。因此，当用户与模型对话时，它能够迅速、准确地回答各类麻醉相关问题。

这种集成麻醉知识的大型模型不仅具备丰富的知识储备，还能够理解用户提问的意图。它利用自然语言处理技术快速解析问题，并给出高质量的答案。与此同时，它不仅可以提供一般性的麻醉知识，还能根据具体情况给出个性化的建议和指导，更加贴合用户的需求。

这样一来，模型不仅具备了与用户进行对话的能力，还能够以高度准确的方式回答与麻醉问题相关的知识和结论。这项技术的引入，为麻醉医疗行业带来了巨大的变革。与传统的人工咨询相比，这种基于大型模型的麻醉知识集成方法极大地降低了医疗人工成本。用户将不再面临繁重的预约和排队问题，也不必再费力地寻找合适的专家。只需在终端与麻醉大模型进行咨询对话，用户就能够及时、精准地获得麻醉知识服务，从而大大提高了医疗资源的利用效率。

此外，本发明另一方面还提供了一种麻醉大模型训练设备，该麻醉大模型训练设备包括：存储器和至少一个处理器，存储器中存储有指令，存储器和至少一个处理器通过线路互连；至少一个处理器调用存储器中的指令，以使得麻醉大模型训练设备执行如上述的麻醉大模型训练方法的步骤。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种麻醉大模型训练方法，其特征在于，所述麻醉大模型训练方法包括：

步骤2、创建麻醉QA数据集，并对其进行数据预处理；

步骤5、对麻醉大模型进行效果评估。

2.根据权利要求1所述的麻醉大模型训练方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的麻醉大模型训练方法，其特征在于，步骤1.3中的改进包括：

步骤1.3.1、对每个transformer子层的输入进行归一化；

步骤1.3.2、引入SwiGLU激活函数替换ReLU非线性激活函数；

网络架构的网络参数如下：

4.根据权利要求1所述的麻醉大模型训练方法，其特征在于，步骤2中的数据预处理包括：首先，收集与麻醉领域相关的问答数据并进行数据清洗，去除其中的噪声和不规范内容；其次，进行数据去重，确保数据集中没有重复的问题和回答。

5.根据权利要求1所述的麻醉大模型训练方法，其特征在于，步骤3中的LoRA技术通过在其权重矩阵中引入低秩矩阵来适应预训练的语言模型，在适应过程中进行初始化，从一个预训练的语言模型出发，在其权重矩阵中添加一个低秩自适应层；该低秩自适应层由一个随机初始化的低秩矩阵来表示。

6.根据权利要求1所述的麻醉大模型训练方法，其特征在于，步骤4包括：首先，训练一个奖励模型，用于评估大模型的输出；将麻醉医学数据中的问题输入到经过微调的大模型中，并重复此过程多次，以获取多个不同的输出，即每个输入对应多个不同的输出；然后，由麻醉专家对这些输出进行排序和评分；最后，利用专家排序和评分的结果来训练奖励模型，该模型将用于替代专家评估大模型输出的工作。

7.根据权利要求1所述的麻醉大模型训练方法，其特征在于，在步骤4中，对于每个麻醉问题的数据，使用prompt包装后，微调后的大模型为每个问题生成k个答案，麻醉工作者与专家对这些答案进行比较，一共生成了(k 2)个有好坏之分的答案比较对；接着，奖励模型在相同输入的两个模型输出之间的比较数据集上进行训练；使用交叉熵损失，比较对作为标签；不同的奖励代表人类标注者更倾向于选择一个答案而不是另一个答案的几率对数；

由此，在训练奖励模型需要优化的损失为：

使用强化学习方法需要优化的目标为：

8.根据权利要求1所述的麻醉大模型训练方法，其特征在于，在步骤5中，进行模型效果评估时，首先需要准备一组涵盖各种与麻醉相关的问题的问题集合，然后，将这些问题输入到麻醉大模型中进行推理，模型会基于其在训练阶段所学到的知识和规律给出一个预测的回答；最后，对这些回答进行分析和评估。

9.根据权利要求8所述的麻醉大模型训练方法，其特征在于，在步骤5中采用多种指标和方法对模型的准确性和可靠性进行评估，包括：

计算模型的准确率，即模型正确回答问题的比例；

通过将模型的回答与专家提供的标准答案进行比较；

评估模型的可靠性，即模型对于相似问题的一致性；

10.一种麻醉大模型训练设备，其特征在于，所述麻醉大模型训练设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述麻醉大模型训练设备执行如权利要求1-9中任一项所述的麻醉大模型训练方法的步骤。