CN118173215A

CN118173215A - 小模型训练方法、治理肿瘤临床记录数据的方法及其装置

Info

Publication number: CN118173215A
Application number: CN202410591562.1A
Authority: CN
Inventors: 刘晓华; 刘泽恩; 张程剀; 陈小梅
Original assignee: Beijing Yiyong Technology Co ltd
Current assignee: Beijing Yiyong Technology Co ltd
Priority date: 2024-05-14
Filing date: 2024-05-14
Publication date: 2024-06-11

Abstract

本公开提供一种小模型训练方法、治理肿瘤临床记录数据的方法及其装置。一种用于处理肿瘤临床记录数据的小模型训练方法，包括：获取肿瘤相关数据，并基于肿瘤相关数据对基座大模型进行预训练，以获得具有肿瘤专业知识的定制大模型；获取肿瘤临床记录数据，并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务，以获得定制大模型的标注结果，定制大模型的标注结果包括结构化文本和推理文本；以及基于定制大模型生成的标注结果，分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型，多个小模型包括用于执行结构化处理任务的结构化类小模型和用于执行逻辑判断任务的推理类小模型。

Description

小模型训练方法、治理肿瘤临床记录数据的方法及其装置

技术领域

本公开涉及医疗数据处理领域，并且具体地，涉及小模型训练方法、治理肿瘤临床记录数据的方法及其装置。

背景技术

肿瘤临床记录数据是医疗领域中的重要资料，它包含了患者的详细信息，如个人资料、病史、肿瘤的描述、治疗方案和随访信息等。由于这些数据的复杂性与多样性，其治理任务，如整合、分类、去重和质量检查，变得尤为关键和具有挑战性。

目前训练肿瘤临床记录数据的治理的专门模型，主要依赖于人工进行大量数据的结构化处理和标注。人工标注的流程如：数据→人工标注→训练专有模型。由于人工标注花费时间较长，成本高，导致训练专有任务模型花费时间长；同时，当需要构建处理不同任务的模型时，需要重新进行标注流程造成效率降低。因此，如何进一步提高标注效果和效率，这是目前需要解决的主要痛点。

在此背景下，深度学习已经证明是一种有效的工具来处理这些复杂的数据。特别是本文中提到的“具有肿瘤专业知识的定制大模型”，它是经过大量肿瘤专业数据训练的，具有出色的泛化能力和对肿瘤数据的深入理解。此模型可以为肿瘤领域的决策提供强大的支持和辅助。但是，尽管大模型在性能上有其优越性，其巨大的结构和计算需求却使得在实际应用中的部署变得困难。因此本公开从优化机器学习在肿瘤临床记录数据的治理业务过程中的使用，并且更高效的使用大模型和小模型进行推理，提出了一种结合大模型和小模型的策略：首先针对抽取/简单逻辑判断的业务场景，使用“小模型”进行推理，通过大模型对大量数据进行自动标注，随后利用这些标注数据训练一系列更为轻量化的专门模型。然后，针对复杂逻辑判断的业务场景，仍然使用大模型提供推理。

发明内容

针对上述技术问题，本公开提供了用于医疗数据处理与深度学习模型的知识蒸馏方法。具体来说，它涉及利用定制的肿瘤专业大模型对肿瘤临床记录数据进行结构化处理以及自动标注，并将这些知识迁移到一系列专门的小模型，以满足肿瘤临床记录数据治理的实际需求。

根据本公开的一方面，提供了一种用于处理肿瘤临床记录数据的小模型训练方法，该方法包括：获取肿瘤相关数据，并基于肿瘤相关数据对基座大模型进行预训练，以获得具有肿瘤专业知识的定制大模型；获取肿瘤临床记录数据，并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务，以获得定制大模型的标注结果，定制大模型的标注结果包括结构化文本和推理文本，其中结构化处理任务包括对肿瘤临床记录数据中多种类别的信息进行理解抽取以获得结构化文本，逻辑判断任务包括结合肿瘤专业知识对肿瘤临床记录数据进行推理以获得针对肿瘤临床记录数据的推理文本；以及基于定制大模型生成的标注结果，分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型，其中，多个小模型包括结构化类小模型和推理类小模型，结构化类小模型用于执行结构化处理任务，并且推理类小模型用于执行逻辑判断任务。

根据本公开的实施例，文本生成形式包括以抽取肿瘤临床记录数据中的原始词语的形式来生成结构化文本，并且分类形式包括以对肿瘤临床记录数据进行逻辑判断的形式来生成推理文本。

根据本公开的实施例，对基座大模型进行预训练包括：使用肿瘤相关的医学知识对基座大模型进行无监督学习；以及通过人工标注的数据对基座大模型进行监督微调，获得能够分析肿瘤临床记录数据的定制大模型。

根据本公开的实施例，该方法还包括通过以下步骤对定制大模型进行微调：与肿瘤领域的专家协作，针对结构化处理任务和逻辑判断任务，对定制大模型的标注结果的一部分进行数据标注；并且根据专家标注的数据，对定制大模型进行进一步微调，使得定制大模型能够准确执行结构化处理任务和逻辑判断任务。

根据本公开的实施例，该方法还包括通过以下步骤对多个小模型进行微调：在对定制大模型进行进一步微调后，定制大模型针对多个小模型的输出结果的一部分进行数据标注；并且根据定制大模型标注的数据，对多个小模型进行微调。

根据本公开的实施例，基于专家标注的数据以第一频率对定制大模型进行微调，并且基于定制大模型标注的数据以第二频率对多个小模型进行微调，其中第一频率远小于第二频率。

根据本公开的实施例，多种类别的信息包括与手术名称相关的信息、与手术时间相关的信息、与手术原因和手术内容相关的信息、与并发症发生时间相关的信息以及与术后并发症相关的信息；并且其中，推理文本包括诊断诊疗结果和疗效评价结果。

根据本公开的实施例，结构化类小模型包括手术名称抽取模型、手术时间抽取模型、手术原因和手术内容抽取模型、并发症发生时间抽取模型以及术后并发症抽取模型。

根据本公开的实施例，推理类小模型包括诊断诊疗结果判断模型和疗效评价结果判断模型。

根据本公开的实施例，定制大模型和多个小模型的结构化处理能力和逻辑判断能力通过准确度、精确度、召回率、F1值以及人工标注的小部分数据来衡量。

根据本公开的实施例，肿瘤相关数据包括医学文献、患者记录数据以及放射学图像数据。

根据本公开的实施例，肿瘤临床记录数据包括患者的病历、查房记录、病程管理和检查记录。

根据本公开的实施例，基座大模型包括Llama2大语言模型。

根据本公开的实施例，多个小模型能够支持HL7和DICOM协议。

根据本公开的另一方面，提供了一种用于治理肿瘤临床记录数据的方法，其中，该方法包括通过以下步骤对肿瘤临床记录数据进行整合、分类、去重和质量检查：将肿瘤临床记录数据输入定制大模型，获得定制大模型的标注结果；以及将定制大模型的标注结果作为输入数据输入到多个小模型，获得多个小模型的输出结果，其中，多个小模型是基于上述用于处理肿瘤临床记录数据的小模型训练方法获得的。

根据本公开的又一方面，提供了一种用于处理肿瘤临床记录数据的小模型训练装置，其中，该装置包括：用于获取肿瘤相关数据，并基于肿瘤相关数据对基座大模型进行预训练，以获得具有肿瘤专业知识的定制大模型的部件；用于获取肿瘤临床记录数据，并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务，以获得定制大模型的标注结果的部件，定制大模型的标注结果包括结构化文本和推理文本，其中结构化处理任务包括对肿瘤临床记录数据中多种类别的信息进行理解抽取以获得结构化文本，逻辑判断任务包括结合肿瘤专业知识对肿瘤临床记录数据进行推理以获得针对肿瘤临床记录数据的推理文本；以及用于基于定制大模型生成的标注结果，分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型的部件，其中，多个小模型包括结构化类小模型和推理类小模型，结构化类小模型用于执行结构化处理任务，并且推理类小模型用于执行逻辑判断任务。

根据本公开的另一方面，提供了一种用于治理肿瘤临床记录数据的装置，其中，该装置包括用于通过对肿瘤临床记录数据进行整合、分类、去重和质量检查的部件，该部件包括：用于将肿瘤临床记录数据输入定制大模型，获得定制大模型的标注结果的部件；以及用于将定制大模型的标注结果作为输入数据输入到多个小模型，获得多个小模型的输出结果的部件，其中，多个小模型是基于上述用于处理肿瘤临床记录数据的小模型训练方法获得的。

根据本公开的又一方面，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令在由处理器执行时实现上述用于处理肿瘤临床记录数据的小模型训练方法以及用于治理肿瘤临床记录数据的方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令在由处理器执行时实现上述用于处理肿瘤临床记录数据的小模型训练方法以及用于治理肿瘤临床记录数据的方法。

因此，根据本公开实施例的用于处理肿瘤临床记录数据的小模型训练方法和装置、用于治理肿瘤临床记录数据的方法和装置、计算机设备以及计算机可读存储介质，通过结合专门定制的肿瘤专业大模型的能力，以生成大量的标注数据，并使用这些数据训练一系列专门的小模型，以满足肿瘤数据治理的实际需求。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本公开的一些示例性实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练方法的第一流程图；

图2示出了根据本公开的实施例的用于对定制大模型进行微调的第二流程图；

图3示出了根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练方法的第三流程图；

图4示出了根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练装置的框图；

图5示出了根据本公开的实施例的用于治理肿瘤临床记录数据的方法的流程图；

图6示出了根据本公开的实施例的用于治理肿瘤临床记录数据的装置的框图；以及

图7示出了根据本公开的实施例的计算机设备的结构图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步。

在本公开的说明书和附图中，根据实施例，元素以单数或复数的形式来描述。然而，单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本公开限制于此。因此，单数形式可以包括复数形式，并且复数形式也可以包括单数形式，除非上下文另有明确说明。

下面将参照附图对本公开提供的基于大模型知识蒸馏的模型训练方法、装置、设备以及存储介质进行详细的说明。

图1示出了根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练方法的第一流程图S100。下面将参考图1来具体描述本公开的实施例的用于处理肿瘤临床记录数据的小模型训练方法的各个步骤。

首先，如图1所示，根据本公开的用于处理肿瘤临床记录数据的小模型训练方法的第一流程图S100可以包括根据过程S1020、S1040和S1060所示的各个步骤。

在过程S1020中，可以通过获取肿瘤相关数据，并基于肿瘤相关数据对基座大模型进行预训练，以获得具有肿瘤专业知识的定制大模型。

根据本公开的实施例，基座大模型可以包括Llama2大语言模型。

本公开的基座大模型不限于Llama2大语言模型，还可以采用其他大语言模型，包括但不限于BERT、T5、GLM-130B、UL2、GPT系列、Llama、OPT、PaLM、LaMDA、Chinchilla、BLOOM等。

根据本公开的另一实施例，对基座大模型进行预训练可以包括：使用肿瘤相关的医学知识对基座大模型进行无监督学习；以及通过人工标注的数据对基座大模型进行监督微调，获得能够分析肿瘤临床记录数据的定制大模型。

在一个示例中，肿瘤相关数据可以是包含肿瘤专业知识的医学数据，例如可以包括医学文献、患者记录数据以及放射学图像数据等。基于这些肿瘤专业知识，可以对开源基座大模型进行预训练，以用于增强开源基座大模型的医学/肿瘤知识。开源基座大模型使用了各种类型的数据/知识进行学习，会存在在医学/肿瘤领域的深度知识/理解不全的情况。因而需要先对开源基座大模型使用医学/肿瘤知识进行无监督学习。这一阶段输出的基座大模型还不能用于对话/任务标注。因而需要第二步，通过人工标注的数据对基座大模型进行监督微调，通过监督微调后，该基座大模型便具备了理解用户需求，按照所需格式输出相关内容的能力。在第二步完成后，就可以获得具有肿瘤专业知识的用于数据标注的定制大模型，以对肿瘤临床记录数据进行处理。

在过程S1040中，可以获取肿瘤临床记录数据，并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务，以获得定制大模型的标注结果，定制大模型的标注结果可以包括结构化文本和推理文本，其中结构化处理任务可以包括对肿瘤临床记录数据中多种类别的信息进行理解抽取以获得结构化文本，逻辑判断任务可以包括结合肿瘤专业知识对肿瘤临床记录数据进行推理以获得针对肿瘤临床记录数据的推理文本。

根据本公开的实施例，肿瘤临床记录数据可以包括患者的病历、查房记录、病程管理和检查记录等。

根据本公开的另一实施例，多种类别的信息可以包括与手术名称相关的信息、与手术时间相关的信息、与手术原因和手术内容相关的信息、与并发症发生时间相关的信息以及与术后并发症相关的信息等。推理文本可以包括诊断诊疗结果和疗效评价结果等。

下面参考以下示例来描述如何利用本公开的定制大模型的语言理解能力，来分析给定的医学文本，以针对多条实体/指标抽取原文中相关的内容并以结构化形式返回针对该医学文本的结构化文本。

以以下脱敏的查房记录为例：

“2021-05-04 10:59 副主任医师查房记录

患者术后恢复可，神志清楚，精神可，未诉明显特殊不适。饮食、夜休、二便可。各项生命体征平稳。左侧胸壁引流管通畅，术后至今晨引出淡红色液体80ml，腋窝引流管通畅，引出淡红色液60ml。右侧胸壁引流管通畅，术后至今晨引出淡红色液体70ml，腋窝引流管通畅，引出淡红色液20ml。查体：伤口辅料干洁固定，伤口换药，未见明显皮下积液，右乳外上约3×2cm皮肤缺血发白，双侧乳头可见局部缺血发黑；心肺腹查体未见明显异常。今日查房看过病人后分析，存在右侧乳腺皮瓣及双侧乳头坏死可能，继续给予患者烧伤膏湿敷，并继续换药，再次告知患者皮肤缺血坏死及乳头坏死可能，患者及家属表示知情并谅解手术并发症。”

通过同时输入用户病程管理可以抽取出以下和手术/肿瘤相关的结构化文本：

{

"手术原因": "乳腺癌"，

"手术名称": "乳腺癌手术"，

"术后并发症": "右侧乳腺皮瓣及双侧乳头坏死"，

"并发症发生时间": "2021-05-04 10:59"

}

另外，参考以下示例来描述如何利用本公开的定制大模型的语言理解能力，来分析给定的医学文本，以针对具体的逻辑判断任务推理出对应的推理文本。

例如，针对逻辑判断任务中的疗效评价任务，需要利用本公开提出的定制大模型通过对医学文本中的描述进行推理，最终输出给定的医学记录中是否存在疗效评价结果。

以以下脱敏的医学文本为例：

“左下肺癌根治术后6年余，复发转移2年余”入院患者2011年1月底无明显诱因下出现发热、咳嗽，无痰，在省机关医院口服及静脉使用抗生素后症状好转，胸部CT示：左肺下叶背段结节影，考虑占位可能，患者为求进一步诊治而住我院胸外科治疗，于2011-02-17在全麻下行胸腔镜下左下肺癌根治术（左下肺叶切除+系统淋巴结清扫术）。

通过本公开提出的定制大模型，可以得到该定制大模型的推理结果：“这个病历中不存在肿瘤疗效评价。在这个病历中，没有描述针对确诊癌肿所在的器官的疗效评价，因此不能认定为‘肿瘤疗效评价’”。

在过程S1060中，可以基于定制大模型生成的标注结果，分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型。多个小模型可以包括结构化类小模型和推理类小模型，结构化类小模型可以用于执行结构化处理任务，并且推理类小模型可以用于执行逻辑判断任务。

根据本公开的实施例，文本生成形式可以包括以抽取肿瘤临床记录数据中的原始词语的形式来生成结构化文本，并且分类形式包括以对肿瘤临床记录数据进行逻辑判断的形式来生成推理文本。

在一个示例中，文本生成形式例如抽取文本中的并发症、手术名称、手术类型等。对于此类形式，其特征是医学原始文本，标注结果是{并发症名称等}。而分类形式主要是针对是否存在某种类型，例如是否存在疗效评价结果等。

根据本公开的另一实施例，结构化类小模型可以包括手术名称抽取模型、手术时间抽取模型、手术原因和手术内容抽取模型、并发症发生时间抽取模型以及术后并发症抽取模型等。推理类小模型可以包括诊断诊疗结果判断模型和疗效评价结果判断模型等。

在另一示例中，小模型包括例如使用bert或者其他transformer方案的用于分类或简单文本生成的模型。

例如，针对具体的医学任务：

结构化类小模型：（例子可以见上面使用的手术名称、手术内容判断、以及并发症判断输出）

- 并发症

模型输入：医学文本，医学图像，等等

模型输出：输入中包括的并发症有

{}代表不存在，返回空

{右侧乳腺皮瓣及双侧乳头坏死}代表文本中的并发症有右侧乳腺皮瓣及双侧乳头坏死

- 手术名称

模型输入：医学文本，医学图像，等等

模型输出：

{乳腺癌手术，…}

- 手术时间

- 手术内容

- 等

推理类小模型：

- 疗效评价结果推理小模型

模型输入：医学文本，医学图像，等等

模型输出：存在/不存在疗效评价

- 诊断诊疗结果推理小模型

模型输入：医学文本，医学图像，等等

模型输出：患者患有肝癌/肺癌/乳腺癌/....

- ...

继续参考上述定制大模型对脱敏的查房记录进行处理的示例，根据本公开的定制大模型输出以下结构化文本：

{

"手术原因": "乳腺癌"，

"手术名称": "乳腺癌手术"，

"术后并发症": "右侧乳腺皮瓣及双侧乳头坏死"，

"并发症发生时间": "2021-05-04 10:59"

}

接下来，该结构化文本可以生成多个标注结果，用于训练多个结构化类小模型。结构化类小模型例如可以包括并发症发生时间抽取模型、手术原因和手术内容判断模型和术后并发症判断模型等。

继续参考上述定制大模型对脱敏的医学文本进行处理的示例，根据本公开的定制大模型输出以下推理文本：“这个病历中不存在肿瘤疗效评价。在这个病历中，没有描述针对确诊癌肿所在的器官的疗效评价，因此不能认定为‘肿瘤疗效评价’”。

接下来，该推理文本可以生成对应于疗效评价任务的标注结果，用于训练推理类小模型。推理类小模型除了可以包括疗效评价结果判断模型外，还可以包括诊断诊疗结果判断模型等。

在现有技术中，如果在最初标注任务设定的时候未定义某个标注目标，按照现有的工程流程则需要重新安排标注人员重新审核所有数据，对于所有数据进行审核标注，这将大大降低标注效率。而结合图1详细描述的根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练方法，通过使用大模型进行标注可以解放人力，并且利用对大模型进行第一次标注时就形成的结构化数据，通过进行组合判断，可以构建出新的标注。在这一过程中，将不同肿瘤临床记录数据中的相似数据进行了整合、去重，在推理过程中也实现了对于信息的分类和深度挖掘，从而输出更具信息量和直观的信息。此外，通过大模型对肿瘤临床记录数据进行标注，并将标注结果作为训练数据来训练一系列小模型，最终使用小模型提供推理服务。这样既保证了小模型的效果在具体任务上可以和大模型对齐，同时也增快了吞吐量（每秒能处理的输入数量）以及降低了部署成本。

为进一步优化定制大模型的数据标注功能，下面结合图2来详细描述根据本公开的实施例的用于对定制大模型进行微调的第二流程图。

如图2所示，对具有肿瘤专业知识的定制大模型进行微调包括分别针对结构化处理任务和逻辑判断任务进行微调，以得到结构化优化和逻辑判断优化后的定制大模型。

具体地，对定制大模型进行微调可以包括：与肿瘤领域的专家协作，针对结构化处理任务和逻辑判断任务，对定制大模型的标注结果的一部分进行数据标注；并且根据专家标注的数据，可以对定制大模型进行进一步微调，使得定制大模型能够准确执行结构化处理任务和逻辑判断任务。

利用微调后的定制大模型，开发了一个自动标注引擎，该自动标注引擎是指在针对结构化处理任务和逻辑判断任务进行微调后进行结构化处理和逻辑判断的定制大模型。这里所提的自动标注是指对于输入的医学信息和任务组合（结构化/推理标注），通过该微调后的定制大模型，给出相应的高精确度的结构化/推理标注输出。

根据本公开的实施例，该自动标注引擎的标注能力会定期根据新的数据和反馈进行优化，以进一步保持高准确率。

根据本公开的另一实施例，定制大模型以及多个小模型的结构化处理能力和逻辑判断能力可以通过准确度、精确度、召回率、F1值以及人工标注的小部分数据来衡量。

通过使用专家标注的数据对该定制大模型进行训练微调，能够提高定制大模型的整体效果。对该自动标注引擎进行优化包括专家在对定制大模型进行标注的时候，对于定制大模型输出的标注结果，选取小部分进行验证修正，该定制大模型每隔一段时间便使用专家标注过的数据进行微调，从而实现大模型效果优化。

除了对定制大模型进行微调外，本公开还可以进一步对多个小模型进行微调。下面参考图3来详细描述根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练方法的第三流程图。

如图3所示，用于处理肿瘤临床记录数据的小模型训练方法的第三流程图包括以下三个步骤。

在步骤一中，通过进行数据采集来获取肿瘤相关数据（例如，未标注的医学记录），基于肿瘤相关数据对开源基座大模型进行预训练，获得具备肿瘤专业知识的定制大模型；通过对定制大模型进行微调，分别获得针对逻辑判断优化和结构化/抽取优化的肿瘤大模型。

在步骤二中，使用经逻辑判断优化和结构化/抽取优化的肿瘤大模型对未标注的医学记录进行自动标注；生成的标注结果由专家进行审核；专家修正前后的版本则作为训练数据，对用于生成标注数据的大模型进行进一步微调，以实现自动化微调和迭代。

在步骤三中，使用专家修正/标注后的数据，结合医学记录按照任务分成不同小模型方案。通过使用修正后的大模型对小模型的输出结果的一部分记性数据标注，来对小模型进行训练/迭代。

下面给出具体示例来描述如何对定制大模型进行微调。

例如，可以通过人工标注的数据对大模型进行监督微调，通过监督微调后，大模型便具备了理解用户需求，按照需要格式输出相关内容的能力。

在一个示例中，以结构化/抽取任务为例，训练数据格式为：

输入：特定的提示+医学文本组合，例子如下

你是一名专业的肿瘤医生。你要严格根据病历文本数据回答用户的问题。

从病历文本中抽取所有与手术名称相关的信息。手术原因（诊断）。手术名称。“术后并发症”定义为由于本次手术引起的新发症状，输出结果格式为短语。并发症发生时间（推理出绝对时间）。请仅以JSON格式输出。如果没有则输出无。

JSON输出示例：

[

{

"手术原因": "",

"手术名称": "",

"术后并发症": "",

"并发症发生时间": ""

}

]

<</SYS>>

病历文本：

患者确诊乳腺癌。2021-05-04 10:59 副主任医师查房记录

患者术后恢复可，神志清楚，精神可，未诉明显特殊不适。饮食、夜休、二便可。各项生命体征平稳。左侧胸壁引流管通畅，术后至今晨引出淡红色液体80ml，腋窝引流管通畅，引出淡红色液60ml。右侧胸壁引流管通畅，术后至今晨引出淡红色液体70ml，腋窝引流管通畅，引出淡红色液20ml。查体：伤口辅料干洁固定，伤口换药，未见明显皮下积液，右乳外上约3×2cm皮肤缺血发白，双侧乳头可见局部缺血发黑；心肺腹查体未见明显异常。今日查房看过病人后分析，存在右侧乳腺皮瓣及双侧乳头坏死可能，继续给予患者烧伤膏湿敷，并继续换药，再次告知患者皮肤缺血坏死及乳头坏死可能，患者及家属表示知情并谅解手术并发症。

***[/INST] </s>

人工标注：例子如下

{

"手术原因": "乳腺癌",

"手术名称": "乳腺癌手术",

"术后并发症": "右侧乳腺皮瓣及双侧乳头坏死",

"并发症发生时间": "2021-05-04 10:59"

}

通过使用以上这种指令微调的方式，可以对大模型进行微调。

在另一示例中，以逻辑判断任务为例：

假设对于疗效评价任务，大模型的标注结果是“不存在疗效评价”，而实际应该为“存在疗效评价”。在这种情况下，专家就应该给出人工标注“存在疗效评价，因为XXXX，所以输入信息中存在疗效评价”；在专家给出修正后的标注后，使用修改后的标注结果构建小模型训练数据集，并且用于将来对大模型进行微调。在具体实现中，可以将未标注数据（feature）+相关的正确标注（label）作为一个对（pair），大量的对可以构成用于训练小模型的训练数据集。

如图3所示，在训练根据本公开的实施例的用于处理肿瘤临床记录数据的小模型的过程中，不仅对定制大模型进行微调，还进一步对多个小模型进行微调。对多个小模型进行微调可以包括：在对定制大模型进行进一步微调后，定制大模型可以针对多个小模型的输出结果的一部分进行数据标注；并且可以根据定制大模型标注的数据，对多个小模型进行微调。

根据本公开的实施例，可以基于专家标注的数据以第一频率对定制大模型进行微调，并且可以基于定制大模型标注的数据以第二频率对多个小模型进行微调，其中第一频率远小于第二频率。

结合图3所示的根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练方法的第三流程图，其中涉及两种自循环迭代流程以及自动化训练小模型的流程来实现大模型知识蒸馏至小模型，并且通过反馈的形式迭代大模型的标注效果。

图3中所示的两个自循环迭代流程通过两种反馈形式来实现的，即大模型对小模型的反馈和专家标注对大模型的反馈。

大模型对小模型的反馈是指：大模型在小模型进行伺服的时候，对于小模型处理的任务，选取部分进行标注，小模型每隔一小段时间，便使用大模型标注过的数据进行微调，从而实现小模型在线自动优化。

专家标注对大模型的反馈是指：专家在大模型进行标注的时候，对于大模型输出的标注结果，选取小部分进行验证修正，大模型每隔一段时间，便使用专家标注过的数据进行微调，从而实现大模型效果优化。

在一个示例中，大模型的优化/微调频率远小于小模型在线优化频率。

通过上述对大模型和小模型进行微调的方式，能够在效率最高/工程效果最高的情况下确保大小模型都有高效的在线更新机制，以确保伺服效果。

本公开除了提供上述用于处理肿瘤临床记录数据的小模型训练方法，还提供了用于处理肿瘤临床记录数据的小模型训练装置，接下来将结合图4对此进行详细描述。

图4示出了根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练装置的框图。如图4所示，根据本公开的实施例的用于处理肿瘤临床记录数据的小模型训练装置400可以包括：用于获取肿瘤相关数据，并基于肿瘤相关数据对基座大模型进行预训练，以获得具有肿瘤专业知识的定制大模型的部件4020；用于获取肿瘤临床记录数据，并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务，以获得定制大模型的标注结果的部件4040，定制大模型的标注结果包括结构化文本和推理文本，其中结构化处理任务可以包括对肿瘤临床记录数据中多种类别的信息进行理解抽取以获得结构化文本，逻辑判断任务可以包括结合所述肿瘤专业知识对肿瘤临床记录数据进行推理以获得针对肿瘤临床记录数据的推理文本；以及用于基于定制大模型生成的标注结果，分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型的部件4060，其中，多个小模型可以包括结构化类小模型和推理类小模型，结构化类小模型可以用于执行结构化处理任务，并且推理类小模型可以用于执行逻辑判断任务。

根据本公开的实施例，文本生成形式可以包括以抽取肿瘤临床记录数据中的原始词语的形式来生成结构化文本，并且分类形式可以包括以对肿瘤临床记录数据进行逻辑判断的形式来生成推理文本。

根据本公开的另一实施例，多种类别的信息可以包括与手术名称相关的信息、与手术时间相关的信息、与手术原因和手术内容相关的信息、与并发症发生时间相关的信息以及与术后并发症相关的信息等；并且其中，推理文本可以包括诊断诊疗结果和疗效评价结果等。结构化类小模型可以包括手术名称抽取模型、手术时间抽取模型、手术原因和手术内容抽取模型、并发症发生时间抽取模型以及术后并发症抽取模型等。推理类小模型可以包括诊断诊疗结果判断模型和疗效评价结果判断模型等。

根据本公开的实施例，在部件4020中，对基座大模型进行预训练可以包括：用于使用肿瘤相关的医学知识对所述基座大模型进行无监督学习的部件；以及用于通过人工标注的数据对基座大模型进行监督微调，获得能够分析肿瘤临床记录数据的定制大模型的部件。

根据本公开的实施例，用于处理肿瘤临床记录数据的小模型训练装置400还可以包括对定制大模型进行微调的部件，其包括：用于与肿瘤领域的专家协作，针对结构化处理任务和逻辑判断任务，对定制大模型的标注结果的一部分进行数据标注的部件；以及用于根据专家标注的数据，对定制大模型进行进一步微调，使得定制大模型能够准确执行结构化处理任务和逻辑判断任务的部件。

根据本公开的实施例，用于处理肿瘤临床记录数据的小模型训练装置400还可以包括对多个小模型进行微调的部件，其包括：在对定制大模型进行进一步微调后，定制大模型针对多个小模型的输出结果的一部分进行数据标注的部件；以及用于根据定制大模型标注的数据，对多个小模型进行微调的部件。

关于图4所示的用于处理肿瘤临床记录数据的小模型训练装置的一些具体示例可以参考图1至图3的相关描述，在此不再赘述。

图5示出了根据本公开的实施例的用于治理肿瘤临床记录数据的方法的流程图S500。

如图5所示，用于治理肿瘤临床记录数据的方法的流程图S500可以包括通过过程S5020和过程S5040对肿瘤临床记录数据进行整合、分类、去重和质量检查。

在过程S5020中，可以将肿瘤临床记录数据输入定制大模型，获得定制大模型的标注结果。

在过程S5040中，可以将定制大模型的标注结果作为输入数据输入到多个小模型，获得多个小模型的输出结果。多个小模型可以基于如图1至图3所示的用于处理肿瘤临床记录数据的小模型训练方法获得。

图6示出了根据本公开的实施例的用于治理肿瘤临床记录数据的装置的框图。

如图6所示，根据本公开的实施例的用于治理肿瘤临床记录数据的装置600可以包括用于通过对肿瘤临床记录数据进行整合、分类、去重和质量检查的部件，该部件包括：用于将肿瘤临床记录数据输入定制大模型，获得定制大模型的标注结果的部件6020，以及用于将定制大模型的标注结果作为输入数据输入到多个小模型，获得多个小模型的输出结果的部件6040。多个小模型可以基于如图1至图3所示的用于处理肿瘤临床记录数据的小模型训练方法获得。

图7示出了根据本公开的实施例的计算机设备的结构图。

参见图7，计算机设备700可以包括处理器7020和存储器7040。处理器7020和存储器7040都可以通过总线7030相连。计算机设备700可以是任何类型的便携式设备（如智能相机、智能手机、平板电脑等）也可以是任何类型的固定设备（如台式计算机、服务器等）。

处理器7020可以根据存储在存储器7040中的程序执行各种动作和处理。具体地，处理器7020可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开的实施例中的所公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

存储器7040存储有计算机可执行指令，在计算机可执行指令被处理器7020执行时实现上述用于处理肿瘤临床记录数据的小模型训练方法以及用于治理肿瘤临床记录数据的方法。存储器7040可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM）、可编程只读存储器（PROM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）或闪存。易失性存储器可以是随机存取存储器（RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（SDRAM）、双倍数据速率同步动态随机存取存储器DDRSDRAM）、增强型同步动态随机存取存储器（ESDRAM）、同步连接动态随机存取存储器（SLDRAM）和直接内存总线随机存取存储器（DR RAM）。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

此外，根据本公开的用于处理肿瘤临床记录数据的小模型训练方法以及用于治理肿瘤临床记录数据的方法可被存储在计算机可读存储介质中。具体地，根据本公开，可提供一种存储有计算机可读指令的计算机可读存储介质，计算机可读指令在由处理器执行时，可促使处理器执行如上所述的用于处理肿瘤临床记录数据的小模型训练方法以及用于治理肿瘤临床记录数据的方法。

根据本公开的上述各种实施例，能够解决工程实际问题：1）将数据标注模块引入大模型的使用，通过定制通用大模型来替代人工标注过程，将多次标注这一耗时耗力的过程，使用模型方式进行解决。2）针对工程实际，使用大模型直接进行推理服务需要硬件资源要求高，虽然具备较高的精确度，但是平均推理时间和推理硬件需要远高于小模型。因此，通过本公开的实施例，提出了一整套端到端构建肿瘤数据治理的解决办法，以解决工程实际问题。从工程实际角度出发，在多数具体任务情况下我们都使用小模型，其主要工程考量：小模型推理速度更快——在一定时间内能够处理的数据量远超大模型；伺服更加经济实惠——大模型部署服务需要的硬件要求过高，经济成本太高。在本公开的实施例中，大模型主要用于标注训练数据，通过标注的大量数据训练小模型，最终使用小模型提供推理服务。这样既保证了小模型的效果在具体任务上可以和大模型对齐，同时也增快了吞吐量以及降低了部署成本。

此外，根据本公开的实施例的用于治理肿瘤临床记录数据的小模型具有模块化、实时响应性、兼容性以及在线更新的优势。由于每个小模型都具有模块化的设计，可以针对特定的治理任务进行快速部署。小模型还被设计成能够在各种环境中提供实时的数据治理任务，使得从大型数据中心到移动设备都可部署。此外，为了实现与主流医疗系统的无缝集成，还确保小模型与主要的医疗标准接口，如HL7、DICOM等，均能够兼容。用于治理肿瘤临床记录数据的小模型还设置有两个反馈设置，从而在使得效率最高/工程效果最高的情况下确保了大小模型都有高效的在线更新机制，以确保伺服效果。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其它方面可以在可以由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其它图像表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备，或其某些组合中实施。

除非另有定义，这里使用的所有术语（包括技术和科学术语）具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

1.一种用于处理肿瘤临床记录数据的小模型训练方法，所述方法包括：

获取肿瘤相关数据，并基于所述肿瘤相关数据对基座大模型进行预训练，以获得具有肿瘤专业知识的定制大模型；

获取所述肿瘤临床记录数据，并通过所述定制大模型针对获取的所述肿瘤临床记录数据执行结构化处理任务和逻辑判断任务，以获得所述定制大模型的标注结果，所述定制大模型的标注结果包括结构化文本和推理文本，其中所述结构化处理任务包括对所述肿瘤临床记录数据中多种类别的信息进行理解抽取以获得所述结构化文本，所述逻辑判断任务包括结合所述肿瘤专业知识对所述肿瘤临床记录数据进行推理以获得针对所述肿瘤临床记录数据的所述推理文本；以及

基于所述定制大模型生成的所述标注结果，分别以文本生成形式和分类形式将所述结构化文本和所述推理文本作为训练数据来训练多个小模型，

其中，所述多个小模型包括结构化类小模型和推理类小模型，所述结构化类小模型用于执行所述结构化处理任务，并且所述推理类小模型用于执行所述逻辑判断任务。

2.根据权利要求1所述的方法，其中，所述文本生成形式包括以抽取所述肿瘤临床记录数据中的原始词语的形式来生成所述结构化文本，并且所述分类形式包括以对所述肿瘤临床记录数据进行逻辑判断的形式来生成所述推理文本。

3.根据权利要求1所述的方法，其中，对所述基座大模型进行预训练包括：

使用肿瘤相关的医学知识对所述基座大模型进行无监督学习；以及

通过人工标注的数据对所述基座大模型进行监督微调，获得能够分析所述肿瘤临床记录数据的所述定制大模型。

4.根据权利要求3所述的方法，还包括通过以下步骤对所述定制大模型进行微调：

与肿瘤领域的专家协作，针对所述结构化处理任务和所述逻辑判断任务，对所述定制大模型的标注结果的一部分进行数据标注；并且

根据所述专家标注的数据，对所述定制大模型进行进一步微调，使得所述定制大模型能够准确执行所述结构化处理任务和所述逻辑判断任务。

5.根据权利要求4所述的方法，还包括通过以下步骤对所述多个小模型进行微调：

在对所述定制大模型进行进一步微调后，所述定制大模型针对所述多个小模型的输出结果的一部分进行数据标注；并且

根据所述定制大模型标注的数据，对所述多个小模型进行微调。

6.根据权利要求5所述的方法，其中，基于专家标注的数据以第一频率对所述定制大模型进行微调，并且基于所述定制大模型标注的数据以第二频率对所述多个小模型进行微调，其中所述第一频率远小于所述第二频率。

7.根据权利要求1所述的方法，其中，所述多种类别的信息包括与手术名称相关的信息、与手术时间相关的信息、与手术原因和手术内容相关的信息、与并发症发生时间相关的信息以及与术后并发症相关的信息；并且

其中，所述推理文本包括诊断诊疗结果和疗效评价结果。

8.根据权利要求7所述的方法，其中，所述结构化类小模型包括手术名称抽取模型、手术时间抽取模型、手术原因和手术内容抽取模型、并发症发生时间抽取模型以及术后并发症抽取模型。

9.根据权利要求7所述的方法，其中，所述推理类小模型包括诊断诊疗结果判断模型和疗效评价结果判断模型。

10.根据权利要求1至9中任一项所述的方法，其中，所述定制大模型和所述多个小模型的结构化处理能力和逻辑判断能力通过准确度、精确度、召回率、F1值以及人工标注的小部分数据来衡量。

11.根据权利要求1至9中任一项所述的方法，其中，所述肿瘤相关数据包括医学文献、患者记录数据以及放射学图像数据。

12.根据权利要求1至9中任一项所述的方法，其中，所述肿瘤临床记录数据包括患者的病历、查房记录、病程管理和检查记录。

13.根据权利要求1至9中任一项所述的方法，其中，所述基座大模型包括Llama2大语言模型。

14.根据权利要求1至9中任一项所述的方法，其中，所述多个小模型能够支持HL7和DICOM协议。

15.一种用于治理肿瘤临床记录数据的方法，其中，所述方法包括通过以下步骤对所述肿瘤临床记录数据进行整合、分类、去重和质量检查：

将所述肿瘤临床记录数据输入定制大模型，获得所述定制大模型的标注结果；以及

将所述定制大模型的所述标注结果作为输入数据输入到多个小模型，获得所述多个小模型的输出结果，

其中，所述多个小模型是基于权利要求1-14中任一项所述的方法获得的。

16.一种用于处理肿瘤临床记录数据的小模型训练装置，其中，所述装置包括：

用于获取肿瘤相关数据，并基于所述肿瘤相关数据对基座大模型进行预训练，以获得具有肿瘤专业知识的定制大模型的部件；

用于获取所述肿瘤临床记录数据，并通过所述定制大模型针对获取的所述肿瘤临床记录数据执行结构化处理任务和逻辑判断任务，以获得所述定制大模型的标注结果的部件，所述定制大模型的标注结果包括结构化文本和推理文本，其中所述结构化处理任务包括对所述肿瘤临床记录数据中多种类别的信息进行理解抽取以获得所述结构化文本，所述逻辑判断任务包括结合所述肿瘤专业知识对所述肿瘤临床记录数据进行推理以获得针对所述肿瘤临床记录数据的所述推理文本；以及

用于基于所述定制大模型生成的所述标注结果，分别以文本生成形式和分类形式将所述结构化文本和所述推理文本作为训练数据来训练多个小模型的部件，

17.一种用于治理肿瘤临床记录数据的装置，其中，所述装置包括用于通过对所述肿瘤临床记录数据进行整合、分类、去重和质量检查的部件，所述部件包括：

用于将所述肿瘤临床记录数据输入定制大模型，获得所述定制大模型的标注结果的部件；以及

用于将所述定制大模型的所述标注结果作为输入数据输入到多个小模型，获得所述多个小模型的输出结果的部件，

18.一种计算机设备，包括存储器和处理器，其中，所述存储器中存储有计算机可读指令，所述计算机可读指令在由所述处理器执行时实现根据权利要求1至15中任一项所述的方法。

19.一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在由处理器执行时实现根据权利要求1至15中任一项所述的方法。