CN115910327A

CN115910327A - 小样本癌症事件分析方法、装置、设备以及存储介质

Info

Publication number: CN115910327A
Application number: CN202211657042.3A
Authority: CN
Inventors: 李健; 徐博; 肖娟
Original assignee: Beijing Yiyong Technology Co ltd
Current assignee: Beijing Yiyong Technology Co ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-04-04
Anticipated expiration: 2042-12-22
Also published as: CN115910327B

Abstract

本公开提供一种小样本癌症事件分析方法、装置、设备以及存储介质，该方法包括：信息输入步骤，输入医疗数据，医疗数据包括与癌症相关的小样本数据；特征增强步骤，利用第一神经网络模型对小样本数据进行特征增强，获得多个维度增强的第一特征；推理步骤，包括：执行增强推理，利用第二神经网络模型对第一特征进行增强以获得第二特征，并对第二特征进行推理获得第一事件的增强推理概率；执行规则推理，基于医学规则获得第二事件的规则推理概率；和执行联合推理，结合增强推理概率和规则推理概率获得输出概率，根据输出概率获得相应的事件分析结果；以及输出步骤，输出事件分析结果。通过上述方法能够让医生快速高效地得到患者疾病相关的核心信息。

Description

小样本癌症事件分析方法、装置、设备以及存储介质

技术领域

本公开涉及数据处理领域，并且具体地，涉及小样本癌症事件分析方法。

背景技术

众所周知，癌症是医疗领域中相当复杂的疾病。临床上对于癌症疾病的诊断，往往需要根据肿瘤发生的不同部位和性质，结合实验室检查和影像学、细胞病理学检查等对患者的临床表现和体征进行综合分析。因此，医生在对患者进行诊疗的过程中，需要详细了解患者的疾病史以及大量的检查结果，这会消耗大量的时间成本。

此外，随着生命科学和综合癌症的飞速发展，近些年癌症文献一直以指数级增长。癌症文献的文本庞大、学科交叉和内容广泛，使得科研人员越来越难以有效地利用现有的科学知识进行癌症研究。

癌症研究作为癌症的热门领域和重要方向，以及如何让医生快速高效地得到患者疾病相关的核心信息以辅助医生高效进行诊疗，成为癌症领域中的一个重要挑战。

发明内容

针对上述问题，本公开提供了一种小样本癌症事件分析方法，通过对小样本癌症数据进行事件分析，产出结构化的事件分析结果，能够快速高效地得到与患者疾病相关的核心信息，辅助医生高效进行诊疗，并且能够在进行癌症领域的科学研究时快速准确地进行事件查询分析。

根据本公开的一方面，提供了一种小样本癌症事件分析方法，该方法包括：信息输入步骤，输入医疗数据，医疗数据包括与癌症相关的小样本数据；特征增强步骤，利用预训练的第一神经网络模型对小样本数据进行特征增强，获得与小样本数据相关的多个维度增强的特征作为第一特征；推理步骤，推理步骤包括以下操作：执行增强推理，利用预训练的第二神经网络模型对第一特征进行进一步增强，获得进一步增强的特征作为第二特征，并对第二特征进行推理以获得与小样本数据对应的第一事件的增强推理概率；执行规则推理，基于医学规则，获得与小样本数据对应的第二事件的规则推理概率；以及执行联合推理，结合增强推理概率和规则推理概率，获得输出概率，根据输出概率获得相应的事件分析结果；以及输出步骤，输出事件分析结果。

根据本公开的实施例，特征增强步骤包括以下操作：执行语义增强，根据大量医疗文本，通过掩码技术对第一神经网络模型进行预训练，使第一神经网络模型学习上下文知识，以对小样本数据进行语义增强，获得语义增强的特征；执行领域数据增强，根据大量医疗文本对第一神经网络进行预训练，使第一神经网络模型学习分类任务，以将小样本数据分类为不同领域和/或不同子领域，获得领域数据增强的特征；执行平行数据增强，通过将大量医疗文本转化成平行样本对来构造结构化模式引导器，使用结构化模式引导器对第一神经网络模型进行预训练，使第一神经网络模型学习结构化任务，以对小样本数据进行结构化增强，获得平行数据增强的特征；将语义增强的特征、领域数据增强的特征和平行数据增强的特征组合为第一特征。

根据本公开的实施例，不同领域包括不同医院、医疗机构和/或医学研究所，并且不同子领域包括不同医院、医疗机构和/或医学研究所的不同科室。

根据本公开的实施例，在执行语义增强时，对于小样本数据中的长文本和短文本，将掩码比例设置为长文本的第一比例以及短文本的第二比例。

根据本公开的实施例，第一比例为20％，并且第二比例为10％。

根据本公开的实施例，对于长文本的掩码部分和短文本的掩码部分，掩码部分分别以预定比例用令牌和任意词语掩盖。

根据本公开的实施例，掩码部分的80％用令牌掩盖，10％用任意词语掩盖，10％保持不变。

根据本公开的实施例，使第一神经网络模型学习结构化任务包括两个阶段：在第一阶段，将结构化模式引导器与大量医疗文本输入到第一神经网络模型，生成数据集；以及在第二阶段，使用数据集，以自回归的方式输出序列，将所输出的序列转换为从大量医疗文本中提取的结构化特征。

根据本公开的实施例，第一神经网络模型通过学习大量医疗文本进行预训练，并且第二神经网络模型通过少量标注样本对第一神经网络模型进行微调，从而具有从文本中抽取实体特征和关系特征的事件抽取能力。

根据本公开的实施例，第二神经网络模型包括实体特征提取器和关系特征提取器，实体特征提取器用于提取第一特征中的实体特征，关系特征提取器用于提取第一特征中的关系特征，然后将实体特征与关系特征进行向量拼接获得第二特征。

根据本公开的实施例，执行增强推理包括：对第二特征执行线性变换以获得j*1的向量；以及将j*1的向量输入到自定义激活函数，以获得第一事件的增强推理概率，其中，j是通过第二神经网络模型进行推理获得的与第二特征对应的标签的个数。

根据本公开的实施例，自定义激活函数定义为：

其中，z_i为第i个标签的标签值，i是小于等于j的正整数，β是值为1的平滑因子。

根据本公开的实施例，在联合推理步骤中：当增强推理概率高于阈值时，且第一事件与第二事件一致时，对输出概率进行加权，获得加权后的输出概率，并输出第一事件作为事件分析结果。

根据本公开的实施例，加权后的输出概率为α*max(Pa,Pb)，其中α是值为1.1的加权因子，Pa是增强推理概率，且Pb是规则推理概率。

根据本公开的实施例，在联合推理步骤中：当增强推理概率高于阈值，且第一事件与第二事件不一致时，将增强推理概率作为输出概率并输出第一事件作为事件分析结果。

根据本公开的实施例，在联合推理步骤中：当增强推理概率低于阈值时，将规则推理概率作为输出概率并输出第二事件作为事件分析结果。

根据本公开的实施例，阈值设置为0.7。

根据本公开的实施例，医学规则是基于医学知识、医学词典、医学专家确定的规则。

根据本公开的实施例，该方法还包括数据校验步骤，数据校验步骤包括：执行事件纠错，对事件分析结果中错误的事件文本序列进行纠错，以获得纠错后的事件分析结果；以及执行事件质量检验，通过标注正确的事件分析结果对纠错后的事件分析结果进行质量检验，以确定纠错后的事件分析结果是否是合理的结果。

根据本公开的实施例，该方法还包括结构化处理步骤，在结构化处理步骤中，通过离线定义一个模式(schema)，对事件分析结果进行结构化处理，以输出结构化的事件分析结果。

根据本公开的实施例，该方法还包括信息存储步骤，用于存储从信息输入步骤获得的小样本数据，其中，信息存储步骤包括以下操作：执行数据存储，用于分类存储小样本数据，以获得不同类别的小样本数据；执行数据增强，用于对存在异常的小样本数据进行增强，以获得纠错后的小样本数据；以及数据质检步骤，用于对小样本数据进行质量检测，以获得完整且正确分类的小样本数据。

根据本公开的另一方面，提供了一种小样本癌症事件分析装置，装置包括：信息输入模块，输入医疗数据，医疗数据包括与癌症相关的小样本数据；特征增强模块，利用预训练的第一神经网络模型对小样本数据进行特征增强，获得与小样本数据相关的多个维度增强的特征作为第一特征；推理模块，推理模块包括：增强推理单元，利用预训练的第二神经网络模型对第一特征进行进一步增强，获得进一步增强的特征作为第二特征，并对第二特征进行推理以获得与小样本数据对应的第一事件的增强推理概率；规则推理单元，基于医学规则，获得与小样本数据对应的第二事件的规则推理概率；和联合推理单元，结合增强推理概率和规则推理概率，获得输出概率，根据输出概率获得相应的事件分析结果；以及输出模块，输出事件分析结果。

根据本公开的又一方面，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令在由处理器执行时实现上述小样本癌症事件分析方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令在由处理器执行时实现上述小样本癌症事件分析方法。

因此，根据本公开实施例的小样本癌症事件分析方法、装置、设备以及存储介质，通过神经网络模型对与癌症相关的小样本数据进行多个维度的特征增强，然后对增强后的特征进行增强推理获得增强推理概率，结合增强推理概率以及基于医学规则对小样本数据进行规则推理所获得的规则推理概率，获得最终的输出概率，并根据输出概率获得与小样本数据相对应的事件分析结果。通过上述方法，能够快速高效地得到与患者疾病相关的核心信息，辅助医生高效进行诊疗，并且能够在进行癌症领域的科学研究时快速准确地进行事件查询分析。

附图说明

图1示出了根据本公开的第一实施例的小样本癌症事件分析方法的第一流程图；

图2详细描述了根据本公开的实施例的小样本癌症事件分析方法的特征增强过程；

图3示出了根据本公开的实施例的自定义编码器的示例结构图；

图4示出了根据本公开的实施例的第二神经网络模型的示例结构图；

图5示出了根据本公开的第一实施例的小样本癌症事件分析方法的第二流程图；

图6示出了根据本公开的第一实施例的小样本癌症事件分析方法的第三流程图；

图7示出了根据本公开的第一实施例的小样本癌症事件分析方法的第四流程图；

图8示出了根据本公开的第二实施例的小样本癌症事件分析装置的框图；以及

图9示出了根据本公开的实施例的计算机设备的结构图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步。

在本公开的说明书和附图中，根据实施例，元素以单数或复数的形式来描述。然而，单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本公开限制于此。因此，单数形式可以包括复数形式，并且复数形式也可以包括单数形式，除非上下文另有明确说明。

下面将参照附图对本公开提供的小样本癌症事件分析方法、装置、设备以及存储介质进行详细的说明。

<第一实施例>

图1示出了根据本公开的第一实施例的小样本癌症事件分析方法的第一流程图S100。下面将参考图1来具体描述本公开的第一实施例的小样本癌症事件分析方法的各个步骤。

首先，如图1所示，根据本公开的第一实施例的小样本癌症事件分析方法可以包括信息输入步骤S102、特征增强步骤S104、推理步骤S106以及输出步骤S108。

在图1的信息输入步骤S102中，可以输入医疗数据，该医疗数据包括与癌症相关的小样本数据。

在一个示例中，医疗数据可以是从NCC相关客户端或者相关系统中收集的患者相关信息，包括文本类数据和图像类数据。医疗数据中包括的与癌症相关的小样本数据可以是少量癌症事件相关样本，例如与黑色素瘤相关的少量样本。

在图1的特征增强步骤S104中，可以利用预训练的第一神经网络模型对小样本数据进行特征增强，获得与小样本数据相关的多个维度增强的特征作为第一特征。

在一个示例中，可以通过所积累的大量医疗文本对自定义优化神经网络模型进行预训练，然后通过经训练的神经网络模型对所输入的少量癌症样本进行多个维度的特征增强。

图2详细描述了根据本公开的实施例的小样本癌症事件分析方法的特征增强过程。

参考图2，特征增强步骤S104可以包括以下操作：执行语义增强，根据大量医疗文本，通过掩码技术对第一神经网络模型进行预训练，使第一神经网络模型学习上下文知识，以对小样本数据进行语义增强，获得语义增强的特征；执行领域数据增强，根据大量医疗文本对第一神经网络进行预训练，使第一神经网络模型学习分类任务，以将小样本数据分类为不同领域和/或不同子领域，获得领域数据增强的特征；执行平行数据增强，通过将大量医疗文本转化成平行样本对来构造结构化模式引导器，使用结构化模式引导器对第一神经网络模型进行预训练，使第一神经网络模型学习结构化任务，以对小样本数据进行结构化增强，获得平行数据增强的特征；以及将语义增强的特征、领域数据增强的特征和平行数据增强的特征组合为第一特征。

参考图3，图3示出了根据本公开的实施例的自定义编码器的示例结构图。例如，在训练模型进行语义增强的过程中，根据海量的诊疗相关的医学文本数据，通过掩码技术进行模型预训练，即掩盖住句子中的某个或某些词语，通过模型来预测被掩盖词语的单词。对于模型结构，可以采用图3所示出的自定义编码器部分作为网络结构的组成。

根据本公开的实施例，在执行语义增强时，对于小样本数据中的长文本和短文本，可以将掩码比例设置为长文本的第一比例以及短文本的第二比例。

根据本公开的实施例，第一比例可以为20％，并且第二比例可以为10％。

根据本公开的实施例，对于长文本的掩码部分和短文本的掩码部分，掩码部分可以分别以预定比例用令牌和任意词语掩盖。

根据本公开的实施例，掩码部分的80％可以用令牌掩盖，10％可以用任意词语掩盖，10％可以保持不变。

在一个示例中，在训练模型进行领域数据增强的过程中，通过对海量医疗文本进行分类任务进行预训练。分类任务具体指确定文本来自于哪家医院。例如：针对某段病例文本，为某某省肿瘤医院的检查结果，那么预测的目标标签就为某某省肿瘤医院。

根据本公开的实施例，不同领域可以包括不同医院、医疗机构和/或医学研究所，并且不同子领域可以包括不同医院、医疗机构和/或医学研究所的不同科室。

在一个示例中，在训练模型进行平行数据增强的过程中，通过学习海量医疗文本来形成平行样本对。例如，构造结构化模式引导器，原始文本通过结构化模式引导器生成结构化的数据，以此为目标构造模型进行训练。

在一个示例中，训练过程分别两个阶段：

第一阶段将结构化模式引导器+原始文本给到模型，生成数据集a作为第一阶段的产出。

例如：

1.结构化模式引导器：【低回声团】的【象限位置】

2.原始文本：超声显示低回声团，在三点钟、六点钟方向

3.进入encoder进行编码，encoder为自定义编码器(结构见图3)。

第二阶段使用第一阶段的产出作为输入，以自回归的方式输出序列，最后将预测结果转换为提取的信息记录。

例如：

解码输出结果，产出事件分析结果“象限位置：三点钟、六点钟”。

根据本公开的实施例，第一神经网络模型可以通过学习大量医疗文本进行预训练。

在一个示例中，第一神经网络模型的学习目标可以分为三个：针对语义增强的学习，针对领域数据增强的学习，以及针对平行数据增强的学习。将一段医疗文本输入到第一神经网络模型，可以得到第一特征。该第一特征是包含这段医疗文本的语义增强特征、领域数据增强特征和平行数据增强特征的embedding，例如可以由一串数字表示。换句话说，第一神经网络模型是学习到大量医疗样本的广泛特征。

在图1的推理步骤S106中，可以包括以下操作：执行增强推理，可以利用预训练的第二神经网络模型对第一特征进行进一步增强，获得进一步增强的特征作为第二特征，并对第二特征进行推理以获得与小样本数据对应的第一事件的增强推理概率；执行规则推理，基于医学规则，可以获得与小样本数据对应的第二事件的规则推理概率；以及执行联合推理，可以结合增强推理概率和规则推理概率，获得输出概率，根据输出概率获得相应的事件分析结果。

根据本公开的实施例，第二神经网络模型可以通过少量标注样本对第一神经网络模型进行微调，从而具有从文本中抽取实体特征和关系特征的事件抽取能力。

在一个示例中，例如，从数据源中抽取少量医疗数据，然后进行事件必需的、实体和关系的标注，使得第二神经网络模型可以进一步具有事件抽取的能力，比如从一段医疗文本中抽取实体和关系，来得到这段医疗文本的简要概括。换句话说，第二神经网络模型是利用第一神经网络模型学习到的广泛特征，来进一步学习定制化的样本。

下面结合图4来描述用于执行增强推理的第二神经网络模型。图4示出了根据本公开的实施例的第二神经网络模型的示例结构图。

在图4中，例如，输入一段医疗文本：“黑色素瘤皮肤镜检查弥漫性黑色”，这段医疗文本通过第一神经网络模型进行多个维度的特征增强获得第一特征，然后第一特征再通过第二神经网络模型进行微调，得到更精细化的特征。接下来，通过经训练的第二神经网络模型对更精细化的特征进行推理，来获得与所输入的这段医疗文本对应的第一事件的增强推理概率。

根据本公开的实施例，第二神经网络模型可以包括实体特征提取器和关系特征提取器，实体特征提取器可以用于提取第一特征中的实体特征，关系特征提取器可以用于提取第一特征中的关系特征，然后将实体特征与关系特征进行向量拼接获得第二特征。

再次参考图4，图4中分别示出了第二神经网络模型的实体特征提取器和关系特征提取器。通过将第一特征接入第二神经网络模型，可以进行相应的特征提取，其中实体特征提取器可以为96层，且关系特征提取器可以为10层。然后，将从实体特征提取器提取的特征与从关系特征提取器提取的特征进行向量拼接，来获得更精细化的特征，可以称为第二特征。第二特征可以是包含实体特征和关系特征的embedding，例如可以由一串数字表示。

根据以上描述，通过第一神经网络模型，可以对小样本数据分别执行语义增强、领域数据增强、平行数据增强，从而获得多个维度增强的特征，即第一特征。然后，通过适应标注数据集的定制化的第二神经网络模型，可以进一步抽取第一特征中的实体特征和关系特征，将实体特征和关系特征进行拼接获得更精细化的第二特征。

根据本公开的实施例，执行增强推理可以包括：对第二特征执行线性变换以获得j*1的向量；以及将j*1的向量输入到自定义激活函数，以获得第一事件的增强推理概率，其中，j是通过第二神经网络模型进行推理获得的与第二特征对应的标签的个数。

根据本公开的实施例，自定义激活函数可以定义为：

其中，z_i为第i个标签的标签值，i是小于等于j的正整数，β是平滑因子。

再次参考图4，对于所输入的医疗文本“黑色素瘤皮肤镜检查弥漫性黑色”，通过第二神经网络模型获得对应的第二特征。然后，通过图4中的FC(Relu)对第二特征进行线性变换，可以获得j*1的向量。接下来，将j*1的向量输入图4中的FC(自定义激活函数)来对第二特征进行推理，获得与所输入的医疗文本“黑色素瘤皮肤镜检查弥漫性黑色”对应的事件的增强推理概率。

此外，在图4中的FC(自定义激活函数)的定义中，引入了平滑因子β并且经过大量实验发现，平滑因子β的取值范围为1-5时预测效果较好，且β等于1时使得第二神经网络模型产出的概率更平滑更稳定，在后续执行联合推理时能够获得更好的推理结果。

在一个示例中，除了执行增强推理之外，还可以执行规则推理。例如，根据已有的医疗界规则，按照统计的方法，对所输入的上述医疗文本进行规则推理，获得与上述医疗文本对应的第二事件的规则推理概率。

在进一步的示例中，可以针对两种情况进行规则推理。一种情况是，事件中出现特别的检查名称、专业术语等，用规则引擎可以达到最好效果，解决模型的少量badcase。另一种情况是，神经网络模型的预测效果偏差，需要规则引擎来兜底。

在另一示例中，在规则推理过程中，例如输入一段医疗文本“颅脑：右侧额叶异常信号结节(301-16)，T1WI、T2WI呈中心稍低、边缘稍高信号”，针对这段医疗文本中的TW1、TW2检查项，可以在规则引擎中对对应的检查数据配置词表及句式，识别出TW1和TW2的检查结果。

根据本公开的实施例，医学规则可以是基于医学知识、医学词典、医学专家确定的规则。

在一个示例中，医学规则可以以正则的形式存储。

在一个示例中，医学规则可以理解为所存储的与医学相关的词库或者词库+规则。例如，在增强推理过程中，神经网络模型将乳腺癌切预测为疾病名称，而词库中是乳腺癌，则将乳腺癌去修正错误的预测。对于规则，例如由于饮食糖类过多而导致糖尿病。这个句式说明了因果关系。当神经网络模型预测错误时，可以用“由于…导致…”来判定这是因果关系，从而修正神经网络模型预测的结果。

针对所输入的少量医疗样本，在分别获得对应的增强推理概率和规则推理概率后，可以基于这两种推理概率进行联合推理，获得最终的输出概率。然后，根据输出概率获得与所输入的少量医疗样本对应的事件分析结果。

根据本公开的实施例，在联合推理步骤中：当增强推理概率高于阈值时，且第一事件与第二事件一致时，可以对输出概率进行加权，获得加权后的输出概率，并输出第一事件作为事件分析结果。

在一个示例中，例如，针对与黑色素瘤相关的一段医疗文本，如果在执行增强推理的过程中，通过第二神经网络模型预测得到的第一事件“黑色素瘤”的增强推理概率大于一预定阈值(例如0.7)，并且在执行规则推理的过程中基于医学规则预测得到的第二事件也是“黑色素瘤”，则表明第二神经网络模型的表现较好，可以对最终的输出概率进行加权。

根据本公开的实施例，加权后的输出概率可以是α*max(Pa,Pb)，其中α是值为1.1的加权因子，Pa是增强推理概率，且Pb是规则推理概率。

在一个示例中，例如针对与黑色素瘤相关的一段医疗文本，通过第二神经网络模型预测得到的第一事件“黑色素瘤”的增强推理概率为0.95，通过医学规则预测得到的第二事件“黑色素瘤”的规则推理概率为0.9，则取两者的最大值0.95，并对该概率施加权重为1.1的加权因子α，因此最终的输出概率为0.95*1.1，若最终的输出概率大于1则向下取整为1，并且输出第一事件“黑色素瘤”作为对与黑色素瘤相关的这段医疗文本的事件分析结果。

根据本公开的实施例，在联合推理步骤中：当增强推理概率高于阈值，且第一事件与第二事件不一致时，可以将增强推理概率作为输出概率，并输出第一事件作为事件分析结果。

在一个示例中，例如针对与乳腺癌相关的一段医疗文本，如果在执行增强推理的过程中，通过第二神经网络模型预测得到的第一事件“乳腺癌，疾病”的增强推理概率为0.95，且该增强推理概率大于一预定阈值(例如0.7)，但是在执行规则推理时没有预测到第一事件“乳腺癌，疾病”，则将增强推理概率0.95作为最终的输出概率，并输出第一事件“乳腺癌，疾病”作为对与乳腺癌相关的这段医疗文本的事件分析结果。

此外，在进一步的示例中，对于一个实体词被另一实体词包含的情况(例如“乳腺癌”包含“乳腺”)，例如针对与乳腺癌相关的一段医疗文本，在执行增强推理的过程中，通过第二神经网络模型预测得到的仅第一事件“乳腺癌，疾病”且增强推理概率为0.95，而在执行规则推理的过程中，基于医学规则预测得到的是第二事件“乳腺，部位”且规则推理概率为0.9，则出现第二事件中的实体词“乳腺”被第一事件中的实体词“乳腺癌”所包含的边界情况。针对上述情况，由于第二神经网络模型未预测到医学规则“乳腺，部位”，因此将规则推理概率0.9作为最终的输出概率，并输出第二事件“乳腺，部位”作为对与乳腺癌相关的这段医疗文本的事件分析结果。

然而，如果在执行增强推理的过程中，通过第二神经网络模型预测得到的是第一事件“乳腺癌，疾病”且增强推理概率为0.95以及第二事件“乳腺，部位”且增强推理概率为0.8，两个增强推理概率均大于一预定阈值(例如0.7)，此时若医学规则中没有乳腺癌为疾病的规则，只有乳腺为部位的规则，即根据医学规则推理得到的是第二事件“乳腺，部位”且规则推理概率为0.7，则最终的输出概率取对第二事件“乳腺，部位”的增强推理概率0.8和规则推理概率0.7的最大值进行加权后的概率(0.8*1.1)，并输出第二事件“乳腺，部位”作为对与乳腺癌相关的这段医疗文本的事件分析结果。

根据本公开的实施例，在联合推理步骤中：当增强推理概率低于阈值时，可以将规则推理概率作为输出概率并输出第二事件作为事件分析结果。

在一个示例中，例如，针对与乳腺癌相关的一段医疗文本，如果在执行增强推理的过程中，通过第二神经网络模型预测得到的第一事件“乳腺癌切”的增强推理概率0.5低于一预定阈值(例如0.7)，则对这段医疗文本进行规则推理作为兜底策略。例如，基于医学规则对这段医疗文本进行规则推理，得到规则推理结果为第二事件“乳腺癌”且规则推理概率为0.9，则输出规则推理概率0.9作为最终的输出概率，并输出第二事件“乳腺癌”作为对与乳腺癌相关的这段医疗文本的事件分析结果。

在图1的输出步骤S108中，可以输出事件分析结果。

在一个示例中，针对与黑色素瘤相关的一段医疗文本，通过步骤S102-S106的处理，最终输出对该黑色素瘤相关的医疗文本的事件分析结果至终端显示器。例如，针对与黑色素瘤相关的一段医疗文本，在终端显示器上显示文本“黑色素瘤”作为对与黑色素瘤相关的这段医疗文本的事件分析结果；并且针对与乳腺癌相关的一段医疗文本，在终端显示器上显示文本“乳腺，部位”作为对与乳腺癌相关的这段医疗文本的事件分析结果。

以上结合图1至图4详细描述了根据本公开的小样本癌症事件分析方法，通过神经网络模型对与癌症相关的小样本数据进行不同维度的特征增强，然后对增强后的特征进行增强推理获得增强推理概率，结合增强推理概率以及基于医学规则对小样本数据进行规则推理所获得的规则推理概率，获得最终的输出概率，并根据输出概率获得与小样本数据相对应的事件分析结果。通过上述方法，能够快速高效地得到与患者疾病相关的核心信息，辅助医生高效进行诊疗，并且能够在进行癌症领域的科学研究时快速准确地进行事件查询分析。

图5示出了根据本公开的第一实施例的小样本癌症事件分析方法的第二流程图S500。

如图5所示，根据本公开的第一实施例的小样本癌症事件分析方法还可以包括数据校验步骤S507。数据校验步骤S507可以包括：执行事件纠错，对事件分析结果中错误的事件文本序列进行纠错，以获得纠错后的事件分析结果；以及执行事件质量检验，通过标注正确的事件分析结果对纠错后的事件分析结果进行质量检验，以确定纠错后的事件分析结果是否是合理的结果。

在一个示例中，针对医疗文本的事件分析结果，可以对存在错误的事件文本序列进行纠错，获取正确的事件。例如，医疗文本中可能存在错别字，可以通过拼音和文本pair对训练出实体纠错模型。然后将事件分析结果输入到实体纠错模型，并且再进行一次词表检查，作最终检验，产出纠错后的事件分析结果。此外，将产出的纠错后的事件分析结果和所标注的正确的事件分析结果进行比较，来执行质量检测验证，输出该事件分析结果是否合理的结果。

以上结合图5详细描述了根据本公开的第一实施例的小样本癌症事件分析方法的第二流程图，通过对推理结果产出的事件进行特定校验，判断事件是否合理。合理则事件分析结果正常存储，不合理则丢弃当前事件分析结果。

图6示出了根据本公开的第一实施例的小样本癌症事件分析方法的第三流程图S600。

如图6所示，根据本公开的第一实施例的小样本癌症事件分析方法还可以包括结构化处理步骤S607。在结构化处理步骤S607中，通过离线定义一个模式(schema)，对事件分析结果进行结构化处理，以输出结构化的事件分析结果。

在一个示例中，可以离线定义一个schema，对于不同的实体标签和事件标签进行融合。

例如：

Schema＝['时间','选手','赛事名称']

文本："2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！")

以上结合图6详细描述了根据本公开的第一实施例的小样本癌症事件分析方法的第三流程图，通过对事件分析结果进行结构化处理，能够输出结构化的事件分析结果。

图7示出了根据本公开的第一实施例的小样本癌症事件分析方法的第四流程图S700。

如图7所示，根据本公开的第一实施例的小样本癌症事件分析方法还可以包括信息存储步骤S703。信息存储步骤S703可以用于存储从信息输入步骤获得的小样本数据，其中，信息存储步骤S703可以包括以下操作：执行数据存储，用于分类存储小样本数据，以获得不同类别的小样本数据；执行数据增强，用于对存在异常的小样本数据进行增强，以获得纠错后的小样本数据；以及数据质检步骤，用于对小样本数据进行质量检测，以获得完整且正确分类的小样本数据。

在一个示例中，可以从所输入的医疗文本中获取患者的病情记录、过往病史、患者超声、CT等检查结果，并且按照不同疾病类型、不同文本类型(超声检查、CT、MR、现病史等)分类存储。

在一个示例中，可以对当前输入的存在杂质的患者文本进行增强，当文本中的患者信息出现错别字时进行纠错。例如，扫描文本，对于存在特殊字符文本，进行特殊字符针对性处理。对于文本编码异常进行多编码自适应处理。文本错别字根据大规模预训练模型进行样本标注微调，生成纠错模型，将文本迭代局部扫描，加入系统进行文本错别字识别，输出纠错后的结果。

在一个示例中，可以对当前收集到的医疗数据进行质量检测，从文本质量的角度来对数据进行过滤。例如，通过文本数据基本长度的判断来确定数据完整性；对文本进行分类，确定数据是否应该属于某个检查类别(比如当前结果是否应该属于乳腺癌检查结果)。

以上结合图7详细描述了根据本公开的第一实施例的小样本癌症事件分析方法的第四流程图，通过对患者相关数据进行有效的增强，能够获得更高质量的医疗文本，辅助后续对医疗文本的事件分析。

<第二实施例>

本公开除了提供上述小样本癌症事件分析方法，还提供了小样本癌症事件分析装置，接下来将结合图8对此进行详细描述。

图8示出了根据本公开的第二实施例的小样本癌症事件分析装置的框图。如图8所示，根据本公开的小样本癌症事件分析装置800可以包括信息输入模块810、特征增强模块820、推理模块830以及输出模块840。

在图8的信息输入模块810中，可以输入医疗数据，该医疗数据包括与癌症相关的小样本数据。

在图8的特征增强模块820中，可以利用预训练的第一神经网络模型对小样本数据进行特征增强，获得与小样本数据相关的多个维度增强的特征作为第一特征。

根据本公开的实施例，特征增强模块820可以包括：语义增强单元，根据大量医疗文本，通过掩码技术对第一神经网络模型进行预训练，使第一神经网络模型学习上下文知识，以对小样本数据进行语义增强，获得语义增强的特征；领域数据增强单元，根据大量医疗文本对第一神经网络进行预训练，使第一神经网络模型学习分类任务，以将小样本数据分类为不同领域和/或不同子领域，获得领域数据增强的特征；平行数据增强单元，通过将大量医疗文本转化成平行样本对来构造结构化模式引导器，使用结构化模式引导器对第一神经网络模型进行预训练，使第一神经网络模型学习结构化任务，以对小样本数据进行结构化增强，获得平行数据增强的特征；以及将语义增强的特征、领域数据增强的特征和平行数据增强的特征组合为第一特征。

根据本公开的实施例，在语义增强单元中，对于小样本数据中的长文本和短文本，可以将掩码比例设置为长文本的第一比例以及短文本的第二比例。

在图8的推理模块830中，可以包括：增强推理单元832，可以利用预训练的第二神经网络模型对第一特征进行进一步增强，获得进一步增强的特征作为第二特征，并对第二特征进行推理以获得与小样本数据对应的第一事件的增强推理概率；规则推理单元834，基于医学规则，可以获得与小样本数据对应的第二事件的规则推理概率；以及联合推理单元836，可以结合增强推理概率和规则推理概率，获得输出概率，根据输出概率获得相应的事件分析结果。

根据本公开的实施例，第一神经网络模型可以通过学习大量医疗文本进行预训练。第二神经网络模型可以通过少量标注样本对第一神经网络模型进行微调，从而具有从文本中抽取实体特征和关系特征的事件抽取能力。

根据本公开的实施例，增强推理单元832可以执行以下操作：对第二特征执行线性变换以获得j*1的向量；以及将j*1的向量输入到自定义激活函数，以获得第一事件的增强推理概率，其中，j是通过第二神经网络模型进行推理获得的与第二特征对应的标签的个数。

根据本公开的实施例，自定义激活函数可以定义为：

根据本公开的实施例，在联合推理单元836中，当增强推理概率高于阈值时，且第一事件与所述第二事件一致时，可以对输出概率进行加权，获得加权后的输出概率，并输出第一事件作为事件分析结果。

根据本公开的实施例，在联合推理单元836中，当增强推理概率高于阈值，且第一事件与第二事件不一致时，可以将增强推理概率作为输出概率并输出第一事件作为事件分析结果。

根据本公开的实施例，在联合推理单元836中，当增强推理概率低于阈值时，可以将规则推理概率作为输出概率并输出第二事件作为事件分析结果。

在图8的输出模块840中，可以输出事件分析结果。

关于图8所示的小样本癌症事件分析装置的一些具体示例可以参考图1的相关描述，在此不再赘述。

图9示出了根据本公开的实施例的计算机设备的结构图。

参见图9，计算机设备900可以包括处理器901和存储器902。处理器901和存储器902都可以通过总线903相连。计算机设备900可以是任何类型的便携式设备(如智能相机、智能手机、平板电脑等)也可以是任何类型的固定设备(如台式计算机、服务器等)。

处理器901可以根据存储在存储器902中的程序执行各种动作和处理。具体地，处理器901可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

存储器902存储有计算机可执行指令，在计算机可执行指令被处理器901执行时实现上述基于半监督学习的医疗命名实体识别方法。存储器902可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

此外，根据本公开的小样本癌症事件分析方法可被存储在计算机可读存储介质中。具体地，根据本公开，可提供一种存储有计算机可读指令的计算机可读存储介质，计算机可读指令在由处理器执行时，可促使处理器执行如上所述的小样本癌症事件分析方法。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其它方面可以在可以由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其它图像表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备，或其某些组合中实施。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

1.一种小样本癌症事件分析方法，其中，所述方法包括：

信息输入步骤，输入医疗数据，所述医疗数据包括与癌症相关的小样本数据；

特征增强步骤，利用预训练的第一神经网络模型对所述小样本数据进行特征增强，获得与所述小样本数据相关的多个维度增强的特征作为第一特征；

推理步骤，所述推理步骤包括以下操作：

执行增强推理，利用预训练的第二神经网络模型对所述第一特征进行进一步增强，获得进一步增强的特征作为第二特征，并对所述第二特征进行推理以获得与所述小样本数据对应的第一事件的增强推理概率；

执行规则推理，基于医学规则，获得与所述小样本数据对应的第二事件的规则推理概率；以及

执行联合推理，结合所述增强推理概率和所述规则推理概率，获得输出概率，根据所述输出概率获得相应的事件分析结果；以及

输出步骤，输出所述事件分析结果。

2.根据权利要求1所述的方法，其中，所述特征增强步骤包括以下操作：

执行语义增强，根据大量医疗文本，通过掩码技术对所述第一神经网络模型进行预训练，使所述第一神经网络模型学习上下文知识，以对所述小样本数据进行语义增强，获得语义增强的特征；

执行领域数据增强，根据所述大量医疗文本对所述第一神经网络进行预训练，使所述第一神经网络模型学习分类任务，以将所述小样本数据分类为不同领域和/或不同子领域，获得领域数据增强的特征；

执行平行数据增强，通过将所述大量医疗文本转化成平行样本对来构造结构化模式引导器，使用所述结构化模式引导器对所述第一神经网络模型进行预训练，使所述第一神经网络模型学习结构化任务，以对所述小样本数据进行结构化增强，获得平行数据增强的特征；以及

将所述语义增强的特征、领域数据增强的特征和平行数据增强的特征组合为所述第一特征。

3.根据权利要求2所述的方法，其中，所述不同领域包括不同医院、医疗机构和/或医学研究所，并且所述不同子领域包括所述不同医院、医疗机构和/或医学研究所的不同科室。

4.根据权利要求2所述的方法，其中，在执行所述语义增强时，对于所述小样本数据中的长文本和短文本，将掩码比例设置为所述长文本的第一比例以及所述短文本的第二比例。

5.根据权利要求4所述的方法，其中，所述第一比例为20％，并且所述第二比例为10％。

6.根据权利要求4所述的方法，其中，对于所述长文本的掩码部分和所述短文本的掩码部分，所述掩码部分分别以预定比例用令牌和任意词语掩盖。

7.根据权利要求6所述的方法，其中，所述掩码部分的80％用令牌掩盖，10％用任意词语掩盖，10％保持不变。

8.根据权利要求2所述的方法，其中，使所述第一神经网络模型学习结构化任务包括两个阶段：

在第一阶段，将所述结构化模式引导器与所述大量医疗文本输入到所述第一神经网络模型，生成数据集；以及

在第二阶段，使用所述数据集，以自回归的方式输出序列，将所输出的序列转换为从所述大量医疗文本中提取的结构化特征。

9.根据权利要求2所述的方法，其中，所述第一神经网络模型通过学习所述大量医疗文本进行预训练，并且所述第二神经网络模型通过少量标注样本对所述第一神经网络模型进行微调，从而具有从文本中抽取实体特征和关系特征的事件抽取能力。

10.根据权利要求9所述的方法，其中，所述第二神经网络模型包括实体特征提取器和关系特征提取器，所述实体特征提取器用于提取所述第一特征中的实体特征，所述关系特征提取器用于提取所述第一特征中的关系特征，然后将所述实体特征与所述关系特征进行向量拼接获得所述第二特征。

11.根据权利要求1所述的方法，其中，所述执行增强推理包括：

对所述第二特征执行线性变换以获得j*1的向量；以及

将所述j*1的向量输入到自定义激活函数，以获得所述第一事件的所述增强推理概率，

其中，j是通过所述第二神经网络模型进行推理获得的与所述第二特征对应的标签的个数。

12.根据权利要求11所述的方法，其中，所述自定义激活函数定义为：

13.根据权利要求1所述的方法，其中，在所述联合推理步骤中：

当所述增强推理概率高于阈值时，且所述第一事件与所述第二事件一致时，对所述输出概率进行加权，获得加权后的输出概率，并输出所述第一事件作为所述事件分析结果。

14.根据权利要求13所述的方法，其中，所述加权后的输出概率为α*max(Pa,Pb)，其中α是值为1.1的加权因子，Pa是所述增强推理概率，且Pb是所述规则推理概率。

15.根据权利要求1所述的方法，其中，在所述联合推理步骤中：

当所述增强推理概率高于阈值，且所述第一事件与所述第二事件不一致时，将所述增强推理概率作为所述输出概率，并输出所述第一事件作为所述事件分析结果。

16.根据权利要求1所述的方法，其中，在所述联合推理步骤中：

当所述增强推理概率低于阈值时，将所述规则推理概率作为所述输出概率，并输出所述第二事件作为所述事件分析结果。

17.根据权利要求13所述的方法，其中，所述阈值设置为0.7。

18.根据权利要求1所述的方法，其中，所述医学规则是基于医学知识、医学词典、医学专家确定的规则。

19.根据权利要求1所述的方法，其中，所述方法还包括数据校验步骤，所述数据校验步骤包括：

执行事件纠错，对所述事件分析结果中错误的事件文本序列进行纠错，以获得纠错后的事件分析结果；以及

执行事件质量检验，通过标注正确的事件分析结果对所述纠错后的事件分析结果进行质量检验，以确定所述纠错后的事件分析结果是否是合理的结果。

20.根据权利要求1所述的方法，其中，所述方法还包括结构化处理步骤，在所述结构化处理步骤中，通过离线定义一个模式，对所述事件分析结果进行结构化处理，以输出结构化的事件分析结果。

21.根据权利要求1所述的方法，其中，所述方法还包括信息存储步骤，用于存储从所述信息输入步骤获得的所述小样本数据，其中，

所述信息存储步骤包括以下操作：

执行数据存储，用于分类存储所述小样本数据，以获得不同类别的小样本数据；

执行数据增强，用于对存在异常的所述小样本数据进行增强，以获得纠错后的小样本数据；以及

数据质检步骤，用于对所述小样本数据进行质量检测，以获得完整且正确分类的小样本数据。

22.一种小样本癌症事件分析装置，其中，所述装置包括：

信息输入模块，输入医疗数据，所述医疗数据包括与癌症相关的小样本数据；

特征增强模块，利用预训练的第一神经网络模型对所述小样本数据进行特征增强，获得与所述小样本数据相关的多个维度增强的特征作为第一特征；

推理模块，所述推理模块包括：

增强推理单元，利用预训练的第二神经网络模型对所述第一特征进行进一步增强，获得进一步增强的特征作为第二特征，并对所述第二特征进行推理以获得与所述小样本数据对应的第一事件的增强推理概率；

规则推理单元，基于医学规则，获得与所述小样本数据对应的第二事件的规则推理概率；和

联合推理单元，结合所述增强推理概率和所述规则推理概率，获得输出概率，根据所述输出概率获得相应的事件分析结果；以及

输出模块，输出所述事件分析结果。

23.一种计算机设备，包括存储器和处理器，其中，所述存储器中存储有计算机可读指令，所述计算机可读指令在由所述处理器执行时实现根据权利要求1至21中任一项所述的方法。

24.一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在由所述处理器执行时实现根据权利要求1至21中任一项所述的方法。