CN116502129A

CN116502129A - 一种知识与数据协同驱动的不平衡临床数据分类系统

Info

Publication number: CN116502129A
Application number: CN202310740799.7A
Authority: CN
Inventors: 李劲松; 池胜强; 李雪瑶; 王宇清; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-07-28
Anticipated expiration: 2043-06-21
Also published as: CN116502129B

Abstract

本发明公开了一种知识与数据协同驱动的不平衡临床数据分类系统，包括：患者图谱构建模块，用于从患者电子病历数据中提取医学概念集合，基于医学概念集合和对应的关系集合构建患者图谱；患者表示获取模块，使用图卷积网络从患者图谱中提取含图结构信息的知识特征，融合知识特征和数据特征，得到患者表示；患者临床分类结果获取模块，将患者表示输入至临床数据分类模型中，所述临床数据分类模型由一个门控网络和多个专家网络组成，将患者表示同时输入到门控网络和各专家网络，其中门控网络为每个专家网络分配不同的患者权重，各专家网络基于患者权重分别输出分类结果；对每个专家网络输出的分类结果进行组合，获得患者临床分类结果。

Description

一种知识与数据协同驱动的不平衡临床数据分类系统

技术领域

本发明属于临床风险预测领域，尤其涉及一种知识与数据协同驱动的不平衡临床数据分类系统、介质。

背景技术

近年来，在使用临床数据进行临床风险预测的任务中，通过注意力机制将医学本体的知识注入到深度学习模型中，为输入数据提供补充信息。基于图的注意力模型（Graph-based Attention Model, GRAM）采用循环神经网络（Recurrent neural network, RNN）对临床数据建模，利用医学本体作为知识图谱，通过图注意力机制在训练阶段提供补充信息。诊断预测共注意记忆网络（Co-Attention Memory networks for diagnosis Prediction,CAMP)利用增强RNN模型和知识图谱来提高诊断预测的准确性。然而，这些基于注意力机制的研究仅利用了知识图谱中疾病诊断的层级或分类信息，未能充分利用完整医学知识图谱中所包含的各类医学概念及其复杂关系。同时，在真实的临床场景中，医生需综合患者的症状、体征、检查结果、临床治疗及预后等多维度临床特征进行临床决策，上述研究仅使用疾病诊断，和真实世界的医生决策依据有着很大差异。

同时，在真实世界临床数据中，临床数据类别不平衡是一个非常普遍的问题。传统的数据不平衡处理方法有重采样（欠采样、过采样）和重加权（采用加权损失函数），但这些方法可能会因为对少数类的过拟合，导致预测结果的不准确。在图分类方面，当前的大多数图神经网络模型（Graph Neural Network, GNN）都忽略了这个问题，在不平衡的临床数据集上进行图分类，少数类的分类结果预测能力远远落后于多数类。除了偏向多数类的学习偏差外，图结构的多样性也会导致临床数据不平衡问题在图分类上更加严重。

发明内容

针对现有技术不足，本发明提供了一种知识与数据协同驱动的不平衡临床数据分类系统、介质。

根据本发明实施例的第一方面，提供了一种知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，所述系统包括：

患者图谱构建模块，用于从患者电子病历数据中提取医学概念集合，基于医学概念集合和对应的关系集合构建患者图谱；

患者表示获取模块，使用图卷积网络从患者图谱中提取含图结构信息的知识特征，基于注意力机制融合知识特征和数据特征，得到患者表示；其中，数据特征为患者电子病历数据中提取医学概念集合对应的原始取值进行标准化后得到的向量；

患者临床分类结果获取模块，将患者表示输入至临床数据分类模型中，所述临床数据分类模型由一个门控网络和多个专家网络组成，将患者表示同时输入到门控网络和各专家网络，其中门控网络为每个专家网络分配不同的患者权重，各专家网络基于患者权重分别输出分类结果；对每个专家网络输出的分类结果进行组合，获得患者临床分类结果。

根据本发明实施例的第二方面，提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现以下方法：

从患者电子病历数据中提取医学概念集合，基于医学概念集合和对应的关系集合构建患者图谱；

使用图卷积网络从患者图谱中提取含图结构信息的知识特征，基于注意力机制融合知识特征和数据特征，得到患者表示；其中，数据特征为患者电子病历数据中提取医学概念集合对应的原始取值进行标准化后得到的向量；

将患者表示输入至临床数据分类模型中，所述临床数据分类模型由一个门控网络和多个专家网络组成，将患者表示同时输入到门控网络和各专家网络，其中门控网络为每个专家网络分配不同的患者权重，各专家网络基于患者权重分别输出分类结果；对每个专家网络输出的分类结果进行组合，获得患者临床分类结果。

根据本发明实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现以下方法：

与现有技术相比，本发明的有益效果为：本发明提供了一种知识与数据协同驱动的不平衡临床数据分类系统，本发明结合医学知识图谱和患者临床数据，构建患者图谱，可以有效融合医学知识和电子病历数据，在临床数据不平衡的情况下充分利用完整医学知识图谱中所包含的各类医学概念及其关系信息。本发明利用注意力机制有效融合知识特征和数据特征，生成鲁棒的患者表示，用于临床风险预测，提高患者临床分类结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的知识与数据协同驱动的不平衡临床数据分类系统的示意图；

图2为本发明实施例提供的患者图谱构建过程的示意图；

图3为本发明实施例提供的图卷积网络结构的示意图；

图4为本发明实施例提供的混合专家网络结构的示意图；

图5为本发明实施例提供的患者图谱的示意图；

图6为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

如图1所示，本发明实施例提供了一种知识与数据协同驱动的不平衡临床数据分类系统，所述系统包括：患者图谱构建模块、患者表示获取模块、患者临床分类结果获取模块。

所述患者图谱构建模块用于从患者电子病历数据中提取医学概念集合，基于医学概念集合和对应的关系集合构建临床数据分类场景下的患者图谱。

具体地，首先，本发明将医学文献、临床指南和专家知识作为知识来源，构建针对临床数据分类场景的医学知识图谱。医学知识图谱的形式化定义为：，其中，/>和分别是医学知识图谱中的医学概念集合和关系集合。医学概念包括诊断、药物、实验室检验结果、手术操作等不同类型的医学概念，关系包括父子关系、治疗关系、因果关系和相关关系等。

然后，构建研究所需的患者队列，使用医学知识图谱中所包含的医学概念作为关注特征，从电子病历系统中提取结构化数据。将电子病历数据的结构特征和领域特征进行标准化，对应到统一的数据编码、医学术语和数值单位中，得到标准化的患者电子病历数据。

最后，根据患者的标准化电子病历数据，查找医学知识图谱中对应的节点和关系，构建患者图谱，记为。其中，，，。患者电子病历数据转化为患者图谱的过程如图2所示，其中，左图为患者原始电子病历数据示例，右图为患者图谱示例，虚线圆圈表示存在于知识图谱但不包含在中的医学概念。转化方法如下：

第一步，提取患者电子病历数据中符合相应取值要求的医学概念集合/>。以图2左侧的患者数据为例，患者性别为女，则患者/>对应的医学概念集合/>中包含“女性”的医学概念。患者年龄大于70岁，则患者/>对应的医学概念集合/>中包含“高龄”的医学概念。患者出现心力衰竭、心房颤动的疾病诊断，则患者/>对应的医学概念集合/>中包含“心力衰竭”和“心房颤动”的概念。患者使用ACEI/ARB药物，则患者/>对应的医学概念集合/>中包含“ACEI/ARB”的医学概念。患者收缩压小于90mmHg，舒张压小于60mmHg，则患者/>对应的医学概念集合/>中包含“低血压”的医学概念。患者的丙氨酸氨基转移酶是44U/L，高于丙氨酸氨基转移酶的正常范围上限40U/L，因此，患者/>对应的医学概念集合/>中包含“丙氨酸氨基转移酶偏高”的医学概念。

第二步，从医学知识图谱中提取中所有医学概念对应的节点及其邻居节点和节点之间的关系，使用有向箭头连接，区分主体客体，标注关系类别，构建患者图谱/>。图2中的实线圆圈表示患者电子病历数据中包含的医学概念集合/>，虚线圆圈表示存在于医学知识图谱中、但不在/>中的医学概念，箭头表示医学概念之间的关系，包括治疗、因果、父子和相关关系。示例性地，“肾前性AKI”、“肾性AKI”、“肾后性AKI”与 “AKI”间为父子关系；“女性”、“高龄”、“低血压”、“肾病综合症”与“AKI”间为因果关系；“高龄”与“心房颤动”间为因果关系；“高龄”、“心肌梗死”、“瓣膜病”与“心力衰竭”间为因果关系，“正性肌力药物”、“ACEI/ARB”与“心力衰竭”间为治疗关系；“丙氨酸氨基转移酶偏高”与“心力衰竭”间为相关关系。

患者图谱对应的节点特征矩阵为/>，邻接矩阵为/>。其中，/>的维度为/>，/>是患者图谱/>中节点的数量，/>是医学知识图谱/>中节点的数量，每个节点的特征用节点的独热编码来表示。/>的维度为/>，用/>中的关系构建。

所述患者表示获取模块，使用图卷积网络从患者图谱中提取含图结构信息的知识特征，基于注意力机制融合知识特征和数据特征，得到患者表示。

在本实例中，使用图卷积网络来学习患者表示，图3显示了该图卷积网络的整体结构。为简单起见，图卷积网络构建过程以单个患者为例进行描述。图卷积网络的输入为患者的节点特征矩阵/>、节点邻接矩阵/>和数据特征/>，其中，节点特征矩阵/>、节点邻接矩阵/>是患者图谱/>对应的节点特征矩阵和邻接矩阵，/>是由患者电子病历中医学概念对应的原始取值进行标准化后构成的向量。利用多个图卷积单元从节点特征矩阵/>、节点邻接矩阵/>中提取含图结构信息的知识特征，基于注意力机制融合知识特征和数据特征，得到患者表示/>。

在图卷积层中，节点可以通过图中的边传递信息，来整合其他节点的信息。第层图卷积层的节点特征矩阵/>计算公式为：

；

其中，，/>为单位矩阵。/>是/>的度矩阵。/>是激活函数，/>是第/>层图卷积层的权重矩阵。/>是第/>层的节点特征矩阵。图卷积层的总层数为/>。

在执行多次图卷积层操作后，对图进行全局平均池化，得到包含患者图结构信息的知识特征。

然后，对知识特征和数据特征/>进行数据拼接，将拼接后的向量输入注意力模块，得到每个特征的注意力权重。将知识特征/>和数据特征/>中的每个特征乘以对应的注意力权重后，再次进行数据拼接，完成特征融合，得到患者表示/>。

所述患者临床分类结果获取模块，将患者表示输入至临床数据分类模型中，所述临床数据分类模型由一个门控网络和多个专家网络组成，将患者表示同时输入到门控网络和各专家网络，其中门控网络为每个专家网络分配不同的患者权重，各专家网络基于患者权重分别输出分类结果；对每个专家网络输出的分类结果进行组合，获得患者临床分类结果，如图4所示。

门控网络为每个专家网络分配不同的患者权重包括：门控网络基于自监督方法进行患者聚类。将所有患者的患者表示集合传入门控网络，/>表示患者人数。预设有/>个聚类中心，根据患者的患者表示集合/>用K-means方法进行聚类得到聚类中心U，U=/>。对于第/>个患者和第/>个聚类簇（/>），用学生t分布来判断患者表示/>和聚类中心/>的相似性。/>是根据患者表示集合/>用K-means方法聚类得到的第/>个聚类中心，/>是根据患者表示集合/>用K-means方法聚类得到的第/>个聚类中心，/>是学生t分布的自由度，/>的计算公式为：

；

是第/>个患者属于第/>个聚类簇的概率。设置/>为所有样本聚类分布的集合。得到聚类分布/>后，计算目标分布/>，目标分布/>有更高置信度的样本分配，因此可以根据目标分布/>来优化数据分布，使数据更接近聚类中心。/>和/>的维度是/>。

目标分布中的每一个元素/>，即第/>个患者分配给第/>个专家的概率/>，表达式如下：

；

式中，为患者属于第/>个聚类簇的概率之和；/>为患者属于第/>个聚类簇的概率之和。

目标分布中，/>中的每一个分布都被平方了，所以/>有更高的置信度。门控网络的损失函数为：

；

其中，患者临床分类结果获取模块还包括基于门控网络生成的患者权重对每个专家网络进行训练：

每个专家网络对应一个聚类簇，既是聚类中心的数量，也是专家的数量。每个专家网络都是一个简单的前馈神经网络。给定第/>个患者的患者表示/>和标签/>，第/>个专家网络的输出结果为：

；

式中，是门控网络的输出，表示第/>个患者分配给第/>个专家的概率，即/>。表示第/>个专家网络的输出分布。

每个专家网络由一个线性投影层和一个sigmoid激活函数组成：

；

式中，表示专家网络的可学习参数。

集成多专家网络分类结果。为保证在每次前馈过程中都可以优化到每个专家网络，选择集成所有专家网络的输出结果作为模型的最终输出概率：

；

计算专家网络在所有患者分类预测上的分类损失函数：

；

根据专家网络的分类损失函数和门控网络的聚类损失函数/>构建总体损失函数。总体损失函数为：

；

式中，是调整不同损失项重要性的超参数，默认设置为0.1。

最后，利用Adam等优化器对模型参数进行优化，训练得到临床数据分类模型。

实施例1

某医疗机构利用临床数据基于本发明提供的一种知识与数据协同驱动的不平衡临床数据分类系统预测心衰患者发生急性肾衰竭的可能性。具体包括：

查阅相关临床研究和指南，构建心衰知识图谱，包括诊断、药物、实验室检验结果、手术操作等多种节点类型，以及父子关系、治疗关系、因果关系和相关关系等多种关系类型。

从该医疗机构的电子病历数据库中提取确诊心衰且肾功能正常患者的住院就诊数据。具体过程如下：

结合心衰知识图谱和提取的电子病历数据，构建患者图谱，如图5所示，图5中的圆圈表示医学知识图谱中的医学概念，箭头表示医学概念之间的关系，包括父子、因果、治疗和相关关系。示例性地，以“心律失常”这个医学概念为例，“冠心病”、“贫血”和“心律失常”之间为因果关系；“心房颤动”和“心律失常”之间为父子关系。以“贫血”这个医学概念为例，“贫血”与“心律失常”、“心排血量偏低”、“心力衰竭”之间为因果关系。

将患者图谱对应的节点特征矩阵、邻接矩阵、数据特征矩阵作为输入传入图卷积网络，设定图卷积网络层数为3，每一层图卷积层的维度为128,64,32。将经次图卷积层变换得到的知识特征和数据特征拼接后传入注意力模块，基于注意力权重进行特征融合，得到患者表示。

接着，将所有患者的患者表示传入临床数据分类模型中，所述临床数据分类模型由一个门控网络和多个专家网络组成，对临床数据分类模型进行训练，门控网络利用自监督损失进行患者聚类，生成患者权重发送至各专家网络。专家网络结合门控网络生成的权重利用分类损失进行训练加和聚类损失作为临床数据分类模型的总体损失L，利用Adam优化器进行反向传播训练，学习率为0.001，epochs为100。使用网格搜索寻求超参数专家数量K的最优值，参数空间设置为[2,3,4,5,6,7,8]。经以上操作，最终得到可以用于心衰患者急性肾衰竭发生风险预测的临床数据分类模型。

利用面向心衰患者急性肾衰竭发生风险预测的临床数据分类模型对后续心衰患者进行预测，得到其在住院期间发生急性肾衰竭的可能性。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现以下方法：

如图6所示，为本发明实施例提供的具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现以下方法：

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域内的技术人员应明白，本申请的实施例可提供为系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，所述系统包括：

2.根据权利要求1所述的知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，从患者电子病历数据中提取医学概念集合，基于医学概念集合和对应的关系集合构建患者图谱包括：

构建医学知识图谱，记为，其中，/>表示医学概念集合，/>表示关系集合；

使用医学知识图谱中所包含的医学概念作为关注特征，从患者的电子病历数据提取结构化数据，得到患者/>对应的医学概念集合/>；

从医学知识图谱中提取患者/>对应的医学概念集合/>对应的节点及邻居节点和节点之间的关系，标注关系类别，构建患者图谱/>，/>；其中， />，/>，/>。

3.根据权利要求2所述的知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，医学概念包括诊断、药物、实验室检验结果、手术操作；关系包括父子关系、治疗关系、因果关系和相关关系。

4.根据权利要求1所述的知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，使用图卷积网络从患者图谱中提取含图结构信息的知识特征，基于注意力机制融合知识特征和数据特征，得到患者表示包括：

获取患者图谱对应的节点特征矩阵/>和患者图谱/>对应的节点邻接矩阵/>；

将患者电子病历数据中提取医学概念集合对应的原始取值进行标准化后得到的向量记为数据特征/>；

将节点特征矩阵、节点邻接矩阵/>和数据特征/>输入至图卷积网络，经多次图卷积层操作后，进行全局平均池化后，得到知识特征/>；

对知识特征和数据特征/>进行数据拼接，将拼接后的向量输入注意力模块，得到每个特征的注意力权重；

将知识特征和数据特征/>中的每个特征乘以对应的注意力权重后，再次进行数据拼接，得到患者表示/>。

5.根据权利要求4所述的知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，节点特征矩阵的维度为/>，/>是患者图谱/>中节点的数量，/>是医学知识图谱/>中节点的数量；节点邻接矩阵/>的维度为/>，用患者对应的关系集合/>中的关系构建。

6.根据权利要求5所述的知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，患者图谱中的每个节点的特征用节点的独热编码来表示。

7.根据权利要求1所述的知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，门控网络为每个专家网络分配不同的患者权重包括：

将所有患者的患者表示集合输入至门控网络，/>表示患者人数；

有个聚类中心，根据患者的患者表示集合/>进行聚类得到聚类中心U，对于第/>个患者和第/>个聚类簇，/>，计算第/>个患者属于第/>个聚类簇的概率/>，表达式如下：

；

式中，聚类中心，/>是第/>个聚类中心，/>是第/>个聚类中心，/>是学生t分布的自由度；/>为第/>个患者对应的患者表示；

计算第个患者分配给第/>个专家的概率/>，表达式如下：

；

8.根据权利要求1所述的知识与数据协同驱动的不平衡临床数据分类系统，其特征在于，患者临床分类结果获取模块还包括对每个专家网络进行训练：

每个专家网络由一个线性投影层和一个sigmoid激活函数组成；

将每个专家网络的输出结果叠加作为临床数据分类模型的输出概率；

基于临床数据分类模型的输出概率计算分类损失函数；

将分类损失函数和门控网络的聚类损失函数加权求和作为临床数据分类模型的总体损失函数；

利用优化器对临床数据分类模型的参数进行优化，训练得到临床数据分类模型。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现以下方法：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现以下方法：