CN116364299B

CN116364299B - 一种基于异构信息网络的疾病诊疗路径聚类方法及系统

Info

Publication number: CN116364299B
Application number: CN202310338675.6A
Authority: CN
Inventors: 李劲松; 李雪瑶; 池胜强; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2024-02-13
Anticipated expiration: 2043-03-30
Also published as: CN116364299A

Abstract

本发明公开一种基于异构信息网络的疾病诊疗路径聚类方法，包括：获取包含诊疗数据和诊疗事件关系的医疗数据；基于所述诊疗事件关系对诊疗数据中的诊疗事件结点进行拓扑连接，构建异构信息网络；基于给定的元路径，通过注意力机制对所述异构信息网络中不同类型诊疗事件的语义关系进行处理，获得诊疗事件邻接矩阵；根据患者的历史诊疗数据，构建基于时序的患者就诊矩阵并与诊疗事件邻接矩阵通过图卷积变换，获得对应的患者特征矩阵；采用K‑Means聚类算法对所述患者特征矩阵进行聚类，并基于聚类结果对相似患者的诊疗数据进行临床分析。本发明还提供了一种疾病诊疗路径聚类系统。本发明提供的方法可以辅助医生进行疾病分型，从而制定精准化治疗方案。

Description

一种基于异构信息网络的疾病诊疗路径聚类方法及系统

技术领域

本发明属于辅助医疗技术领域，尤其涉及一种基于异构信息网络的疾病诊疗路径聚类方法及系统。

背景技术

近年来，随着医疗信息化的不断推进，积累了大量临床数据。临床数据的快速增长，使基于证据的临床决策研究增多，极大促进了个性化医疗的发展。在临床实践中，医生往往是依据临床指南或临床经验对患者作出诊疗决策，不符合当前精准医疗模式下的个性化治疗策略。如果能利用电子病历数据中患者的诊疗信息计算患者相似性，对患者进行聚类分析，有助于医生更好地对当前患者作出诊疗决策。

对患者进行聚类最简单的方法是通过患者人口统计学、生物标志物和临床特征等多维数据构建患者特征向量，基于这些特征向量应用聚类算法。然而，由于疾病的异质性和治疗方案的多样性，不同患者个体间的疾病演进、诊疗过程都可能存在差异。

使用过程挖掘技术可以有效利用患者诊疗过程数据中包含的重要信息。但简单的过程挖掘方法仅关注诊疗事件，种类繁多且存在大量关系的诊疗事件会导致挖掘出的诊疗过程复杂，缺乏代表性。为了解决这个问题，现有一些方法利用事件之间的共现信息，使用主题模型或自监督图聚类等算法对就诊进行聚类，给每次就诊打上标签，在就诊层面对患者的诊疗路径进行挖掘。

专利文献CN115083616A公开了一种基于自监督图聚类的慢性肾病亚型挖掘系统，包括：数据采集模块：用于采集慢性肾病诊疗记录中的结构化数据；数据提取与预处理模块：用于对所述结构化数据提取和预处理，得到实体集合和就诊集合；慢性肾病亚型挖掘模块：用于利用所述实体集合和所述就诊集合构建慢性肾病亚型挖掘模型；慢性肾病表型亚型评估模块：用于对所述慢性肾病亚型挖掘模型进行评估；慢性肾病亚型预测模块：用于对患者的结构化数据进行预测。该方法解决了过程挖掘方法无法处理纵向电子病历数据中单次就诊内事件信息和多次就诊间事件信息等多粒度信息并存的问题。但该方法以就诊为单位进行过程挖掘，使用频繁事件作为流程中的结点，挖掘出的路径只包含前几次就诊。对于频繁就诊患者，难以利用后续就诊信息，挖掘出的路径无法覆盖整个诊疗过程。

专利文献CN115688760A公开一种智能化导诊方法、装置、设备及存储介质，所述方法包括：对多个关键词进行聚类中心映射，确定多个聚类中心；基于聚类算法对多个聚类中心进行分析，生成聚类结果；基于挂号信息数据库对聚类结果进行相似度计算，得到多个相似度计算结果；对多个相似度计算结果按照从高到低的顺序进行排序，并筛选出N个计算结果；分别对N个计算结果进行挂号信息匹配，得到对应的N个挂号信息；对患者信息按预设分类规则进行分类处理，确定对应的分类结果；基于分类结果及N个挂号信息，通过预置的路径规划模型进行路径规划，生成目标路径并传输至目标终端。该方法仅使用了患者信息，没有利用临床专家诊疗的经验和知识，往往难以发现隐含的疾病与药物之间的关系。如患者因同一种疾病就诊时，可能会因为患者个体差异或医生用药习惯被给予不同的药物，但这些药物实际上用处相似，只是面向数据提取特征的深度学习对此缺乏认识和经验。同时，该方法忽略了不同类型诊疗事件之间的关系。将不同类型诊疗事件视为同一类型，忽略不同诊疗事件类型之间的关系，即不再区分诊断、医疗操作、药物等事件的本身意义，导致语义信息丢失和网络结构不完整。

发明内容

为了解决上述问题，本发明提供了一种基于异构信息网络的疾病诊疗路径聚类方法，该方法可以有助于更好地理解疾病进展过程，同时基于同亚型患者数据辅助医生做出诊疗决策，对提高疾病整体诊治水平和改善患者预后都有着非常重要的意义。

一种基于异构信息网络的疾病诊疗路径聚类方法，包括以下步骤：

获取包含诊疗数据和诊疗事件关系的医疗数据，所述诊疗数据从电子病历系统中提取获得，诊疗事件关系从医学知识图谱中提取获得。

基于所述诊疗事件关系对诊疗数据中的诊疗事件节点进行拓扑连接，构建包含诊疗事件与诊疗事件关系的异构信息网络。

基于给定的元路径，通过注意力机制对所述异构信息网络中不同类型诊疗事件的语义关系进行处理，获得诊疗事件邻接矩阵。

根据患者的历史诊疗数据，构建基于时序的患者就诊矩阵并与所述诊疗事件邻接矩阵通过图卷积变换，获得对应的患者特征矩阵。

采用K-Means聚类算法对所述患者特征矩阵进行聚类，并基于聚类结果对相似患者的诊疗数据进行临床分析，从而为患者制定医疗方案时提供针对性的指导。

本发明通过使用患者诊疗数据构建异构信息网络，融合外部医学知识本体所包含的诊疗事件间的关系，完整地表示出诊疗数据中各类型对象之间的关系，利用蕴含于医学知识本体中的领域知识指导深度学习网络的学习。然后，通过引入元路径将异构图拆分为多个元路径子图，基于注意力权重融合所有元路径子图，生成诊疗事件邻接矩阵，有效描述异构信息网络中存在于多类型对象之间的复杂语义关系的分布情况，避免了将异构信息网络转化为同构信息网络时导致的信息丢失。最后，通过图卷积网络学习基于纵向电子病历数据的患者表示，实现患者聚类，从而为患者精准化治疗方案提供有效指导。

具体的，所述诊疗数据包括与患者的个人信息，就诊记录，诊断记录，手术记录以及用药记录。

具体的，所述诊疗事件关系包括药物与疾病关系，以及药物和医疗操作关系。

具体的，所述诊疗事件结点包括就诊，诊断，医疗操作以及用药。

优选的，所述元路径采用固定长度为3的路径，包括但不限于基于“诊断结点-就诊结点-药物结点”的DVM模式和基于“药物结点-诊断结点-药物结点”的MDM模式，所述DVM模式用于表示就诊时给出的疾病诊断和使用的药物，MDM模式用于表示可用于治疗疾病的多种药物。

具体的，所述图卷积变换包括三次变换，其具体过程如下：

第一层执行二维卷积运算将输入的患者就诊矩阵进行维度扩展；

第二层应用图卷积将诊疗事件邻接矩阵与拓展维度后的患者就诊矩阵进行聚合，生成一组包含结点以及邻居聚合信息的就诊特征矩阵；

第三层将生成的就诊特征矩阵逐一输入到LSTM层，以输出患者特征矩阵。

具体的，所述第三层的具体过程：将生成的就诊特征矩阵按时间先后顺序逐一输入到LSTM层得到每次就诊的隐藏层表示，并利用平均池化降维聚合所有隐藏层的信息，以获得患者特征矩阵。

具体的，所述聚类通过设定每个患者都对应一个二维的患者特征矩阵，采用K-Means聚类算法将N^Q个患者特征矩阵划分为N^C个聚类，并使得各个聚类内部平方和最小，其目标函数为：

其中，u_i是聚类C_i中所有患者特征矩阵的均值，表示患者特征矩阵集合，/>表示聚类集合。

具体的，所述临床分析包括疾病亚型分析，即根据聚类结果对患者进行分型，并通过对比不同亚型的疾病特征和潜在的疾病病理，以提供符合患者当前治疗方案的指导。

本发明还提供了一种疾病诊疗路径聚类系统，基于上述的基于异构信息网络的疾病诊疗路径聚类方法，所述疾病诊疗路径聚类系统包括：

数据提取模块，用于获取包含诊疗数据和诊疗事件关系的医疗数据；

异构信息网络构建模块，基于获取的诊疗事件和诊疗事件关系，构建对应的异构信息网络；

邻接矩阵构建模块，根据异构信息网络，生成对应的诊疗事件邻接矩阵；

患者表示学习模块，根据患者的历史诊疗数据与诊疗事件邻接矩阵，生成患者特征矩阵；

患者聚类模块，基于患者特征矩阵进行聚类，以输出患者的聚类结果；

临床分析模块，根据患者聚类模块输出的聚类结果进行临床分析，以输出分析结果为医生设计治疗方案提供指导。

与现有技术相比，本发明的有益效果：

1、通过结合患者电子病历数据和外部医学知识本体构建异构信息网络，完整地表示出患者诊疗数据及其各类型对象之间的关系，再基于元路径，有效描述异构信息网络中存在于多类型对象之间的复杂语义关系的分布情况。

2、通过图卷积网络学习基于纵向电子病历数据的患者表示，得到的患者特征矩阵包含整个诊疗过程的信息。

附图说明

图1为本实施例提供的一种基于异构信息网络的疾病诊疗路径聚类方法的流程示意图；

图2为本实施例提供的一种异构信息网络的结构示意图；

图3为本实施例提供的一种诊疗事件邻接矩阵的结构示意图；

图4为本实施例提供的一种患者特征矩阵的图卷积变换流程图；

图5为本实施例提供的一种LSTM的计算原理图；

图6为本实施例提供的一种疾病诊疗路径聚类系统的框架图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其它实施例，都属于本申请保护的范围。

在本申请使用的术语仅仅处于描述特定实施例的目的，而非旨在限制本申请。

如图1所示，一种疾病诊疗路径聚类方法，包括以下步骤：

从医院电子病理系统和外部医学知识本体中采集包含患者个人信息，就诊记录，诊断记录，手术记录以及用药记录的诊疗数据。

通过知识图谱提取包含诊疗数据中药物-疾病关系和药物-医疗操作关系的诊疗事件关系，用于表示药物适用于某种疾病和配套的医疗操作。

基于诊疗事件关系对诊疗数据中的诊疗事件结点(包括就诊，诊断，医疗操作以及用药)进行拓扑连接，构建包含诊疗事件与诊疗事件关系的异构信息网络。

更进一步地，将诊疗数据中所有诊疗事件的集合记为S，共|S|种，S＝D+E+M。

其中，诊断集合N^D表示诊断种类数量。

医疗操作集合N^E表示医疗操作种类数量。

药物集合N^M表示药物种类数量。

所有患者的就诊集合记为N^V表示所有患者的就诊总次数，每次就诊V_i包含诊疗事件集S的多个诊疗事件。

所有患者的集合记为N^Q表示患者数量，每个患者Q_i包含多次就诊。

如图2所示，先基于诊疗数据，连接就诊结点和该次就诊出现的诊疗事件结点，再基于从知识图谱中提取的诊疗事件关系，连接对应药物-疾病、药物-医疗操作结点。“就诊1”包含诊疗事件“冠心病”和“硝酸甘油”，而同时“冠心病”可使用药物“氯达香豆素”和“硝酸甘油”进行治疗，“硝酸甘油”也可用于治疗“心力衰竭”和“冠心病”。

更进一步地，元路径是在网络模式上定义的结点序列，它描述了所涉及的结点类型之间的复杂关系。例如，在异构信息网络中，元路径“DVM”对应网络中“诊断结点-就诊结点-药物结点”的模式，表示就诊时给出的疾病诊断和使用的药物；元路径“MDM”对应网络中“药物结点-诊断结点-药物结点”的模式，表示可用于治疗疾病的多种药物等。

假设有一个元路径p＝t₁t₂t₃和三个结点n_i,n_m,n_j，其中和/>

现有方法通常将元路径视为两个结点之间的高阶邻近，即忽略元路径上的所有中间结点，仅考虑两个末端结点。

而本实施例采用给定长度固定为3的元路径，同时考虑元路径上三个结点两两之间的关系，即两个末端结点n_i,n_j，末端结点和中间结点n_i,n_m和n_j,n_m。

以n_i,n_j为例，n_i,n_j结点对之间元路径实例数量计为PC_p(n_i,n_j)。基本上，当两个结点之间的PC较高时，这两个结点往往具有更强的关系。然而，一些结点可能有很多邻居结点但却不太重要。例如，药物“氯化钠”作为主要的体液替代物，其临床使用极其广泛，“氯化钠”结点可能会和大量就诊结点连接，但其影响远小于其他诊断和药物。为了消除这种高可见度和低重要性结点的影响，对结点对的PC进行标准化处理：

其中，SPS是对称的，即SPS_p(n_i,n_j)＝SPS_p(n_j,n_i)。

给定元路径，记为P＝{p₁,p₂,…,p_i,…,p_K}，得到对应相似矩阵A＝{A₁,A₂,…,A_i,…,A_K}，其中K既是元路径的数量，也是相似矩阵的数量。A_i为对称矩阵，对角线为0，大小为|S|×|S|，记录了所有结点对在元路径p_i下的SPS。

其中，如果结点对不是该元路径关注的结点对类型，SPS记为0。异构图被拆分为多个元路径子图，每个元路径子图关联对应元路径特定的语义和结构信息。

通过引入注意力机制，从A中学习结点特征矩阵F_meta，再基于F_meta生成每个元路径子图下结点对之间的注意力权重，将所有元路径子图融合成一个图A_meta，具体过程如下：

首先，假设初始节点特征矩阵为F；

K个子图的输入为A＝{A₁,A₂,…,A_i,…,A_K}，分别为每个子图初始化结点特征矩阵：

其中，meta_GNN可以为任意一种GNN层。

然后，学习结点特征矩阵F_meta：

接着，基于F_meta，计算每个元路径子图下结点对之间的注意力权重：

其中，f_i ^meta和f_j ^meta是节点n_i和n_j在F_meta中的特征向量，∥表示向量拼接操作。

每个元路径子图的权重矩阵为W_k，w_k,i,j表示第k个元路径子图下节点对(n_i,n_j)的注意力权重，Ω_att＝{ω₁；ω₂；…；ω_K}是神经网络的参数集。

基于注意力权重，将所有元路径子图融合成一个图A_meta：

其中，°表示逐元素乘法。

最后，对得到的F_meta和A_meta应用一个用于半监督学习的双层GCN，完成多类分类任务：

其中，I_S为单位矩阵。W⁽⁰⁾为输入层到隐藏层的权重矩阵，W⁽¹⁾为隐藏层到输出层的权重矩阵，使用梯度下降训练。

使用交叉熵作为多类分类问题的损失函数：

其中，S为所有诊疗事件结点，Y_s为诊疗事件结点类型。

如图3所示，为训练得到的A_meta，包含就诊之间，就诊-诊疗事件，诊疗事件之间。

更近一步地，假设第q个患者Q_q有T次就诊，该患者的所有就诊集合表示为：

每次就诊包含一系列的医学编码，将/>表示为二进制向量，x_i∈{0，1}^|S|，其中第i个元素代表第q个患者的第i次就诊是否包含对应医学编码，包含为1，反之为0。

依次堆叠患者T次就诊的二进制向量，生成患者就诊矩阵O_q∈R^|S|×T，其中|S|为诊疗事件数量，T为就诊次数。该矩阵不仅包含每次就诊诊疗事件的发生情况，还包含患者就诊间的时间依赖性。

如图4所示，通过三层图卷积变换将患者就诊矩阵O_q转换为对应的患者特征矩阵O′_q。

第一层执行常规二维卷积运算以扩展输入结点特征的维度。然后，应用图卷积来结合邻接矩阵A_meta的信息，生成包含结点及其邻居聚合信息的特征图X∈R^|S|×d×T。最后一层使用LSTM对时间序列进行表示学习，将患者每次就诊的特征矩阵，即X_i，逐一输入到LSTM中用于回归预测，将每一次就诊得到的隐藏层信息都聚合起来，利用平均池化降维并增强隐层表达能力，得到患者特征矩阵O′_q∈R^|S|×d。

如图5所示，LSTM算法原理为：使用X_i∈R^|S|×d表示第i次就诊的特诊矩阵，则输入数据是X_i-1，预测数据是X_i，将输入数据按时间先后顺序逐一输入到网络中，计算得到的输出与预测数据的误差，建立损失函数，即可得到梯度，从而更新整个网络，进行迭代直至达到最大迭代次数。将数据输入到训练好的模型中，得到每次就诊的隐藏层表示，通过平均池化降维聚合所有隐藏层信息，得到需要的患者特征矩阵O′_q∈R^|S|×d。

设定每个患者都对应一个二维的患者特征矩阵，采用K-Means聚类算法将N^Q个患者特征矩阵划分为N^C个聚类，并使得各个聚类内部平方和最小，其目标函数为：

根据聚类分析的结果，衡量基于患者诊疗路径相似性的聚类结果。当获得相应的聚类结果后，需要通过比对不同患者聚类的差异，检验不同患者聚类特征是否存在统计差异，评估得到的患者聚类是否具有临床意义：

一、根据人口统计学特征，判断不同患者聚类的数量、性别、年龄等指标是否存在统计学差异。

二、根据用药信息和常见并发症，统计其在不同患者聚类中的出现情况，判断患者聚类是否存在差异。

三、根据生存分析，以死亡或其他关注的诊疗终点事件为终点事件，采用KM(Kaplan-Meier)曲线方法绘制生成曲线，观察不同患者聚类随时间变化的生存率差异，并通过Log-Rank检验不同患者聚类生存曲线是否存在差异。

良好的聚类结果可用于疾病亚型分析、患者相似案例查询等多种场景。在疾病亚型分析方面，使用基于诊疗路径的聚类结果进行患者分型，通过分析不同亚型的疾病特征和潜在的疾病病理，有助于更好地理解疾病进展过程，同时基于同亚型患者数据辅助医生做出诊疗决策，对提高疾病整体诊治水平、延缓疾病进展、改善患者预后都有着非常重要的意义。在患者相似案例查询方面，在现有方法的基础上，将患者诊疗路径纳入考虑，实现更加精准的查询结果。

本实施例还提供了一种疾病诊疗路径聚类系统，基于上述实施例提出的疾病诊疗路径聚类方法，如图6所示包括：

Claims

1.一种基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，包括以下步骤；

获取包含诊疗数据和诊疗事件关系的医疗数据，所述诊疗数据从电子病历系统中提取获得，诊疗事件关系从医学知识图谱中提取获得；

基于所述诊疗事件关系对诊疗数据中的诊疗事件结点进行拓扑连接，构建包含诊疗事件与诊疗事件关系的异构信息网络；

基于给定的元路径，通过注意力机制对所述异构信息网络中不同类型诊疗事件的语义关系进行处理，获得诊疗事件邻接矩阵，所述元路径采用固定长度为3的路径，其包括元路径DVM对应网络中诊断结点-就诊结点-药物结点的模式和元路径MDM对应网络中药物结点-诊断结点-药物结点的模式；

根据患者的历史诊疗数据，构建基于时序的患者就诊矩阵并与所述诊疗事件邻接矩阵通过图卷积变换，获得对应的患者特征矩阵；

采用K-Means聚类算法对所述患者特征矩阵进行聚类，并基于聚类结果对相似患者的诊疗数据进行临床分析，从而为患者制定医疗方案时提供针对性的参考。

2.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，所述诊疗数据包括与患者的个人信息，就诊记录，诊断记录，手术记录以及用药记录。

3.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，所述诊疗事件关系包括药物与疾病关系，以及药物和医疗操作关系。

4.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，所述诊疗事件结点包括就诊，诊断，医疗操作以及用药。

5.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，所述图卷积变换包括三次变换，其具体过程如下：

6.根据权利要求5所述的基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，所述第三层的具体过程：将生成的就诊特征矩阵按时间先后顺序逐一输入到LSTM层得到每次就诊的隐藏层表示，并利用平均池化降维聚合所有隐藏层的信息，以获得患者特征矩阵。

7.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，所述聚类通过设定每个患者都对应一个二维的患者特征矩阵，采用K-Means聚类算法将N^Q个患者特征矩阵划分为N^C个聚类，并使得各个聚类内部平方和最小，其目标函数为：

8.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法，其特征在于，所述临床分析包括疾病亚型分析，即根据聚类结果对患者进行分型，并通过对比不同亚型的疾病特征和潜在的疾病病理，以提供符合患者当前治疗方案的参考。

9.一种疾病诊疗路径聚类系统，其特征在于，基于如权利要求1～8任一项所述的基于异构信息网络的疾病诊疗路径聚类方法，所述疾病诊疗路径聚类系统包括：

临床分析模块，根据患者聚类模块输出的聚类结果进行临床分析，以输出分析结果为医生指定治疗方案提供参考。