CN116364299B - 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 - Google Patents
一种基于异构信息网络的疾病诊疗路径聚类方法及系统 Download PDFInfo
- Publication number
- CN116364299B CN116364299B CN202310338675.6A CN202310338675A CN116364299B CN 116364299 B CN116364299 B CN 116364299B CN 202310338675 A CN202310338675 A CN 202310338675A CN 116364299 B CN116364299 B CN 116364299B
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- treatment
- patient
- matrix
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 184
- 238000011282 treatment Methods 0.000 title claims abstract description 157
- 201000010099 disease Diseases 0.000 title claims abstract description 54
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000011159 matrix material Substances 0.000 claims abstract description 76
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 238000003064 k means clustering Methods 0.000 claims abstract description 6
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 3
- 239000003814 drug Substances 0.000 claims description 34
- 229940079593 drug Drugs 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000007170 pathology Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 description 8
- 208000020832 chronic kidney disease Diseases 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000029078 coronary artery disease Diseases 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 238000011269 treatment regimen Methods 0.000 description 3
- SNIOPGDIGTZGOP-UHFFFAOYSA-N Nitroglycerin Chemical compound [O-][N+](=O)OCC(O[N+]([O-])=O)CO[N+]([O-])=O SNIOPGDIGTZGOP-UHFFFAOYSA-N 0.000 description 2
- 239000000006 Nitroglycerin Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 229960003711 glyceryl trinitrate Drugs 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 239000011780 sodium chloride Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000032 diagnostic agent Substances 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000008177 pharmaceutical agent Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pathology (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开一种基于异构信息网络的疾病诊疗路径聚类方法,包括:获取包含诊疗数据和诊疗事件关系的医疗数据;基于所述诊疗事件关系对诊疗数据中的诊疗事件结点进行拓扑连接,构建异构信息网络;基于给定的元路径,通过注意力机制对所述异构信息网络中不同类型诊疗事件的语义关系进行处理,获得诊疗事件邻接矩阵;根据患者的历史诊疗数据,构建基于时序的患者就诊矩阵并与诊疗事件邻接矩阵通过图卷积变换,获得对应的患者特征矩阵;采用K‑Means聚类算法对所述患者特征矩阵进行聚类,并基于聚类结果对相似患者的诊疗数据进行临床分析。本发明还提供了一种疾病诊疗路径聚类系统。本发明提供的方法可以辅助医生进行疾病分型,从而制定精准化治疗方案。
Description
技术领域
本发明属于辅助医疗技术领域,尤其涉及一种基于异构信息网络的疾病诊疗路径聚类方法及系统。
背景技术
近年来,随着医疗信息化的不断推进,积累了大量临床数据。临床数据的快速增长,使基于证据的临床决策研究增多,极大促进了个性化医疗的发展。在临床实践中,医生往往是依据临床指南或临床经验对患者作出诊疗决策,不符合当前精准医疗模式下的个性化治疗策略。如果能利用电子病历数据中患者的诊疗信息计算患者相似性,对患者进行聚类分析,有助于医生更好地对当前患者作出诊疗决策。
对患者进行聚类最简单的方法是通过患者人口统计学、生物标志物和临床特征等多维数据构建患者特征向量,基于这些特征向量应用聚类算法。然而,由于疾病的异质性和治疗方案的多样性,不同患者个体间的疾病演进、诊疗过程都可能存在差异。
使用过程挖掘技术可以有效利用患者诊疗过程数据中包含的重要信息。但简单的过程挖掘方法仅关注诊疗事件,种类繁多且存在大量关系的诊疗事件会导致挖掘出的诊疗过程复杂,缺乏代表性。为了解决这个问题,现有一些方法利用事件之间的共现信息,使用主题模型或自监督图聚类等算法对就诊进行聚类,给每次就诊打上标签,在就诊层面对患者的诊疗路径进行挖掘。
专利文献CN115083616A公开了一种基于自监督图聚类的慢性肾病亚型挖掘系统,包括:数据采集模块:用于采集慢性肾病诊疗记录中的结构化数据;数据提取与预处理模块:用于对所述结构化数据提取和预处理,得到实体集合和就诊集合;慢性肾病亚型挖掘模块:用于利用所述实体集合和所述就诊集合构建慢性肾病亚型挖掘模型;慢性肾病表型亚型评估模块:用于对所述慢性肾病亚型挖掘模型进行评估;慢性肾病亚型预测模块:用于对患者的结构化数据进行预测。该方法解决了过程挖掘方法无法处理纵向电子病历数据中单次就诊内事件信息和多次就诊间事件信息等多粒度信息并存的问题。但该方法以就诊为单位进行过程挖掘,使用频繁事件作为流程中的结点,挖掘出的路径只包含前几次就诊。对于频繁就诊患者,难以利用后续就诊信息,挖掘出的路径无法覆盖整个诊疗过程。
专利文献CN115688760A公开一种智能化导诊方法、装置、设备及存储介质,所述方法包括:对多个关键词进行聚类中心映射,确定多个聚类中心;基于聚类算法对多个聚类中心进行分析,生成聚类结果;基于挂号信息数据库对聚类结果进行相似度计算,得到多个相似度计算结果;对多个相似度计算结果按照从高到低的顺序进行排序,并筛选出N个计算结果;分别对N个计算结果进行挂号信息匹配,得到对应的N个挂号信息;对患者信息按预设分类规则进行分类处理,确定对应的分类结果;基于分类结果及N个挂号信息,通过预置的路径规划模型进行路径规划,生成目标路径并传输至目标终端。该方法仅使用了患者信息,没有利用临床专家诊疗的经验和知识,往往难以发现隐含的疾病与药物之间的关系。如患者因同一种疾病就诊时,可能会因为患者个体差异或医生用药习惯被给予不同的药物,但这些药物实际上用处相似,只是面向数据提取特征的深度学习对此缺乏认识和经验。同时,该方法忽略了不同类型诊疗事件之间的关系。将不同类型诊疗事件视为同一类型,忽略不同诊疗事件类型之间的关系,即不再区分诊断、医疗操作、药物等事件的本身意义,导致语义信息丢失和网络结构不完整。
发明内容
为了解决上述问题,本发明提供了一种基于异构信息网络的疾病诊疗路径聚类方法,该方法可以有助于更好地理解疾病进展过程,同时基于同亚型患者数据辅助医生做出诊疗决策,对提高疾病整体诊治水平和改善患者预后都有着非常重要的意义。
一种基于异构信息网络的疾病诊疗路径聚类方法,包括以下步骤:
获取包含诊疗数据和诊疗事件关系的医疗数据,所述诊疗数据从电子病历系统中提取获得,诊疗事件关系从医学知识图谱中提取获得。
基于所述诊疗事件关系对诊疗数据中的诊疗事件节点进行拓扑连接,构建包含诊疗事件与诊疗事件关系的异构信息网络。
基于给定的元路径,通过注意力机制对所述异构信息网络中不同类型诊疗事件的语义关系进行处理,获得诊疗事件邻接矩阵。
根据患者的历史诊疗数据,构建基于时序的患者就诊矩阵并与所述诊疗事件邻接矩阵通过图卷积变换,获得对应的患者特征矩阵。
采用K-Means聚类算法对所述患者特征矩阵进行聚类,并基于聚类结果对相似患者的诊疗数据进行临床分析,从而为患者制定医疗方案时提供针对性的指导。
本发明通过使用患者诊疗数据构建异构信息网络,融合外部医学知识本体所包含的诊疗事件间的关系,完整地表示出诊疗数据中各类型对象之间的关系,利用蕴含于医学知识本体中的领域知识指导深度学习网络的学习。然后,通过引入元路径将异构图拆分为多个元路径子图,基于注意力权重融合所有元路径子图,生成诊疗事件邻接矩阵,有效描述异构信息网络中存在于多类型对象之间的复杂语义关系的分布情况,避免了将异构信息网络转化为同构信息网络时导致的信息丢失。最后,通过图卷积网络学习基于纵向电子病历数据的患者表示,实现患者聚类,从而为患者精准化治疗方案提供有效指导。
具体的,所述诊疗数据包括与患者的个人信息,就诊记录,诊断记录,手术记录以及用药记录。
具体的,所述诊疗事件关系包括药物与疾病关系,以及药物和医疗操作关系。
具体的,所述诊疗事件结点包括就诊,诊断,医疗操作以及用药。
优选的,所述元路径采用固定长度为3的路径,包括但不限于基于“诊断结点-就诊结点-药物结点”的DVM模式和基于“药物结点-诊断结点-药物结点”的MDM模式,所述DVM模式用于表示就诊时给出的疾病诊断和使用的药物,MDM模式用于表示可用于治疗疾病的多种药物。
具体的,所述图卷积变换包括三次变换,其具体过程如下:
第一层执行二维卷积运算将输入的患者就诊矩阵进行维度扩展;
第二层应用图卷积将诊疗事件邻接矩阵与拓展维度后的患者就诊矩阵进行聚合,生成一组包含结点以及邻居聚合信息的就诊特征矩阵;
第三层将生成的就诊特征矩阵逐一输入到LSTM层,以输出患者特征矩阵。
具体的,所述第三层的具体过程:将生成的就诊特征矩阵按时间先后顺序逐一输入到LSTM层得到每次就诊的隐藏层表示,并利用平均池化降维聚合所有隐藏层的信息,以获得患者特征矩阵。
具体的,所述聚类通过设定每个患者都对应一个二维的患者特征矩阵,采用K-Means聚类算法将NQ个患者特征矩阵划分为NC个聚类,并使得各个聚类内部平方和最小,其目标函数为:
其中,ui是聚类Ci中所有患者特征矩阵的均值,表示患者特征矩阵集合,/>表示聚类集合。
具体的,所述临床分析包括疾病亚型分析,即根据聚类结果对患者进行分型,并通过对比不同亚型的疾病特征和潜在的疾病病理,以提供符合患者当前治疗方案的指导。
本发明还提供了一种疾病诊疗路径聚类系统,基于上述的基于异构信息网络的疾病诊疗路径聚类方法,所述疾病诊疗路径聚类系统包括:
数据提取模块,用于获取包含诊疗数据和诊疗事件关系的医疗数据;
异构信息网络构建模块,基于获取的诊疗事件和诊疗事件关系,构建对应的异构信息网络;
邻接矩阵构建模块,根据异构信息网络,生成对应的诊疗事件邻接矩阵;
患者表示学习模块,根据患者的历史诊疗数据与诊疗事件邻接矩阵,生成患者特征矩阵;
患者聚类模块,基于患者特征矩阵进行聚类,以输出患者的聚类结果;
临床分析模块,根据患者聚类模块输出的聚类结果进行临床分析,以输出分析结果为医生设计治疗方案提供指导。
与现有技术相比,本发明的有益效果:
1、通过结合患者电子病历数据和外部医学知识本体构建异构信息网络,完整地表示出患者诊疗数据及其各类型对象之间的关系,再基于元路径,有效描述异构信息网络中存在于多类型对象之间的复杂语义关系的分布情况。
2、通过图卷积网络学习基于纵向电子病历数据的患者表示,得到的患者特征矩阵包含整个诊疗过程的信息。
附图说明
图1为本实施例提供的一种基于异构信息网络的疾病诊疗路径聚类方法的流程示意图;
图2为本实施例提供的一种异构信息网络的结构示意图;
图3为本实施例提供的一种诊疗事件邻接矩阵的结构示意图;
图4为本实施例提供的一种患者特征矩阵的图卷积变换流程图;
图5为本实施例提供的一种LSTM的计算原理图;
图6为本实施例提供的一种疾病诊疗路径聚类系统的框架图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其它实施例,都属于本申请保护的范围。
在本申请使用的术语仅仅处于描述特定实施例的目的,而非旨在限制本申请。
如图1所示,一种疾病诊疗路径聚类方法,包括以下步骤:
从医院电子病理系统和外部医学知识本体中采集包含患者个人信息,就诊记录,诊断记录,手术记录以及用药记录的诊疗数据。
通过知识图谱提取包含诊疗数据中药物-疾病关系和药物-医疗操作关系的诊疗事件关系,用于表示药物适用于某种疾病和配套的医疗操作。
基于诊疗事件关系对诊疗数据中的诊疗事件结点(包括就诊,诊断,医疗操作以及用药)进行拓扑连接,构建包含诊疗事件与诊疗事件关系的异构信息网络。
更进一步地,将诊疗数据中所有诊疗事件的集合记为S,共|S|种,S=D+E+M。
其中,诊断集合ND表示诊断种类数量。
医疗操作集合NE表示医疗操作种类数量。
药物集合NM表示药物种类数量。
所有患者的就诊集合记为NV表示所有患者的就诊总次数,每次就诊Vi包含诊疗事件集S的多个诊疗事件。
所有患者的集合记为NQ表示患者数量,每个患者Qi包含多次就诊。
如图2所示,先基于诊疗数据,连接就诊结点和该次就诊出现的诊疗事件结点,再基于从知识图谱中提取的诊疗事件关系,连接对应药物-疾病、药物-医疗操作结点。“就诊1”包含诊疗事件“冠心病”和“硝酸甘油”,而同时“冠心病”可使用药物“氯达香豆素”和“硝酸甘油”进行治疗,“硝酸甘油”也可用于治疗“心力衰竭”和“冠心病”。
基于给定的元路径,通过注意力机制对所述异构信息网络中不同类型诊疗事件的语义关系进行处理,获得诊疗事件邻接矩阵。
更进一步地,元路径是在网络模式上定义的结点序列,它描述了所涉及的结点类型之间的复杂关系。例如,在异构信息网络中,元路径“DVM”对应网络中“诊断结点-就诊结点-药物结点”的模式,表示就诊时给出的疾病诊断和使用的药物;元路径“MDM”对应网络中“药物结点-诊断结点-药物结点”的模式,表示可用于治疗疾病的多种药物等。
假设有一个元路径p=t1t2t3和三个结点ni,nm,nj,其中和/>
现有方法通常将元路径视为两个结点之间的高阶邻近,即忽略元路径上的所有中间结点,仅考虑两个末端结点。
而本实施例采用给定长度固定为3的元路径,同时考虑元路径上三个结点两两之间的关系,即两个末端结点ni,nj,末端结点和中间结点ni,nm和nj,nm。
以ni,nj为例,ni,nj结点对之间元路径实例数量计为PCp(ni,nj)。基本上,当两个结点之间的PC较高时,这两个结点往往具有更强的关系。然而,一些结点可能有很多邻居结点但却不太重要。例如,药物“氯化钠”作为主要的体液替代物,其临床使用极其广泛,“氯化钠”结点可能会和大量就诊结点连接,但其影响远小于其他诊断和药物。为了消除这种高可见度和低重要性结点的影响,对结点对的PC进行标准化处理:
其中,SPS是对称的,即SPSp(ni,nj)=SPSp(nj,ni)。
给定元路径,记为P={p1,p2,…,pi,…,pK},得到对应相似矩阵A={A1,A2,…,Ai,…,AK},其中K既是元路径的数量,也是相似矩阵的数量。Ai为对称矩阵,对角线为0,大小为|S|×|S|,记录了所有结点对在元路径pi下的SPS。
其中,如果结点对不是该元路径关注的结点对类型,SPS记为0。异构图被拆分为多个元路径子图,每个元路径子图关联对应元路径特定的语义和结构信息。
通过引入注意力机制,从A中学习结点特征矩阵Fmeta,再基于Fmeta生成每个元路径子图下结点对之间的注意力权重,将所有元路径子图融合成一个图Ameta,具体过程如下:
首先,假设初始节点特征矩阵为F;
K个子图的输入为A={A1,A2,…,Ai,…,AK},分别为每个子图初始化结点特征矩阵:
其中,meta_GNN可以为任意一种GNN层。
然后,学习结点特征矩阵Fmeta:
接着,基于Fmeta,计算每个元路径子图下结点对之间的注意力权重:
其中,fi meta和fj meta是节点ni和nj在Fmeta中的特征向量,∥表示向量拼接操作。
每个元路径子图的权重矩阵为Wk,wk,i,j表示第k个元路径子图下节点对(ni,nj)的注意力权重,Ωatt={ω1;ω2;…;ωK}是神经网络的参数集。
基于注意力权重,将所有元路径子图融合成一个图Ameta:
其中,°表示逐元素乘法。
最后,对得到的Fmeta和Ameta应用一个用于半监督学习的双层GCN,完成多类分类任务:
其中,IS为单位矩阵。W(0)为输入层到隐藏层的权重矩阵,W(1)为隐藏层到输出层的权重矩阵,使用梯度下降训练。
使用交叉熵作为多类分类问题的损失函数:
其中,S为所有诊疗事件结点,Ys为诊疗事件结点类型。
如图3所示,为训练得到的Ameta,包含就诊之间,就诊-诊疗事件,诊疗事件之间。
根据患者的历史诊疗数据,构建基于时序的患者就诊矩阵并与所述诊疗事件邻接矩阵通过图卷积变换,获得对应的患者特征矩阵。
更近一步地,假设第q个患者Qq有T次就诊,该患者的所有就诊集合表示为:
每次就诊包含一系列的医学编码,将/>表示为二进制向量,xi∈{0,1}|S|,其中第i个元素代表第q个患者的第i次就诊是否包含对应医学编码,包含为1,反之为0。
依次堆叠患者T次就诊的二进制向量,生成患者就诊矩阵Oq∈R|S|×T,其中|S|为诊疗事件数量,T为就诊次数。该矩阵不仅包含每次就诊诊疗事件的发生情况,还包含患者就诊间的时间依赖性。
如图4所示,通过三层图卷积变换将患者就诊矩阵Oq转换为对应的患者特征矩阵O′q。
第一层执行常规二维卷积运算以扩展输入结点特征的维度。然后,应用图卷积来结合邻接矩阵Ameta的信息,生成包含结点及其邻居聚合信息的特征图X∈R|S|×d×T。最后一层使用LSTM对时间序列进行表示学习,将患者每次就诊的特征矩阵,即Xi,逐一输入到LSTM中用于回归预测,将每一次就诊得到的隐藏层信息都聚合起来,利用平均池化降维并增强隐层表达能力,得到患者特征矩阵O′q∈R|S|×d。
如图5所示,LSTM算法原理为:使用Xi∈R|S|×d表示第i次就诊的特诊矩阵,则输入数据是Xi-1,预测数据是Xi,将输入数据按时间先后顺序逐一输入到网络中,计算得到的输出与预测数据的误差,建立损失函数,即可得到梯度,从而更新整个网络,进行迭代直至达到最大迭代次数。将数据输入到训练好的模型中,得到每次就诊的隐藏层表示,通过平均池化降维聚合所有隐藏层信息,得到需要的患者特征矩阵O′q∈R|S|×d。
设定每个患者都对应一个二维的患者特征矩阵,采用K-Means聚类算法将NQ个患者特征矩阵划分为NC个聚类,并使得各个聚类内部平方和最小,其目标函数为:
其中,ui是聚类Ci中所有患者特征矩阵的均值,表示患者特征矩阵集合,/>表示聚类集合。
根据聚类分析的结果,衡量基于患者诊疗路径相似性的聚类结果。当获得相应的聚类结果后,需要通过比对不同患者聚类的差异,检验不同患者聚类特征是否存在统计差异,评估得到的患者聚类是否具有临床意义:
一、根据人口统计学特征,判断不同患者聚类的数量、性别、年龄等指标是否存在统计学差异。
二、根据用药信息和常见并发症,统计其在不同患者聚类中的出现情况,判断患者聚类是否存在差异。
三、根据生存分析,以死亡或其他关注的诊疗终点事件为终点事件,采用KM(Kaplan-Meier)曲线方法绘制生成曲线,观察不同患者聚类随时间变化的生存率差异,并通过Log-Rank检验不同患者聚类生存曲线是否存在差异。
良好的聚类结果可用于疾病亚型分析、患者相似案例查询等多种场景。在疾病亚型分析方面,使用基于诊疗路径的聚类结果进行患者分型,通过分析不同亚型的疾病特征和潜在的疾病病理,有助于更好地理解疾病进展过程,同时基于同亚型患者数据辅助医生做出诊疗决策,对提高疾病整体诊治水平、延缓疾病进展、改善患者预后都有着非常重要的意义。在患者相似案例查询方面,在现有方法的基础上,将患者诊疗路径纳入考虑,实现更加精准的查询结果。
本实施例还提供了一种疾病诊疗路径聚类系统,基于上述实施例提出的疾病诊疗路径聚类方法,如图6所示包括:
数据提取模块,用于获取包含诊疗数据和诊疗事件关系的医疗数据;
异构信息网络构建模块,基于获取的诊疗事件和诊疗事件关系,构建对应的异构信息网络;
邻接矩阵构建模块,根据异构信息网络,生成对应的诊疗事件邻接矩阵;
患者表示学习模块,根据患者的历史诊疗数据与诊疗事件邻接矩阵,生成患者特征矩阵;
患者聚类模块,基于患者特征矩阵进行聚类,以输出患者的聚类结果;
临床分析模块,根据患者聚类模块输出的聚类结果进行临床分析,以输出分析结果为医生设计治疗方案提供指导。
Claims (9)
1.一种基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,包括以下步骤;
获取包含诊疗数据和诊疗事件关系的医疗数据,所述诊疗数据从电子病历系统中提取获得,诊疗事件关系从医学知识图谱中提取获得;
基于所述诊疗事件关系对诊疗数据中的诊疗事件结点进行拓扑连接,构建包含诊疗事件与诊疗事件关系的异构信息网络;
基于给定的元路径,通过注意力机制对所述异构信息网络中不同类型诊疗事件的语义关系进行处理,获得诊疗事件邻接矩阵,所述元路径采用固定长度为3的路径,其包括元路径DVM对应网络中诊断结点-就诊结点-药物结点的模式和元路径MDM对应网络中药物结点-诊断结点-药物结点的模式;
根据患者的历史诊疗数据,构建基于时序的患者就诊矩阵并与所述诊疗事件邻接矩阵通过图卷积变换,获得对应的患者特征矩阵;
采用K-Means聚类算法对所述患者特征矩阵进行聚类,并基于聚类结果对相似患者的诊疗数据进行临床分析,从而为患者制定医疗方案时提供针对性的参考。
2.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,所述诊疗数据包括与患者的个人信息,就诊记录,诊断记录,手术记录以及用药记录。
3.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,所述诊疗事件关系包括药物与疾病关系,以及药物和医疗操作关系。
4.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,所述诊疗事件结点包括就诊,诊断,医疗操作以及用药。
5.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,所述图卷积变换包括三次变换,其具体过程如下:
第一层执行二维卷积运算将输入的患者就诊矩阵进行维度扩展;
第二层应用图卷积将诊疗事件邻接矩阵与拓展维度后的患者就诊矩阵进行聚合,生成一组包含结点以及邻居聚合信息的就诊特征矩阵;
第三层将生成的就诊特征矩阵逐一输入到LSTM层,以输出患者特征矩阵。
6.根据权利要求5所述的基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,所述第三层的具体过程:将生成的就诊特征矩阵按时间先后顺序逐一输入到LSTM层得到每次就诊的隐藏层表示,并利用平均池化降维聚合所有隐藏层的信息,以获得患者特征矩阵。
7.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,所述聚类通过设定每个患者都对应一个二维的患者特征矩阵,采用K-Means聚类算法将NQ个患者特征矩阵划分为NC个聚类,并使得各个聚类内部平方和最小,其目标函数为:
其中,ui是聚类Ci中所有患者特征矩阵的均值,表示患者特征矩阵集合,/>表示聚类集合。
8.根据权利要求1所述的基于异构信息网络的疾病诊疗路径聚类方法,其特征在于,所述临床分析包括疾病亚型分析,即根据聚类结果对患者进行分型,并通过对比不同亚型的疾病特征和潜在的疾病病理,以提供符合患者当前治疗方案的参考。
9.一种疾病诊疗路径聚类系统,其特征在于,基于如权利要求1~8任一项所述的基于异构信息网络的疾病诊疗路径聚类方法,所述疾病诊疗路径聚类系统包括:
数据提取模块,用于获取包含诊疗数据和诊疗事件关系的医疗数据;
异构信息网络构建模块,基于获取的诊疗事件和诊疗事件关系,构建对应的异构信息网络;
邻接矩阵构建模块,根据异构信息网络,生成对应的诊疗事件邻接矩阵;
患者表示学习模块,根据患者的历史诊疗数据与诊疗事件邻接矩阵,生成患者特征矩阵;
患者聚类模块,基于患者特征矩阵进行聚类,以输出患者的聚类结果;
临床分析模块,根据患者聚类模块输出的聚类结果进行临床分析,以输出分析结果为医生指定治疗方案提供参考。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310338675.6A CN116364299B (zh) | 2023-03-30 | 2023-03-30 | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310338675.6A CN116364299B (zh) | 2023-03-30 | 2023-03-30 | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116364299A CN116364299A (zh) | 2023-06-30 |
CN116364299B true CN116364299B (zh) | 2024-02-13 |
Family
ID=86936677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310338675.6A Active CN116364299B (zh) | 2023-03-30 | 2023-03-30 | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116364299B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116682553B (zh) * | 2023-08-02 | 2023-11-03 | 浙江大学 | 一种融合知识与患者表示的诊断推荐系统 |
CN117009839B (zh) * | 2023-09-28 | 2024-01-09 | 之江实验室 | 基于异构超图神经网络的患者聚类方法和装置 |
CN117012375B (zh) * | 2023-10-07 | 2024-03-26 | 之江实验室 | 一种基于患者拓扑特征相似性的临床决策支持方法和系统 |
CN117174319B (zh) * | 2023-11-03 | 2024-03-01 | 神州医疗科技股份有限公司 | 一种基于知识图谱的脓毒症时序预测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
WO2022072785A1 (en) * | 2020-10-01 | 2022-04-07 | University Of Massachusetts | A neural graph model for automated clinical assessment generation |
CN115083616A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 一种基于自监督图聚类的慢性肾病亚型挖掘系统 |
CN115171905A (zh) * | 2022-06-20 | 2022-10-11 | 复旦大学 | 一种基于独热编码无监督聚类的肿瘤患者相似性计算方法 |
CN115691798A (zh) * | 2022-09-13 | 2023-02-03 | 云南达远软件有限公司 | 一种多疾病风险预测模型训练方法 |
WO2023025255A1 (zh) * | 2021-08-27 | 2023-03-02 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012154216A1 (en) * | 2011-05-06 | 2012-11-15 | Sti Medical Systems, Llc | Diagnosis support system providing guidance to a user by automated retrieval of similar cancer images with user feedback |
WO2013181222A2 (en) * | 2012-05-29 | 2013-12-05 | Battelle Memorial Institute | Method of analyzing a graph with a covariance-based clustering algorithm using a modified laplacian pseudo-inverse matrix |
-
2023
- 2023-03-30 CN CN202310338675.6A patent/CN116364299B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022072785A1 (en) * | 2020-10-01 | 2022-04-07 | University Of Massachusetts | A neural graph model for automated clinical assessment generation |
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
WO2023025255A1 (zh) * | 2021-08-27 | 2023-03-02 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
CN115171905A (zh) * | 2022-06-20 | 2022-10-11 | 复旦大学 | 一种基于独热编码无监督聚类的肿瘤患者相似性计算方法 |
CN115083616A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 一种基于自监督图聚类的慢性肾病亚型挖掘系统 |
CN115691798A (zh) * | 2022-09-13 | 2023-02-03 | 云南达远软件有限公司 | 一种多疾病风险预测模型训练方法 |
Non-Patent Citations (1)
Title |
---|
多元图融合的异构信息网嵌入;吴瑶;申德荣;寇月;聂铁铮;于戈;;计算机研究与发展(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116364299A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
JP7305656B2 (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
Ambekar et al. | Disease risk prediction by using convolutional neural network | |
EP3734604A1 (en) | Method and system for supporting medical decision making | |
Bashir et al. | BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting | |
Subanya et al. | Feature selection using artificial bee colony for cardiovascular disease classification | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
Madhavan et al. | Res-CovNet: an internet of medical health things driven COVID-19 framework using transfer learning | |
CN113421652A (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
Zhang et al. | Medical diagnosis data mining based on improved Apriori algorithm | |
CN113053468B (zh) | 一种融合患者画像信息的药物新适应症发现方法及系统 | |
CN114093527A (zh) | 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统 | |
Chen et al. | Unite: Uncertainty-based health risk prediction leveraging multi-sourced data | |
Manduchi et al. | T-dpsom: An interpretable clustering method for unsupervised learning of patient health states | |
CN109360658A (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
Comito et al. | AI-driven clinical decision support: enhancing disease diagnosis exploiting patients similarity | |
Shirazi et al. | Deep learning in the healthcare industry: theory and applications | |
Zhang et al. | Exploring unsupervised multivariate time series representation learning for chronic disease diagnosis | |
Dai et al. | Patient similarity: methods and applications | |
Sampath et al. | Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction | |
Siddiqa et al. | Robust Length of Stay Prediction Model for Indoor Patients. | |
Shi et al. | Analysis of electronic health records based on long short‐term memory | |
Yamin et al. | Leveraging Retinal Fundus Images with Deep Learning for Diabetic Retinopathy Grading and Classification. | |
Pan et al. | Liver disease detection: evaluation of machine learning algorithms performances with optimal thresholds | |
Subramanian et al. | Wearable Sensor-Based Monitoring and Classification Using Deep Learning For Personalized Healthcare |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |