CN117009839B - 基于异构超图神经网络的患者聚类方法和装置 - Google Patents
基于异构超图神经网络的患者聚类方法和装置 Download PDFInfo
- Publication number
- CN117009839B CN117009839B CN202311267386.8A CN202311267386A CN117009839B CN 117009839 B CN117009839 B CN 117009839B CN 202311267386 A CN202311267386 A CN 202311267386A CN 117009839 B CN117009839 B CN 117009839B
- Authority
- CN
- China
- Prior art keywords
- heterogeneous
- hypergraph
- clustering
- diagnosis
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000003745 diagnosis Methods 0.000 claims abstract description 175
- 239000013598 vector Substances 0.000 claims abstract description 110
- 230000006870 function Effects 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 239000003814 drug Substances 0.000 description 9
- 229940079593 drug Drugs 0.000 description 8
- 239000013604 expression vector Substances 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000004083 survival effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000007621 cluster analysis Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000009533 lab test Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 208000009304 Acute Kidney Injury Diseases 0.000 description 2
- 206010019280 Heart failures Diseases 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 2
- 208000033626 Renal failure acute Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 201000011040 acute kidney failure Diseases 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 210000001765 aortic valve Anatomy 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000003511 ectopic pregnancy Diseases 0.000 description 2
- 210000003734 kidney Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 208000010125 myocardial infarction Diseases 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- LOUPRKONTZGTKE-LHHVKLHASA-N quinidine Chemical compound C([C@H]([C@H](C1)C=C)C2)C[N@@]1[C@H]2[C@@H](O)C1=CC=NC2=CC=C(OC)C=C21 LOUPRKONTZGTKE-LHHVKLHASA-N 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 208000006685 tubal pregnancy Diseases 0.000 description 2
- DNXIKVLOVZVMQF-UHFFFAOYSA-N (3beta,16beta,17alpha,18beta,20alpha)-17-hydroxy-11-methoxy-18-[(3,4,5-trimethoxybenzoyl)oxy]-yohimban-16-carboxylic acid, methyl ester Natural products C1C2CN3CCC(C4=CC=C(OC)C=C4N4)=C4C3CC2C(C(=O)OC)C(O)C1OC(=O)C1=CC(OC)=C(OC)C(OC)=C1 DNXIKVLOVZVMQF-UHFFFAOYSA-N 0.000 description 1
- 206010016717 Fistula Diseases 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 208000035150 Hypercholesterolemia Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- LCQMZZCPPSWADO-UHFFFAOYSA-N Reserpilin Natural products COC(=O)C1COCC2CN3CCc4c([nH]c5cc(OC)c(OC)cc45)C3CC12 LCQMZZCPPSWADO-UHFFFAOYSA-N 0.000 description 1
- QEVHRUUCFGRFIF-SFWBKIHZSA-N Reserpine Natural products O=C(OC)[C@@H]1[C@H](OC)[C@H](OC(=O)c2cc(OC)c(OC)c(OC)c2)C[C@H]2[C@@H]1C[C@H]1N(C2)CCc2c3c([nH]c12)cc(OC)cc3 QEVHRUUCFGRFIF-SFWBKIHZSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- HTIQEAQVCYTUBX-UHFFFAOYSA-N amlodipine Chemical compound CCOC(=O)C1=C(COCCN)NC(C)=C(C(=O)OC)C1C1=CC=CC=C1Cl HTIQEAQVCYTUBX-UHFFFAOYSA-N 0.000 description 1
- 229960000528 amlodipine Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 208000020832 chronic kidney disease Diseases 0.000 description 1
- LOUPRKONTZGTKE-UHFFFAOYSA-N cinchonine Natural products C1C(C(C2)C=C)CCN2C1C(O)C1=CC=NC2=CC=C(OC)C=C21 LOUPRKONTZGTKE-UHFFFAOYSA-N 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003205 diastolic effect Effects 0.000 description 1
- 239000002934 diuretic Substances 0.000 description 1
- 230000001882 diuretic effect Effects 0.000 description 1
- 230000003890 fistula Effects 0.000 description 1
- 230000024924 glomerular filtration Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 201000010260 leiomyoma Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 229960001404 quinidine Drugs 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- BJOIZNZVOZKDIG-MDEJGZGSSA-N reserpine Chemical compound O([C@H]1[C@@H]([C@H]([C@H]2C[C@@H]3C4=C([C]5C=CC(OC)=CC5=N4)CCN3C[C@H]2C1)C(=O)OC)OC)C(=O)C1=CC(OC)=C(OC)C(OC)=C1 BJOIZNZVOZKDIG-MDEJGZGSSA-N 0.000 description 1
- 229960003147 reserpine Drugs 0.000 description 1
- MDMGHDFNKNZPAU-UHFFFAOYSA-N roserpine Natural products C1C2CN3CCC(C4=CC=C(OC)C=C4N4)=C4C3CC2C(OC(C)=O)C(OC)C1OC(=O)C1=CC(OC)=C(OC)C(OC)=C1 MDMGHDFNKNZPAU-UHFFFAOYSA-N 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请涉及一种基于异构超图神经网络的患者聚类方法和装置,其中,该基于异构超图神经网络的患者聚类方法包括:根据各个对象的电子病历信息,构建与对象对应的异构超图;将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果;其中,在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果;节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。通过本申请,解决了无法获取准确的聚类结果的问题,实现了提高聚类结果的准确性。
Description
技术领域
本申请涉及智慧医疗技术领域,特别是涉及基于异构超图神经网络的患者聚类方法和装置。
背景技术
人工智能技术广泛应用于各个国计民生行业,促进了不同领域的技术发展。而在医学领域中,电子健康记录(Electronic Health Record,简称为EHR)是以个人健康、保健和治疗为中心的数字记录,其不仅包含患者的个人基本信息、病史、诊断和药物使用情况等多维数据,同时具有复杂的纵向时序信息,即不同时间点的不同诊疗事件记录。因此,通过人工智能技术挖掘分析电子健康记录中的数据信息,例如基于电子健康记录,将患者按照一定的相似性或相关性指标进行分类,有助于获取更为全面的患者群体数据。
为了满足上述需求,现有方法通常采用表示学习技术,以矢量形式表示患者数据特征,从而能够基于表示学习结果,按照某种相似性或相关性指标对患者进行聚类。但是,该方法中一般仅使用低阶的同构或者异构信息进行表示学习,且表示学习阶段和聚类分析阶段是相互独立的,忽略了表示学习与聚类分析之间的依赖关系,无法获取准确的聚类结果。
针对相关技术中存在无法获取准确的聚类结果的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种基于异构超图神经网络的患者聚类方法和装置,以解决相关技术中无法获取准确的聚类结果的问题。
第一个方面,在本实施例中提供了一种基于异构超图神经网络的患者聚类方法,所述方法包括:
根据各个对象的电子病历信息,构建与所述对象对应的异构超图;
将目标模型中表示学习模块对应的重构损失函数,以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对所述目标模型进行训练,直至所述目标模型收敛,输出所述对象聚类模块中的最终聚类结果;
其中,在所述目标模型的训练过程中,基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量,更新所述对象聚类模块中的聚类结果;所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量。
在其中的一些实施例中,所述根据各个对象的电子病历信息,生成与所述对象对应的异构超图,包括:
根据各个对象的电子病历信息,确定每个所述对象的诊疗记录节点和诊疗事件节点;
基于每个所述对象的诊疗记录节点和诊疗事件节点,生成与所述对象对应的异构超图。
在其中的一些实施例中,所述根据各个对象的电子病历信息,确定每个所述对象的诊疗记录节点和诊疗事件节点,包括:
对各个所述对象的电子病历信息进行标准化处理,得到每个所述对象的标准化数据信息;
基于所述标准化数据信息,确定每个所述对象的诊疗记录节点和诊疗事件节点。
在其中的一些实施例中,所述基于每个所述对象的诊疗记录节点和诊疗事件节点,生成与所述对象对应的异构超图,包括:
根据所述对象的电子病历信息,建立每个所述对象的诊疗记录节点与所述诊疗事件节点之间的诊疗连接关系,得到初始连接图;
根据医疗知识图谱,构建所述初始连接图中不同所述诊疗事件节点之间的异构关联,得到对应的异构网络图;
确定每个所述对象的诊疗记录节点与所述诊疗事件节点的超图关联矩阵;
根据各个所述诊疗事件节点的共现信息,确定不同所述诊疗记录节点之间的连接概率,并将所述连接概率作为不同超边之间的权重;
在所述异构网络图中,基于所述超图关联矩阵和不同所述超边之间的权重,构建每个所述对象的诊疗记录节点与所述诊疗事件节点之间的超图连接,得到与所述对象对应的异构超图。
在其中的一些实施例中,所述根据各个所述诊疗事件节点的共现信息,确定不同所述诊疗记录节点之间的连接概率,包括:
根据各个所述诊疗事件节点的共现信息,建立对应的共现矩阵;
基于所述共现矩阵,确定不同所述诊疗记录节点之间的点对互信息;
根据不同所述诊疗记录节点之间的点对互信息,确定对应的所述连接概率。
在其中的一些实施例中,所述将目标模型中表示学习模块对应的重构损失函数,以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,包括:
通过点积解码器对从所述异构超图中学习到的所述节点表示矢量进行重构,并根据重构结果,确定与所述节点表示矢量对应的所述重构损失函数;
将所述重构损失函数和所述对象聚类模块对应的聚类损失函数作为模型整体损失。
在其中的一些实施例中,所述基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量,更新所述对象聚类模块中的聚类结果,包括:
在所述目标模型的表示学习模块中,基于编码器-解码器结构,对所述异构超图进行表示学习,得到异构网络表示矢量和超图网络表示矢量;
对所述异构网络表示矢量和所述超图网络表示矢量进行线性融合,得到所述节点表示矢量;
基于所述节点表示矢量更新所述对象聚类模块中的聚类结果。
第二个方面,在本实施例中提供了一种基于异构超图神经网络的患者聚类装置,所述装置包括:构建模块和聚类模块;
所述构建模块,用于根据各个对象的电子病历信息,构建与所述对象对应的异构超图;
所述聚类模块,用于将目标模型中表示学习模块对应的重构损失函数,以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对所述目标模型进行训练,直至所述目标模型收敛,输出所述对象聚类模块中的最终聚类结果;
所述聚类模块,还用于在所述目标模型的训练过程中,基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量,更新所述对象聚类模块中的聚类结果;所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量。
第三个方面,在本实施例中提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的基于异构超图神经网络的患者聚类方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的基于异构超图神经网络的患者聚类方法。
与相关技术相比,在本实施例中提供的基于异构超图神经网络的患者聚类方法和装置,通过根据各个对象的电子病历信息,构建与对象对应的异构超图;将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果;其中,在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果;节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量,解决了无法获取准确的聚类结果的问题,实现了提高聚类结果的准确性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请一实施例提供的基于异构超图神经网络的患者聚类方法的终端设备的硬件结构框图;
图2是本申请一实施例提供的基于异构超图神经网络的患者聚类方法的流程图;
图3是本申请一实施例提供的元路径结构的示意图;
图4是本申请一实施例提供的异构超图结构的示意图;
图5是本申请一实施例提供的特征变换融合的示意图;
图6是本申请一优选实施例提供的基于异构超图神经网络的患者聚类方法的流程图;
图7是本申请一实施例提供的基于异构超图神经网络的患者聚类装置的结构框图。
图中:102、处理器;104、存储器;106、传输设备;108、输入输出设备;10、构建模块;20、聚类模块。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的基于异构超图神经网络的患者聚类方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的基于异构超图神经网络的患者聚类方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种基于异构超图神经网络的患者聚类方法,图2是本实施例的基于异构超图神经网络的患者聚类方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,根据各个对象的电子病历信息,构建与对象对应的异构超图。
具体地,采集各个对象的电子病历信息,并预处理电子病历信息中的患者诊疗数据,以剔除异常的数据记录。例如,对于心力衰竭导致急性肾损伤的患者诊疗数据,需要删除患有慢性肾脏病、既往有肾脏切除术、肾脏移植术、术前存在急性肾损伤或存在缺失值的患者记录。
进一步地,将预处理后的数据整理成标准化数据,并基于不同类别的标准化数据,生成对应的数据集合,包括基本信息集合B、诊断集合D、检验集合L、操作集合H和药物集合M。
步骤S220,将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果。
具体地,通过点积解码器对从异构超图中学习到的节点表示矢量进行重构,并根据重构结果,确定与节点表示矢量对应的重构损失函数。重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果。
在此基础上,通过t分布邻近嵌入对聚类结果进行降维可视化,以分析聚类结果是否满足类内距离近和类间距离远的特性。
另外,获取聚类结果之后,可根据生存分析的统计方法,以死亡或其他关注的诊疗终点事件为终点事件,绘制生存曲线,例如卡普拉-迈尔(Kaplan-Meier)曲线;根据生存曲线观察不同患者聚类随时间变化的生存率差异,并通过对数秩(Log-Rank)检验不同患者聚类生存曲线是否存在差异。
步骤S230,其中,在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果;节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。
具体地,将异构超图中每个对象的就诊记录节点对应的节点表示矢量,输入至目标模型的对象聚类模块进行聚类,得到当前的聚类结果,即基于训练得到的节点表示矢量更新对象聚类模块中的聚类结果。
为了通过人工智能技术挖掘分析电子健康记录中的数据信息,现有方法通常采用表示学习技术,以矢量形式表示患者数据特征,从而能够基于表示学习结果,按照某种相似性或相关性指标对患者进行聚类。但是,该方法中表示学习阶段和聚类分析阶段是相互独立的,忽略了表示学习与聚类分析之间的依赖关系,无法获取准确的聚类结果。而本申请相较于现有技术,基于电子病历信息构建对应的异构超图,以此挖掘不同对象之间的低阶和高阶关联信息,并将异构超图的表示学习模块与对象聚类模块的训练过程相融合,实现聚类过程和表示矢量的相互作用,充分考虑了表示学习与聚类分析之间的依赖关系,从而能够获取准确的聚类结果。
通过本实施例,根据各个对象的电子病历信息,构建与对象对应的异构超图;将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果;其中,在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果;节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量,解决了无法获取准确的聚类结果的问题,实现了提高聚类结果的准确性。
在其中的一些实施例中,根据各个对象的电子病历信息,生成与对象对应的异构超图,包括如下步骤:
步骤S211,根据各个对象的电子病历信息,确定每个对象的诊疗记录节点和诊疗事件节点;
步骤S212,基于每个对象的诊疗记录节点和诊疗事件节点,生成与对象对应的异构超图。
具体地,采集各个对象的电子病历信息,本实施例中电子病历信息包括患者基本信息、观察窗期间的诊断信息、实验室检验数据、手术和治疗措施数据以及用药数据等。
进一步地,根据上述电子病历信息,确定每个对象的诊疗记录节点和诊疗事件节点;其中,每个诊疗记录节点Vi将患者基本信息作为节点特征,而诊疗事件节点Yi包括诊断集合D、检验集合L、操作集合H和药物集合M。基于此,构建与各个对象对应的异构超图,充分考虑不同类型数据之间的异质性和高阶关联。
通过本实施例,根据各个对象的电子病历信息,确定每个对象的诊疗记录节点和诊疗事件节点,并基于每个对象的诊疗记录节点和诊疗事件节点,生成与对象对应的异构超图,从而通过异构超图神经网络区分不同的数据类型,充分挖掘不同患者之间的低阶和高阶关联。
在其中的一些实施例中,根据各个对象的电子病历信息,确定每个对象的诊疗记录节点和诊疗事件节点,包括如下步骤:
对各个对象的电子病历信息进行标准化处理,得到每个对象的标准化数据信息;
基于标准化数据信息,确定每个对象的诊疗记录节点和诊疗事件节点。
具体地,从电子病历系统中提取每个对象的电子病历信息,电子病历信息包含相关患者诊疗数据,对提取到的诊疗数据进行预处理。其中,预处理方法包括根据人口统计学基础信息和实验室检验数据的正常参考范围,剔除诊疗数据中具有异常值的记录,以及删除存在缺失值的记录。
需要知道的是,对预处理后到的各类诊疗数据进行标准化处理。对患者基本信息中的二值数据、诊断信息、手术和治疗措施数据以及用药数据等进行二元变量编码,以0表示不存在,1表示存在;例如,当诊断集合为[卵巢良性肿瘤,输卵管妊娠,子宫多发性平滑肌瘤],患者初始矢量[0,1,0]则表示该患者诊断为输卵管妊娠。此外,将每个对象的实验室检验数据中数值型数据,按照上述正常参考范围分为偏低、正常和偏高三个类别,且保留每个数据的类别信息;而对于患者基本信息中的数值型数据,则按列进行标准化处理,例如对数据进行Z-Socre标准化操作。
进一步地,对于每个对象的患者基本信息、观察窗期间的诊断信息、实验室检验数据、手术和治疗措施数据以及用药数据,分别生成对应的基本信息集合B、诊断集合D、检验集合L、操作集合H和药物集合M。并将诊断信息进行国际疾病分类(InternationalClassification of Diseases,简称为ICD)-10-cm编码,将治疗措施和手术进行通用医疗程序(CurrentProcedural Terminology,简称为CPT)编码,将用药信息使用解剖学治疗学及化学分类(Anatomical Therapeutic Chemical,简称为ATC)编码。例如,基本信息集合B={年龄,性别,心肌梗塞I42,高血压I10,高胆固醇E79};诊断集合D={心力衰竭I50,心肌梗塞I42,高血压I10,高胆固醇E79,冠心病I25.103,瓣膜病I30};检验集合L={收缩压,舒张压,钾,肾小球滤过率,血红蛋白};操作集合H={冠状动脉瘘修补术02Q00ZZ,主动脉瓣修补术02QF0ZZ,主动脉瓣置换术02RF48Z,心脏移植术02YA0Z0};药物集合M={利美尼定C02AC06,利血平C02AA02,奎尼丁C01BA01,氨氯地平和利尿剂C08GA02}。
通过本实施例,对各个对象的电子病历信息进行标准化处理,得到每个对象的标准化数据信息,并基于标准化数据信息,确定每个对象的诊疗记录节点和诊疗事件节点,以此实现各类诊疗数据的标准化处理,消除不同特征数据之间的量纲差异,确保其处于相似的数值范围内,提高了数据的质量和可用性,以便于后续分析数据。
在其中的一些实施例中,基于每个对象的诊疗记录节点和诊疗事件节点,生成与对象对应的异构超图,包括如下步骤:
根据对象的电子病历信息,建立每个对象的诊疗记录节点与诊疗事件节点之间的诊疗连接关系,得到初始连接图;
根据医疗知识图谱,构建初始连接图中不同诊疗事件节点之间的异构关联,得到对应的异构网络图;
确定每个对象的诊疗记录节点与诊疗事件节点的超图关联矩阵;
根据各个诊疗事件节点的共现信息,确定不同诊疗记录节点之间的连接概率;
在异构网络图中,基于超图关联矩阵和连接概率,构建每个对象的诊疗记录节点与诊疗事件节点之间的超图连接,得到与对象对应的异构超图。
需要知道的是,为了区分不同的数据类型以及挖掘不同患者之间的高阶关联,基于各个诊疗记录节点和诊疗事件节点构建异构超图结构G=(V,E,ε),包含多种节点类型和边类型,每条就诊记录即为一条超边。
对于上述异构超图结构,V={V1,D1,D2,…,}表示节点集合,节点集合V包含所有诊疗记录节点Vi和诊疗事件节点Yi中的各个集合,诊疗事件节点Yi包括诊断集合D、检验集合L、操作集合H和药物集合M,E={E1,E2,…,/>}表示边集合,ε={e1,e2,…,/>}表示超边集合,NE表示节点E的数量,以及Nε表示节点e的数量;而节点总数N=NV+NL+NM+ND+NH,NV表示节点V的数量,NL表示节点L的数量,NM表示节点M的数量,ND表示节点D的数量,NH表示节点H的数量。其中,节点映射函数ϕ :V→λ,λ表示节点类型,边映射函数ψ:E→δ,δ表示边类型,当|λ|+|δ|>2时,表明当前结构图为异构图。
在构建异构超图时,首先根据电子病历信息中的患者就诊记录,建立每个对象的诊疗记录节点Vi与诊疗事件节点Yi之间的诊疗连接关系,得到初始连接图。例如,诊疗记录节点V1包含{L2,D1,M1},则在图中分别建立V1和L2、D1、M1的连接关系。
在初始连接图的基础上,根据医疗知识图谱构建不同诊疗事件节点之间的异构关联,完成异构网络图的建立。其中,可以基于元路径建立异构连接,本实施例中元路径包括但不限于“L→D→M”、“L→L→D”,且/>表示节点V基于元路径/>的相邻节点集合。如图3所示,“L2→D1→M2”、“L2→D1→M1”均为元路径L→D→M,而L2与M1、M2则为基于元路径的相邻节点。
构建异构图后,建立每个对象的诊疗记录节点与诊疗事件节点的超图关联矩阵Ahyp∈,若节点Vi在超边e中,则矩阵Ahyp对应的点(Vi,e)为1;若节点Vi不在超边e中,则矩阵Ahyp对应的点(Vi,e)为0,具体公式如下:
;
基于上述超图关联矩阵,表示超边e包含的所有节点集合,而ke表示超边e中的节点个数;/>表示节点V包含的所有超边集合,kV表示包含节点V的超边的数量。此外,根据各个诊疗事件节点的共现信息,建立对应的共现矩阵C∈/>,其中,NV表示节点V的数量。以Cij=|Vi(Y)∩Vj(Y)|表示矩阵C中第i行、第j列的元素,Vi(Y)表示与节点Vi相连的诊疗事件节点Y集合,Vj(Y)表示与节点Vj相连的诊疗事件节点Y集合,根据上述共现矩阵计算不同诊疗记录节点之间的连接概率,作为对应超边之间的权重。
进一步地,在异构网络图中,基于超图关联矩阵和不同诊疗记录节点之间的连接概率,构建诊疗记录节点与相关联诊疗事件节点之间的超图连接,得到最终的异构超图结构。以图4所示为例,异构超图结构包括超边e1和超边e2,超边e1包括节点V1、D1、L2、M1,而超边e2包括节点V2、D2、M2、H1;初步建立每条超边内各个节点之间的诊疗连接关系,并基于元路径建立异构连接,进而构建诊疗记录节点与相关联诊疗事件节点之间的超图连接。此外,不同连接线表征不同的边类型,不同边的具体含义包括共现、就诊、推测和治疗。
通过本实施例,基于每个对象的诊疗记录节点和诊疗事件节点,构建对应的异构超图结构,以清晰区分不同类型数据,并建立不同对象之间的关联。
在其中的一些实施例中,根据各个诊疗事件节点的共现信息,确定不同诊疗记录节点之间的连接概率,包括如下步骤:
根据各个诊疗事件节点的共现信息,建立对应的共现矩阵;
基于共现矩阵,确定不同诊疗记录节点之间的点对互信息;
根据不同诊疗记录节点之间的点对互信息,确定对应的连接概率。
需要知道的是,点对互信息(Pointwise Mutual Information,简称为PMI)是用于度量两个随机变量之间的相关性或依赖性的统计量。因此,可以通过不同诊疗记录节点的点对互信息,表示诊疗事件节点的连接概率。
具体地,根据诊疗事件节点之间的共现信息,建立共现矩阵C∈,并计算不同诊疗记录节点的点对互信息(Pointwise Mutual Information,简称为PMI),得到诊疗事件节点的连接概率,作为对应超边之间的权重,且连接概率表示包含节点Vi和节点Vj的超边之间是否建立连接关系。具体计算公式如下:
;
其中,PMI(Vi,Vj)表示节点Vi和节点Vj之间的点对互信息,P(Vi,Vj)表示Vi和Vj共同出现的频率,P(Vi)表示Vi出现的频率,P(Vj)表示Vj出现的频率,sum(C)表示矩阵C中元素的累加和,sum(Ci)表示矩阵C第i行元素的累加和,以及sum(Cj)表示矩阵C第j列元素的累加和。而在计算过程中,为了避免两个对象之间不共现,出现PMI=log0=-∞的情况,将log0的值定义为0。
通过本实施例,计算不同诊疗记录节点之间的点对互信息,得到诊疗记录节点的连接概率,从而确定对应超边之间是否建立连接关系,实现准确的超图关联。
在其中的一些实施例中,将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,包括如下步骤:
步骤S221,通过点积解码器对从异构超图中学习到的节点表示矢量进行重构,并根据重构结果,确定与节点表示矢量对应的重构损失函数;
步骤S221,将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失。
具体地,将从异构超图中学习到的节点表示矢量输入解码器后,通过sigmoid激活函数使用点积解码器进行重构,重构结果,Z为学习到的节点表示矢量,ZT为节点表示矢量的转置矢量;将重构损失作为表示学习训练的损失函数Lr,且;进而基于聚类损失函数Lclu和重构损失函数Lr对目标模型进行训练,模型整体损失为L=Lclu+Lr。
其中,利用t分布衡量节点Vi与聚类质心μu的相似度qiu,piu是目标分布,通过计算节点与质心的相似度实现节点的软分类,并确定聚类损失函数,qiu与piu的具体公式如下:
其中,qiu表示节点与聚类质心的相似度;piu是目标分布;μu表示聚类质心;Zi表示训练过程中获取的节点表示矢量;k为聚类个数。
进一步地,目标模型的对象聚类模块,用于通过聚类算法对就诊记录节点对应的节点表示矢量进行聚类;在目标模型的训练过程中,基于训练得到的节点表示矢量对聚类结果进行更新,直至模型收敛,输出最终聚类结果。本实施例所使用的聚类算法包括但不限于k均值聚类算法和高斯混合模型聚类。
通过本实施例,将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,实现聚类过程和表示矢量的相互作用,充分考虑了表示学习与聚类分析之间的依赖关系,从而能够获取准确的聚类结果。
在其中的一些实施例中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果,包括如下步骤:
步骤S231,在目标模型的表示学习模块中,基于编码器-解码器结构,对异构超图进行表示学习,得到异构网络表示矢量和超图网络表示矢量;
步骤S232,对异构网络表示矢量和超图网络表示矢量进行线性融合,得到节点表示矢量;
步骤S233,基于节点表示矢量更新对象聚类模块中的聚类结果。
具体地,编码器为异构超图神经网络学习节点的矢量表示。首先,使用编码器将基于元路径的异构图网络学习节点的矢量表示,i表示节点编号,l表示第l层网络。基于此,第l+1层网络中节点Vi的矢量表示/>如下所示:
;
其中,r表示具体的元路径;Nr(i)表示节点Vi基于元路径r的相邻节点集合;ai,r表示节点Vi的规范化参数,可通过注意力学习得到;表示基于元路径r的权重矩阵;/>表示基于自连接的权重矩阵。
另外,根据超图关联矩阵Ahyp∈,使用编码器将超图神经网络学习节点的矢量表示/>。根据超图拉普拉斯矩阵进行图卷积学习,以及使用切比雪夫不等式优化。
如图5所示,随机初始化节点特征矢量,此时矢量维度为d1,,进而根据共现矩阵C,对超图网络进行节点-超边-节点的特征变换和融合,包括通过特征变换得到N*d2节点特征,通过超边特征聚合得到Nε*d2节点特征,以及再通过节点特征聚合得到N*d2节点特征,使得节点可以学习更高阶维度的特征。在此基础上,第l+1层网络中节点的矢量表示/>如下所示:
;
其中,Dv和Dε分别是节点度和边度的对角矩阵;W∈为权重参数矩阵。
将异构网络表示矢量和超图网络表示矢量/>进行线性融合,得到节点表示矢量/>,进而将异构超图中每个对象的就诊记录节点对应的节点表示矢量,输入至目标模型的对象聚类模块进行聚类,得到当前的聚类结果,即基于节点表示矢量更新对象聚类模块中的聚类结果。
通过本实施例,基于编码器-解码器结构,对异构超图进行表示学习,得到异构网络表示矢量和超图网络表示矢量,并对异构网络表示矢量和超图网络表示矢量进行线性融合,得到对应的节点表示矢量,从而能够将表示学习模块与对象聚类模块的训练过程相融合,充分考虑表示学习与聚类分析之间的依赖关系。
下面通过优选实施例对本实施例进行描述和说明。
图6是本优选实施例的基于异构超图神经网络的患者聚类方法的流程图,如图6所示,该基于异构超图神经网络的患者聚类方法包括如下步骤:
步骤S610,根据各个对象的电子病历信息,确定每个对象的诊疗记录节点和诊疗事件节点;
步骤S620,基于每个对象的诊疗记录节点和诊疗事件节点,生成与对象对应的异构超图;
步骤S630,通过点积解码器对从异构超图中学习到的节点表示矢量进行重构,并根据重构结果,确定与节点表示矢量对应的重构损失函数;
步骤S640,将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果;
步骤S650,其中,在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果;节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。
通过本实施例,根据各个对象的电子病历信息,确定每个对象的诊疗记录节点和诊疗事件节点,并基于每个对象的诊疗记录节点和诊疗事件节点,生成与对象对应的异构超图,从而通过异构超图网络区分不同的数据类型,挖掘不同对象之间的低阶和高阶关联信息;通过点积解码器对从异构超图中学习到的节点表示矢量进行重构,并根据重构结果,确定与节点表示矢量对应的重构损失函数;将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果;其中,在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果,而节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量,以此将异构超图的表示学习模块与对象聚类模块的训练过程相融合,实现聚类过程和表示矢量的相互作用,充分考虑了表示学习与聚类分析之间的依赖关系,显著提高聚类结果的准确性,解决了无法获取准确的聚类结果的问题。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种基于异构超图神经网络的患者聚类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是本实施例的基于异构超图神经网络的患者聚类装置的结构框图,如图7所示,该装置包括:构建模块10聚类模块20;
构建模块10,用于根据各个对象的电子病历信息,构建与对象对应的异构超图;
聚类模块20,用于将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果;
聚类模块20,还用于在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果;节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量。
通过本实施例提供的装置,根据各个对象的电子病历信息,构建与对象对应的异构超图;将目标模型中表示学习模块对应的重构损失函数,以及目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对目标模型进行训练,直至目标模型收敛,输出对象聚类模块中的最终聚类结果;其中,在目标模型的训练过程中,基于每次表示学习模块从异构超图中学习到的节点表示矢量,更新对象聚类模块中的聚类结果;节点表示矢量为异构超图中每个对象的就诊记录节点对应的表示矢量,解决了无法获取准确的聚类结果的问题,实现了提高聚类结果的准确性。
在其中的一些实施例中,在图7的基础上,该装置还包括生成模块,用于根据各个对象的电子病历信息,确定每个对象的诊疗记录节点和诊疗事件节点;基于每个对象的诊疗记录节点和诊疗事件节点,生成与对象对应的异构超图。
在其中的一些实施例中,在图7的基础上,该装置还包括标准化模块,用于对各个对象的电子病历信息进行标准化处理,得到每个对象的标准化数据信息;基于标准化数据信息,确定每个对象的诊疗记录节点和诊疗事件节点。
在其中的一些实施例中,在图7的基础上,该装置还包括建立模块,用于根据对象的电子病历信息,建立每个对象的诊疗记录节点与诊疗事件节点之间的诊疗连接关系,得到初始连接图;根据医疗知识图谱,构建初始连接图中不同诊疗事件节点之间的异构关联,得到对应的异构网络图;确定每个对象的诊疗记录节点与诊疗事件节点的超图关联矩阵;根据各个诊疗事件节点的共现信息,确定不同诊疗记录节点之间的连接概率;在异构网络图中,基于超图关联矩阵和连接概率,构建每个对象的诊疗记录节点与诊疗事件节点之间的超图连接,得到与对象对应的异构超图。
在其中的一些实施例中,在图7的基础上,该装置还包括计算模块,用于根据各个诊疗事件节点的共现信息,建立对应的共现矩阵;基于共现矩阵,确定不同诊疗记录节点之间的点对互信息;根据不同诊疗记录节点之间的点对互信息,确定对应的连接概率。
在其中的一些实施例中,在图7的基础上,该装置还包括结合模块,用于通过点积解码器对从异构超图中学习到的节点表示矢量进行重构,并根据重构结果,确定与节点表示矢量对应的重构损失函数;将重构损失函数和对象聚类模块对应的聚类损失函数作为模型整体损失。
在其中的一些实施例中,在图7的基础上,该装置还包括更新模块,用于在目标模型的表示学习模块中,基于编码器-解码器结构,对异构超图进行表示学习,得到异构网络表示矢量和超图网络表示矢量;对异构网络表示矢量和超图网络表示矢量进行线性融合,得到节点表示矢量;基于节点表示矢量更新对象聚类模块中的聚类结果。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种计算机设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述计算机设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的基于异构超图神经网络的患者聚类方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于异构超图神经网络的患者聚类方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于异构超图神经网络的患者聚类方法,其特征在于,所述方法包括:
根据各个对象的电子病历信息,构建与所述对象对应的异构超图;
将目标模型中表示学习模块对应的重构损失函数,以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对所述目标模型进行训练,直至所述目标模型收敛,输出所述对象聚类模块中的最终聚类结果;
所述将目标模型中表示学习模块对应的重构损失函数,以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,包括:通过点积解码器对从所述异构超图中学习到的节点表示矢量进行重构,并根据重构结果,确定与所述节点表示矢量对应的所述重构损失函数;将所述重构损失函数和所述对象聚类模块对应的聚类损失函数作为模型整体损失;
其中,在所述目标模型的训练过程中,基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量,更新所述对象聚类模块中的聚类结果;所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量;
所述基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量,更新所述对象聚类模块中的聚类结果,包括:在所述目标模型的表示学习模块中,基于编码器-解码器结构,对所述异构超图进行表示学习,得到异构网络表示矢量和超图网络表示矢量;对所述异构网络表示矢量和所述超图网络表示矢量进行线性融合,得到所述节点表示矢量;基于所述节点表示矢量更新所述对象聚类模块中的聚类结果。
2.根据权利要求1所述的基于异构超图神经网络的患者聚类方法,其特征在于,所述根据各个对象的电子病历信息,生成与所述对象对应的异构超图,包括:
根据各个对象的电子病历信息,确定每个所述对象的诊疗记录节点和诊疗事件节点;
基于每个所述对象的诊疗记录节点和诊疗事件节点,生成与所述对象对应的异构超图。
3.根据权利要求2所述的基于异构超图神经网络的患者聚类方法,其特征在于,所述根据各个对象的电子病历信息,确定每个所述对象的诊疗记录节点和诊疗事件节点,包括:
对各个所述对象的电子病历信息进行标准化处理,得到每个所述对象的标准化数据信息;
基于所述标准化数据信息,确定每个所述对象的诊疗记录节点和诊疗事件节点。
4.根据权利要求2所述的基于异构超图神经网络的患者聚类方法,其特征在于,所述基于每个所述对象的诊疗记录节点和诊疗事件节点,生成与所述对象对应的异构超图,包括:
根据所述对象的电子病历信息,建立每个所述对象的诊疗记录节点与所述诊疗事件节点之间的诊疗连接关系,得到初始连接图;
根据医疗知识图谱,构建所述初始连接图中不同所述诊疗事件节点之间的异构关联,得到对应的异构网络图;
确定每个所述对象的诊疗记录节点与所述诊疗事件节点的超图关联矩阵;
根据各个所述诊疗事件节点的共现信息,确定不同所述诊疗记录节点之间的连接概率,并将所述连接概率作为不同超边之间的权重;
在所述异构网络图中,基于所述超图关联矩阵和不同所述超边之间的权重,构建每个所述对象的诊疗记录节点与所述诊疗事件节点之间的超图连接,得到与所述对象对应的异构超图。
5.根据权利要求4所述的基于异构超图神经网络的患者聚类方法,其特征在于,所述根据各个所述诊疗事件节点的共现信息,确定不同所述诊疗记录节点之间的连接概率,包括:
根据各个所述诊疗事件节点的共现信息,建立对应的共现矩阵;
基于所述共现矩阵,确定不同所述诊疗记录节点之间的点对互信息;
根据不同所述诊疗记录节点之间的点对互信息,确定对应的所述连接概率。
6.一种基于异构超图神经网络的患者聚类装置,其特征在于,所述装置包括:构建模块和聚类模块;
所述构建模块,用于根据各个对象的电子病历信息,构建与所述对象对应的异构超图;
所述聚类模块,用于将目标模型中表示学习模块对应的重构损失函数,以及所述目标模型中对象聚类模块对应的聚类损失函数作为模型整体损失,对所述目标模型进行训练,直至所述目标模型收敛,输出所述对象聚类模块中的最终聚类结果;
所述聚类模块,还用于通过点积解码器对从所述异构超图中学习到的节点表示矢量进行重构,并根据重构结果,确定与所述节点表示矢量对应的所述重构损失函数;将所述重构损失函数和所述对象聚类模块对应的聚类损失函数作为模型整体损失;
所述聚类模块,还用于在所述目标模型的训练过程中,基于每次所述表示学习模块从所述异构超图中学习到的节点表示矢量,更新所述对象聚类模块中的聚类结果;所述节点表示矢量为所述异构超图中每个所述对象的就诊记录节点对应的表示矢量;
所述聚类模块,还用于在所述目标模型的表示学习模块中,基于编码器-解码器结构,对所述异构超图进行表示学习,得到异构网络表示矢量和超图网络表示矢量;对所述异构网络表示矢量和所述超图网络表示矢量进行线性融合,得到所述节点表示矢量;基于所述节点表示矢量更新所述对象聚类模块中的聚类结果。
7.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求5中任一项所述的基于异构超图神经网络的患者聚类方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求5中任一项所述的基于异构超图神经网络的患者聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311267386.8A CN117009839B (zh) | 2023-09-28 | 2023-09-28 | 基于异构超图神经网络的患者聚类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311267386.8A CN117009839B (zh) | 2023-09-28 | 2023-09-28 | 基于异构超图神经网络的患者聚类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117009839A CN117009839A (zh) | 2023-11-07 |
CN117009839B true CN117009839B (zh) | 2024-01-09 |
Family
ID=88571278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311267386.8A Active CN117009839B (zh) | 2023-09-28 | 2023-09-28 | 基于异构超图神经网络的患者聚类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009839B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118299064A (zh) * | 2024-06-04 | 2024-07-05 | 湖南工商大学 | 基于罕见病的图模型训练方法、应用方法及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656604A (zh) * | 2021-10-19 | 2021-11-16 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN113919441A (zh) * | 2021-11-03 | 2022-01-11 | 北京工业大学 | 一种基于超图变换网络的分类方法 |
CN114611621A (zh) * | 2022-03-17 | 2022-06-10 | 北京邮电大学 | 一种基于注意力超图神经网络的协同聚类方法 |
CN115171905A (zh) * | 2022-06-20 | 2022-10-11 | 复旦大学 | 一种基于独热编码无监督聚类的肿瘤患者相似性计算方法 |
CN115828143A (zh) * | 2022-12-20 | 2023-03-21 | 南通大学 | 基于图卷积和自注意力机制实现异构图元路径聚合的节点分类方法 |
CN115905903A (zh) * | 2022-11-18 | 2023-04-04 | 齐鲁工业大学 | 基于图注意力自动编码器的多视图聚类方法及系统 |
CN116364299A (zh) * | 2023-03-30 | 2023-06-30 | 之江实验室 | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 |
CN116543917A (zh) * | 2023-05-10 | 2023-08-04 | 西北工业大学 | 一种针对异构时间序列数据的信息挖掘方法 |
CN116681176A (zh) * | 2023-06-12 | 2023-09-01 | 济南大学 | 一种基于聚类和异构图神经网络的交通流预测方法 |
-
2023
- 2023-09-28 CN CN202311267386.8A patent/CN117009839B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656604A (zh) * | 2021-10-19 | 2021-11-16 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN113919441A (zh) * | 2021-11-03 | 2022-01-11 | 北京工业大学 | 一种基于超图变换网络的分类方法 |
CN114611621A (zh) * | 2022-03-17 | 2022-06-10 | 北京邮电大学 | 一种基于注意力超图神经网络的协同聚类方法 |
CN115171905A (zh) * | 2022-06-20 | 2022-10-11 | 复旦大学 | 一种基于独热编码无监督聚类的肿瘤患者相似性计算方法 |
CN115905903A (zh) * | 2022-11-18 | 2023-04-04 | 齐鲁工业大学 | 基于图注意力自动编码器的多视图聚类方法及系统 |
CN115828143A (zh) * | 2022-12-20 | 2023-03-21 | 南通大学 | 基于图卷积和自注意力机制实现异构图元路径聚合的节点分类方法 |
CN116364299A (zh) * | 2023-03-30 | 2023-06-30 | 之江实验室 | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 |
CN116543917A (zh) * | 2023-05-10 | 2023-08-04 | 西北工业大学 | 一种针对异构时间序列数据的信息挖掘方法 |
CN116681176A (zh) * | 2023-06-12 | 2023-09-01 | 济南大学 | 一种基于聚类和异构图神经网络的交通流预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117009839A (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016438B (zh) | 一种基于中医辨证人工神经网络算法模型的系统 | |
CN108766561B (zh) | 病症信息处理方法、装置、计算机设备和存储介质 | |
CN111180068A (zh) | 一种基于多任务学习模型的慢病预测系统 | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
CN117009839B (zh) | 基于异构超图神经网络的患者聚类方法和装置 | |
CN108597605B (zh) | 一种个人健康生活大数据采集与分析系统 | |
CN116189847B (zh) | 一种基于注意力机制的lstm-cnn策略的安全药物推荐方法 | |
CN112951362A (zh) | 药物推荐方法、装置、设备及存储介质 | |
CN115985513B (zh) | 一种基于多组学癌症分型的数据处理方法、装置及设备 | |
CN114496233B (zh) | 一种心肌梗死并发症的辅助诊断系统 | |
CN109213871A (zh) | 患者信息知识图谱构建方法、可读存储介质和终端 | |
CN116364274A (zh) | 基于因果推断和动态集成多标签的疾病预测方法及系统 | |
CN113434692B (zh) | 图神经网络模型构建、诊疗方案推荐方法、系统及设备 | |
CN113160986A (zh) | 用于预测全身炎症反应综合征发展的模型构建方法及系统 | |
CN111798324B (zh) | 一种基于动态就医行为对齐的医保欺诈发现方法 | |
CN115116612A (zh) | 一种儿童患者病情智能风险评估系统及方法 | |
CN117370565A (zh) | 一种信息检索方法及系统 | |
CN111933302A (zh) | 药物推荐方法、装置、计算机设备及存储介质 | |
CN111640517B (zh) | 病历编码方法、装置、存储介质及电子设备 | |
CN113822439A (zh) | 任务预测方法、装置、设备及存储介质 | |
CN116564534B (zh) | 中医临床数据的多视图聚类方法、装置及电子设备 | |
CN115658877A (zh) | 基于强化学习的药物推荐方法、装置、电子设备和介质 | |
CN114883001A (zh) | 基于异质信息网络的疾病预测系统 | |
CN117012375B (zh) | 一种基于患者拓扑特征相似性的临床决策支持方法和系统 | |
CN110827945B (zh) | 一种基于医学数据生成关键因子的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |