CN116936108A - 一种面向不平衡数据的疾病预测系统 - Google Patents
一种面向不平衡数据的疾病预测系统 Download PDFInfo
- Publication number
- CN116936108A CN116936108A CN202311209085.XA CN202311209085A CN116936108A CN 116936108 A CN116936108 A CN 116936108A CN 202311209085 A CN202311209085 A CN 202311209085A CN 116936108 A CN116936108 A CN 116936108A
- Authority
- CN
- China
- Prior art keywords
- node
- graph
- data
- neural network
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 47
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 238000013434 data augmentation Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 27
- 238000011478 gradient descent method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 208000024891 symptom Diseases 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 5
- 238000010339 medical test Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000001364 causal effect Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 4
- 235000002020 sage Nutrition 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 230000001225 therapeutic effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000002483 medication Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 5
- 241000712431 Influenza A virus Species 0.000 description 4
- 201000011040 acute kidney failure Diseases 0.000 description 4
- 239000013610 patient sample Substances 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 206010003119 arrhythmia Diseases 0.000 description 2
- 230000006793 arrhythmia Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 206010022000 influenza Diseases 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000009304 Acute Kidney Injury Diseases 0.000 description 1
- 206010003658 Atrial Fibrillation Diseases 0.000 description 1
- 208000031229 Cardiomyopathies Diseases 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 208000033626 Renal failure acute Diseases 0.000 description 1
- 108700005077 Viral Genes Proteins 0.000 description 1
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 208000037797 influenza A Diseases 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 229940124629 β-receptor antagonist Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种面向不平衡数据的疾病预测系统,包括知识图谱构建及关系权重向量计算模块,用于构建医用知识图谱,利用医用知识图谱计算每个概念的关系权重向量;图数据表示模块,用于获取医疗图数据并学习医疗图数据的嵌入表示;图数据增广模块,用于利用GAN模型对医疗图数据中的不平衡数据进行增广,使数据保持平衡;图神经网络训练模块,用于利用增广后的医疗图数据训练第二图神经网络模型;疾病预测模块,用于将患者的图数据输入训练好的第二图神经网络模型中进行疾病预测。本发明利用知识图谱中丰富的关系信息提高生成边的质量;结合对抗生成网络模型,能够生成更真实的图数据样本,提升系统疾病预测效果。
Description
技术领域
本发明涉及医疗健康信息技术领域,特别涉及一种面向不平衡数据的疾病预测系统。
背景技术
在人工智能领域,图神经网络受到广泛关注,越来越多的学者、机构参与相关研究来分析和挖掘图数据中的信息,其中在推荐系统、健康医疗、社交网络、生物化工等领域得到广泛应用。
现实生活中的图数据存在样本、类别分布不平衡的情况,即某些类别的样本数量显著少于其它类别,称之为少数类,与此相对应的称为多数类。而现有的图神经网络算法一般是基于样本类别分布大致平衡而设计的。以医疗场景为例,医院得到的数据中患者样本的比例极不平衡,如果通过训练这些数据来构建疾病预测相关模型,会导致模型对少数类样本学习不足,无法对其做出准确的预测。
在传统机器学习领域,针对不平衡数据训练的相关算法有很多。比如在方法层面,有训练多个弱学习器,逐步调整错分样本权重,最后将所有弱学习器进行加权汇总的集成学习;以及提高少数类样本的学习权重的代价敏感学习等方法。由于图数据中样本(即节点)之间存在一定的连接关系,如果将这些方法直接应用于图数据分析,会导致数据之间的关系没有被有效利用,甚至分析效果更差的问题。而在数据层面,业界普遍采用优化数据的采样过程从而达到训练样本平衡的思路。比如将多数类样本进行降采样,而这种方法在数据极不平衡或少数类样本数量非常少的情况下容易导致训练数据不足以至于训练效果差的问题。此外,另一类方法是通过复制少数类样本进行数据增广,由于少数类样本包含的信息有限,以及生成的数据没有引入足够且有效的信息,会导致训练的模型容易发生过拟合。
目前在图神经网络领域,对此类问题的相应研究较少。2021年,Zhao等人提出GraphSMOTE,将业界比较常见的数据过采样方法--合成少数过采样技术(SMOTE)应用于图数据中。此方法能够为少数类节点生成有差异化的新样本,但是它对边的构造过程仅考虑了节点间的相关性,合成边的准确度和可靠性有待提高。构建不合理的边会影响整体图结构,进而影响后续预测模型的效果。
发明内容
本发明的目的在于针对现有技术的不足,提出一种面向不平衡数据的疾病预测系统。
本发明的目的是通过以下技术方案来实现的:一种面向不平衡数据的疾病预测系统,包括:
知识图谱构建及关系权重向量计算模块,用于基于现有医学文献、专家知识中的概念和关系,构建医用知识图谱;利用医用知识图谱计算每个概念的关系权重向量;
图数据表示模块,用于获取医疗图数据,利用第一图神经网络模型来学习医疗图数据的嵌入表示;
图数据增广模块,用于利用GAN模型对医疗图数据中的不平衡数据进行增广,使数据保持平衡,得到增广后的医疗图数据;
所述GAN模型由节点生成器、边生成器、节点判别器和边判别器组成;节点生成器用于生成合成患者节点的嵌入表示;边生成器用于将节点生成器的输出作为输入,得到合成患者节点的邻接向量;节点判别器和边判别器分别用于判断合成节点和合成患者节点的邻接向量的真实性;其中,边判别器的交叉熵结合合成患者节点的邻接向量与关系权重向量的交叉熵进行训练;
图神经网络训练模块,用于利用增广后的医疗图数据训练第二图神经网络模型;
疾病预测模块,用于使用训练好的第二图神经网络模型进行疾病预测。
进一步地,所述构建的医用知识图谱为:;其中/>代表知识图谱中第i个三元组,每个三元组表示两个概念与其之间的关系;概念包括症状、用药、生理指标、医学检验和疾病,关系包括从属关系、治疗关系、相关关系和因果关系;/>表示三元组的数量。
进一步地,所述利用医用知识图谱计算每个概念的关系权重向量具体为:
针对知识图谱中任一概念,计算与其它概念/>的关系权重/>,得到概念/>的关系权重向量/>:
其中代表概念/>与/>之间的关系,/>表示概念的数量。
进一步地,医疗图数据集合表示为,其中/>,C、Z分别代表概念节点集合和真实患者节点集合,概念节点包括少数类概念节点和多数类概念节点,真实患者节点包括少数类真实患者节点和多数类真实患者节点,/>为医疗图数据中节点数量;/>代表边集合;真实患者节点包含生物学信息;概念节点与知识图谱中概念对齐;
医疗图数据的节点邻接矩阵的大小为/>,/>中第/>行第/>列元素的值记为,若/>中第/>个节点与第/>个节点相连,则/>,否则/>;
医疗图数据的嵌入表示为,其中/>表示医疗图数据中第i个节点的嵌入表示。
进一步地,所述节点生成器、边生成器、节点判别器和边判别器均采用多层感知机神经网络。
进一步地,节点判别器采用交叉熵损失,记作,公式为:
m为当前训练轮次中输入的节点样本数,表示第i个真实患者节点/>的预测值,/>表示第i个合成患者节点/>的预测值;
边判别器采用交叉熵损失,记作,公式为:
计算合成患者节点的邻接向量与少数类疾病概念节点/>的关系权重向量/>的交叉熵,得到关系损失/>,公式为:
其中,代表邻接向量中第j个元素,/>代表关系权重向量/>中的第j个元素;
记为知识损失权重参数,边判别器的总损失/>为:
。
进一步地,所述图数据增广模块中的GAN模型经过如下训练:
通过梯度下降法来更新节点生成器:判断合成患者节点是否与少数类真实患者节点相似,计算相似性损失;其中分别计算合成患者节点与随机k个少数类真实患者节点的内积的均值b,以及合成患者节点与随机k个多数类真实患者节点的内积均值c,具体公式为:
其中,、/>分别代表少数类真实患者节点集合、多数类真实患者节点集合;
通过梯度下降法来更新节点生成器的参数:
其中为节点生成器的学习系数,/>代表针对/>的梯度运算, />为节点类别权重参数;由此完成节点生成器训练的一次迭代;
通过梯度下降法来更新边生成器的参数:
其中为边生成器的学习系数,/>代表针对/>的梯度运算;由此完成边生成器训练的一次迭代;
利用随机梯度下降法更新节点判别器的参数:
其中为节点判别器的学习系数,/>代表针对/>的梯度运算;由此完成节点判别器训练的一次迭代;
利用随机梯度下降法更新边判别器的参数:
其中代表边判别器的学习系数,/>代表针对/>的梯度运算;由此完成边判别器训练的一次迭代。
进一步地,所述第一图神经网络模型包括node2vec,SDNE,TransE,图卷积神经网络GCN,图注意力神经网络GAT,图同构神经网络GIN,GraphSage。
进一步地,所述第二图神经网络模型包括图卷积神经网络GCN,图注意力神经网络GAT,图同构神经网络GIN,GraphSage。
进一步地,所述第二图神经网络模型包括包含图卷积层、全连接层和激活层;训练如下:设置模型训练参数后,将增广后的医疗图数据传入模型中进行训练,经过前向传播、计算损失之后,计算梯度值,通过反向传播更新每一层神经元的参数值,得到训练好的第二图神经网络模型。
本发明的有益效果是:利用知识图谱中丰富的关系信息提高生成边的质量;结合对抗生成网络模型,能够生成更真实的图数据样本,提升系统疾病预测效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的整体流程图;
图2为本发明实施例中的图数据增广模块的流程图;
图3为节点生成流程图;
图4为边生成流程图;
图5为医疗图数据与知识图谱之间的关系图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1所示,本发明的一种面向不平衡数据的疾病预测系统,包括知识图谱构建及关系权重向量计算模块、图数据表示模块、图数据增广模块、图神经网络训练模块和疾病预测模块,其中图数据增广模块包括判别器单元和生成器单元。每个模块的具体功能如下:
知识图谱构建及关系权重向量计算模块,用来基于现有医学文献、专家知识中的概念和关系,构建医用知识图谱;利用医用知识图谱计算每个概念的关系权重向量;
基于医学文献、专家知识中的概念和关系,构建医用知识图谱。其中/>代表知识图谱中第i个三元组,每个三元组表示两个概念(即实体)与其之间的关系,概念包括症状、用药、生理指标、医学检验、疾病,关系包括从属关系、治疗关系、相关关系、因果关系,比如心房颤动属于心律失常,为从属关系;心肌病导致心律失常,属于因果关系;尿素氮偏高与肾性AKI为相关关系;使用beta受体拮抗剂能治疗心力衰竭,属于治疗关系。知识图谱中三元组的数量为/>,知识图谱中概念个数为/>。
得到知识图谱后,利用知识图谱嵌入模型(如TransE)来学习知识图谱中三元组的嵌入表示,记其嵌入表示集合为, />代表知识图谱中第i个三元组的嵌入表示集合,/>分别代表三元组中头实体、关系、尾实体的嵌入表示,其中头实体和尾实体就是概念。
针对知识图谱中任一概念,计算与其它概念/>的关系权重/>:
其中代表概念/>与概念/>的关系嵌入表示向量。然后,构建针对概念/>的关系权重向量:
如此,对知识图谱中所有概念计算关系权重向量,得到关系权重向量集合W。
图数据表示模块:
记医疗图数据集合表示为,其中/>,C、Z分别代表概念节点集合、真实患者节点集合,/>为医疗图数据中节点数量;/>代表边集合。真实患者节点包含生物学信息,如年龄、身高、体重,概念节点与知识图谱中概念对齐,即概念节点包括症状、用药、生理指标、医学检验、疾病。
数据集中涉及其中一种疾病的样本数量最多的,称此疾病为多数类疾病,其余称之为少数类疾病。概念节点包括疾病概念节点,疾病概念节点包括少数类疾病概念节点和多数类疾病概念节点,医疗图数据中与少数类疾病对应的节点称之为少数类疾病概念节点,简称少数类概念节点,反之称为多数类疾病概念节点,简称多数类概念节点;真实患者节点包括少数类真实患者节点和多数类真实患者节点,少数类真实患者节点为真实数据中患有少数类疾病的患者节点,多数类真实患者节点为真实数据中患有多数类疾病的患者节点;
根据医疗图数据中节点间的连接关系构建邻接矩阵,并从邻接矩阵/>中获取真实患者节点的邻接向量,表示真实患者节点与各个概念节点的边关系;邻接矩阵/>的大小为/>,/>中第/>行第/>列元素的值记为/>,若/>中第/>个节点与第/>个节点相连,则/>,否则/>。
利用第一图神经网络模型(如GAT)来学习医疗图数据的嵌入表示,记为,其中/>表示医疗图数据中一个第i个节点的嵌入表示。第一图神经网络模型还包括node2vec,SDNE,TransE,图卷积神经网络GCN,图同构神经网络GIN、GraphSage。
图数据增广模块:
图数据增广模块的作用是,利用数据生成方法,将数据集中难以学习到的少数类患者进行数据增广,使得多数类与少数类患者节点数量的比例达到一定平衡,以此提高对少数类患者样本的学习效果。
数据生成方法中包含合成患者节点生成以及连接合成患者节点与概念节点的边的生成,二者均使用GAN(对抗生成网络)模型,在生成器单元中训练节点生成器和边生成器/>,在判别器单元中训练节点判别器/>和边判别器/>。训练过程中,节点生成器用来生成与少数类真实患者节点相似的合成患者节点,节点判别器判断合成患者节点的真实性;边生成器用来生成合成患者节点与概念节点的边,边判别器判断每一个合成边是否真实存在。两个判别器分别计算对应的损失,然后通过损失来更新相应的生成器与判别器。
图数据增广流程如图2所示,其中节点生成和边生成的流程如图3和图4所示,具体细节如下:
判别器单元:
判别器单元的作用是分别构建节点判别器和边判别器/>,然后利用生成器传来的合成数据对其分别进行训练,计算损失后更新自身判别器,并将损失发送给生成器单元。
节点判别器和边判别器均采用多层感知机神经网络,模型超参数包括学习率、优化器、激活函数、隐藏层数和每层隐藏单元数,参数分别为、/>。
其中节点判别器的输入为真实患者节点的嵌入表示,以及从节点生成器传入的合成患者节点的嵌入表示。节点判别器的作用是判断合成患者节点是否为真实患者节点,其预测结果为节点是真实患者节点的概率值,记第i个真实患者节点的预测值为/>,第i个合成患者节点/>的预测值为/>。节点判别器采用交叉熵损失,记作/>,公式为:
m为当前训练轮次中输入的节点样本数。
利用随机梯度下降法更新节点判别器的参数:
其中为节点判别器的学习系数,/>代表针对/>的梯度运算。由此完成节点判别器训练的一次迭代。
边判别器的输入为从邻接矩阵中采样得到的真实患者节点的邻接向量,以及由边生成器传入的合成邻接向量。边判别器的作用是判断合成邻接向量是否为真实邻接向量,它的输出结果是邻接向量为真实邻接向量的概率值。记第i个真实患者节点/>的邻接向量为/>,边判别器对其预测值为/>;第i个合成患者节点/>的邻接向量为/>,边判别器对其预测值为/>。边判别器的神经网络部分采用交叉熵损失,记作/>,公式为:
此外,利用在知识图谱构建模块中计算得到的关系权重向量集合W,计算节点的邻接向量与其类别c所对应概念的关系权重向量/>的交叉熵,得到关系损失/>,公式为:
其中,代表邻接向量中第j个元素,/>代表类别c对应概念的关系权重向量的第j个元素。
记为知识损失权重参数,边判别器的总损失/>为:
利用随机梯度下降法更新边判别器的参数:
其中代表边判别器的学习系数,/>代表针对/>的梯度运算。由此完成边判别器训练的一次迭代。
生成器单元:
生成器单元的作用是构建节点生成器和边生成器/>,分别生成少数类患者节点以及其与概念节点合成边,并通过判别器单元中的对应判别器计算得到的损失来更新相应生成器。
节点生成器和边生成器均采用多层感知机神经网络,模型超参数包括学习率、优化器、激活函数、隐藏层数和每层隐藏单元数,参数分别为、/>。
节点生成器的输入为随机噪声向量,维度与节点嵌入表示相同,输出为合成患者节点的嵌入表示,将其发送给节点判别器,得到其返回的损失。
另外,判断合成患者节点是否与少数类真实患者节点更相似,计算类别相似性损失。其中分别计算合成患者节点与随机k个少数类真实患者节点的内积的均值b,以及该节点与随机k个多数类真实患者节点的内积均值c,具体公式为:
其中,、/>分别代表少数类、多数类真实患者节点集合。
通过梯度下降法来更新节点生成器:
其中为节点生成器的学习系数,/>代表针对/>的梯度运算, />为节点类别权重参数。由此完成节点生成器训练的一次迭代。
边生成器的输入为合成患者节点的嵌入表示,输出为合成患者节点的邻接向量,表示合成患者节点与各个概念节点的边关系,记第i个合成患者节点的合成邻接向量为,将其发送给边判别器,并利用其返回的损失/>,通过梯度下降法来更新边生成器:
其中为边生成器的学习系数,/>代表针对/>的梯度运算。由此完成边生成器训练的一次迭代。
两种生成器和判别器的训练分别达到迭代轮次上限之后,分别对原始图数据进行患者节点与边的生成,得到相对平衡的图数据/>,用于下游训练任务。
图神经网络训练模块:
利用增广后的图数据训练第二图神经网络模型;
第二图神经网络模型为图卷积神经网络GCN,图注意力神经网络GAT,图同构神经
网络GIN,GraphSage中的任一种;例如,利用常见图神经网络方法如图卷积神经网络(GCN),
构建多层GCN模型,包含图卷积层、全连接层、激活层。设置模型训练参数后,将图数据传
入模型中进行训练,经过前向传播、计算损失之后,计算梯度值,通过反向传播更新每一层
神经元的参数值。在模型框架的最后,应用具有 sigmoid 激活函数的全连接层来生成用于
诊断预测的最终输出,并根据结果计算模型指标,如准确率、F1。
疾病预测模块:
用于使用训练好的第二图神经网络模型进行疾病预测。
实施例1:
某用户使用本系统,使用患者类别不平衡的医疗图数据预测患者的急性肾损伤发生情况。使用该系统的知识图谱构建模块,基于现有医学文献、专家知识中的概念和关系,构建用于AKI发生风险预测的知识图谱,并利用图嵌入模型TransE学习知识图谱的嵌入表示/>。计算/>中,每一个概念/>与其他概念的关系权重,并分别构建关系权重向量/>。
用户通过图数据表示模块,将包含患者生物学信息、就诊、症状、医学检查、用药信息的不平衡图数据集G(如图5所示),利用图注意力神经网络GAT来学习图数据的嵌入表示,并根据G中节点间的连接关系构建邻接矩阵/>。
用户在图数据增广模块中进行少数类患者节点数据生成。其中通过生成器单元和判别器单元分别构建节点生成器、边生成器、节点判别器和边判别器四个多层感知机神经网络。本实施例中节点生成器、边生成器的隐藏层数为2层,每层隐藏单元数为64个,学习率为0.001,激活函数使用ReLU函数,优化器使用Adam方法。节点判别器、边判别器的隐藏层数为2层,每层隐藏单元数为32个,学习率为0.01,激活函数使用Sigmoid函数,优化器使用Adam方法。每个生成器与判别器的参数随机初始化,本实施例中用户定义迭代轮次上限为100。
每一轮节点生成迭代训练过程中,本模块首先将随机噪声向量输入至节点生成器生成数量为m的合成患者节点/>,然后将/>发送给节点判别器/>,节点判别器对/>和从真实图数据中随机采样得到的/>进行预测,预测结果分别为/>和/>,根据/>和计算节点判别器损失/>:
计算出节点判别器损失后,利用随机梯度下降法更新节点判别器的参数/>,完成节点判别器训练的一次迭代:
节点判别器将节点判别器损失发送给节点生成器。节点生成器计算类别相似性损失/>,分别计算/>中每个合成患者节点/>与随机k=5个少数类真实患者节点的内积的均值b,以及该节点与随机k=5个多数类真实患者节点的内积均值c,具体公式为:
利用损失和/>,通过梯度下降法来更新节点生成器的参数/>,由此完成节点生成器训练的一次迭代。
迭代训练节点生成器和节点判别器,直到达到训练轮次上限。训练完成后,用户利用节点生成器生成自定义数据量的合成患者节点数据,使得数据集中各类别患者样本数量平衡。
每一轮边生成迭代训练过程中,系统将合成患者节点的嵌入表示输入至边生成器,输出合成患者节点与各真实患者节点的邻接向量/>,并发送给边判别器。边判别器对其输出记为/>。并且边判别器从邻接矩阵/>中采样得到一部分真实患者节点的邻接向量P,输入至边判别器对其预测值为/>。根据/>和/>计算边判别器损失/>:
此外,计算合成患者节点中每个邻接向量/>与其类别所对应概念的关系权重向量的交叉熵,得到关系损失/>:
构建边判别器的总损失为:
通过损失,利用随机梯度下降法更新边判别器的参数/>,由此完成边判别器训练的一次迭代。
利用随机梯度下降法更新边s生成器的参数,由此完成边生成器训练的一次迭代。
两种生成器和判别器训练完成之后,本模块分别对原始图数据进行患者节点与边的生成,得到相对平衡的图数据/>。
用户在图神经网络训练模块中,对图数据计算新的邻接矩阵,并输入两层GCN模型进行训练,其中设置模型训练批次大小为256,每层的激活函数分别采用ReLU和Softmax。模型输出结果为对每个患者节点预测AKI发生的概率值。经过前向传播、计算损失之后,计算梯度值,通过反向传播更新每一层神经元的参数值。训练完成后,根据预测结果计算模型准确率、F1等指标来评估模型效果。
实施例2:
某用户使用本系统,使用亚型类别不平衡的甲型流感患者图数据,对甲型流感病毒亚型进行分类。甲型流感患者图数据中包含患者信息、症状、临床表现、医学检验、病毒基因。使用该系统的知识图谱构建模块,基于现有医学文献、专家知识中的概念和关系,构建用于甲型流感病毒亚型分类的知识图谱,并计算关系权重向量集合W。使用图数据表示模块,将图数据集G利用图注意力神经网络GCN来学习图数据的嵌入表示。
然后,使用图数据增广模块,进行少数类亚型患者节点数据生成。其中首先训练节点生成器、节点判别器,以及边生成器和边判别器,训练方法与上述实施例相同,此处不在赘述。训练完成后通过节点生成器生成少数类甲型流感亚型患者节点,以及通过边生成器生成该节点与其它节点的边关系。循环生成数据,直到得到相对平衡的图数据。
最后,在图神经网络训练模块中,对图数据计算新的邻接矩阵,并传入至GCN模型进行训练,模型层数为3层,激活函数采用softmax。模型的输出结果为对每个患者的甲型流感病毒亚型的分类。经过前向传播、计算损失之后,计算梯度值,通过反向传播更新每一层神经元的参数值。训练完成后,根据预测结果计算模型准确率、F1等指标来评估模型效果。
训练好的图神经网络模型即可用于对甲型流感病毒亚型进行分类。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (10)
1.一种面向不平衡数据的疾病预测系统,其特征在于,包括:
知识图谱构建及关系权重向量计算模块,用于基于现有医学文献、专家知识中的概念和关系,构建医用知识图谱;利用医用知识图谱计算每个概念的关系权重向量;
图数据表示模块,用于获取医疗图数据,利用第一图神经网络模型来学习医疗图数据的嵌入表示;
图数据增广模块,用于利用GAN模型对医疗图数据中的不平衡数据进行增广,使数据保持平衡,得到增广后的医疗图数据;
所述GAN模型由节点生成器、边生成器、节点判别器和边判别器组成;节点生成器用于生成合成患者节点的嵌入表示;边生成器用于将节点生成器的输出作为输入,得到合成患者节点的邻接向量;节点判别器和边判别器分别用于判断合成节点和合成患者节点的邻接向量的真实性;其中,边判别器的交叉熵结合合成患者节点的邻接向量与关系权重向量的交叉熵进行训练;
图神经网络训练模块,用于利用增广后的医疗图数据训练第二图神经网络模型;
疾病预测模块,用于使用训练好的第二图神经网络模型进行疾病预测。
2.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述构建的医用知识图谱为:;其中/>代表知识图谱中第i个三元组,每个三元组表示两个概念与其之间的关系;概念包括症状、用药、生理指标、医学检验和疾病,关系包括从属关系、治疗关系、相关关系和因果关系;/>表示三元组的数量。
3.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述利用医用知识图谱计算每个概念的关系权重向量具体为:
针对知识图谱中任一概念,计算与其它概念/>的关系权重/>,得到概念/>的关系权重向量/>:
其中代表概念/>与/>之间的关系,/>表示概念的数量。
4.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,医疗图数据集合表示为,其中/>,C、Z分别代表概念节点集合和真实患者节点集合,概念节点包括少数类概念节点和多数类概念节点,真实患者节点包括少数类真实患者节点和多数类真实患者节点,/>为医疗图数据中节点数量;/>代表边集合;真实患者节点包含生物学信息;概念节点与知识图谱中概念对齐;
医疗图数据的节点邻接矩阵的大小为/>,/>中第/>行第/>列元素的值记为,若/>中第/>个节点与第/>个节点相连,则/>,否则/>;
医疗图数据的嵌入表示为,其中/>表示医疗图数据中第i个节点的嵌入表示。
5.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述节点生成器、边生成器、节点判别器和边判别器均采用多层感知机神经网络。
6.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,节点判别器采用交叉熵损失,记作,公式为:
m为当前训练轮次中输入的节点样本数,表示第i个真实患者节点/>的预测值,表示第i个合成患者节点/>的预测值;
边判别器采用交叉熵损失,记作,公式为:
计算合成患者节点的邻接向量与少数类疾病概念节点/>的关系权重向量/>的交叉熵,得到关系损失/>,公式为:
其中,代表邻接向量中第j个元素,/>代表关系权重向量/>中的第j个元素;
记为知识损失权重参数,边判别器的总损失/>为:
。
7.根据权利要求6所述的面向不平衡数据的疾病预测系统,其特征在于,所述图数据增广模块中的GAN模型经过如下训练:
通过梯度下降法来更新节点生成器:判断合成患者节点是否与少数类真实患者节点相似,计算相似性损失;其中分别计算合成患者节点与随机k个少数类真实患者节点的内积的均值b,以及合成患者节点与随机k个多数类真实患者节点的内积均值c,具体公式为:
其中,、/>分别代表少数类真实患者节点集合、多数类真实患者节点集合;
通过梯度下降法来更新节点生成器的参数:
其中为节点生成器的学习系数,/>代表针对/>的梯度运算, />为节点类别权重参数;由此完成节点生成器训练的一次迭代;
通过梯度下降法来更新边生成器的参数:
其中为边生成器的学习系数,/>代表针对/>的梯度运算;由此完成边生成器训练的一次迭代;
利用随机梯度下降法更新节点判别器的参数:
其中为节点判别器的学习系数,/>代表针对/>的梯度运算;由此完成节点判别器训练的一次迭代;
利用随机梯度下降法更新边判别器的参数:
其中代表边判别器的学习系数,/>代表针对/>的梯度运算;由此完成边判别器训练的一次迭代。
8.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述第一图神经网络模型包括node2vec,SDNE,TransE,图卷积神经网络GCN,图注意力神经网络GAT,图同构神经网络GIN,GraphSage。
9.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述第二图神经网络模型包括图卷积神经网络GCN,图注意力神经网络GAT,图同构神经网络GIN,GraphSage。
10.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述第二图神经网络模型包括包含图卷积层、全连接层和激活层;训练如下:设置模型训练参数后,将增广后的医疗图数据传入模型中进行训练,经过前向传播、计算损失之后,计算梯度值,通过反向传播更新每一层神经元的参数值,得到训练好的第二图神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311209085.XA CN116936108B (zh) | 2023-09-19 | 2023-09-19 | 一种面向不平衡数据的疾病预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311209085.XA CN116936108B (zh) | 2023-09-19 | 2023-09-19 | 一种面向不平衡数据的疾病预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116936108A true CN116936108A (zh) | 2023-10-24 |
CN116936108B CN116936108B (zh) | 2024-01-02 |
Family
ID=88390919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311209085.XA Active CN116936108B (zh) | 2023-09-19 | 2023-09-19 | 一种面向不平衡数据的疾病预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116936108B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427846A (zh) * | 2019-07-19 | 2019-11-08 | 西安工业大学 | 一种利用卷积神经网络对不平衡小样本的人脸识别方法 |
CN112201348A (zh) * | 2020-10-28 | 2021-01-08 | 浙江大学 | 基于知识感知的多中心临床数据集适配设备 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN114639483A (zh) * | 2022-03-23 | 2022-06-17 | 浙江大学 | 一种基于图神经网络的电子病历检索方法及装置 |
CN114676928A (zh) * | 2022-04-08 | 2022-06-28 | 上海电力大学 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
CN115661550A (zh) * | 2022-11-17 | 2023-01-31 | 之江实验室 | 基于生成对抗网络的图数据类别不平衡分类方法及装置 |
CN116168789A (zh) * | 2023-04-26 | 2023-05-26 | 之江实验室 | 一种多中心医疗数据生成系统和方法 |
WO2023097774A1 (zh) * | 2021-11-30 | 2023-06-08 | 深圳先进技术研究院 | 工业机器人故障数据生成方法、系统、终端以及存储介质 |
CN116269223A (zh) * | 2023-02-10 | 2023-06-23 | 平安科技(深圳)有限公司 | 阿尔茨海默症的预测方法、装置、设备和存储介质 |
CN116364295A (zh) * | 2022-12-28 | 2023-06-30 | 北京谊安医疗系统股份有限公司 | 一种医疗数据处理方法及系统 |
CN116467710A (zh) * | 2023-03-21 | 2023-07-21 | 重庆邮电大学 | 一种面向不平衡网络的恶意软件检测方法 |
CN116502129A (zh) * | 2023-06-21 | 2023-07-28 | 之江实验室 | 一种知识与数据协同驱动的不平衡临床数据分类系统 |
CN116610816A (zh) * | 2023-05-31 | 2023-08-18 | 山东迪特智联信息科技有限责任公司 | 一种基于图卷积神经网络的人员画像知识图谱分析方法及系统 |
CN116756391A (zh) * | 2023-06-09 | 2023-09-15 | 广东博维创远科技有限公司 | 一种基于图数据增强的不平衡图节点神经网络分类方法 |
CN116759041A (zh) * | 2023-08-22 | 2023-09-15 | 之江实验室 | 一种考虑诊疗事件关系的医疗时序数据生成方法及装置 |
-
2023
- 2023-09-19 CN CN202311209085.XA patent/CN116936108B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427846A (zh) * | 2019-07-19 | 2019-11-08 | 西安工业大学 | 一种利用卷积神经网络对不平衡小样本的人脸识别方法 |
CN112201348A (zh) * | 2020-10-28 | 2021-01-08 | 浙江大学 | 基于知识感知的多中心临床数据集适配设备 |
WO2023097774A1 (zh) * | 2021-11-30 | 2023-06-08 | 深圳先进技术研究院 | 工业机器人故障数据生成方法、系统、终端以及存储介质 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN114639483A (zh) * | 2022-03-23 | 2022-06-17 | 浙江大学 | 一种基于图神经网络的电子病历检索方法及装置 |
CN114676928A (zh) * | 2022-04-08 | 2022-06-28 | 上海电力大学 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
CN115661550A (zh) * | 2022-11-17 | 2023-01-31 | 之江实验室 | 基于生成对抗网络的图数据类别不平衡分类方法及装置 |
CN116364295A (zh) * | 2022-12-28 | 2023-06-30 | 北京谊安医疗系统股份有限公司 | 一种医疗数据处理方法及系统 |
CN116269223A (zh) * | 2023-02-10 | 2023-06-23 | 平安科技(深圳)有限公司 | 阿尔茨海默症的预测方法、装置、设备和存储介质 |
CN116467710A (zh) * | 2023-03-21 | 2023-07-21 | 重庆邮电大学 | 一种面向不平衡网络的恶意软件检测方法 |
CN116168789A (zh) * | 2023-04-26 | 2023-05-26 | 之江实验室 | 一种多中心医疗数据生成系统和方法 |
CN116610816A (zh) * | 2023-05-31 | 2023-08-18 | 山东迪特智联信息科技有限责任公司 | 一种基于图卷积神经网络的人员画像知识图谱分析方法及系统 |
CN116756391A (zh) * | 2023-06-09 | 2023-09-15 | 广东博维创远科技有限公司 | 一种基于图数据增强的不平衡图节点神经网络分类方法 |
CN116502129A (zh) * | 2023-06-21 | 2023-07-28 | 之江实验室 | 一种知识与数据协同驱动的不平衡临床数据分类系统 |
CN116759041A (zh) * | 2023-08-22 | 2023-09-15 | 之江实验室 | 一种考虑诊疗事件关系的医疗时序数据生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
余思泉;韩志;唐延东;吴成东;: "基于对抗生成网络的纹理合成方法", 红外与激光工程, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN116936108B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7305656B2 (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
CN109935336B (zh) | 一种儿童呼吸科疾病的智能辅助诊断系统 | |
Nguyen et al. | Modified AHP for gene selection and cancer classification using type-2 fuzzy logic | |
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
Prabhu et al. | Deep belief neural network model for prediction of diabetes mellitus | |
CN106778014A (zh) | 一种基于循环神经网络的患病风险预测方法 | |
CN107180155A (zh) | 一种基于异构集成模型的疾病预测方法及系统 | |
CN111798954A (zh) | 基于时间注意力机制和图卷积网络的药物组合推荐方法 | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
Sapna et al. | Implementation of genetic algorithm in predicting diabetes | |
CN116364299A (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
Asogbon et al. | Enhanced neuro-fuzzy system based on genetic algorithm for medical diagnosis | |
CN111477337A (zh) | 基于个体自适应传播网络的传染病预警方法、系统及介质 | |
Zhang et al. | Identification of Autism spectrum disorder based on a novel feature selection method and Variational Autoencoder | |
Ismail et al. | AUTO-HAR: An adaptive human activity recognition framework using an automated CNN architecture design | |
Singha et al. | An Experimental Approach to Diagnose Covid-19 Using Optimized CNN. | |
Hegde et al. | Symmetrized Feature Selection with Stacked Generalization based Machine Learning Algorithm for the Early Diagnosis of Chronic Diseases | |
Dutta | Detecting Lung Cancer Using Machine Learning Techniques. | |
CN113517030B (zh) | 基于病毒传播网络的基因序列表示学习方法 | |
Betechuoh et al. | Using inverse neural networks for HIV adaptive control | |
Sun et al. | EHR2HG: Modeling of EHRs Data Based on Hypergraphs for Disease Prediction | |
CN116936108B (zh) | 一种面向不平衡数据的疾病预测系统 | |
Saleh et al. | A new autism spectrum disorder discovery (ASDD) strategy using data mining techniques based on blood tests | |
Jia et al. | COVID-19 diagnosis from CT images with convolutional neural network optimized by marine predator optimization algorithm | |
Li et al. | Bayesian nested latent class models for cause-of-death assignment using verbal autopsies across multiple domains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |