CN114664452B - 一种基于因果校验数据生成的全科多疾病预测系统 - Google Patents
一种基于因果校验数据生成的全科多疾病预测系统 Download PDFInfo
- Publication number
- CN114664452B CN114664452B CN202210547826.4A CN202210547826A CN114664452B CN 114664452 B CN114664452 B CN 114664452B CN 202210547826 A CN202210547826 A CN 202210547826A CN 114664452 B CN114664452 B CN 114664452B
- Authority
- CN
- China
- Prior art keywords
- causal
- event
- general
- disease
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 138
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 138
- 230000001364 causal effect Effects 0.000 title claims abstract description 113
- 238000012795 verification Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000004913 activation Effects 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 34
- 230000000694 effects Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 239000000523 sample Substances 0.000 description 54
- 206010037660 Pyrexia Diseases 0.000 description 9
- 206010020772 Hypertension Diseases 0.000 description 6
- 206010008479 Chest Pain Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 206010057190 Respiratory tract infections Diseases 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 206010008469 Chest discomfort Diseases 0.000 description 2
- 208000007882 Gastritis Diseases 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000013610 patient sample Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 206010012735 Diarrhoea Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于因果校验数据生成的全科多疾病预测系统,本发明针对全科场景,从因果性的角度出发,提出了基于全科倾向性得分网络的倾向性得分计算方法;相较于传统生成式对抗网络可解释性差的问题,本发明提出了基于因果校验的生成式对抗网络,使得生成的数据更加符合真实的因果逻辑;针对现有图卷积神经网络仅从相关性角度建模的问题,本发明提出了基于全科因果图卷积神经网络的全科多疾病预测模型,融入因果效应值以提升全科多疾病预测系统对疾病的预测性能,解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。
Description
技术领域
本发明属于医疗健康信息技术领域,具体涉及一种基于因果校验数据生成的全科多疾病预测系统。
背景技术
随着信息技术的发展,机器学习已经成为推动医疗发展的重要力量。全科医学作为医疗领域受众面最广的医学学科,是机器学习模型在医疗场景应用的重点领域之一。然而,由于全科疾病多而繁杂,样本获取成本高等问题,部分疾病常常难以获取大量的训练数据,导致现有的全科多疾病预测系统对少样本疾病的预测效果不佳。目前迫切需要一套针对少样本的全科多疾病预测系统。
通过数据生成方法生成模拟数据是解决机器学习模型训练样本不足的常见方法。现有的数据生成方式主要是基于生成式对抗网络。生成式对抗网络在生成图像数据的时候表现良好。然而全科场景,数据种类繁多且结构复杂,尤其是结构化的医疗数据,包含以患者为中心的多种类特征数据,在时间、空间上存在异质性,数据分布较为复杂。传统生成式对抗网络难以处理分布复杂的结构化数据。一方面,使用少样本数据训练容易出现训练不稳定、梯度消失、模式崩溃的问题。另一方面,仅考虑了变量之间的相关性,没有考虑变量之间的因果关系,将导致其生成的数据常常难以理解,不符合常识,使用这些数据用于模型训练,可能不能提高甚至会削弱模型的训练效果。例如,感冒可分为病毒性感冒和细菌性感冒,也会用两种药。如果基于相关性模型生成发烧患者的数据,可能会生成同时使用病毒性感冒药和细菌性感冒药的情况,这会对后续构建模型产生干扰。
基于倾向性得分的因果效应值计算方法是最为常见衡量变量之间因果关系的方法。现有的倾向性得分计算方法大多是基于逻辑斯特回归,然而全科场景由于数据种类繁多,结构复杂且常常线性不可分,基于逻辑斯特回归的倾向性得分计算方法在全科场景表现不佳。
发明内容
本发明针对现有技术的不足,从因果性的角度出发,提出了基于全科倾向性得分网络的倾向性得分计算方法,并在此基础上提出了基于因果校验的生成式对抗网络的医疗数据生成方法,解决了基于相关性分析的生成式对抗网络生成数据难以理解的问题,构建了一套全科多疾病预测系统,解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。
本发明的目的是通过以下技术方案实现的:一种基于因果校验数据生成的全科多疾病预测系统,包括:
(1)疾病统计模块:用于统计各种全科疾病样本数,根据各种全科疾病样本比率得到少样本全科疾病;
(2)因果校验模块:根据全科病人的特征变量集构成第一事件变量集合,疾病标签变量集构成第二事件变量集合,任意第一事件变量同任意第二事件变量构成一个事件配对;
构建并训练全科倾向性得分网络,使用训练完成的全科倾向性得分网络计算全科倾向性得分,所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率;使用全科倾向性得分计算所有事件配对的因果效应值;
(3)数据生成模块:对于少样本全科疾病,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据;
所述数据生成模型包括生成器和判别器,所述生成器和所述判别器迭代交替训练;
所述生成器的训练过程包括:对于每种少样本全科疾病生成随机噪声,将随机噪声以及对应的疾病标签输入生成器得到生成样本;计算生成样本的所有事件配对的因果效应值;将生成样本以及对应的疾病标签输入判别器,得到判别结果;所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失;所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失;
所述判别器的训练过程包括:从原始数据中随机抽取正样本,并抽取相同数量但疾病标签不同的负样本;生成相同数量随机噪声,使用生成器得到生成样本;将正样本、负样本、生成样本分别输入判别器,得到判别结果;
(4)模型预测模块:获取待训练全科病人的特征数据和疾病标签数据,对少样本全科疾病使用数据生成模型生成全科疾病数据;将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型,使用训练完成的全科多疾病预测模型对全科疾病进行预测。
进一步地,所述因果校验模块中,使用全科病人的二分类变量数据训练全科倾向性得分网络;将全科病人的特征变量数据和标签变量数据转换成二分类变量,对于类别变量,通过独热编码转换成二分类变量,对于连续变量,通过分箱转换至类别变量之后通过独热编码转换成二分类变量。
进一步地,所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层;
输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个
数M;局部连接层和sigmoid激活层均包含τM个节点,;输入层的第u个节点同局部连
接层的除第到τu个节点之外的所有节点相连;第到τu个局部连接
层节点同第到τu个sigmoid激活层节点一一对应连接;第到τu个
sigmoid激活层节点仅同第u个输出层节点相连。
进一步地,所述全科倾向性得分网络的训练过程如下:
对于每个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示,将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示,将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值;使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失。
进一步地,所述数据生成模块中,所述生成器由多层生成器模块构成,所述生成器模块包括规范化层、全连接层和激活层,所述生成器的最后一层生成器模块的激活层为sigmoid激活层;在训练过程中,将随机噪声以及对应的疾病标签输入第一生成器模块的规范化层,将规范化后的数据输入第一生成器模块的全连接层得到输入数据的第一特征表示,将第一特征表示输入第一生成器模块的激活层得到输入数据的第二特征表示,将第二特征表示作为下一层生成器模块的输入数据,最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
其中表示原始数据的第一事件变量a同第二事件变量r的因果效应值,
表示生成样本的第一事件变量a同第二事件变量r的因果效应值;表示与第二事件变量r
配对的第一事件变量集合;R表示疾病统计模块得到的少样本全科疾病集合;表示少样本
全科疾病r的频率。
进一步地,所述模型预测模块包括:
构建事件关系图:每个第一事件变量构成事件关系图中的一个第一事件节点,每个第二事件变量构成事件关系图中的一个第二事件节点,对于每个事件配对构建一条边;
生成第一事件节点和第二事件节点的节点嵌入表示;基于事件关系图构建度数矩阵Φ和邻接矩阵A;使用原始数据的因果效应值构建因果效应矩阵Ψ;
构建基于全科因果图卷积神经网络的全科多疾病预测模型,所述全科因果图卷积神经网络包含多个因果图卷积模块,所述因果图卷积模块包括因果图卷积层和激活层;
将上一因果图卷积模块的输出输入下一因果图卷积模块,直到得到最终疾病预测结果。
本发明的有益效果是:
1. 本发明对数据进行扩增的同时,考虑了特征之间的因果逻辑,使得产生的数据更加符合真实情况,这部分数据进行模型训练能够提升模型性能。
2. 相较于传统生成式对抗网络可解释性差的问题,本发明提出了基于因果校验的生成式对抗网络,使得生成的数据更加符合真实的因果逻辑,具有一定的因果可解释性。
3.针对现有图卷积神经网络仅从相关性角度建模的问题,本发明提出了全科因果图卷积神经网络,提升全科多疾病预测模型的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于因果校验数据生成的全科多疾病预测系统结构框图;
图2为本发明实施例提供的因果校验模块实现流程图;
图3为本发明实施例提供的全科倾向性得分网络结构图;
图4为本发明实施例提供的基于因果校验的生成式对抗网络结构图;
图5为本发明实施例提供的模型预测模块实现流程图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明提供一种基于因果校验的生成式对抗网络的医疗数据生成方法,并基于该方法构建了一套用以解决全科多疾病预测模型中因训练样本较少导致模型对少样本疾病预测较差问题的全科多疾病预测系统。如图1所示,本发明提供的基于因果校验数据生成的全科多疾病预测系统包括疾病统计模块、因果校验模块、数据生成模块和模型预测模块。
下述说明进一步给出了符合本申请要求的基于因果校验数据生成的全科多疾病预测系统各模块实现的部分实施例。
一、疾病统计模块
对所有种类全科疾病,统计各种疾病的样本数,计算各种疾病的样本比率。样本比率为样本数最多的疾病的样本数同各种疾病样本数的比率,例如对于感冒、胃炎、腹泻、发烧四种全科疾病,分别对应样本数10、20、30、40,分别对应样本比率4、2、4/3、1。
二、因果校验模块,实现流程如图2所示。
获取病人的特征变量数据以及标签变量数据。将特征变量数据以及标签变量数据按以下方法转换成二分类变量。对于类别变量,通过独热编码转换成二分类变量。对于连续变量,通过分箱转换至类别变量之后再通过独热编码转换成二分类变量。
特征变量集构成第一事件变量集合,标签变量集构成第二事件变量集合。第一事件变量集合为临床表现集合,例如{高血压,发烧,胸闷},第二事件变量集合为全科疾病集合,例如{感冒,胃炎,心血管疾病}。
对于第一事件变量集合中的任意一个第一事件变量同第二事件变量集合中的任意一个第二事件变量构成一个事件配对,计算所有事件配对的因果效应值,因果效应值计算方法如下。
记第一事件变量a和第二事件变量b构成事件配对δ;定义事件配对δ对应的协变量为第一事件变量集合中除第一事件变量a之外的变量,以事件配对高血压-感冒为例,协变量即第一事件变量集合{高血压,发烧,胸闷}中除高血压变量之外的变量,即{发烧,胸闷}。由于全科场景数据多样且复杂,传统的基于逻辑斯特回归的倾向性得分计算方法在处理非线性可分的数据能力有限。因此本发明构建了针对全科场景的全科倾向性得分网络,使用全科病人的二分类变量数据训练全科倾向性得分网络,并使用训练完成的全科倾向性得分网络计算全科倾向性得分。
全科倾向性得分表示病人在协变量条件下发生第一事件的概率。以{高血压,发烧,胸闷}为例,即发生发烧,胸闷的病人,其发生高血压的概率。
全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层。
具体地,输入层节点个数以及输出层节点个数均为第一事件变量集合中的第一事
件变量个数M。局部连接层以及sigmoid激活层均包含τM个节点,τ为可调节参数,,输
入层的第u个节点同局部连接层的除第到τu个局部连接层节点之外的所有节点
相连。第到τu个局部连接层节点同第到τu个sigmoid激活层节点
一一对应进行连接。第到τu个sigmoid激活层节点仅同第u个输出层节点相连。
局部连接层的有益效果为,局部连接层保证了输入层同输出层局部连接,对于每一个待预
测的第一事件变量,输入层的协变量特征节点同局部连接层、sigmoid激活层以及输出层的
第一事件变量节点构成一个局部网络,局部连接层保证了局部网络之间相互独立,使得被
预测的第一事件变量不会用于预测。
图3为一全科倾向性得分网络示例,该示例中,对于输入层节点1,其
同局部连接层除节点1,2之外的所有节点相连,局部连接层节点1连接sigmoid激活层节点
1,局部连接层节点2连接sigmoid激活层节点2,局部连接层节点1,2仅同输出层节点1相连。
全科倾向性得分网络的训练流程如下:
对于每一个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到
倾向性第一特征表示,将倾向性第一特征表示输入sigmoid激活层,得到倾向性第二特征表
示,将倾向性第二特征表示输入输出层得到第一事件变量a的预测值。使用所有第一事件变
量的预测值同所有第一事件变量的真实值计算倾向性损失,倾向性损失函数如下:
使用训练完成的全科倾向性得分网络计算全科病人i的对于第一事件变量a的全
科倾向性得分。使用全科倾向性得分计算第一事件变量同第二事件变量的因果效应值ATE,第一事件变量a同第二事件变量b的因果效应值公式如下:
三、数据生成模块
对于少样本全科疾病集合R,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据。
具体地,数据生成模型包括生成器和判别器。生成器由多层生成器模块构
成,其中z表示随机噪声,c表示待生成样本的疾病标签,生成器模块包括规范化层、全连接
层和激活层。生成器的最后一层生成器模块的激活层为sigmoid激活层,其余生成器模块的
激活层可以为relu激活层、sigmoid激活层、tanh激活层。判别器D由多层判别器模块构成,
判别器模块包括全连接层、Dropout层和激活层。
图4为基于因果校验的生成式对抗网络结构图。按照生成器训练流程以及判别器训练流程,迭代交替训练生成器以及判别器,最终得到训练完成的数据生成模型,下面详细阐述训练流程。
(1)生成器训练流程
S2:将随机噪声z以及对应的疾病标签c输入第一生成器模块的规范化层,规范化层用于对输入数据进行规范化操作,包括批标准化、样本标准化等,将规范化后的数据输入第一生成器模块的全连接层,得到输入数据的第一特征表示,将第一特征表示输入第一生成器模块的激活层,得到输入数据的第二特征表示,将第二特征表示作为下一层生成器模块的输入数据,逐层输入输出,最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
S3:使用因果校验模块计算生成样本的所有事件配对的因果效应值。
因果损失衡量了生成器的生成样本同原始数据因果符合程度,因果损失越小,生
成样本的内在因果关系同原始数据越一致。具体地,因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应
值的KL散度损失。对于样本特少的疾病,计算的原始数据对应的因果效应值方差较大,赋予
较小的权重以提升训练的稳定性。因果损失计算公式如下:
生成器总损失如下:
(2)判别器训练流程
S4:将抽取的正负样本,以及生成样本分别输入判别器D,得到预测的疾病标签。
四、模型预测模块,实现流程如图5所示。
获取待训练全科病人的特征数据以及疾病标签数据。对训练样本不足的疾病使用数据生成模块中训练完成的数据生成模型生成全科疾病数据。将训练样本连同生成的全科疾病数据一同用于训练全科多疾病预测模型,具体流程如下:
首先构建事件关系图,包括:
对于第一事件变量集合的每一个第一事件变量构成事件关系图中的一个第一事件节点,对于第二事件变量集合中的每一个第二事件变量构成事件关系图中的一个第二事件节点。对于每一个病人的每一对第一事件变量同第二事件变量构建一条边,从而完成事件关系图构建。
以一个病人的第一事件变量集合{发烧,胸闷},第二事件变量集合{急性呼吸道感染}为例。发烧同急性呼吸道感染之间构建一条边,胸闷同急性呼吸道感染构建一条边。
使用图表示学习算法生成第一事件节点以及第二事件节点的嵌入表示。基于事件
关系图构建对应的度数矩阵Φ以及邻接矩阵A。使用原始数据的因果效应值构建因果效应
矩阵Ψ,因果效应矩阵Ψ的行数和列数相同,为第一事件节点个数加上第二事件节点个数。
因果效应矩阵Ψ的第α行第β列元素记为,如果第α行为第一事件节点,第β列为第二事
件节点,则,否则。
构建基于全科因果图卷积神经网络的全科多疾病预测模型,全科因果图卷积神经
网络包含多个因果图卷积模块,因果图卷积模块包括因果图卷积层和激活层。因果图卷积
层为经过因果效应矩阵修正的图卷积层,通过加入因果效应修正来提高模型鲁棒性。将节
点嵌入表示输入第一因果图卷积模块的因果图卷积层,得到第一图特征表示:
将上一因果图卷积模块的输出输入下一因果图卷积模块,直到得到最终疾病预测结果。计算全科因果图卷积神经网络损失,损失函数为交叉熵损失函数。
迭代训练全科因果图卷积神经网络,得到训练完成的全科多疾病预测模型,并使用训练完成的全科多疾病预测模型对全科疾病进行预测。
本发明针对全科场景,提出适用于计算全科倾向性得分的全科倾向性得分网络;利用因果效应计算方法对生成式对抗网络生成的全科数据进行因果校验,使得生成的数据更符合真实的因果逻辑;生成器训练过程,对每一个少样本疾病从二项分布中生成相同数量的噪声点,并一同作为生成器的输入;判别器训练过程,从原始数据抽取正样本,并抽取相同数量但是标签不同的样本作为负样本,连同生成器生成的负样本一起用于训练判别器;针对少样本全科疾病,使用基于因果校验的生成式对抗网络对全科数据扩增,提升全科多疾病预测系统对少样本疾病的预测性能;提出基于全科因果图卷积神经网络的全科多疾病预测模型,融入因果效应值以提升全科多疾病预测系统对疾病的预测性能。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (10)
1.一种基于因果校验数据生成的全科多疾病预测系统,其特征在于,包括:
(1)疾病统计模块:用于统计各种全科疾病样本数,根据各种全科疾病样本比率得到少
样本全科疾病;所述样本比率为样本数最多的疾病的样本数同各种疾病样本数的比率,对
于全科疾病样本比率大于设定阈值的全科疾病,将其加入少样本全科疾病集合R,计算第r
种少样本全科疾病的频率,其中为第r种全科疾病样本数;
(2)因果校验模块:根据全科病人的特征变量集构成第一事件变量集合,根据全科病人的疾病标签变量集构成第二事件变量集合,任意第一事件变量同任意第二事件变量构成一个事件配对;
构建并训练全科倾向性得分网络,使用训练完成的全科倾向性得分网络计算全科倾向性得分,所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率;使用全科倾向性得分计算所有事件配对的因果效应值;
(3)数据生成模块:对于少样本全科疾病,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据;
所述数据生成模型包括生成器和判别器,所述生成器和所述判别器迭代交替训练;
所述生成器的训练过程包括:对于每种少样本全科疾病生成随机噪声,将随机噪声以及对应的疾病标签输入生成器得到生成样本;计算生成样本的所有事件配对的因果效应值;将生成样本以及对应的疾病标签输入判别器,得到判别结果;所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失;所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失;
所述判别器的训练过程包括:从原始数据中随机抽取正样本,并抽取相同数量但与正样本疾病标签不同的负样本;生成相同数量随机噪声,使用生成器得到生成样本;将正样本、负样本、生成样本分别输入判别器,得到判别结果;
(4)模型预测模块:获取待训练全科病人的特征数据和疾病标签数据,对少样本全科疾病使用数据生成模型生成全科疾病数据;将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型,使用训练完成的全科多疾病预测模型对全科疾病进行预测。
2.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述因果校验模块中,使用全科病人的二分类变量数据训练全科倾向性得分网络;将全科病人的特征变量数据和标签变量数据转换成二分类变量,对于类别变量,通过独热编码转换成二分类变量,对于连续变量,通过分箱转换至类别变量之后通过独热编码转换成二分类变量。
4.根据权利要求3所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述全科倾向性得分网络的训练过程如下:
对于每个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示,将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示,将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值;使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失。
6.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述数据生成模块中,所述生成器由多层生成器模块构成,所述生成器模块包括规范化层、全连接层和激活层,所述生成器的最后一层生成器模块的激活层为sigmoid激活层;在训练过程中,将随机噪声以及对应的疾病标签输入第一生成器模块的规范化层,将规范化后的数据输入第一生成器模块的全连接层得到输入数据的第一特征表示,将第一特征表示输入第一生成器模块的激活层得到输入数据的第二特征表示,将第二特征表示作为下一层生成器模块的输入数据,最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
10.根据权利要求1-9中任一项所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述模型预测模块包括:
构建事件关系图:每个第一事件变量构成事件关系图中的一个第一事件节点,每个第二事件变量构成事件关系图中的一个第二事件节点,对于每个事件配对构建一条边;
生成第一事件节点和第二事件节点的节点嵌入表示;基于事件关系图构建度数矩阵Φ和邻接矩阵A;使用原始数据的因果效应值构建因果效应矩阵Ψ;
构建基于全科因果图卷积神经网络的全科多疾病预测模型,所述全科因果图卷积神经网络包含多个因果图卷积模块,所述因果图卷积模块包括因果图卷积层和激活层;
将上一因果图卷积模块的输出输入下一因果图卷积模块,直到得到最终疾病预测结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547826.4A CN114664452B (zh) | 2022-05-20 | 2022-05-20 | 一种基于因果校验数据生成的全科多疾病预测系统 |
PCT/CN2023/089993 WO2023221739A1 (zh) | 2022-05-20 | 2023-04-23 | 一种基于因果校验数据生成的全科多疾病预测系统 |
US18/595,379 US20240212862A1 (en) | 2022-05-20 | 2024-03-04 | General multi-disease prediction system based on causal check data generation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547826.4A CN114664452B (zh) | 2022-05-20 | 2022-05-20 | 一种基于因果校验数据生成的全科多疾病预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114664452A CN114664452A (zh) | 2022-06-24 |
CN114664452B true CN114664452B (zh) | 2022-09-23 |
Family
ID=82037230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210547826.4A Active CN114664452B (zh) | 2022-05-20 | 2022-05-20 | 一种基于因果校验数据生成的全科多疾病预测系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240212862A1 (zh) |
CN (1) | CN114664452B (zh) |
WO (1) | WO2023221739A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114664452B (zh) * | 2022-05-20 | 2022-09-23 | 之江实验室 | 一种基于因果校验数据生成的全科多疾病预测系统 |
CN114864099B (zh) * | 2022-07-05 | 2022-11-01 | 浙江大学 | 一种基于因果关系挖掘的临床数据自动化生成方法及系统 |
CN115862869B (zh) * | 2022-12-15 | 2023-06-09 | 山东大学 | 一种基于因果网络不确定性推理的疾病预测预警系统 |
CN116434969B (zh) * | 2023-06-14 | 2023-09-12 | 之江实验室 | 一种基于因果结构不变性的多中心慢性病预测装置 |
CN117577333B (zh) * | 2024-01-17 | 2024-04-09 | 浙江大学 | 基于因果特征学习的多中心临床预后预测系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019089949A1 (en) * | 2017-11-01 | 2019-05-09 | Praeveni, Sbc | Methods and systems for a medical screening system |
CN109801687A (zh) * | 2019-01-15 | 2019-05-24 | 合肥工业大学 | 一种面向医学的因果关系知识库的构建方法和系统 |
CN113112311A (zh) * | 2021-05-12 | 2021-07-13 | 北京百度网讯科技有限公司 | 训练因果推断模型的方法、信息提示方法以装置 |
CN114022725A (zh) * | 2021-10-09 | 2022-02-08 | 北京鹰瞳科技发展股份有限公司 | 一种训练多病种转诊系统的方法、多病种转诊系统以及方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2541450A1 (en) * | 2011-07-01 | 2013-01-02 | Stichting Katholieke Universiteit | Patient mobile computing system and method for exacerbation prediction |
JP6354192B2 (ja) * | 2014-02-14 | 2018-07-11 | オムロン株式会社 | 因果ネットワーク生成システム |
US11636951B2 (en) * | 2019-10-02 | 2023-04-25 | Kpn Innovations, Llc. | Systems and methods for generating a genotypic causal model of a disease state |
CN111461168A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 训练样本扩充方法、装置、电子设备及存储介质 |
CN111563533B (zh) * | 2020-04-08 | 2023-05-02 | 华南理工大学 | 基于图卷积神经网络融合多种人脑图谱的受试者分类方法 |
CN113052316B (zh) * | 2021-03-01 | 2022-01-11 | 浙江师范大学 | 基于因果推理的知识追踪方法、系统、设备及存储介质 |
CN113128552B (zh) * | 2021-03-02 | 2024-02-02 | 杭州电子科技大学 | 一种基于深度可分离因果图卷积网络的脑电情绪识别方法 |
CN113298230B (zh) * | 2021-05-14 | 2024-04-09 | 武汉嫦娥医学抗衰机器人股份有限公司 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
CN114220549A (zh) * | 2021-12-16 | 2022-03-22 | 无锡中盾科技有限公司 | 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法 |
CN113990495B (zh) * | 2021-12-27 | 2022-04-29 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN114664452B (zh) * | 2022-05-20 | 2022-09-23 | 之江实验室 | 一种基于因果校验数据生成的全科多疾病预测系统 |
-
2022
- 2022-05-20 CN CN202210547826.4A patent/CN114664452B/zh active Active
-
2023
- 2023-04-23 WO PCT/CN2023/089993 patent/WO2023221739A1/zh unknown
-
2024
- 2024-03-04 US US18/595,379 patent/US20240212862A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019089949A1 (en) * | 2017-11-01 | 2019-05-09 | Praeveni, Sbc | Methods and systems for a medical screening system |
CN109801687A (zh) * | 2019-01-15 | 2019-05-24 | 合肥工业大学 | 一种面向医学的因果关系知识库的构建方法和系统 |
CN113112311A (zh) * | 2021-05-12 | 2021-07-13 | 北京百度网讯科技有限公司 | 训练因果推断模型的方法、信息提示方法以装置 |
CN114022725A (zh) * | 2021-10-09 | 2022-02-08 | 北京鹰瞳科技发展股份有限公司 | 一种训练多病种转诊系统的方法、多病种转诊系统以及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114664452A (zh) | 2022-06-24 |
WO2023221739A1 (zh) | 2023-11-23 |
US20240212862A1 (en) | 2024-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114664452B (zh) | 一种基于因果校验数据生成的全科多疾病预测系统 | |
CN108231201B (zh) | 一种疾病数据分析处理模型的构建方法、系统及应用方法 | |
Casiraghi et al. | Explainable machine learning for early assessment of COVID-19 risk prediction in emergency departments | |
KR100794516B1 (ko) | 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법 | |
CN109753571B (zh) | 一种基于二次主题空间投影的场景图谱低维空间嵌入方法 | |
EP3074918A1 (en) | Method and system for face image recognition | |
CN111275118B (zh) | 基于自我修正式标签生成网络的胸片多标签分类方法 | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN107480702A (zh) | 面向hcc病理图像识别的特征选择与特征融合方法 | |
Little et al. | Causal bootstrapping | |
CN116416478B (zh) | 一种基于图结构数据特征的生物信息学分类模型 | |
CN111310719B (zh) | 一种未知辐射源个体识别及检测的方法 | |
Al-Sadi et al. | JUST at ImageCLEF 2019 Visual Question Answering in the Medical Domain. | |
CN116340793A (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
CN107533587A (zh) | 用于估计样本中的分类单位内的微生物的量的方法和装置 | |
CN109597944B (zh) | 一种基于深度信念网络的单分类微博谣言检测模型 | |
CN113255543B (zh) | 基于图卷积网络的面部表情识别方法 | |
CN116994295A (zh) | 基于灰度样本自适应选择门的野生动物类别识别方法 | |
CN111786999A (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
CN113476065B (zh) | 一种多类肺炎诊断系统 | |
Siddiqa et al. | Robust Length of Stay Prediction Model for Indoor Patients. | |
CN112733941B (zh) | 基于神经网络的高鲁棒用户分类方法及系统 | |
CN112270996B (zh) | 一种可用于多变量医疗传感数据流的分类方法 | |
CN114330650A (zh) | 基于进化元学习模型训练的小样本特征分析方法及装置 | |
Marneni et al. | Analysis of Covid-19 using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |