CN114664452B - 一种基于因果校验数据生成的全科多疾病预测系统 - Google Patents

一种基于因果校验数据生成的全科多疾病预测系统 Download PDF

Info

Publication number
CN114664452B
CN114664452B CN202210547826.4A CN202210547826A CN114664452B CN 114664452 B CN114664452 B CN 114664452B CN 202210547826 A CN202210547826 A CN 202210547826A CN 114664452 B CN114664452 B CN 114664452B
Authority
CN
China
Prior art keywords
causal
event
general
disease
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210547826.4A
Other languages
English (en)
Other versions
CN114664452A (zh
Inventor
李劲松
王丰
张航
池胜强
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210547826.4A priority Critical patent/CN114664452B/zh
Publication of CN114664452A publication Critical patent/CN114664452A/zh
Application granted granted Critical
Publication of CN114664452B publication Critical patent/CN114664452B/zh
Priority to PCT/CN2023/089993 priority patent/WO2023221739A1/zh
Priority to US18/595,379 priority patent/US20240212862A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于因果校验数据生成的全科多疾病预测系统,本发明针对全科场景,从因果性的角度出发,提出了基于全科倾向性得分网络的倾向性得分计算方法;相较于传统生成式对抗网络可解释性差的问题,本发明提出了基于因果校验的生成式对抗网络,使得生成的数据更加符合真实的因果逻辑;针对现有图卷积神经网络仅从相关性角度建模的问题,本发明提出了基于全科因果图卷积神经网络的全科多疾病预测模型,融入因果效应值以提升全科多疾病预测系统对疾病的预测性能,解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。

Description

一种基于因果校验数据生成的全科多疾病预测系统
技术领域
本发明属于医疗健康信息技术领域,具体涉及一种基于因果校验数据生成的全科多疾病预测系统。
背景技术
随着信息技术的发展,机器学习已经成为推动医疗发展的重要力量。全科医学作为医疗领域受众面最广的医学学科,是机器学习模型在医疗场景应用的重点领域之一。然而,由于全科疾病多而繁杂,样本获取成本高等问题,部分疾病常常难以获取大量的训练数据,导致现有的全科多疾病预测系统对少样本疾病的预测效果不佳。目前迫切需要一套针对少样本的全科多疾病预测系统。
通过数据生成方法生成模拟数据是解决机器学习模型训练样本不足的常见方法。现有的数据生成方式主要是基于生成式对抗网络。生成式对抗网络在生成图像数据的时候表现良好。然而全科场景,数据种类繁多且结构复杂,尤其是结构化的医疗数据,包含以患者为中心的多种类特征数据,在时间、空间上存在异质性,数据分布较为复杂。传统生成式对抗网络难以处理分布复杂的结构化数据。一方面,使用少样本数据训练容易出现训练不稳定、梯度消失、模式崩溃的问题。另一方面,仅考虑了变量之间的相关性,没有考虑变量之间的因果关系,将导致其生成的数据常常难以理解,不符合常识,使用这些数据用于模型训练,可能不能提高甚至会削弱模型的训练效果。例如,感冒可分为病毒性感冒和细菌性感冒,也会用两种药。如果基于相关性模型生成发烧患者的数据,可能会生成同时使用病毒性感冒药和细菌性感冒药的情况,这会对后续构建模型产生干扰。
基于倾向性得分的因果效应值计算方法是最为常见衡量变量之间因果关系的方法。现有的倾向性得分计算方法大多是基于逻辑斯特回归,然而全科场景由于数据种类繁多,结构复杂且常常线性不可分,基于逻辑斯特回归的倾向性得分计算方法在全科场景表现不佳。
发明内容
本发明针对现有技术的不足,从因果性的角度出发,提出了基于全科倾向性得分网络的倾向性得分计算方法,并在此基础上提出了基于因果校验的生成式对抗网络的医疗数据生成方法,解决了基于相关性分析的生成式对抗网络生成数据难以理解的问题,构建了一套全科多疾病预测系统,解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。
本发明的目的是通过以下技术方案实现的:一种基于因果校验数据生成的全科多疾病预测系统,包括:
(1)疾病统计模块:用于统计各种全科疾病样本数,根据各种全科疾病样本比率得到少样本全科疾病;
(2)因果校验模块:根据全科病人的特征变量集构成第一事件变量集合,疾病标签变量集构成第二事件变量集合,任意第一事件变量同任意第二事件变量构成一个事件配对;
构建并训练全科倾向性得分网络,使用训练完成的全科倾向性得分网络计算全科倾向性得分,所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率;使用全科倾向性得分计算所有事件配对的因果效应值;
(3)数据生成模块:对于少样本全科疾病,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据;
所述数据生成模型包括生成器和判别器,所述生成器和所述判别器迭代交替训练;
所述生成器的训练过程包括:对于每种少样本全科疾病生成随机噪声,将随机噪声以及对应的疾病标签输入生成器得到生成样本;计算生成样本的所有事件配对的因果效应值;将生成样本以及对应的疾病标签输入判别器,得到判别结果;所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失;所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失;
所述判别器的训练过程包括:从原始数据中随机抽取正样本,并抽取相同数量但疾病标签不同的负样本;生成相同数量随机噪声,使用生成器得到生成样本;将正样本、负样本、生成样本分别输入判别器,得到判别结果;
(4)模型预测模块:获取待训练全科病人的特征数据和疾病标签数据,对少样本全科疾病使用数据生成模型生成全科疾病数据;将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型,使用训练完成的全科多疾病预测模型对全科疾病进行预测。
进一步地,所述因果校验模块中,使用全科病人的二分类变量数据训练全科倾向性得分网络;将全科病人的特征变量数据和标签变量数据转换成二分类变量,对于类别变量,通过独热编码转换成二分类变量,对于连续变量,通过分箱转换至类别变量之后通过独热编码转换成二分类变量。
进一步地,所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层;
输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个 数M;局部连接层和sigmoid激活层均包含τM个节点,
Figure 816924DEST_PATH_IMAGE001
;输入层的第u个节点同局部连 接层的除第
Figure 446488DEST_PATH_IMAGE002
τu个节点之外的所有节点相连;第
Figure 541483DEST_PATH_IMAGE003
τu个局部连接 层节点同第
Figure 522077DEST_PATH_IMAGE002
τu个sigmoid激活层节点一一对应连接;第
Figure 219775DEST_PATH_IMAGE004
τu个 sigmoid激活层节点仅同第u个输出层节点相连。
进一步地,所述全科倾向性得分网络的训练过程如下:
对于每个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示,将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示,将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值;使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失。
进一步地,所述因果校验模块中,使用训练完成的全科倾向性得分网络计算全科 病人i对于第一事件变量a的全科倾向性得分
Figure 579212DEST_PATH_IMAGE005
,使用全科倾向性得分计算第一事件变量a 同第二事件变量b的因果效应值
Figure 969742DEST_PATH_IMAGE006
,计算公式如下:
Figure 47420DEST_PATH_IMAGE007
其中n表示待研究病人总数,
Figure 814387DEST_PATH_IMAGE008
表示第i个病人第一事件变量真实值;
Figure 293910DEST_PATH_IMAGE009
表示第i个 病人第二事件变量真实值。
进一步地,所述数据生成模块中,所述生成器由多层生成器模块构成,所述生成器模块包括规范化层、全连接层和激活层,所述生成器的最后一层生成器模块的激活层为sigmoid激活层;在训练过程中,将随机噪声以及对应的疾病标签输入第一生成器模块的规范化层,将规范化后的数据输入第一生成器模块的全连接层得到输入数据的第一特征表示,将第一特征表示输入第一生成器模块的激活层得到输入数据的第二特征表示,将第二特征表示作为下一层生成器模块的输入数据,最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
进一步地,所述数据生成模块中,因果损失
Figure 855342DEST_PATH_IMAGE010
计算公式如下:
Figure 420315DEST_PATH_IMAGE011
其中
Figure 725394DEST_PATH_IMAGE012
表示原始数据的第一事件变量a同第二事件变量r的因果效应值,
Figure 59424DEST_PATH_IMAGE013
表示生成样本的第一事件变量a同第二事件变量r的因果效应值;
Figure 809335DEST_PATH_IMAGE014
表示与第二事件变量r 配对的第一事件变量集合;R表示疾病统计模块得到的少样本全科疾病集合;
Figure 596025DEST_PATH_IMAGE015
表示少样本 全科疾病r的频率。
进一步地,所述数据生成模块中,判别器对抗损失
Figure 704795DEST_PATH_IMAGE016
计算公式如下:
Figure 158910DEST_PATH_IMAGE017
其中N为随机噪声数据量,
Figure 62144DEST_PATH_IMAGE018
为第i个生成样本经判别器判别为对应疾病真实数据 的概率;
正则项损失
Figure 336131DEST_PATH_IMAGE019
计算公式如下:
Figure 983013DEST_PATH_IMAGE020
其中
Figure 291635DEST_PATH_IMAGE021
表示L1范数,w表示生成器模型参数。
进一步地,所述数据生成模块中,所述判别器的总损失
Figure 100191DEST_PATH_IMAGE022
计算公式如下:
Figure 127052DEST_PATH_IMAGE023
其中
Figure 312046DEST_PATH_IMAGE024
为正样本数量,
Figure 599808DEST_PATH_IMAGE025
为正样本对应的疾病标签,
Figure 720211DEST_PATH_IMAGE026
分别为抽取的第k 个正样本、抽取的第k个负样本、使用生成器得到的第k个生成样本,
Figure 359002DEST_PATH_IMAGE027
分别为正样本
Figure 223053DEST_PATH_IMAGE028
、负样本
Figure 365322DEST_PATH_IMAGE029
、生成样本
Figure 922205DEST_PATH_IMAGE030
经判别器判定为疾 病
Figure 782713DEST_PATH_IMAGE031
真实数据的概率。
进一步地,所述模型预测模块包括:
构建事件关系图:每个第一事件变量构成事件关系图中的一个第一事件节点,每个第二事件变量构成事件关系图中的一个第二事件节点,对于每个事件配对构建一条边;
生成第一事件节点和第二事件节点的节点嵌入表示;基于事件关系图构建度数矩阵Φ和邻接矩阵A;使用原始数据的因果效应值构建因果效应矩阵Ψ
构建基于全科因果图卷积神经网络的全科多疾病预测模型,所述全科因果图卷积神经网络包含多个因果图卷积模块,所述因果图卷积模块包括因果图卷积层和激活层;
将节点嵌入表示输入第一因果图卷积模块的因果图卷积层,得到第一图特征表示
Figure 450455DEST_PATH_IMAGE032
Figure 447230DEST_PATH_IMAGE033
其中
Figure 175015DEST_PATH_IMAGE034
表示节点嵌入表示,
Figure 522819DEST_PATH_IMAGE035
表示因果图卷积层权值,I表示单位矩阵,
Figure 728673DEST_PATH_IMAGE036
表示 矩阵各元素相乘;
Figure 845533DEST_PATH_IMAGE037
输入第一因果图卷积模块的激活层得到第一因果图卷积模块的输出
Figure 478640DEST_PATH_IMAGE038
将上一因果图卷积模块的输出输入下一因果图卷积模块,直到得到最终疾病预测结果。
本发明的有益效果是:
1. 本发明对数据进行扩增的同时,考虑了特征之间的因果逻辑,使得产生的数据更加符合真实情况,这部分数据进行模型训练能够提升模型性能。
2. 相较于传统生成式对抗网络可解释性差的问题,本发明提出了基于因果校验的生成式对抗网络,使得生成的数据更加符合真实的因果逻辑,具有一定的因果可解释性。
3.针对现有图卷积神经网络仅从相关性角度建模的问题,本发明提出了全科因果图卷积神经网络,提升全科多疾病预测模型的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于因果校验数据生成的全科多疾病预测系统结构框图;
图2为本发明实施例提供的因果校验模块实现流程图;
图3为本发明实施例提供的全科倾向性得分网络结构图;
图4为本发明实施例提供的基于因果校验的生成式对抗网络结构图;
图5为本发明实施例提供的模型预测模块实现流程图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明提供一种基于因果校验的生成式对抗网络的医疗数据生成方法,并基于该方法构建了一套用以解决全科多疾病预测模型中因训练样本较少导致模型对少样本疾病预测较差问题的全科多疾病预测系统。如图1所示,本发明提供的基于因果校验数据生成的全科多疾病预测系统包括疾病统计模块、因果校验模块、数据生成模块和模型预测模块。
下述说明进一步给出了符合本申请要求的基于因果校验数据生成的全科多疾病预测系统各模块实现的部分实施例。
一、疾病统计模块
对所有种类全科疾病,统计各种疾病的样本数,计算各种疾病的样本比率。样本比率为样本数最多的疾病的样本数同各种疾病样本数的比率,例如对于感冒、胃炎、腹泻、发烧四种全科疾病,分别对应样本数10、20、30、40,分别对应样本比率4、2、4/3、1。
对于疾病样本比率大于设定阈值(可调参数,根据实际情况设定)的疾病,将其加 入少样本全科疾病集合R,计算第r种少样本全科疾病的频率
Figure 313741DEST_PATH_IMAGE039
,其中
Figure 57706DEST_PATH_IMAGE040
为第r种疾病的样本数。
二、因果校验模块,实现流程如图2所示。
获取病人的特征变量数据以及标签变量数据。将特征变量数据以及标签变量数据按以下方法转换成二分类变量。对于类别变量,通过独热编码转换成二分类变量。对于连续变量,通过分箱转换至类别变量之后再通过独热编码转换成二分类变量。
特征变量集构成第一事件变量集合,标签变量集构成第二事件变量集合。第一事件变量集合为临床表现集合,例如{高血压,发烧,胸闷},第二事件变量集合为全科疾病集合,例如{感冒,胃炎,心血管疾病}。
对于第一事件变量集合中的任意一个第一事件变量同第二事件变量集合中的任意一个第二事件变量构成一个事件配对,计算所有事件配对的因果效应值,因果效应值计算方法如下。
记第一事件变量a和第二事件变量b构成事件配对δ;定义事件配对δ对应的协变量为第一事件变量集合中除第一事件变量a之外的变量,以事件配对高血压-感冒为例,协变量即第一事件变量集合{高血压,发烧,胸闷}中除高血压变量之外的变量,即{发烧,胸闷}。由于全科场景数据多样且复杂,传统的基于逻辑斯特回归的倾向性得分计算方法在处理非线性可分的数据能力有限。因此本发明构建了针对全科场景的全科倾向性得分网络,使用全科病人的二分类变量数据训练全科倾向性得分网络,并使用训练完成的全科倾向性得分网络计算全科倾向性得分。
全科倾向性得分表示病人在协变量条件下发生第一事件的概率。以{高血压,发烧,胸闷}为例,即发生发烧,胸闷的病人,其发生高血压的概率。
全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层。
具体地,输入层节点个数以及输出层节点个数均为第一事件变量集合中的第一事 件变量个数M。局部连接层以及sigmoid激活层均包含τM个节点,τ为可调节参数,
Figure 560231DEST_PATH_IMAGE041
,输 入层的第u个节点同局部连接层的除第
Figure 98660DEST_PATH_IMAGE042
τu个局部连接层节点之外的所有节点 相连。第
Figure 686636DEST_PATH_IMAGE043
τu个局部连接层节点同第
Figure 968713DEST_PATH_IMAGE044
τu个sigmoid激活层节点 一一对应进行连接。第
Figure 331604DEST_PATH_IMAGE045
τu个sigmoid激活层节点仅同第u个输出层节点相连。 局部连接层的有益效果为,局部连接层保证了输入层同输出层局部连接,对于每一个待预 测的第一事件变量,输入层的协变量特征节点同局部连接层、sigmoid激活层以及输出层的 第一事件变量节点构成一个局部网络,局部连接层保证了局部网络之间相互独立,使得被 预测的第一事件变量不会用于预测。
图3为一全科倾向性得分网络示例,该示例中
Figure 40934DEST_PATH_IMAGE046
,对于输入层节点1,其 同局部连接层除节点1,2之外的所有节点相连,局部连接层节点1连接sigmoid激活层节点 1,局部连接层节点2连接sigmoid激活层节点2,局部连接层节点1,2仅同输出层节点1相连。
全科倾向性得分网络的训练流程如下:
对于每一个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到 倾向性第一特征表示,将倾向性第一特征表示输入sigmoid激活层,得到倾向性第二特征表 示,将倾向性第二特征表示输入输出层得到第一事件变量a的预测值。使用所有第一事件变 量的预测值同所有第一事件变量的真实值计算倾向性损失,倾向性损失函数
Figure 116207DEST_PATH_IMAGE047
如下:
Figure 201974DEST_PATH_IMAGE048
其中
Figure 413513DEST_PATH_IMAGE049
表示训练样本总数,
Figure 559323DEST_PATH_IMAGE050
表示训练样本f的第一事件变量a的真实值,
Figure 590733DEST_PATH_IMAGE051
表 示训练样本f的第一事件变量a的预测值。
使用训练完成的全科倾向性得分网络计算全科病人i的对于第一事件变量a的全 科倾向性得分
Figure 480192DEST_PATH_IMAGE052
。使用全科倾向性得分计算第一事件变量同第二事件变量的因果效应值ATE,第一事件变量a同第二事件变量b的因果效应值
Figure 811816DEST_PATH_IMAGE053
公式如下:
Figure 128528DEST_PATH_IMAGE054
其中n表示待研究病人总数,
Figure 647234DEST_PATH_IMAGE055
表示第i个病人第一事件变量真实值;
Figure 74804DEST_PATH_IMAGE056
表示第i个 病人第二事件变量真实值,
Figure 995356DEST_PATH_IMAGE057
表示第i个病人发生了第二事件,
Figure 748548DEST_PATH_IMAGE058
表示第i个病人未 发生第二事件。
三、数据生成模块
对于少样本全科疾病集合R,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据。
具体地,数据生成模型包括生成器和判别器。生成器
Figure 754550DEST_PATH_IMAGE059
由多层生成器模块构 成,其中z表示随机噪声,c表示待生成样本的疾病标签,生成器模块包括规范化层、全连接 层和激活层。生成器的最后一层生成器模块的激活层为sigmoid激活层,其余生成器模块的 激活层可以为relu激活层、sigmoid激活层、tanh激活层。判别器D由多层判别器模块构成, 判别器模块包括全连接层、Dropout层和激活层。
图4为基于因果校验的生成式对抗网络结构图。按照生成器训练流程以及判别器训练流程,迭代交替训练生成器以及判别器,最终得到训练完成的数据生成模型,下面详细阐述训练流程。
(1)生成器训练流程
S1:对于少样本全科疾病集合R中的每种疾病r,从二项分布中随机生成
Figure 985811DEST_PATH_IMAGE060
个噪声 点
Figure 760869DEST_PATH_IMAGE061
,对应的疾病标签
Figure 684963DEST_PATH_IMAGE062
。对于所有v种疾病,生成
Figure 178261DEST_PATH_IMAGE063
个随机噪声数据和疾病标签数据,随机噪声数据
Figure 213213DEST_PATH_IMAGE064
,疾病标签数 据
Figure 108357DEST_PATH_IMAGE065
S2:将随机噪声z以及对应的疾病标签c输入第一生成器模块的规范化层,规范化层用于对输入数据进行规范化操作,包括批标准化、样本标准化等,将规范化后的数据输入第一生成器模块的全连接层,得到输入数据的第一特征表示,将第一特征表示输入第一生成器模块的激活层,得到输入数据的第二特征表示,将第二特征表示作为下一层生成器模块的输入数据,逐层输入输出,最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
S3:使用因果校验模块计算生成样本的所有事件配对的因果效应值。
S4:将生成样本以及疾病标签输入判别器,得到判别器将生成样本判别为对应疾 病真实数据的概率
Figure 937773DEST_PATH_IMAGE066
S5:计算生成器总损失L,包括判别器对抗损失
Figure 918367DEST_PATH_IMAGE067
、因果损失
Figure 491431DEST_PATH_IMAGE068
以及正则项损失
Figure 241081DEST_PATH_IMAGE069
判别器对抗损失衡量了生成器的生成样本被判别器判别为真的程度,判别器对抗 损失越小,生成样本越易被判别为真。判别器对抗损失
Figure 506977DEST_PATH_IMAGE070
计算公式如下:
Figure 709289DEST_PATH_IMAGE071
其中
Figure 351623DEST_PATH_IMAGE072
为第i个生成样本经判别器判别为对应疾病真实数据的概率。
因果损失衡量了生成器的生成样本同原始数据因果符合程度,因果损失越小,生 成样本的内在因果关系同原始数据越一致。具体地,因果损失为经过少样本全科疾病频率
Figure 955779DEST_PATH_IMAGE073
矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应 值的KL散度损失。对于样本特少的疾病,计算的原始数据对应的因果效应值方差较大,赋予 较小的权重以提升训练的稳定性。因果损失
Figure 251631DEST_PATH_IMAGE074
计算公式如下:
Figure 816605DEST_PATH_IMAGE075
其中
Figure 997051DEST_PATH_IMAGE076
表示原始数据的第一事件变量a同第二事件变量r的因果效应值,
Figure 449854DEST_PATH_IMAGE077
表示生成样本的第一事件变量a同第二事件变量r的因果效应值;
Figure 182187DEST_PATH_IMAGE078
表示与第二事件 变量r配对的第一事件变量集合;
Figure 234457DEST_PATH_IMAGE079
表示少样本全科疾病r的频率。
正则项损失
Figure 218593DEST_PATH_IMAGE080
计算公式如下:
Figure 531763DEST_PATH_IMAGE081
其中
Figure 575942DEST_PATH_IMAGE082
表示
Figure 974562DEST_PATH_IMAGE083
范数,w表示生成器模型参数。
生成器总损失如下:
Figure 762390DEST_PATH_IMAGE084
(2)判别器训练流程
S1:从原始数据即全科数据集中随机抽取
Figure 930066DEST_PATH_IMAGE085
个病人样本
Figure 4201DEST_PATH_IMAGE086
作为正样本,
Figure 765484DEST_PATH_IMAGE087
分别表示抽取的第k个正样 本的特征数据和疾病标签。
S2:从原始数据中随机抽取
Figure 216057DEST_PATH_IMAGE088
个病人样本
Figure 379185DEST_PATH_IMAGE089
作为负样本,
Figure 624221DEST_PATH_IMAGE090
分别表示抽取的第k个负样 本的特征数据和疾病标签。抽样时需保证第k个正样本同第k个负样本对应的疾病标签不一 样,即
Figure 138379DEST_PATH_IMAGE091
S3:从二项分布中随机采样出
Figure 127064DEST_PATH_IMAGE092
个噪声点
Figure 144699DEST_PATH_IMAGE093
,并使用生成器得 到生成样本,第k个生成样本
Figure 826216DEST_PATH_IMAGE094
表示如下:
Figure 562090DEST_PATH_IMAGE095
S4:将抽取的正负样本,以及生成样本分别输入判别器D,得到预测的疾病标签。
S5:计算判别器总损失
Figure 88887DEST_PATH_IMAGE096
,计算公式如下:
Figure 961028DEST_PATH_IMAGE097
其中
Figure 813446DEST_PATH_IMAGE098
分别为正样本、负样本、生成样本经判别器D判 别为疾病
Figure 771038DEST_PATH_IMAGE099
真实数据的概率。
四、模型预测模块,实现流程如图5所示。
获取待训练全科病人的特征数据以及疾病标签数据。对训练样本不足的疾病使用数据生成模块中训练完成的数据生成模型生成全科疾病数据。将训练样本连同生成的全科疾病数据一同用于训练全科多疾病预测模型,具体流程如下:
首先构建事件关系图,包括:
对于第一事件变量集合的每一个第一事件变量构成事件关系图中的一个第一事件节点,对于第二事件变量集合中的每一个第二事件变量构成事件关系图中的一个第二事件节点。对于每一个病人的每一对第一事件变量同第二事件变量构建一条边,从而完成事件关系图构建。
以一个病人的第一事件变量集合{发烧,胸闷},第二事件变量集合{急性呼吸道感染}为例。发烧同急性呼吸道感染之间构建一条边,胸闷同急性呼吸道感染构建一条边。
使用图表示学习算法生成第一事件节点以及第二事件节点的嵌入表示。基于事件 关系图构建对应的度数矩阵Φ以及邻接矩阵A。使用原始数据的因果效应值构建因果效应 矩阵Ψ,因果效应矩阵Ψ的行数和列数相同,为第一事件节点个数加上第二事件节点个数。 因果效应矩阵Ψ的第α行第β列元素记为
Figure 367104DEST_PATH_IMAGE100
,如果第α行为第一事件节点,第β列为第二事 件节点,则
Figure 359331DEST_PATH_IMAGE101
,否则
Figure 117072DEST_PATH_IMAGE102
构建基于全科因果图卷积神经网络的全科多疾病预测模型,全科因果图卷积神经 网络包含多个因果图卷积模块,因果图卷积模块包括因果图卷积层和激活层。因果图卷积 层为经过因果效应矩阵修正的图卷积层,通过加入因果效应修正来提高模型鲁棒性。将节 点嵌入表示输入第一因果图卷积模块的因果图卷积层,得到第一图特征表示
Figure 827539DEST_PATH_IMAGE103
Figure 961717DEST_PATH_IMAGE104
其中
Figure 808450DEST_PATH_IMAGE105
表示节点嵌入表示,
Figure 2671DEST_PATH_IMAGE106
表示第一因果图卷积模块的因果图卷积层的权 值,可训练得到,I表示单位矩阵,
Figure 934855DEST_PATH_IMAGE107
表示矩阵各元素相乘。
将第一图特征表示
Figure 613004DEST_PATH_IMAGE108
输入第一因果图卷积模块的激活层得到第一因果图卷积模 块的输出
Figure 704457DEST_PATH_IMAGE109
Figure 679366DEST_PATH_IMAGE110
其中
Figure 630004DEST_PATH_IMAGE111
表示激活函数
将上一因果图卷积模块的输出输入下一因果图卷积模块,直到得到最终疾病预测结果。计算全科因果图卷积神经网络损失,损失函数为交叉熵损失函数。
迭代训练全科因果图卷积神经网络,得到训练完成的全科多疾病预测模型,并使用训练完成的全科多疾病预测模型对全科疾病进行预测。
本发明针对全科场景,提出适用于计算全科倾向性得分的全科倾向性得分网络;利用因果效应计算方法对生成式对抗网络生成的全科数据进行因果校验,使得生成的数据更符合真实的因果逻辑;生成器训练过程,对每一个少样本疾病从二项分布中生成相同数量的噪声点,并一同作为生成器的输入;判别器训练过程,从原始数据抽取正样本,并抽取相同数量但是标签不同的样本作为负样本,连同生成器生成的负样本一起用于训练判别器;针对少样本全科疾病,使用基于因果校验的生成式对抗网络对全科数据扩增,提升全科多疾病预测系统对少样本疾病的预测性能;提出基于全科因果图卷积神经网络的全科多疾病预测模型,融入因果效应值以提升全科多疾病预测系统对疾病的预测性能。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种基于因果校验数据生成的全科多疾病预测系统,其特征在于,包括:
(1)疾病统计模块:用于统计各种全科疾病样本数,根据各种全科疾病样本比率得到少 样本全科疾病;所述样本比率为样本数最多的疾病的样本数同各种疾病样本数的比率,对 于全科疾病样本比率大于设定阈值的全科疾病,将其加入少样本全科疾病集合R,计算第r 种少样本全科疾病的频率
Figure DEST_PATH_IMAGE001
,其中
Figure 97358DEST_PATH_IMAGE002
为第r种全科疾病样本数;
(2)因果校验模块:根据全科病人的特征变量集构成第一事件变量集合,根据全科病人的疾病标签变量集构成第二事件变量集合,任意第一事件变量同任意第二事件变量构成一个事件配对;
构建并训练全科倾向性得分网络,使用训练完成的全科倾向性得分网络计算全科倾向性得分,所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率;使用全科倾向性得分计算所有事件配对的因果效应值;
(3)数据生成模块:对于少样本全科疾病,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据;
所述数据生成模型包括生成器和判别器,所述生成器和所述判别器迭代交替训练;
所述生成器的训练过程包括:对于每种少样本全科疾病生成随机噪声,将随机噪声以及对应的疾病标签输入生成器得到生成样本;计算生成样本的所有事件配对的因果效应值;将生成样本以及对应的疾病标签输入判别器,得到判别结果;所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失;所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失;
所述判别器的训练过程包括:从原始数据中随机抽取正样本,并抽取相同数量但与正样本疾病标签不同的负样本;生成相同数量随机噪声,使用生成器得到生成样本;将正样本、负样本、生成样本分别输入判别器,得到判别结果;
(4)模型预测模块:获取待训练全科病人的特征数据和疾病标签数据,对少样本全科疾病使用数据生成模型生成全科疾病数据;将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型,使用训练完成的全科多疾病预测模型对全科疾病进行预测。
2.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述因果校验模块中,使用全科病人的二分类变量数据训练全科倾向性得分网络;将全科病人的特征变量数据和标签变量数据转换成二分类变量,对于类别变量,通过独热编码转换成二分类变量,对于连续变量,通过分箱转换至类别变量之后通过独热编码转换成二分类变量。
3.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层;
输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个数M; 局部连接层和sigmoid激活层均包含τM个节点,
Figure DEST_PATH_IMAGE003
;输入层的第u个节点同局部连接层 的除第
Figure 690145DEST_PATH_IMAGE004
τu个节点之外的所有节点相连;第
Figure DEST_PATH_IMAGE005
τu个局部连接层节 点同第
Figure 147671DEST_PATH_IMAGE006
τu个sigmoid激活层节点一一对应连接;第
Figure 306251DEST_PATH_IMAGE006
τu个 sigmoid激活层节点仅同第u个输出层节点相连。
4.根据权利要求3所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述全科倾向性得分网络的训练过程如下:
对于每个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示,将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示,将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值;使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失。
5.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于, 所述因果校验模块中,使用训练完成的全科倾向性得分网络计算全科病人i对于第一事件 变量a的全科倾向性得分
Figure DEST_PATH_IMAGE007
,使用全科倾向性得分计算第一事件变量a同第二事件变量b的 因果效应值
Figure 925451DEST_PATH_IMAGE008
,计算公式如下:
Figure 268183DEST_PATH_IMAGE009
其中n表示待研究病人总数,
Figure 935925DEST_PATH_IMAGE010
表示第i个病人第一事件变量真实值;
Figure DEST_PATH_IMAGE011
表示第i个病人 第二事件变量真实值。
6.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述数据生成模块中,所述生成器由多层生成器模块构成,所述生成器模块包括规范化层、全连接层和激活层,所述生成器的最后一层生成器模块的激活层为sigmoid激活层;在训练过程中,将随机噪声以及对应的疾病标签输入第一生成器模块的规范化层,将规范化后的数据输入第一生成器模块的全连接层得到输入数据的第一特征表示,将第一特征表示输入第一生成器模块的激活层得到输入数据的第二特征表示,将第二特征表示作为下一层生成器模块的输入数据,最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
7.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于, 所述数据生成模块中,因果损失
Figure 276908DEST_PATH_IMAGE012
计算公式如下:
Figure DEST_PATH_IMAGE013
其中
Figure 67009DEST_PATH_IMAGE014
表示原始数据的第一事件变量a同第二事件变量r的因果效应值,
Figure DEST_PATH_IMAGE015
表示 生成样本的第一事件变量a同第二事件变量r的因果效应值;
Figure 634388DEST_PATH_IMAGE016
表示与第二事件变量r配对 的第一事件变量集合;所述第二事件变量集合为全科疾病集合,所述第二事件变量r对应少 样本全科疾病集合R中的少样本全科疾病r
8.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于, 所述数据生成模块中,判别器对抗损失
Figure DEST_PATH_IMAGE017
计算公式如下:
Figure 699296DEST_PATH_IMAGE018
其中N为随机噪声数据量,
Figure DEST_PATH_IMAGE019
为第i个生成样本经判别器判别为对应疾病真实数据的概 率;
正则项损失
Figure 770151DEST_PATH_IMAGE020
计算公式如下:
Figure DEST_PATH_IMAGE021
其中
Figure 262312DEST_PATH_IMAGE022
表示L1范数,w表示生成器模型参数。
9.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于, 所述数据生成模块中,所述判别器的总损失
Figure DEST_PATH_IMAGE023
计算公式如下:
Figure 337495DEST_PATH_IMAGE024
其中
Figure DEST_PATH_IMAGE025
为正样本数量,
Figure 674935DEST_PATH_IMAGE026
为正样本对应的疾病标签,
Figure DEST_PATH_IMAGE027
分别为抽取的第k个正 样本、抽取的第k个负样本、使用生成器得到的第k个生成样本,
Figure 131456DEST_PATH_IMAGE028
分别为正样本
Figure DEST_PATH_IMAGE029
、负样本
Figure 263360DEST_PATH_IMAGE030
、生成样本
Figure DEST_PATH_IMAGE031
经判别器判定为疾 病
Figure 805331DEST_PATH_IMAGE032
真实数据的概率。
10.根据权利要求1-9中任一项所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述模型预测模块包括:
构建事件关系图:每个第一事件变量构成事件关系图中的一个第一事件节点,每个第二事件变量构成事件关系图中的一个第二事件节点,对于每个事件配对构建一条边;
生成第一事件节点和第二事件节点的节点嵌入表示;基于事件关系图构建度数矩阵Φ和邻接矩阵A;使用原始数据的因果效应值构建因果效应矩阵Ψ
构建基于全科因果图卷积神经网络的全科多疾病预测模型,所述全科因果图卷积神经网络包含多个因果图卷积模块,所述因果图卷积模块包括因果图卷积层和激活层;
将节点嵌入表示输入第一因果图卷积模块的因果图卷积层,得到第一图特征表示
Figure 477620DEST_PATH_IMAGE034
Figure 444439DEST_PATH_IMAGE036
其中
Figure 560294DEST_PATH_IMAGE038
表示节点嵌入表示,
Figure 979774DEST_PATH_IMAGE040
表示因果图卷积层权值,I表示单位矩阵,
Figure 455755DEST_PATH_IMAGE042
表示矩阵各元素相乘;
Figure 11501DEST_PATH_IMAGE044
输入第一因果图卷积模块的激活层得到第一因果图卷积模块的输出
Figure 295327DEST_PATH_IMAGE046
将上一因果图卷积模块的输出输入下一因果图卷积模块,直到得到最终疾病预测结果。
CN202210547826.4A 2022-05-20 2022-05-20 一种基于因果校验数据生成的全科多疾病预测系统 Active CN114664452B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210547826.4A CN114664452B (zh) 2022-05-20 2022-05-20 一种基于因果校验数据生成的全科多疾病预测系统
PCT/CN2023/089993 WO2023221739A1 (zh) 2022-05-20 2023-04-23 一种基于因果校验数据生成的全科多疾病预测系统
US18/595,379 US20240212862A1 (en) 2022-05-20 2024-03-04 General multi-disease prediction system based on causal check data generation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210547826.4A CN114664452B (zh) 2022-05-20 2022-05-20 一种基于因果校验数据生成的全科多疾病预测系统

Publications (2)

Publication Number Publication Date
CN114664452A CN114664452A (zh) 2022-06-24
CN114664452B true CN114664452B (zh) 2022-09-23

Family

ID=82037230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210547826.4A Active CN114664452B (zh) 2022-05-20 2022-05-20 一种基于因果校验数据生成的全科多疾病预测系统

Country Status (3)

Country Link
US (1) US20240212862A1 (zh)
CN (1) CN114664452B (zh)
WO (1) WO2023221739A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114664452B (zh) * 2022-05-20 2022-09-23 之江实验室 一种基于因果校验数据生成的全科多疾病预测系统
CN114864099B (zh) * 2022-07-05 2022-11-01 浙江大学 一种基于因果关系挖掘的临床数据自动化生成方法及系统
CN115862869B (zh) * 2022-12-15 2023-06-09 山东大学 一种基于因果网络不确定性推理的疾病预测预警系统
CN116434969B (zh) * 2023-06-14 2023-09-12 之江实验室 一种基于因果结构不变性的多中心慢性病预测装置
CN117577333B (zh) * 2024-01-17 2024-04-09 浙江大学 基于因果特征学习的多中心临床预后预测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019089949A1 (en) * 2017-11-01 2019-05-09 Praeveni, Sbc Methods and systems for a medical screening system
CN109801687A (zh) * 2019-01-15 2019-05-24 合肥工业大学 一种面向医学的因果关系知识库的构建方法和系统
CN113112311A (zh) * 2021-05-12 2021-07-13 北京百度网讯科技有限公司 训练因果推断模型的方法、信息提示方法以装置
CN114022725A (zh) * 2021-10-09 2022-02-08 北京鹰瞳科技发展股份有限公司 一种训练多病种转诊系统的方法、多病种转诊系统以及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2541450A1 (en) * 2011-07-01 2013-01-02 Stichting Katholieke Universiteit Patient mobile computing system and method for exacerbation prediction
JP6354192B2 (ja) * 2014-02-14 2018-07-11 オムロン株式会社 因果ネットワーク生成システム
US11636951B2 (en) * 2019-10-02 2023-04-25 Kpn Innovations, Llc. Systems and methods for generating a genotypic causal model of a disease state
CN111461168A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质
CN111563533B (zh) * 2020-04-08 2023-05-02 华南理工大学 基于图卷积神经网络融合多种人脑图谱的受试者分类方法
CN113052316B (zh) * 2021-03-01 2022-01-11 浙江师范大学 基于因果推理的知识追踪方法、系统、设备及存储介质
CN113128552B (zh) * 2021-03-02 2024-02-02 杭州电子科技大学 一种基于深度可分离因果图卷积网络的脑电情绪识别方法
CN113298230B (zh) * 2021-05-14 2024-04-09 武汉嫦娥医学抗衰机器人股份有限公司 一种基于生成对抗网络的不平衡数据集的预测方法
CN114220549A (zh) * 2021-12-16 2022-03-22 无锡中盾科技有限公司 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法
CN113990495B (zh) * 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN114664452B (zh) * 2022-05-20 2022-09-23 之江实验室 一种基于因果校验数据生成的全科多疾病预测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019089949A1 (en) * 2017-11-01 2019-05-09 Praeveni, Sbc Methods and systems for a medical screening system
CN109801687A (zh) * 2019-01-15 2019-05-24 合肥工业大学 一种面向医学的因果关系知识库的构建方法和系统
CN113112311A (zh) * 2021-05-12 2021-07-13 北京百度网讯科技有限公司 训练因果推断模型的方法、信息提示方法以装置
CN114022725A (zh) * 2021-10-09 2022-02-08 北京鹰瞳科技发展股份有限公司 一种训练多病种转诊系统的方法、多病种转诊系统以及方法

Also Published As

Publication number Publication date
CN114664452A (zh) 2022-06-24
WO2023221739A1 (zh) 2023-11-23
US20240212862A1 (en) 2024-06-27

Similar Documents

Publication Publication Date Title
CN114664452B (zh) 一种基于因果校验数据生成的全科多疾病预测系统
CN108231201B (zh) 一种疾病数据分析处理模型的构建方法、系统及应用方法
Casiraghi et al. Explainable machine learning for early assessment of COVID-19 risk prediction in emergency departments
KR100794516B1 (ko) 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법
CN109753571B (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
EP3074918A1 (en) Method and system for face image recognition
CN111275118B (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN107480702A (zh) 面向hcc病理图像识别的特征选择与特征融合方法
Little et al. Causal bootstrapping
CN116416478B (zh) 一种基于图结构数据特征的生物信息学分类模型
CN111310719B (zh) 一种未知辐射源个体识别及检测的方法
Al-Sadi et al. JUST at ImageCLEF 2019 Visual Question Answering in the Medical Domain.
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN107533587A (zh) 用于估计样本中的分类单位内的微生物的量的方法和装置
CN109597944B (zh) 一种基于深度信念网络的单分类微博谣言检测模型
CN113255543B (zh) 基于图卷积网络的面部表情识别方法
CN116994295A (zh) 基于灰度样本自适应选择门的野生动物类别识别方法
CN111786999A (zh) 一种入侵行为的检测方法、装置、设备和存储介质
CN113476065B (zh) 一种多类肺炎诊断系统
Siddiqa et al. Robust Length of Stay Prediction Model for Indoor Patients.
CN112733941B (zh) 基于神经网络的高鲁棒用户分类方法及系统
CN112270996B (zh) 一种可用于多变量医疗传感数据流的分类方法
CN114330650A (zh) 基于进化元学习模型训练的小样本特征分析方法及装置
Marneni et al. Analysis of Covid-19 using machine learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant