CN112201348B - 基于知识感知的多中心临床数据集适配设备 - Google Patents
基于知识感知的多中心临床数据集适配设备 Download PDFInfo
- Publication number
- CN112201348B CN112201348B CN202011171924.XA CN202011171924A CN112201348B CN 112201348 B CN112201348 B CN 112201348B CN 202011171924 A CN202011171924 A CN 202011171924A CN 112201348 B CN112201348 B CN 112201348B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- patient
- clinical
- perception
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Biology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于知识感知的多中心临床数据集适配设备,包含:数据输入单元、知识图谱嵌入单元、基于知识感知的对抗性学习单元和临床结果预测单元;知识图谱嵌入单元包括:知识图谱模块和图卷积神经网络模块;所述基于知识感知的对抗性学习单元包括:患者表征模块、知识表征模块、基于知识感知的患者表征模块和多中心鉴别器模块;所述临床结果预测单元用于对基于知识感知的患者表征模块输出的所述患者特征表示π进行拟合,得到临床目标的预测结果。本发明的基于知识感知的多中心临床数据集适配设备,引入外部的临床专家知识,能够同时捕获多中心临床数据集中患者的共享特征和中心相关特征,从而提高在不同临床环境下的应用性能。
Description
技术领域
本发明涉及一种基于知识感知的多中心临床数据集适配设备。
背景技术
许多大型临床数据集,特别是从不同的临床研究中心收集的数据集,包含了大量地理位置不同和具有中心特异性特征的参与者。利用从多个中心收集的临床数据,在不同的临床环境中证明或反驳一个假设,对于改善患者治疗和护理、提高医疗保健管理质量和开展有效的临床研究至关重要。然而在许多情况下,多中心收集的临床数据集因为其患者样本的基因、所处环境和种族分布的不同,从这些数据集中学习到的知识在不同中心中存在显著差异。
几项大规模研究表明,基于从一个临床中心收集的数据训练的机器学习模型不能可靠地部署在其他临床环境中。这是由于在训练数据集和评估数据集之间存在分布偏移。为了提高模型在多中心临床数据集中的适配性,目前主要有以下两种研究方向:
(1)实例匹配。实例匹配一般通过对源数据集和目标数据集中具有相似倾向性评分的患者样本的筛选和匹配,生成新的近似随机实验的数据集,以消除不同数据集之间的干扰因素,这样从一个数据集学到的知识就可以应用到其他数据集上。
(2)表征学习。表征学习则是通过深度表征学习,比如多视点深度网络和对抗性学习,从异质性临床数据中提取潜在的共享患者特征,以解决多中心临床数据集之间的数据分布差距。
尽管实例匹配和表征学习都有各自独特的优势,但它们都有同样严重的局限性,即在学习过程中没有利用临床专家知识,在特定临床环境中的应用性能存在局限性。
发明内容
本发明提供了一种基于知识感知的多中心临床数据集适配设备,采用如下的技术方案:
一种基于知识感知的多中心临床数据集适配设备,包括:数据输入单元、知识图谱嵌入单元、基于知识感知的对抗性学习单元和临床结果预测单元;
数据输入单元用于向基于知识感知的对抗性学习单元输入训练数据对其进行训练,训练数据包括源数据集和目标数据集源数据集目标数据集两个数据集都拥有患者特征x,其中源数据集中的患者额外带有临床目标结果的真实标签y;
知识图谱嵌入单元包括:
图卷积神经网络模块,用于将知识图谱模块中的知识图谱的概念和关系通过图卷积神经网络的训练转化为向量表示;
基于知识感知的对抗性学习单元包括:
知识表征模块,用于结合训练完的图卷积神经网络模块输出的向量提取患者特征所对应的知识特征xk,并对知识特征xk进行编码和解码,提取潜在的知识特征表示zk;
基于知识感知的患者表征模块,用于捕获患者的特征表示zp和知识特征表示zk的相关性以分别生成包含知识的患者特征表示πp和面向患者的知识特征表示πk,并最终组合成基于知识感知的患者特征表示π,基于知识感知的患者特征表示π=[πp;πk];
临床结果预测单元用于对基于知识感知的患者表征模块输出的患者特征表示π进行拟合,得到临床目标的预测结果;
采用DistMult因子分解对三元组(ei,r,ej)进行评分,其中ei为头节点,ej为尾节点,r代表两个节点间的关系,评分通过以下公式计算:
选择交叉熵函数作为知识特征提取模块的损失函数,
在图卷积神经网络训练完成后,得到临床概念最终的特征向量表示。
进一步地,患者表征模块由一个患者特征编码器组成,患者特征编码器包括一个第一多层感知机,第一多层感知机的结构设定为二层,以两个数据集中的数据作为第一多层感知机的输入层;
设定第一层输出ni1个节点,第二层输出ni2个节点,第一多层感知机通过以下公式进行计算:
z1 p=σ(W1x+b1),
z2 p=σ(W2z1 p+b2),
其中,x表示输入层,W1表示第一层节点的权重矩阵,b1表示第一层的偏置,W2表示第二层节点的权重矩阵,b2表示第二层的偏置,z1 p,z2 p分别表示第一层、第二层输出的患者的特征表示。
进一步地,知识表征模块包含:知识特征提取子模块、知识特征编码器和知识特征解码器;
通过知识特征编码器提取出知识特征xk潜在的知识特征表示zk,再通过知识特征解码器对知识特征表示zk重建,其计算公式如下:
zk=Wk1xk+bk1,
进一步地,基于知识感知的患者表征模块的注意力机制的计算公式如下:
M=(zp)T·zk,
之后通过以下公式生成包含知识的患者特征表示πp和面向患者的知识特征表示πk:
πp=Bp⊙zp,
πk=Bk⊙zk,
患者特征表示πp和知识特征表示πk最终组合成基于知识感知的患者特征表示π作为基于知识感知的患者表征模块的输出。
进一步地,多中心鉴别器模块为第一Sigmoid输出层,通过以下公式进行计算:
hd1=relu(Wd1π(x)+bd1),
其中,基于知识感知的患者特征表示π(x)表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,表示多中心鉴别器模块的鉴别结果。
进一步地,临床结果预测单元为第二Sigmoid输出层,通过以下公式进行计算:
ht1=relu(Wt1π(x)+bt1),
其中,基于知识感知的患者特征表示π(x)表示输入层,Wt1,Wt2分别为第二Sigmoid输出层的第一和第二层网络的权重矩阵,bt1,bt2分别为第二Sigmoid输出层的第一和第二层网络的偏置,ht1表示第二Sigmoid输出层的第一层网络的输出,表示述临床结果预测单元的预测结果。
进一步地,数据输入单元向基于知识感知的对抗性学习单元输入训练数据对其进行训练的具体方法为:
选择交叉熵函数作为多中心鉴别器模块的损失函数,
其中为多中心鉴别器模块的损失函数,π(xs)和π(xt)分别代表源数据集的基于知识感知的患者特征表示π和目标数据集的患者的基于知识感知的患者特征表示π,表示多中心鉴别器模块的鉴别结果,和为数学期望函数;
选择绝对误差函数作为知识表征模块的重建损失函数,
选择交叉熵函数作为临床结果预测单元的损失函数,
其中λ1,λ2为超参数;
本发明的有益之处在于所提供的基于知识感知的多中心临床数据集适配设备,引入外部的临床专家知识,能够同时捕获多中心临床数据集中患者的共享特征和中心相关特征,从而提高在不同临床环境下的应用性能,有助于更好的开展相应的临床研究,帮助患者得到更好的治疗和护理。
附图说明
图1是本发明的基于知识感知的多中心临床数据集适配设备的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于知识感知的多中心临床数据集适配设备(Knowledge-Aware Multi-center clinical dataset Adaptation model,KAMA),包括:数据输入单元、知识图谱嵌入单元、基于知识感知的对抗性学习单元和临床结果预测单元。
数据输入单元用于向基于知识感知的对抗性学习单元输入训练数据对其进行训练,训练数据包括源数据集和目标数据集源数据集目标数据集两个数据集都拥有患者特征x,其中源数据集中的患者额外带有临床目标结果的真实标签y。
知识图谱嵌入单元包括:知识图谱模块和图卷积神经网络模块。
知识图谱模块用于构建与特定疾病或者特定临床问题相关的知识图谱。知识图谱以临床文献、方案和指南作为信息来源,即引入外部的临床专家知识。表示为其中ε和分别是知识图谱中的概念e和关系r的集合。患者的每一个特征v∈V对应于一个相应的临床概念e∈ε,概念之间存在的关系由表示,其中V是所有特征的集合。
图卷积神经网络模块用于将知识图谱模块中的知识图谱的概念和关系通过图卷积神经网络的训练转化为向量表示。
基于知识感知的对抗性学习单元包括:患者表征模块、知识表征模块、基于知识感知的患者表征模块和多中心鉴别器模块。
知识表征模块用于结合训练完的图卷积神经网络模块输出的向量提取患者特征所对应的知识特征xk,并对知识特征xk进行编码和解码,提取潜在的知识特征表示zk。
基于知识感知的患者表征模块用于捕获患者的特征表示zp和知识特征表示zk的相关性,充分利用两者之间的交互作用,来分别生成包含知识的患者特征表示πp和面向患者的知识特征表示πk,并通过这两者最终组合成基于知识感知的患者特征表示π,基于知识感知的患者特征表示π=[πp;πk]。
临床结果预测单元用于对基于知识感知的患者表征模块输出的患者特征表示π进行拟合,得到临床目标的预测结果。
作为一种优选的实施方式,图卷积神经网络模块由一个图卷积神经网络组成。知识图谱中的每个概念ei,ei∈ε,其对应的特征向量被随机初始化,然后通过图卷积过程生成新的特征向量,图卷积神经网络通过以下公式进行计算:
经过对临床概念的编码,采用DistMult因子分解对三元组(ei,r,ej)进行评分,其中ei为头节点,ej为尾节点,r代表两个节点间的关系,评分通过以下公式计算:
选择交叉熵函数作为知识特征提取模块的损失函数,
作为一种优选的实施方式,患者表征模块由一个患者特征编码器组成,患者特征编码器包括一个第一多层感知机,第一多层感知机的结构设定为二层,以两个数据集中的数据作为第一多层感知机的输入层。
设定第一层输出ni1个节点,第二层输出ni2个节点,第一多层感知机通过以下公式进行计算:
z1 p=σ(W1x+b1),
z2 p=σ(W2z1 p+b2),
其中,x表示输入层,W1表示第一层节点的权重矩阵,b1表示第一层的偏置,W2表示第二层节点的权重矩阵,b2表示第二层的偏置,z1 p,z2 p分别表示第一层、第二层输出的患者的特征表示。
作为一种优选的实施方式,知识表征模块包含:知识特征提取子模块、知识特征编码器和知识特征解码器。
患者的知识特征xk的提取步骤如下:
通过知识特征编码器提取出知识特征xk潜在的知识特征表示zk,再通过知识特征解码器对知识特征表示zk重建,其计算公式如下:
zk=Wk1xk+bk1,
作为一种优选的实施方式,基于知识感知的患者表征模块通过注意力机制来充分利用患者特征表示zp和知识特征表示zk之间的交互作用。该发明中假设患者特征变量对患者的整体表征有不同的贡献,而特征水平的注意力机制可以识别患者的重要特征来表征患者的临床状况。注意力机制的计算过程如下:
的注意力机制的计算公式如下:
M=(zp)T·zk,
之后通过以下公式生成包含知识的患者特征表示πp和面向患者的知识特征表示πk:
πp=Bp⊙zp,
πk=Bk⊙zk,
患者特征表示πp和知识特征表示πk最终组合成基于知识感知的患者特征表示π作为基于知识感知的患者表征模块的输出。
进一步地,多中心鉴别器模块为第一Sigmoid输出层,通过以下公式进行计算:
hd1=relu(Wd1π(x)+bd1),
其中,基于知识感知的患者特征表示π(x)表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,表示多中心鉴别器模块的鉴别结果。
作为一种优选的实施方式,临床结果预测单元为第二Sigmoid输出层,通过以下公式进行计算:
ht1=relu(Wt1π(x)+bt1),
其中,基于知识感知的患者特征表示π(x)表示输入层,Wt1,Wt2分别为第二Sigmoid输出层的第一和第二层网络的权重矩阵,bt1,bt2分别为第二Sigmoid输出层的第一和第二层网络的偏置,ht1表示第二Sigmoid输出层的第一层网络的输出,表示述临床结果预测单元的预测结果。
作为一种优选的实施方式,数据输入单元向基于知识感知的对抗性学习单元输入训练数据对其进行训练的具体方法为:
选择交叉熵函数作为多中心鉴别器模块的损失函数,
其中为多中心鉴别器模块的损失函数,π(xs)和π(xt)分别代表源数据集的基于知识感知的患者特征表示π和目标数据集的患者的基于知识感知的患者特征表示π,表示多中心鉴别器模块的鉴别结果,和为数学期望函数。
选择绝对误差函数作为知识表征模块的重建损失函数,
选择交叉熵函数作为临床结果预测单元的损失函数,
其中λ1,λ2为超参数。
之后基于知识感知的对抗性学习单元利用输入单元中的真实世界数据,在知识表征模块结合知识图谱嵌入单元预训练结果,获得患者对应的知识特征xk,并通过编码和解码的方法提取潜在的知识特征表示zk。同时基于知识感知的对抗性学习单元通过患者表征模块提取真实世界数据中潜在的患者特征表示zp。再之后利用基于知识感知的对抗性学习单元中的基于知识感知的患者表征模块,通过注意力机制分别生成包含知识的患者特征表示πp和面向患者的知识特征表示πk,并最终组合成基于知识感知的患者特征表示π=[πp;πk]。多中心鉴别器模块确保学到的基于知识感知的患者特征表示π是源数据集和目标数据集之间临床中心不变映射。临床结果预测单元以基于知识感知的患者特征表示π为输入,输出相应的临床目标的预测结果。
当完成模型训练后,将目标数据集的患者样本输入到训练好的基于知识感知的对抗性学习单元中,模型单元能够根据患者的特征和对应知识图谱的知识特征来输出特定临床目标下的预测结果。
为了更好地比较本发明所提出的基于知识感知的多中心临床数据集适配设备的优越性,以对于心衰患者院内急性肾损伤的预测为例,基于从中国某医院普通心脏病病房提取的真实临床数据集PLAGH(The General Hospital of the People′s LiberationArmy,PLAGH)和国外免费公开的重症监护临床数据集MIMIC III,本发明的设备与现有的多层感知机设备(Multilayer Perceptron,MLP)和表征学习的对抗性学习设备(AdversarialLearning,AL)就在多中心数据集上的预测性能进行了对比。
实验结果用ROC曲线下面积(Receiver Characteristic Operator Area UnderCurve,AUC)来作为评估指标,AUC的计算方法就是随机抽出一对样本(一个正样本,一个负样本),然后用训练得到分类器对两个样本进行预测,预测得到正样本为正的概率大于负样本为正概率的概率,AUC越大就说明预测结果越准确。AUC的计算公式如下:
其中M为正样本的数目,N为负样本的数目,假设第i个正样本被分类器预测为正的概率为pi,ni即被分类器预测为正的概率小于pi的负样本个数。
最终分别以PLAGH为源数据集、MIMIC为目标数据集和MIMIC为源数据集、PLAGH为目标数据集,三种设备的对比结果如表1所示,可见,本发明的设备预测在源数据集和目标数据集上的预测效果更好,并且在目标数据集上的提高非常显著。
表1本发明的设备与对比设备在急性肾损伤预测任务上的表现
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (5)
1.一种基于知识感知的多中心临床数据集适配设备,其特征在于,包括:数据输入单元、知识图谱嵌入单元、基于知识感知的对抗性学习单元和临床结果预测单元;
所述数据输入单元用于向所述基于知识感知的对抗性学习单元输入训练数据对其进行训练,所述训练数据包括源数据集和目标数据集所述源数据集所述目标数据集两个数据集都拥有患者特征x,其中所述源数据集中的患者额外带有临床目标结果的真实标签y;
知识图谱嵌入单元包括:
图卷积神经网络模块,用于将所述知识图谱模块中的知识图谱的概念和关系通过图卷积神经网络的训练转化为向量表示;
所述基于知识感知的对抗性学习单元包括:
知识表征模块,用于结合训练完的图卷积神经网络模块输出的向量提取患者特征所对应的知识特征xk,并对所述知识特征xk进行编码和解码,提取潜在的知识特征表示zk;
基于知识感知的患者表征模块,用于捕获所述患者的特征表示zp和所述知识特征表示zk的相关性以分别生成包含知识的患者特征表示πp和面向患者的知识特征表示πk,并最终组合成基于知识感知的患者特征表示π,所述基于知识感知的患者特征表示π=[πp;πk];
所述临床结果预测单元用于对基于知识感知的患者表征模块输出的所述患者特征表示π进行拟合,得到临床目标的预测结果;
所述基于知识感知的患者表征模块的注意力机制的计算公式如下:
M=(zp)T·zk,
其中M是患者样本的相关性矩阵,Mi,j代表患者的所述特征表示zp的第i个元素和所述知
之后通过以下公式生成包含知识的所述患者特征表示πp和面向患者的所述知识特征表示πk:
πp=Bp⊙zp,
πk=Bk⊙zk,
所述患者特征表示πp和所述知识特征表示πk最终组合成所述基于知识感知的患者特征表示π作为所述基于知识感知的患者表征模块的输出;
所述多中心鉴别器模块为第一Sigmoid输出层,通过以下公式进行计算:
hd1=relu(Wd1π(x)+bd1),
其中,所述基于知识感知的患者特征表示π(x)表示输入层,Wd1,Wd2分别为所述第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为所述第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示所述第一Sigmoid输出层的第一层网络的输出,表示所述多中心鉴别器模块的鉴别结果;
所述临床结果预测单元为第二Sigmoid输出层,通过以下公式进行计算:
ht1=relu(Wt1π(x)+bt1),
其中,所述基于知识感知的患者特征表示π(x)表示输入层,Wt1,Wt2分别为所述第二Sigmoid输出层的第一和第二层网络的权重矩阵,bt1,bt2分别为所述第二Sigmoid输出层的第一和第二层网络的偏置,ht1表示所述第二Sigmoid输出层的第一层网络的输出,表示述临床结果预测单元的预测结果;
所述数据输入单元向所述基于知识感知的对抗性学习单元输入训练数据对其进行训练的具体方法为:
选择交叉熵函数作为所述多中心鉴别器模块的损失函数,
其中为所述多中心鉴别器模块的损失函数,π(xs)和π(xt)分别代表所述源数据集的所述基于知识感知的患者特征表示π和所述目标数据集的患者的所述基于知识感知的患者特征表示π,表示所述多中心鉴别器模块的鉴别结果,和为数学期望函数;
选择绝对误差函数作为所述知识表征模块的重建损失函数,
选择交叉熵函数作为所述临床结果预测单元的损失函数,
其中λ1,λ2为超参数;
2.根据权利要求1所述的基于知识感知的多中心临床数据集适配设备,其特征在于,
采用DistMult因子分解对三元组(ei,r,ej)进行评分,其中ei为头节点,ej为尾节点,r代表两个节点间的关系,评分通过以下公式计算:
选择交叉熵函数作为所述知识特征提取模块的损失函数,
其中为所述知识特征提取模块的损失函数,<(ei,r,ej),y>代表三元组与相应的标签,当三元组(ei,r,ej)包含在所构建的知识图谱中,y为1,反之y则为0,代表<(ei,r,ej),y>的集合;
在所述图卷积神经网络训练完成后,得到临床概念最终的特征向量表示。
3.根据权利要求2所述的基于知识感知的多中心临床数据集适配设备,其特征在于,
所述患者表征模块由一个患者特征编码器组成,所述患者特征编码器包括一个第一多层感知机,所述第一多层感知机的结构设定为二层,以两个数据集中的数据作为所述第一多层感知机的输入层;
设定第一层输出ni1个节点,第二层输出ni2个节点,所述第一多层感知机通过以下公式进行计算:
z1 p=σ(W1x+b1),
z2 p=σ(W2z1 p+b2),
其中,x表示输入层,W1表示第一层节点的权重矩阵,b1表示第一层的偏置,W2表示第二层节点的权重矩阵,b2表示第二层的偏置,z1 p,z2 p分别表示第一层、第二层输出的患者的特征表示。
4.根据权利要求3所述的基于知识感知的多中心临床数据集适配设备,其特征在于,
所述知识表征模块包含:知识特征提取子模块、知识特征编码器和知识特征解码器;
通过所述知识特征编码器提取出所述知识特征xk潜在的所述知识特征表示zk,再通过所述知识特征解码器对所述知识特征表示zk重建,其计算公式如下:
zk=Wk1xk+bk1,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011171924.XA CN112201348B (zh) | 2020-10-28 | 2020-10-28 | 基于知识感知的多中心临床数据集适配设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011171924.XA CN112201348B (zh) | 2020-10-28 | 2020-10-28 | 基于知识感知的多中心临床数据集适配设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112201348A CN112201348A (zh) | 2021-01-08 |
CN112201348B true CN112201348B (zh) | 2022-07-26 |
Family
ID=74011967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011171924.XA Active CN112201348B (zh) | 2020-10-28 | 2020-10-28 | 基于知识感知的多中心临床数据集适配设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201348B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502129B (zh) * | 2023-06-21 | 2023-09-22 | 之江实验室 | 一种知识与数据协同驱动的不平衡临床数据分类系统 |
CN116936108B (zh) * | 2023-09-19 | 2024-01-02 | 之江实验室 | 一种面向不平衡数据的疾病预测系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9632654B1 (en) * | 2013-03-15 | 2017-04-25 | Shauki Elassaad | System and method for augmented knowledge discovery |
CN109165350A (zh) * | 2018-08-23 | 2019-01-08 | 成都品果科技有限公司 | 一种基于深度知识感知的信息推荐方法和系统 |
CN111367961A (zh) * | 2020-02-27 | 2020-07-03 | 西安交通大学 | 基于图卷积神经网络的时序数据事件预测方法、系统及其应用 |
CN111581343A (zh) * | 2020-04-24 | 2020-08-25 | 北京航空航天大学 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
CN111681726A (zh) * | 2020-05-29 | 2020-09-18 | 北京百度网讯科技有限公司 | 电子病历数据的处理方法、装置、设备和介质 |
-
2020
- 2020-10-28 CN CN202011171924.XA patent/CN112201348B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9632654B1 (en) * | 2013-03-15 | 2017-04-25 | Shauki Elassaad | System and method for augmented knowledge discovery |
CN109165350A (zh) * | 2018-08-23 | 2019-01-08 | 成都品果科技有限公司 | 一种基于深度知识感知的信息推荐方法和系统 |
CN111367961A (zh) * | 2020-02-27 | 2020-07-03 | 西安交通大学 | 基于图卷积神经网络的时序数据事件预测方法、系统及其应用 |
CN111581343A (zh) * | 2020-04-24 | 2020-08-25 | 北京航空航天大学 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
CN111681726A (zh) * | 2020-05-29 | 2020-09-18 | 北京百度网讯科技有限公司 | 电子病历数据的处理方法、装置、设备和介质 |
Non-Patent Citations (3)
Title |
---|
GRAM: graph-based attention model for healthcare representation learning;Choi E etal.;《Proceedings of the 23rdACM SIGKDD International Conference on Knowledge Discovery and Data Mining》;20171231;第787-795页 * |
基于图卷积网络的癌症临床结果预测的半监督学习方法;宁世琦 等;《智能计算机与应用》;20181231;第8卷(第6期);第44-48页 * |
基于电子病历系统的脑血管病专科大数据科研平台设计与应用;林琳 等;《管理园地》;20200630;第15卷(第6期);第616-619页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112201348A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
Alkım et al. | A fast and adaptive automated disease diagnosis method with an innovative neural network model | |
CN112086195B (zh) | 一种基于自适应集成学习模型的再入院风险预测方法 | |
CN107273925A (zh) | 一种基于局部感受野和半监督深度自编码的肺结节诊断方法 | |
CN112201348B (zh) | 基于知识感知的多中心临床数据集适配设备 | |
Phankokkruad | COVID-19 pneumonia detection in chest X-ray images using transfer learning of convolutional neural networks | |
WO2020224433A1 (zh) | 基于机器学习的目标对象属性预测方法及相关设备 | |
Hooda et al. | Artificial Intelligence Technique for Detecting Bone Irregularity Using Fastai | |
CN114783608A (zh) | 基于图自编码器的慢病人群疾病风险预测模型的构建方法 | |
Sarra et al. | Enhanced accuracy for heart disease prediction using artificial neural network | |
Liu et al. | Information recovery-driven deep incomplete multiview clustering network | |
CN117036760A (zh) | 一种基于图对比学习的多视图聚类模型实现方法 | |
CN115579141A (zh) | 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置 | |
Hegde et al. | Symmetrized Feature Selection with Stacked Generalization based Machine Learning Algorithm for the Early Diagnosis of Chronic Diseases | |
Gupta et al. | Deep learning based mathematical model for feature extraction to detect corona virus disease using chest x-ray images | |
Betechuoh et al. | Using inverse neural networks for HIV adaptive control | |
Ye et al. | MedAttacker: Exploring black-box adversarial attacks on risk prediction models in healthcare | |
CN116092644A (zh) | 基于核心算法和虚拟现实技术的医疗过程辅助管理系统 | |
CN115375684A (zh) | 一种基于机器学习的肺结核图像辅助诊断系统 | |
Babic et al. | Detecting pneumonia with tensorflow and convolutional neural networks | |
Wang et al. | [Retracted] Evaluation Algorithm for the Effectiveness of Stroke Rehabilitation Treatment Using Cross‐Modal Deep Learning | |
Li et al. | A Unified Self-Distillation Framework for Multimodal Sentiment Analysis with Uncertain Missing Modalities | |
CN114943314B (zh) | 基于icd诊断码的对象划分方法、存储介质及电子病历系统 | |
Liu et al. | Patient clustering for vital organ failure using ICD code with graph attention | |
Zhao et al. | DCACorrCapsNet: A deep channel‐attention correlative capsule network for COVID‐19 detection based on multi‐source medical images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |