CN110473634B - 一种基于多域融合学习的遗传代谢病辅助筛查方法 - Google Patents

一种基于多域融合学习的遗传代谢病辅助筛查方法 Download PDF

Info

Publication number
CN110473634B
CN110473634B CN201910328962.2A CN201910328962A CN110473634B CN 110473634 B CN110473634 B CN 110473634B CN 201910328962 A CN201910328962 A CN 201910328962A CN 110473634 B CN110473634 B CN 110473634B
Authority
CN
China
Prior art keywords
layer
layers
neural network
screening
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910328962.2A
Other languages
English (en)
Other versions
CN110473634A (zh
Inventor
尹建伟
林博
舒强
李莹
邓水光
蒋萍萍
杨茹莱
张鹿鸣
尚永衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910328962.2A priority Critical patent/CN110473634B/zh
Publication of CN110473634A publication Critical patent/CN110473634A/zh
Application granted granted Critical
Publication of CN110473634B publication Critical patent/CN110473634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于多域融合学习的遗传代谢病辅助筛查方法,该方法将筛查数据非线性投影到隐空间进行表示,并通过建立不同地区代谢物分布差异性约束,实现对多地区筛查数据的统一建模,本发明利用神经网络的非线性映射表示了不同代谢物之间的关联性;利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型;且通过数据融合增大了数据总量,使得模型在保持召回率不变的前提下,降低了假阳性率。

Description

一种基于多域融合学习的遗传代谢病辅助筛查方法
技术领域
本发明属于信息技术应用领域,涉及一种遗传代谢病辅助筛查方法,尤其涉及一种基于多域融合学习的遗传代谢病辅助筛查方法。
背景技术
遗传代谢病是一大类有代谢功能缺陷的基因疾病。变异基因改变了原有的蛋白质编码,影响了酶的合成。由于酶的缺乏,一些代谢通路上的生物分子无法被有效分解,通路上下游的代谢物浓度脱离正常范围,从而导致机体出现异常症状,例如智力缺陷、发育迟缓和癫痫,严重者甚至面临死亡。早期诊断和早期治疗可以极大改善预后,提高患者生活质量,减少社会和家庭经济负担。从80年代开始,我国各省市逐步开始推行新生儿遗传代谢病筛查,并将其作为一项基本公共卫生政策。现有的筛查手段主要通过生化分析方法测定新生儿足跟血中的代谢物浓度,然后根据预先设定的阈值初步筛选出可疑患病人群,再交由儿科医生对分析报告进行判读,最终决定是否需要召回疑似病例做进一步的检查。
较高的假阳性率是现有筛查手段的一大不足,即大多数被召回的疑似病例实际上是健康人群,这带来了不必要的医疗资源浪费。究其原因,造成高假阳性率的主要问题集中在三个方面:(1)阈值法为每种代谢物设定了单独的异常浓度截断值,这种线性方法忽略了代谢物之间的关联性,导致较多误报的产生;(2)不同地区的人群在代谢物浓度分布上存在一定差异,筛查数据难以被统一融合分析,因此各筛查中心只能依靠本地区的数据样本建立自己的截断值标准,而统计样本尤其是阳性病例的减少将降低阈值法的筛选精度;(3)我国庞大的出生人口增加了每位儿科医生的工作压力,同时,资历、情绪等也会成为影响判读的潜在因素。
相对地,将机器学习技术作为一种辅助方法引入遗传代谢病筛查中可以解决上述三个问题。首先,以深度神经网络为代表的非线性的方法学习得到代谢物之间的关联性,使筛选结果更为精确;其次,迁移学习方法能够对多种不同分布的数据进行融合学习,增大了筛查数据总量;最后,由于辅助筛查方法减少了初筛假阳性的数量,从而间接地缓解了儿科医生的工作压力,一定程度上提高了整体的筛查质量。
发明内容
在现有的遗传代谢病筛查手段中,阈值法无法充分考虑代谢物之间的关联性,并且由于其线性截断的特点,将不可避免地产生误判。同时,阈值法是按地区或筛查中心分别建立多种不同的截断指标,而无法对所有筛查数据统一分析。这些问题都是导致筛查结果假阳性率高的原因。本发明提供了一种基于多域融合学习的遗传代谢病辅助筛查方法,将筛查数据非线性投影到隐空间进行表示,并通过建立不同地区代谢物分布差异性约束,实现对多地区筛查数据的统一建模,能够在不降低召回率的前提下,降低初次筛查的假阳性率。
本发明采用的技术方案如下:
一种基于多域融合学习的遗传代谢病辅助筛查方法,包括如下步骤:
1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络;各神经网络均包含若干隐藏层;
2)建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;其中:冻结层与特定域层的信息均与地区的个数相对应;
冻结层:将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;
跳板层:跳板层的层数与冻结层的层数相同,且跳板层的参数在主神经网络的训练中是可更新的,第
Figure BDA0002037101480000022
层跳板层与m个位于第
Figure BDA0002037101480000023
层的冻结层分别计算得到m个分布差异;
特定域层:特定域层的参数在主神经网络的训练中是可更新的,其层数可根据经验任意设置(至少一层),每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得,其它层特定域层仅将上一层特定域层的输出作为输入;
主神经网络的损失函数为:
Figure BDA0002037101480000021
其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,
Figure BDA0002037101480000031
Figure BDA0002037101480000032
分别是第i个地区筛查样本在第
Figure BDA00020371014800000311
层跳板层和特定域层的隐表示,
Figure BDA0002037101480000033
是两个隐表示的分布差异,l是跳板层的层数。
上述技术方案中,进一步的,所有神经网络使用随机梯度下降作为模型优化器,具体迭代次数由输入数据量的大小及拟合曲线决定。
进一步的,所述的分布差异由多核最大平均差异(Multi-kernel Maximum MeanDiscrepancy,MK-MMD)进行计算。
最大平均差异(Maximum Mean Discrepancy,MMD)
对于两个分布p和q,它们的最大平均差异为:
Figure BDA0002037101480000034
其中f是一个属于度量空间
Figure BDA00020371014800000310
的连续函数,sup为上确界,E为期望,x和y分别是p和q的一个采样。
当函数空间是再生核希尔伯特空间时,最大平均差异为:
Figure BDA0002037101480000035
其中
Figure BDA0002037101480000036
为再生核希尔伯特空间,k是一个特征核,μk(p)和μk(q)分别是分布p和q在
Figure BDA0002037101480000037
上的平均嵌入。
多核最大平均差异MK-MMD的特征核
Figure BDA0002037101480000038
是一组半正定特征核的组合表示:
Figure BDA0002037101480000039
其中s是一组特征核的数量,βu是第u个特征核ku的系数。
更进一步的,计算分布差异时ku(·,·)使用高斯核作为MK-MMD的核函数:
ku(x,x′)=exp(-γu||x-x′||2)
其中γu为带宽参数,x和x′分别是冻结层和跳板层的输出。
更进一步的,所述的带宽参数范围从10-6到106,以10为乘数因子,共取13个值,从而获得13个核函数。
进一步的,步骤1)中每个神经网络均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。
本发明的有益效果是:
本发明利用神经网络的非线性映射表示了不同代谢物之间的关联性;利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型;且通过数据融合增大了数据总量,使得模型在保持召回率不变的前提下,降低了假阳性率。
附图说明
图1是本发明方法的流程示意图。
具体实施方式
下面结合实例对本发明的技术方案做进一步说明。
本发明的基于多域融合学习的遗传代谢病辅助筛查方法,包括如下两个阶段:
第一阶段:
对于来自m个地区或筛查中心的数据,分别训练m个具有相同结构、不同网络参数的神经网络;
本实例中每个神经网络设置为均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。
第二阶段:
建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;本实例中设置主神经网络包含m*2层冻结层、2层跳板层、m*2层特定域层;每一、第二层跳板层的神经元个数分别为16、8;第一、第二层特定域层的神经元个数分别为8、4;
冻结层:将第一阶段训练好的m个神经网络的第一、第二层,共m*2个隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;
跳板层:跳板层的参数在主神经网络的训练中是可更新的,第一层跳板层与m个位于第一层的冻结层分别计算得到m个分布差异,第二层跳板层与m个位于第二层的冻结层分别计算得到m个分布差异;
特定域层:特定域层的参数在主网络的训练中是可更新的,第一层特定域层将相应第二层冻结层与第二层跳板层的输出进行拼接作为输入,第二层特定域层仅将上一层特定域层的输出作为输入;
主神经网络的损失函数为:
Figure BDA0002037101480000051
其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,
Figure BDA0002037101480000052
Figure BDA0002037101480000053
分别是第i个地区筛查样本在第
Figure BDA0002037101480000055
层跳板层和特定域层的隐表示,
Figure BDA0002037101480000054
是两个隐表示的MK-MMD;本实例中取λ为0.1;
上述所有神经网络使用随机梯度下降作为模型优化器,具体迭代次数由输入数据量的大小及拟合曲线决定。
分布差异由MK-MMD进行计算,本发明使用高斯核ku(·,·)是作为MK-MMD的核函数:
ku(x,x′)=exp(-γu||x-x′||2)
其中γu为带宽参数,本发明使用以10为乘数因子,从10-6到106共13个核函数,x和x′分别是冻结层和跳板层的输出。
现有遗传代谢病筛查方法的初筛假阳性率均值约为2%~3%,机器学习方法(如支持向量机、多层感知机等)的初筛假阳性率均值约为0.056%,采用本发明的方法初筛假阳性率均值可降低至约0.033%。

Claims (6)

1.一种基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,该方法包括如下步骤:
1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络;各神经网络均包含若干隐藏层;
2)建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;其中:
冻结层:将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;
跳板层:跳板层的层数与冻结层的层数相同,且跳板层的参数在主神经网络的训练中是可更新的,第
Figure FDA0003015088740000015
层跳板层与m个位于第
Figure FDA0003015088740000016
层的冻结层分别计算得到m个分布差异;
特定域层:特定域层的参数在主神经网络的训练中是可更新的,其层数可任意设置,每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得,其它层特定域层仅将上一层特定域层的输出作为输入;
主神经网络的损失函数为:
Figure FDA0003015088740000011
其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,
Figure FDA0003015088740000012
Figure FDA0003015088740000013
分别是第i个地区筛查样本在第
Figure FDA0003015088740000017
层跳板层和特定域层的隐表示,
Figure FDA0003015088740000014
是两个隐表示的分布差异,
Figure FDA0003015088740000016
是跳板层的层数,m是地区数,k是一个特征核。
2.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,所有神经网络使用随机梯度下降作为模型优化器。
3.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,所述的分布差异由多核最大平均差异MK-MMD进行计算。
4.根据权利要求3所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,计算分布差异时使用高斯核ku(x,x′)作为MK-MMD的核函数:
ku(x,x′)=exp(-γu||x-x′||2)
其中γu为带宽参数,x和x′分别是冻结层和跳板层的输出。
5.根据权利要求4所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,所述的带宽参数范围从10-6到106,以10为乘数因子,共取13个值,从而获得13个核函数。
6.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,步骤1)中每个神经网络均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。
CN201910328962.2A 2019-04-23 2019-04-23 一种基于多域融合学习的遗传代谢病辅助筛查方法 Active CN110473634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910328962.2A CN110473634B (zh) 2019-04-23 2019-04-23 一种基于多域融合学习的遗传代谢病辅助筛查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910328962.2A CN110473634B (zh) 2019-04-23 2019-04-23 一种基于多域融合学习的遗传代谢病辅助筛查方法

Publications (2)

Publication Number Publication Date
CN110473634A CN110473634A (zh) 2019-11-19
CN110473634B true CN110473634B (zh) 2021-10-08

Family

ID=68507385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910328962.2A Active CN110473634B (zh) 2019-04-23 2019-04-23 一种基于多域融合学习的遗传代谢病辅助筛查方法

Country Status (1)

Country Link
CN (1) CN110473634B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151192B (zh) * 2020-10-22 2024-03-26 浙江大学 一种基于隐空间重投影的遗传代谢病筛查方法
CN114664292B (zh) * 2020-12-22 2023-08-01 马上消费金融股份有限公司 模型训练、语音识别方法、装置、设备及可读存储介质
CN113035349B (zh) * 2021-03-25 2024-01-05 浙江大学 面向遗传代谢病多中心筛查的神经网络动态融合方法
CN116525126B (zh) * 2023-07-05 2023-11-24 之江实验室 基于目标与外源数据多重适配增强的疾病风险预测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354445A (zh) * 2015-11-17 2016-02-24 南昌大学第二附属医院 一种基于血液标志物的人工神经网络智能判别系统
CN107038337A (zh) * 2017-03-21 2017-08-11 广州华康基因医学科技有限公司 一种新生儿遗传代谢病筛查方法
CN108717869A (zh) * 2018-05-03 2018-10-30 中国石油大学(华东) 基于卷积神经网络的糖尿病视网膜并发症诊断辅助系统
CN108937972A (zh) * 2018-06-08 2018-12-07 青岛大学附属医院 一种多特征融合的就诊用户情绪监控方法
CN109102126A (zh) * 2018-08-30 2018-12-28 燕山大学 一种基于深度迁移学习的理论线损率预测模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718744B (zh) * 2016-01-25 2018-05-29 深圳大学 一种基于深度学习的代谢质谱筛查方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354445A (zh) * 2015-11-17 2016-02-24 南昌大学第二附属医院 一种基于血液标志物的人工神经网络智能判别系统
CN107038337A (zh) * 2017-03-21 2017-08-11 广州华康基因医学科技有限公司 一种新生儿遗传代谢病筛查方法
CN108717869A (zh) * 2018-05-03 2018-10-30 中国石油大学(华东) 基于卷积神经网络的糖尿病视网膜并发症诊断辅助系统
CN108937972A (zh) * 2018-06-08 2018-12-07 青岛大学附属医院 一种多特征融合的就诊用户情绪监控方法
CN109102126A (zh) * 2018-08-30 2018-12-28 燕山大学 一种基于深度迁移学习的理论线损率预测模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"神经网络辅助糖尿病筛查的应用研究";高蔚等;《中国公共卫生》;20020228;第18卷(第2期);157-158 *

Also Published As

Publication number Publication date
CN110473634A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110473634B (zh) 一种基于多域融合学习的遗传代谢病辅助筛查方法
Abdar et al. Improving the diagnosis of liver disease using multilayer perceptron neural network and boosted decision trees
Srivastava et al. Prediction of diabetes using artificial neural network approach
Kalaiselvi et al. Prediction of heart diseases and cancer in diabetic patients using data mining techniques
CN111128380A (zh) 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统
Sajadi et al. Diagnosis of hypothyroidism using a fuzzy rule-based expert system
Johnsson et al. Artificial neural networks improve early outcome prediction and risk classification in out-of-hospital cardiac arrest patients admitted to intensive care
US20220093257A1 (en) System for the prognostics of the chronic diseases after the medical examination based on the multi-label learning
Wang et al. Association between family structure and physical activity of Chinese adolescents
Misir et al. A reduced set of features for chronic kidney disease prediction
CN111105877A (zh) 基于深度置信网络的慢性病精确干预方法及系统
Jeyafzam et al. Improvement of grey wolf optimizer with adaptive middle filter to adjust support vector machine parameters to predict diabetes complications
CN111091916A (zh) 人工智能中基于改进粒子群算法的数据分析处理方法及系统
Al-Sideiri et al. Machine learning algorithms for diabetes prediction: A review paper
US20210158967A1 (en) Method of prediction of potential health risk
Farrell et al. Measurements of damage and repair of binary health attributes in aging mice and humans reveal that robustness and resilience decrease with age, operate over broad timescales, and are affected differently by interventions
Tang et al. Prediction of the development of metabolic syndrome by the Markov model based on a longitudinal study in Dalian City
Xue et al. A local dynamic feature selection fusion method for voice diagnosis of Parkinson's disease
CN115858820B (zh) 一种基于医疗知识图谱的预测方法、装置、电子设备和存储介质
Simaiya et al. A novel multistage ensemble approach for prediction and classification of diabetes
Veena et al. Effective analysis and diagnosis of liver disorder
Suryanarayana et al. A Comprehensive Survey on Diabetes Type-2 (T2D) Forecast Using Machine Learning
Zhu A large-scale prospective study on functional ability and mortality following stroke based on hrs data set: implications for rehabilitation
Xue The application of machine learning models in fetal state auto-classification based on cardiotocograms
Wang et al. A new risk assessment model of venous thromboembolism by considering fuzzy population

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant