CN110473634A - 一种基于多域融合学习的遗传代谢病辅助筛查方法 - Google Patents
一种基于多域融合学习的遗传代谢病辅助筛查方法 Download PDFInfo
- Publication number
- CN110473634A CN110473634A CN201910328962.2A CN201910328962A CN110473634A CN 110473634 A CN110473634 A CN 110473634A CN 201910328962 A CN201910328962 A CN 201910328962A CN 110473634 A CN110473634 A CN 110473634A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- springboard
- metabolic disorders
- inherited metabolic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于多域融合学习的遗传代谢病辅助筛查方法,该方法将筛查数据非线性投影到隐空间进行表示,并通过建立不同地区代谢物分布差异性约束,实现对多地区筛查数据的统一建模,本发明利用神经网络的非线性映射表示了不同代谢物之间的关联性;利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型;且通过数据融合增大了数据总量,使得模型在保持召回率不变的前提下,降低了假阳性率。
Description
技术领域
本发明属于信息技术应用领域,涉及一种遗传代谢病辅助筛查方法,尤其涉及一种基于多域融合学习的遗传代谢病辅助筛查方法。
背景技术
遗传代谢病是一大类有代谢功能缺陷的基因疾病。变异基因改变了原有的蛋白质编码,影响了酶的合成。由于酶的缺乏,一些代谢通路上的生物分子无法被有效分解,通路上下游的代谢物浓度脱离正常范围,从而导致机体出现异常症状,例如智力缺陷、发育迟缓和癫痫,严重者甚至面临死亡。早期诊断和早期治疗可以极大改善预后,提高患者生活质量,减少社会和家庭经济负担。从80年代开始,我国各省市逐步开始推行新生儿遗传代谢病筛查,并将其作为一项基本公共卫生政策。现有的筛查手段主要通过生化分析方法测定新生儿足跟血中的代谢物浓度,然后根据预先设定的阈值初步筛选出可疑患病人群,再交由儿科医生对分析报告进行判读,最终决定是否需要召回疑似病例做进一步的检查。
较高的假阳性率是现有筛查手段的一大不足,即大多数被召回的疑似病例实际上是健康人群,这带来了不必要的医疗资源浪费。究其原因,造成高假阳性率的主要问题集中在三个方面:(1)阈值法为每种代谢物设定了单独的异常浓度截断值,这种线性方法忽略了代谢物之间的关联性,导致较多误报的产生;(2)不同地区的人群在代谢物浓度分布上存在一定差异,筛查数据难以被统一融合分析,因此各筛查中心只能依靠本地区的数据样本建立自己的截断值标准,而统计样本尤其是阳性病例的减少将降低阈值法的筛选精度;(3)我国庞大的出生人口增加了每位儿科医生的工作压力,同时,资历、情绪等也会成为影响判读的潜在因素。
相对地,将机器学习技术作为一种辅助方法引入遗传代谢病筛查中可以解决上述三个问题。首先,以深度神经网络为代表的非线性的方法学习得到代谢物之间的关联性,使筛选结果更为精确;其次,迁移学习方法能够对多种不同分布的数据进行融合学习,增大了筛查数据总量;最后,由于辅助筛查方法减少了初筛假阳性的数量,从而间接地缓解了儿科医生的工作压力,一定程度上提高了整体的筛查质量。
发明内容
在现有的遗传代谢病筛查手段中,阈值法无法充分考虑代谢物之间的关联性,并且由于其线性截断的特点,将不可避免地产生误判。同时,阈值法是按地区或筛查中心分别建立多种不同的截断指标,而无法对所有筛查数据统一分析。这些问题都是导致筛查结果假阳性率高的原因。本发明提供了一种基于多域融合学习的遗传代谢病辅助筛查方法,将筛查数据非线性投影到隐空间进行表示,并通过建立不同地区代谢物分布差异性约束,实现对多地区筛查数据的统一建模,能够在不降低召回率的前提下,降低初次筛查的假阳性率。
本发明采用的技术方案如下:
一种基于多域融合学习的遗传代谢病辅助筛查方法,包括如下步骤:
1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络;各神经网络均包含若干隐藏层;
2)建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;其中:冻结层与特定域层的信息均与地区的个数相对应;
冻结层:将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;
跳板层:跳板层的层数与冻结层的层数相同,且跳板层的参数在主神经网络的训练中是可更新的,第层跳板层与m个位于第层的冻结层分别计算得到m个分布差异;
特定域层:特定域层的参数在主神经网络的训练中是可更新的,其层数可根据经验任意设置(至少一层),每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得,其它层特定域层仅将上一层特定域层的输出作为输入;
主神经网络的损失函数为:
其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,和分别是第i个地区筛查样本在第层跳板层和特定域层的隐表示,是两个隐表示的分布差异,l是跳板层的层数。
上述技术方案中,进一步的,所有神经网络使用随机梯度下降作为模型优化器,具体迭代次数由输入数据量的大小及拟合曲线决定。
进一步的,所述的分布差异由多核最大平均差异(Multi-kernel Maximum MeanDiscrepancy,MK-MMD)进行计算。
最大平均差异(Maximum Mean Discrepancy,MMD)
对于两个分布p和q,它们的最大平均差异为:
其中f是一个属于度量空间的连续函数,sup为上确界,E为期望,x和y分别是p和q的一个采样。
当函数空间是再生核希尔伯特空间时,最大平均差异为:
其中为再生核希尔伯特空间,k是一个特征核,μk(p)和μk(q)分别是分布p和q在上的平均嵌入。
多核最大平均差异MK-MMD的特征核是一组半正定特征核的组合表示:
其中s是一组特征核的数量,βu是第u个特征核ku的系数。
更进一步的,计算分布差异时ku(·,·)使用高斯核作为MK-MMD的核函数:
ku(x,x′)=exp(-γu||x-x′||2)
其中γu为带宽参数,x和x′分别是冻结层和跳板层的输出。
更进一步的,所述的带宽参数范围从10-6到106,以10为乘数因子,共取13个值,从而获得13个核函数。
进一步的,步骤1)中每个神经网络均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。
本发明的有益效果是:
本发明利用神经网络的非线性映射表示了不同代谢物之间的关联性;利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型;且通过数据融合增大了数据总量,使得模型在保持召回率不变的前提下,降低了假阳性率。
附图说明
图1是本发明方法的流程示意图。
具体实施方式
下面结合实例对本发明的技术方案做进一步说明。
本发明的基于多域融合学习的遗传代谢病辅助筛查方法,包括如下两个阶段:
第一阶段:
对于来自m个地区或筛查中心的数据,分别训练m个具有相同结构、不同网络参数的神经网络;
本实例中每个神经网络设置为均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。
第二阶段:
建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;本实例中设置主神经网络包含m*2层冻结层、2层跳板层、m*2层特定域层;每一、第二层跳板层的神经元个数分别为16、8;第一、第二层特定域层的神经元个数分别为8、4;
冻结层:将第一阶段训练好的m个神经网络的第一、第二层,共m*2个隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;
跳板层:跳板层的参数在主神经网络的训练中是可更新的,第一层跳板层与m个位于第一层的冻结层分别计算得到m个分布差异,第二层跳板层与m个位于第二层的冻结层分别计算得到m个分布差异;
特定域层:特定域层的参数在主网络的训练中是可更新的,第一层特定域层将相应第二层冻结层与第二层跳板层的输出进行拼接作为输入,第二层特定域层仅将上一层特定域层的输出作为输入;
主神经网络的损失函数为:
其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,和分别是第i个地区筛查样本在第层跳板层和特定域层的隐表示,是两个隐表示的MK-MMD;本实例中取λ为0.1;
上述所有神经网络使用随机梯度下降作为模型优化器,具体迭代次数由输入数据量的大小及拟合曲线决定。
分布差异由MK-MMD进行计算,本发明使用高斯核ku(·,·)是作为MK-MMD的核函数:
ku(x,x′)=exp(-γu||x-x′||2)
其中γu为带宽参数,本发明使用以10为乘数因子,从10-6到106共13个核函数,x和x′分别是冻结层和跳板层的输出。
现有遗传代谢病筛查方法的初筛假阳性率均值约为2%~3%,机器学习方法(如支持向量机、多层感知机等)的初筛假阳性率均值约为0.056%,采用本发明的方法初筛假阳性率均值可降低至约0.033%。
Claims (6)
1.一种基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,该方法包括如下步骤:
1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络;各神经网络均包含若干隐藏层;
2)建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;其中:
冻结层:将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;
跳板层:跳板层的层数与冻结层的层数相同,且跳板层的参数在主神经网络的训练中是可更新的,第l层跳板层与m个位于第l层的冻结层分别计算得到m个分布差异;
特定域层:特定域层的参数在主神经网络的训练中是可更新的,其层数可任意设置,每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得,其它层特定域层仅将上一层特定域层的输出作为输入;
主神经网络的损失函数为:
其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,和分别是第i个地区筛查样本在第l层跳板层和特定域层的隐表示,是两个隐表示的分布差异,l是跳板层的层数。
2.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,所有神经网络使用随机梯度下降作为模型优化器。
3.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,所述的分布差异由多核最大平均差异MK-MMD进行计算。
4.根据权利要求3所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,计算分布差异时使用高斯核ku(·,·)作为MK-MMD的核函数:
ku(x,x′)=exp(-γu||x-x′||2)
其中γu为带宽参数,x和x′分别是冻结层和跳板层的输出。
5.根据权利要求4所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,所述的带宽参数范围从10-6到106,以10为乘数因子,共取13个值,从而获得13个核函数。
6.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,步骤1)中每个神经网络均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328962.2A CN110473634B (zh) | 2019-04-23 | 2019-04-23 | 一种基于多域融合学习的遗传代谢病辅助筛查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328962.2A CN110473634B (zh) | 2019-04-23 | 2019-04-23 | 一种基于多域融合学习的遗传代谢病辅助筛查方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110473634A true CN110473634A (zh) | 2019-11-19 |
CN110473634B CN110473634B (zh) | 2021-10-08 |
Family
ID=68507385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910328962.2A Active CN110473634B (zh) | 2019-04-23 | 2019-04-23 | 一种基于多域融合学习的遗传代谢病辅助筛查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473634B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151192A (zh) * | 2020-10-22 | 2020-12-29 | 浙江大学 | 一种基于隐空间重投影的遗传代谢病筛查方法 |
CN113035349A (zh) * | 2021-03-25 | 2021-06-25 | 浙江大学 | 面向遗传代谢病多中心筛查的神经网络动态融合方法 |
CN114664292A (zh) * | 2020-12-22 | 2022-06-24 | 马上消费金融股份有限公司 | 模型训练、语音识别方法、装置、设备及可读存储介质 |
CN116525126A (zh) * | 2023-07-05 | 2023-08-01 | 之江实验室 | 基于目标与外源数据多重适配增强的疾病风险预测系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354445A (zh) * | 2015-11-17 | 2016-02-24 | 南昌大学第二附属医院 | 一种基于血液标志物的人工神经网络智能判别系统 |
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
CN107038337A (zh) * | 2017-03-21 | 2017-08-11 | 广州华康基因医学科技有限公司 | 一种新生儿遗传代谢病筛查方法 |
CN108717869A (zh) * | 2018-05-03 | 2018-10-30 | 中国石油大学(华东) | 基于卷积神经网络的糖尿病视网膜并发症诊断辅助系统 |
CN108937972A (zh) * | 2018-06-08 | 2018-12-07 | 青岛大学附属医院 | 一种多特征融合的就诊用户情绪监控方法 |
CN109102126A (zh) * | 2018-08-30 | 2018-12-28 | 燕山大学 | 一种基于深度迁移学习的理论线损率预测模型 |
-
2019
- 2019-04-23 CN CN201910328962.2A patent/CN110473634B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354445A (zh) * | 2015-11-17 | 2016-02-24 | 南昌大学第二附属医院 | 一种基于血液标志物的人工神经网络智能判别系统 |
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
CN107038337A (zh) * | 2017-03-21 | 2017-08-11 | 广州华康基因医学科技有限公司 | 一种新生儿遗传代谢病筛查方法 |
CN108717869A (zh) * | 2018-05-03 | 2018-10-30 | 中国石油大学(华东) | 基于卷积神经网络的糖尿病视网膜并发症诊断辅助系统 |
CN108937972A (zh) * | 2018-06-08 | 2018-12-07 | 青岛大学附属医院 | 一种多特征融合的就诊用户情绪监控方法 |
CN109102126A (zh) * | 2018-08-30 | 2018-12-28 | 燕山大学 | 一种基于深度迁移学习的理论线损率预测模型 |
Non-Patent Citations (1)
Title |
---|
高蔚等: ""神经网络辅助糖尿病筛查的应用研究"", 《中国公共卫生》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151192A (zh) * | 2020-10-22 | 2020-12-29 | 浙江大学 | 一种基于隐空间重投影的遗传代谢病筛查方法 |
CN112151192B (zh) * | 2020-10-22 | 2024-03-26 | 浙江大学 | 一种基于隐空间重投影的遗传代谢病筛查方法 |
CN114664292A (zh) * | 2020-12-22 | 2022-06-24 | 马上消费金融股份有限公司 | 模型训练、语音识别方法、装置、设备及可读存储介质 |
CN114664292B (zh) * | 2020-12-22 | 2023-08-01 | 马上消费金融股份有限公司 | 模型训练、语音识别方法、装置、设备及可读存储介质 |
CN113035349A (zh) * | 2021-03-25 | 2021-06-25 | 浙江大学 | 面向遗传代谢病多中心筛查的神经网络动态融合方法 |
CN113035349B (zh) * | 2021-03-25 | 2024-01-05 | 浙江大学 | 面向遗传代谢病多中心筛查的神经网络动态融合方法 |
CN116525126A (zh) * | 2023-07-05 | 2023-08-01 | 之江实验室 | 基于目标与外源数据多重适配增强的疾病风险预测系统 |
CN116525126B (zh) * | 2023-07-05 | 2023-11-24 | 之江实验室 | 基于目标与外源数据多重适配增强的疾病风险预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110473634B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473634A (zh) | 一种基于多域融合学习的遗传代谢病辅助筛查方法 | |
Taylor et al. | Contrasting effects of feature-based statistics on the categorisation and basic-level identification of visual objects | |
Hallett et al. | Assessing evidence for behaviour change affecting the course of HIV epidemics: a new mathematical modelling approach and application to data from Zimbabwe | |
Newman et al. | Economic growth and social development: A longitudinal analysis of causal priority | |
Harris et al. | Age differences in the etiology of the relationship between life satisfaction and self-rated health | |
CN111128380A (zh) | 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统 | |
CN109242149A (zh) | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 | |
Zhang et al. | Using CatBoost algorithm to identify middle-aged and elderly depression, national health and nutrition examination survey 2011–2018 | |
CN110212528A (zh) | 基于生成对抗和双重语义感知的配电网量测数据缺失重构方法 | |
Pal et al. | Deep learning techniques for prediction and diagnosis of diabetes mellitus | |
CN111105877A (zh) | 基于深度置信网络的慢性病精确干预方法及系统 | |
Mohamed et al. | A novel morphological analysis of DXA-DICOM images by artificial neural networks for estimating bone mineral density in health and disease | |
Singh | Prediction of Thyroid Disease using Deep Learning Techniques | |
CN111091916A (zh) | 人工智能中基于改进粒子群算法的数据分析处理方法及系统 | |
CN110236497A (zh) | 一种基于舌相和bmi指数的脂肪肝预测方法 | |
CN114242234A (zh) | 基于聚合神经网络的tavr术后并发症风险值预测方法 | |
Mat-Isa et al. | Classification of cervical cancer cells using HMLP network with confidence percentage and confidence level analysis | |
Hudson et al. | Associations between routinely collected Dairy Herd Improvement data and insemination outcome in UK dairy herds | |
CN111048192B (zh) | 一种基于移动终端的用于医联体内的产学研管理方法 | |
Kour et al. | An Advance Approach for Diabetes Detection by Implementing Machine Learning Algorithms | |
CN109754881A (zh) | 一种社区筛查方案的评估方法及装置 | |
Huang et al. | Stroke probability prediction and data visualization based on multiple machine learning models | |
CN112168142B (zh) | 基于daela-lstm神经网络的痛经中医辨证系统 | |
Wang et al. | Design of eye health monitoring system under color fundus image visual cup segmentation algorithm | |
West et al. | Complete imputation of missing repeated categorical data: one‐sample applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |