CN110473634A

CN110473634A - 一种基于多域融合学习的遗传代谢病辅助筛查方法

Info

Publication number: CN110473634A
Application number: CN201910328962.2A
Authority: CN
Inventors: 尹建伟; 林博; 舒强; 李莹; 邓水光; 蒋萍萍; 杨茹莱; 张鹿鸣; 尚永衡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-11-19
Anticipated expiration: 2039-04-23
Also published as: CN110473634B

Abstract

本发明公开了一种基于多域融合学习的遗传代谢病辅助筛查方法，该方法将筛查数据非线性投影到隐空间进行表示，并通过建立不同地区代谢物分布差异性约束，实现对多地区筛查数据的统一建模，本发明利用神经网络的非线性映射表示了不同代谢物之间的关联性；利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型；且通过数据融合增大了数据总量，使得模型在保持召回率不变的前提下，降低了假阳性率。

Description

一种基于多域融合学习的遗传代谢病辅助筛查方法

技术领域

本发明属于信息技术应用领域，涉及一种遗传代谢病辅助筛查方法，尤其涉及一种基于多域融合学习的遗传代谢病辅助筛查方法。

背景技术

遗传代谢病是一大类有代谢功能缺陷的基因疾病。变异基因改变了原有的蛋白质编码，影响了酶的合成。由于酶的缺乏，一些代谢通路上的生物分子无法被有效分解，通路上下游的代谢物浓度脱离正常范围，从而导致机体出现异常症状，例如智力缺陷、发育迟缓和癫痫，严重者甚至面临死亡。早期诊断和早期治疗可以极大改善预后，提高患者生活质量，减少社会和家庭经济负担。从80年代开始，我国各省市逐步开始推行新生儿遗传代谢病筛查，并将其作为一项基本公共卫生政策。现有的筛查手段主要通过生化分析方法测定新生儿足跟血中的代谢物浓度，然后根据预先设定的阈值初步筛选出可疑患病人群，再交由儿科医生对分析报告进行判读，最终决定是否需要召回疑似病例做进一步的检查。

较高的假阳性率是现有筛查手段的一大不足，即大多数被召回的疑似病例实际上是健康人群，这带来了不必要的医疗资源浪费。究其原因，造成高假阳性率的主要问题集中在三个方面：(1)阈值法为每种代谢物设定了单独的异常浓度截断值，这种线性方法忽略了代谢物之间的关联性，导致较多误报的产生；(2)不同地区的人群在代谢物浓度分布上存在一定差异，筛查数据难以被统一融合分析，因此各筛查中心只能依靠本地区的数据样本建立自己的截断值标准，而统计样本尤其是阳性病例的减少将降低阈值法的筛选精度；(3)我国庞大的出生人口增加了每位儿科医生的工作压力，同时，资历、情绪等也会成为影响判读的潜在因素。

相对地，将机器学习技术作为一种辅助方法引入遗传代谢病筛查中可以解决上述三个问题。首先，以深度神经网络为代表的非线性的方法学习得到代谢物之间的关联性，使筛选结果更为精确；其次，迁移学习方法能够对多种不同分布的数据进行融合学习，增大了筛查数据总量；最后，由于辅助筛查方法减少了初筛假阳性的数量，从而间接地缓解了儿科医生的工作压力，一定程度上提高了整体的筛查质量。

发明内容

在现有的遗传代谢病筛查手段中，阈值法无法充分考虑代谢物之间的关联性，并且由于其线性截断的特点，将不可避免地产生误判。同时，阈值法是按地区或筛查中心分别建立多种不同的截断指标，而无法对所有筛查数据统一分析。这些问题都是导致筛查结果假阳性率高的原因。本发明提供了一种基于多域融合学习的遗传代谢病辅助筛查方法，将筛查数据非线性投影到隐空间进行表示，并通过建立不同地区代谢物分布差异性约束，实现对多地区筛查数据的统一建模，能够在不降低召回率的前提下，降低初次筛查的假阳性率。

本发明采用的技术方案如下：

一种基于多域融合学习的遗传代谢病辅助筛查方法，包括如下步骤：

1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络；各神经网络均包含若干隐藏层；

2)建立主神经网络，主神经网络包含冻结层、跳板层、特定域层；其中：冻结层与特定域层的信息均与地区的个数相对应；

冻结层：将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中，并将这些层的参数冻结，使它们在主神经网络的训练过程中保持不变；

跳板层：跳板层的层数与冻结层的层数相同，且跳板层的参数在主神经网络的训练中是可更新的，第层跳板层与m个位于第层的冻结层分别计算得到m个分布差异；

特定域层：特定域层的参数在主神经网络的训练中是可更新的，其层数可根据经验任意设置(至少一层)，每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得，其它层特定域层仅将上一层特定域层的输出作为输入；

主神经网络的损失函数为：

其中L(·，·)为交叉熵损失函数，f_i(Xⁱ)是对第i个地区筛查数据集Xⁱ的预测结果，Yⁱ是第i个地区筛查数据集Xⁱ对应的标记，是由医生给出的真实诊断结果，λ＞0是惩罚因子，和分别是第i个地区筛查样本在第层跳板层和特定域层的隐表示，是两个隐表示的分布差异，l是跳板层的层数。

上述技术方案中，进一步的，所有神经网络使用随机梯度下降作为模型优化器，具体迭代次数由输入数据量的大小及拟合曲线决定。

进一步的，所述的分布差异由多核最大平均差异(Multi-kernel Maximum MeanDiscrepancy，MK-MMD)进行计算。

最大平均差异(Maximum Mean Discrepancy，MMD)

对于两个分布p和q，它们的最大平均差异为：

其中f是一个属于度量空间的连续函数，sup为上确界，E为期望，x和y分别是p和q的一个采样。

当函数空间是再生核希尔伯特空间时，最大平均差异为：

其中为再生核希尔伯特空间，k是一个特征核，μ_k(p)和μ_k(q)分别是分布p和q在上的平均嵌入。

多核最大平均差异MK-MMD的特征核是一组半正定特征核的组合表示：

其中s是一组特征核的数量，β_u是第u个特征核k_u的系数。

更进一步的，计算分布差异时k_u(·，·)使用高斯核作为MK-MMD的核函数：

k_u(x，x′)＝exp(-γ_u||x-x′||²)

其中γ_u为带宽参数，x和x′分别是冻结层和跳板层的输出。

更进一步的，所述的带宽参数范围从10^-6到10⁶，以10为乘数因子，共取13个值，从而获得13个核函数。

进一步的，步骤1)中每个神经网络均包含四层隐藏层，每层的神经元个数依次为16、8、8、4；隐藏层使用ReLU作为激活函数，输出层使用Sigmoid作为激活函数。

本发明的有益效果是：

本发明利用神经网络的非线性映射表示了不同代谢物之间的关联性；利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型；且通过数据融合增大了数据总量，使得模型在保持召回率不变的前提下，降低了假阳性率。

附图说明

图1是本发明方法的流程示意图。

具体实施方式

下面结合实例对本发明的技术方案做进一步说明。

本发明的基于多域融合学习的遗传代谢病辅助筛查方法，包括如下两个阶段：

第一阶段：

对于来自m个地区或筛查中心的数据，分别训练m个具有相同结构、不同网络参数的神经网络；

本实例中每个神经网络设置为均包含四层隐藏层，每层的神经元个数依次为16、8、8、4；隐藏层使用ReLU作为激活函数，输出层使用Sigmoid作为激活函数。

第二阶段：

建立主神经网络，主神经网络包含冻结层、跳板层、特定域层；本实例中设置主神经网络包含m*2层冻结层、2层跳板层、m*2层特定域层；每一、第二层跳板层的神经元个数分别为16、8；第一、第二层特定域层的神经元个数分别为8、4；

冻结层：将第一阶段训练好的m个神经网络的第一、第二层，共m*2个隐藏层复制到主神经网络中，并将这些层的参数冻结，使它们在主神经网络的训练过程中保持不变；

跳板层：跳板层的参数在主神经网络的训练中是可更新的，第一层跳板层与m个位于第一层的冻结层分别计算得到m个分布差异，第二层跳板层与m个位于第二层的冻结层分别计算得到m个分布差异；

特定域层：特定域层的参数在主网络的训练中是可更新的，第一层特定域层将相应第二层冻结层与第二层跳板层的输出进行拼接作为输入，第二层特定域层仅将上一层特定域层的输出作为输入；

主神经网络的损失函数为：

其中L(·，·)为交叉熵损失函数，f_i(Xⁱ)是对第i个地区筛查数据集Xⁱ的预测结果，Yⁱ是第i个地区筛查数据集Xⁱ对应的标记，是由医生给出的真实诊断结果，λ＞0是惩罚因子，和分别是第i个地区筛查样本在第层跳板层和特定域层的隐表示，是两个隐表示的MK-MMD；本实例中取λ为0.1；

上述所有神经网络使用随机梯度下降作为模型优化器，具体迭代次数由输入数据量的大小及拟合曲线决定。

分布差异由MK-MMD进行计算，本发明使用高斯核k_u(·，·)是作为MK-MMD的核函数：

k_u(x，x′)＝exp(-γ_u||x-x′||²)

其中γ_u为带宽参数，本发明使用以10为乘数因子，从10^-6到10⁶共13个核函数，x和x′分别是冻结层和跳板层的输出。

现有遗传代谢病筛查方法的初筛假阳性率均值约为2％～3％，机器学习方法(如支持向量机、多层感知机等)的初筛假阳性率均值约为0.056％，采用本发明的方法初筛假阳性率均值可降低至约0.033％。

Claims

1.一种基于多域融合学习的遗传代谢病辅助筛查方法，其特征在于，该方法包括如下步骤：

2)建立主神经网络，主神经网络包含冻结层、跳板层、特定域层；其中：

跳板层：跳板层的层数与冻结层的层数相同，且跳板层的参数在主神经网络的训练中是可更新的，第l层跳板层与m个位于第l层的冻结层分别计算得到m个分布差异；

特定域层：特定域层的参数在主神经网络的训练中是可更新的，其层数可任意设置，每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得，其它层特定域层仅将上一层特定域层的输出作为输入；

主神经网络的损失函数为：

其中L(·,·)为交叉熵损失函数，f_i(Xⁱ)是对第i个地区筛查数据集Xⁱ的预测结果，Yⁱ是第i个地区筛查数据集Xⁱ对应的标记，是由医生给出的真实诊断结果，λ＞0是惩罚因子，和分别是第i个地区筛查样本在第l层跳板层和特定域层的隐表示，是两个隐表示的分布差异，l是跳板层的层数。

2.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法，其特征在于，所有神经网络使用随机梯度下降作为模型优化器。

3.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法，其特征在于，所述的分布差异由多核最大平均差异MK-MMD进行计算。

4.根据权利要求3所述的基于多域融合学习的遗传代谢病辅助筛查方法，其特征在于，计算分布差异时使用高斯核k_u(·,·)作为MK-MMD的核函数：

k_u(x,x′)＝exp(-γ_u||x-x′||²)

其中γ_u为带宽参数，x和x′分别是冻结层和跳板层的输出。

5.根据权利要求4所述的基于多域融合学习的遗传代谢病辅助筛查方法，其特征在于，所述的带宽参数范围从10^-6到10⁶，以10为乘数因子，共取13个值，从而获得13个核函数。

6.根据权利要求1所述的基于多域融合学习的遗传代谢病辅助筛查方法，其特征在于，步骤1)中每个神经网络均包含四层隐藏层，每层的神经元个数依次为16、8、8、4；隐藏层使用ReLU作为激活函数，输出层使用Sigmoid作为激活函数。