CN112151192B - 一种基于隐空间重投影的遗传代谢病筛查方法 - Google Patents

一种基于隐空间重投影的遗传代谢病筛查方法 Download PDF

Info

Publication number
CN112151192B
CN112151192B CN202011136152.6A CN202011136152A CN112151192B CN 112151192 B CN112151192 B CN 112151192B CN 202011136152 A CN202011136152 A CN 202011136152A CN 112151192 B CN112151192 B CN 112151192B
Authority
CN
China
Prior art keywords
network
layer
screening
data
metabolic disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011136152.6A
Other languages
English (en)
Other versions
CN112151192A (zh
Inventor
尹建伟
林博
舒强
李莹
邓水光
蒋萍萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011136152.6A priority Critical patent/CN112151192B/zh
Publication of CN112151192A publication Critical patent/CN112151192A/zh
Application granted granted Critical
Publication of CN112151192B publication Critical patent/CN112151192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Neurology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于隐空间重投影的遗传代谢病筛查方法,该方法利用三种深度神经网络分别对多中心数据进行本地特征提取、全局特征重映射、总体风险评估,最终得到遗传代谢病自动判读结果,从而减小多中心筛查数据的差异性,提高筛查的速度和准确度。本发明能够对任意数量的遗传代谢病筛查中心进行特征提取和统一映射,最终自动生成遗传代谢病判读结果,无需人工参与判读;采用本发明的方法可将初筛假阳性率降低至0.5%左右。

Description

一种基于隐空间重投影的遗传代谢病筛查方法
技术领域
本发明属于信息技术领域,具体涉及一种基于隐空间重投影的遗传代谢病筛查方法。
背景技术
串联质谱技术是一种高敏感性、高选择性和高通量的血液生化物质浓度检测技术,于20世纪90年代首次被应用于新生儿遗传代谢病筛查,之后在全球多个国家和地区推行。目前国内外筛查中心普遍通过开展室内质量控制(IQC)、参加室间质量评价(EQA)以及设置本实验室切值的方式来提高实验室筛查效率,保证对遗传代谢病的同质化判读。然而,这些方法在实际操作中存在如下缺陷:1)IQC样本不能完全反映新生儿血斑的真实检测数据变异;2)EQA样本的基质效应限制了其在评价不同检测方法同质化中的应用;3)生化指标切值多依靠临床经验,缺乏人口学特征的分析。目前新生儿筛查所使用的室间质量评价和室内质量控制方法难以解决实验室间及试剂批次间存在固有差异的问题;另外,切值指标判读单一,基本停留在人工判读阶段,不能保证筛查中心之间的同质化,筛查效能整体不高。
针对筛查人工判读和多中心数据非同质化的问题,本发明提出了一种基于深度神经网络的遗传代谢病同质化筛查方法。首先,本发明为每一个筛查中心建立一个独立的遗传代谢病基础网络,用于提取各中心筛查数据的本地特征;其次,将提取到的本地特征输入到特征映射网络中进行训练,将本地特征重新投影到一个统一的隐空间中,从而使多中心筛查数据同质化对齐;最后,再通过一个风险评估网络对修正后的筛查数据进行风险评估,得到自动判读结果,以此提高整体筛查效率。
发明内容
目前遗传代谢病筛查主要通过人工方式进行判读,多中心间的筛查数据也存在非同质化问题,导致整体筛查效率不高。本发明提供了一种基于隐空间重投影的遗传代谢病筛查方法,利用三种深度神经网络分别对多中心数据进行本地特征提取、全局特征重映射、总体风险评估,最终得到遗传代谢病自动判读结果,从而减小多中心筛查数据的差异性,提高筛查的速度和准确度。
遗传代谢病是一大类有代谢功能缺陷的疾病总称,这些疾病可通过串联质谱技术进行检测判定。串联质谱技术主要检测血液中多种小分子代谢物的浓度,在遗传代谢病检测中,这些待检测小分子代谢物的种类和数量是固定的,也就是说,对于任意一种基于串联质谱技术的遗传代谢病检测数据,其包含的数据特征都是相同的。
本发明采用以下技术方案实现:
一种基于隐空间重投影的遗传代谢病筛查方法,包括以下步骤:
模型构建步骤:
构建r个基础网络,其中每个基础网络第k层的神经元个数固定为n,k大于等于2,基础网络其它结构和参数要求没有限制;
构建一个含有m层结构的特征映射网络,其中m为大于等于3的奇数,第i层的神经元个数与(m-i+1)层的神经元个数相同,1≤i<(m+1)/2;
构建一个含有c层结构的风险评估网络,其中第1层的神经元个数等于特征映射网络第(m+1)/2层的神经元个数,最后一层的神经元个数为1,c大于等于2。
模型训练步骤:
对于r个不同的遗传代谢病筛查中心,使用各自实验室得到的串联质谱检测数据,分别训练r个基础网络;
复制r个基础网络的第1-k层并与特征映射网络的第1层进行连接,即每个基础网络第k层的输出作为特征映射网络第1层的输入;其中r个基础网络的第1-k层,共r*k层的神经元参数在训练时不进行更新;将特征映射网络的第(m+1)/2层与风险评估网络的第1层进行连接;完成上述连接步骤后形成的网络组合称为主网络。
基础网络和风险评估网络的损失函数的计算公式为:
其中N为一个筛查中心检测数据的数据总量,yj和pj分别为第j条数据的标签与网络预测的概率值;
特征映射网络的损失函数计算公式为:
其中N为一个筛查中心检测数据的数据总量,xj分别为特征网络的输入数据与映射数据;
主网络的损失函数计算公式为:
其中λ>0是惩罚系数;
所有网络模型的训练均使用适应性矩估计法Adam对网络参数进行优化。
模型使用步骤:
如果一个遗传代谢病筛查中心有历史检测数据,则使用历史检测数据训练一个新基础网络,其中新基础网络的损失函数为
将新基础网络的第1-k层与已训练的特征映射网络的第1层进行连接,使用历史检测数据进行训练,其中特征映射网络损失函数为新基础网络第1-k层的神经元参数在训练时不进行更新;
将特征映射网络的第(m+1)/2层与风险评估网络的第1层进行连接,并对新的筛查数据进行风险预测;
如果一个遗传代谢病筛查中心没有历史检测数据,则将新的筛查数据分别输入已训练的r个基础网络的第1-k层,然后将r个输出结果求平均值;
将平均值作为特征映射网络的输入得到中间结果,将该中间结果输入风险评估网络得到筛查数据的风险预测值。
本发明的有益效果为:
本发明设计了一种神经网络组合结构,能够对任意数量的遗传代谢病筛查中心进行特征提取和统一映射,最终自动生成遗传代谢病判读结果,无需人工参与判读;
采用本发明的方法能够将现有遗传代谢病筛查方法的初筛假阳性率均值由3%降低至0.5%左右。
附图说明
图1为本发明的基于隐空间重投影的遗传代谢病筛查方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行进一步地说明。
如图1为本发明的基于隐空间重投影的遗传代谢病筛查方法流程图。
模型构建步骤:
构建r个基础网络,其中每个基础网络第k层的神经元个数固定为n,k大于等于2,基础网络其它结构和参数要求没有限制;本实例所构建的3个基础网络均为7层结构,每层的神经元个数依次为43,32,16,16,8,8,1,第1-6层使用LeakyReLU作为激活函数,第7层使用Sigmoid作为激活函数,其中k设置为3,n设置为16;
构建一个含有m层结构的特征映射网络,其中m为大于等于3的奇数,第i层的神经元个数与(m-i+1)层的神经元个数相同,1≤i<(m+1)/2;本实例的特征映射网络为5层结构,每层的神经元个数依次为16,12,8,12,16,其中每一层均使用ReLU作为激活函数;
构建一个含有c层结构的风险评估网络,其中第1层的神经元个数等于特征映射网络第(m+1)/2层的神经元个数,最后一层的神经元个数为1,c大于等于2;本实例的风险评估网络为4层结构,每层神经元个数依次为8,4,4,1,第1-3层使用ReLU作为激活函数,第4层使用Sigmoid作为激活函数。
模型训练步骤:
对于r个不同的遗传代谢病筛查中心,使用各自实验室得到的串联质谱检测数据,分别训练r个基础网络;本实例使用了来自3个遗传代谢病筛查中心的检测数据,数据包含43个特征指标;
复制r个基础网络的第1-k层并与特征映射网络的第1层进行连接,即每个基础网络第k层的输出作为特征映射网络第1层的输入;其中r个基础网络的第1-k层,共r*k层的神经元参数在训练时不进行更新;将特征映射网络的第(m+1)/2层与风险评估网络的第1层进行连接;完成上述连接步骤后形成的网络组合称为主网络。
基础网络和风险评估网络的损失函数的计算公式为:
其中N为一个筛查中心检测数据的数据总量,yj和pj分别为第j条数据的标签与网络预测的概率值;
特征映射网络的损失函数计算公式为:
其中N为一个筛查中心检测数据的数据总量,xj分别为特征网络的输入数据与映射数据;
主网络的损失函数计算公式为:
其中λ>0是惩罚系数;本实例中λ=0.2;
所有网络模型的训练均使用适应性矩估计法Adam对网络参数进行优化。
模型使用步骤:
如果一个遗传代谢病筛查中心有历史检测数据,则使用历史检测数据训练一个新基础网络,其中新基础网络的损失函数为
将新基础网络的第1-k层与已训练的特征映射网络的第1层进行连接,使用历史检测数据进行训练,其中特征映射网络损失函数为新基础网络第1-k层的神经元参数在训练时不进行更新;
将特征映射网络的第(m+1)/2层与风险评估网络的第1层进行连接,并对新的筛查数据进行风险预测;
如果一个遗传代谢病筛查中心没有历史检测数据,则将新的筛查数据分别输入已训练的r个基础网络的第1-k层,然后将r个输出结果求平均值;
将输出平均值作为特征映射网络的输入得到中间结果,将该中间结果输入风险评估网络得到筛查数据的风险预测值。

Claims (1)

1.一种基于隐空间重投影的遗传代谢病筛查方法,其特征在于,包括以下步骤:
1)构建模型:
构建r个基础网络,其中每个基础网络第k层的神经元个数固定为n,k大于等于2;
构建1个含有m层结构的特征映射网络,其中m为大于等于3的奇数,第i层的神经元个数与(m-i+1)层的神经元个数相同,1≤i<(m+1)/2;
构建一个含有c层结构的风险评估网络,其中第1层的神经元个数等于特征映射网络第(m+1)/2层的神经元个数,最后一层的神经元个数为1,c大于等于2;
2)模型训练:
对于r个不同的遗传代谢病筛查中心,使用各自实验室得到的串联质谱检测数据,分别训练r个基础网络;
复制r个基础网络的第1-k层并与特征映射网络的第1层进行连接,即每个基础网络第k层的输出作为特征映射网络第1层的输入;其中r个基础网络的第1-k层,共r*k层的神经元参数在训练时不进行更新;将特征映射网络的第(m+1)/2层与风险评估网络的第1层进行连接;完成上述连接步骤后形成的网络组合称为主网络;
基础网络和风险评估网络的损失函数的计算公式为:
其中N为一个筛查中心检测数据的数据总量,yi和pj分别为第j条数据的标签与网络预测的概率值;
特征映射网络的损失函数的计算公式为:
其中N为一个筛查中心检测数据的数据总量,xj分别为特征网络的输入数据与映射数据;
主网络的损失函数计算公式为:
其中λ>0是惩罚系数;
所有网络模型的训练均使用适应性矩估计法Adam对网络参数进行优化;
3)模型使用步骤:
如果一个遗传代谢病筛查中心有历史检测数据,则使用历史检测数据训练一个新基础网络,其中新基础网络的损失函数为
将新基础网络的第1-k层与已训练的特征映射网络的第1层进行连接,使用历史检测数据进行训练,其中特征映射网络损失函数为新基础网络第1-k层的神经元参数在训练时不进行更新;
将特征映射网络的第(m+1)/2层与风险评估网络的第1层进行连接,并对新的筛查数据进行风险预测;
如果一个遗传代谢病筛查中心没有历史检测数据,则将新的筛查数据分别输入已训练的r个基础网络的第1-k层,然后将r个输出结果求平均值;
将平均值作为特征映射网络的输入得到中间结果,将该中间结果输入风险评估网络得到筛查数据的风险预测值。
CN202011136152.6A 2020-10-22 2020-10-22 一种基于隐空间重投影的遗传代谢病筛查方法 Active CN112151192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011136152.6A CN112151192B (zh) 2020-10-22 2020-10-22 一种基于隐空间重投影的遗传代谢病筛查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011136152.6A CN112151192B (zh) 2020-10-22 2020-10-22 一种基于隐空间重投影的遗传代谢病筛查方法

Publications (2)

Publication Number Publication Date
CN112151192A CN112151192A (zh) 2020-12-29
CN112151192B true CN112151192B (zh) 2024-03-26

Family

ID=73954442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011136152.6A Active CN112151192B (zh) 2020-10-22 2020-10-22 一种基于隐空间重投影的遗传代谢病筛查方法

Country Status (1)

Country Link
CN (1) CN112151192B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033860B (zh) * 2019-02-27 2021-02-26 杭州贝安云科技有限公司 一种基于机器学习的遗传代谢病检出率提升方法
CN113035349B (zh) * 2021-03-25 2024-01-05 浙江大学 面向遗传代谢病多中心筛查的神经网络动态融合方法
CN116519830A (zh) * 2023-04-11 2023-08-01 深圳爱湾智造科技有限公司 一种基于气质联用仪的遗传代谢病筛查方法、系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033860A (zh) * 2019-02-27 2019-07-19 杭州贝安云科技有限公司 一种基于机器学习的遗传代谢病检出率提升方法
CN110210515A (zh) * 2019-04-25 2019-09-06 浙江大学 一种图像数据多标签分类方法
CN110473634A (zh) * 2019-04-23 2019-11-19 浙江大学 一种基于多域融合学习的遗传代谢病辅助筛查方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033860A (zh) * 2019-02-27 2019-07-19 杭州贝安云科技有限公司 一种基于机器学习的遗传代谢病检出率提升方法
CN110473634A (zh) * 2019-04-23 2019-11-19 浙江大学 一种基于多域融合学习的遗传代谢病辅助筛查方法
CN110210515A (zh) * 2019-04-25 2019-09-06 浙江大学 一种图像数据多标签分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Dynamic social network analysis using latent space models";Purnamarita Sarkar etc.;《ACM SIGKDD Explorations Newsletter》;20051201;第7卷(第2期);第31-40页 *
基于卷积神经网络的多层级目标检测方法;吴亚熙;岑峰;;软件;20180415(第4期);全文 *

Also Published As

Publication number Publication date
CN112151192A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112151192B (zh) 一种基于隐空间重投影的遗传代谢病筛查方法
CN110162475B (zh) 一种基于深度迁移的软件缺陷预测方法
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN108256482B (zh) 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
CN111339712A (zh) 质子交换膜燃料电池剩余寿命预测方法
CN109523021A (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN114155436B (zh) 长尾分布的遥感图像目标识别逐步蒸馏学习方法
CN115277354B (zh) 一种面向指挥控制网络管理系统的故障检测方法
CN115374995A (zh) 一种分布式光伏、小风电场站功率预测方法
CN111932540B (zh) 一种针对新冠肺炎临床分型的ct影像对比特征学习方法
CN112686372A (zh) 基于深度残差gru神经网络的产品性能预测方法
CN115810191A (zh) 基于多注意力融合和高精度分割网络的病理细胞分类方法
CN113377991B (zh) 一种基于最难正负样本的图像检索方法
CN113109782B (zh) 一种直接应用于雷达辐射源幅度序列的分类方法
CN111914600A (zh) 一种基于空间注意力模型的群组情绪识别方法
CN113298150A (zh) 一种基于迁移学习与自学习的小样本植物病害识别方法
CN117198397A (zh) 一种基于变分神经网络的疾病预测方法及系统
CN108363830B (zh) 一种面向功能性晾衣架的原理方案非合作-合作博弈决策方法
CN114613438B (zh) 一种miRNA与疾病的关联预测方法及系统
CN114357869A (zh) 一种基于数据关系学习和预测的多目标优化代理模型设计方法及系统
CN113222044B (zh) 一种基于三元注意力和尺度关联融合的宫颈液基细胞分类方法
CN114139607A (zh) 基于CRWGAN-div的设备故障样本增强方法
CN114444654A (zh) 一种面向nas的免训练神经网络性能评估方法、装置和设备
CN113961818A (zh) 一种基于长短期兴趣与社会影响力的群体需求预测方法
CN112466389A (zh) 一种基于机器学习算法获取肿瘤标记物的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant