CN114783524A - 基于自适应重采样深度编码器网络的通路异常检测系统 - Google Patents
基于自适应重采样深度编码器网络的通路异常检测系统 Download PDFInfo
- Publication number
- CN114783524A CN114783524A CN202210685472.XA CN202210685472A CN114783524A CN 114783524 A CN114783524 A CN 114783524A CN 202210685472 A CN202210685472 A CN 202210685472A CN 114783524 A CN114783524 A CN 114783524A
- Authority
- CN
- China
- Prior art keywords
- sample
- training set
- path
- network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 61
- 238000012952 Resampling Methods 0.000 title claims abstract description 29
- 230000002159 abnormal effect Effects 0.000 claims abstract description 60
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 25
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 4
- 239000000523 sample Substances 0.000 claims description 122
- 238000012549 training Methods 0.000 claims description 84
- 230000037361 pathway Effects 0.000 claims description 40
- 230000014509 gene expression Effects 0.000 claims description 26
- 210000002569 neuron Anatomy 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 24
- 230000005856 abnormality Effects 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 15
- 239000013610 patient sample Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 230000011664 signaling Effects 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims description 2
- 101150049349 setA gene Proteins 0.000 claims description 2
- 238000004393 prognosis Methods 0.000 abstract description 7
- 230000008827 biological function Effects 0.000 abstract description 4
- 208000029742 colonic neoplasm Diseases 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 210000001072 colon Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 240000006413 Prunus persica var. persica Species 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013112 stability test Methods 0.000 description 1
- 238000012430 stability testing Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于自适应重采样深度编码器网络的通路异常检测系统,包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块,本发明利用基于神经网络的深度编码器算法,将个体通路异常情况评估问题转换为异常检测问题,区分异常样本与正常样本,并评估异常样本相较于正常样本的通路异常程度,改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下,富集多个生物功能相近的基因的预后信息,有效评估患者的通路异常情况,可用于肿瘤预后预测准确性的提高,辅助医生制定患者的治疗计划。
Description
技术领域
本发明属于医疗信息技术领域,尤其涉及一种基于自适应重采样深度编码器网络的通路异常检测系统。
背景技术
癌症的发病率和死亡率高,已经成为人类因疾病死亡的主要原因。随着人口数量的增长和人口老龄化的发展,癌症带来的疾病负担正在进一步加大。许多最新的研究发现,通过加入生物标志物等新的预后因子的方式可以对患者的疾病状况和预后情况进行更为个性化的描述。但目前,除了HER2和ER被用于乳腺癌的预后分期外,大多数肿瘤的研究中没有发现可靠的生物标志物,说明单一或少数几个基因无法提供有效的预后信息。因此需要从大量的基因中通过数据驱动的方式寻找出能提供有效预后信息的一系列基因。而基于通路知识将基因表达数据转换为患病个体的通路异常情况可以有效富集单一基因的预后信息,对患者的疾病状况和预后情况进行更为个性化的描述。
现有的个体通路异常情况评估方法包括PARADIGM和Pathifier这两种。其中PARADIGM方法在计算评估个体通路异常情况的过程中,需要通路具体的功能性结构信息以及完整的基因组学、转录组学和蛋白组学等多个尺度的组学数据;因此当通路结构较为复杂时需要花费大量的时间进行评估,而且评估个体通路异常情况时必须获取通路内涉及的全部基因、蛋白等不同尺度的信息;而在实际情况下,往往无法保证能获取患者某个通路中涉及的基因、蛋白等多个尺度的完整信息,因此该方法不适用于临床。Pathifier方法则不需要完整的通路信息,而且只需要单一尺度的组学数据如基因表达数据,其在评估过程中需要选择主成分数量并对背景基因数据进行过滤以获得主成分曲线,进而评估个体的通路异常情况;但该方法要求至少两例的患病样本数据,而且每次评估新患者的通路异常情况时需要基于所有样本重新获取主成分曲线,导致该方法无法获得稳定的通路异常情况。
发明内容
本发明针对现有技术的不足,提供一种基于自适应重采样深度编码器网络的通路异常检测系统,本发明利用基于神经网络的深度编码器算法,将个体通路异常情况评估问题转换为异常检测问题,区分异常样本与正常样本,并评估异常样本相较于正常样本的通路异常程度,改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下,富集多个生物功能相近的基因的预后信息,有效评估患者的通路异常情况,可用于肿瘤预后预测准确性的提高,辅助医生制定患者的治疗计划。
本发明的目的是通过以下技术方案实现的:一种基于自适应重采样深度编码器网络的通路异常检测系统,该系统包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练深度编码器网络,包括:基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于深度编码器网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后训练下一个深度编码器网络;对多个深度编码器网络进行集成,获得能够有效识别正常样本和异常样本的通路异常检测模型;
通路异常检测模块:用于分析肿瘤组织样本基因表达数据,评估个体通路异常情况。
进一步地,所述深度编码器网络的结构及参数如下:
所述深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元和输出层,所述编码单元包括至少两个编码层,所述解码单元包括与编码单元各编码层相对应的解码层;所述编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数相同;
将输入层与输出层的神经元个数设定为,将编码单元第一个编码层与解码单元
最后一个解码层的神经元个数设定为,将底层的神经元个数设定为通路数据库中通路p
的网络图中所包含的子通路网络的数目,记为net;假设编码层数量为,那么第code个编码层的神经元个数为。
进一步地,所述编码单元第一个编码层和输出层的激活函数为Relu,第一个编码层和输出层之间的编码层、解码层和底层的激活函数为tanh,在深度编码器网络中加入L 2约束。
进一步地,所述通路异常检测模型的构建过程包括:
将当前训练集的每个样本的网络预测值与实际值的差异投
影到高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集
的每个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径为作为
基网络区分正常/异常样本的阈值;
判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L,若未达到
则根据更新后的样本权重分布重新进行重采样并训练基网络,若达到则根据基网络的权重
系数对L个基网络进行集成,得到通路异常检测模型H。
进一步地,所述根据样本权重分布对样本进行重采样,得到当前训练集,包括:
(2)将样本按照权重进行升序排列;
(4)获得索引j对应的样本;
从通路数据库获取通路p的有向图,将基因k对通路p的影响记为,如果是激活
作用则,如果是抑制作用则;将基因k在通路p的重要性记为,
其中为有向图中经过基因k的路径数量,为所有基因的的最大值;将基因k在
通路p的贡献记为,其中为训练集中基因k的变异系数;将基因k在通路p的权重记为,K为通路p的基因集合;
进一步地,所述超球体的半径最小化公式如下:
其中,为第l个基网络的超球体的半径;为第l个基网络的超球体的球心;为第l个基网络中差异投影到高维空间当中的投影点对应的松弛因子;为负责将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;为投影点到球心的距离,记为;为第l个基网络的调节复杂度
的误差惩罚系数。
进一步地,对样本权重分布进行更新的公式如下:
进一步地,利用原始训练集计算通路异常检测模型H预测值与实际值
的差异,并计算将差异投影到高维空间当中的最小超球体的半径,将作为通路异常
检测模型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体球心的平均
距离,记为。进一步地,所述通路异常检测模块用于评估个体通路异常情况,具体为:
对于通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本通过
通路异常检测模型得到的预测值与实际值的差异,计算得到在高维空间的投
影点到最小超球体球心的距离,并根据阈值判断该患者样本在通路p中是否为
异常样本:当时,该患者样本为通路p正常样本,并将该患者通路p的通路异常评
分记为0;当时,该患者样本为通路p异常样本,并将作
为该患者通路p的通路异常评分。
本发明的有益效果是:本发明在充分利用通路知识的情况下,有效解决现有方法无法用于单一患者的通路异常情况评估的问题;集成多个深度编码器网络构建的通路异常检测模型提高了对正常样本的识别能力,具有良好的可扩展性,利于海量数据的大规模处理;基于通路异常检测模型的预测值与实际值的差异对样本是否异常进行区分,并计算样本的通路异常评分,能够评估患病样本相较于正常样本的通路异常程度。
附图说明
图1为本发明基于自适应重采样深度编码器网络的通路异常检测系统结构框架图。
图2为本发明实施例提供的通路异常检测模型训练流程图。
图3为本发明实施例提供的深度编码器网络结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
通路指基于既往的科学研究得到与生物系统内同一功能相关的基因或分子间的相互作用、反应和关系网络,而通路异常检测指对于某个患病个体的某个通路的活动情况与健康个体同一通路的活动情况的差异的评估,包括是否与健康个体有显著差异,以及差异程度的评估。
本发明提供一种基于自适应重采样深度编码器网络的通路异常检测系统,如图1,该系统包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练能够有效识别正常样本和异常样本的深度编码器网络,将训练好的深度编码器网络作为通路异常检测模型;
通路异常检测模块:用于对肿瘤组织样本基因表达数据进行分析,评估个体通路异常情况。
通路异常检测模型训练过程如图2所示。为了提高通路异常检测模型对正常样本的识别能力,完成数据预处理后,基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后重复上述过程,训练多个深度编码器网络,最后对多个深度编码器网络进行集成来获得能够有效识别正常样本和异常样本的通路异常检测模型,用于通路异常检测。具体步骤如下:
(1)深度编码器网络参数设定
假设某个生物功能信号通路p中共涉及个基因,KEGG(京都基因与基因组百科全
书)通路数据库中通路p包含的KEGG ORTHOLOGY ID(KEGG功能直系同源物ID,每个ID代表一
类功能已知的同源基因)的数目为,深度编码器网络包括依次连接的输入层、编码单元、
底层、解码单元、输出层。编码单元包括至少两个编码层,解码单元包括与编码单元各编码
层相对应的解码层;编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数
相同;
其中,输入层与输出层的神经元个数为,考虑到通路内部分基因之间有类似的生
物功能,相关性较高,因此需要对生物功能类似的基因进行处理,将编码单元第一个编码层E 1与解码单元最后一个解码层D 1的神经元个数设定为;第一个编码层E 1和输出层的激活
函数为Relu;
其余编码层、解码层和底层的神经元个数确定方法为:首先确定底层的神经元个
数,其数量为通路数据库(KEGG、Reactome等)中通路p的网络图中所包含的子通路网络的数
目,记为net;假设编码层数量为,那么第code个编码层的神经元
个数为,相对应的解码层与编码层神经元个数相同;第一
个编码层E 1和输出层之间的编码层、解码层和底层的激活函数为tanh。
本发明还在深度编码器网络中加入L 2约束,可以有效防止模型过拟合。
在一个实施例中,如图3所示,深度编码器网络为11层网络,包括依次连接的输入
层、4个编码层、底层、4个解码层、输出层。其中,输入层与输出层的神经元个数为,将编码
层E 1与解码层D 1的神经元个数设定为,编码层E 1和输出层的激活函数为Relu,解码层D 1的
激活函数为tanh。
当底层的神经元个数为net时,编码层E 2与解码层D 2的神经元个数为,激活函数为tanh;编码层E 3与解码层D 3的神经元个数为,激活函数为tanh;编码层E 4与解码层D 4的神经元个数为,激活函数为tanh;底层的激活函数为tanh。
(2)基于正常样本基因表达数据训练深度编码器网络
(2.1)初始化样本权重
(2.2)根据样本权重分布对样本进行重采样
b.将样本按照权重进行升序排列;
d.获得索引j对应的样本;
(2.3)初始化深度编码器网络
(2.4)训练深度编码器网络
由于通路中不同基因的重要性不同,因此计算基网络的损失函数时需要考虑通
路中各个基因的权重。从通路数据库(KEGG、Reactome等)获取通路p的有向图,图的每个节
点为通路p中的基因,图的每条边描述节点和/或节点产物中基因之间的生化激活或抑制相
互作用。以没有传入边的节点(入度为0)作为起点,以没有传出边(出度为0)的节点作为终
点,计算路径时禁止出现循环。将基因k对通路p的影响记为,如果是激活作用则,
如果是抑制作用则;将基因k在通路p的重要性记为,其中为有向图
中经过基因k的路径数量,为所有基因的的最大值;为训练集中
基因k的变异系数;基因k在通路p的贡献记为;最终基因k在通路p的权重记为,K为通路p的基因集合,即基因k的贡献占通路p中全部基因贡献和的比率,使
得。
(2.5)计算当前基网络区分正常/异常样本的阈值
引入核函数将当前训练集的每个样本的网络预测值与实际值的差异投影到
高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集的每
个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径作为当前基网
络区分正常/异常样本的阈值。超球体的半径最小化公式如下:
其中,为第l个基网络的超球体的半径;为第l个基网络的超球体的球心;为第l个基网络中投影到高维空间当中的投影点对应的松弛因子;为
负责将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;为投影点到球心的距离,记为;为第l个基网络的调节复杂度
的误差惩罚系数。
(2.6)根据深度编码器网络对原始训练集进行分类,并调整样本权重
将原始训练集的每个样本作为基网络的输入,获取每个样
本的重构向量,当样本对应的时,将样本标记为异常
样本,将异常样本的集合记为,最终得到基网络在原始训练集上的误差率,即原始训练集中被基网络识别为异常样本的样本权重之和。
(2.8)判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L;
(2.9)对得到的L个基网络进行集成
基于通路异常检测模型H,利用原始训练集计算通路异常检测模型预
测值与实际值的差异,并计算将差异投影到高维空间当中的最小超球体的半径,将
作为通路异常检测模型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体球心的平均距离,记为。
通过通路异常检测模块评估患者样本的通路异常情况,具体为:
对于某个通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本
通过通路异常检测模型得到的预测值与实际值的差异,计算得到在高维空间
的投影点到最小超球体球心的距离,并根据阈值判断该患者样本在通路p中是
否为异常样本:当时,该患者样本为通路p正常样本,并将该患者通路p的通路异
常评分记为0;当时,该患者样本为通路p异常样本,并将作为该患者通路p的通路异常评分,即:
重复上述步骤,即可对患者所有通路的通路异常情况进行评估。
实施例
使用基因型组织表达(项目)GTEx中的308例正常结肠组织样本的基因表达数据进行KEGG中的人类通路结直肠癌的通路异常检测系统构建,并使用癌症基因组图谱(项目)TCGA中的41例癌旁正常结肠组织和286例结肠肿瘤组织的基因表达数据进行系统的性能评估。其中GTEx的308例正常结肠组织样本作为训练数据集,TCGA的41例癌旁正常结肠组织和286例结肠肿瘤组织作为验证数据集。
该通路共包含86个基因,72个KEGG ORTHOLOGY ID,20个子通路网络,深度编码器
网络采用如图3所示的结构,因此深度编码器网络的各层神经元个数分别为:输入层86个,
编码层72个,编码层59个,编码层46个,编码层33个,底层20个,解码层33个,
解码层46个,解码层59个,解码层72个,输出层86个。
最终构建的通路异常检测模型将训练数据集中的306例样本识别为正常样本,即识别准确率达到99.35%。在验证数据集中,该通路异常检测模型将TCGA癌旁正常结肠组织中的39例样本识别为正常样本,识别准确率为95.12%;该通路异常检测模型将TCGA结肠肿瘤组织中的274例样本识别为异常样本,识别准确率为95.80%;并评估得到TCGA结肠肿瘤组织的通路异常评分。
然后进行模型稳定性测试。随机选取286例TCGA结肠肿瘤组织中的57例样本,并随机生成57例噪声数据,通过通路异常检测模型对这114例样本进行评估,评估结果中,模型将随机选取的57例TCGA结肠肿瘤组织中的54例识别为异常样本,3例识别为正常样本,结果与未加入噪声数据时的识别结果完全一致。在模型稳定性测试中,在保留6位小数的情况下,57例随机选取的TCGA结肠肿瘤组织的通路异常评分与未加入噪声数据时的识别结果完全一致。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练深度编码器网络,包括:基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于深度编码器网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后训练下一个深度编码器网络;对多个深度编码器网络进行集成,获得能够有效识别正常样本和异常样本的通路异常检测模型;
通路异常检测模块:用于分析肿瘤组织样本基因表达数据,评估个体通路异常情况。
2.根据权利要求1所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述深度编码器网络的结构及参数如下:
所述深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元和输出层,所述编码单元包括至少两个编码层,所述解码单元包括与编码单元各编码层相对应的解码层;所述编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数相同;
3.根据权利要求2所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述编码单元第一个编码层和输出层的激活函数为Relu,第一个编码层和输出层之间的编码层、解码层和底层的激活函数为tanh,在深度编码器网络中加入L 2约束。
4.根据权利要求1-3中任一项所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述通路异常检测模型的构建过程包括:
将当前训练集的每个样本的网络预测值与实际值的差异投影到
高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集的每
个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径为作为基网
络区分正常/异常样本的阈值;
从通路数据库获取通路p的有向图,将基因k对通路p的影响记为,如果是激活作用则,如果是抑制作用则;将基因k在通路p的重要性记为,其中为有向图中经过基因k的路径数量,为所有基因的的最大值;将基因k在通路p的贡献记为,其中为训练集中基因k的变异系数;将基因k在
通路p的权重记为,K为通路p的基因集合;
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210685472.XA CN114783524B (zh) | 2022-06-17 | 2022-06-17 | 基于自适应重采样深度编码器网络的通路异常检测系统 |
JP2023095082A JP7381815B1 (ja) | 2022-06-17 | 2023-06-08 | 適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210685472.XA CN114783524B (zh) | 2022-06-17 | 2022-06-17 | 基于自适应重采样深度编码器网络的通路异常检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114783524A true CN114783524A (zh) | 2022-07-22 |
CN114783524B CN114783524B (zh) | 2022-09-30 |
Family
ID=82421979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210685472.XA Active CN114783524B (zh) | 2022-06-17 | 2022-06-17 | 基于自适应重采样深度编码器网络的通路异常检测系统 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7381815B1 (zh) |
CN (1) | CN114783524B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115714731A (zh) * | 2022-09-27 | 2023-02-24 | 中国人民解放军63921部队 | 一种基于深度学习自编码器的深空测控链路异常检测方法 |
CN116743646A (zh) * | 2023-08-15 | 2023-09-12 | 云南省交通规划设计研究院有限公司 | 一种基于域自适应深度自编码器隧道网络异常检测方法 |
WO2023217290A1 (zh) * | 2022-10-11 | 2023-11-16 | 之江实验室 | 基于图神经网络的基因表型预测 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612694B (zh) * | 2023-12-04 | 2024-06-25 | 西安好博士医疗科技有限公司 | 一种基于数据反馈的热疗机数据识别方法和系统 |
CN118428993B (zh) * | 2024-07-04 | 2024-09-17 | 青岛科技大学 | 基于动态取样和自适应特征融合的个性化兼容性建模方法和系统 |
CN118552919A (zh) * | 2024-07-30 | 2024-08-27 | 广州英码信息科技有限公司 | 一种基于深度特征对比的铁轨异常检测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112039903A (zh) * | 2020-09-03 | 2020-12-04 | 中国民航大学 | 基于深度自编码神经网络模型的网络安全态势评估方法 |
CN112820403A (zh) * | 2021-02-25 | 2021-05-18 | 中山大学 | 一种基于多组学数据预测癌症患者预后风险的深度学习方法 |
US20210358626A1 (en) * | 2020-03-04 | 2021-11-18 | Grail, Inc. | Systems and methods for cancer condition determination using autoencoders |
CN113807396A (zh) * | 2021-08-12 | 2021-12-17 | 华南理工大学 | 一种物联网高维数据异常检测方法、系统、装置及介质 |
CN114036992A (zh) * | 2021-06-10 | 2022-02-11 | 南京航空航天大学 | 基于自编码器和遗传算法的高维数据异常子空间检测方法 |
WO2022058980A1 (en) * | 2020-09-21 | 2022-03-24 | Insilico Medicine Ip Limited | Methylation data signatures of aging and methods of determining a methylation aging clock |
CN114239807A (zh) * | 2021-12-17 | 2022-03-25 | 山东省计算中心(国家超级计算济南中心) | 基于rfe-dagmm的高维数据异常检测方法 |
CN114358191A (zh) * | 2022-01-05 | 2022-04-15 | 重庆邮电大学 | 一种基于深度自动编码器的基因表达数据聚类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020077352A1 (en) * | 2018-10-12 | 2020-04-16 | Human Longevity, Inc. | Multi-omic search engine for integrative analysis of cancer genomic and clinical data |
WO2021202423A1 (en) * | 2020-03-31 | 2021-10-07 | Grail, Inc. | Cancer classification with genomic region modeling |
-
2022
- 2022-06-17 CN CN202210685472.XA patent/CN114783524B/zh active Active
-
2023
- 2023-06-08 JP JP2023095082A patent/JP7381815B1/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210358626A1 (en) * | 2020-03-04 | 2021-11-18 | Grail, Inc. | Systems and methods for cancer condition determination using autoencoders |
CN112039903A (zh) * | 2020-09-03 | 2020-12-04 | 中国民航大学 | 基于深度自编码神经网络模型的网络安全态势评估方法 |
WO2022058980A1 (en) * | 2020-09-21 | 2022-03-24 | Insilico Medicine Ip Limited | Methylation data signatures of aging and methods of determining a methylation aging clock |
CN112820403A (zh) * | 2021-02-25 | 2021-05-18 | 中山大学 | 一种基于多组学数据预测癌症患者预后风险的深度学习方法 |
CN114036992A (zh) * | 2021-06-10 | 2022-02-11 | 南京航空航天大学 | 基于自编码器和遗传算法的高维数据异常子空间检测方法 |
CN113807396A (zh) * | 2021-08-12 | 2021-12-17 | 华南理工大学 | 一种物联网高维数据异常检测方法、系统、装置及介质 |
CN114239807A (zh) * | 2021-12-17 | 2022-03-25 | 山东省计算中心(国家超级计算济南中心) | 基于rfe-dagmm的高维数据异常检测方法 |
CN114358191A (zh) * | 2022-01-05 | 2022-04-15 | 重庆邮电大学 | 一种基于深度自动编码器的基因表达数据聚类方法 |
Non-Patent Citations (2)
Title |
---|
DANYANG TONG等: "Improving the Prognosis of Colon Cancer through Knowledge-Based Clinical-Molecular Integrated Analysis", 《HINDAWI BIOMED RESEARCH INTERNATIONAL》 * |
谢林江等: "阿尔茨海默病信号通路研究进展及对策研究", 《中国药理学通报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115714731A (zh) * | 2022-09-27 | 2023-02-24 | 中国人民解放军63921部队 | 一种基于深度学习自编码器的深空测控链路异常检测方法 |
WO2023217290A1 (zh) * | 2022-10-11 | 2023-11-16 | 之江实验室 | 基于图神经网络的基因表型预测 |
CN116743646A (zh) * | 2023-08-15 | 2023-09-12 | 云南省交通规划设计研究院有限公司 | 一种基于域自适应深度自编码器隧道网络异常检测方法 |
CN116743646B (zh) * | 2023-08-15 | 2023-12-19 | 云南省交通规划设计研究院股份有限公司 | 一种基于域自适应深度自编码器隧道网络异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114783524B (zh) | 2022-09-30 |
JP2023184468A (ja) | 2023-12-28 |
JP7381815B1 (ja) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114783524B (zh) | 基于自适应重采样深度编码器网络的通路异常检测系统 | |
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
KR102190299B1 (ko) | 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램 | |
Alvares et al. | Bayesian survival analysis with BUGS | |
US11710540B2 (en) | Multi-level architecture of pattern recognition in biological data | |
JP7568276B2 (ja) | 個体の形質情報を予測するためのシステムまたは方法 | |
Choubey et al. | GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis | |
CN112215259B (zh) | 基因选择方法和装置 | |
CN110097928A (zh) | 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型 | |
CN114093515A (zh) | 一种基于肠道菌群预测模型集成学习的年龄预测方法 | |
CN111243662A (zh) | 基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质 | |
Torkey et al. | A novel deep autoencoder based survival analysis approach for microarray dataset | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
Khozama et al. | Study the Effect of the Risk Factors in the Estimation of the Breast Cancer Risk Score Using Machine Learning | |
Niederberger et al. | A neural network to predict lifespan and new metastases in patients with renal cell cancer | |
WO2005048185A1 (en) | Transductive neuro fuzzy inference method for personalised modelling | |
Yazdani et al. | Bounded fuzzy possibilistic method reveals information about lung cancer through analysis of metabolomics | |
CN117438089A (zh) | 基于多模型融合的可解释乳腺癌复发预测方法及系统 | |
CN113284611B (zh) | 基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质 | |
de Oliveira | Using machine learning to predict mobility improvement of patients after therapy: a case study on rare diseases | |
CN114373547B (zh) | 疾病患病风险的预测方法及系统 | |
US11894116B1 (en) | Apparatus for extending longevity and a method for its use | |
Mosslah | A Study of Accuracy of Data Mining Algorithms in Diagnosis of Emphysema Disease (EmD). | |
Douleh | The Relation Between Respiratory & Acute Coronary Syndrome Using Data Mining Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |