CN114783524A - 基于自适应重采样深度编码器网络的通路异常检测系统 - Google Patents

基于自适应重采样深度编码器网络的通路异常检测系统 Download PDF

Info

Publication number
CN114783524A
CN114783524A CN202210685472.XA CN202210685472A CN114783524A CN 114783524 A CN114783524 A CN 114783524A CN 202210685472 A CN202210685472 A CN 202210685472A CN 114783524 A CN114783524 A CN 114783524A
Authority
CN
China
Prior art keywords
sample
training set
path
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210685472.XA
Other languages
English (en)
Other versions
CN114783524B (zh
Inventor
李劲松
童丹阳
王昱
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210685472.XA priority Critical patent/CN114783524B/zh
Publication of CN114783524A publication Critical patent/CN114783524A/zh
Application granted granted Critical
Publication of CN114783524B publication Critical patent/CN114783524B/zh
Priority to JP2023095082A priority patent/JP7381815B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于自适应重采样深度编码器网络的通路异常检测系统,包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块,本发明利用基于神经网络的深度编码器算法,将个体通路异常情况评估问题转换为异常检测问题,区分异常样本与正常样本,并评估异常样本相较于正常样本的通路异常程度,改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下,富集多个生物功能相近的基因的预后信息,有效评估患者的通路异常情况,可用于肿瘤预后预测准确性的提高,辅助医生制定患者的治疗计划。

Description

基于自适应重采样深度编码器网络的通路异常检测系统
技术领域
本发明属于医疗信息技术领域,尤其涉及一种基于自适应重采样深度编码器网络的通路异常检测系统。
背景技术
癌症的发病率和死亡率高,已经成为人类因疾病死亡的主要原因。随着人口数量的增长和人口老龄化的发展,癌症带来的疾病负担正在进一步加大。许多最新的研究发现,通过加入生物标志物等新的预后因子的方式可以对患者的疾病状况和预后情况进行更为个性化的描述。但目前,除了HER2和ER被用于乳腺癌的预后分期外,大多数肿瘤的研究中没有发现可靠的生物标志物,说明单一或少数几个基因无法提供有效的预后信息。因此需要从大量的基因中通过数据驱动的方式寻找出能提供有效预后信息的一系列基因。而基于通路知识将基因表达数据转换为患病个体的通路异常情况可以有效富集单一基因的预后信息,对患者的疾病状况和预后情况进行更为个性化的描述。
现有的个体通路异常情况评估方法包括PARADIGM和Pathifier这两种。其中PARADIGM方法在计算评估个体通路异常情况的过程中,需要通路具体的功能性结构信息以及完整的基因组学、转录组学和蛋白组学等多个尺度的组学数据;因此当通路结构较为复杂时需要花费大量的时间进行评估,而且评估个体通路异常情况时必须获取通路内涉及的全部基因、蛋白等不同尺度的信息;而在实际情况下,往往无法保证能获取患者某个通路中涉及的基因、蛋白等多个尺度的完整信息,因此该方法不适用于临床。Pathifier方法则不需要完整的通路信息,而且只需要单一尺度的组学数据如基因表达数据,其在评估过程中需要选择主成分数量并对背景基因数据进行过滤以获得主成分曲线,进而评估个体的通路异常情况;但该方法要求至少两例的患病样本数据,而且每次评估新患者的通路异常情况时需要基于所有样本重新获取主成分曲线,导致该方法无法获得稳定的通路异常情况。
发明内容
本发明针对现有技术的不足,提供一种基于自适应重采样深度编码器网络的通路异常检测系统,本发明利用基于神经网络的深度编码器算法,将个体通路异常情况评估问题转换为异常检测问题,区分异常样本与正常样本,并评估异常样本相较于正常样本的通路异常程度,改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下,富集多个生物功能相近的基因的预后信息,有效评估患者的通路异常情况,可用于肿瘤预后预测准确性的提高,辅助医生制定患者的治疗计划。
本发明的目的是通过以下技术方案实现的:一种基于自适应重采样深度编码器网络的通路异常检测系统,该系统包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练深度编码器网络,包括:基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于深度编码器网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后训练下一个深度编码器网络;对多个深度编码器网络进行集成,获得能够有效识别正常样本和异常样本的通路异常检测模型;
通路异常检测模块:用于分析肿瘤组织样本基因表达数据,评估个体通路异常情况。
进一步地,所述深度编码器网络的结构及参数如下:
假设生物功能信号通路p中共涉及
Figure 533791DEST_PATH_IMAGE001
个基因,KEGG通路数据库中通路p包含的KEGG 功能直系同源物ID的数目为
Figure 303164DEST_PATH_IMAGE002
所述深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元和输出层,所述编码单元包括至少两个编码层,所述解码单元包括与编码单元各编码层相对应的解码层;所述编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数相同;
将输入层与输出层的神经元个数设定为
Figure 73674DEST_PATH_IMAGE001
,将编码单元第一个编码层与解码单元 最后一个解码层的神经元个数设定为
Figure 903090DEST_PATH_IMAGE002
,将底层的神经元个数设定为通路数据库中通路p 的网络图中所包含的子通路网络的数目,记为net;假设编码层数量为
Figure 201128DEST_PATH_IMAGE003
,那么第code个编码层的神经元个数为
Figure 836509DEST_PATH_IMAGE004
进一步地,所述编码单元第一个编码层和输出层的激活函数为Relu,第一个编码层和输出层之间的编码层、解码层和底层的激活函数为tanh,在深度编码器网络中加入L 2约束。
进一步地,所述通路异常检测模型的构建过程包括:
对于涉及
Figure 399208DEST_PATH_IMAGE001
个基因的生物功能信号通路p,将包含
Figure 461842DEST_PATH_IMAGE005
个正常样本基因表达数 据的正常样本构成原始训练集
Figure 477202DEST_PATH_IMAGE006
,设定基网络总数为
Figure 853957DEST_PATH_IMAGE007
初始化原始训练集
Figure 395797DEST_PATH_IMAGE008
的样本分布为均匀分布,将样本权重分布记为
Figure 268813DEST_PATH_IMAGE009
,其中
Figure 896103DEST_PATH_IMAGE010
为第i个样本的权重;
根据样本权重分布对样本进行重采样,得到当前训练集
Figure 748653DEST_PATH_IMAGE011
,并基于当前 训练集
Figure 144999DEST_PATH_IMAGE012
训练深度编码器网络,得到基网络
Figure 690381DEST_PATH_IMAGE013
将当前训练集
Figure 477071DEST_PATH_IMAGE014
的每个样本的网络预测值与实际值的差异
Figure 257946DEST_PATH_IMAGE015
投 影到高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集
Figure 148279DEST_PATH_IMAGE016
的每个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径
Figure 723617DEST_PATH_IMAGE017
为作为 基网络
Figure 200866DEST_PATH_IMAGE013
区分正常/异常样本的阈值;
将原始训练集
Figure 457535DEST_PATH_IMAGE008
的每个样本
Figure 828473DEST_PATH_IMAGE018
输入基网络
Figure 715658DEST_PATH_IMAGE013
,当样本
Figure 273678DEST_PATH_IMAGE018
对应的 投影点到最小超球体球心的距离
Figure 35835DEST_PATH_IMAGE019
时,将样本
Figure 261280DEST_PATH_IMAGE020
标记为异常样本,将异常 样本的集合记为
Figure 319366DEST_PATH_IMAGE021
,得到基网络
Figure 567945DEST_PATH_IMAGE013
在原始训练集
Figure 494313DEST_PATH_IMAGE006
上的误差率
Figure 449630DEST_PATH_IMAGE022
根据误差率
Figure 68830DEST_PATH_IMAGE023
计算得到当前基网络
Figure 969485DEST_PATH_IMAGE013
的权重系数
Figure 433964DEST_PATH_IMAGE024
,并对样本权重分布进行更 新;
判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L,若未达到 则根据更新后的样本权重分布重新进行重采样并训练基网络,若达到则根据基网络的权重 系数
Figure 509368DEST_PATH_IMAGE024
对L个基网络进行集成,得到通路异常检测模型H。
进一步地,所述根据样本权重分布对样本进行重采样,得到当前训练集,包括:
当基网络个数
Figure 299469DEST_PATH_IMAGE025
时,使用原始训练集
Figure 991482DEST_PATH_IMAGE026
作为当前训练集
Figure 400597DEST_PATH_IMAGE027
当基网络个数
Figure 455141DEST_PATH_IMAGE028
,根据样本权重分布
Figure 524466DEST_PATH_IMAGE029
进行重采样,步骤如下:
(1)随机产生一个实数m,取值范围为
Figure 31671DEST_PATH_IMAGE030
(2)将样本按照权重进行升序排列;
(3)根据二分查找算法,查找满足条件
Figure 978898DEST_PATH_IMAGE031
的索引j
(4)获得索引j对应的样本;
(5) 重复步骤(1)到步骤(4),直到获得
Figure 887948DEST_PATH_IMAGE032
个样本构成当前训练集
Figure 895218DEST_PATH_IMAGE033
进一步地,所述基网络
Figure 561823DEST_PATH_IMAGE034
的损失函数计算过程如下:
将当前训练集
Figure 437375DEST_PATH_IMAGE035
的每个样本
Figure 574833DEST_PATH_IMAGE036
作为基网络
Figure 612059DEST_PATH_IMAGE013
的输入,获取每个样本 的重构向量
Figure 234802DEST_PATH_IMAGE037
从通路数据库获取通路p的有向图,将基因k对通路p的影响记为
Figure 648466DEST_PATH_IMAGE038
,如果是激活 作用则
Figure 407474DEST_PATH_IMAGE039
,如果是抑制作用则
Figure 287706DEST_PATH_IMAGE040
;将基因k在通路p的重要性记为
Figure 256799DEST_PATH_IMAGE041
, 其中
Figure 848055DEST_PATH_IMAGE042
为有向图中经过基因k的路径数量,
Figure 586204DEST_PATH_IMAGE043
为所有基因的
Figure 106178DEST_PATH_IMAGE044
的最大值;将基因k在 通路p的贡献记为
Figure 296988DEST_PATH_IMAGE045
,其中
Figure 927820DEST_PATH_IMAGE046
为训练集
Figure 786055DEST_PATH_IMAGE047
中基因k的变异系数;将基因k在通路p的权重记为
Figure 476930DEST_PATH_IMAGE048
,K为通路p的基因集合;
样本
Figure 155036DEST_PATH_IMAGE049
的损失函数
Figure 93954DEST_PATH_IMAGE050
记为:
Figure 806695DEST_PATH_IMAGE051
其中,
Figure 465210DEST_PATH_IMAGE052
分别为样本
Figure 771557DEST_PATH_IMAGE053
和重构向量
Figure 868826DEST_PATH_IMAGE054
的第k个元 素,
Figure 311440DEST_PATH_IMAGE055
为当前训练集
Figure 468752DEST_PATH_IMAGE056
的所有样本第k个元素的平均值,
Figure 229772DEST_PATH_IMAGE057
为重构向量
Figure 130732DEST_PATH_IMAGE058
的所有样本第k个元素的平均值。
进一步地,所述超球体的半径最小化公式如下:
Figure 693432DEST_PATH_IMAGE059
其中,
Figure 21645DEST_PATH_IMAGE060
为第l个基网络的超球体的半径;
Figure 37005DEST_PATH_IMAGE061
为第l个基网络的超球体的球心;
Figure 148181DEST_PATH_IMAGE062
为第l个基网络中差异
Figure 690021DEST_PATH_IMAGE063
投影到高维空间当中的投影点对应的松弛因子;
Figure 563037DEST_PATH_IMAGE064
为负责将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;
Figure 190327DEST_PATH_IMAGE065
为投影点到球心的距离,记为
Figure 42876DEST_PATH_IMAGE066
Figure 704802DEST_PATH_IMAGE067
为第l个基网络的调节复杂度 的误差惩罚系数。
进一步地,对样本权重分布进行更新的公式如下:
Figure 250184DEST_PATH_IMAGE068
其中,
Figure 771295DEST_PATH_IMAGE069
分别为样本
Figure 21011DEST_PATH_IMAGE070
在样本权重分布
Figure 708082DEST_PATH_IMAGE071
中的权重,
Figure 548999DEST_PATH_IMAGE072
为样本
Figure 760669DEST_PATH_IMAGE073
输入基网络
Figure 345234DEST_PATH_IMAGE013
后得到的正常/异常样本识别结果;
Figure 591538DEST_PATH_IMAGE074
是使
Figure 603357DEST_PATH_IMAGE075
成为概率分布的规范化因子。
进一步地,利用原始训练集
Figure 302322DEST_PATH_IMAGE076
计算通路异常检测模型H预测值与实际值 的差异,并计算将差异投影到高维空间当中的最小超球体
Figure 424999DEST_PATH_IMAGE077
的半径
Figure 307503DEST_PATH_IMAGE078
,将
Figure 490223DEST_PATH_IMAGE079
作为通路异常 检测模型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体
Figure 676484DEST_PATH_IMAGE077
球心的平均 距离,记为
Figure 602852DEST_PATH_IMAGE080
。进一步地,所述通路异常检测模块用于评估个体通路异常情况,具体为:
对于通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本通过 通路异常检测模型得到的预测值与实际值的差异
Figure 823749DEST_PATH_IMAGE081
,计算得到
Figure 849474DEST_PATH_IMAGE082
在高维空间的投 影点到最小超球体
Figure 850928DEST_PATH_IMAGE077
球心的距离
Figure 580986DEST_PATH_IMAGE083
,并根据阈值
Figure 951663DEST_PATH_IMAGE084
判断该患者样本在通路p中是否为 异常样本:当
Figure 679447DEST_PATH_IMAGE085
时,该患者样本为通路p正常样本,并将该患者通路p的通路异常评 分记为0;当
Figure 637039DEST_PATH_IMAGE086
时,该患者样本为通路p异常样本,并将
Figure 46155DEST_PATH_IMAGE087
作 为该患者通路p的通路异常评分。
本发明的有益效果是:本发明在充分利用通路知识的情况下,有效解决现有方法无法用于单一患者的通路异常情况评估的问题;集成多个深度编码器网络构建的通路异常检测模型提高了对正常样本的识别能力,具有良好的可扩展性,利于海量数据的大规模处理;基于通路异常检测模型的预测值与实际值的差异对样本是否异常进行区分,并计算样本的通路异常评分,能够评估患病样本相较于正常样本的通路异常程度。
附图说明
图1为本发明基于自适应重采样深度编码器网络的通路异常检测系统结构框架图。
图2为本发明实施例提供的通路异常检测模型训练流程图。
图3为本发明实施例提供的深度编码器网络结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
通路指基于既往的科学研究得到与生物系统内同一功能相关的基因或分子间的相互作用、反应和关系网络,而通路异常检测指对于某个患病个体的某个通路的活动情况与健康个体同一通路的活动情况的差异的评估,包括是否与健康个体有显著差异,以及差异程度的评估。
本发明提供一种基于自适应重采样深度编码器网络的通路异常检测系统,如图1,该系统包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练能够有效识别正常样本和异常样本的深度编码器网络,将训练好的深度编码器网络作为通路异常检测模型;
通路异常检测模块:用于对肿瘤组织样本基因表达数据进行分析,评估个体通路异常情况。
通路异常检测模型训练过程如图2所示。为了提高通路异常检测模型对正常样本的识别能力,完成数据预处理后,基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后重复上述过程,训练多个深度编码器网络,最后对多个深度编码器网络进行集成来获得能够有效识别正常样本和异常样本的通路异常检测模型,用于通路异常检测。具体步骤如下:
(1)深度编码器网络参数设定
假设某个生物功能信号通路p中共涉及
Figure 100698DEST_PATH_IMAGE001
个基因,KEGG(京都基因与基因组百科全 书)通路数据库中通路p包含的KEGG ORTHOLOGY ID(KEGG功能直系同源物ID,每个ID代表一 类功能已知的同源基因)的数目为
Figure 405909DEST_PATH_IMAGE002
,深度编码器网络包括依次连接的输入层、编码单元、 底层、解码单元、输出层。编码单元包括至少两个编码层,解码单元包括与编码单元各编码 层相对应的解码层;编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数 相同;
其中,输入层与输出层的神经元个数为
Figure 178693DEST_PATH_IMAGE001
,考虑到通路内部分基因之间有类似的生 物功能,相关性较高,因此需要对生物功能类似的基因进行处理,将编码单元第一个编码层E 1与解码单元最后一个解码层D 1的神经元个数设定为
Figure 624455DEST_PATH_IMAGE088
;第一个编码层E 1和输出层的激活 函数为Relu;
其余编码层、解码层和底层的神经元个数确定方法为:首先确定底层的神经元个 数,其数量为通路数据库(KEGG、Reactome等)中通路p的网络图中所包含的子通路网络的数 目,记为net;假设编码层数量为
Figure 533506DEST_PATH_IMAGE003
,那么第code个编码层的神经元 个数为
Figure 540776DEST_PATH_IMAGE089
,相对应的解码层与编码层神经元个数相同;第一 个编码层E 1和输出层之间的编码层、解码层和底层的激活函数为tanh。
本发明还在深度编码器网络中加入L 2约束,可以有效防止模型过拟合。
在一个实施例中,如图3所示,深度编码器网络为11层网络,包括依次连接的输入 层、4个编码层、底层、4个解码层、输出层。其中,输入层与输出层的神经元个数为
Figure 535277DEST_PATH_IMAGE001
,将编码 层E 1与解码层D 1的神经元个数设定为
Figure 82933DEST_PATH_IMAGE002
,编码层E 1和输出层的激活函数为Relu,解码层D 1的 激活函数为tanh。
当底层的神经元个数为net时,编码层E 2与解码层D 2的神经元个数为
Figure 721856DEST_PATH_IMAGE090
,激活函数为tanh;编码层E 3与解码层D 3的神经元个数为
Figure 24661DEST_PATH_IMAGE091
,激活函数为tanh;编码层E 4与解码层D 4的神经元个数为
Figure 880359DEST_PATH_IMAGE092
,激活函数为tanh;底层的激活函数为tanh。
(2)基于正常样本基因表达数据训练深度编码器网络
对于某个涉及
Figure 294023DEST_PATH_IMAGE001
个基因的生物功能信号通路p,将包含
Figure 787452DEST_PATH_IMAGE093
个正常样本基因表 达数据的正常样本构成原始训练集
Figure 261159DEST_PATH_IMAGE094
,设定基网络总数为
Figure 105618DEST_PATH_IMAGE007
(2.1)初始化样本权重
初始化原始训练集
Figure 322973DEST_PATH_IMAGE095
的样本分布为均匀分布,那么每个样本的权重均为
Figure 936488DEST_PATH_IMAGE096
,此时基网络个数
Figure 581096DEST_PATH_IMAGE097
,样本权重分布为
Figure 213984DEST_PATH_IMAGE098
(2.2)根据样本权重分布对样本进行重采样
当基网络个数
Figure 844816DEST_PATH_IMAGE097
时,可以直接使用原始训练集
Figure 703051DEST_PATH_IMAGE095
作为当前训练集,不 需要进行重采样,即当前训练集
Figure 128347DEST_PATH_IMAGE099
当基网络个数
Figure 72032DEST_PATH_IMAGE100
时,需要根据样本权重分布
Figure 506556DEST_PATH_IMAGE101
进行重采样,这里使用FiltEX算 法来实现,具体流程如下:
a.随机产生一个实数m,该实数的取值范围为
Figure 953718DEST_PATH_IMAGE030
b.将样本按照权重进行升序排列;
c.根据二分查找算法,查找满足条件
Figure 314030DEST_PATH_IMAGE031
的索引j
d.获得索引j对应的样本;
e.重复步骤a-d,直到获得
Figure 479432DEST_PATH_IMAGE102
个样本构成当前训练集
Figure 248805DEST_PATH_IMAGE103
(2.3)初始化深度编码器网络
基于步骤(2.2)中获得的当前训练集
Figure 956998DEST_PATH_IMAGE035
,训练深度编码器网络,使用梯度 下降算法结合反向传播算法对深度编码器网络进行调整,得到基网络
Figure 848730DEST_PATH_IMAGE104
(2.4)训练深度编码器网络
将当前训练集
Figure 376795DEST_PATH_IMAGE035
的每个样本
Figure 277755DEST_PATH_IMAGE105
作为基网络
Figure 135727DEST_PATH_IMAGE104
的输入,获取每个样本 的重构向量
Figure 339306DEST_PATH_IMAGE054
由于通路中不同基因的重要性不同,因此计算基网络
Figure 479301DEST_PATH_IMAGE104
的损失函数时需要考虑通 路中各个基因的权重。从通路数据库(KEGG、Reactome等)获取通路p的有向图,图的每个节 点为通路p中的基因,图的每条边描述节点和/或节点产物中基因之间的生化激活或抑制相 互作用。以没有传入边的节点(入度为0)作为起点,以没有传出边(出度为0)的节点作为终 点,计算路径时禁止出现循环。将基因k对通路p的影响记为
Figure 793738DEST_PATH_IMAGE106
,如果是激活作用则
Figure 69999DEST_PATH_IMAGE107
, 如果是抑制作用则
Figure 444480DEST_PATH_IMAGE108
;将基因k在通路p的重要性记为
Figure 71770DEST_PATH_IMAGE109
,其中
Figure 485172DEST_PATH_IMAGE110
为有向图 中经过基因k的路径数量,
Figure 756884DEST_PATH_IMAGE111
为所有基因的
Figure 426900DEST_PATH_IMAGE110
的最大值;
Figure 416853DEST_PATH_IMAGE112
为训练集
Figure 463306DEST_PATH_IMAGE035
中 基因k的变异系数;基因k在通路p的贡献记为
Figure 323946DEST_PATH_IMAGE113
;最终基因k在通路p的权重记为
Figure 164863DEST_PATH_IMAGE114
,K为通路p的基因集合,即基因k的贡献占通路p中全部基因贡献和的比率,使 得
Figure 134787DEST_PATH_IMAGE115
最终样本
Figure 719352DEST_PATH_IMAGE116
的损失函数
Figure 965657DEST_PATH_IMAGE117
记为:
Figure 977476DEST_PATH_IMAGE118
其中,
Figure 942020DEST_PATH_IMAGE052
分别为样本
Figure 736801DEST_PATH_IMAGE105
和重构向量
Figure 962246DEST_PATH_IMAGE054
的第k个元 素,
Figure 784446DEST_PATH_IMAGE055
为当前训练集
Figure 95342DEST_PATH_IMAGE056
的所有样本第k个元素的平均值,
Figure 897076DEST_PATH_IMAGE057
为重构向量
Figure 977027DEST_PATH_IMAGE058
的所有样本第k个元素的平均值;该损失函数用于进行当前基网络
Figure 206015DEST_PATH_IMAGE119
的训练和优 化。
(2.5)计算当前基网络区分正常/异常样本的阈值
引入核函数将当前训练集
Figure 4206DEST_PATH_IMAGE056
的每个样本的网络预测值与实际值的差异
Figure 406369DEST_PATH_IMAGE120
投影到 高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集
Figure 980307DEST_PATH_IMAGE121
的每 个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径作为当前基网 络区分正常/异常样本的阈值。超球体的半径最小化公式如下:
Figure 504830DEST_PATH_IMAGE122
其中,
Figure 665684DEST_PATH_IMAGE123
为第l个基网络的超球体的半径;
Figure 668275DEST_PATH_IMAGE124
为第l个基网络的超球体的球心;
Figure 598185DEST_PATH_IMAGE125
为第l个基网络中
Figure 559187DEST_PATH_IMAGE126
投影到高维空间当中的投影点对应的松弛因子;
Figure 4075DEST_PATH_IMAGE127
为 负责将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;
Figure 13619DEST_PATH_IMAGE128
为投影点到球心的距离,记为
Figure 358888DEST_PATH_IMAGE066
Figure 100579DEST_PATH_IMAGE067
为第l个基网络的调节复杂度 的误差惩罚系数。
(2.6)根据深度编码器网络对原始训练集进行分类,并调整样本权重
将原始训练集
Figure 360659DEST_PATH_IMAGE129
的每个样本
Figure 845998DEST_PATH_IMAGE130
作为基网络
Figure 875134DEST_PATH_IMAGE131
的输入,获取每个样 本的重构向量
Figure 53306DEST_PATH_IMAGE132
,当样本
Figure 269523DEST_PATH_IMAGE133
对应的
Figure 62948DEST_PATH_IMAGE134
时,将样本
Figure 946590DEST_PATH_IMAGE130
标记为异常 样本,将异常样本的集合记为
Figure 295663DEST_PATH_IMAGE135
,最终得到基网络
Figure 264756DEST_PATH_IMAGE136
在原始训练集
Figure 91898DEST_PATH_IMAGE076
上的误差率
Figure 95626DEST_PATH_IMAGE137
,即原始训练集
Figure 615600DEST_PATH_IMAGE138
中被基网络
Figure 242628DEST_PATH_IMAGE131
识别为异常样本的样本权重之和。
(2.7)更新样本权重分布
Figure 201357DEST_PATH_IMAGE139
根据误差率
Figure 466116DEST_PATH_IMAGE140
计算得到当前基网络
Figure 281625DEST_PATH_IMAGE131
的权重系数
Figure 100677DEST_PATH_IMAGE141
,并对样本权重分 布进行更新:
Figure 659834DEST_PATH_IMAGE142
其中,
Figure 247941DEST_PATH_IMAGE143
分别为样本
Figure 968773DEST_PATH_IMAGE144
Figure 508076DEST_PATH_IMAGE145
中的权重,
Figure 605345DEST_PATH_IMAGE146
为样本
Figure 313538DEST_PATH_IMAGE144
输入基网络
Figure 205271DEST_PATH_IMAGE147
后得到的正常/异常样本识别结果;
Figure 998915DEST_PATH_IMAGE148
,是使
Figure 571978DEST_PATH_IMAGE149
成为概率分布的规范化因子。
(2.8)判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L;
Figure 196995DEST_PATH_IMAGE150
时,
Figure 695847DEST_PATH_IMAGE151
,返回步骤(2.2),根据更新后的样本权重分布重新进行重 采样并训练基网络;
Figure 835841DEST_PATH_IMAGE152
时,进入步骤(2.9)。
(2.9)对得到的L个基网络进行集成
根据基网络的权重系数
Figure 415858DEST_PATH_IMAGE153
,对L个基网络
Figure 957698DEST_PATH_IMAGE131
进行集成,最终得到的通路异常检测模 型为
Figure 332179DEST_PATH_IMAGE154
基于通路异常检测模型H,利用原始训练集
Figure 959469DEST_PATH_IMAGE026
计算通路异常检测模型预 测值与实际值的差异,并计算将差异投影到高维空间当中的最小超球体
Figure 77598DEST_PATH_IMAGE077
的半径
Figure 473944DEST_PATH_IMAGE078
,将
Figure 269860DEST_PATH_IMAGE079
作为通路异常检测模型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体
Figure 384447DEST_PATH_IMAGE077
球心的平均距离,记为
Figure 40687DEST_PATH_IMAGE080
通过通路异常检测模块评估患者样本的通路异常情况,具体为:
对于某个通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本 通过通路异常检测模型得到的预测值与实际值的差异
Figure 557119DEST_PATH_IMAGE155
,计算得到
Figure 273402DEST_PATH_IMAGE156
在高维空间 的投影点到最小超球体
Figure 875285DEST_PATH_IMAGE077
球心的距离
Figure 335216DEST_PATH_IMAGE157
,并根据阈值
Figure 876794DEST_PATH_IMAGE158
判断该患者样本在通路p中是 否为异常样本:当
Figure 91874DEST_PATH_IMAGE085
时,该患者样本为通路p正常样本,并将该患者通路p的通路异 常评分记为0;当
Figure 587578DEST_PATH_IMAGE159
时,该患者样本为通路p异常样本,并将
Figure 975834DEST_PATH_IMAGE087
作为该患者通路p的通路异常评分,即:
Figure 76645DEST_PATH_IMAGE160
其中,
Figure 259365DEST_PATH_IMAGE161
分别为患者i通路p的正常/异常样本标识和通路异常评分。
重复上述步骤,即可对患者所有通路的通路异常情况进行评估。
实施例
使用基因型组织表达(项目)GTEx中的308例正常结肠组织样本的基因表达数据进行KEGG中的人类通路结直肠癌的通路异常检测系统构建,并使用癌症基因组图谱(项目)TCGA中的41例癌旁正常结肠组织和286例结肠肿瘤组织的基因表达数据进行系统的性能评估。其中GTEx的308例正常结肠组织样本作为训练数据集,TCGA的41例癌旁正常结肠组织和286例结肠肿瘤组织作为验证数据集。
该通路共包含86个基因,72个KEGG ORTHOLOGY ID,20个子通路网络,深度编码器 网络采用如图3所示的结构,因此深度编码器网络的各层神经元个数分别为:输入层86个, 编码层
Figure 711206DEST_PATH_IMAGE162
72个,编码层
Figure 637573DEST_PATH_IMAGE163
59个,编码层
Figure 825847DEST_PATH_IMAGE164
46个,编码层
Figure 445047DEST_PATH_IMAGE165
33个,底层20个,解码层
Figure 118605DEST_PATH_IMAGE166
33个, 解码层
Figure 848664DEST_PATH_IMAGE167
46个,解码层
Figure 658488DEST_PATH_IMAGE168
59个,解码层
Figure 448589DEST_PATH_IMAGE169
72个,输出层86个。
最终构建的通路异常检测模型将训练数据集中的306例样本识别为正常样本,即识别准确率达到99.35%。在验证数据集中,该通路异常检测模型将TCGA癌旁正常结肠组织中的39例样本识别为正常样本,识别准确率为95.12%;该通路异常检测模型将TCGA结肠肿瘤组织中的274例样本识别为异常样本,识别准确率为95.80%;并评估得到TCGA结肠肿瘤组织的通路异常评分。
然后进行模型稳定性测试。随机选取286例TCGA结肠肿瘤组织中的57例样本,并随机生成57例噪声数据,通过通路异常检测模型对这114例样本进行评估,评估结果中,模型将随机选取的57例TCGA结肠肿瘤组织中的54例识别为异常样本,3例识别为正常样本,结果与未加入噪声数据时的识别结果完全一致。在模型稳定性测试中,在保留6位小数的情况下,57例随机选取的TCGA结肠肿瘤组织的通路异常评分与未加入噪声数据时的识别结果完全一致。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练深度编码器网络,包括:基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于深度编码器网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后训练下一个深度编码器网络;对多个深度编码器网络进行集成,获得能够有效识别正常样本和异常样本的通路异常检测模型;
通路异常检测模块:用于分析肿瘤组织样本基因表达数据,评估个体通路异常情况。
2.根据权利要求1所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述深度编码器网络的结构及参数如下:
假设生物功能信号通路p中共涉及
Figure 936855DEST_PATH_IMAGE001
个基因,KEGG通路数据库中通路p包含的KEGG功能 直系同源物ID的数目为
Figure 680427DEST_PATH_IMAGE002
所述深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元和输出层,所述编码单元包括至少两个编码层,所述解码单元包括与编码单元各编码层相对应的解码层;所述编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数相同;
将输入层与输出层的神经元个数设定为
Figure 663427DEST_PATH_IMAGE001
,将编码单元第一个编码层与解码单元最后 一个解码层的神经元个数设定为
Figure 589794DEST_PATH_IMAGE002
,将底层的神经元个数设定为通路数据库中通路p的网 络图中所包含的子通路网络的数目,记为net;假设编码层数量为
Figure 545112DEST_PATH_IMAGE003
,那么第code个编码层的神经元个数为
Figure 898733DEST_PATH_IMAGE004
3.根据权利要求2所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述编码单元第一个编码层和输出层的激活函数为Relu,第一个编码层和输出层之间的编码层、解码层和底层的激活函数为tanh,在深度编码器网络中加入L 2约束。
4.根据权利要求1-3中任一项所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述通路异常检测模型的构建过程包括:
对于涉及
Figure 70826DEST_PATH_IMAGE005
个基因的生物功能信号通路p,将包含
Figure 800885DEST_PATH_IMAGE006
个正常样本基因表达数据的 正常样本构成原始训练集
Figure 673026DEST_PATH_IMAGE007
,设定基网络总数为
Figure 72914DEST_PATH_IMAGE008
初始化原始训练集
Figure 358402DEST_PATH_IMAGE009
的样本分布为均匀分布,将样本权重分布记为
Figure 501939DEST_PATH_IMAGE010
,其中
Figure 556482DEST_PATH_IMAGE011
为第i个样本的权重;
根据样本权重分布对样本进行重采样,得到当前训练集
Figure 631667DEST_PATH_IMAGE012
,并基于当前训练 集
Figure 404450DEST_PATH_IMAGE013
训练深度编码器网络,得到基网络
Figure 86099DEST_PATH_IMAGE014
将当前训练集
Figure 260728DEST_PATH_IMAGE015
的每个样本的网络预测值与实际值的差异
Figure 2419DEST_PATH_IMAGE016
投影到 高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集
Figure 934603DEST_PATH_IMAGE017
的每 个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径
Figure 544576DEST_PATH_IMAGE018
为作为基网 络
Figure 947613DEST_PATH_IMAGE014
区分正常/异常样本的阈值;
将原始训练集
Figure 250419DEST_PATH_IMAGE009
的每个样本
Figure 607582DEST_PATH_IMAGE019
输入基网络
Figure 21245DEST_PATH_IMAGE014
,当样本
Figure 514675DEST_PATH_IMAGE019
对应的投影 点到最小超球体球心的距离
Figure 988382DEST_PATH_IMAGE020
时,将样本
Figure 832841DEST_PATH_IMAGE021
标记为异常样本,将异常样本 的集合记为
Figure 784616DEST_PATH_IMAGE022
,得到基网络
Figure 162246DEST_PATH_IMAGE014
在原始训练集
Figure 478958DEST_PATH_IMAGE023
上的误差率
Figure 138609DEST_PATH_IMAGE024
根据误差率
Figure 566179DEST_PATH_IMAGE025
计算得到当前基网络
Figure 158835DEST_PATH_IMAGE014
的权重系数
Figure 849710DEST_PATH_IMAGE026
,并对样本权重分布进行更新;
判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L,若未达到则根 据更新后的样本权重分布重新进行重采样并训练基网络,若达到则根据基网络的权重系数
Figure 793395DEST_PATH_IMAGE026
对L个基网络进行集成,得到通路异常检测模型H。
5.根据权利要求4所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述根据样本权重分布对样本进行重采样,得到当前训练集,包括:
当基网络个数
Figure 460875DEST_PATH_IMAGE027
时,使用原始训练集
Figure 173616DEST_PATH_IMAGE028
作为当前训练集
Figure 769813DEST_PATH_IMAGE029
当基网络个数
Figure 200795DEST_PATH_IMAGE030
时,根据样本权重分布
Figure 173430DEST_PATH_IMAGE031
进行重采样,步骤如下:
(1)随机产生一个实数m,取值范围为
Figure 6257DEST_PATH_IMAGE032
(2)将样本按照权重进行升序排列;
(3)根据二分查找算法,查找满足条件
Figure 570093DEST_PATH_IMAGE033
的索引j
(4)获得索引j对应的样本;
(5)重复步骤(1)到步骤(4),直到获得
Figure 856413DEST_PATH_IMAGE034
个样本构成当前训练集
Figure 757373DEST_PATH_IMAGE035
6.根据权利要求4所述的基于自适应重采样深度编码器网络的通路异常检测系统,其 特征在于,所述基网络
Figure 54493DEST_PATH_IMAGE036
的损失函数计算过程如下:
将当前训练集
Figure 382706DEST_PATH_IMAGE037
的每个样本
Figure 398067DEST_PATH_IMAGE038
作为基网络
Figure 102717DEST_PATH_IMAGE014
的输入,获取每个样本的重 构向量
Figure 519923DEST_PATH_IMAGE039
从通路数据库获取通路p的有向图,将基因k对通路p的影响记为
Figure 19038DEST_PATH_IMAGE040
,如果是激活作用则
Figure 754650DEST_PATH_IMAGE041
,如果是抑制作用则
Figure 997413DEST_PATH_IMAGE042
;将基因k在通路p的重要性记为
Figure 269125DEST_PATH_IMAGE043
,其中
Figure 939141DEST_PATH_IMAGE044
为有向图中经过基因k的路径数量,
Figure 929094DEST_PATH_IMAGE045
为所有基因的
Figure 709968DEST_PATH_IMAGE046
的最大值;将基因k在通路p的贡献记为
Figure 898504DEST_PATH_IMAGE047
,其中
Figure 113322DEST_PATH_IMAGE048
为训练集
Figure 715205DEST_PATH_IMAGE049
中基因k的变异系数;将基因k在 通路p的权重记为
Figure 175136DEST_PATH_IMAGE050
,K为通路p的基因集合;
样本
Figure 546075DEST_PATH_IMAGE051
的损失函数
Figure 433259DEST_PATH_IMAGE052
记为:
Figure 256859DEST_PATH_IMAGE053
其中,
Figure 254902DEST_PATH_IMAGE054
分别为样本
Figure 480347DEST_PATH_IMAGE055
和重构向量
Figure 36968DEST_PATH_IMAGE056
的第k个元素,
Figure 613443DEST_PATH_IMAGE057
为当前训练集
Figure 415177DEST_PATH_IMAGE058
的所有样本第k个元素的平均值,
Figure 495128DEST_PATH_IMAGE059
为重构向量
Figure 786432DEST_PATH_IMAGE060
的所有样本第k个元素的平均值。
7.根据权利要求4所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述超球体的半径最小化公式如下:
Figure 787886DEST_PATH_IMAGE061
其中,
Figure 190049DEST_PATH_IMAGE062
为第l个基网络的超球体的半径;
Figure 504267DEST_PATH_IMAGE063
为第l个基网络的超球体的球心;
Figure 294369DEST_PATH_IMAGE064
为 第l个基网络中差异
Figure 455223DEST_PATH_IMAGE065
投影到高维空间当中的投影点对应的松弛因子;
Figure 457814DEST_PATH_IMAGE066
为负责 将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;
Figure 653303DEST_PATH_IMAGE067
为投影点到球心的距离,记为
Figure 348727DEST_PATH_IMAGE068
Figure 731298DEST_PATH_IMAGE069
为第l个基网络的调节复杂度 的误差惩罚系数。
8.根据权利要求4所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,对样本权重分布进行更新的公式如下:
Figure 803159DEST_PATH_IMAGE070
其中,
Figure 351690DEST_PATH_IMAGE071
分别为样本
Figure 218014DEST_PATH_IMAGE072
在样本权重分布
Figure 150198DEST_PATH_IMAGE073
中的权 重,
Figure 635537DEST_PATH_IMAGE074
为样本
Figure 664673DEST_PATH_IMAGE075
输入基网络
Figure 577266DEST_PATH_IMAGE014
后得到的正常/异常样本识别结果;
Figure 324642DEST_PATH_IMAGE076
是使
Figure 846628DEST_PATH_IMAGE077
成为概率分布的规范化因子。
9.根据权利要求4所述的基于自适应重采样深度编码器网络的通路异常检测系统,其 特征在于,利用原始训练集
Figure 730270DEST_PATH_IMAGE078
计算通路异常检测模型H预测值与实际值的差异, 并计算将差异投影到高维空间当中的最小超球体
Figure 79343DEST_PATH_IMAGE079
的半径
Figure 48436DEST_PATH_IMAGE080
,将
Figure 672315DEST_PATH_IMAGE081
作为通路异常检测模 型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体
Figure 551410DEST_PATH_IMAGE079
球心的平均距离,记 为
Figure 930438DEST_PATH_IMAGE082
10.根据权利要求9所述的基于自适应重采样深度编码器网络的通路异常检测系统,其特征在于,所述通路异常检测模块用于评估个体通路异常情况,具体为:
对于通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本通过通路 异常检测模型得到的预测值与实际值的差异
Figure 760729DEST_PATH_IMAGE083
,计算得到
Figure 516195DEST_PATH_IMAGE084
在高维空间的投影点 到最小超球体
Figure 984217DEST_PATH_IMAGE085
球心的距离
Figure 799726DEST_PATH_IMAGE086
,并根据阈值
Figure 618778DEST_PATH_IMAGE087
判断该患者样本在通路p中是否为异常 样本:当
Figure 912356DEST_PATH_IMAGE088
时,该患者样本为通路p正常样本,并将该患者通路的通路p异常评分记 为0;当
Figure 297201DEST_PATH_IMAGE089
时,该患者样本为通路p异常样本,并将
Figure 675091DEST_PATH_IMAGE090
作为该 患者通路p的通路异常评分。
CN202210685472.XA 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测系统 Active CN114783524B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210685472.XA CN114783524B (zh) 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测系统
JP2023095082A JP7381815B1 (ja) 2022-06-17 2023-06-08 適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210685472.XA CN114783524B (zh) 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测系统

Publications (2)

Publication Number Publication Date
CN114783524A true CN114783524A (zh) 2022-07-22
CN114783524B CN114783524B (zh) 2022-09-30

Family

ID=82421979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210685472.XA Active CN114783524B (zh) 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测系统

Country Status (2)

Country Link
JP (1) JP7381815B1 (zh)
CN (1) CN114783524B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714731A (zh) * 2022-09-27 2023-02-24 中国人民解放军63921部队 一种基于深度学习自编码器的深空测控链路异常检测方法
CN116743646A (zh) * 2023-08-15 2023-09-12 云南省交通规划设计研究院有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法
WO2023217290A1 (zh) * 2022-10-11 2023-11-16 之江实验室 基于图神经网络的基因表型预测

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612694B (zh) * 2023-12-04 2024-06-25 西安好博士医疗科技有限公司 一种基于数据反馈的热疗机数据识别方法和系统
CN118428993B (zh) * 2024-07-04 2024-09-17 青岛科技大学 基于动态取样和自适应特征融合的个性化兼容性建模方法和系统
CN118552919A (zh) * 2024-07-30 2024-08-27 广州英码信息科技有限公司 一种基于深度特征对比的铁轨异常检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039903A (zh) * 2020-09-03 2020-12-04 中国民航大学 基于深度自编码神经网络模型的网络安全态势评估方法
CN112820403A (zh) * 2021-02-25 2021-05-18 中山大学 一种基于多组学数据预测癌症患者预后风险的深度学习方法
US20210358626A1 (en) * 2020-03-04 2021-11-18 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
CN113807396A (zh) * 2021-08-12 2021-12-17 华南理工大学 一种物联网高维数据异常检测方法、系统、装置及介质
CN114036992A (zh) * 2021-06-10 2022-02-11 南京航空航天大学 基于自编码器和遗传算法的高维数据异常子空间检测方法
WO2022058980A1 (en) * 2020-09-21 2022-03-24 Insilico Medicine Ip Limited Methylation data signatures of aging and methods of determining a methylation aging clock
CN114239807A (zh) * 2021-12-17 2022-03-25 山东省计算中心(国家超级计算济南中心) 基于rfe-dagmm的高维数据异常检测方法
CN114358191A (zh) * 2022-01-05 2022-04-15 重庆邮电大学 一种基于深度自动编码器的基因表达数据聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
WO2021202423A1 (en) * 2020-03-31 2021-10-07 Grail, Inc. Cancer classification with genomic region modeling

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210358626A1 (en) * 2020-03-04 2021-11-18 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
CN112039903A (zh) * 2020-09-03 2020-12-04 中国民航大学 基于深度自编码神经网络模型的网络安全态势评估方法
WO2022058980A1 (en) * 2020-09-21 2022-03-24 Insilico Medicine Ip Limited Methylation data signatures of aging and methods of determining a methylation aging clock
CN112820403A (zh) * 2021-02-25 2021-05-18 中山大学 一种基于多组学数据预测癌症患者预后风险的深度学习方法
CN114036992A (zh) * 2021-06-10 2022-02-11 南京航空航天大学 基于自编码器和遗传算法的高维数据异常子空间检测方法
CN113807396A (zh) * 2021-08-12 2021-12-17 华南理工大学 一种物联网高维数据异常检测方法、系统、装置及介质
CN114239807A (zh) * 2021-12-17 2022-03-25 山东省计算中心(国家超级计算济南中心) 基于rfe-dagmm的高维数据异常检测方法
CN114358191A (zh) * 2022-01-05 2022-04-15 重庆邮电大学 一种基于深度自动编码器的基因表达数据聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANYANG TONG等: "Improving the Prognosis of Colon Cancer through Knowledge-Based Clinical-Molecular Integrated Analysis", 《HINDAWI BIOMED RESEARCH INTERNATIONAL》 *
谢林江等: "阿尔茨海默病信号通路研究进展及对策研究", 《中国药理学通报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714731A (zh) * 2022-09-27 2023-02-24 中国人民解放军63921部队 一种基于深度学习自编码器的深空测控链路异常检测方法
WO2023217290A1 (zh) * 2022-10-11 2023-11-16 之江实验室 基于图神经网络的基因表型预测
CN116743646A (zh) * 2023-08-15 2023-09-12 云南省交通规划设计研究院有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法
CN116743646B (zh) * 2023-08-15 2023-12-19 云南省交通规划设计研究院股份有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法

Also Published As

Publication number Publication date
CN114783524B (zh) 2022-09-30
JP2023184468A (ja) 2023-12-28
JP7381815B1 (ja) 2023-11-16

Similar Documents

Publication Publication Date Title
CN114783524B (zh) 基于自适应重采样深度编码器网络的通路异常检测系统
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
KR102190299B1 (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
Alvares et al. Bayesian survival analysis with BUGS
US11710540B2 (en) Multi-level architecture of pattern recognition in biological data
JP7568276B2 (ja) 個体の形質情報を予測するためのシステムまたは方法
Choubey et al. GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis
CN112215259B (zh) 基因选择方法和装置
CN110097928A (zh) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN111243662A (zh) 基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质
Torkey et al. A novel deep autoencoder based survival analysis approach for microarray dataset
CN117591953A (zh) 基于多组学数据的癌症分类方法、系统及电子设备
CN116959585B (zh) 基于深度学习的全基因组预测方法
Khozama et al. Study the Effect of the Risk Factors in the Estimation of the Breast Cancer Risk Score Using Machine Learning
Niederberger et al. A neural network to predict lifespan and new metastases in patients with renal cell cancer
WO2005048185A1 (en) Transductive neuro fuzzy inference method for personalised modelling
Yazdani et al. Bounded fuzzy possibilistic method reveals information about lung cancer through analysis of metabolomics
CN117438089A (zh) 基于多模型融合的可解释乳腺癌复发预测方法及系统
CN113284611B (zh) 基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质
de Oliveira Using machine learning to predict mobility improvement of patients after therapy: a case study on rare diseases
CN114373547B (zh) 疾病患病风险的预测方法及系统
US11894116B1 (en) Apparatus for extending longevity and a method for its use
Mosslah A Study of Accuracy of Data Mining Algorithms in Diagnosis of Emphysema Disease (EmD).
Douleh The Relation Between Respiratory & Acute Coronary Syndrome Using Data Mining Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant