CN114783524A

CN114783524A - 基于自适应重采样深度编码器网络的通路异常检测系统

Info

Publication number: CN114783524A
Application number: CN202210685472.XA
Authority: CN
Inventors: 李劲松; 童丹阳; 王昱; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-07-22
Anticipated expiration: 2042-06-17
Also published as: JP7381815B1; CN114783524B; JP2023184468A

Abstract

本发明公开了一种基于自适应重采样深度编码器网络的通路异常检测系统，包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块，本发明利用基于神经网络的深度编码器算法，将个体通路异常情况评估问题转换为异常检测问题，区分异常样本与正常样本，并评估异常样本相较于正常样本的通路异常程度，改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下，富集多个生物功能相近的基因的预后信息，有效评估患者的通路异常情况，可用于肿瘤预后预测准确性的提高，辅助医生制定患者的治疗计划。

Description

基于自适应重采样深度编码器网络的通路异常检测系统

技术领域

本发明属于医疗信息技术领域，尤其涉及一种基于自适应重采样深度编码器网络的通路异常检测系统。

背景技术

癌症的发病率和死亡率高，已经成为人类因疾病死亡的主要原因。随着人口数量的增长和人口老龄化的发展，癌症带来的疾病负担正在进一步加大。许多最新的研究发现，通过加入生物标志物等新的预后因子的方式可以对患者的疾病状况和预后情况进行更为个性化的描述。但目前，除了HER2和ER被用于乳腺癌的预后分期外，大多数肿瘤的研究中没有发现可靠的生物标志物，说明单一或少数几个基因无法提供有效的预后信息。因此需要从大量的基因中通过数据驱动的方式寻找出能提供有效预后信息的一系列基因。而基于通路知识将基因表达数据转换为患病个体的通路异常情况可以有效富集单一基因的预后信息，对患者的疾病状况和预后情况进行更为个性化的描述。

现有的个体通路异常情况评估方法包括PARADIGM和Pathifier这两种。其中PARADIGM方法在计算评估个体通路异常情况的过程中，需要通路具体的功能性结构信息以及完整的基因组学、转录组学和蛋白组学等多个尺度的组学数据；因此当通路结构较为复杂时需要花费大量的时间进行评估，而且评估个体通路异常情况时必须获取通路内涉及的全部基因、蛋白等不同尺度的信息；而在实际情况下，往往无法保证能获取患者某个通路中涉及的基因、蛋白等多个尺度的完整信息，因此该方法不适用于临床。Pathifier方法则不需要完整的通路信息，而且只需要单一尺度的组学数据如基因表达数据，其在评估过程中需要选择主成分数量并对背景基因数据进行过滤以获得主成分曲线，进而评估个体的通路异常情况；但该方法要求至少两例的患病样本数据，而且每次评估新患者的通路异常情况时需要基于所有样本重新获取主成分曲线，导致该方法无法获得稳定的通路异常情况。

发明内容

本发明针对现有技术的不足，提供一种基于自适应重采样深度编码器网络的通路异常检测系统，本发明利用基于神经网络的深度编码器算法，将个体通路异常情况评估问题转换为异常检测问题，区分异常样本与正常样本，并评估异常样本相较于正常样本的通路异常程度，改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下，富集多个生物功能相近的基因的预后信息，有效评估患者的通路异常情况，可用于肿瘤预后预测准确性的提高，辅助医生制定患者的治疗计划。

本发明的目的是通过以下技术方案实现的：一种基于自适应重采样深度编码器网络的通路异常检测系统，该系统包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块；

数据采集模块：用于采集肿瘤组织样本基因表达数据；

数据预处理模块：用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理；

通路异常检测模型构建模块：基于正常样本基因表达数据训练深度编码器网络，包括：基于重采样从原始训练集中获取当前训练集，基于当前训练集训练一个深度编码器网络，并基于深度编码器网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本，对原始训练集中被识别为异常样本的样本权重进行调整后训练下一个深度编码器网络；对多个深度编码器网络进行集成，获得能够有效识别正常样本和异常样本的通路异常检测模型；

通路异常检测模块：用于分析肿瘤组织样本基因表达数据，评估个体通路异常情况。

进一步地，所述深度编码器网络的结构及参数如下：

假设生物功能信号通路p中共涉及

个基因，KEGG通路数据库中通路p包含的KEGG 功能直系同源物ID的数目为

；

所述深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元和输出层，所述编码单元包括至少两个编码层，所述解码单元包括与编码单元各编码层相对应的解码层；所述编码层和解码层均为隐藏层，相对应的编码层和解码层的神经元个数相同；

将输入层与输出层的神经元个数设定为

，将编码单元第一个编码层与解码单元最后一个解码层的神经元个数设定为

，将底层的神经元个数设定为通路数据库中通路p 的网络图中所包含的子通路网络的数目，记为net；假设编码层数量为

，那么第code个编码层的神经元个数为

。

进一步地，所述编码单元第一个编码层和输出层的激活函数为Relu，第一个编码层和输出层之间的编码层、解码层和底层的激活函数为tanh，在深度编码器网络中加入L ₂约束。

进一步地，所述通路异常检测模型的构建过程包括：

对于涉及

个基因的生物功能信号通路p，将包含

个正常样本基因表达数据的正常样本构成原始训练集

，设定基网络总数为

；

初始化原始训练集

的样本分布为均匀分布，将样本权重分布记为

，其中

为第i个样本的权重；

根据样本权重分布对样本进行重采样，得到当前训练集

，并基于当前训练集

训练深度编码器网络，得到基网络

；

将当前训练集

的每个样本的网络预测值与实际值的差异

投影到高维空间当中，并在该高维空间寻找一个半径最小的超球体，使得训练集

的每个样本的网络预测值与实际值的差异均落在该超球体内，将该超球体的半径

为作为基网络

区分正常/异常样本的阈值；

将原始训练集

的每个样本

输入基网络

，当样本

对应的投影点到最小超球体球心的距离

时，将样本

标记为异常样本，将异常样本的集合记为

，得到基网络

在原始训练集

上的误差率

；

根据误差率

计算得到当前基网络

的权重系数

，并对样本权重分布进行更新；

判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L，若未达到则根据更新后的样本权重分布重新进行重采样并训练基网络，若达到则根据基网络的权重系数

对L个基网络进行集成，得到通路异常检测模型H。

进一步地，所述根据样本权重分布对样本进行重采样，得到当前训练集，包括：

当基网络个数

时，使用原始训练集

作为当前训练集

；

当基网络个数

，根据样本权重分布

进行重采样，步骤如下：

(1)随机产生一个实数m，取值范围为

；

(2)将样本按照权重进行升序排列；

(3)根据二分查找算法，查找满足条件

的索引j；

(4)获得索引j对应的样本；

(5) 重复步骤(1)到步骤(4)，直到获得

个样本构成当前训练集

。

进一步地，所述基网络

的损失函数计算过程如下：

将当前训练集

的每个样本

作为基网络

的输入，获取每个样本的重构向量

；

从通路数据库获取通路p的有向图，将基因k对通路p的影响记为

，如果是激活作用则

，如果是抑制作用则

；将基因k在通路p的重要性记为

，其中

为有向图中经过基因k的路径数量，

为所有基因的

的最大值；将基因k在通路p的贡献记为

，其中

为训练集

中基因k的变异系数；将基因k在通路p的权重记为

，K为通路p的基因集合；

样本

的损失函数

记为：

其中，

分别为样本

和重构向量

的第k个元素，

为当前训练集

的所有样本第k个元素的平均值，

为重构向量

的所有样本第k个元素的平均值。

进一步地，所述超球体的半径最小化公式如下：

其中，

为第l个基网络的超球体的半径；

为第l个基网络的超球体的球心；

为第l个基网络中差异

投影到高维空间当中的投影点对应的松弛因子；

为负责将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数；

为投影点到球心的距离，记为

；

为第l个基网络的调节复杂度的误差惩罚系数。

进一步地，对样本权重分布进行更新的公式如下：

其中，

分别为样本

在样本权重分布

中的权重，

为样本

输入基网络

后得到的正常/异常样本识别结果；

是使

成为概率分布的规范化因子。

进一步地，利用原始训练集

计算通路异常检测模型H预测值与实际值的差异，并计算将差异投影到高维空间当中的最小超球体

的半径

，将

作为通路异常检测模型区分正常/异常样本的阈值，并得到所有样本投影点到最小超球体

球心的平均距离，记为

。进一步地，所述通路异常检测模块用于评估个体通路异常情况，具体为：

对于通路p，将患者i的肿瘤组织样本基因表达数据作为输入，获取患者样本通过通路异常检测模型得到的预测值与实际值的差异

，计算得到

在高维空间的投影点到最小超球体

球心的距离

，并根据阈值

判断该患者样本在通路p中是否为异常样本：当

时，该患者样本为通路p正常样本，并将该患者通路p的通路异常评分记为0；当

时，该患者样本为通路p异常样本，并将

作为该患者通路p的通路异常评分。

本发明的有益效果是：本发明在充分利用通路知识的情况下，有效解决现有方法无法用于单一患者的通路异常情况评估的问题；集成多个深度编码器网络构建的通路异常检测模型提高了对正常样本的识别能力，具有良好的可扩展性，利于海量数据的大规模处理；基于通路异常检测模型的预测值与实际值的差异对样本是否异常进行区分，并计算样本的通路异常评分，能够评估患病样本相较于正常样本的通路异常程度。

附图说明

图1为本发明基于自适应重采样深度编码器网络的通路异常检测系统结构框架图。

图2为本发明实施例提供的通路异常检测模型训练流程图。

图3为本发明实施例提供的深度编码器网络结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

通路指基于既往的科学研究得到与生物系统内同一功能相关的基因或分子间的相互作用、反应和关系网络，而通路异常检测指对于某个患病个体的某个通路的活动情况与健康个体同一通路的活动情况的差异的评估，包括是否与健康个体有显著差异，以及差异程度的评估。

本发明提供一种基于自适应重采样深度编码器网络的通路异常检测系统，如图1，该系统包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块；

数据采集模块：用于采集肿瘤组织样本基因表达数据；

通路异常检测模型构建模块：基于正常样本基因表达数据训练能够有效识别正常样本和异常样本的深度编码器网络，将训练好的深度编码器网络作为通路异常检测模型；

通路异常检测模块：用于对肿瘤组织样本基因表达数据进行分析，评估个体通路异常情况。

通路异常检测模型训练过程如图2所示。为了提高通路异常检测模型对正常样本的识别能力，完成数据预处理后，基于重采样从原始训练集中获取当前训练集，基于当前训练集训练一个深度编码器网络，并基于网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本，对原始训练集中被识别为异常样本的样本权重进行调整后重复上述过程，训练多个深度编码器网络，最后对多个深度编码器网络进行集成来获得能够有效识别正常样本和异常样本的通路异常检测模型，用于通路异常检测。具体步骤如下：

（1）深度编码器网络参数设定

假设某个生物功能信号通路p中共涉及

个基因，KEGG（京都基因与基因组百科全书）通路数据库中通路p包含的KEGG ORTHOLOGY ID（KEGG功能直系同源物ID，每个ID代表一类功能已知的同源基因）的数目为

，深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元、输出层。编码单元包括至少两个编码层，解码单元包括与编码单元各编码层相对应的解码层；编码层和解码层均为隐藏层，相对应的编码层和解码层的神经元个数相同；

其中，输入层与输出层的神经元个数为

，考虑到通路内部分基因之间有类似的生物功能，相关性较高，因此需要对生物功能类似的基因进行处理，将编码单元第一个编码层E ₁与解码单元最后一个解码层D ₁的神经元个数设定为

；第一个编码层E ₁和输出层的激活函数为Relu；

其余编码层、解码层和底层的神经元个数确定方法为：首先确定底层的神经元个数，其数量为通路数据库（KEGG、Reactome等）中通路p的网络图中所包含的子通路网络的数目，记为net；假设编码层数量为

，那么第code个编码层的神经元个数为

，相对应的解码层与编码层神经元个数相同；第一个编码层E ₁和输出层之间的编码层、解码层和底层的激活函数为tanh。

本发明还在深度编码器网络中加入L ₂约束，可以有效防止模型过拟合。

在一个实施例中，如图3所示，深度编码器网络为11层网络，包括依次连接的输入层、4个编码层、底层、4个解码层、输出层。其中，输入层与输出层的神经元个数为

，将编码层E ₁与解码层D ₁的神经元个数设定为

，编码层E ₁和输出层的激活函数为Relu，解码层D ₁的激活函数为tanh。

当底层的神经元个数为net时，编码层E ₂与解码层D ₂的神经元个数为

，激活函数为tanh；编码层E ₃与解码层D ₃的神经元个数为

，激活函数为tanh；编码层E ₄与解码层D ₄的神经元个数为

，激活函数为tanh；底层的激活函数为tanh。

（2）基于正常样本基因表达数据训练深度编码器网络

对于某个涉及

个基因的生物功能信号通路p，将包含

个正常样本基因表达数据的正常样本构成原始训练集

，设定基网络总数为

。

（2.1）初始化样本权重

初始化原始训练集

的样本分布为均匀分布，那么每个样本的权重均为

，此时基网络个数

，样本权重分布为

。

（2.2）根据样本权重分布对样本进行重采样

当基网络个数

时，可以直接使用原始训练集

作为当前训练集，不需要进行重采样，即当前训练集

。

当基网络个数

时，需要根据样本权重分布

进行重采样，这里使用FiltEX算法来实现，具体流程如下：

a.随机产生一个实数m，该实数的取值范围为

；

b.将样本按照权重进行升序排列；

c.根据二分查找算法，查找满足条件

的索引j；

d.获得索引j对应的样本；

e.重复步骤a-d，直到获得

个样本构成当前训练集

。

（2.3）初始化深度编码器网络

基于步骤（2.2）中获得的当前训练集

，训练深度编码器网络，使用梯度下降算法结合反向传播算法对深度编码器网络进行调整，得到基网络

。

（2.4）训练深度编码器网络

将当前训练集

的每个样本

作为基网络

的输入，获取每个样本的重构向量

；

由于通路中不同基因的重要性不同，因此计算基网络

的损失函数时需要考虑通路中各个基因的权重。从通路数据库（KEGG、Reactome等）获取通路p的有向图，图的每个节点为通路p中的基因，图的每条边描述节点和/或节点产物中基因之间的生化激活或抑制相互作用。以没有传入边的节点（入度为0）作为起点，以没有传出边（出度为0）的节点作为终点，计算路径时禁止出现循环。将基因k对通路p的影响记为

，如果是激活作用则

，如果是抑制作用则

；将基因k在通路p的重要性记为

，其中

为有向图中经过基因k的路径数量，

为所有基因的

的最大值；

为训练集

中基因k的变异系数；基因k在通路p的贡献记为

；最终基因k在通路p的权重记为

，K为通路p的基因集合，即基因k的贡献占通路p中全部基因贡献和的比率，使得

。

最终样本

的损失函数

记为：

其中，

分别为样本

和重构向量

的第k个元素，

为当前训练集

的所有样本第k个元素的平均值，

为重构向量

的所有样本第k个元素的平均值；该损失函数用于进行当前基网络

的训练和优化。

（2.5）计算当前基网络区分正常/异常样本的阈值

引入核函数将当前训练集

的每个样本的网络预测值与实际值的差异

的每个样本的网络预测值与实际值的差异均落在该超球体内，将该超球体的半径作为当前基网络区分正常/异常样本的阈值。超球体的半径最小化公式如下：

其中，

为第l个基网络的超球体的半径；

为第l个基网络的超球体的球心；

为第l个基网络中

投影到高维空间当中的投影点对应的松弛因子；

为投影点到球心的距离，记为

；

为第l个基网络的调节复杂度的误差惩罚系数。

（2.6）根据深度编码器网络对原始训练集进行分类，并调整样本权重

将原始训练集

的每个样本

作为基网络

的输入，获取每个样本的重构向量

，当样本

对应的

时，将样本

标记为异常样本，将异常样本的集合记为

，最终得到基网络

在原始训练集

上的误差率

，即原始训练集

中被基网络

识别为异常样本的样本权重之和。

（2.7）更新样本权重分布

根据误差率

计算得到当前基网络

的权重系数

，并对样本权重分布进行更新：

其中，

分别为样本

在

中的权重，

为样本

输入基网络

后得到的正常/异常样本识别结果；

，是使

成为概率分布的规范化因子。

（2.8）判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L；

当

时，

，返回步骤（2.2），根据更新后的样本权重分布重新进行重采样并训练基网络；

当

时，进入步骤（2.9）。

（2.9）对得到的L个基网络进行集成

根据基网络的权重系数

，对L个基网络

进行集成，最终得到的通路异常检测模型为

。

基于通路异常检测模型H，利用原始训练集

计算通路异常检测模型预测值与实际值的差异，并计算将差异投影到高维空间当中的最小超球体

的半径

，将

球心的平均距离，记为

。

通过通路异常检测模块评估患者样本的通路异常情况，具体为：

对于某个通路p，将患者i的肿瘤组织样本基因表达数据作为输入，获取患者样本通过通路异常检测模型得到的预测值与实际值的差异

，计算得到

在高维空间的投影点到最小超球体

球心的距离

，并根据阈值

判断该患者样本在通路p中是否为异常样本：当

时，该患者样本为通路p异常样本，并将

作为该患者通路p的通路异常评分，即：

其中，

分别为患者i通路p的正常/异常样本标识和通路异常评分。

重复上述步骤，即可对患者所有通路的通路异常情况进行评估。

实施例

使用基因型组织表达（项目）GTEx中的308例正常结肠组织样本的基因表达数据进行KEGG中的人类通路结直肠癌的通路异常检测系统构建，并使用癌症基因组图谱（项目）TCGA中的41例癌旁正常结肠组织和286例结肠肿瘤组织的基因表达数据进行系统的性能评估。其中GTEx的308例正常结肠组织样本作为训练数据集，TCGA的41例癌旁正常结肠组织和286例结肠肿瘤组织作为验证数据集。

该通路共包含86个基因，72个KEGG ORTHOLOGY ID，20个子通路网络，深度编码器网络采用如图3所示的结构，因此深度编码器网络的各层神经元个数分别为：输入层86个，编码层

72个，编码层

59个，编码层

46个，编码层

33个，底层20个，解码层

33个，解码层

46个，解码层

59个，解码层

72个，输出层86个。

最终构建的通路异常检测模型将训练数据集中的306例样本识别为正常样本，即识别准确率达到99.35%。在验证数据集中，该通路异常检测模型将TCGA癌旁正常结肠组织中的39例样本识别为正常样本，识别准确率为95.12%；该通路异常检测模型将TCGA结肠肿瘤组织中的274例样本识别为异常样本，识别准确率为95.80%；并评估得到TCGA结肠肿瘤组织的通路异常评分。

然后进行模型稳定性测试。随机选取286例TCGA结肠肿瘤组织中的57例样本，并随机生成57例噪声数据，通过通路异常检测模型对这114例样本进行评估，评估结果中，模型将随机选取的57例TCGA结肠肿瘤组织中的54例识别为异常样本，3例识别为正常样本，结果与未加入噪声数据时的识别结果完全一致。在模型稳定性测试中，在保留6位小数的情况下，57例随机选取的TCGA结肠肿瘤组织的通路异常评分与未加入噪声数据时的识别结果完全一致。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。