CN108733981A

CN108733981A - 一种基于深度学习技术从基因角度预测肝癌风险的方法

Info

Publication number: CN108733981A
Application number: CN201810592078.5A
Authority: CN
Inventors: 刘玉良; 张全
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-02

Abstract

本发明公开了一种基于深度学习技术从基因角度预测肝癌风险的方法。本发明利用深度学习技术，联合所有基因表达量数据，实现了自动筛选差异表达基因，自动判断肝癌类型的功能，克服了传统方法不能整合全部基因表达数据，而忽略基因联合表达作用的不足；解决了传统方法运用固定算法，难以把握基因表达的微小差异的缺陷，对肝癌的基因治疗的发展具有积极意义。

Description

一种基于深度学习技术从基因角度预测肝癌风险的方法

技术领域

本发明属于基因工程和人工智能领域，涉及一种基于深度学习技术从基因角度预测肝癌风险的方法。

背景技术

肝癌是世界范围内最常见的恶性肿瘤之一。目前在我国，肝癌的死亡率已处于恶性肿瘤的第2位，肝癌患者往往采用全身化疗的治疗手段，其治疗效果不明显，且易复发。因此，确定有价值的诊断标志物及治疗靶点对肝癌治疗的发展具有重要意义。

现存技术通常先分别对肿瘤组织和正常组织进行基因测序，得到各个基因的基因表达量，比对肿瘤组织和正常组织的基因表达量筛选出差异表达基因，再以差异表达基因的表达量差值判断肿瘤发生的风险，同时以差异表达基因为靶点指导肿瘤的基因治疗。在我国80％～ 94％的肝癌细胞表达AFP，且表达稳定，这为肝癌的基因治疗提供了理想的调控靶向。有研究表明，肝癌细胞在细胞遗传学上的变化包括1p、2p、4p、4q、6q、8p、9p、9q、13q、14q、 16p、16q、17p和18q的杂合性丢失(LOH)及1q、5p、6q、8q、12q、17q、20q和Xq的异常扩增。另外在肝癌中还发现p53，β-catenin和AXIN1基因发生突变。肝癌存在临床和病理的异质性。通过研究发现，未曾发现上述任一基因存在于所有肝癌当中，因此肝癌的发生机制不尽相同。针对于此，若要研究肝癌的产生与发展，需对肿瘤发生过程中大量基因表达的变化进行研究分析，传统的单基因方法难以实现。

上述技术需进一步改进：(1)基因数据量较大，存在联合表达作用，根据基因的单项比对难以确定多基因的联合作用。(2)通过固定算法筛选差异表达基因难以把握微小的基因差异。因此，提出一种能够整合所有基因表达数据，可以把握微小差异，可信度高的预测肝癌的方法对肝癌的基因治疗的发展具有积极意义。

深度学习这一概念来自人工神经网络，它指对深层神经网络进行一系列有效的训练的技术方法，这种方法具有重构函数，提取相应的特征，并根据提取的特征向量进行分类的功能。因此，本发明提出一种基于深度学习技术从基因角度预测肝癌的方法。

发明内容

本发明提出了一种基于深度学习技术从基因角度预测肝癌风险的方法。

本发明的目的是为了实现自动筛选差异表达基因，自动判断肝癌类型，克服传统方法不能整合全部基因表达数据，而忽略基因联合表达作用的不足；解决传统方法运用固定算法，难以把握基因表达的微小差异的不足而提出的一种能够整合所有基因表达数据，可以把握微小差异，可信度高的预测肝癌方法。

本发明是这样实现的：

训练数据的获取；

训练深度学习模型；

利用训练完成的深度学习模型预测肝癌。

上述训练数据的获取包括：先分别对肿瘤组织和正常组织进行基因测序，得到各个基因的基因表达量。

上述训练深度学习模型包括：以肿瘤组织和正常组织各个基因的基因表达量做输入，肝癌类型作为目标输出，利用梯度下降，反向传播的方法训练深度学习模型。整个深度学习模型采用改进的结构的人工神经网络结构。

上述利用训练完成的深度学习模型预测肝癌包括：将未知癌症类型的细胞基因的表达量作为输入，深度学习模型输出为癌症类型。

与现有技术相比，本发明的有益效果：通过上述方法(1)可以联合全部基因的基因表达量进行联合判断，克服了传统方法忽略基因联合表达作用的不足。(2)利用基于深度学习技术的预测模型，解决了由于人的主观性而造成的难以把握基因表达量微小差异的问题。对肝癌的基因治疗的发展具有积极意义。

附图说明

图1是本发明的方法流程图；

图2是本发明实施例涉及的深度学习模型结构图；

图3是本发明实施例涉及的输入层原理图；

图4是本发明实施例涉及的卷积层原理图；

图5是本发明实施例涉及的池化层原理图；

图6是本发明实施例涉及的one-hot原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。在不脱离本发明的原理情况下，对本发明实施例做出变化、修改、替换和变形都属于本发明保护的范围。

本发明实施例提供了一种基于深度学习技术从基因角度预测肝癌风险的方法，如图1所示，所述方法包括：

S1、训练数据的获取。

具体的，本发明分别对同源的癌组织和健康组织进行测序，同时测定各个基因的基因表达量。

S2、训练深度学习模型。

具体的，训练深度学习模型为输入根据网络结构进行逐层前向传播，再利用代价函数的梯度和具体输出进行梯度下降的反向传播实现全局参数优化，最终使具体输出与目标输出偏差在可接受范围内。当具体输出与目标输出偏差在可接受范围内时，深度学习模型即可使用，当偏差较大时则改变参数继续训练。

具体的，本发明采用改进结构的神经网络作为深度学习模型。其中，各个基因的基因表达量做为输入，肝癌类型作为目标输出。具体网络结构示意图由图2所示。

具体的，网络结构包括：

S21、输入层。

具体的，输入层采用全连接的方式，连接方式由图3所示。其中，I_l～I_n是输入，为各个基因的基因表达量。

S22、卷积层。

具体的，卷积层采用共享权重的方式，原理图如图4所示。其中，虚线框代表滤波器范围，滤波器进行一维滑动采用共享权重，本发明滑动跨步为1。区域A中每一个神经元内部为上述各个基因的基因表达量。卷积层能达到自动提取特征的目的，同时，共享权重的采用可以增加训练速度，简化了模型参数，使其便于优化。

S23、池化层。

具体的，本发明池化层采用最大池化技术，其原理由图5所示。其中，B代表由卷积层传来的一系列特征，C代表凝练后的一系列特征。本发明采用最大池化技术，步数为2，即将相邻两个特征的最大值最为输出至下一层。经过池化，数据数量变为原来的1/2。池化层可以达到提炼特征，减少模型规模，提升模型鲁棒性的目的。

S24、输出层。

具体的，本发明输出层采用one-hot形式输出，其原理如图6所示。输出层的每一个神经元唯一对应着一种肝癌类型，例如，当第一个神经元被激活其他神经元均未被激活时对应健康，当最后一个神经元被激活其他神经元未被激活时对应第n型肝癌，以此类推。采用one-hot 形式可以很好地提升模型预测的准确率和模型的鲁棒性。

具体的，为了支持one-hot形式，本发明在输出层采用softmax函数作为判决函数，softmax 分类器可以计算每个输入属于某类的概率，从而能够进行多分类。

具体的，本发明代价函数采用L1正则化代价函数，计算方法具体如式(1)所示。

式中：C为损失函数，n为输出向量的元素个数，y为目标输出向量，a为实际输出向量，w为全局参数。其中，能看作为全局均方误差的无偏估计。

S3、利用训练完成的深度学习模型预测肝癌。

具体的，利用未知健康情况的细胞的各基因表达量作为输入，可以根据深度学习模型输出层神经元的激活情况判断细胞的健康情况。

本发明利用深度学习技术，联合所有基因表达量数据，实现了自动筛选差异表达基因，自动判断肝癌类型的功能，克服了传统方法不能整合全部基因表达数据，而忽略基因联合表达作用的不足；解决了传统方法运用固定算法，难以把握基因表达的微小差异的缺陷，对肝癌的基因治疗的发展具有积极意义。

以上所述，仅为本发明较优实施例之一，在不脱离本发明的原理情况下，对本发明实施例做出变化、修改、替换和变形均在本发明保护范围内。

Claims

1.一种基于深度学习技术从基因角度预测肝癌风险的方法，其特征在于：

步骤包括：

S1、训练数据的获取；

S2、训练深度学习模型；

S3、利用训练完成的深度学习模型预测肝癌。

上述训练数据的获取包括：对同源的癌组织和健康组织进行测序，同时测定各个基因的基因表达量；

上述训练深度学习模型包括：练深度学习模型为输入根据网络结构进行逐层前向传播，再利用代价函数的梯度和具体输出进行梯度下降的反向传播实现全局参数优化，最终使具体输出与目标输出偏差在可接受范围内，当具体输出与目标输出偏差在可接受范围内时，深度学习模型即可使用，当偏差较大时则改变参数继续训练；

上述利用训练完成的深度学习模型预测肝癌包括：利用未知健康情况的细胞的各基因表达量作为输入，可以根据深度学习模型输出层神经元的激活情况判断细胞的健康情况。

2.根据权利要求1所述的一种基于深度学习技术从基因角度预测肝癌风险的方法，其特征在于，深度学习模型包括：

S21、输入层；

S22、卷积层；

S23、池化层；

S24、输出层。

3.根据权利要求1-2所述的一种基于深度学习技术从基因角度预测肝癌风险的方法，其特征在于：输入层采用全连接的方式，输入为各个基因的基因表达量。

4.根据权利要求1-2所述的一种基于深度学习技术从基因角度预测肝癌风险的方法，其特征在于：卷积层采用共享权重的方式，滤波器进行一维滑动，滑动跨步为1。

5.根据权利要求1-2所述的一种基于深度学习技术从基因角度预测肝癌风险的方法，其特征在于：输出层采用one-hot形式输出，输出层的每一个神经元唯一对应着一种肝癌类型，输出层采用softmax函数作为判决函数，代价函数采用L1正则化代价函数，计算方法具体如式(1)所示。