CN108733981A - 一种基于深度学习技术从基因角度预测肝癌风险的方法 - Google Patents

一种基于深度学习技术从基因角度预测肝癌风险的方法 Download PDF

Info

Publication number
CN108733981A
CN108733981A CN201810592078.5A CN201810592078A CN108733981A CN 108733981 A CN108733981 A CN 108733981A CN 201810592078 A CN201810592078 A CN 201810592078A CN 108733981 A CN108733981 A CN 108733981A
Authority
CN
China
Prior art keywords
gene
liver cancer
deep learning
learning model
angle based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810592078.5A
Other languages
English (en)
Inventor
刘玉良
张全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Original Assignee
Tianjin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology filed Critical Tianjin University of Science and Technology
Priority to CN201810592078.5A priority Critical patent/CN108733981A/zh
Publication of CN108733981A publication Critical patent/CN108733981A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于深度学习技术从基因角度预测肝癌风险的方法。本发明利用深度学习技术,联合所有基因表达量数据,实现了自动筛选差异表达基因,自动判断肝癌类型的功能,克服了传统方法不能整合全部基因表达数据,而忽略基因联合表达作用的不足;解决了传统方法运用固定算法,难以把握基因表达的微小差异的缺陷,对肝癌的基因治疗的发展具有积极意义。

Description

一种基于深度学习技术从基因角度预测肝癌风险的方法
技术领域
本发明属于基因工程和人工智能领域,涉及一种基于深度学习技术从基因角度预测肝癌风险的方法。
背景技术
肝癌是世界范围内最常见的恶性肿瘤之一。目前在我国,肝癌的死亡率已处于恶性肿瘤的第2位,肝癌患者往往采用全身化疗的治疗手段,其治疗效果不明显,且易复发。因此,确定有价值的诊断标志物及治疗靶点对肝癌治疗的发展具有重要意义。
现存技术通常先分别对肿瘤组织和正常组织进行基因测序,得到各个基因的基因表达量,比对肿瘤组织和正常组织的基因表达量筛选出差异表达基因,再以差异表达基因的表达量差值判断肿瘤发生的风险,同时以差异表达基因为靶点指导肿瘤的基因治疗。在我国80%~ 94%的肝癌细胞表达AFP,且表达稳定,这为肝癌的基因治疗提供了理想的调控靶向。有研究表明,肝癌细胞在细胞遗传学上的变化包括1p、2p、4p、4q、6q、8p、9p、9q、13q、14q、 16p、16q、17p和18q的杂合性丢失(LOH)及1q、5p、6q、8q、12q、17q、20q和Xq的异常扩增。另外在肝癌中还发现p53,β-catenin和AXIN1基因发生突变。肝癌存在临床和病理的异质性。通过研究发现,未曾发现上述任一基因存在于所有肝癌当中,因此肝癌的发生机制不尽相同。针对于此,若要研究肝癌的产生与发展,需对肿瘤发生过程中大量基因表达的变化进行研究分析,传统的单基因方法难以实现。
上述技术需进一步改进:(1)基因数据量较大,存在联合表达作用,根据基因的单项比对难以确定多基因的联合作用。(2)通过固定算法筛选差异表达基因难以把握微小的基因差异。因此,提出一种能够整合所有基因表达数据,可以把握微小差异,可信度高的预测肝癌的方法对肝癌的基因治疗的发展具有积极意义。
深度学习这一概念来自人工神经网络,它指对深层神经网络进行一系列有效的训练的技术方法,这种方法具有重构函数,提取相应的特征,并根据提取的特征向量进行分类的功能。因此,本发明提出一种基于深度学习技术从基因角度预测肝癌的方法。
发明内容
本发明提出了一种基于深度学习技术从基因角度预测肝癌风险的方法。
本发明的目的是为了实现自动筛选差异表达基因,自动判断肝癌类型,克服传统方法不能整合全部基因表达数据,而忽略基因联合表达作用的不足;解决传统方法运用固定算法,难以把握基因表达的微小差异的不足而提出的一种能够整合所有基因表达数据,可以把握微小差异,可信度高的预测肝癌方法。
本发明是这样实现的:
训练数据的获取;
训练深度学习模型;
利用训练完成的深度学习模型预测肝癌。
上述训练数据的获取包括:先分别对肿瘤组织和正常组织进行基因测序,得到各个基因的基因表达量。
上述训练深度学习模型包括:以肿瘤组织和正常组织各个基因的基因表达量做输入,肝癌类型作为目标输出,利用梯度下降,反向传播的方法训练深度学习模型。整个深度学习模型采用改进的结构的人工神经网络结构。
上述利用训练完成的深度学习模型预测肝癌包括:将未知癌症类型的细胞基因的表达量作为输入,深度学习模型输出为癌症类型。
与现有技术相比,本发明的有益效果:通过上述方法(1)可以联合全部基因的基因表达量进行联合判断,克服了传统方法忽略基因联合表达作用的不足。(2)利用基于深度学习技术的预测模型,解决了由于人的主观性而造成的难以把握基因表达量微小差异的问题。对肝癌的基因治疗的发展具有积极意义。
附图说明
图1是本发明的方法流程图;
图2是本发明实施例涉及的深度学习模型结构图;
图3是本发明实施例涉及的输入层原理图;
图4是本发明实施例涉及的卷积层原理图;
图5是本发明实施例涉及的池化层原理图;
图6是本发明实施例涉及的one-hot原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。在不脱离本发明的原理情况下,对本发明实施例做出变化、修改、替换和变形都属于本发明保护的范围。
本发明实施例提供了一种基于深度学习技术从基因角度预测肝癌风险的方法,如图1所示,所述方法包括:
S1、训练数据的获取。
具体的,本发明分别对同源的癌组织和健康组织进行测序,同时测定各个基因的基因表达量。
S2、训练深度学习模型。
具体的,训练深度学习模型为输入根据网络结构进行逐层前向传播,再利用代价函数的梯度和具体输出进行梯度下降的反向传播实现全局参数优化,最终使具体输出与目标输出偏差在可接受范围内。当具体输出与目标输出偏差在可接受范围内时,深度学习模型即可使用,当偏差较大时则改变参数继续训练。
具体的,本发明采用改进结构的神经网络作为深度学习模型。其中,各个基因的基因表达量做为输入,肝癌类型作为目标输出。具体网络结构示意图由图2所示。
具体的,网络结构包括:
S21、输入层。
具体的,输入层采用全连接的方式,连接方式由图3所示。其中,Il~In是输入,为各个基因的基因表达量。
S22、卷积层。
具体的,卷积层采用共享权重的方式,原理图如图4所示。其中,虚线框代表滤波器范围,滤波器进行一维滑动采用共享权重,本发明滑动跨步为1。区域A中每一个神经元内部为上述各个基因的基因表达量。卷积层能达到自动提取特征的目的,同时,共享权重的采用可以增加训练速度,简化了模型参数,使其便于优化。
S23、池化层。
具体的,本发明池化层采用最大池化技术,其原理由图5所示。其中,B代表由卷积层传来的一系列特征,C代表凝练后的一系列特征。本发明采用最大池化技术,步数为2,即将相邻两个特征的最大值最为输出至下一层。经过池化,数据数量变为原来的1/2。池化层可以达到提炼特征,减少模型规模,提升模型鲁棒性的目的。
S24、输出层。
具体的,本发明输出层采用one-hot形式输出,其原理如图6所示。输出层的每一个神经元唯一对应着一种肝癌类型,例如,当第一个神经元被激活其他神经元均未被激活时对应健康,当最后一个神经元被激活其他神经元未被激活时对应第n型肝癌,以此类推。采用one-hot 形式可以很好地提升模型预测的准确率和模型的鲁棒性。
具体的,为了支持one-hot形式,本发明在输出层采用softmax函数作为判决函数,softmax 分类器可以计算每个输入属于某类的概率,从而能够进行多分类。
具体的,本发明代价函数采用L1正则化代价函数,计算方法具体如式(1)所示。
式中:C为损失函数,n为输出向量的元素个数,y为目标输出向量,a为实际输出向量,w为全局参数。其中,能看作为全局均方误差的无偏估计。
S3、利用训练完成的深度学习模型预测肝癌。
具体的,利用未知健康情况的细胞的各基因表达量作为输入,可以根据深度学习模型输出层神经元的激活情况判断细胞的健康情况。
本发明利用深度学习技术,联合所有基因表达量数据,实现了自动筛选差异表达基因,自动判断肝癌类型的功能,克服了传统方法不能整合全部基因表达数据,而忽略基因联合表达作用的不足;解决了传统方法运用固定算法,难以把握基因表达的微小差异的缺陷,对肝癌的基因治疗的发展具有积极意义。
以上所述,仅为本发明较优实施例之一,在不脱离本发明的原理情况下,对本发明实施例做出变化、修改、替换和变形均在本发明保护范围内。

Claims (5)

1.一种基于深度学习技术从基因角度预测肝癌风险的方法,其特征在于:
步骤包括:
S1、训练数据的获取;
S2、训练深度学习模型;
S3、利用训练完成的深度学习模型预测肝癌。
上述训练数据的获取包括:对同源的癌组织和健康组织进行测序,同时测定各个基因的基因表达量;
上述训练深度学习模型包括:练深度学习模型为输入根据网络结构进行逐层前向传播,再利用代价函数的梯度和具体输出进行梯度下降的反向传播实现全局参数优化,最终使具体输出与目标输出偏差在可接受范围内,当具体输出与目标输出偏差在可接受范围内时,深度学习模型即可使用,当偏差较大时则改变参数继续训练;
上述利用训练完成的深度学习模型预测肝癌包括:利用未知健康情况的细胞的各基因表达量作为输入,可以根据深度学习模型输出层神经元的激活情况判断细胞的健康情况。
2.根据权利要求1所述的一种基于深度学习技术从基因角度预测肝癌风险的方法,其特征在于,深度学习模型包括:
S21、输入层;
S22、卷积层;
S23、池化层;
S24、输出层。
3.根据权利要求1-2所述的一种基于深度学习技术从基因角度预测肝癌风险的方法,其特征在于:输入层采用全连接的方式,输入为各个基因的基因表达量。
4.根据权利要求1-2所述的一种基于深度学习技术从基因角度预测肝癌风险的方法,其特征在于:卷积层采用共享权重的方式,滤波器进行一维滑动,滑动跨步为1。
5.根据权利要求1-2所述的一种基于深度学习技术从基因角度预测肝癌风险的方法,其特征在于:输出层采用one-hot形式输出,输出层的每一个神经元唯一对应着一种肝癌类型,输出层采用softmax函数作为判决函数,代价函数采用L1正则化代价函数,计算方法具体如式(1)所示。
式中:C为损失函数,n为输出向量的元素个数,y为目标输出向量,a为实际输出向量,w为全局参数。其中,能看作为全局均方误差的无偏估计。
CN201810592078.5A 2018-06-11 2018-06-11 一种基于深度学习技术从基因角度预测肝癌风险的方法 Pending CN108733981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810592078.5A CN108733981A (zh) 2018-06-11 2018-06-11 一种基于深度学习技术从基因角度预测肝癌风险的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810592078.5A CN108733981A (zh) 2018-06-11 2018-06-11 一种基于深度学习技术从基因角度预测肝癌风险的方法

Publications (1)

Publication Number Publication Date
CN108733981A true CN108733981A (zh) 2018-11-02

Family

ID=63933114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810592078.5A Pending CN108733981A (zh) 2018-06-11 2018-06-11 一种基于深度学习技术从基因角度预测肝癌风险的方法

Country Status (1)

Country Link
CN (1) CN108733981A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010195A (zh) * 2018-12-04 2019-07-12 志诺维思(北京)基因科技有限公司 一种探测单核苷酸突变的方法及装置
CN110085288A (zh) * 2019-04-19 2019-08-02 四川大学华西医院 一种基于互联网的肝胆外科治疗信息共享系统及共享方法
WO2020253547A1 (zh) * 2019-06-21 2020-12-24 石致宇 一种模拟人工神经网络的基因电路及其构建方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010195A (zh) * 2018-12-04 2019-07-12 志诺维思(北京)基因科技有限公司 一种探测单核苷酸突变的方法及装置
CN110010195B (zh) * 2018-12-04 2021-02-19 志诺维思(北京)基因科技有限公司 一种探测单核苷酸突变的方法及装置
CN110085288A (zh) * 2019-04-19 2019-08-02 四川大学华西医院 一种基于互联网的肝胆外科治疗信息共享系统及共享方法
WO2020253547A1 (zh) * 2019-06-21 2020-12-24 石致宇 一种模拟人工神经网络的基因电路及其构建方法

Similar Documents

Publication Publication Date Title
CN108733981A (zh) 一种基于深度学习技术从基因角度预测肝癌风险的方法
CN105701365B (zh) 发现癌症相关基因的方法及相关系统、药物制备方法
CN103951743B (zh) 人sfrp1变体及其应用
CN108694991A (zh) 一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法
CN104965997B (zh) 一种基于植物功能与结构模型的作物虚拟育种方法
CN106485096A (zh) 基于双向随机游走和多标签学习的miRNA‑环境因子关系预测方法
CN110428899A (zh) 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法
CN106202984A (zh) 一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法
CN105696087A (zh) 一种肺癌pdx标准化模型库
Jiang et al. Identification of tissue types and gene mutations from histopathology images for advancing colorectal cancer biology
CN113870951A (zh) 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统
CN107622800A (zh) 一种用于结直肠癌肝转移疗效预测的数学模型
CN109266653A (zh) 一种耐药异质性循环肿瘤细胞捕获与基因分析的试剂、装置和方法
CN107217066A (zh) Dna片段与含有该片段的重组载体、构建重组载体的方法及其应用
CN104830775B (zh) 一种三阴性乳腺癌顺铂耐药细胞株及其制备方法和用途
Zhao et al. Computational Pathology for Prediction of Isocitrate Dehydrogenase Gene Mutation from Whole Slide Images in Adult Patients with Diffuse Glioma
Xu et al. AutoOmics: An AutoML Tool for Multi-Omics Research
CN104155446A (zh) 抗pdcd4抗体在制备预测紫杉醇或其衍生药物个体化用药敏感性的检测试剂中的应用
KR102592866B1 (ko) 코 형태 연관 snp 마커 및 이의 용도
US20240044899A1 (en) Biomarkers for fimepinostat therapy
Arbabimoghadam A Search for the Physical Basis of the Genetic Code and Modeling Cancer Cell Response to Chemotherapy Using the Ising Model
Flynn et al. Growth and evolution of deep neural networks from gene regulatory networks
Zhang et al. StereoMM: A Graph Fusion Model for Integrating Spatial Transcriptomic Data and Pathological Images
CN116849177A (zh) 一种原位肺结节小鼠模型构建方法
Cho et al. Loss of USP10 expression is associated with tumor progression and poor prognosis in epithelial ovarian cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181102

RJ01 Rejection of invention patent application after publication