CN111899882A - 一种预测癌症的方法及系统 - Google Patents

一种预测癌症的方法及系统 Download PDF

Info

Publication number
CN111899882A
CN111899882A CN202010791646.1A CN202010791646A CN111899882A CN 111899882 A CN111899882 A CN 111899882A CN 202010791646 A CN202010791646 A CN 202010791646A CN 111899882 A CN111899882 A CN 111899882A
Authority
CN
China
Prior art keywords
gene
cancer
genes
profile data
expression profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010791646.1A
Other languages
English (en)
Other versions
CN111899882B (zh
Inventor
艾冬梅
王瑜多
潘鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202010791646.1A priority Critical patent/CN111899882B/zh
Publication of CN111899882A publication Critical patent/CN111899882A/zh
Application granted granted Critical
Publication of CN111899882B publication Critical patent/CN111899882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种预测癌症的方法及系统,该方法包括:针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得差异性基因;基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器算法对差异性基因的基因表达谱数据进行处理,得到降维数据;将枢纽基因的基因表达谱数据和降维数据共同作为预设类型的癌症分类器的分类特征,通过癌症分类器实现癌症病人与正常人的精准分类。本发明的预测癌症的方法及系统将加权基因共表达网络分析得到的枢纽基因的基因表达谱数据和变分自编码器处理后的降维数据共同作为癌症分类器的分类特征,从而有效提高了癌症分类器的准确率,达到了高效预测癌症的目的。

Description

一种预测癌症的方法及系统
技术领域
本发明涉及生物信息学与计算生物学技术领域,特别涉及一种基于变分自编码器和加权基因共表达网络的预测癌症的方法及系统。
背景技术
结直肠癌(CRC)是世界范围内发病率排名第三、死亡率排名第二的恶性肿瘤。尽管医疗技术不断进步,但大多数CRC患者因疼痛而住院时癌症已经处于中晚期,癌症预后标志物对癌症的早期诊断有很重要意义,而精准医疗需要分类模型进行准确筛选和诊断。为了提高微阵列基因表达数据集预测CRC的准确性,特征提取方法是影响分类器性能的关键因素。
对基因表达谱数据的特征提取方法有很多,其中为了筛选和诊断癌症,研究人员通常关注那些在癌症样本和正常样本之间表达有显著差异的基因。致病性癌基因通常是相关的,癌症的发生是多种基因异常表达的结果。如果某一生理过程中某些基因在不同组织间表达相似,那么这些基因在功能上是相关的,因此可将其视为一个完整的组。对微阵列基因表达数据进行分析,根据相关性对基因进行分组,形成基因模块,利用得到的基因模块对癌症进行早期诊断。
除了寻找基因模块的方法外,研究人员还利用神经网络直接对微阵列基因表达数据进行降维,从而达到提取数据特征的目的。微阵列基因表达数据具有维数高、样本量小的特点,同时也存在大量的冗余基因,直接对数据进行分析会造成维数灾难,干扰诊断,导致分类器的准确性降低。因此,减少基因表达数据的维数是非常重要的。常用的降维方法有主成分分析、Fisher线性判别分析和自动编码器。自编码器是一种无监督学习技术,利用神经网络从高维特征学习到低维特征来表达。在许多任务中,自编码器比主成分分析具有更好的效果。改进的自编码器算法有栈式自编码器、稀疏式自编码器、去噪式自编码器、变分式自编码器等。其中变分自编码器(VAE)成功地降低了微阵列基因表达数据的维数,并从微阵列基因表达数据中提取了与癌症密切相关的有效特征。
目前,为了有效提取基因表达谱数据的数据特征,常常利用神经网络来实现。神经网络是一种非常强大的机器学习方法,它被广泛应用于学习高维数据的抽象表示。这种特征提取方法通过提取神经网络中的某一层数据来达到降维的目的。这种方法常被应用于高维数据的重建、分类、聚类和识别等。目前,对癌症预测模型的最新方法包括了基于神经网络的过滤方法、预测方法以及聚类方法。它们可以较为有效的得到基因表达谱数据的数据特征,但是依靠单一特征提取方法所得到的基因表达谱数据的特征数据所取得的分类效果并不佳。
发明内容
本发明提供了一种预测癌症的方法及系统,以解决目前依靠单一特征提取方法所得到的基因表达谱数据的特征数据所取得的分类效果不佳的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种预测癌症的方法,所述方法包括:
针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器算法对所述差异性基因的基因表达谱数据进行处理,得到降维数据;
将所述枢纽基因的基因表达谱数据和所述降维数据共同作为预设类型的癌症分类器的分类特征,以通过所述癌症分类器实现癌症病人与正常人的分类。
进一步地,针对所述癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因,包括:
分别获取癌症病人和正常人的基因表达谱数据,并通过R语言中的limma包实现癌症病人和正常人的基因表达谱数据的基因差异表达分析;
运用R语言中的FDR校正工具包对P-value值进行校正,选择差异性大小满足预设阈值,且在正常人和癌症病人中的基因表达量差异在两倍以上的基因作为所述差异性基因,并确定所述差异性基因的基因表达谱数据。
进一步地,基于所述加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因,包括:
基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,将癌症病人与正常人的基因表达谱数据中对应的基因按照相关性进行分类,确定对应的基因模块;
选择所述基因模块中基因的表达数据与表型性状相关系数的绝对值大于0.5和基因的表达数据与模块主成分分析第一主成分相关性绝对值大于0.8的基因,在这些基因里筛选出符合差异性基因条件并在所在模块中连接度最大的前十个基因作为所述枢纽基因;
并对得到的枢纽基因进行预设基因数据库途径富集分析,探讨癌症与枢纽基因在基因功能与代谢通路上的关联。
进一步地,所述变分自编码器的神经网络模型共七层,包括一个输入层、一个输出层和五个隐藏层。
进一步地,所述五个隐藏层的节点分别为584、100、10、100、584个,所述输入层和输出层节点为1186个。
进一步地,所述预设类型的癌症分类器为支持向量机分类器。
另一方面,本发明还提供了一种预测癌症的系统,所述系统包括:
差异性基因获取模块,用于针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
特征数据获取模块,用于基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器对所述差异性基因获取模块所获取的差异性基因的基因表达谱数据进行处理,得到降维数据;
分类模块,用于将所述特征数据获取模块所获取的枢纽基因的基因表达谱数据和降维数据共同作为预设类型的癌症分类器的分类特征,以通过所述癌症分类器实现癌症病人与正常人的分类。
进一步地,所述差异性基因获取模块具体用于:
分别获取癌症病人和正常人的基因表达谱数据,并通过R语言中的limma包实现癌症病人和正常人的基因表达谱数据的基因差异表达分析;
运用R语言中的FDR校正工具包对P-value值进行校正,选择差异性大小满足预设阈值且在正常人和癌症病人中的基因表达量差异在两倍以上的基因作为所述差异性基因,并确定所述差异性基因的基因表达谱数据。
进一步地,所述特征数据获取模块具体用于:
基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,将癌症病人与正常人的基因表达谱数据中对应的基因按照相关性进行分类,确定对应的基因模块;
选择所述基因模块中基因的表达数据与表型性状相关系数的绝对值大于0.5和基因的表达数据与模块主成分分析第一主成分相关性绝对值大于0.8的基因,在这些基因里筛选出符合差异性基因条件并在所在模块内连接度最大的前十个基因作为所述枢纽基因;并对得到的枢纽基因进行预设基因数据库途径富集分析,探讨癌症与枢纽基因在基因功能与代谢通路上的关联。
进一步地,所述变分自编码器的神经网络模型共七层,包括一个输入层、一个输出层和五个隐藏层;
其中,所述五个隐藏层的节点分别为584、100、10、100、584个,所述输入层和输出层节点为1186个;
所述分类模块所采用的预设类型的癌症分类器为支持向量机分类器。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明将利用加权基因共表达网络分析找到的枢纽基因的基因表达谱数据和变分自编码器处理后的降维数据共同作为癌症分类器的分类特征,从而实现了对待测样本的高效分类,进而可以高效地预测癌症。本发明考虑了差异基因中有很多功能相互联系的基因,弥补了很多基因选择方法生物意义不明的缺点;通过使用差异分析和加权基因共表达网络分析进行基因选择,同时结合变分自编码器提取的低维特征共同作为分类依据,有效提高了分类器的准确率。
加权基因共表达网络分析得到的基因具有重要的作用,差异分析中有些对癌症分类起作用的基因可能被忽略掉。为了综合两者的信息,本发明使用变分自编码器从差异表达矩阵中提取低维特征,并取得了很好的效果。然后将低维特征与加权关联网络获取的枢纽基因的基因表达谱数据合并,综合考虑两者的信息进行分类。从而提高了癌症分类器的准确率。且本发明的方法除了应用到结直肠癌外还可以应用到其它类型癌症的预测中,可以实现对癌症的高效预测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的预测癌症的方法的流程示意图;
图2是本发明实施例提供的系统聚类树示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种预测癌症的方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该方法的执行流程如图1所示,包括以下步骤:
S101,针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
需要说明的是,本实施例的数据基础是癌症病人与正常人的差异基因的表达谱数据,为此本实施例使用R语言中的limma包实现癌症病人和正常人的基因表达谱数据的基因差异表达分析。limma(Linear Models for Microarray Data)是基于经验贝叶斯的稳健T-test方法,已实现在Bioconductor的limma软件包中。limma方法适用于基因芯片和RNA-Seq等平台的差异表达分析,其核心思想是采用线性模型拟合每个基因的表达水平,以基因g为例,模型描述如下:
Yg=bg+Xαg
Figure BDA0002623955910000051
表示在n个芯片上检测到的基因g的表达量,bg是与芯片无关的截取向量,X是已知的满列秩矩阵,αg=(αg1g2,…αgn)是系数向量,因此可以求出基因表达值的均值和方差,如下式:
E(Yg)=Xαg
Figure BDA0002623955910000052
Wg是已知的非负权重矩阵,之后通过Robust回归或者最小二乘优化模型参数,可以求出
Figure BDA0002623955910000053
的方差
Figure BDA0002623955910000054
Vg表示一个正定矩阵,s2表示σ2的估计值。基因g在不同实验条件下差异比较的回归系数βg=CTαg,那么样本的方差的后验估计如下:
Figure BDA0002623955910000061
dg是误差自由度,d0和s0分别是dg和sg的先验估计,可以由设定的先验分布获得,之后将方差估计带入稳健的T-test中计算t值:
Figure BDA0002623955910000062
式中,vgj表示协方差矩阵CTVgC的对角元素,最后利用t值判断差异表达的基因。
本实施例在使用limma时运用了R语言中的FDR(False Discovery Rate,错误发现率)校正工具包对P-value(一种在原假设为真的前提下出现观察样本以及更极端情况的概率)进行了校正,选择具有显著差异性(adj.P.Val<0.05),且在正常人和癌症病人中基因表达量差异在两倍以上(|log2FC|>1)的基因作为差异性基因。具体地,本实施例通过对结直肠癌病人与正常人的基因表达谱数据进行分析,利用limma,一共鉴定出了与结直肠癌紧密相关的1159个差异性基因,其中419个基因上调,740个基因下调。
S102,基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器算法对差异性基因的基因表达谱数据进行处理,得到降维数据;
需要说明的是,虽然基于神经网络的基因数据特征提取方法可以有效提取数据特征,但提取到的特征与原数据相比都不可避免的会造成信息损失。WGCNA(Weighted geneco-expression network analysis,加权基因共表达网络分析)可以筛选出枢纽基因,用于疾病的诊断和预测等。WGCNA与传统基因网络方法相比,不需要过多的已知或先验信息,仅提高样本量就能提高精度,并且采用最新生物网络的无尺度特性的假设建立简单可行模型。
变分自编码器可以降低微阵列基因表达数据的维数,并从微阵列基因表达数据中提取与癌症密切相关的有效特征。从变分自编码器编码到解码的过程中,部分属于原数据的信息就已经丢失了。但是,通过结合WGCNA算法提取出来的枢纽基因可以弥补部分丢失信息,从而可以提高分类器的准确率。
具体地,基于WGCNA分析基因表达谱数据,得到枢纽基因,包括:
a.定义邻接矩阵
在基因共表达网络中,基因i和基因j之间的关系由它们之间的相关系数的绝对值衡量,在无向网络和有向网络中定义基因i和基因j间的关系s:
Figure BDA0002623955910000071
上述两种s的计算公式都是可选的方式。其中,基因相似矩阵用
Figure BDA0002623955910000072
表示。邻接矩阵是由连接强度构成的矩阵,是衡量基因间相关性的一种手段,可以由相似矩阵转化而来。最直接的构建邻接函数方法就是提前设置好基因间相关系数阈值,然后将基因关系划分为相关和不相关,这种方法虽然简单易行,但如此硬性的划分会丢失基因间存在的大量真实有效信息,如将阈值设置为0.9,即相关系数大于0.9的基因被认为是相关的,小于0.9则被划分为不相关,按照该划分方法,不相关基因中除了包含相关系数较小的基因对之外,还包括相关系数等于0.89的基因对,由此可以看出,这样的划分方法显然是不合理的,为了克服这个缺点,WGCNA提供了软阈值的方法来衡量基因之间的相关性。
任意基因对之间的相关性大小可以通过邻接系数aij进行衡量:
aij=power(sij,β)=|sij|β
其中β是加权系数,有时被称为软阈值,从相似矩阵和邻接函数定义可以看出,邻接矩阵就是通过对相似矩阵进行β次方加权的幂指数运算之后得到的矩阵,因此,邻接函数也被称为幂指数加权的相似矩阵。
根据差异分析可看出癌症的致病基因之间通常是有相关关系的,一种癌症的发生是多个基因异常表达的结果,很多个基因共同作用导致癌症的产生和转移。可使用聚类分析将多个表达量相近的基因聚成一类,分析每类基因与癌症之间的关联性。加权网络关联分析是将基因间表达量的相关系数取β次幂,那么相关系数的分布会逐渐符合无尺度分布,对符合这个分布的关联网络进行分析。将基因按照相关性进行分类,相关性较高的基因归为一类作为一个基因模块。
本实施例利用WGCNA分析癌症病人与正常人的基因表达谱数据,计算拓扑矩阵以及邻接矩阵,然后将拓扑矩阵转化成相异度矩阵,再从得到的相异度矩阵中,根据相异度进行聚类得到系统聚类树,根据聚类树的聚类情况,进一步寻找与疾病相关的基因。
b.邻接函数参数选择
在邻接矩阵中使用邻接函数来合理设置的阈值可以去掉生物分子网络中没有生物意义的边,保留下具有生物意义的边,考虑到分子网络无尺度的性质,WGCNA算法依据幂律分布规律,通过优化阈值的方法展现网络的无尺度特点和拓扑性质,选取软阈值的具体标准为:连接度为k的节点个数的对数logk和节点出现概率的对数值logp(k)之间的相关系数至少要达到0.85,当参数β确定之后,便可以求出邻接函数A=[aij]。
c.确定节点间的相异度
当确定邻接函数的参数(软阈值)β后,就可将相关系数矩阵S=[sij]转化成邻接矩阵A=[aij]。在分子网络中,考虑到基因对关联程度的共表达模块具有更多的生物学意义,WGCNA使用拓扑重叠(topological overlap measure,TOM)的方法计算网络拓扑重叠性,并利用下式将邻接矩阵转化为拓扑矩阵Ω=[wij]:
Figure BDA0002623955910000081
其中,
Figure BDA0002623955910000082
表示连接基因i和基因j的共同基因的邻接系数乘积之和;
Figure BDA0002623955910000083
表示仅与基因i相连的基因的邻接系数之和;
Figure BDA0002623955910000084
表示仅与基因j相连的基因的邻接系数之和。
根据上述式子可知,wij=1说明基因i和基因j直接相连或者同时与基因i和基因j相连接的基因,反之,wij=0表示在基因i和基因j间不仅不存在直接相连接的基因,而且也不会通过其它基因相连接。
基因间的关联程度由拓扑系数wij衡量:
Figure BDA0002623955910000085
基因模块中的枢纽基因通常具有基因的表达数据与表型性状相关系数的绝对值(gene significance,GS)、基因的表达数据与模块主成分分析第一主成分相关性绝对值(module membership,MM)和模块内连接度(K.in值)。本实施例首先选择GS(基因的表达数据与表型性状相关系数的绝对值)>0.5和MM(基因的表达数据与模块主成分分析第一主成分相关性绝对值)>0.8的基因。在此基础上,在这些基因里筛选出符合差异性基因条件并且在所在模块中连接度最大的前十个基因作为所述枢纽基因。然后对他们进行GO(GeneOntology,基因本体论,是基因本体论联合会建立的一个数据库)和KEGG(KyotoEncyclopedia of Genes and Genomes,京都基因与基因组百科全书)途径富集分析,探讨枢纽基因与癌症在基因功能与代谢通路上的关联。并将它作为分类器的一个分类特征。
变分自编码器结合了自动编码器和贝叶斯模型的变分推断方法。本实施例设计了一个变分自编码器模型用于提取差异性基因的基因表达谱数据中的低维信息,最终实现根据基因表达量对其是否患癌进行预测和分析。其中,输入数据是一个行为样本列为基因名称的矩阵,该矩阵是经过差异分析得到的有显著差异性的基因表达量矩阵。本实施例的变分自编码器的神经网络模型一共七层,隐藏层数量过多容易发生过拟合,数量太少则难以对基因表达矩阵进行重建,本实施例经过试验采取了输入输出层加5个隐藏层的神经网络结构。其中,各隐藏层节点分别为584、100、10、100、584个,输入层和输出层节点为1186个。使用之前本实施例利用limma检验出的具有显著差异性的差异基因,利用变分自编码器将这些差异基因的基因表达谱数据进一步降维,得到数据的低维特征。
S103,将枢纽基因的基因表达谱数据和降维数据共同作为预设类型的癌症分类器的分类特征,以通过癌症分类器实现癌症病人与正常人的分类。
需要说明的是,本实施例在通过WGCNA处理癌症病人与正常人的基因表达谱数据得到枢纽基因,VAE对癌症病人与正常人之间的差异性基因的基因表达谱数据降维得到低维特征后,将二者投入到SVM(Support Vector Machine,支持向量机)中作为分类癌症病人与正常人的分类特征。
下面,通过对比试验的方式对本实施例的癌症预测方法的效率进行验证:
为了检验本实施例方法在癌症预测上的效率,本实施例针对结直肠癌选取从GEO(Gene Expression Omnibus,一个存储基因表达谱数据的数据库)下载的GSE8671、GSE9348、GSE23878以及GSE37364四个数据集,使用GSE8671、GSE9348、GSE23878三个数据集作为分类器的训练集,GSE37364作为测试集对分类器进行测试;其中,数据集的详细信息如表1所示。
表1实验样本数据
Figure BDA0002623955910000091
在获取分类器特征的过程中,WGCNA的枢纽基因和VAE的降维数据都是通过分析GSE8671,GSE9348,GSE23878这三组数据获得。
在对数据进行WGCNA分析的过程中,为了更直观的观察基因之间的关系,本实施例采用聚类树以及模块关系图来进行描述,如图2所示,图2中A的a部分是使用基因构建的聚类树,b部分是聚类得到的基因模块,颜色代表模块,c部分是合并相似表达模式后得到的基因模块;图2中的B显示了不同模块之间的某种相关性。具有高相关性的模块可以进一步合并到同一个模块中。因此,本实施例使用动态剪枝的方法进一步合并具有显著相关性的模块到相同的模块中。为了形成12个模块,本实施例定义了每个模块至少30个基因,并将相关系数大于0.8的模块组合在一起。表2显示了包含的12个模块和基因数量。表3是12个模块与CRC的皮尔森相关系数和检验的p值,表4则是从中选出的10个枢纽基因,其中,FC表示两样品(组)间表达量的比值。
表2基因模块以及对应基因数
Figure BDA0002623955910000101
表3基因模块与样本类型的相关系数和p值
Figure BDA0002623955910000102
表4与特征向量基因最密切相关的前10个枢纽基因
Figure BDA0002623955910000103
Figure BDA0002623955910000111
利用VAE对差异性基因的基因表达谱数据进行降维,最终得到降维后的10维特征数据。将VAE的降维数据和枢纽基因的基因表达谱数据作为SVM的分类特征,对样本进行分类,最终显示分类器的测试精度为0.9692,AUC(Area Under Curve,被定义为ROC(receiveroperating characteristic curve,接受者操作特性曲线)曲线下与坐标轴围成的面积)为0.9981,实现对65个样本的准确分类。经过测试发现上述特征集比单独使用枢纽基因的表达谱数据和单独使用差异性基因表达数据作为分类特征的分类效果更好。
综上,本发明采用了多种特征提取方法,通过分析癌症病人和正常人的基因表达谱数据,根据基因间的相关关系构建基因的加权关联网络,从关联网络中找出枢纽基因的表达谱数据作为分类特征,设计了变分自编码器模型对差异表达矩阵进行降维;将利用加权基因共表达网络分析找到的枢纽基因的表达谱数据和变分自编码器处理后的降维数据共同作为癌症分类器的分类特征,综合考虑两者的信息进行分类,从而提高了癌症分类器的准确率,实现了癌症的高效预测。
第二实施例
本实施例提供了一种预测癌症的系统,该预测癌症的系统包括以下模块:
差异性基因获取模块,用于针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
特征数据获取模块,用于基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器对所述差异性基因获取模块所获取的差异性基因的基因表达谱数据进行处理,得到降维数据;
分类模块,用于将所述特征数据获取模块所获取的枢纽基因的基因表达谱数据和降维数据共同作为预设类型的癌症分类器的分类特征,以通过所述癌症分类器实现癌症病人与正常人的分类。
本实施例的预测癌症的系统与上述第一实施例的预测癌症的方法相对应;其中,本实施例的预测癌症的系统中的各功能模块所实现的功能与上述第一实施例的预测癌症的方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以下步骤:
S101,针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
S102,基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器算法对差异性基因的基因表达谱数据进行处理,得到降维数据;
S103,将枢纽基因的基因表达谱数据和降维数据共同作为预设类型的癌症分类器的分类特征,以通过癌症分类器实现癌症病人与正常人的分类。
本实施例的电子装置采用多种特征提取方法,通过分析癌症病人和正常人的基因表达谱数据,根据基因间的相关关系构建基因的加权关联网络,从关联网络中找出枢纽基因作为分类特征,通过变分自编码器模型对差异表达矩阵进行降维;将利用加权基因共表达网络分析找到的枢纽基因的表达谱数据和变分自编码器处理后的降维数据共同作为癌症分类器的分类特征,综合考虑两者的信息进行分类,从而提高了癌症预测的准确率,实现了癌症的高效预测。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行以下步骤:
S101,针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
S102,基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器算法对所述差异性基因的基因表达谱数据进行处理,得到降维数据;
S103,将枢纽基因的基因表达谱数据和降维数据共同作为预设类型的癌症分类器的分类特征,以通过癌症分类器实现癌症病人与正常人的分类。
本实施例的存储介质所存储的方法通过分析癌症病人和正常人的基因表达谱数据,根据基因间的相关关系构建基因的加权关联网络,从关联网络中找出枢纽基因作为分类特征,设计了变分自编码器模型对差异表达矩阵进行降维;将利用加权基因共表达网络分析找到的枢纽基因的表达谱数据和变分自编码器处理后的降维数据共同作为癌症分类器的分类特征,综合考虑两者的信息进行分类,从而提高了癌症分类器的准确率,实现了癌症的高效预测。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种预测癌症的方法,其特征在于,所述预测癌症的方法包括:
针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器算法对所述差异性基因的基因表达谱数据进行处理,得到降维数据;
将所述枢纽基因的基因表达谱数据和所述降维数据共同作为预设类型的癌症分类器的分类特征,以通过所述癌症分类器实现癌症病人与正常人的分类。
2.如权利要求1所述的预测癌症的方法,其特征在于,所述针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因,包括:
分别获取癌症病人和正常人的基因表达谱数据,并通过R语言中的limma包实现癌症病人和正常人的基因表达谱数据的基因差异表达分析;
运用R语言中的FDR校正工具包对P-value值进行校正,选择差异性大小满足预设阈值,且在正常人和癌症病人中的基因表达量差异在两倍以上的基因作为所述差异性基因,并确定所述差异性基因的基因表达谱数据。
3.如权利要求1所述的预测癌症的方法,其特征在于,基于所述加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因,包括:
基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,将癌症病人与正常人的基因表达谱数据中对应的基因按照相关性进行分类,确定对应的基因模块;
选择所述基因模块中基因的表达数据与表型性状相关系数的绝对值大于0.5和基因的表达数据与模块主成分分析第一主成分相关性绝对值大于0.8的基因,在这些基因里筛选出符合差异性基因条件并在所在模块中连接度最大的前十个基因作为所述枢纽基因;
并对得到的枢纽基因进行预设基因数据库途径富集分析,探讨癌症与枢纽基因在基因功能与代谢通路上的关联。
4.如权利要求1所述的预测癌症的方法,其特征在于,所述变分自编码器的神经网络模型共七层,包括一个输入层、一个输出层和五个隐藏层。
5.如权利要求4所述的预测癌症的方法,其特征在于,所述五个隐藏层的节点分别为584、100、10、100、584个,所述输入层和输出层节点为1186个。
6.如权利要求1-5任一项所述的预测癌症的方法,其特征在于,所述预设类型的癌症分类器为支持向量机分类器。
7.一种预测癌症的系统,其特征在于,所述预测癌症的系统包括:
差异性基因获取模块,用于针对癌症病人与正常人的基因表达谱数据进行差异性分析,获得癌症病人与正常人之间的差异性基因;
特征数据获取模块,用于基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,得到枢纽基因;并通过变分自编码器对所述差异性基因获取模块所获取的差异性基因的基因表达谱数据进行处理,得到降维数据;
分类模块,用于将所述特征数据获取模块所获取的枢纽基因的基因表达谱数据和降维数据共同作为预设类型的癌症分类器的分类特征,以通过所述癌症分类器实现癌症病人与正常人的分类。
8.如权利要求7所述的预测癌症的系统,其特征在于,所述差异性基因获取模块具体用于:
分别获取癌症病人和正常人的基因表达谱数据,并通过R语言中的limma包实现癌症病人和正常人的基因表达谱数据的基因差异表达分析;
运用R语言中的FDR校正工具包对P-value值进行校正,选择差异性大小满足预设阈值且在正常人和癌症病人中的基因表达量差异在两倍以上的基因作为所述差异性基因,并确定所述差异性基因的基因表达谱数据。
9.如权利要求7所述的预测癌症的系统,其特征在于,所述特征数据获取模块具体用于:
基于加权基因共表达网络分析对癌症病人与正常人的基因表达谱数据进行分析,将癌症病人与正常人的基因表达谱数据中对应的基因按照相关性进行分类,确定对应的基因模块;
选择所述基因模块中基因的表达数据与表型性状相关系数的绝对值大于0.5和基因的表达数据与模块主成分分析第一主成分相关性绝对值大于0.8的基因,在这些基因里筛选出符合差异性基因条件并在所在模块内连接度最大的前十个基因作为所述枢纽基因;并对得到的枢纽基因进行预设基因数据库途径富集分析,探讨癌症与枢纽基因在基因功能与代谢通路上的关联。
10.如权利要求7所述的预测癌症的系统,其特征在于,所述变分自编码器的神经网络模型共七层,包括一个输入层、一个输出层和五个隐藏层;
其中,所述五个隐藏层的节点分别为584、100、10、100、584个,所述输入层和输出层节点为1186个;
所述分类模块所采用的预设类型的癌症分类器为支持向量机分类器。
CN202010791646.1A 2020-08-07 2020-08-07 一种预测癌症的方法及系统 Active CN111899882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010791646.1A CN111899882B (zh) 2020-08-07 2020-08-07 一种预测癌症的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010791646.1A CN111899882B (zh) 2020-08-07 2020-08-07 一种预测癌症的方法及系统

Publications (2)

Publication Number Publication Date
CN111899882A true CN111899882A (zh) 2020-11-06
CN111899882B CN111899882B (zh) 2021-06-18

Family

ID=73246223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010791646.1A Active CN111899882B (zh) 2020-08-07 2020-08-07 一种预测癌症的方法及系统

Country Status (1)

Country Link
CN (1) CN111899882B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599246A (zh) * 2021-03-03 2021-04-02 四川华迪信息技术有限公司 生命体征数据处理方法、系统、装置及计算机可读介质
CN112802546A (zh) * 2020-12-29 2021-05-14 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
CN113113083A (zh) * 2021-04-09 2021-07-13 山东大学 集体细胞突变数据和蛋白质网络的肿瘤驱动通路预测系统
CN114841294A (zh) * 2022-07-04 2022-08-02 杭州德适生物科技有限公司 一种检测染色体结构异常的分类器模型训练方法及装置
CN115631849A (zh) * 2022-10-19 2023-01-20 哈尔滨工业大学 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备
WO2023027281A1 (ko) * 2021-08-27 2023-03-02 디어젠 주식회사 유전자 정보 분석 방법
CN115798601A (zh) * 2023-02-03 2023-03-14 北京灵迅医药科技有限公司 肿瘤特征基因识别方法、装置、设备及存储介质
CN117912570A (zh) * 2024-03-19 2024-04-19 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106740A1 (en) * 2002-05-24 2011-05-05 University Of South Florida Tissue classification method for diagnosis and treatment of tumors
US20150366835A1 (en) * 2014-06-12 2015-12-24 Nsabp Foundation, Inc. Methods of Subtyping CRC and their Association with Treatment of Colon Cancer Patients with Oxaliplatin
CN108615555A (zh) * 2018-04-26 2018-10-02 山东师范大学 基于标记基因和混合核函数svm的结直肠癌预测方法和装置
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN110177886A (zh) * 2017-04-24 2019-08-27 洛博生物科技有限公司 基于胃癌生物学特征的集群分类及预后预测系统
CN110819700A (zh) * 2018-08-10 2020-02-21 杭州米天基因科技有限公司 一种构建肺部小结节计算机辅助检测模型的方法
CN111128299A (zh) * 2019-12-16 2020-05-08 南京邮电大学 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN111276252A (zh) * 2020-01-15 2020-06-12 北京吉因加科技有限公司 一种肿瘤良恶性鉴别模型的构建方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106740A1 (en) * 2002-05-24 2011-05-05 University Of South Florida Tissue classification method for diagnosis and treatment of tumors
US20150366835A1 (en) * 2014-06-12 2015-12-24 Nsabp Foundation, Inc. Methods of Subtyping CRC and their Association with Treatment of Colon Cancer Patients with Oxaliplatin
CN110177886A (zh) * 2017-04-24 2019-08-27 洛博生物科技有限公司 基于胃癌生物学特征的集群分类及预后预测系统
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN108615555A (zh) * 2018-04-26 2018-10-02 山东师范大学 基于标记基因和混合核函数svm的结直肠癌预测方法和装置
CN110819700A (zh) * 2018-08-10 2020-02-21 杭州米天基因科技有限公司 一种构建肺部小结节计算机辅助检测模型的方法
CN111128299A (zh) * 2019-12-16 2020-05-08 南京邮电大学 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN111276252A (zh) * 2020-01-15 2020-06-12 北京吉因加科技有限公司 一种肿瘤良恶性鉴别模型的构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史健翔: "《基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建》", 《中国博士学位论文全文数据库 医药卫生科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802546B (zh) * 2020-12-29 2024-05-03 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
CN112802546A (zh) * 2020-12-29 2021-05-14 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
CN112599246B (zh) * 2021-03-03 2021-06-29 四川华迪信息技术有限公司 生命体征数据处理方法、系统、装置及计算机可读介质
CN112599246A (zh) * 2021-03-03 2021-04-02 四川华迪信息技术有限公司 生命体征数据处理方法、系统、装置及计算机可读介质
CN113113083A (zh) * 2021-04-09 2021-07-13 山东大学 集体细胞突变数据和蛋白质网络的肿瘤驱动通路预测系统
CN113113083B (zh) * 2021-04-09 2022-08-09 山东大学 集体细胞突变数据和蛋白质网络的肿瘤驱动通路预测系统
WO2023027281A1 (ko) * 2021-08-27 2023-03-02 디어젠 주식회사 유전자 정보 분석 방법
CN114841294A (zh) * 2022-07-04 2022-08-02 杭州德适生物科技有限公司 一种检测染色体结构异常的分类器模型训练方法及装置
CN115631849A (zh) * 2022-10-19 2023-01-20 哈尔滨工业大学 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备
CN115631849B (zh) * 2022-10-19 2023-04-28 哈尔滨工业大学 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备
CN115798601A (zh) * 2023-02-03 2023-03-14 北京灵迅医药科技有限公司 肿瘤特征基因识别方法、装置、设备及存储介质
CN117912570A (zh) * 2024-03-19 2024-04-19 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统
CN117912570B (zh) * 2024-03-19 2024-05-14 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统

Also Published As

Publication number Publication date
CN111899882B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN111899882B (zh) 一种预测癌症的方法及系统
Dean et al. Latent class analysis variable selection
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Manikandan et al. An efficient feature selection framework based on information theory for high dimensional data
CN107609588A (zh) 一种基于语音信号的帕金森患者updrs得分预测方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Liang et al. A hidden Markov model approach to testing multiple hypotheses on a tree-transformed gene ontology graph
CN112926640A (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
Babichev et al. An effectiveness evaluation of information technology of gene expression profiles processing for gene networks reconstruction
CN117409962B (zh) 一种基于基因调控网络的微生物标记物的筛选方法
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
CN113284627A (zh) 基于患者表征学习的用药推荐方法
CN113035279B (zh) 基于miRNA测序数据的帕金森疾病演化关键模块识别方法
CN111816259B (zh) 基于网络表示学习的不完整多组学数据集成方法
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN114978931A (zh) 基于流形学习的网络流量预测方法、装置及存储介质
CN114819056A (zh) 一种基于域对抗和变分推断的单细胞数据整合方法
Diaz-Papkovich et al. Topological stratification of continuous genetic variation in large biobanks
CN112784886A (zh) 一种基于多层最大生成树图核的脑图像分类方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Bustamam et al. Finding correlated biclusters from microarray data using the modified lift algorithm based on new residue score
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法
CN116723083B (zh) 一种云服务器在线故障诊断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant