CN107368707A - 基于us‑elm的基因芯片表达数据分析系统及方法 - Google Patents
基于us‑elm的基因芯片表达数据分析系统及方法 Download PDFInfo
- Publication number
- CN107368707A CN107368707A CN201710596384.1A CN201710596384A CN107368707A CN 107368707 A CN107368707 A CN 107368707A CN 201710596384 A CN201710596384 A CN 201710596384A CN 107368707 A CN107368707 A CN 107368707A
- Authority
- CN
- China
- Prior art keywords
- gene
- expression
- matrix
- elm
- chip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 175
- 230000014509 gene expression Effects 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000007405 data analysis Methods 0.000 title claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 129
- 230000002068 genetic effect Effects 0.000 claims abstract description 53
- 230000004186 co-expression Effects 0.000 claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000008859 change Effects 0.000 claims abstract description 11
- 230000008827 biological function Effects 0.000 claims abstract description 10
- 238000007621 cluster analysis Methods 0.000 claims abstract description 9
- 238000010201 enrichment analysis Methods 0.000 claims abstract description 9
- 238000002474 experimental method Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 210000000349 chromosome Anatomy 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 239000000523 sample Substances 0.000 claims description 9
- 210000004027 cell Anatomy 0.000 claims description 7
- 238000009395 breeding Methods 0.000 claims description 6
- 230000001488 breeding effect Effects 0.000 claims description 6
- 210000001726 chromosome structure Anatomy 0.000 claims description 6
- 238000009396 hybridization Methods 0.000 claims description 6
- 238000012804 iterative process Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 6
- 230000004083 survival effect Effects 0.000 claims description 6
- 238000003705 background correction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000035772 mutation Effects 0.000 claims description 5
- 210000001519 tissue Anatomy 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明的基于US‑ELM的基因芯片表达数据分析系统及方法包括,基因预处理单元,用于对基因芯片进行预处理以获得适用于实验的数据格式;差异基因筛选单元,基于基因表达数据矩阵寻找在基因芯片中不同个体或者是不同组织中表达发生明显变化的差异基因,获得差异表达基因矩阵;聚类单元,用于对差异表达基因矩阵进行聚类分析,得到共表达基因序列;富集分析单元,用于对共表达基因序列进行富集分析,得到关于基因所参与的多条通路,得出在数据上共表达基因序列的生物学功能解释。本发明的分析系统及方法整体上提高了数据分析的准确性,差异基因处理过程筛选出更有效的明显表达差异基因,聚类处理中得出的类别在生物学解释上具有更多的相似性。
Description
技术领域
本发明属于医学大数据挖掘技术领域,具体涉及基于US-ELM的基因芯片表达数据分析系统及方法。
背景技术
目前,基因芯片已经成为临床研究的重要研究方式,数据分析的结果直接影响着医生对疾病的诊断。目前基因芯片数据分析的相关研究有很多,主要集中在寻找差异表达基因/交集分析、数据降维、聚类分析和功能富集分析。然而,如何获得基因芯片原始数据并将其转化为各个实验目的所需数据形式成为了技术关键点。
在现有的针对基因数据分析算法的相关研究中,所处理的基因数据大多数来源于公开基因数据库,如GEO数据库。由于基因芯片数据样本量小、维度高的特点,基因数据的分析方法受到越来越多的关注。许多传统分析方法存在限制性,使得数据分析在规模以及效率上受到极大制约。
发明内容
本发明提供一种基于US-ELM的基因芯片表达数据分析系统及方法,采用的遗传法差异基因处理过程能筛选出更有效的明显表达差异基因,提高了数据分析的准确性。
本发明提供一种基于US-ELM的基因芯片表达数据分析系统,包括:
基因预处理单元,用于对基因芯片进行预处理以获得适用于实验的数据格式,即基因表达数据矩阵;
差异基因筛选单元,基于基因表达数据矩阵寻找在基因芯片中不同个体或者是不同组织中表达发生明显变化的差异基因,获得差异表达基因矩阵;
聚类单元,用于对差异表达基因矩阵进行聚类分析,得到共表达基因序列;
富集分析单元,用于对共表达基因序列进行富集分析,得到关于基因所参与的多条通路,得出在数据上共表达基因序列的生物学功能解释。
在本发明的基于US-ELM的基因芯片表达数据分析系统中,所述基因预处理单元包括:
背景校正器,用于根据MAS方法将基因芯片分为16个网格区域,每个网格区域使用信号强度最低的2%的探针去计算背景值和噪声以获得初始基因数据矩阵;
标准化器,用于选择一个基因芯片作为参考芯片,将其他基因芯片和参考芯片的初始基因数据矩阵分别作为线性缩放方法的输入,依次进行线性回归分析,用回归直线对其他基因芯片的信号值做缩放,进而输出标准化矩阵;
汇总器,用于使用统计方法通过probeset的杂交信号计算出标准化矩阵的计算表达量,进而得到基因表达数据矩阵。
在本发明的基于US-ELM的基因芯片表达数据分析系统中,所述差异基因筛选单元包括:
初始种群建立器,用于将基因表达数据矩阵与遗传算法染色体结构之间建立联系,再根据基因与染色体的关系实现算法的编码和解码,建立初始种群;
适应度计算器,根据适应度函数计算初始种群中每个个体的适应度;
选择算子操作器,根据初始种群中个体的适应度,对个体进行优胜劣汰操作,筛选出适应度高的个体参与进化繁殖下一代;
交叉算子操作器,用于将经筛选后的不同个体的两个染色体的部分基因相互交换重组生成新的个体;
变异算子操作器,用于改变新的个体的染色体的某些基因值,进而产生新一代种群,保持种群多样性;
算法终止器,用于当种群不在变化或达到设定的迭代次数时,终止迭代过程,获得差异表达基因矩阵。
在本发明的基于US-ELM的基因芯片表达数据分析系统中,所述聚类单元包括:
变换矩阵生成器,根据US-ELM原理,生成差异表达矩阵的拉普拉斯变换矩阵;
随机参数生成器,根据US-ELM原理,差异表达矩阵作为输入,设定隐层节点个数,随机生成输入节点的权重向量和隐层节点的阈值;
转换器,根据US-ELM原理,利用输入节点的权重向量和隐层节点的阈值生成差异表达矩阵的隐层输出矩阵;
降维器,根据US-ELM原理,根据拉普拉斯矩阵和隐层输出矩阵,得到降维后的差异表达矩阵;
聚类器,利用聚类算法对降维后的差异表达矩阵进行聚类,得到共表达基因序列。
在本发明的基于US-ELM的基因芯片表达数据分析系统中,所述富集分析单元包括:
KEGG富集器,用于对共表达基因序列进行KEGG富集分析,得到关于基因所参与的多条通路;
GO富集器,用于对共表达基因序列进行GO富集分析,得出在数据上共表达基因的生物学功能解释。
本发明还一种基于US-ELM的基因芯片表达数据分析方法,包括如下步骤:
步骤1:对基因芯片进行预处理以获得适用于实验的数据格式,即基因表达数据矩阵;
步骤2:基于基因表达数据矩阵寻找在基因芯片中不同个体或者是不同组织中表达发生明显变化的差异基因,获得差异表达基因矩阵;
步骤3:对差异表达基因矩阵进行聚类分析,得到共表达基因序列;
步骤4:对共表达基因序列进行富集分析,得到关于基因所参与的多条通路,得出在数据上共表达基因序列的生物学功能解释。
在本发明的基于US-ELM的基因芯片表达数据分析方法中,所述步骤1包括:
步骤1.1:采用根据MAS方法将基因芯片分为16个网格区域,每个网格区域使用信号强度最低的2%的探针去计算背景值和噪声以获得初始基因数据矩阵;
步骤1.2:选择一个基因芯片作为参考芯片,将其他基因芯片和参考芯片的初始基因数据矩阵分别作为线性缩放方法的输入,依次进行线性回归分析,用回归直线对其他基因芯片的信号值做缩放,进而输出标准化矩阵;
步骤1.3:使用统计方法通过probeset的杂交信号计算出标准化矩阵的计算表达量,进而得到基因表达数据矩阵。
在本发明的基于US-ELM的基因芯片表达数据分析方法中,所述步骤2包括:
步骤2.1:根据基因遗传规律,将基因表达数据矩阵与遗传算法染色体结构之间建立联系,再根据基因与染色体的关系实现算法的编码和解码,建立初始种群;
步骤2.2:根据适应度函数计算初始种群中每个个体的适应度;
步骤2.3:根据初始种群中个体的适应度,对个体进行优胜劣汰操作,筛选出适应度高的个体参与进化繁殖下一代;
步骤2.4:将经筛选后的不同个体的两个染色体的部分基因相互交换重组生成新的个体;
步骤2.5:改变新的个体的染色体的某些基因值,进而产生新一代种群,保持种群多样性;
步骤2.6:当种群不在变化或达到设定的迭代次数时,终止迭代过程,获得差异表达基因矩阵。
在本发明的基于US-ELM的基因芯片表达数据分析方法中,所述步骤3包括:
步骤3.1:根据US-ELM原理,生成差异表达矩阵的拉普拉斯变换矩阵;
步骤3.2:根据US-ELM原理,差异表达矩阵作为输入,设定隐层节点个数,随机生成输入节点的权重向量和隐层节点的阈值;
步骤3.3:根据US-ELM原理,利用输入节点的权重向量和隐层节点的阈值生成差异表达矩阵的隐层输出矩阵;
步骤3.4:根据US-ELM原理,根据拉普拉斯矩阵和隐层输出矩阵,得到降维后的差异表达矩阵;
步骤3.5:利用聚类算法对降维后的差异表达矩阵进行聚类,得到共表达基因序列。
在本发明的基于US-ELM的基因芯片表达数据分析方法中,所述步骤4包括:
步骤4.1:对共表达基因序列进行KEGG富集分析,得到关于基因所参与的多条通路;
步骤4.2:对共表达基因序列进行GO富集分析,得出在数据上共表达基因的生物学功能解释。
本发明的基于US-ELM的基因芯片表达数据分析系统及方法至少具有以下有益效果:本发明的基于US-ELM的基因芯片表达数据分析系统及方法在整体上提高了数据分析的准确性,具体的遗传法差异基因处理过程筛选出更有效的明显表达差异基因,聚类处理中得出的类别在生物学解释上具有更多的相似性。
附图说明
图1为本发明的基于US-ELM的基因芯片表达数据分析系统的结构框图;
图2为本发明的基于US-ELM的基因芯片表达数据分析方法的流程图。
具体实施方式
极限学习机(extreme learning machine,ELM)是一种简单易用、有效的单隐层前馈神经网络SLFNs学习算法。2004年由南洋理工大学黄广斌副教授提出。传统的神经网络学习算法(如BP算法)需要人为设置大量的网络训练参数,并且很容易产生局部最优解。极限学习机只需要设置网络的隐层节点个数,在算法执行过程中不需要调整网络的输入权值以及隐元的偏置,并且产生唯一的最优解,因此具有学习速度快且泛化性能好的优点。
无监督极限学习机(unsupervised extreme learning machine,US-ELM),该算法保持了极限学习机的学习能力和计算有效性的基础上,还可用于处理聚类问题。
结合附图对本发明的基于US-ELM的基因芯片表达数据分析系统及方法进行说明。
如图1所示为本发明的基于US-ELM的基因芯片表达数据分析系统的结构示意图,分析系统包括基因预处理单元1、差异基因筛选单元2、聚类单元3以及富集分析单元4。基因预处理单元1用于对基因芯片进行预处理以获得适用于实验的数据格式,即基因表达数据矩阵。差异基因筛选单元2基于基因表达数据矩阵寻找在基因芯片中不同个体或者是不同组织中表达发生明显变化的差异基因,获得差异表达基因矩阵。聚类单元3用于对差异表达基因矩阵进行聚类分析,得到共表达基因序列。富集分析单元4用于对共表达基因序列进行富集分析,得到关于基因所参与的多条通路,得出在数据上共表达基因序列的生物学功能解释。
基因预处理单元1包括:背景校正器11、标准化器12和汇总器13。背景校正器11用于根据MAS方法将基因芯片分为16个网格区域,每个网格区域使用信号强度最低的2%的探针去计算背景值和噪声以获得初始基因数据矩阵。标准化器12用于选择一个基因芯片作为参考芯片,将其他基因芯片和参考芯片的初始基因数据矩阵分别作为线性缩放方法的输入,依次进行线性回归分析,用回归直线对其他基因芯片的信号值做缩放,进而输出标准化矩阵。汇总器13用于使用统计方法通过probeset的杂交信号计算出标准化矩阵的计算表达量,进而得到基因表达数据矩阵。
差异基因筛选单元2包括:初始种群建立器21、适应度计算器22、选择算子操作器23、交叉算子操作器24、变异算子操作器25和算法终止器26。初始种群建立器21用于将基因表达数据矩阵与遗传算法染色体结构之间建立联系,再根据基因与染色体的关系实现算法的编码和解码,建立初始种群。适应度计算器22根据适应度函数计算初始种群中每个个体的适应度。选择算子操作器23根据初始种群中个体的适应度,对个体进行优胜劣汰操作,筛选出适应度高的个体参与进化繁殖下一代。交叉算子操作器24用于将经筛选后的不同个体的两个染色体的部分基因相互交换重组生成新的个体。变异算子操作器25用于改变新的个体的染色体的某些基因值,进而产生新一代种群,保持种群多样性。算法终止器26用于当种群不在变化或达到设定的迭代次数时,终止迭代过程,获得差异表达基因矩阵。
聚类单元3包括:变换矩阵生成器31、随机参数生成器32、转换器33、降维器34和聚类器35。变换矩阵生成器31根据US-ELM原理,生成差异表达矩阵的拉普拉斯变换矩阵。随机参数生成器32根据US-ELM原理,差异表达矩阵作为输入,设定隐层节点个数,随机生成输入节点的权重向量和隐层节点的阈值。转换器33根据US-ELM原理,利用输入节点的权重向量和隐层节点的阈值生成差异表达矩阵的隐层输出矩阵。降维器34根据US-ELM原理,根据拉普拉斯矩阵和隐层输出矩阵,得到降维后的差异表达矩阵。聚类器35利用聚类算法对降维后的差异表达矩阵进行聚类,得到共表达基因序列。
富集分析单元4包括:KEGG富集器41和GO富集器42。KEGG富集器41用于对共表达基因序列进行KEGG富集分析,得到关于基因所参与的多条通路。GO富集器42用于对共表达基因序列进行GO富集分析,得出在数据上共表达基因的生物学功能解释。
如图2所示为本发明的基于US-ELM的基因芯片表达数据分析方法的流程图,本发明的分析方法包括如下步骤:
步骤1:基因预处理,对基因芯片进行预处理以获得适用于实验的数据格式,即基因表达数据矩阵(m1m2m3m4…mn);
步骤2:差异表达分析,基于基因表达数据矩阵(m1m2m3m4…mn)寻找在基因芯片中不同个体或者是不同组织中表达发生明显变化的差异基因,获得差异表达基因矩阵(r1r2r3r4…rp);
步骤3:聚类分析,对差异表达基因矩阵(r1r2r3r4…rp)进行聚类分析,得到共表达基因序列;
步骤4:富集分析,对共表达基因序列进行富集分析,得到关于基因所参与的多条通路,得出在数据上共表达基因序列的生物学功能解释。
步骤1具体包括:
步骤1.1:背景校正,实际中基因芯片有多达30%的MM探针获得的信号强度比相应PM探针的还强,做一个PM-MM或PM/MM不能够去除背景噪声的影响,因此,采用MAS方法将基因芯片分为16个网格区域,每个网格区域使用信号强度最低的2%的探针去计算背景值和噪声以获得初始基因数据矩阵(I1I2I3I4…In);
步骤1.2:标准化,选择一个基因芯片作为参考芯片,将其他基因芯片和参考芯片的初始基因数据矩阵(I1I2I3I4…In)分别作为线性缩放方法的输入,依次进行线性回归分析,用回归直线对其他基因芯片的信号值做缩放,进而输出标准化矩阵(k1k2k3k4…kn);
步骤1.3:汇总,使用统计方法通过probeset(包含多个探针)的杂交信号计算出标准化矩阵(k1k2k3k4…kn)的计算表达量,进而得到基因表达数据矩阵(m1m2m3m4…mn)。
步骤2具体包括:
步骤2.1:初始种群建立,根据基因遗传规律,将基因表达数据矩阵(m1m2m3m4…mn)与遗传算法染色体结构之间建立联系,再根据基因与染色体的关系实现算法的编码和解码,建立初始种群(n1n2n3n4…nn);
步骤2.2:计算适应度,根据适应度函数计算初始种群中每个个体的适应度;
步骤2.3:选择算子操作,根据初始种群(n1n2n3n4…nn)中个体的适应度,对个体进行优胜劣汰操作,筛选出适应度高的个体参与进化繁殖下一代;
步骤2.4:交叉算子操作,将经筛选后的不同个体的两个染色体的部分基因相互交换重组生成新的个体;
步骤2.5:变异算子操作,改变新的个体的染色体的某些基因值,从而形成新的个体,产生新一代种群(q1q2q3q4…qm),其中m<n,保持种群多样性,防止过早出现收敛现象;
步骤2.6:当种群不在变化或达到设定的迭代次数时,终止迭代过程,获得差异表达基因矩阵(r1r2r3r4…rp),其中p<m。
步骤3具体包括:
步骤3.1:生成变换矩阵,根据US-ELM原理,生成差异表达矩阵(r1r2r3r4…rp)的拉普拉斯变换矩阵(L1,L2,L,Li);
步骤3.2:生成随机参数,根据US-ELM原理,将差异表达矩阵(r1r2r3r4…rp)作为输入,设定隐层节点个数j,随机生成输入节点的权重向量ω1,ω2,…,ωj和隐层节点的阈值t1,t2,…,tj;
步骤3.3:转换,根据US-ELM原理,利用输入节点的权重向量ω1,ω2,…,ωj和隐层节点的阈值t1,t2,…,tj生成差异表达矩阵(r1r2r3r4…rp)的隐层输出矩阵(H1,H2,L,Hj);
步骤3.4:矩阵降维,根据US-ELM原理,根据拉普拉斯矩阵(L1,L2,L,Li)和隐层输出矩阵(H1,H2,L,Hj),得到降维后的差异表达矩阵(a1,a2,…,ak);
步骤3.5:聚类,利用聚类算法对降维后的差异表达矩阵进行聚类,得到共表达基因序列。
步骤4具体包括:
步骤4.1:对共表达基因序列进行KEGG富集分析,得到关于基因所参与的多条通路;
具体实施时,通过细胞或生物体的基因组信息去了解其较高层次的功能与作用之生物信息资源,也就是整理出现存的调控网络,并建立其中每个组件与基因间的关系,获得N个通路,并对基因所参与通路做出生物学解释;
步骤4.2:对共表达基因序列进行GO富集分析,得出在数据上共表达基因的生物学功能解释。
具体实施时,根据挑选出的差异基因,计算这些差异基因同GO分类中某(几)个特定的分支的超几何分布关系,GO分析会对每个有差异基因存在的GO返回一个p-value,小的p值表示差异基因在该GO中出现了富集,提供了三层结构的系统定义方式,用于描述基因产物的功能,获得我们所需的表达矩阵的专业生物学注释。
本发明的基于US-ELM的基因芯片表达数据分析系统及方法在整体上提高了数据分析的准确性,具体的遗传法差异基因处理过程筛选出更有效的明显表达差异基因,聚类处理中得出的类别在生物学解释上具有更多的相似性。
以上所述是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于US-ELM的基因芯片表达数据分析系统,其特征在于,包括:
基因预处理单元,用于对基因芯片进行预处理以获得适用于实验的数据格式,即基因表达数据矩阵;
差异基因筛选单元,基于基因表达数据矩阵寻找在基因芯片中不同个体或者是不同组织中表达发生明显变化的差异基因,获得差异表达基因矩阵;
聚类单元,用于对差异表达基因矩阵进行聚类分析,得到共表达基因序列;
富集分析单元,用于对共表达基因序列进行富集分析,得到关于基因所参与的多条通路,得出在数据上共表达基因序列的生物学功能解释。
2.如权利要求1所述的基于US-ELM的基因芯片表达数据分析系统,其特征在于,所述基因预处理单元包括:
背景校正器,用于根据MAS方法将基因芯片分为16个网格区域,每个网格区域使用信号强度最低的2%的探针去计算背景值和噪声以获得初始基因数据矩阵;
标准化器,用于选择一个基因芯片作为参考芯片,将其他基因芯片和参考芯片的初始基因数据矩阵分别作为线性缩放方法的输入,依次进行线性回归分析,用回归直线对其他基因芯片的信号值做缩放,进而输出标准化矩阵;
汇总器,用于使用统计方法通过probeset的杂交信号计算出标准化矩阵的计算表达量,进而得到基因表达数据矩阵。
3.如权利要求1所述的基于US-ELM的基因芯片表达数据分析系统,其特征在于,所述差异基因筛选单元包括:
初始种群建立器,用于将基因表达数据矩阵与遗传算法染色体结构之间建立联系,再根据基因与染色体的关系实现算法的编码和解码,建立初始种群;
适应度计算器,根据适应度函数计算初始种群中每个个体的适应度;
选择算子操作器,根据初始种群中个体的适应度,对个体进行优胜劣汰操作,筛选出适应度高的个体参与进化繁殖下一代;
交叉算子操作器,用于将经筛选后的不同个体的两个染色体的部分基因相互交换重组生成新的个体;
变异算子操作器,用于改变新的个体的染色体的某些基因值,进而产生新一代种群,保持种群多样性;
算法终止器,用于当种群不在变化或达到设定的迭代次数时,终止迭代过程,获得差异表达基因矩阵。
4.如权利要求1所述的基于US-ELM的基因芯片表达数据分析系统,其特征在于,所述聚类单元包括:
变换矩阵生成器,根据US-ELM原理,生成差异表达矩阵的拉普拉斯变换矩阵;
随机参数生成器,根据US-ELM原理,差异表达矩阵作为输入,设定隐层节点个数,随机生成输入节点的权重向量和隐层节点的阈值;
转换器,根据US-ELM原理,利用输入节点的权重向量和隐层节点的阈值生成差异表达矩阵的隐层输出矩阵;
降维器,根据US-ELM原理,根据拉普拉斯矩阵和隐层输出矩阵,得到降维后的差异表达矩阵;
聚类器,利用聚类算法对降维后的差异表达矩阵进行聚类,得到共表达基因序列。
5.如权利要求1所述的基于US-ELM的基因芯片表达数据分析系统,其特征在于,所述富集分析单元包括:
KEGG富集器,用于对共表达基因序列进行KEGG富集分析,得到关于基因所参与的多条通路;
GO富集器,用于对共表达基因序列进行GO富集分析,得出在数据上共表达基因的生物学功能解释。
6.一种基于US-ELM的基因芯片表达数据分析方法,其特征在于,包括如下步骤:
步骤1:对基因芯片进行预处理以获得适用于实验的数据格式,即基因表达数据矩阵;
步骤2:基于基因表达数据矩阵寻找在基因芯片中不同个体或者是不同组织中表达发生明显变化的差异基因,获得差异表达基因矩阵;
步骤3:对差异表达基因矩阵进行聚类分析,得到共表达基因序列;
步骤4:对共表达基因序列进行富集分析,得到关于基因所参与的多条通路,得出在数据上共表达基因序列的生物学功能解释。
7.如权利要求6所述的基于US-ELM的基因芯片表达数据分析方法,其特征在于,所述步骤1包括:
步骤1.1:采用根据MAS方法将基因芯片分为16个网格区域,每个网格区域使用信号强度最低的2%的探针去计算背景值和噪声以获得初始基因数据矩阵;
步骤1.2:选择一个基因芯片作为参考芯片,将其他基因芯片和参考芯片的初始基因数据矩阵分别作为线性缩放方法的输入,依次进行线性回归分析,用回归直线对其他基因芯片的信号值做缩放,进而输出标准化矩阵;
步骤1.3:使用统计方法通过probeset的杂交信号计算出标准化矩阵的计算表达量,进而得到基因表达数据矩阵。
8.如权利要求6所述的基于US-ELM的基因芯片表达数据分析方法,其特征在于,所述步骤2包括:
步骤2.1:根据基因遗传规律,将基因表达数据矩阵与遗传算法染色体结构之间建立联系,再根据基因与染色体的关系实现算法的编码和解码,建立初始种群;
步骤2.2:根据适应度函数计算初始种群中每个个体的适应度;
步骤2.3:根据初始种群中个体的适应度,对个体进行优胜劣汰操作,筛选出适应度高的个体参与进化繁殖下一代;
步骤2.4:将经筛选后的不同个体的两个染色体的部分基因相互交换重组生成新的个体;
步骤2.5:改变新的个体的染色体的某些基因值,进而产生新一代种群,保持种群多样性;
步骤2.6:当种群不在变化或达到设定的迭代次数时,终止迭代过程,获得差异表达基因矩阵。
9.如权利要求6所述的基于US-ELM的基因芯片表达数据分析方法,其特征在于,所述步骤3包括:
步骤3.1:根据US-ELM原理,生成差异表达矩阵的拉普拉斯变换矩阵;
步骤3.2:根据US-ELM原理,差异表达矩阵作为输入,设定隐层节点个数,随机生成输入节点的权重向量和隐层节点的阈值;
步骤3.3:根据US-ELM原理,利用输入节点的权重向量和隐层节点的阈值生成差异表达矩阵的隐层输出矩阵;
步骤3.4:根据US-ELM原理,根据拉普拉斯矩阵和隐层输出矩阵,得到降维后的差异表达矩阵;
步骤3.5:利用聚类算法对降维后的差异表达矩阵进行聚类,得到共表达基因序列。
10.如权利要求6所述的基于US-ELM的基因芯片表达数据分析方法,其特征在于,所述步骤4包括:
步骤4.1:对共表达基因序列进行KEGG富集分析,得到关于基因所参与的多条通路;
步骤4.2:对共表达基因序列进行GO富集分析,得出在数据上共表达基因的生物学功能解释。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710596384.1A CN107368707B (zh) | 2017-07-20 | 2017-07-20 | 基于us-elm的基因芯片表达数据分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710596384.1A CN107368707B (zh) | 2017-07-20 | 2017-07-20 | 基于us-elm的基因芯片表达数据分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107368707A true CN107368707A (zh) | 2017-11-21 |
CN107368707B CN107368707B (zh) | 2020-07-10 |
Family
ID=60306937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710596384.1A Expired - Fee Related CN107368707B (zh) | 2017-07-20 | 2017-07-20 | 基于us-elm的基因芯片表达数据分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368707B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804878A (zh) * | 2018-06-16 | 2018-11-13 | 志诺维思(北京)基因科技有限公司 | 一种染色模拟方法及装置 |
CN108920900A (zh) * | 2018-06-21 | 2018-11-30 | 福州大学 | 基因表达谱数据的无监督极限学习机特征提取系统及方法 |
CN109215738A (zh) * | 2018-10-12 | 2019-01-15 | 中南大学 | 阿尔茨海默症相关基因的预测方法 |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
CN114333994A (zh) * | 2020-09-30 | 2022-04-12 | 天津现代创新中药科技有限公司 | 基于无参转录组测序来确定差异基因通路的方法及系统 |
CN115881218A (zh) * | 2022-12-15 | 2023-03-31 | 哈尔滨星云医学检验所有限公司 | 用于全基因组关联分析的基因自动选择方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143559A1 (en) * | 2003-01-17 | 2004-07-22 | Ayala Francisco J. | System and method for developing artificial intelligence |
CN101236209A (zh) * | 2007-09-03 | 2008-08-06 | 博奥生物有限公司 | 基于生物芯片检测核酸结合蛋白-靶标蛋白之间是否存在相互作用的方法 |
CN101322716A (zh) * | 2008-07-30 | 2008-12-17 | 武汉大学 | 花色苷及对chop基因的调控在防治动脉粥样硬化中的应用 |
CN101358946A (zh) * | 2008-09-08 | 2009-02-04 | 天津大学 | 阴离子聚合物接枝涂层毛细管及用于蛋白质在线富集分析方法 |
CN101538579A (zh) * | 2008-03-19 | 2009-09-23 | 百奥生物技术(南通)有限公司 | 一种构建和生产限制性内切酶Ecop15I的方法 |
CN102184349A (zh) * | 2011-04-29 | 2011-09-14 | 河海大学 | 基于流形学习的基因表达数据的聚类系统及方法 |
CN103164631A (zh) * | 2013-04-16 | 2013-06-19 | 东华大学 | 一种智能协同表达基因分析仪 |
CN103186717A (zh) * | 2013-01-18 | 2013-07-03 | 中国科学院合肥物质科学研究院 | 一种基于启发式宽度优先搜索肿瘤相关基因的方法 |
CN103699812A (zh) * | 2013-11-29 | 2014-04-02 | 北京市农林科学院 | 基于遗传算法的植物品种真实性鉴定位点筛选方法 |
CN104200134A (zh) * | 2014-08-30 | 2014-12-10 | 北京工业大学 | 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法 |
CN104573004A (zh) * | 2015-01-06 | 2015-04-29 | 华南理工大学 | 一种基于双阶遗传计算的基因表达数据的双聚类算法 |
US20150193578A1 (en) * | 2014-01-07 | 2015-07-09 | The Regents Of The University Of Michigan | Systems and methods for genomic variant analysis |
CN105550715A (zh) * | 2016-01-22 | 2016-05-04 | 大连理工大学 | 一种基于近邻传播聚类的集成分类器构建方法 |
CN105740651A (zh) * | 2016-03-07 | 2016-07-06 | 吉林大学 | 一种特定癌症差异表达基因调控网络的构建方法 |
CN106202969A (zh) * | 2016-08-01 | 2016-12-07 | 东北大学 | 一种肿瘤分子分型预测系统 |
CN106295246A (zh) * | 2016-08-07 | 2017-01-04 | 吉林大学 | 找到与肿瘤相关的lncRNA并预测其功能 |
CN106446603A (zh) * | 2016-09-29 | 2017-02-22 | 福州大学 | 基于改进pso算法的基因表达数据聚类方法 |
-
2017
- 2017-07-20 CN CN201710596384.1A patent/CN107368707B/zh not_active Expired - Fee Related
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143559A1 (en) * | 2003-01-17 | 2004-07-22 | Ayala Francisco J. | System and method for developing artificial intelligence |
CN101236209A (zh) * | 2007-09-03 | 2008-08-06 | 博奥生物有限公司 | 基于生物芯片检测核酸结合蛋白-靶标蛋白之间是否存在相互作用的方法 |
CN101538579A (zh) * | 2008-03-19 | 2009-09-23 | 百奥生物技术(南通)有限公司 | 一种构建和生产限制性内切酶Ecop15I的方法 |
CN101322716A (zh) * | 2008-07-30 | 2008-12-17 | 武汉大学 | 花色苷及对chop基因的调控在防治动脉粥样硬化中的应用 |
CN101358946A (zh) * | 2008-09-08 | 2009-02-04 | 天津大学 | 阴离子聚合物接枝涂层毛细管及用于蛋白质在线富集分析方法 |
CN102184349A (zh) * | 2011-04-29 | 2011-09-14 | 河海大学 | 基于流形学习的基因表达数据的聚类系统及方法 |
CN103186717A (zh) * | 2013-01-18 | 2013-07-03 | 中国科学院合肥物质科学研究院 | 一种基于启发式宽度优先搜索肿瘤相关基因的方法 |
CN103164631A (zh) * | 2013-04-16 | 2013-06-19 | 东华大学 | 一种智能协同表达基因分析仪 |
CN103699812A (zh) * | 2013-11-29 | 2014-04-02 | 北京市农林科学院 | 基于遗传算法的植物品种真实性鉴定位点筛选方法 |
US20150193578A1 (en) * | 2014-01-07 | 2015-07-09 | The Regents Of The University Of Michigan | Systems and methods for genomic variant analysis |
CN104200134A (zh) * | 2014-08-30 | 2014-12-10 | 北京工业大学 | 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法 |
CN104573004A (zh) * | 2015-01-06 | 2015-04-29 | 华南理工大学 | 一种基于双阶遗传计算的基因表达数据的双聚类算法 |
CN105550715A (zh) * | 2016-01-22 | 2016-05-04 | 大连理工大学 | 一种基于近邻传播聚类的集成分类器构建方法 |
CN105740651A (zh) * | 2016-03-07 | 2016-07-06 | 吉林大学 | 一种特定癌症差异表达基因调控网络的构建方法 |
CN106202969A (zh) * | 2016-08-01 | 2016-12-07 | 东北大学 | 一种肿瘤分子分型预测系统 |
CN106295246A (zh) * | 2016-08-07 | 2017-01-04 | 吉林大学 | 找到与肿瘤相关的lncRNA并预测其功能 |
CN106446603A (zh) * | 2016-09-29 | 2017-02-22 | 福州大学 | 基于改进pso算法的基因表达数据聚类方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804878A (zh) * | 2018-06-16 | 2018-11-13 | 志诺维思(北京)基因科技有限公司 | 一种染色模拟方法及装置 |
CN108804878B (zh) * | 2018-06-16 | 2020-08-11 | 志诺维思(北京)基因科技有限公司 | 一种染色模拟方法及装置 |
CN108920900A (zh) * | 2018-06-21 | 2018-11-30 | 福州大学 | 基因表达谱数据的无监督极限学习机特征提取系统及方法 |
CN109215738A (zh) * | 2018-10-12 | 2019-01-15 | 中南大学 | 阿尔茨海默症相关基因的预测方法 |
CN109215738B (zh) * | 2018-10-12 | 2020-04-28 | 中南大学 | 阿尔茨海默症相关基因的预测方法 |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
CN110222745B (zh) * | 2019-05-24 | 2021-04-30 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
CN114333994A (zh) * | 2020-09-30 | 2022-04-12 | 天津现代创新中药科技有限公司 | 基于无参转录组测序来确定差异基因通路的方法及系统 |
CN114333994B (zh) * | 2020-09-30 | 2023-07-07 | 天津现代创新中药科技有限公司 | 基于无参转录组测序来确定差异基因通路的方法及系统 |
CN115881218A (zh) * | 2022-12-15 | 2023-03-31 | 哈尔滨星云医学检验所有限公司 | 用于全基因组关联分析的基因自动选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107368707B (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368707A (zh) | 基于us‑elm的基因芯片表达数据分析系统及方法 | |
CN106779084B (zh) | 机器学习系统及方法 | |
CN107391963A (zh) | 基于计算云平台的真核无参转录组交互分析系统及其方法 | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN108764072A (zh) | 一种基于多尺度融合的血细胞亚型图像分类方法 | |
US20180165413A1 (en) | Gene expression data classification method and classification system | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
JP2024524795A (ja) | グラフニューラルネットワークに基づく遺伝子表現型予測 | |
CN104966106B (zh) | 一种基于支持向量机的生物年龄分步预测方法 | |
CN112270958A (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
CN111785326B (zh) | 基于生成对抗网络的药物作用后基因表达谱预测方法 | |
Suo et al. | Application of clustering analysis in brain gene data based on deep learning | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN110110753A (zh) | 基于精英花授粉算法和ReliefF的有效混合特征选择方法 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
CN116259109A (zh) | 基于生成式自监督学习和对比学习的人体行为识别方法 | |
CN103164631A (zh) | 一种智能协同表达基因分析仪 | |
CN117423391A (zh) | 一种基因调控网络数据库的建立方法、系统及设备 | |
CN109409522B (zh) | 一种基于集成学习的生物网络推理算法 | |
CN115691680A (zh) | 基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用 | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN109376652A (zh) | 基于人工免疫粒子群聚类算法的特高压并联电抗器故障诊断方法、装置及系统 | |
Mackenzie | Machine learning and genomic dimensionality | |
Yu et al. | Predicting phenotypes from high-dimensional genomes using gradient boosting decision trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200710 |