CN117198401A - 一种基于信息熵的基因表达模式发现系统及方法 - Google Patents
一种基于信息熵的基因表达模式发现系统及方法 Download PDFInfo
- Publication number
- CN117198401A CN117198401A CN202311204385.9A CN202311204385A CN117198401A CN 117198401 A CN117198401 A CN 117198401A CN 202311204385 A CN202311204385 A CN 202311204385A CN 117198401 A CN117198401 A CN 117198401A
- Authority
- CN
- China
- Prior art keywords
- cancer
- gene
- disease
- matrix
- cancers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 164
- 238000000034 method Methods 0.000 title claims abstract description 19
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 245
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 205
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 151
- 201000010099 disease Diseases 0.000 claims abstract description 150
- 201000011510 cancer Diseases 0.000 claims abstract description 146
- 238000001228 spectrum Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 230000004186 co-expression Effects 0.000 claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 241000282414 Homo sapiens Species 0.000 claims abstract description 14
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 121
- 210000001519 tissue Anatomy 0.000 claims description 12
- 230000008827 biological function Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 210000002593 Y chromosome Anatomy 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000002203 pretreatment Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 41
- 206010006187 Breast cancer Diseases 0.000 description 19
- 208000026310 Breast neoplasm Diseases 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 7
- 238000003559 RNA-seq method Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010201 enrichment analysis Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004060 metabolic process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 1
- 235000000177 Indigofera tinctoria Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 101150010487 are gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 229940097275 indigo Drugs 0.000 description 1
- COHYTHOBJLSHDF-UHFFFAOYSA-N indigo powder Natural products N1C2=CC=CC=C2C(=O)C1=C1C(=O)C2=CC=CC=C2N1 COHYTHOBJLSHDF-UHFFFAOYSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于信息熵的基因表达模式发现系统及方法,该系统包括:获取模块,用于获取多种不同癌症的疾病样本和多种不同癌症中z1种癌症的正常样本;每个样本中包含多个不同基因的表达值和每个基因的注释;预处理模块,用于对疾病样本和正常样本分别进行预处理;映射模块,用于对预处理的疾病样本和预处理的正常样本进行批次处理、离群值处理和映射与转换以将表达值映射至可见光上,得到每种癌症的疾病基因表达光谱和z1种癌症中各癌症的正常基因表达光谱;构建模块,用于获取人类不同组织的先验表达数据以构建基因共表达网络;预测模块,用于基于疾病基因表达光谱、正常基因表达光谱和基因共表达网络,预测与每种癌症相关的lncRNA基因。
Description
技术领域
本发明属于基因识别技术领域,具体涉及一种基于信息熵的基因表达模式发现系统及方法。
背景技术
近年来,随着高通量测序的不断发展,人们对lncRNA的认识提升到了一个全新的水平。研究表明lncRNA广泛参与代谢、免疫等生理过程,其表达失调导致了多种疾病的发生和发展,在生命活动中起着重要的作用。目前对lncRNA功能的研究主要依靠生物实验验证的方式,但是这种方式需要花费大量的经费和时间,一定程度上限制了人们对lncRNA的认知。在学科交叉的背景下,计算生物信息学应运而生,解决了传统生物学实验周期长、科研成本高的问题,对深入研究lncRNA有着重要的帮助。因此,通过计算的方法研究lncRNA与疾病之间的关系显得十分重要,对于探索疾病的发病原理以及对疾病的诊断和治疗意义重大。基于传统生物实验对lncRNA的研究具有较大的时间成本和金钱成本,一定程度上限制了人类对lncRNA的认识。因此通过计算手段研究lncRNA与癌症之间的联系可以缩小生物实验的范围,将研究人员的注意集中在那些“更可能”与癌症发生相关的lncRNA上,降低了研究癌症相关lncRNA所需的时间和费用。
目前研究lncRNA与癌症之间的联系的方法主要有两种:第一种是通过机器学习的方法的预测,主要利用lncRNA和疾病的生物学特征对分类器进行训练,从而预测出潜在的lncRNA-disease关联;第二种是通过分析生物网络拓扑特征实现lncRNA关联预测。但是这些方法大多只是简单的利用lncRNA疾病关联数据、PPI网络、基因疾病关联数据、lncRNA-蛋白编码基因关联数据和疾病相似性数据等来预测lncRNA-disease关联,难以发现一些特殊基因的表达模式。
发明内容
为了解决相关技术中存在的上述问题,本发明提供了一种基于信息熵的基因表达模式发现系统及方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供一种基于信息熵的基因表达模式发现系统,包括:
获取模块,用于获取多种不同癌症的疾病样本和所述多种不同癌症中z1种癌症的正常样本;每个样本中包含多个不同基因的表达值和每个基因的注释;所述多个不同基因中包含多种lncRNA;z1为正整数;
预处理模块,用于对所述疾病样本和所述正常样本分别进行预处理;
映射模块,用于对预处理的疾病样本和预处理的正常样本进行批次处理、离群值处理和映射与转换以将所述表达值映射至可见光上,得到每种癌症的疾病基因表达光谱和所述z1种癌症中各癌症的正常基因表达光谱;
构建模块,用于获取人类不同组织的先验表达数据,基于所述先验表达数据构建基因共表达网络;
预测模块,用于基于所述疾病基因表达光谱、所述正常基因表达光谱和所述基因共表达网络,预测与每种癌症相关的lncRNA。
本发明还提供一种基于信息熵的基因表达模式发现方法,包括:
获取多种不同癌症的疾病样本和所述多种不同癌症中z1种癌症的正常样本;每个样本中包含多个不同基因的表达值和不同基因的注释;所述多个不同基因中包含多种lncRNA;z1为正整数;
对所述疾病样本和所述正常样本分别进行预处理;
对预处理的疾病样本和预处理的正常样本进行批次处理、离群值处理和映射与转换以将所述表达值映射至可见光上,得到每种癌症的疾病基因表达光谱和所述z1种癌症中各癌症的正常基因表达光谱;
获取人类不同组织的先验表达数据,基于所述先验表达数据构建基因共表达网络;
基于所述疾病基因表达光谱、所述正常基因表达光谱和所述基因共表达网络,预测与每种癌症相关的lncRNA。
本发明具有如下有益技术效果:
1)本发明依靠计算机高性能计算的特点,通过将基因表达数据转换映射为可见光上,为lncRNA疾病关联提出了一种全新的分析模式。
2)本发明将连续的基因表达值映射到了可见光上,实现了对连续基因表达数据的离散化和粗粒化,构建了基因表达光谱,基于对构建的基因表达光谱中的基因的计算与分析,发现了包括癌症关联基因在内的相关基因表达模式,为从生物过程角度研究癌症的发生提供了方法。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1为本发明实施例提供的基于信息熵的基因表达模式发现系统的一个结构框图;
图2为本发明实施例提供的基于信息熵的基因表达模式发现方法的一个流程图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本发明旨在筛选与癌症相关的lncRNA(长链非编码RNA)。与癌症诊断不同,该本发明的目标是发现特定lncRNA与癌症发展和进展之间的关联性。通过识别这些lncRNA,我们可以更好地理解癌症的分子机制,以进一步地为癌症治疗提供新的靶点和策略。本发明并不涉及任何与癌症诊断相关的技术或方法。相反,它专注于筛选与癌症相关的lncRNA,以期为癌症研究领域的进展做出贡献。
图1是本发明实施例提供的基于信息熵的基因表达模式发现系统的一个结构框图,如图1所示,该系统包括:获取模块10、预处理模块20、映射模块30、构建模块40和预测模块50。
获取模块10,用于获取多种不同癌症的疾病样本和多种不同癌症中z1种癌症的正常样本;每个样本中包含多个不同基因的表达值和每个基因的注释;多个不同基因中包含多种lncRNA;z1为正整数。
具体的,获取模块10用于获取多种不同癌症的原始疾病样本,并当多种不同癌症中z1种癌症具有原始正常样本时,获取z1种癌症中各癌症的原始正常样本;从基因注释数据库中下载基因注释文件,并分别对原始疾病样本和原始正常样本中的基因进行注释,得到疾病样本和正常样本;每个样本中包含n个基因中各个基因的表达值;每种癌症具有m1个疾病样本,不同癌症对应的m1的数值不同;z1种癌症中各癌症具有m2个正常样本,不同癌症对应的m2的数值不同。例如,可以从TCGA数据库下载33种癌症的疾病RNA-seq数据和临床数据,并当10种癌症对应有正常RNA-seq数据时,下载这10中癌症的正常RNA-seq数据,其中,一种癌症对应一组疾病RNA-seq数据,且一组疾病RNA-seq数据对应m1个疾病样本,每个疾病样本中包含临床信息,并且,一个样本的临床信息包含该样本对应的临床数据(即该样本对应的患者的信息)和该样本的批次信息,或者仅包含该样本的批次信息;以及一组正常RNA-seq数据对应m2个正常样本,每个疾病样本或正常样本中共包含60483个基因。从Gencode数据库中下载基因注释文件,根据基因注释文件对每个样本中的基因进行注释。
需要说明的是,对应了相同的临床数据但属于不同批次信息的样本是在不同的分析环境(例如,采用不同的实验采用和/或不同的实验时间,不同的实验室环境等)中对同一患者的同一人体组织进行分析得到的。
预处理模块20,用于对疾病样本和正常样本分别进行预处理。
具体的,预处理模块20用于根据每种癌症的疾病样本、每个样本中包含的基因的表达值,以及基因的注释,构建该癌症的n行m1列的疾病样本矩阵,并当该癌症具有正常样本时,构建该癌症的n行m2列的正常样本矩阵;将该癌症的疾病样本矩阵中在A%的样本中的表达值为0的基因删除,以及根据注释删除该癌症的疾病样本矩阵中在Y染色体上重复的基因,得到该癌症的数值删除后的疾病样本矩阵;当该癌症具有正常样本矩阵时,将该癌症的正常样本矩阵中在A%的样本中的表达值为0的基因删除,以及根据注释删除该癌症的正常样本矩阵中在Y染色体上重复的基因,得到该癌症的数值删除后的正常样本矩阵;A为大于80的正整数;当该癌症的数值删除后的疾病样本矩阵和数值删除后的正常样本矩阵的数据形式为Counts数据时,将该癌症的数值删除后的疾病样本矩阵和数值删除后的正常样本矩阵的数据形式标准化为FPKM数据;对FPKM数据进行对数化处理以使矩阵符合正态分布,得到该癌症的预处理疾病矩阵和该癌症的预处理正常矩阵。例如,对于上述33种癌症中的每种癌症,将该癌症的m1个疾病样本用矩阵表示,则可以得到该癌症的一个60483行m1列的矩阵,之后,将该60483行m1列的矩阵中在90%(例如,A=90)样本中不表达的基因删除,以及将该60483行m1列的矩阵中在Gencode基因注释文件中在Y染色体上重复的基因删除,当删除了部分基因后的矩阵的数据形式为Counts数据时,将矩阵的数据形式标准化为FPKM数据以去除测序数据的技术偏差,消除测序深度和基因长度对数据带来的影响,之后,对FPKM数据进行对数化处理,将FPKM数据的表达数值变为Log2(FPKM+1)以使该矩阵符合正态分布,如此,便得到了该矩阵的预处理疾病矩阵。对于上述33种癌症中的每种癌症,当该癌症具有m2个正常样本时,可以将该癌症的m2个正常样本用矩阵表示,则可以得到该癌症的一个60483行m2列的矩阵,之后,对该矩阵采用上述相同的处理原理进行预处理,得到该癌症的预处理正常矩阵。这里,FPKM数据的表达式为:其中,N表示矩阵中的基因的数量,Cg表示比对到基因g上的reads数,Lg表示基因g的所有外显子的长度之和。
映射模块30,用于对预处理的疾病样本和预处理的正常样本进行批次处理、离群值处理和映射与转换以将表达值映射至可见光上,得到每种癌症的疾病基因表达光谱和z1种癌症中各癌症的正常基因表达光谱。
具体的,每种癌症的预处理的疾病样本为一个n1行m1列的预处理疾病矩阵,z1种癌症中各癌症的预处理的正常样本为一个n2行m1列的预处理正常矩阵;n、m1和m2均为正整数,n1和n2小于或等于n。映射模块30具体用于对每种癌症的预处理疾病矩阵进行批次处理、离群值处理和表达值的映射与转换,得到该癌症的一个疾病基因表达光谱;当该癌症具有预处理正常矩阵时,对预处理正常矩阵进行批次处理、离群值处理和表达值的映射与转换,得到该癌症的一个正常基因表达光谱。
具体的,上述多种癌症中z2种癌症中各癌症的m1个样本中,具有来自不同批次但属于同一人体组织的样本;z2为正整数;基于此,对每种癌症的预处理疾病矩阵进行批次处理、离群值处理和表达值的映射与转换,得到该癌症的一个疾病基因表达光谱的原理为:将z2种癌症中各癌症的预处理疾病矩阵中,不包含临床数据的样本删除,得到z2种癌症中各癌症的有效疾病矩阵;采用ComBat方法对z2种癌症中各癌症的有效疾病矩阵进行批次处理,得到z2种癌症中各癌症的校正疾病矩阵;根据z2种癌症中各癌症的校正疾病矩阵,以及多种不同癌症中除z2种癌症之外的每种癌症的预处理疾病矩阵,分别确定z2种癌症中各癌症的正、负离群值,以及多种不同癌症中除z2种癌症之外的每种癌症的正、负离群值;根据对应的正、负离群值,相应删除z2种癌症中各癌症的校正疾病矩阵和多种不同癌症中除z2种癌症之外的每种癌症的预处理疾病矩阵中处于正、负离群值构成的区间之外的表达值,得到z2种癌症中每种癌症的合理疾病矩阵,以及多种不同癌症中除z2种癌症之外的每种癌症的合理疾病矩阵;采用预设映射与转换公式将每种癌症的一个合理疾病矩阵映射至多种可见光上,得到每种癌症的一个疾病基因表达光谱。需要说明的是,当每个样本的批次信息较长时,为了方便后续的计算,可以根据样本的批次信息的先后顺序为样本重新编号;而当样本的批次信息较短时,不用重新编号。
例如,当上述33种癌症中有25种癌症的疾病样本来自不同批次时,将这25种癌症中各癌症的预处理疾病矩阵中,不包含临床数据的样本删除,得到这25种癌症中各癌症的有效疾病矩阵,之后,采用ComBat方法对这25种癌症中各癌症的有效疾病矩阵进行批次处理,得到对这25种癌症中各癌症的校正疾病矩阵,之后,对这25种癌症的校正疾病矩阵中的表达值进行观测,以及对上述33种癌症中除这25种癌症之外的8种癌症的预处理疾病矩阵进行观测,分别将这25种癌症的校正疾病矩阵的负离群值设置为0.0001,正离群值设置为0.9999,以及将这8种癌症的预处理疾病矩阵的负离群值设置为0.0001,正离群值设置为0.9995;之后,将删除这25种癌症中各癌症的校正疾病矩阵中处于[0.0001,0.9999]区间之外的表达值,得到这25种癌症中各癌症的合理疾病矩阵,以及删除这8种癌症中各癌症的预处理疾病矩阵中处于[0,0.9995]区间之外的表达值,得到这8种癌症中各癌症的合理疾病矩阵;最后,对于每种癌症的一个合理疾病矩阵,采用公式WL=将该合理疾病矩阵映射至7种可见光上,并采用1~7为这7种可见光编码,便得到该癌症的一个颜色矩阵,该颜色矩阵即为该癌症的一个疾病基因表达光谱,其中,E表示该合理疾病矩阵中的每个表达值,Emax表示E所在的合理疾病矩阵中的最大表达值,Emin表示E所在的合理疾病矩阵中的最小表达值,WL表示E的映射后的波长,780和380分别表示可见光的最大波长和最小波长。红色光波长范围为620nm~780nm,橙色光波长范围为590nm~620nm,黄色光波长范围为560nm~590nm,绿色光波长范围为490nm~560nm,蓝色光波长范围为450nm~490nm,靛色光波长范围为420nm~450nm,紫色光波长范围为380nm~420nm。
需要说明的是,对每种癌症的预处理疾病矩阵进行批次处理、离群值处理和表达值的映射与转换,得到该癌症的一个疾病基因表达光谱的原理与对每种癌症的预处理正常矩阵进行批次处理、离群值处理和表达值的映射与转换,得到该癌症的一个正常基因表达光谱的原理相同。
构建模块40,用于获取人类不同组织的先验表达数据,基于先验表达数据构建基因共表达网络。
具体的,构建模块40用于构建q行p列的矩阵;对q行p列的矩阵进行预处理,得到预处理矩阵;计算预处理矩阵中所有基因的表达值的皮尔森相关性系数;对于预处理矩阵中的所有基因,当两个不同基因的表达值之间的皮尔森相关性系数大于或等于预设阈值时,表明这两个不同基因之间有关联,将这两个不同基因作为基因共表达网络中的两个节点,并采用连线将这两个节点连接,得到基因共表达网络中的一条连边,在遍历完预处理矩阵中的所有基因后,得到包含了多个节点和多条连边的一个基因共表达网络。例如,可以从GTEx数据库中获得的人类不同组织的11688个样本,每个样本包含共56202个基因,从而可以构建出一个56202行11688列的矩阵,之后,将56202行11688列的矩阵中至少在80%样本中表达值为0或恒定值的基因删除,得到了34923行11688列的矩阵;之后,采用公式 计算34923行11688列的矩阵中每两个不同基因之间的皮尔森相关性系数,其中,X表示两个不同基因中的一个基因,σX表示X所在的行的标准差,Y表示两个不同基因中的另一个基因,σY表示Y所在的行的标准差,PX,Y表示X与Y之间的皮尔森相关性系数;当阈值取0.74的时候,基因共表达网络和随机网络之间的聚集系数之差最大,因此选择0.74作为阈值,当34923行11688列的矩阵中有两个不同基因的表达值之间的PX,Y大于或等于0.74时,表明这两个不同基因之间有关联,将这两个不同基因作为基因共表达网络中的两个节点,并采用连线将这两个节点连接,得到基因共表达网络中的一条连边,在遍历完34923行11688列的矩阵中的所有基因后,便得到包含由20419个基因节点和5383167条基因连边组成的一个基因共表达网络,且这20419个基因中有2932个lncRNA。
预测模块50,用于基于疾病基因表达光谱、正常基因表达光谱和基因共表达网络,预测与每种癌症相关的lncRNA。
具体的,预测模块50用于对于每种癌症的疾病基因表达光谱,计算疾病基因表达光谱中每个基因的信息熵,并当该癌症具有正常基因表达光谱时,计算正常基因表达光谱中每个基因的信息熵;当该癌症具有疾病基因表达光谱和正常基因表达光谱时,根据该癌症的基因分布先验特征,分别从疾病基因表达光谱和正常基因表达光谱中筛选出多个基因,并对选出的基因取交集,将从疾病基因表达光谱中筛选出的多个基因中属于交集中的基因去除,得到该癌症的剩余基因;或者,当该癌症不具有正常基因表达光谱时,将从疾病基因表达光谱中筛选出的多个基因,作为该癌症的剩余基因;从基因共表达网络中寻找包含该癌症的剩余基因的子网络;对该子网络进行挖掘,得到该子网络的多个基因块;每个基因块的中心节点为所属的基因块的hub基因;分析该癌症的每个基因块的生物功能,并从该基因块中寻找与该基因块的hub基因有关联的lncRNA;根据先验知识确定该基因块的生物功能与该癌症的相关性,根据相关性预测与该基因块的hub基因有关联的lncRNA与该癌症的相关性。具体的,预测模块50用于对于每种癌症的每个基因块,当该基因块的生物功能与该癌症相关时,则将与该基因块的hub基因有关联的lncRNA,作为与该癌症相关的lncRNA。
例如,以乳腺癌为例对预测模块的具体功能进行说明,乳腺癌所有基因的分布近似于幂律分布,呈现出“头重脚轻”的特点,大部分基因的信息熵小于1,因此根据二八定律,从乳腺癌的疾病基因表达光谱中筛选出信息熵排名前百分之二十的基因,作为一组信息熵较大的基因,并当乳腺癌具有正常基因表达光谱时,从乳腺癌的正常基因表达光谱中筛选出信息熵排名前百分之二十的基因,作为另一组信息熵较大的基因,之后,将这两组信息熵较大的基因取交集,并将从乳腺癌的疾病基因表达光谱中筛选出的信息熵排名前百分之二十的基因中属于该交集的基因去除,得到乳腺癌的剩余基因(需要说明的是,当乳腺癌没有正常基因表达光谱时,将从乳腺癌的疾病基因表达光谱中筛选出的信息熵排名前百分之二十的基因,作为乳腺癌的剩余基因),乳腺癌的剩余基因共2784个基因;之后,从上述的由20419个基因节点和5383167条基因连边组成的一个基因共表达网络中,找到包含这2784个基因的子网络,发现该子网络由1253个基因节点和13958条基因连边组成,且这1253个基因节点中包含77个lncRNA;之后,采用基于模块度的CNM社团检测算法对该子网络进行挖掘,得到乳腺癌的多个基因块,且这多个基因块是该子网络中结构很紧密的基因块,每个基因块的中心节点称为所属的基因块的hub基因,对于乳腺癌的每个基因块进行GO功能富集分析和KEGG通路富集分析,得到乳腺癌的该基因块的生物功能(例如,是否参与代谢,等等),并从该基因块中寻找与该基因块的hub基因有基因连边的lncRNA,之后,根据已有数据库和已有文献记载确定该基因块的生物功能是否与乳腺癌相关,当该基因块的生物功能与乳腺癌相关时,则与该基因块的hub基因有基因连边的lncRNA为与乳腺癌相关的lncRNA,当该基因块的生物功能与乳腺癌不相关时,则与该基因块的hub基因有基因连边的lncRNA为与乳腺癌无关的lncRNA。
本发明还提供一种基于信息熵的基因表达模式发现方法,该方法用于执行与上述基于信息熵的基因表达模式发现系统对应的方法的内容。示例性的,如图2所示,该基于信息熵的基因表达模式发现方法包括:
S101、获取多种不同癌症的疾病样本和多种不同癌症中z1种癌症的正常样本;每个样本中包含多个不同基因的表达值和不同基因的注释;多个不同基因中包含多种lncRNA;z1为正整数。
S102、对疾病样本和正常样本分别进行预处理。
S103、对预处理的疾病样本和预处理的正常样本进行批次处理、离群值处理和映射与转换以将表达值映射至可见光上,得到每种癌症的疾病基因表达光谱和z1种癌症中各癌症的正常基因表达光谱。
S104、获取人类不同组织的先验表达数据,基于先验表达数据构建基因共表达网络。
S105、基于疾病基因表达光谱、正常基因表达光谱和基因共表达网络,预测与每种癌症相关的lncRNA。
本发明提供的一种基于信息熵的基因表达模式发现方法,依靠计算机高性能计算的特点,通过将连续的基因表达值通过尺度变换映射到了7种可见光上,实现了对连续基因表达数据的离散化和粗粒化,构建了基因表达光谱。通过对基因表达光谱中基因信息熵的计算与分析,发现了包括癌症关联基因在内的相关基因表达模式。本发明为lncRNA疾病关联提出了一种全新的分析模式,降低了研究癌症相关lncRNA所需的时间和费用。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于信息熵的基因表达模式发现系统,其特征在于,包括:
获取模块,用于获取多种不同癌症的疾病样本和所述多种不同癌症中z1种癌症的正常样本;每个样本中包含多个不同基因的表达值和每个基因的注释;所述多个不同基因中包含多种lncRNA;z1为正整数;
预处理模块,用于对所述疾病样本和所述正常样本分别进行预处理;
映射模块,用于对预处理的疾病样本和预处理的正常样本进行批次处理、离群值处理和映射与转换以将所述表达值映射至可见光上,得到每种癌症的疾病基因表达光谱和所述z1种癌症中各癌症的正常基因表达光谱;
构建模块,用于获取人类不同组织的先验表达数据,基于所述先验表达数据构建基因共表达网络;
预测模块,用于基于所述疾病基因表达光谱、所述正常基因表达光谱和所述基因共表达网络,预测与每种癌症相关的lncRNA。
2.根据权利要求1所述的基于信息熵的基因表达模式发现系统,其特征在于,每个样本中包含n个基因中各个基因的表达值;每种癌症具有m1个疾病样本;所述z1种癌症中各癌症具有m2个正常样本;每种癌症的预处理的疾病样本为一个n1行m1列的预处理疾病矩阵,所述z1种癌症中各癌症的预处理的正常样本为一个n2行m1列的预处理正常矩阵;n、m1和m2均为正整数,n1和n2小于或等于n;所述映射模块,还用于:
对每种癌症的所述预处理疾病矩阵进行批次处理、离群值处理和表达值的映射与转换,得到该癌症的一个疾病基因表达光谱;
当该癌症具有所述预处理正常矩阵时,对所述预处理正常矩阵进行批次处理、离群值处理和表达值的映射与转换,得到该癌症的一个正常基因表达光谱。
3.根据权利要求2所述的基于信息熵的基因表达模式发现系统,其特征在于,所述多种癌症中z2种癌症中各癌症的m1个样本中,具有来自不同批次但属于同一人体组织的样本;z2为正整数;所述映射模块,还用于:
将所述z2种癌症中各癌症的所述预处理疾病矩阵中,不包含临床数据的样本删除,得到所述z2种癌症中各癌症的有效疾病矩阵;
采用ComBat方法对所述z2种癌症中各癌症的有效疾病矩阵进行批次处理,得到所述z2种癌症中各癌症的校正疾病矩阵;
根据所述z2种癌症中各癌症的校正疾病矩阵,以及所述多种不同癌症中除所述z2种癌症之外的每种癌症的所述预处理疾病矩阵,分别确定所述z2种癌症中各癌症的正、负离群值,以及所述多种不同癌症中除所述z2种癌症之外的每种癌症的正、负离群值;
根据对应的所述正、负离群值,相应删除所述z2种癌症中各癌症的校正疾病矩阵和所述多种不同癌症中除所述z2种癌症之外的每种癌症的所述预处理疾病矩阵中处于所述正、负离群值构成的区间之外的表达值,得到所述z2种癌症中每种癌症的合理疾病矩阵,以及所述多种不同癌症中除所述z2种癌症之外的每种癌症的合理疾病矩阵;
采用预设映射与转换公式将每种癌症的一个合理疾病矩阵映射至多种可见光上,得到每种癌症的一个疾病基因表达光谱。
4.根据权利要求2所述的基于信息熵的基因表达模式发现系统,其特征在于,所述预设映射与转换公式的表达式为:
其中,E表示每个合理疾病矩阵中的每个表达值,Emax表示E所在的合理疾病矩阵中的最大表达值,Emin表示E所在的合理疾病矩阵中的最小表达值,WL表示E的映射后的波长,780和380分别表示可见光的最大波长和最小波长。
5.根据权利要求1所述的基于信息熵的基因表达模式发现系统,其特征在于,所述人类不同组织的先验表达数据包括:P个不同样本,且P个不同样本中的每个样本包含人类组织的q个基因;所述构建模块,还用于:
构建q行p列的矩阵;
对所述q行p列的矩阵进行预处理,得到预处理矩阵;
计算所述预处理矩阵中所有基因的表达值的皮尔森相关性系数;
对于所述预处理矩阵中的所有基因,当两个不同基因的表达值之间的皮尔森相关性系数大于或等于预设阈值时,表明这两个不同基因之间有关联,将这两个不同基因作为基因共表达网络中的两个节点,并采用连线将这两个节点连接,得到所述基因共表达网络中的一条连边,在遍历完所述预处理矩阵中的所有基因后,得到包含了多个节点和多条连边的一个基因共表达网络。
6.根据权利要求1所述的基于信息熵的基因表达模式发现系统,其特征在于,所述预测模块,还用于:
对于每种癌症的所述疾病基因表达光谱,计算所述疾病基因表达光谱中每个基因的信息熵,并当该癌症具有所述正常基因表达光谱时,计算所述正常基因表达光谱中每个基因的信息熵;
当该癌症具有所述疾病基因表达光谱和所述正常基因表达光谱时,根据该癌症的基因分布先验特征,分别从所述疾病基因表达光谱和所述正常基因表达光谱中筛选出多个基因,并对选出的基因取交集,将从所述疾病基因表达光谱中筛选出的多个基因中属于所述交集中的基因去除,得到该癌症的剩余基因;或者,当该癌症不具有所述正常基因表达光谱时,将从所述疾病基因表达光谱中筛选出的多个基因,作为该癌症的剩余基因;
从所述基因共表达网络中寻找包含该癌症的剩余基因的子网络;
对该子网络进行挖掘,得到该子网络的多个基因块;每个基因块的中心节点为所属的基因块的hub基因;
分析该癌症的每个基因块的生物功能,并从该基因块中寻找与该基因块的hub基因有关联的lncRNA;
根据先验知识确定该基因块的生物功能与该癌症的相关性,根据所述相关性预测与该基因块的hub基因有关联的lncRNA与该癌症的相关性。
7.根据权利要求6所述的基于信息熵的基因表达模式发现系统,其特征在于,所述预测模块,还用于:
对于每种癌症的每个基因块,当该基因块的生物功能与该癌症相关时,则将与该基因块的hub基因有关联的lncRNA,作为与该癌症相关的lncRNA。
8.根据权利要求1所述的基于信息熵的基因表达模式发现系统,其特征在于,所述获取模块,还用于:
获取多种不同癌症的原始疾病样本,并当所述多种不同癌症中z1种癌症具有原始正常样本时,获取所述z1种癌症中各癌症的原始正常样本;
从基因注释数据库中下载基因注释文件,并分别对所述原始疾病样本和所述原始正常样本中的基因进行注释,得到疾病样本和正常样本。
9.根据权利要求2所述的基于信息熵的基因表达模式发现系统,其特征在于,所述预处理模块,还用于:
根据每种癌症的疾病样本、每个样本中包含的基因的表达值,以及基因的注释,构建该癌症的n行m1列的疾病样本矩阵,并当该癌症具有正常样本时,构建该癌症的n行m2列的正常样本矩阵;
将该癌症的所述疾病样本矩阵中在A%的样本中的表达值为0的基因删除,以及根据所述注释删除该癌症的所述疾病样本矩阵中在Y染色体上重复的基因,得到该癌症的数值删除后的疾病样本矩阵;当该癌症具有正常样本矩阵时,将该癌症的所述正常样本矩阵中在A%的样本中的表达值为0的基因删除,以及根据所述注释删除该癌症的所述正常样本矩阵中在Y染色体上重复的基因,得到该癌症的数值删除后的正常样本矩阵;A为大于80的正整数;
当该癌症的数值删除后的疾病样本矩阵和数值删除后的正常样本矩阵的数据形式为Counts数据时,将该癌症的数值删除后的疾病样本矩阵和数值删除后的正常样本矩阵的数据形式标准化为FPKM数据;
对所述FPKM数据进行对数化处理以使矩阵符合正态分布,得到该癌症的预处理疾病矩阵和该癌症的预处理正常矩阵。
10.一种基于信息熵的基因表达模式发现方法,其特征在于,包括:
获取多种不同癌症的疾病样本和所述多种不同癌症中z1种癌症的正常样本;每个样本中包含多个不同基因的表达值和不同基因的注释;所述多个不同基因中包含多种lncRNA;z1为正整数;
对所述疾病样本和所述正常样本分别进行预处理;
对预处理的疾病样本和预处理的正常样本进行批次处理、离群值处理和映射与转换以将所述表达值映射至可见光上,得到每种癌症的疾病基因表达光谱和所述z1种癌症中各癌症的正常基因表达光谱;
获取人类不同组织的先验表达数据,基于所述先验表达数据构建基因共表达网络;
基于所述疾病基因表达光谱、所述正常基因表达光谱和所述基因共表达网络,预测与每种癌症相关的lncRNA。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204385.9A CN117198401A (zh) | 2023-09-18 | 2023-09-18 | 一种基于信息熵的基因表达模式发现系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204385.9A CN117198401A (zh) | 2023-09-18 | 2023-09-18 | 一种基于信息熵的基因表达模式发现系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117198401A true CN117198401A (zh) | 2023-12-08 |
Family
ID=88995887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311204385.9A Pending CN117198401A (zh) | 2023-09-18 | 2023-09-18 | 一种基于信息熵的基因表达模式发现系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117198401A (zh) |
-
2023
- 2023-09-18 CN CN202311204385.9A patent/CN117198401A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021282469B2 (en) | Deep learning-based variant classifier | |
CN115171779B (zh) | 基于图注意力网络和多组学融合的癌症驱动基因预测装置 | |
CN109872772B (zh) | 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法 | |
CN112086129B (zh) | 预测肿瘤组织cfDNA的方法及系统 | |
CN110770838B (zh) | 用于确定体细胞突变克隆性的方法和系统 | |
JP2020525886A (ja) | 深層ニューラルネットワークに基づくバリアント分類器 | |
CN110800063A (zh) | 使用无细胞dna片段大小检测肿瘤相关变体 | |
CN112951327B (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
CN107066835A (zh) | 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用 | |
CN106874706A (zh) | 一种基于功能模块的疾病关联因子识别方法及系统 | |
CN113862351B (zh) | 体液样本中鉴定胞外rna生物标志物的试剂盒及方法 | |
CN112687329B (zh) | 一种基于非癌组织突变信息的癌症预测系统及其构建方法 | |
CN116153420B (zh) | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 | |
CN117198401A (zh) | 一种基于信息熵的基因表达模式发现系统及方法 | |
Deepa et al. | Development of a Fully Automated Image Analysis Method for High Density cDNA and array CGH Microarray Based Genomic Studies | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
CN115116624B (zh) | 基于半监督迁移学习的药物敏感性预测方法和装置 | |
CN111785319A (zh) | 基于差异表达数据的药物重定位方法 | |
Girija et al. | Deep learning for vehement gene expression exploration | |
CN117912570B (zh) | 一种基于基因共表达网络的分类特征确定方法及系统 | |
CN116597902B (zh) | 基于药物敏感性数据的多组学生物标志物筛选方法和装置 | |
CN115116624A (zh) | 基于半监督迁移学习的药物敏感性预测方法和装置 | |
Cheng et al. | Machine learning and related approaches in transcriptomics | |
Parisi | Novel Approaches and Algorithms for the Alignment of Third Generation Sequencing Long-Reads | |
Zhang | Bayesian Integrative Analysis Of Omics Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |