CN111816247B - 一种基于双向校正的差异表达基因识别方法 - Google Patents
一种基于双向校正的差异表达基因识别方法 Download PDFInfo
- Publication number
- CN111816247B CN111816247B CN202010695248.XA CN202010695248A CN111816247B CN 111816247 B CN111816247 B CN 111816247B CN 202010695248 A CN202010695248 A CN 202010695248A CN 111816247 B CN111816247 B CN 111816247B
- Authority
- CN
- China
- Prior art keywords
- gene
- genes
- pathway
- sequence
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于双向校正的差异表达基因识别方法,将统计检验与生物功能信息相结合,首先使用现有差异表达基因识别方法得到基因表达数据集中每个基因的差异分值,使用差异分值大即置信度较高的一些基因作为初始基因序列,对这些基因进行功能富集分析完成第一次功能校正,其次从富集通路中通过增加重要的基因以及删除不重要的基因以完成反向校正,多次迭代之后,最终识别出差异表达基因序列。该方法引入生物通路信息将差异表达基因的功能最大化,通过双向校正的思想,最终得到了一些功能关系非常紧密的基因,且它们的真阳性都较高,从而为基因表达数据研究提供了新思路。
Description
技术领域
本发明属于生物信息领域,具体涉及一种差异表达基因识别方法。
背景技术
高通量实验使得评估生物学样本中数千种基因的表达水平成为可能。通过分析表达数据,人们可以获得大量有用的信息来解释细胞系统的机制。其中最基本的步骤之一是在两种生物学实验条件下检测差异表达基因(DEG),而DEG的鉴定有助于我们研究与疾病相关的细胞特异性基因表达模式。目前,有大量的方法用于识别差异表达基因。其中有两大类较为成熟的识别差异表达基因的方法,一类是基于差异倍数(fold change)的统计学方法,另一类是基于生物功能信息提出的识别差异表达基因的方法。
第一类方法主要是基于差异倍数,最早的差异倍数方法通过计算测试组与控制组之间基因平均表达值的倍数变化,根据经验设置倍数变化的阈值以选取差异表达基因。这种方法虽然简单易算,但并未对基因的表达差异情况经过统计学的检验,其次差异表达倍数受极端值的影响较大,因此通过差异倍数方法识别出的基因其假阳性率较高。之后涌现出大量其它基于差异倍数的方法对此进行优化,文献“Linear models and empiricalbayes methods for assessing differential mir-483-5p identified as predictorsof poor prognosis in adrenocortical cancer.Clin.Cancer Res.15,7684–7692(2004)”提出了一种经验贝叶斯与线性模型结合的方法,从统计学角度计算出每个基因在两种实验条件下表达值变化的情况,并对结果进行了统计检验,给出了正确率较高的结果。这种方法从表达数据角度引入了统计检验思想,对单个基因的表达差异情况进行了数值计算与校正,但并未考虑到在生物组织中基因之间是相互依赖的关系,从而也导致了结果的假阳性率很高,即方法识别出的一些差异表达基因,在本套研究数据上其实并不是真实差异表达的。
另一类方法是从生物角度出发,意在将更多的生物意义考虑在内,从而提高差异表达基因的真阳性率。文献“Identifying differentially expressed genes based ondifferentially expressed edges.In:Intelligent Computing Theories andApplication.ICIC2019.Lecture Notes in Computer Science,vol.11644(2019)”将生物中的蛋白质相互作用关系(PPI)考虑进去,将基因的表达量使用算法转化为PPI网络中的边的表达量,最终通过计算边的差异来判断两端的基因是否差异表达。这种观点的基本思想是若一条边为差异边,那么该条边两端的基因即为差异表达基因。这种方法虽然将基因之间的关系考虑进去,但是在衡量其边的表达量时还是根据单个基因的表达量来判断,因此它忽略了一些高表达基因对应的邻居,而这些表达量很高的基因可能在生物功能中发挥着重要作用。
发明内容
为了克服现有技术的不足,本发明提出了一种基于双向校正的差异表达基因识别方法,将统计检验与生物功能信息相结合,首先使用现有差异表达基因识别方法得到基因表达数据集中每个基因的差异分值,使用差异分值大即置信度较高的一些基因作为初始基因序列,对这些基因进行功能富集分析完成第一次功能校正,其次从富集通路中通过增加重要的基因以及删除不重要的基因以完成反向校正,多次迭代之后,最终识别出差异表达基因序列。该方法引入生物通路信息将差异表达基因的功能最大化,通过双向校正的思想,最终得到了一些功能关系非常紧密的基因,且它们的真阳性都较高,从而为基因表达数据研究提供了新思路。
为达到上述目的,本发明提出了一种基于双向校正的差异表达基因识别方法,包括以下步骤:
步骤1:选择一个物种,从基因数据库中获取该物种实验数据,包括基因表达数据、通路数据两类实例数据,分别组成基因表达数据集和通路数据集;
步骤2:使用差异表达基因识别方法获取步骤1中得到的基因表达数据集中每个基因的差异分值,按照差异分值从大到小对基因进行排序,取前n个基因作为初始基因序列G-i1,i=1,表示迭代次数;设置中间基因序列序号j=1;
步骤3:使用通路富集方法对基因序列G-i1进行通路富集,将得到的通路序列记作P-i,将基因序列G-i1中包含P-i的基因取出作为集合Spi;将步骤1中得到的通路数据集中包含P-i的基因取出作为集合Sri;
步骤4:计算扩增基因集合S:
S=f*(|Sri|\|Spi|)
式中,|Spi|、|Sri|分别表示对集合Spi和集合Sri中的基因按照差异分值从大到小进行排序后的结果,|Sri|\|Spi|表示集合Sri和集合Spi之间的差集,参数f是控制基因序列G-i1扩展规模的扩增因子,f∈(0,1);
步骤5:定义中间基因序列:G-j1=Spi∪S;
令i加1;
G-i1=G-j1;
步骤6:当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值小于预设阈值时,令j加1,转到步骤3;
否则,当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值大于等于预设阈值时,完成计算过程,输出基因序列G-i1;
步骤7:基因序列G-i1中的基因即为最终识别的差异表达基因序列。
优选地,步骤1中所述的获取通路数据的基因数据库为KEGG。
优选地,步骤2中所述的使用的差异表达基因识别方法为ModT或Min-Edge方法。
优选地,步骤3中所述的通路富集方法为KEGG通路富集方法。
优选地,步骤6中所述的预设阈值为15%。
本发明的有益效果是:由于采用了本发明的一种基于双向校正的差异表达基因识别方法,通过一次功能校正,筛掉部分置信度不高的基因,留下了与功能相关且置信度较高的基因;在反向校正时过滤掉不重要的基因,增加了与功能强相关的重要基因,进而提高了本发明的准确性。本发明通过双向校正的思想,最终得到了一些功能关系非常紧密的基因,且它们的真阳性都较高,从而为基因表达数据研究提供了新思路。
附图说明
图1为本发明基于双向校正的差异表达基因识别方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1,本发明提出了一种基于双向校正的差异表达基因识别方法,包括以下步骤:
步骤1:选择一个物种,从基因数据库中获取该物种实验数据,包括基因表达数据、通路数据两类实例数据,分别组成基因表达数据集和通路数据集;
步骤2:使用差异表达基因识别方法获取步骤1中得到的基因表达数据集中每个基因的差异分值,按照差异分值从大到小对基因进行排序,取前n个基因作为初始基因序列G-i1,i=1,表示迭代次数;设置中间基因序列序号j=1;
步骤3:使用通路富集方法对基因序列G-i1进行通路富集,将得到的通路序列记作P-i,将基因序列G-i1中包含P-i的基因取出作为集合Spi;将步骤1中得到的通路数据集中包含P-i的基因取出作为集合Sri;
步骤4:计算扩增基因集合S:
S=f*(|Sri|\|Spi|)
式中,|Spi|、|Sri|分别表示对集合Spi和集合Sri中的基因按照差异分值从大到小进行排序后的结果,|Sri|\|Spi|表示集合Sri和集合Spi之间的差集,参数f是控制基因序列G-i1扩展规模的扩增因子,f∈(0,1);
步骤5:定义中间基因序列:G-j1=Spi∪S;
令i加1;
G-i1=G-j1;
步骤6:当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值小于预设阈值时,令j加1,转到步骤3;
否则,当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值大于等于预设阈值时,完成计算过程,输出基因序列G-i1;
步骤7:基因序列G-i1中的基因即为最终识别的差异表达基因序列。
优选地,步骤1中所述的获取通路数据的基因数据库为KEGG。
优选地,步骤2中所述的使用的差异表达基因识别方法为ModT或Min-Edge方法。
优选地,步骤3中所述的通路富集方法为KEGG通路富集方法。
优选地,步骤6中所述的预设阈值为15%。
实施例:
1、本实施例选择的物种为果蝇,从GEO和KEGG两个基因数据库中获取实验数据,使用了两类实例数据,包括基因表达数据、通路(pathway)数据。表1给出了相应数据物种及来源。
表1实验数据
2、使用ModT方法应用于所研究的基因表达数据中,对每个基因得到一个差异分值,对这些基因按照差异分值进行从大到小排序,排序越靠前的基因其差异表达的置信度越高。取排序靠前的n个基因作为算法的初始基因序列G-i1。该算法是一个迭代收敛性算法,参数i表示迭代的次数。
3、一次校正。
使用KEGG通路富集方法对基因序列G-i1进行通路富集,将得到的通路序列记作P-i。分析发现G-i1中只有部分基因包含P-i,将这些基因取出来记作集合Spi。将从KEGG数据库获取的通路数据中该物种原本含有P-i的基因取出记作集合Sri,方便后续进行增加删除操作。
4、反向校正。
根据步骤4计算扩增基因集合S,其中参数f是控制G-i1扩展规模的一个扩增因子,它可以帮助减少由一些弱功能相关基因引起的噪音,f∈(0,1),S表示扩增后所得的基因。
5、根据步骤5和步骤6将对应通路中的置信度较高的一些基因识别出来,得到最终的差异表达基因序列,这些基因与P-i紧密关联。
对得到的结果进行分析,最终得到了一些功能关系非常紧密的基因,且它们的真阳性都较高,具有较高的准确性。
Claims (5)
1.一种基于双向校正的差异表达基因识别方法,其特征在于,包括以下步骤:
步骤1:选择一个物种,从基因数据库中获取该物种实验数据,包括基因表达数据、通路数据两类实例数据,分别组成基因表达数据集和通路数据集;
步骤2:使用差异表达基因识别方法获取步骤1中得到的基因表达数据集中每个基因的差异分值,按照差异分值从大到小对基因进行排序,取前n个基因作为初始基因序列G-i1,i=1,表示迭代次数;设置中间基因序列序号j=1;
步骤3:使用通路富集方法对基因序列G-i1进行通路富集,将得到的通路序列记作P-i,将基因序列G-i1中包含P-i的基因取出作为集合Spi;将步骤1中得到的通路数据集中包含P-i的基因取出作为集合Sri;
步骤4:计算扩增基因集合S:
S=f*(|Sri|\|Spi|)
式中,|Spi|、|Sri|分别表示对集合Spi和集合Sri中的基因按照差异分值从大到小进行排序后的结果,|Sri|\|Spi|表示集合Sri和集合Spi之间的差集,参数f是控制基因序列G-i1扩展规模的扩增因子,f∈(0,1);
步骤5:定义中间基因序列:G-j1=Spi∪S;
令i加1;
G-i1=G-j1;
步骤6:当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值小于预设阈值时,令j加1,转到步骤3;
否则,当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值大于等于预设阈值时,完成计算过程,输出基因序列G-i1;
步骤7:基因序列G-i1中的基因即为最终识别的差异表达基因序列。
2.如权利要求1所述的一种基于双向校正的差异表达基因识别方法,其特征在于,步骤1中所述的获取通路数据的基因数据库为KEGG。
3.如权利要求1所述的一种基于双向校正的差异表达基因识别方法,其特征在于,步骤2中所述的使用的差异表达基因识别方法为ModT或Min-Edge方法。
4.如权利要求1所述的一种基于双向校正的差异表达基因识别方法,其特征在于,步骤3中所述的通路富集方法为KEGG通路富集方法。
5.如权利要求1所述的一种基于双向校正的差异表达基因识别方法,其特征在于,步骤6中所述的预设阈值为15%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695248.XA CN111816247B (zh) | 2020-07-19 | 2020-07-19 | 一种基于双向校正的差异表达基因识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695248.XA CN111816247B (zh) | 2020-07-19 | 2020-07-19 | 一种基于双向校正的差异表达基因识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816247A CN111816247A (zh) | 2020-10-23 |
CN111816247B true CN111816247B (zh) | 2022-02-11 |
Family
ID=72865982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010695248.XA Active CN111816247B (zh) | 2020-07-19 | 2020-07-19 | 一种基于双向校正的差异表达基因识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816247B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101250584B (zh) * | 2008-03-19 | 2012-06-13 | 南京大学 | 一种识别显著差异表达基因集合的方法 |
WO2019018441A1 (en) * | 2017-07-17 | 2019-01-24 | Massachusetts Institute Of Technology | ATLAS OF HEAVY AND ILLUMINATED HEAVY BARRIER TISSUE CELLS |
WO2019036823A1 (zh) * | 2017-08-20 | 2019-02-28 | 南开大学 | 用基因的表达水平预测结直肠癌的预后 |
CN108038352B (zh) * | 2017-12-15 | 2021-09-14 | 西安电子科技大学 | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 |
CN109637588B (zh) * | 2018-12-29 | 2022-07-15 | 北京百迈客生物科技有限公司 | 一种基于全转录组高通量测序构建基因调控网络的方法 |
CN109979538B (zh) * | 2019-03-28 | 2021-10-01 | 广州基迪奥生物科技有限公司 | 一种基于10x单细胞转录组测序数据的分析方法 |
CN111394454B (zh) * | 2020-01-06 | 2023-03-14 | 江苏省肿瘤防治研究所(江苏省肿瘤医院) | 一种免疫相关生物标志物及其在头颈部鳞状细胞癌预后诊断中的应用 |
-
2020
- 2020-07-19 CN CN202010695248.XA patent/CN111816247B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111816247A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222745B (zh) | 一种基于相似性学习及其增强的细胞类型鉴定方法 | |
CN108846259A (zh) | 一种基于聚类和随机森林算法的基因分类方法及系统 | |
US20220101944A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN104866863B (zh) | 一种生物标志物筛选方法 | |
CN114093515A (zh) | 一种基于肠道菌群预测模型集成学习的年龄预测方法 | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
CN107463797B (zh) | 高通量测序的生物信息分析方法及装置、设备及存储介质 | |
CN110010204B (zh) | 基于融合网络和多打分策略的预后生物标志物识别方法 | |
CN111816247B (zh) | 一种基于双向校正的差异表达基因识别方法 | |
CN116959585A (zh) | 基于深度学习的全基因组预测方法 | |
Huang et al. | Network-Based Logistic Classification with an Enhanced Solver Reveals Biomarker and Subnetwork Signatures for Diagnosing Lung Cancer | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN111944902A (zh) | 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法 | |
Zhao et al. | Rfe based feature selection improves performance of classifying multiple-causes deaths in colorectal cancer | |
TWI399661B (zh) | 從微陣列資料中分析及篩選疾病相關基因的系統 | |
CN114566215A (zh) | 一种双端成对的剪接位点预测方法 | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
CN111739582B (zh) | 一种基于协同作用网络的生物组学数据分析方法 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN110797083B (zh) | 基于多网络的生物标志物识别方法 | |
CN113096828B (zh) | 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台 | |
CN112885409B (zh) | 一种基于特征选择的结直肠癌蛋白标志物选择系统 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN116779040A (zh) | 一种基于多组学癌症亚型分型的数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |