CN111816247B

CN111816247B - 一种基于双向校正的差异表达基因识别方法

Info

Publication number: CN111816247B
Application number: CN202010695248.XA
Authority: CN
Inventors: 陈伯林; 高莉; 杨曼婷; 尚学群
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-07-19
Filing date: 2020-07-19
Publication date: 2022-02-11
Anticipated expiration: 2040-07-19
Also published as: CN111816247A

Abstract

本发明公开了一种基于双向校正的差异表达基因识别方法，将统计检验与生物功能信息相结合，首先使用现有差异表达基因识别方法得到基因表达数据集中每个基因的差异分值，使用差异分值大即置信度较高的一些基因作为初始基因序列，对这些基因进行功能富集分析完成第一次功能校正，其次从富集通路中通过增加重要的基因以及删除不重要的基因以完成反向校正，多次迭代之后，最终识别出差异表达基因序列。该方法引入生物通路信息将差异表达基因的功能最大化，通过双向校正的思想，最终得到了一些功能关系非常紧密的基因，且它们的真阳性都较高，从而为基因表达数据研究提供了新思路。

Description

一种基于双向校正的差异表达基因识别方法

技术领域

本发明属于生物信息领域，具体涉及一种差异表达基因识别方法。

背景技术

高通量实验使得评估生物学样本中数千种基因的表达水平成为可能。通过分析表达数据，人们可以获得大量有用的信息来解释细胞系统的机制。其中最基本的步骤之一是在两种生物学实验条件下检测差异表达基因(DEG)，而DEG的鉴定有助于我们研究与疾病相关的细胞特异性基因表达模式。目前，有大量的方法用于识别差异表达基因。其中有两大类较为成熟的识别差异表达基因的方法，一类是基于差异倍数(fold change)的统计学方法，另一类是基于生物功能信息提出的识别差异表达基因的方法。

第一类方法主要是基于差异倍数，最早的差异倍数方法通过计算测试组与控制组之间基因平均表达值的倍数变化，根据经验设置倍数变化的阈值以选取差异表达基因。这种方法虽然简单易算，但并未对基因的表达差异情况经过统计学的检验，其次差异表达倍数受极端值的影响较大，因此通过差异倍数方法识别出的基因其假阳性率较高。之后涌现出大量其它基于差异倍数的方法对此进行优化，文献“Linear models and empiricalbayes methods for assessing differential mir-483-5p identified as predictorsof poor prognosis in adrenocortical cancer.Clin.Cancer Res.15,7684–7692(2004)”提出了一种经验贝叶斯与线性模型结合的方法，从统计学角度计算出每个基因在两种实验条件下表达值变化的情况，并对结果进行了统计检验，给出了正确率较高的结果。这种方法从表达数据角度引入了统计检验思想，对单个基因的表达差异情况进行了数值计算与校正，但并未考虑到在生物组织中基因之间是相互依赖的关系，从而也导致了结果的假阳性率很高，即方法识别出的一些差异表达基因，在本套研究数据上其实并不是真实差异表达的。

另一类方法是从生物角度出发，意在将更多的生物意义考虑在内，从而提高差异表达基因的真阳性率。文献“Identifying differentially expressed genes based ondifferentially expressed edges.In:Intelligent Computing Theories andApplication.ICIC2019.Lecture Notes in Computer Science,vol.11644(2019)”将生物中的蛋白质相互作用关系(PPI)考虑进去，将基因的表达量使用算法转化为PPI网络中的边的表达量，最终通过计算边的差异来判断两端的基因是否差异表达。这种观点的基本思想是若一条边为差异边，那么该条边两端的基因即为差异表达基因。这种方法虽然将基因之间的关系考虑进去，但是在衡量其边的表达量时还是根据单个基因的表达量来判断，因此它忽略了一些高表达基因对应的邻居，而这些表达量很高的基因可能在生物功能中发挥着重要作用。

发明内容

为了克服现有技术的不足，本发明提出了一种基于双向校正的差异表达基因识别方法，将统计检验与生物功能信息相结合，首先使用现有差异表达基因识别方法得到基因表达数据集中每个基因的差异分值，使用差异分值大即置信度较高的一些基因作为初始基因序列，对这些基因进行功能富集分析完成第一次功能校正，其次从富集通路中通过增加重要的基因以及删除不重要的基因以完成反向校正，多次迭代之后，最终识别出差异表达基因序列。该方法引入生物通路信息将差异表达基因的功能最大化，通过双向校正的思想，最终得到了一些功能关系非常紧密的基因，且它们的真阳性都较高，从而为基因表达数据研究提供了新思路。

为达到上述目的，本发明提出了一种基于双向校正的差异表达基因识别方法，包括以下步骤：

步骤1：选择一个物种，从基因数据库中获取该物种实验数据，包括基因表达数据、通路数据两类实例数据，分别组成基因表达数据集和通路数据集；

步骤2：使用差异表达基因识别方法获取步骤1中得到的基因表达数据集中每个基因的差异分值，按照差异分值从大到小对基因进行排序，取前n个基因作为初始基因序列G-i1，i＝1，表示迭代次数；设置中间基因序列序号j＝1；

步骤3：使用通路富集方法对基因序列G-i1进行通路富集，将得到的通路序列记作P-i，将基因序列G-i1中包含P-i的基因取出作为集合S_pi；将步骤1中得到的通路数据集中包含P-i的基因取出作为集合S_ri；

步骤4：计算扩增基因集合S：

S＝f*(|S_ri|\|S_pi|)

式中，|S_pi|、|S_ri|分别表示对集合S_pi和集合S_ri中的基因按照差异分值从大到小进行排序后的结果，|S_ri|\|S_pi|表示集合S_ri和集合S_pi之间的差集，参数f是控制基因序列G-i1扩展规模的扩增因子，f∈(0,1)；

步骤5：定义中间基因序列：G-j1＝S_pi∪S；

令i加1；

G-i1＝G-j1；

步骤6：当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值小于预设阈值时，令j加1，转到步骤3；

否则，当基因序列G-i1中的基因数量与基因表达数据集中基因总数的比值大于等于预设阈值时，完成计算过程，输出基因序列G-i1；

步骤7：基因序列G-i1中的基因即为最终识别的差异表达基因序列。

优选地，步骤1中所述的获取通路数据的基因数据库为KEGG。

优选地，步骤2中所述的使用的差异表达基因识别方法为ModT或Min-Edge方法。

优选地，步骤3中所述的通路富集方法为KEGG通路富集方法。

优选地，步骤6中所述的预设阈值为15％。

本发明的有益效果是：由于采用了本发明的一种基于双向校正的差异表达基因识别方法，通过一次功能校正，筛掉部分置信度不高的基因，留下了与功能相关且置信度较高的基因；在反向校正时过滤掉不重要的基因，增加了与功能强相关的重要基因，进而提高了本发明的准确性。本发明通过双向校正的思想，最终得到了一些功能关系非常紧密的基因，且它们的真阳性都较高，从而为基因表达数据研究提供了新思路。

附图说明

图1为本发明基于双向校正的差异表达基因识别方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1，本发明提出了一种基于双向校正的差异表达基因识别方法，包括以下步骤：

步骤4：计算扩增基因集合S：

S＝f*(|S_ri|\|S_pi|)

步骤5：定义中间基因序列：G-j1＝S_pi∪S；

令i加1；

G-i1＝G-j1；

优选地，步骤1中所述的获取通路数据的基因数据库为KEGG。

优选地，步骤3中所述的通路富集方法为KEGG通路富集方法。

优选地，步骤6中所述的预设阈值为15％。

实施例：

1、本实施例选择的物种为果蝇，从GEO和KEGG两个基因数据库中获取实验数据，使用了两类实例数据，包括基因表达数据、通路(pathway)数据。表1给出了相应数据物种及来源。

表1实验数据

2、使用ModT方法应用于所研究的基因表达数据中，对每个基因得到一个差异分值，对这些基因按照差异分值进行从大到小排序，排序越靠前的基因其差异表达的置信度越高。取排序靠前的n个基因作为算法的初始基因序列G-i1。该算法是一个迭代收敛性算法，参数i表示迭代的次数。

3、一次校正。

使用KEGG通路富集方法对基因序列G-i1进行通路富集，将得到的通路序列记作P-i。分析发现G-i1中只有部分基因包含P-i，将这些基因取出来记作集合S_pi。将从KEGG数据库获取的通路数据中该物种原本含有P-i的基因取出记作集合S_ri，方便后续进行增加删除操作。

4、反向校正。

根据步骤4计算扩增基因集合S，其中参数f是控制G-i1扩展规模的一个扩增因子，它可以帮助减少由一些弱功能相关基因引起的噪音，f∈(0,1)，S表示扩增后所得的基因。

5、根据步骤5和步骤6将对应通路中的置信度较高的一些基因识别出来，得到最终的差异表达基因序列，这些基因与P-i紧密关联。

对得到的结果进行分析，最终得到了一些功能关系非常紧密的基因，且它们的真阳性都较高，具有较高的准确性。

Claims

1.一种基于双向校正的差异表达基因识别方法，其特征在于，包括以下步骤：

步骤4：计算扩增基因集合S：

S＝f*(|S_ri|\|S_pi|)

步骤5：定义中间基因序列：G-j1＝S_pi∪S；

令i加1；

G-i1＝G-j1；

2.如权利要求1所述的一种基于双向校正的差异表达基因识别方法，其特征在于，步骤1中所述的获取通路数据的基因数据库为KEGG。

3.如权利要求1所述的一种基于双向校正的差异表达基因识别方法，其特征在于，步骤2中所述的使用的差异表达基因识别方法为ModT或Min-Edge方法。

4.如权利要求1所述的一种基于双向校正的差异表达基因识别方法，其特征在于，步骤3中所述的通路富集方法为KEGG通路富集方法。

5.如权利要求1所述的一种基于双向校正的差异表达基因识别方法，其特征在于，步骤6中所述的预设阈值为15％。