CN109686400B - 一种富集程度检验方法、装置及可读介质、存储控制器 - Google Patents

一种富集程度检验方法、装置及可读介质、存储控制器 Download PDF

Info

Publication number
CN109686400B
CN109686400B CN201811531077.6A CN201811531077A CN109686400B CN 109686400 B CN109686400 B CN 109686400B CN 201811531077 A CN201811531077 A CN 201811531077A CN 109686400 B CN109686400 B CN 109686400B
Authority
CN
China
Prior art keywords
candidate function
gene
weight
test
test genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811531077.6A
Other languages
English (en)
Other versions
CN109686400A (zh
Inventor
李淼
于治楼
李锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Scientific Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Scientific Research Institute Co Ltd filed Critical Shandong Inspur Scientific Research Institute Co Ltd
Priority to CN201811531077.6A priority Critical patent/CN109686400B/zh
Publication of CN109686400A publication Critical patent/CN109686400A/zh
Application granted granted Critical
Publication of CN109686400B publication Critical patent/CN109686400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种富集程度检验方法、装置及可读介质、存储控制器,该方法包括:确定测试基因组和候选功能条目集合,测试基因组和候选功能条目集合中的各组候选功能条目均分别包括有至少一个基因;针对每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,基因的权重与基因在该候选功能条目集合中的出现次数成负相关;根据当前候选功能条目中每一个基因的权重并基于费舍尔精确检验,检验当前候选功能条目在测试基因组中的富集程度。通过基因在候选功能条目中出现的次数来定义基因的多功能性,并基于此来检验富集程度,故本方案能够降低多功能基因对富集分析问题的影响,从而提高检验准确度。

Description

一种富集程度检验方法、装置及可读介质、存储控制器
技术领域
本发明涉及计算机技术领域,特别涉及一种富集程度检验方法、装置及可读介质、存储控制器。
背景技术
随着现代生物实验技术的不断发展,分子生物学数据呈爆发式增长,如何去分析和利用这些生物数据是生物信息学的一个重要研究方向。基因功能富集分析就是这样的问题,它的目标是分析一组基因背后蕴含的生物学意义。具体地说,基因功能富集分析问题是在候选功能注释数据集中选择与感兴趣的基因集联系最密切的功能注释。
现有的解决富集分析问题的算法,很多都是利用费舍尔精确检验来判断功能条目是否在给定的基因集上富集。
但是,费舍尔精确检验没有考虑多功能基因对富集分析的影响,从而使得检验准确度有所降低。
发明内容
本发明提供了一种富集程度检验方法、装置及可读介质、存储控制器,能够降低多功能基因对富集分析问题的影响,从而提高检验准确度。
为了达到上述目的,本发明是通过如下技术方案实现的:
第一方面,本发明提供了一种富集程度检验方法,包括:
确定测试基因组和候选功能条目集合,所述候选功能条目集合中候选功能条目的组数为至少一组,所述测试基因组和所述候选功能条目集合中的每一组候选功能条目均分别包括有至少一个基因;
针对所述候选功能条目集合中的每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,其中,一基因的权重与该基因在所述候选功能条目集合中的出现次数成负相关;
根据计算出的所述当前候选功能条目中每一个基因的权重,以及基于费舍尔精确检验,检验所述当前候选功能条目在所述测试基因组中的富集程度。
进一步地,所述分别计算当前候选功能条目中每一个基因的权重,包括:利用公式一,分别计算当前候选功能条目中每一个基因的权重;
所述公式一包括:
Figure BDA0001905661940000021
其中,ωi为所述当前候选功能条目中第i个基因的权重,ki为所述第i个基因在所述候选功能条目集合中的出现次数。
进一步地,所述检验所述当前候选功能条目在所述测试基因组中的富集程度,包括:利用公式二、公式三和公式四,计算针对所述当前候选功能条目和所述测试基因组的概率;根据计算出的概率,校验所述当前候选功能条目在所述测试基因组中的富集程度,其中,概率与富集程度成负相关;
所述公式二包括:
Figure BDA0001905661940000022
所述公式三包括:
Figure BDA0001905661940000023
所述公式四包括:
Figure BDA0001905661940000024
其中,a为第一中间值且取值方式为向上取整数,ωj为集合(L I Ti)中的第j个基因的权重,L为所述测试基因组,Ti为所述候选功能条目集合中的第i个候选功能条目,集合(L I Ti)为L与Ti的交集,J为集合(L I Ti)中基因的总个数,b为第二中间值且取值方式为向上取整数,ωq为集合(Lc I Ti)中的第q个基因的权重,Lc为所述测试基因组的补集,集合(Lc I Ti)为Lc与Ti的交集,Q为集合(Lc I Ti)中基因的总个数,n为所述测试基因组中基因的总个数,针对L与Ti的概率P(|L I Ti|≥a)为|L I Ti|≥a时的概率,|L I Ti|为L与Ti的交集中基因的总个数,m为自变量,min(b,n-a)为取b和(n-a)中的最小值,N为预设值。
进一步地,所述确定候选功能条目集合,包括:从GO(Gene Ontology,基因本体)中选出一个子集,以作为候选功能条目集合;
每一个所述候选功能条目均对应有一生物功能,不同候选功能条目对应的生物功能不同。
第二方面,本发明提供了一种富集程度检验装置,包括:
确定单元,用于确定测试基因组和候选功能条目集合,所述候选功能条目集合中候选功能条目的组数为至少一组,所述测试基因组和所述候选功能条目集合中的每一组候选功能条目均分别包括有至少一个基因;
计算单元,用于针对所述候选功能条目集合中的每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,其中,一基因的权重与该基因在所述候选功能条目集合中的出现次数成负相关;
检验单元,用于根据计算出的所述当前候选功能条目中每一个基因的权重,以及基于费舍尔精确检验,检验所述当前候选功能条目在所述测试基因组中的富集程度。
进一步地,所述计算单元,用于利用公式一,分别计算当前候选功能条目中每一个基因的权重;
所述公式一包括:
Figure BDA0001905661940000031
其中,ωi为所述当前候选功能条目中第i个基因的权重,ki为所述第i个基因在所述候选功能条目集合中的出现次数。
进一步地,所述检验单元,用于利用公式二、公式三和公式四,计算针对所述当前候选功能条目和所述测试基因组的概率;根据计算出的概率,校验所述当前候选功能条目在所述测试基因组中的富集程度,其中,概率与富集程度成负相关;
所述公式二包括:
Figure BDA0001905661940000041
所述公式三包括:
Figure BDA0001905661940000042
所述公式四包括:
Figure BDA0001905661940000043
其中,a为第一中间值且取值方式为向上取整数,ωj为集合(L I Ti)中的第j个基因的权重,L为所述测试基因组,Ti为所述候选功能条目集合中的第i个候选功能条目,集合(LITi)为L与Ti的交集,J为集合(L I Ti)中基因的总个数,b为第二中间值且取值方式为向上取整数,ωq为集合(Lc I Ti)中的第q个基因的权重,Lc为所述测试基因组的补集,集合(LcI Ti)为Lc与Ti的交集,Q为集合(Lc I Ti)中基因的总个数,n为所述测试基因组中基因的总个数,针对L与Ti的概率P(|LI Ti|≥a)为|L I Ti|≥a时的概率,|L I Ti|为L与Ti的交集中基因的总个数,m为自变量,min(b,n-a)为取b和(n-a)中的最小值,N为预设值。
进一步地,所述确定单元,用于从GO中选出一个子集,以作为候选功能条目集合;
每一个所述候选功能条目均对应有一生物功能,不同候选功能条目对应的生物功能不同。
第三方面,本发明提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一所述的富集程度检验方法。
第四方面,本发明提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一所述的富集程度检验方法。
本发明提供了一种富集程度检验方法、装置及可读介质、存储控制器,该方法包括:确定测试基因组和候选功能条目集合,测试基因组和候选功能条目集合中的各组候选功能条目均分别包括有至少一个基因;针对每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,基因的权重与基因在该候选功能条目集合中的出现次数成负相关;根据当前候选功能条目中每一个基因的权重并基于费舍尔精确检验,检验当前候选功能条目在测试基因组中的富集程度。通过基因在候选功能条目中出现的次数来定义基因的多功能性,并基于此来检验富集程度,故本发明能够降低多功能基因对富集分析问题的影响,从而提高检验准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种富集程度检验方法的流程图;
图2是本发明一实施例提供的一种富集程度检验装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种富集程度检验方法,可以包括以下步骤:
步骤101:确定测试基因组和候选功能条目集合,所述候选功能条目集合中候选功能条目的组数为至少一组,所述测试基因组和所述候选功能条目集合中的每一组候选功能条目均分别包括有至少一个基因。
步骤102:针对所述候选功能条目集合中的每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,其中,一基因的权重与该基因在所述候选功能条目集合中的出现次数成负相关。
步骤103:根据计算出的所述当前候选功能条目中每一个基因的权重,以及基于费舍尔精确检验,检验所述当前候选功能条目在所述测试基因组中的富集程度。
本发明实施例提供了一种富集程度检验方法,确定测试基因组和候选功能条目集合,测试基因组和候选功能条目集合中的各组候选功能条目均分别包括有至少一个基因;针对每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,基因的权重与基因在该候选功能条目集合中的出现次数成负相关;根据当前候选功能条目中每一个基因的权重并基于费舍尔精确检验,检验当前候选功能条目在测试基因组中的富集程度。通过基因在候选功能条目中出现的次数来定义基因的多功能性,并基于此来检验富集程度,故本发明实施例能够降低多功能基因对富集分析问题的影响,从而提高检验准确度。
详细地,费舍尔精确检验(Fisher's exact test)是一个常用的统计方法,它用来检验同一事物的两种分类方式之间是否有关系,可用来解决基因功能富集分析问题。在基因功能富集分析问题中,一组基因按照是否属于测试基因集可以分成两类,按照是否属于一组候选功能条目也可以分成两类;如果这两种分类的结果有联系,即测试基因集中属于候选功能条目的基因比例超过随机水平,那么就说明候选功能条目在测试基因集中富集。
通常情况下,测试基因集可能包含大量的多功能基因。由于多功能基因具有多种功能,也就是说与多个候选功能条目相关,而这些有一部分基因重叠的候选功能条目往往是比较相似或者有关联的。因此,当测试基因集中存在多功能基因时,会高估所有多功能基因相关候选功能条目的富集统计显著性,使得富集分析结果中出现很多很相似的候选功能条目。
基于上述内容可以看出,本发明实施例从降低多功能基因对富集分析问题的影响这个角度出发,在费舍尔精确检验的基础上,提出了一种新的对候选功能条目的检验方法:加权费舍尔精确检验。这个检验方法与经典的费舍尔精确检验最大的区别在于,这个检验方法是通过基因在候选功能条目组合中出现的次数来定义基因的多功能性,多功能性越强的基因其权重越低,以此减小多功能基因对富集分析问题的影响。
详细地,基因功能富集分析问题的目标,就是要发现一个关键基因集背后可能关联的生物学功能和潜在的机理机制。该关键基因集,即上述测试基因组,即为被研究和分析的对象。测试基因组可以预先经采样而获取,比如可以用t检验从肺癌样本的高通量实验数据中提取一组差异表达基因。
详细地,每个候选功能条目可以表示为和某个生物功能相关基因组成的集合。若一候选功能条目在测试基因组中富集,可以认为该候选功能条目中的基因在测试基因组中出现的频率超出了随机水平。以上述肺癌样本为例,经富集程度检验,即可找出和肺癌差异表达基因相关的所有生物功能。
在本发明一个实施例中,为了说明一种可能的基因权重计算方式,所以,所述分别计算当前候选功能条目中每一个基因的权重,包括:利用下述公式(1),分别计算当前候选功能条目中每一个基因的权重;
Figure BDA0001905661940000071
其中,ωi为所述当前候选功能条目中第i个基因的权重,ki为所述第i个基因在所述候选功能条目集合中的出现次数。
在本发明一个实施例中,为了说明一种可能的富集程度检验方式,所以,所述检验所述当前候选功能条目在所述测试基因组中的富集程度,包括:利用下述公式(2)~(4),计算针对所述当前候选功能条目和所述测试基因组的概率;根据计算出的概率,校验所述当前候选功能条目在所述测试基因组中的富集程度,其中,概率与富集程度成负相关;
Figure BDA0001905661940000081
Figure BDA0001905661940000082
Figure BDA0001905661940000083
其中,a为第一中间值且取值方式为向上取整数,ωj为集合(L I Ti)中的第j个基因的权重,L为所述测试基因组,Ti为所述候选功能条目集合中的第i个候选功能条目,集合(L I Ti)为L与Ti的交集,J为集合(L I Ti)中基因的总个数,b为第二中间值且取值方式为向上取整数,ωq为集合(Lc I Ti)中的第q个基因的权重,Lc为所述测试基因组的补集,集合(Lc I Ti)为Lc与Ti的交集,Q为集合(Lc I Ti)中基因的总个数,n为所述测试基因组中基因的总个数,针对L与Ti的概率P(|LI Ti|≥a)为|L I Ti|≥a时的概率,|L I Ti|为L与Ti的交集中基因的总个数,m为自变量,min(b,n-a)为取b和(n-a)中的最小值,N为预设值。
基于上述公式(1)~公式(4),举例来说,假设测试基因组L={A,B,E},候选功能条目集合中有两组候选功能条目,且这两组候选功能条目分别为T1={A,B,C}和T2={A,B,D,E},所有基因的集合为G={A,B,C,D,E}。这里的A、B、C、D、E均代表不同的基因。
第一方面,不考虑基因的出现次数,直接基于费舍尔精确检验来计算针对L和T1的概率。
由于A和B同属于L和T1,故a=2;由于C属于T1但不属于L,故b=1;由于T1={A,B,C},故n=3;由于G={A,B,C,D,E},故N=5。如此,可以建立如下表1。
表1
L <![CDATA[L<sup>c</sup><!-- 5 -->]]>
<![CDATA[T<sub>1</sub>]]> a=2 b=1
<![CDATA[T<sub>1</sub><sup>c</sup>]]> n-a=1 N-n-b=1
由于n-a=b=1,故基于上述公式(4),可以利用下式计算针对L和T1的概率:
Figure BDA0001905661940000091
第二方面,考虑基因的出现次数,基于基因的权重和费舍尔精确检验,即基于加权费舍尔精确检验来计算针对L和T1的概率。
由于A和B同属于L和T1,且在T1和T2中的出现次数均为2,故A和B的权重均为1/2。如此,基于上述公式(2),可知a=1/2+1/2=1。
由于C属于T1但不属于L,且在T1和T2中的出现次数为1,故C的权重为1。如此,基于上述公式(2),可知b=1。
由于T1={A,B,C},故n=3;由于G={A,B,C,D,E},故N=5。如此,可以建立如下表2。
表2
L <![CDATA[L<sup>c</sup>]]>
<![CDATA[T<sub>1</sub>]]> a=1 b=1
<![CDATA[T<sub>1</sub><sup>c</sup>]]> n-a=2 N-n-b=1
由于n-a=2>b=1,故基于上述公式(4),可以利用下式计算针对L和T1的概率:
Figure BDA0001905661940000092
基于上述内容可知,基于费舍尔精确检验计算出的概率为0.7,而基于加权费舍尔精确检验计算出的概率为0.9。由于概率与富集程度呈负相关,故0.7对应的富集程度大于0.9对应的富集程度。可见,与费舍尔精确检验相比,当存在多功能基因,即A和B时,通过加权费舍尔精确检验,使得计算出的富集程度有所降低,而避免出现高估富集程度的问题。可见,本发明实施例能够减小多功能基因对富集分析问题的影响,提高检验准确度。
进一步地,第三方面,基于加权费舍尔精确检验来计算针对L和T2的概率。
由于A、B和E同属于L和T2,且A、B在T1和T2中的出现次数均为2,E在T1和T2中的出现次数为1,故A和B的权重均为1/2,E的权重为1。如此,基于上述公式(2),可知a=1/2+1/2+1=2。
由于D属于T2但不属于L,且在T1和T2中的出现次数为1,故D的权重均为1。如此,基于上述公式(2),可知b=1。
由于T2={A,B,D,E},故n=4;由于G={A,B,C,D,E},故N=5。如此,可以建立如下表3。
表3
L <![CDATA[L<sup>c</sup>]]>
<![CDATA[T<sub>2</sub>]]> a=2 b=1
<![CDATA[T<sub>2</sub><sup>c</sup>]]> n-a=2 N-n-b=0
由于n-a=2>b=1,故基于上述公式(4),可以利用下式计算针对L和T2的概率:
Figure BDA0001905661940000101
基于上述内容可知,基于加权费舍尔精确检验,针对L和T1的概率为0.9,而针对L和T2的概率为0.5。由于概率与富集程度呈负相关,故0.9对应的富集程度小于0.5对应的富集程度,即可以认为T1在L中的富集程度小于T2在L中的富集程度。与L、T1、T2的基因组成相对比,可以看出,T1在L中的富集程度小于T2在L中的富集程度这一结论无误。
详细地,要在一组基因上做功能富集分析,首先要有一个注释基因功能的数据库,我们可从这个数据库中选出一个子集作为候选的功能注释数据集。基因本体论是功能富集分析中最常用的功能注释数据库,几乎所有基因功能富集分析方法都支持GO作为背景数据库。
因此,在本发明一个实施例中,所述确定候选功能条目集合,包括:从GO中选出一个子集,以作为候选功能条目集合;
每一个所述候选功能条目均对应有一生物功能,不同候选功能条目对应的生物功能不同。
当然,在本发明其他实施例中,同样可以从任一其他功能注释数据库中挑选出若干组候选功能条目,故也适用于其他功能注释数据库。
如图2所示,本发明一个实施例提供了一种富集程度检验装置,包括:
确定单元201,用于确定测试基因组和候选功能条目集合,所述候选功能条目集合中候选功能条目的组数为至少一组,所述测试基因组和所述候选功能条目集合中的每一组候选功能条目均分别包括有至少一个基因;
计算单元202,用于针对所述候选功能条目集合中的每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,其中,一基因的权重与该基因在所述候选功能条目集合中的出现次数成负相关;
检验单元203,用于根据计算出的所述当前候选功能条目中每一个基因的权重,以及基于费舍尔精确检验,检验所述当前候选功能条目在所述测试基因组中的富集程度。
在本发明一个实施例中,所述计算单元202,用于利用上述公式(1),分别计算当前候选功能条目中每一个基因的权重。
在本发明一个实施例中,所述检验单元203,用于利用上述公式(2)~(4),计算针对所述当前候选功能条目和所述测试基因组的概率;根据计算出的概率,校验所述当前候选功能条目在所述测试基因组中的富集程度,其中,概率与富集程度成负相关。
在本发明一个实施例中,所述确定单元201,用于从GO中选出一个子集,以作为候选功能条目集合;
每一个所述候选功能条目均对应有一生物功能,不同候选功能条目对应的生物功能不同。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,本发明一个实施例还提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一所述的富集程度检验方法。
此外,本发明一个实施例还提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一所述的富集程度检验方法。
综上所述,本发明的实施例具有至少如下有益效果:
1、本发明实施例中,确定测试基因组和候选功能条目集合,测试基因组和候选功能条目集合中的各组候选功能条目均分别包括有至少一个基因;针对每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,基因的权重与基因在该候选功能条目集合中的出现次数成负相关;根据当前候选功能条目中每一个基因的权重并基于费舍尔精确检验,检验当前候选功能条目在测试基因组中的富集程度。通过基因在候选功能条目中出现的次数来定义基因的多功能性,并基于此来检验富集程度,故本发明实施例能够降低多功能基因对富集分析问题的影响,从而提高检验准确度。
2、本发明实施例中,从降低多功能基因对富集分析问题的影响这个角度出发,在费舍尔精确检验的基础上,提出了一种新的对候选功能条目的检验方法:加权费舍尔精确检验。这个检验方法与经典的费舍尔精确检验最大的区别在于,这个检验方法是通过基因在候选功能条目组合中出现的次数来定义基因的多功能性,多功能性越强的基因其权重越低,以此减小多功能基因对富集分析问题的影响。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种富集程度检验方法,其特征在于,包括:
确定测试基因组和候选功能条目集合,所述候选功能条目集合中候选功能条目的组数为至少一组,所述测试基因组和所述候选功能条目集合中的每一组候选功能条目均分别包括有至少一个基因;
针对所述候选功能条目集合中的每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,其中,一基因的权重与该基因在所述候选功能条目集合中的出现次数成负相关;
根据计算出的所述当前候选功能条目中每一个基因的权重,以及基于费舍尔精确检验,检验所述当前候选功能条目在所述测试基因组中的富集程度;
所述分别计算当前候选功能条目中每一个基因的权重,包括:利用公式一,分别计算当前候选功能条目中每一个基因的权重;
所述公式一包括:
其中,ωi为所述当前候选功能条目中第i个基因的权重,ki为所述第i个基因在所述候选功能条目集合中的出现次数;
所述检验所述当前候选功能条目在所述测试基因组中的富集程度,包括:利用公式二、公式三和公式四,计算针对所述当前候选功能条目和所述测试基因组的概率;根据计算出的概率,校验所述当前候选功能条目在所述测试基因组中的富集程度,其中,概率与富集程度成负相关;
所述公式二包括:
所述公式三包括:
所述公式四包括:
其中,a为第一中间值且取值方式为向上取整数,ωj为集合(LI Ti)中的第j个基因的权重,L为所述测试基因组,Ti为所述候选功能条目集合中的第i个候选功能条目,集合(LI Ti)为L与Ti的交集,J为集合(LI Ti)中基因的总个数,b为第二中间值且取值方式为向上取整数,ωq为集合(LcI Ti)中的第q个基因的权重,Lc为所述测试基因组的补集,集合(LcI Ti)为Lc与Ti的交集,Q为集合(LcI Ti)中基因的总个数,n为所述测试基因组中基因的总个数,针对L与Ti的概率P(|LI Ti|≥a)为|LI Ti|≥a时的概率,|LI Ti|为L与Ti的交集中基因的总个数,m为自变量,min(b,n-a)为取b和(n-a)中的最小值,N为预设值。
2.根据权利要求1所述的方法,其特征在于,
所述确定候选功能条目集合,包括:从基因本体GO中选出一个子集,以作为候选功能条目集合;
每一个所述候选功能条目均对应有一生物功能,不同候选功能条目对应的生物功能不同。
3.一种富集程度检验装置,其特征在于,包括:
确定单元,用于确定测试基因组和候选功能条目集合,所述候选功能条目集合中候选功能条目的组数为至少一组,所述测试基因组和所述候选功能条目集合中的每一组候选功能条目均分别包括有至少一个基因;
计算单元,用于针对所述候选功能条目集合中的每一组候选功能条目均执行:分别计算当前候选功能条目中每一个基因的权重,其中,一基因的权重与该基因在所述候选功能条目集合中的出现次数成负相关;
检验单元,用于根据计算出的所述当前候选功能条目中每一个基因的权重,以及基于费舍尔精确检验,检验所述当前候选功能条目在所述测试基因组中的富集程度;
所述计算单元,用于利用公式一,分别计算当前候选功能条目中每一个基因的权重;
所述公式一包括:
其中,ωi为所述当前候选功能条目中第i个基因的权重,ki为所述第i个基因在所述候选功能条目集合中的出现次数;
所述检验单元,用于利用公式二、公式三和公式四,计算针对所述当前候选功能条目和所述测试基因组的概率;根据计算出的概率,校验所述当前候选功能条目在所述测试基因组中的富集程度,其中,概率与富集程度成负相关;
所述公式二包括:
所述公式三包括:
所述公式四包括:
其中,a为第一中间值且取值方式为向上取整数,ωj为集合(LI Ti)中的第j个基因的权重,L为所述测试基因组,Ti为所述候选功能条目集合中的第i个候选功能条目,集合(LI Ti)为L与Ti的交集,J为集合(LI Ti)中基因的总个数,b为第二中间值且取值方式为向上取整数,ωq为集合(LcI Ti)中的第q个基因的权重,Lc为所述测试基因组的补集,集合(LcI Ti)为Lc与Ti的交集,Q为集合(LcI Ti)中基因的总个数,n为所述测试基因组中基因的总个数,针对L与Ti的概率P(|LI Ti|≥a)为|LI Ti|≥a时的概率,|LI Ti|为L与Ti的交集中基因的总个数,m为自变量,min(b,n-a)为取b和(n-a)中的最小值,N为预设值。
4.根据权利要求3所述的富集程度检验装置,其特征在于,
所述确定单元,用于从基因本体GO中选出一个子集,以作为候选功能条目集合;
每一个所述候选功能条目均对应有一生物功能,不同候选功能条目对应的生物功能不同。
5.一种可读介质,其特征在于,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行如权利要求1所述的富集程度检验方法。
6.一种存储控制器,其特征在于,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行如权利要求1所述的富集程度检验方法。
CN201811531077.6A 2018-12-14 2018-12-14 一种富集程度检验方法、装置及可读介质、存储控制器 Active CN109686400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811531077.6A CN109686400B (zh) 2018-12-14 2018-12-14 一种富集程度检验方法、装置及可读介质、存储控制器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811531077.6A CN109686400B (zh) 2018-12-14 2018-12-14 一种富集程度检验方法、装置及可读介质、存储控制器

Publications (2)

Publication Number Publication Date
CN109686400A CN109686400A (zh) 2019-04-26
CN109686400B true CN109686400B (zh) 2023-04-28

Family

ID=66187678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811531077.6A Active CN109686400B (zh) 2018-12-14 2018-12-14 一种富集程度检验方法、装置及可读介质、存储控制器

Country Status (1)

Country Link
CN (1) CN109686400B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085053B (zh) * 2020-07-30 2022-08-26 山东浪潮科学研究院有限公司 一种基于最近邻方法的数据漂移判别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009132239A2 (en) * 2008-04-24 2009-10-29 Trustees Of Boston University A network biology approach for identifying targets for combination therapies
CN103310126A (zh) * 2013-07-04 2013-09-18 中国人民解放军国防科学技术大学 分类模型的建立方法及装置
CN106126973A (zh) * 2016-06-21 2016-11-16 哈尔滨工业大学 基于r‑svm和tpr规则的基因功能预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009132239A2 (en) * 2008-04-24 2009-10-29 Trustees Of Boston University A network biology approach for identifying targets for combination therapies
CN103310126A (zh) * 2013-07-04 2013-09-18 中国人民解放军国防科学技术大学 分类模型的建立方法及装置
CN106126973A (zh) * 2016-06-21 2016-11-16 哈尔滨工业大学 基于r‑svm和tpr规则的基因功能预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基因功能富集分析的研究进展;王潇等;《中国科学:生命科学》;20160420(第04期);全文 *

Also Published As

Publication number Publication date
CN109686400A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
Toloşi et al. Classification with correlated features: unreliability of feature ranking and solutions
US20180095969A1 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
CA2998839A1 (en) Differentially private processing and database storage
US10789225B2 (en) Column weight calculation for data deduplication
BinTayyash et al. Non-parametric modelling of temporal and spatial counts data from RNA-seq experiments
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
Kim et al. Integrative clustering of multi-level omics data for disease subtype discovery using sequential double regularization
Binder et al. An overview of techniques for linking high‐dimensional molecular data to time‐to‐event endpoints by risk prediction models
CN111950645A (zh) 一种通过改进随机森林提高类不平衡分类性能的方法
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
JP2018180712A (ja) モデル変数候補生成装置および方法
Shahbazi et al. A survey on techniques for identifying and resolving representation bias in data
Kim et al. A method to identify differential expression profiles of time-course gene data with Fourier transformation
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
Yi et al. Information-incorporated Gaussian graphical model for gene expression data
CN109686400B (zh) 一种富集程度检验方法、装置及可读介质、存储控制器
Lemant et al. Robust, universal tree balance indices
Kalna et al. Clustering coefficients for weighted networks
CN111782805A (zh) 一种文本标签分类方法及系统
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
He et al. Measuring boundedness for protein complex identification in PPI networks
Giurcăneanu et al. Cluster structure inference based on clustering stability with applications to microarray data analysis
Li et al. Simultaneous estimation of cluster number and feature sparsity in high-dimensional cluster analysis
CN112765305B (zh) 作者的兴趣主题的分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230411

Address after: 250000 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province

Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant