CN108038352B

CN108038352B - 结合差异化分析和关联规则挖掘全基因组关键基因的方法

Info

Publication number: CN108038352B
Application number: CN201711352644.7A
Authority: CN
Inventors: 杨利英; 张粉利; 袁细国
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-09-14
Anticipated expiration: 2037-12-15
Also published as: CN108038352A

Abstract

本发明属于数据处理技术领域，公开了一种结合差异化分析和关联规则挖掘全基因组关键基因的方法，首先利用基因名与探针名的对应关系，对多探针进行折叠，接着应用差异化分析方法对处理后的基因进行初步筛选，筛选出显著差异表达的基因；再对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集，并对两个事务集的基因分别作关联规则挖掘，找出排名靠前的规则对应的基因，即关键基因；最后通过生物功能分析验证基因的有效性。本发明综合考虑样本与样本及基因与基因之间的关联，能处理全基因组表达数据，并找出表达突出的关键基因，这对疾病风险预测、复杂疾病的致病机理研究及生物制药技术等都有重要的意义。

Description

结合差异化分析和关联规则挖掘全基因组关键基因的方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种结合差异化分析和关联规则挖掘全基因组关键基因的方法。

背景技术

随着基因测序技术的高速发展，生命科学研究获得了强大的数据产生能力，包括基因组学、转录组学、蛋白质组学、遗传代谢组学等生物数据。结合统计学、生物学及计算机科学知识，这些海量数据以揭示其中所蕴藏的生物学奥秘，成为了生物信息学的热点。全基因组基因表达(Genome-Wide Gene Expresison，GWGE)研究是指在特定人群中选择若干统计数目的正常组和病例组样本，在全基因组层面上，比较各基因在正常组和病例组的表达值差异，若某个基因在正常组与病例组的表达值差异过大，则认为该基因与复杂疾病存在着某种关联。全基因组上表达值变化显著突出的基因的发现和识别对疾病风险预测、复杂疾病的致病机理研究和生物药品研制等都有重要的意义。当前，通过GWGE研究已经发现了很多与复杂疾病相关的基因，但是这些已发现的基因中仅有少数能够极好地预测疾病风险并阐释复杂疾病的致病机理，此外还有一些已经在生物实验中证明的与复杂疾病相关的基因未被GWGE研究识别出来。因此，还存在着许多未被发现的基因。这种结果主要有如下三个方面的原因造成：(1)现存的很多研究是基于比较落后的测序技术所测数据，数据本身包含的生物信息不完备，导致实验结论可信度低。(2)目前的GWGE在建模时大多仅考虑基因内样本与样本的关联信息，未考虑样本内基因与基因之间的关联信息，忽略了基因与基因相互影响对复杂疾病造成的影响。(3)重要基因的识别难度大，基因表达值的变化不仅受复杂的遗传信息调控，环境因素的影响也是不可忽略的，此外测序技术也是影响基因表达值变化的一大因素。因此，在样本量很少的情况下很难通过GWGE研究直接将关键基因识别出来。为克服以上问题，研究人员开始关注基因与基因之间的交互作用，在方法层面上深入研究，提出了许多新方法。这些方法可概括为基于网络模型的方法和基于分组的方法。基于网络模型的方法是利用表达数据的相似性构建网络图，图中的节点代表基因，通过筛选网络中的枢纽节点作为关键基因。但是这类方法的难点在于衡量表达之间的相似性，因为基因的表达趋势可能是不规律的，但是现有的拟合趋势方法都是特定的，对基因表达模型存在不完全匹配问题。基于分组的方法是指通过聚类等方法将基因进行分组，通过分析部分组员的特性来推测该组所有成员的性质。基于分组的方法不足在于以偏概全，即以一部分已确定的关键基因来推测与这些基因在同一组内的所有组员都是关键基因，缺乏坚实的事实依据。上述两类方法中，基于网络模型的方法仅利用了基因的样本趋势来拟合基因与基因的关联性，基于分组的方法侧重于基因之间的差异性来推测基因与基因之间的关联性，二者皆未综合考虑样本之间和基因之间的共同作用。针对当前研究存在的这一问题，本发明提出了一种结合差异化分析和关联规则挖掘的全基因组关键基因挖掘方法。差异化分析是一种针对基因芯片数据、通过对对照模型进行差值计算并统计检验来筛选差异对象的方法，用于分析样本之间的关联。差异化分析单独用于基因筛选时，其结果仅类似于两类识别，即区分显著差异的基因和无显著差异的基因，结果保留的基因数目较多，无法进行后续生物实验验证。鉴于此，本专利在差异化分析的基础上，进行关联规则挖掘。关联规则挖掘的目的是寻找数据集中项与项的关系，能够充分利用基因的样本信息来分析基因与基因的关联，进一步筛选基因。

综上所述，现有技术存在的问题是：基因与基因之间交互作用的方法未综合考虑样本之间和基因之间的共同作用，未充分挖掘数据蕴含的信息，其结果无法为后续生物实验提供可靠依据。

发明内容

针对现有技术存在的问题，本发明提供了一种结合差异化分析和关联规则挖掘全基因组关键基因的方法。

本发明是这样实现的，一种结合差异化分析和关联规则挖掘全基因组关键基因的方法，所述结合差异化分析和关联规则挖掘全基因组关键基因的方法利用基因名与探针名的对应关系，对多探针进行折叠，接着应用差异化分析方法对处理后的基因进行初步筛选，筛选出显著差异表达的基因；对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集，并对两个事务集的基因分别作关联规则挖掘，找出排名靠前的规则对应的基因，为关键基因；通过生物功能分析验证基因的有效性。

进一步，所述结合差异化分析和关联规则挖掘全基因组关键基因的方法具体包括以下步骤：

步骤一，对样本数据质量检查，剔除不合格样本；对样本数据做归一化、标准化处理，使得样本数据具有可比性；

步骤二，采取探针折叠对基因芯片采集；

步骤三，利用差异化分析方法筛选差异表达基因，并将p值和差异倍数两个检验值，同时设为筛选阈值，筛选符合条件的显著差异表达基因；

步骤四，对于差异表达基因，基因的表达均值为u，将基因的每个样本值与u的f倍作差值，若结果大于零则将该基因的该样本值标记为up；将每个基因的每个样本值的f倍与u做差值，若小于零则将基因的该样本值标记为down；分别提取每个样本里标记为up的基因构成上调事务集，标记为down的基因构成下调事务集；

步骤五，对上调和下调事务集采用关联规则挖掘算法作关联分析，筛选大于K值的频繁集，最后提取支持度和自信度同时排行靠前的两百三十条规则，将强规则对应的基因视为关键基因，最后采用通路分析和GO富集分析对这些基因的生物功能注释，从生物功能角度诠释这些关键基因的重要性。

进一步，所述步骤二探针折叠的具体方法为：依据基因库信息，对所有的探针注释基因名；遍历基因表达矩阵，标记所有彼此基因名相同的探针行，并依据结果将数据拆分成不同的子集，每个子集内的基因名要么全一致，要么全不一致，查看各子集，若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值；若子集内基因名全不一致，则保留原数据；汇总所有子集。

进一步，所述步骤三中的差异化分析方法为Moderated T statistic，差异筛选阈值为p值小于0.05且|logFC|＝1，保留具有统计意义且表达值变化倍数大于2的基因。

进一步，所述步骤四中f值取2。

进一步，所述步骤五中的关联规则挖掘算法为Apriori，其中的K值取2。

本发明基于基因表达数据进行全基因组基因关联分析，识别表达值显著的基因，兼顾样本间的差异分析和基因间的关联关系，提升了关键基因的识别效能，可为后续生物实验提供依据，进一步，可用于疾病风险预测、复杂疾病致病机理的阐释以及生物药品研制。

本发明综合考虑基因的样本趋势和基因间的关联关系，按照从泛到精的思想，层层筛选，既考虑了基因内样本与样本的关系，又兼顾了样本内基因与基因的关系，充分地利用了数据集包含的讯息。本发明预先处理了多探针对应同一基因问题，综合利用芯片探测值生成基因的表达值，这为后续处理的准确性提供了保障。本发明先利用差异化分析方法计算出各基因作用的p值及表达值间的差异倍数，并同时依据p值和差异倍数进行筛选，降低了数据维度，能够有效地处理全基因组数据。

附图说明

图1是本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法流程图。

图2是本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法实现流程图。

图3是本发明实施例提供的在实例数据组上的上调事务集实验结果示意图。

图4是本发明实施例提供的在实例数据组上的下调事务集实验结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明将差异化分析方法和关联规则挖掘算法有机结合起来，优势互补，从而更好地识别数据集中显著突出的基因组，提高与复杂疾病相关的关键基因的识别能力。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法包括以下步骤：

S101：利用基因名与探针名的对应关系，对多探针进行折叠，接着应用差异化分析方法对处理后的基因进行初步筛选，筛选出显著差异表达的基因；

S102：对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集，并对两个事务集的基因分别作关联规则挖掘，找出排名靠前的规则对应的基因，即关键基因；

S103：通过生物功能分析验证基因的有效性。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法包括以下步骤：

步骤一，对表达数据进行预处理：

对样本数据进行质量检查，剔除不合格样本；对样本数据做归一化标准化处理，使得样本数据间具有可比性。

步骤二：针对多个探针(碱基组)对应同一基因的现象，采取探针折叠措施：

首先将所有的探针注释基因名，然后遍历基因表达矩阵，标记所有彼此基因名相同的行，并依据此结果将数据拆分成不同的子集，每个子集内的基因名要么全一致，要么全部一致。判断各子集，若子集内基因名全一致，则以均值的形式返回表达值作为该基因的表达值，若子集内基因名全不一致，则保留原数据。

步骤三，利用差异化分析方法筛选差异表达基因：

利用Moderated T statistic差异化分析方法计算各基因作用的p值及表达值的差异倍数FC值，并按照p值小于0.05且|logFC|＝1作为阈值来筛选显著差异表达的基因。

步骤四，为样本做标注：

对于差异表达基因，假设基因的表达均值为u，将基因的每个样本值与u的f倍作差值，若结果大于零则将该基因的该样本值标记为up；将每个基因的每个样本值的f倍与u做差值，若小于零则将该基因的该样本值标记为down；分别提取每个样本里标记为up的基因构成上调事务集，标记为down的基因构成下调事务集。

步骤五，对上调和下调事务集采用关联规则挖掘算法Apriori作关联分析，筛选大于K值的频繁集，K值可取2，最后提取支持度和自信度同时排行靠前的若干规则，将这些强规则对应的基因视为关键基因；最后采用通路分析和GO富集分析对这些基因的生物功能注释，从生物学角度诠释这些关键基因的意义。

下面结合实验对本发明的应用效果作详细的描述。

实验：真实病例数据中关键基因的识别

真实病例选用Affymetrix平台的孕期乳腺癌数据(PregancyBreast Cancer)GSE31192。孕期乳腺癌是指在女子怀孕期间或产后一年内医学检测发现乳腺癌病灶的复杂疾病，是一种比较特殊的乳腺癌类型。该数据集一共包含54675个探针点，33例样本，其中20例PABC样本(即怀孕样本)和13例NonPABC样本(即从未怀孕样本)，这其中又包括病例样本20例，正常样本13例。在这个数据集上具体实施步骤如下：

1、对初始数据进行预处理：首先对所有样本进行质量分析，生成质量分析报告，检查后发现所有样本质量均可信，然后采用rma背景处理方法及非线性全局缩放方法对数据进行除噪和标准化处理。

2、探针折叠：首先为所有探针点匹配基因名，然后分别对基因名相同的子集求其所有行表达值均值作为该基因最终的表达值，删除子集中的其他行数据，最终得到不重复基因行共23036行。

3、采用Moderate T Stastic差异分析方法对PABC样本数据做差异基因筛选，设置筛选阈值为p<0.05且|logFC|＝1共得到718个差异表达基因。

4、对筛选出的差异基因的样本做标记，具体步骤如下：

首先生成两个大小均为718行20列的全零矩阵，并分别命名为上调矩阵和下调矩阵，矩阵的行名均为差异基因名，列名为样本名。从第一行开始，逐行遍历差异基因矩阵，计算每个基因的表达均值u,然后对样本值与均值的2倍做差值，如果结果大于零，则将该基因的该样本标记为up；计算每个表达值的2倍与均值的差值，如果结果小于零，则将该基因的该样本标记为down。

5、分别对上述两个矩阵逐行提取每个样本标记为up或down的基因并存至新的数据矩阵，矩阵的每一行储存该行样本里标记为up或down的基因。将这两个数据矩阵转化为稀疏矩阵，并分别采用Apriori方法做关联规则挖掘，设置频繁集长度至少为2，分别提取支持度和自信度均排名靠前的前230条(允许浮动)规则，并汇总这些强规则对应的基因，最后得到22个基因，即为筛选出的关键基因，最后对这些基因做GO富集分析和通路分析，确定其生物功能重要性。

表1是本发明方法在该数据集中识别得到的22个基因及其生物功能。从表1的结果可以看出，本发明的方法准确地识别出已经通过生物实验验证的与胚胎发育有关的重要基因8个：MEOX1(中胚层的转录因子)，ITM2A(参与骨和骨细胞分化)，ABLIM1(视网膜发育)，KCNA1(大脑和大脑神经发育)，COL2A1(胚胎的骨骼发育)，PLCZ1(胚胎早期发育)，CHST9(胚胎发育)，SMYD1(心脏发育)；可能与癌症相关的基因5个：NUCB2(释放肿瘤坏死因子)，EZR(涉及多种人类癌症)，HPSE2(可能参与肿瘤进展的生物过程)，LRRC3B(其编码的蛋白质是一种肿瘤抑制因子)，TGFA(与许多类型的癌症相关)；与一些人类已知疾病有关的基因5个：SGCE(肌张力障碍综合症有关，HPSE2(面部肌肤综合症等)，COL2A1(Knies异常症等)，PLCZ1(精索静脉曲张等)，TGFA(唇腭裂病例)；此外还有未知其功能的基因，如ABRACL，ANKRD29，EME等，可为功能验证实验提供理论依据。以根据真实数据的运行结果，可以验证本发明方法在识别关键基因方面的有效性。

表1

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合差异化分析和关联规则挖掘全基因组关键基因的方法，其特征在于，所述结合差异化分析和关联规则挖掘全基因组关键基因的方法利用基因名与探针名的对应关系，对多探针进行折叠，接着应用差异化分析方法对处理后的基因进行初步筛选，筛选出显著差异表达的基因；对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集，并对两个事务集的基因分别作关联规则挖掘，找出排名靠前的规则对应的基因，为关键基因；通过生物功能分析验证基因的有效性；

所述结合差异化分析和关联规则挖掘全基因组关键基因的方法具体包括以下步骤：

步骤二，采取探针折叠对基因芯片采集；

2.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法，其特征在于，所述步骤二探针折叠的具体方法为：依据基因库信息，对所有的探针注释基因名；遍历基因表达矩阵，标记所有彼此基因名相同的探针行，并依据结果将数据拆分成不同的子集，每个子集内的基因名要么全一致，要么全不一致，查看各子集，若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值；若子集内基因名全不一致，则保留原数据；汇总所有子集。

3.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法，其特征在于，所述步骤三中的差异化分析方法为ModeratedTstatistic，差异筛选阈值为p值小于0.05且|logFC|＝1，保留具有统计意义且表达值变化倍数大于2的基因。

4.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法，其特征在于，所述步骤四中f值取2。

5.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法，其特征在于，所述步骤五中的关联规则挖掘算法为Apriori，其中的K值取2。