CN107292128A

CN107292128A - 一种配对互作基因检测方法及预测模型

Info

Publication number: CN107292128A
Application number: CN201710500075.XA
Authority: CN
Inventors: 陈渊; 袁哲明; 杨晶晶; 谭泗桥; 邢鹏伟
Original assignee: Hunan Agricultural University
Current assignee: Hunan Agricultural University
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-10-24

Abstract

本发明公开了一种配对互作基因检测方法及预测模型，检测方法包括以下步骤：对给定的数据集{Y_i,X_ij}，首先对每个基因表达值进行秩规格化，得到规格化后的数据矩阵{Y_i,R_ij}，即对于任一基因j，将其表达值按从小到大顺序排列，然后用每个表达值的排列位置代替初始表达值；对任意两个基因p和基因q采用abs模式进行转换，获得转换后的数据集{Y_i,Z_is}；abs模式:Z_is＝|R_ip–R_iq|；其中i＝1,2,…,n；p＝1,2,…,m；q＝1,2,…,m；p≠q；s＝1,2,…,m(m‑1)/2；n为数据集中的样本数，m为数据集中的基因数；计算每个变量Z_is与表型Y_i之间的t值，根据t值判断两个基因之间的互作效应。本发明可有效提高模型预测精度。

Description

一种配对互作基因检测方法及预测模型

技术领域

本发明涉及基因芯片技术，特别是一种配对互作基因检测方法及预测模型。

背景技术

基因芯片技术也称DNA微阵列(Microarray)，是一种从转录组水平检测基因表达情况的高通量技术。基因芯片技术的出现，使得从大规模基因表达水平上探究复杂疾病机理成为可能。基因选择是芯片数据分析的重要任务，基因选择即从上万个表达基因中筛选出与肿瘤表型相关的信息基因。芯片技术能一次检测上万个基因的表达量，但并不是每个基因都与肿瘤表型相关，过多的无关、冗余基因可导致过拟合、维数灾等问题，且不利于肿瘤发病机制研究。通过基因选择剔除无关基因，选择一个相关子集至少有以下三个优点：1)提高分类(诊断)模型的泛化性；2)基于少量的基因实施高精度诊断，可以大幅度降低诊断成本，是实现临床应用的基础；3)选择与肿瘤表型相关的基因有利于进一步实现肿瘤机理解析。

信息基因选择对临床诊断、药物靶点筛选以及疾病机理研究等意义重大。大量研究表明，基于多基因的功能通道变异而非单基因变异是导致复杂疾病的主要原因。传统单基因过滤方法(例如t测验^[1])仅能筛选与疾病相关的单效应基因，无法检测到与疾病相关的互作基因。两两基因配对互作是基因互作的最基本形式，现今已有大量研究致力于筛选与复杂疾病关联的配对互作基因，图1-图4展示了典型的配对互作基因情形：单独基于基因A(geneA)无法有效区分得病样本与健康样本，单独基于基因B(geneB)同样无法有效区分得病样本与健康样本，当同时考虑geneA与geneB时可有效区分得病样本与健康样本。配对互作基因检测方法可分为两大类：第一类为基于互信息的非转换策略，如基于系统树的方法(Dendrogram-based method)^[2]与三变量最大信息系数法(MIC(X₁；X₂；Y))^[3]。对基因的连续表达值离散化是互信息方法面临的主要问题，基于系统树的方法采用系统进化树方法进行离散化，但易导致信息丢失，并不能检测到典型的配对互作基因；三变量最大信息系数法基于三维寻优方法计算三变量互信息，可检测配对互作基因，但属于计算密集型算法，计算效率过高，并且其检测到的互作基因并不能直接提高预测模型精度。第二类为转换策略，如doublets^[4]。对基因p与基因q，doublets方法引入一个新的变量Z代替两个初始基因表达值，共有四种转换模式：

sum模式:Z_is＝X_ip+X_iq (1)

diff模式:Z_is＝X_ip–X_iq (2)

mul模式:Z_is＝X_ip×X_iq (3)

sign模式:

将包含n个样本，m个基因的基因表达数据定义为{Y_i,X_ij}，i＝1,2,…,n；j＝1,2,…,m。X_ij为第i个样本的第j个基因的表达值，Y_i表示第i个样本的疾病表型(可用1表示不得病，2表示得病)。经表达值转化后，计算新变量Z与Y之间的相关性。该方法具有计算效率高的优点，但不能有效检测典型的配对互作基因。

发明内容

本发明旨在提供一种计算效率高的配对互作基因检测方法及预测模型，有效提高检测精度。

为解决上述技术问题，本发明所采用的技术方案是：一种配对互作基因检测方法，包括以下步骤：

1)对给定的数据集{Y_i,X_ij}，首先对每个基因表达值进行秩规格化(即对于任一基因j，将其表达值按从小到大顺序排列，然后用每个表达值的排列位置代替初始表达值)，得到规格化后的数据矩阵{Y_i,R_ij}；

2)对任意两个基因p和基因q采用abs模式进行转换，获得转换后的数据集{Y_i,Z_is}；abs模式:Z_is＝|R_ip–R_iq|；其中i＝1,2,…,n；p＝1,2,…,m；q＝1,2,…,m；p≠q；s＝1,2,…,m(m-1)/2；n为数据集中的样本数，m为数据集中的基因数；R_ip表示第i个样本的第p个基因排秩转换后的表达值；R_iq表示第i个样本的第q个基因排秩转换后的表达值；

3)基于t测验方法计算每个变量Z_is与表型Y_i之间的t值，根据t值对应的概率值p值判断两个基因之间的互作效应。

本发明中，对应p值小于0.05表示某一对基因互作达到显著水平；p值小于0.01表示某一对基因互作达到极显著水平。

相应地，本发明还提供了一种配对互作基因预测模型，包括分类器，且该分类器的输入变量为经abs模式转换后得到：第i个样本的第p个基因排秩转换后的表达值R_ip和第i个样本的第q个基因排秩转换后的表达值R_iq；其中，abs模式：Z_is＝|R_ip–R_iq|；其中i＝1,2,…,n；p＝1,2,…,m；q＝1,2,…,m；p≠q；s＝1,2,…,m(m-1)/2；n为数据集中的样本数，m为数据集中的基因数；R_ip表示第i个样本的第p个基因排秩转换后的表达值；R_iq表示第i个样本的第q个基因排秩转换后的表达值。

与现有技术相比，本发明所具有的有益效果为：本发明基于abs模式转换，可有效检测到与疾病关联的配对互作基因，并且因为在重要性评价时，采用的是简单的t测验方法，具有计算效率高的优点。另外，以经过abs模式转换后的新的变量可有效提高模型预测精度。

附图说明

图1-图4表示典型的配对互作基因模式(黑色为病例样本，灰色为健康样本)；

图5abs模式筛选的最强互作基因对；

图6MIC(X₁；X₂；Y)方法筛选的最强互作基因对；

图7sum模式筛选的最强互作基因对；

图8diff模式筛选的最强互作基因对；

图9mul模式筛选的最强互作基因对；

图10sign模式筛选的最强互作基因对；

图11Dendrogram-based方法筛选的最强互作基因对。

具体实施方式

本发明基于转换策略提出了一种新的配对互作基因快速检测方法。对给定的数据集{Y_i,X_ij}，但基因芯片数据存在噪音，假设有500个样本，对某个基因而言，其它样本的表达值可能都是200左右，但有一个样本的表达值达到1000，所以首先对每个基因表达值进行秩规格化^[5]，得到规格化后的数据矩阵{Y_i,R_ij}。例如对基因j，将其表达值按从小到大顺序排列，然后用每个表达值的排列位置代替初始表达值。然后对任意两两基因(假设为基因p与基因q)采用如下所示的abs模式进行转换：

abs模式:Z_is＝|R_ip–R_iq| (5)

式(5)中，i＝1,2,…,n；p＝1,2,…,m；q＝1,2,…,m；p≠q；s＝1,2,…,m(m-1)/2。此时可获得转换后的数据集{Y_i,Z_is}。基于t测验方法可以计算每个变量Z与表型Y之间的t值。若对应的概率值(p值)小于0.05则表示Z与Y之间的关联显著，且对应t值越大，表示Z与Y之间的关联越强，同样表示对应的两个基因之间具有强的互作效应。p值是在做t测验时基于给定自由度下的t分布自动计算出来，规定p值小于0.05为显著水平，表示配对基因有互作效应的概率为95％，若p值小于0.01表示极显著水平，指配对基因有互作效应的概率为99％。基于t值排序，可获得具有强互作效应的配对互作基因。本发明发现，在构建预测模型时，若将互作基因的初始表达值(即X_p与X_q)作为分类器的输入变量，并不能获得较好的预测精度。本发明提出，在构建预测模型时，需将经abs模式转换后的变量(Z_s)作为分类器输入变量，可有效提高模型的预测精度。假设，检测到k对配对互作基因，不转换时有2×k个变量作为模型输入，转换策略有k个变量作为模型输入。

将本发明的方法应用于4个真实基因芯片数据，其样本大小、基因个数以及数据来源见表1。

表1四个二分类基因表达数据

首先分别以doublets的四个模式、基于系统树的方法(Dendrogram-basedmethod)、三变量最大信息系数法(MIC(X₁；X₂；Y))以及本发明方法abs模式检测Prostate 1数据中的配对互作基因。选择互作效应最强的一对基因，结果如图5-11所示，仅abs模式(图5)与MIC(X₁；X₂；Y)方法(图6)可以有效检测到如图3所示的典型配对互作基因。doublets的四个模式(图7-10)所检测的基因虽然能区分得病样本与健康样本，但其并非图1-4所示的典型配对互作基因，而属于典型单效应基因。

表2给出了上述不同样本数时几种方法的计算效率。当样本数较小(200)，MIC(X₁；X₂；Y)方法完成一对互作计算耗时0.009秒，Dendrogram-based method需要0.66秒，而基于转换的方法(doublets以及abs模式法)仅耗时约0.0002秒。随着样本数增加，非转换方法耗时急剧增加，当5000样本时，MIC(X₁；X₂；Y)方法完成一对互作计算耗时16秒，Dendrogram-based method需要929秒，而基于转换的方法(doublets以及abs模式法)仅耗时约0.06秒。显然，基于转换的方法具有较高的计算效率。

表2不同方法的计算效率比较(单位：秒)

进一步以Lung、Prostate2、Cardiovascular三个数据验证abs所检测的配对互作基因的预测性能。分类器选用支持向量分类(Support Vector Classification,SVC)，基于LIBSVM^[10]平台实现，核函数为径向基核，惩罚参数C(C∈[2^-5,2¹⁵])与核函数参数γ(γ∈[2^-15,2³])采用grid.py程序寻优获得。预测性能评价指标为5次交叉测试精度ACC(Accuracy)：将数据随机划分为5等份，首先以其中4份作为训练集，预测另外一份；重复5次，则可得到所有样本的预测结果。ACC为样本判对率。单效应基因采用t测验方法排序，即计算每个基因与表型Y间的t值，按降序排列。互作基因由abs模式方法选择得到。全部5次交叉测试ACC见表3。基于前5、10、20对互作基因，当以初始基因表达值作为SVC输入变量，三个数据的平均精度分别为72.10％、75.18％、78.67％，当将配对的基因表达值经abs转换后再作为SVC输入变量，三个数据的平均精度分别提高到了75.58％、81.67％、84.63％。转换后的互作基因预测精度与前10、20、40个单效应基因的预测结果(77.30％、78.74％、80.36％)相当。最后，组合前10个单效应基因与5对互作基因(共20个基因)，其平均预测精度为83.74％，明显高于20个单效应基因的平均预测精度(78.74％)；同样，组合前20个单效应基因与10对互作基因(共40个基因)，其平均预测精度为85.75％，明显高于40个单效应基因的平均预测精度(80.36％)。以上结果表明：1)直接以配对互作基因作为分类器输入向量，不能提高模型预测精度，需要进行abs转换；2)经abs转换后，互作基因预测性能与单效应基因预测性能相当；3)abs转换后互作基因能提高单效应基因的预测性能。

表3不同输入特征下的5次交叉测试精度(％)

注：“Top10_单效应”表示由t测验获得的最强的前10个单效应基因；“Top5_转换互作对”表示由abs模式方法获得的最强的前5对互作基因，并以abs转换后的5个新变量作为SVC输入向量；“Top5_非转换互作对”表示由abs模式方法获得的最强的前5对互作基因，以对应的初始10个基因表达值作为SVC输入向量。

参考文献

[1]Jafari P,Azuaje F.An assessment of recently published geneexpression data analyses:reporting experimental design and statisticalfactors[J].BMC Medical Informatics and Decision Making,2006,6(1):27.

[2]Watkinson J,Wang X,Tian Z,Anastassiou D.Identification of geneinteractions associated with disease from gene expression data using synergynetworks[J].BMC Systems Biology,2008,2(1):10.

[3]Chen Y,Cao D,Gao J,Yuan ZM Discovering Pair-wise Synergies inMicroarray Data[J].Scientific Reports,2016,6(6):30672.

[4]Chopra P,Lee J,Kang J,Lee S.Improving Cancer ClassificationAccuracy Using Gene Pairs[J].PloS One,5(12):e14305.

[5]Geman D,D'Avignon C,Naiman DQ,Winslow RL.Classifying geneexpression profiles from pairwise mRNA comparisons[J].StatisticalApplications in Genetics&Molecular Biology,2004,3(1):Article19.

[6]Singh D,Febbo PG,Ross K,Jackson DG,Manola J,Ladd C,et al.Geneexpression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.

[7]Spira A,Beane JE,Shah V,Steiling K,Liu G,Schembri F.et al.Airwayepithelial gene expression in the diagnostic evaluation of smokers withsuspect lung cancer[J].Nature Medicine,2007,13(3):361-366.

[8]Penney KL,Sinnott JA,Tyekucheva S,Gerke T,Shui IM,Kraft P,etal.Association of Prostate Cancer Risk Variants with Gene Expression inNormal and Tumor Tissue[J].Cancer Epidemiology,Biomarkers&Prevention,2015,24(1):255-260.

[9]Ellsworth DL,Jr CD,Weyandt J,Sturtz LA,Blackburn HL,Burke A,etal.Intensive Cardiovascular Risk Reduction Induces Sustainable Changes inExpression of Genes and Pathways Important to Vascular Function[J].Circulation-cardiovascular Genetics,2014,7(2):151-160.

[10]Chang CC,Lin CJ.Libsvm:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):27-52.

Claims

1.一种配对互作基因检测方法，其特征在于，包括以下步骤：

1)对给定的数据集{Y_i,X_ij}，首先对每个基因表达值进行秩规格化，得到规格化后的数据矩阵{Y_i,R_ij}；

2.根据权利要求2所述的配对互作基因检测方法，其特征在于，对应p值小于0.05表示某一对基因互作达到显著水平。

3.根据权利要求2所述的配对互作基因检测方法，其特征在于，p值小于0.01表示某一对基因互作达到极显著水平。

4.一种配对互作基因预测模型，其特征在于，包括分类器，且该分类器的输入量为经abs模式转换后得到的第i个样本的第p个基因排秩转换后的表达值R_ip和第i个样本的第q个基因排秩转换后的表达值R_iq；其中，abs模式：Z_is＝|R_ip–R_iq|；其中i＝1,2,…,n；p＝1,2,…,m；q＝1,2,…,m；p≠q；s＝1,2,…,m(m-1)/2；n为数据集中的样本数，m为数据集中的基因数；R_ip表示第i个样本的第p个基因排秩转换后的表达值；R_iq表示第i个样本的第q个基因排秩转换后的表达值。

5.根据权利要求4所述的配对互作基因预测模型，其特征在于，所述分类器为SVC分类器。