CN111739581A

CN111739581A - 一种基因组变量综合筛选方法

Info

Publication number: CN111739581A
Application number: CN202010532686.4A
Authority: CN
Inventors: 林晓惠; 亓彦鹏; 李超
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-02
Anticipated expiration: 2040-06-12
Also published as: CN111739581B

Abstract

本发明提供一种基因组变量综合筛选方法，属于基因组数据分析技术领域。该方法采用非重叠度衡量基因自身的区分能力，通过基因与基因之间的相关性得到基因的影响力，考虑基因所在的社团的重要性。综合多项指标评价基因的重要性并以此筛选基因集进行后续基因标志物的研究。

Description

一种基因组变量综合筛选方法

技术领域

本发明属于基因组数据分析技术领域，发明结合当前高通量技术下基因组数据变量多、噪音多、变量之间协同作用等实际特点，从单分子层面、分子相互作用层面以及网络层面分析了基因组中基因自身差异性、影响力以及基因所处社团的重要性，综合各项指标，筛选基因标志物，有助于后续癌症的检测以及癌症机理的探讨，是一种基因组变量综合评价筛选方法。

背景技术

进入21世纪，生物信息学迅速发展。生物信息学是计算机科学与生物学相结合的新兴学科，主要研究生物信息的采集、存储、分析和解释，通过综合运用计算机技术和生物学技术揭示潜藏在生物大数据背后的生命奥秘。生物学技术领域目前已开发出适合于记录组织样本中基因表达数据的微阵列技术。一些大型癌症基因组平台收集并提供了大量的基因组癌症数据，为全面了解癌症的发生发展机理提供了全新的视角和前所未有的资源支持。

癌症的检测对于提高患者的生存率和生活质量起着至关重要的作用。检测癌症的方法主要有临床症状分析、影像诊断、生化检查和分子诊断等。目前，检测基因表达谱数据已成为一种潜在的癌症检测方法。例如，血小板的基因表达谱数据可以用来检测癌症。利用血小板基因表达谱数据检测肿瘤具有独特的分子诊断学优势，克服了获得组织的困难。

然而，基因组数据的特点是样本量小、特征维度高、噪声多。从众多的基因中筛别出真正与癌症发生发展相关的基因仍然是一个挑战。由于这个原因，许多研究都集中在选择对分类有重要意义的一小群基因上。机器学习算法中的特征选择技术便尤为重要，并且过滤式特征选择方法由于其计算量小、可解释能力强得到了广泛的运用。过滤式特征选择方法先按照某种规则对数据集进行特征选择，再训练学习器。常见的过滤式特征选择算法有mRMR、ReliefF、T-test、ERGS等算法。mRMR算法是基于信息论中最大相关性、最小冗余性的原则进行特征过滤。ReliefF算法依据特征对近邻样本的区分能力对特征赋予不同权重，筛选权重高的特征进行训练学习。T-test算法利用统计理论检验特征分布的差异性。ERGS算法根据特征的非重叠度过滤特征。这些方法主要是依赖特征自身的区分能力而对特征进行筛选。将其用于复杂的生物数据集，却有其一定的局限性。癌症的发生发展往往是多个基因相互作用的结果。基因间的相互作用不可忽视。因此综合考虑基因自身的区分能力、与其他基因的交互作用以及它在基因网络中的作用三个方面将使得基因的评价更为准确。

本发明提出了一种基因组变量综合筛选方法。该方法采用非重叠度衡量基因自身的区分能力，通过基因与基因之间的相关性得到基因的影响力，考虑基因所在的社团的重要性。综合多项指标评价基因的重要性并以此筛选基因集进行后续基因标志物的研究。

发明内容

本发明的目的是建立一种基因组变量综合筛选方法，进行后续基因标志物的研究。本发明根据基因组数据变量多、噪音大、变量间相互作用的特点，提出了一种理论假设：致癌基因的表达水平在正常样本与癌症患者上具有较大的差异，在众多基因中有较大的影响力，在网络中应属于重要的社团。基于该假设，提出了一种基因组变量的综合评价筛选方法。该方法的核心技术为：评价基因组基因自身差异性、基因的影响力以及基因所处社团的重要性。该方法基于非重叠度得到基因差异表达水平得分。基因的非重叠度大，说明基因的表达水平在正常人群与癌症患者之间具有较大的差异，更有可能是致癌基因；基因的非重叠度小，说明基因的表达水平在正常人群与癌症患者之间相似，可能是一个无关变量，它是致癌基因的概率较低。癌症的发生往往是分子相互作用的结果。一个基因发生了变异，与它相关性强的基因也会受到影响。一个影响力大的基因发生变异，将会带来一系列连锁反应，甚至会有牵一发而动全身的效果。从网络角度出发，基因往往会与其他基因形成社团共同起作用，大大小小的社团随之出现。社团的重要性不尽相同。社团的重要性由社团的大小以及社团的差异水平得分决定。一个基因处于重要的社团，其影响力将会进一步扩大。小的社团通常不会产生显著的通路富集注释。在极端情况下，有的基因会成为一个孤立点，这意味着该基因与其他基因没有明显的交互，即使发生了变异，对于网络的影响亦是无足轻重，不会干扰机体的正常运行。社团中差异表达的基因数目大，意味着该社团在疾病的发生发展中参与程度高。反之，社团中差异表达的基因数目微乎其微，那么该社团与疾病的发生发展联系较小。综合基因组基因自身差异性、影响力以及基因所处社团的重要性，筛选出基因标志物，进行后续基因标志物的研究。

为了实现上述目标，本发明采用的技术方案如下：

一种基因组变量综合筛选方法，步骤如下：

使用微阵列数据集，将基因看作变量，将基因的表达值看作变量的值；

将样本集合划分为训练集和测试集两部分，训练集用于构建筛选模型，测试集用于验证；令F＝{f₁,f₂,...,f_i,...,f_m}代表变量集合，m是变量数；X＝{x₁,x₂,...,x_n}代表训练集样本集合，n是训练集样本数；C＝{c_j：j＝1,2}代表类标集合；Y＝(y₁,y₂,...,y_i,...,y_n)是n个样本的类标向量，其中y_i∈C是第i(1≤i≤n)个样本的类标。

步骤一、计算基因差异性得分；

(1.1)计算特征f_i(1≤i≤m)在类c_j(j＝1,2)样本上的有效范围，公式(1)如下：

公式(1)中，

分别代表特征f_i在类c_j上有效范围的下界和上界，μ_ij代表特征f_i在类c_j上的均值，σ_ij代表特征f_i在类c_j上的标准差，p_j代表类c_j的先验概率。

(1.2)计算f_i的重叠区域OA_i，公式(2)如下：

公式(2)中，

代表特征f_i在两类样本上有效范围的上界的最大值，

代表特征f_i在两类样本上有效范围的下界的最大值。

(1.3)计算特征f_i的重叠区域系数AC_i，公式(3)如下：

(1.4)计算特征f_i的标准化重叠区域系数NAC_i，公式(4)如下：

(1.5)计算特征f_i的非重叠度w_i，公式(5)如下：

w_i＝1-NAC_i (5)

(1.6)根据特征f_i的非重叠度w_i，计算其自身差异性得分DS_i，公式(6)如下：

步骤二、计算特征的影响力；

(2.1)计算特征f_i(1≤i≤m)与特征f_u(1≤u≤m)之间的相关性cor_iu，公式(7)如下：

公式中cov(f_i,f_u)是特征f_i与特征f_u之间的协方差，

与

分别代表特征f_i的标准差和特征f_u的标准差。

(2.2)计算特征f_i对特征f_u的影响力，公式(8)如下：

公式中abs(cor_iu)代表特征f_i与特征f_u相关性的绝对值。

(2.3)计算特征f_i的影响力，公式(9)如下：

步骤三、计算特征f_i所属社团的重要性；

(3.1)构建稀疏的相关性网络Net，公式(10)如下：

当特征f_i与特征f_j之间相关性的绝对值大于阈值β，则建立连边，否则特征f_i与特征f_j之间没有连边。

(3.2)执行快速贪婪算法划分社团。令G＝{g₁,g₂,...,g_k,...,g_l}代表社团集合，l是社团数。令g_k＝{f₁’,f₂’,...f_o’}，o是社团g_k的社团成员数，f₁’,f₂’,...f_o’是g_k的社团成员。

(3.3)评价f_i所在社团的重要性。筛选特征集合F中差异性得分大于0的特征构成集合DF，令DF＝{f_v|DS_v>0，f_v∈F}。f_i所在社团的重要性得分公式如下:

MS_i＝MSS_i+MDS_i (13)

MSS_i代表特征f_i所在社团的规模得分，MDS_i代表特征f_i所在社团的差异性得分，MS_i代表特征f_i所在社团的综合得分，||代表集合中元素数目。

步骤四、计算特征f_i的综合得分，公式如下：

Score_i＝DS_i*I_i*MS_i (14)

步骤五、筛选目标变量；

令已选特征集合为S，S初始化为空集。从特征集合F中选择一个综合得分最高且差异性得分大于0的特征，加入已选特征集合S，并且从特征集合F中删除它以及它在相关性网络Net中的近邻。在剩余的特征集合F中重复此过程，直至特征集合F为空或者已选特征集合S中特征的数量到达一定阈值Ω。

本发明的有益效果：该方法的核心技术基于基因组数据的实际特点，对基因进行了多角度分析与综合评价，挖掘出基因标志物集合，对所选基因标志物进行分类测试，分类性能优越，故本发明为基因组数据的前期分析处理提供了切实有效的方法，具有较强的应用价值。

附图说明

图1为DIM算法流程；

图2为相关性网络图；

图3为基因hsa-miR-18a*盒图；图中，左边是1，右边是2；

图4为基因hsa-miR-381盒图；图中，左边是1，右边是2；

图5为基因hsa-miR-18a*与基因hsa-miR-381的ROC曲线图。

具体实施方式

下面结合技术方案，构建假设的数据集来进一步说明本发明的具体实施方式。假设基因组数据共10个样本，包含两类(1和2)，共6个基因变量：f₁、f₂、f₃、f₄、f₅和f₆。

变量评价与筛选：

(1)计算基因的差异性得分。使用公式(1)-(5)，计算每个基因的非重叠度，假设f₁、f₂、f₃、f₄、f₅和f₆的非重叠度分别为0.9、0.8、0.8、0.6、0.5、0.4，设置α＝0.8，根据公式(6)，可以得到每个基因的差异性得分，DS₁＝0.9，DS₂＝DS₃＝0.8，DS₄＝DS₅＝DS₆＝0。

(2)利用基因之间的相关性计算每个基因的影响力。假设基因之间的相关性如下表所示：

表1.基因之间的相关性

根据公式(8)，计算每个基因对其他基因的影响力，以f₁为例，如下所示：

I₁₂＝0.8/(0.8+0.5+0.5+0.5+0.5)＝0.29，I₁₃＝I₁₄＝I₁₅＝I₁₆＝0.5/(0.5+0.5+0.8+0.8+0.8)＝0.15。根据公式(9)，计算基因的影响力，I₁＝0.29+0.15+0.15+0.15+0.15＝0.89。其他基因的影响力同理，I₂＝0.89，I₃＝I₄＝I₅＝I₆＝1.08。

(3)计算每个基因所在社团的重要性。设置相关性阈值为0.6，如公式(10)所示，构建稀疏的相关性网络Net，如图2所示。按照快速贪婪算法对上述6个基因社团划分为2个社团。社团1包含f₁和f₂，社团2包含f₃、f₄、f₅和f₆。按照公式(11)，可以得到模块大小得分MSS₁＝MSS₂＝2/6＝0.33，MSS₃＝MSS₄＝MSS₅＝MSS₆＝4/6＝0.67。按照公式(12)可以得到模块差异性得分MDS₁＝MDS₂＝2/3＝0.67，MDS₃＝MDS₄＝MDS₅＝MDS₆＝1/3＝0.33。因此按照公式(13)可以得到MS₁＝MS₂＝MS₃＝MS₄＝MS₅＝MS₆＝1。

(4)计算每个基因的得分。按照公式(14)可得，f₁的综合得分为Score₁＝0.9*0.89*1＝0.80，同理f₂、f₃、f₄、f₅和f₆的最终得分Score₂＝0.71，Score₃＝0.86，Score₄＝Score₅＝Score₆＝0。f₃的得分最大，并且DS₃不为0，首先加入已选特征集合。从特征集合F中去除f₃和网络Net中f₃的近邻(f₄、f₅、f₆)，因此还剩下f₁、f₂。f₁特征得分较大，并且DS₁不为0，加入到已选特征集合中，从剩余特征集合F中去除f₁和网络Net中f₁的一近邻(f₂)，特征集合F为空，迭代终止。筛选得到的已选特征集合为{f₁,f₃}。

计算测试集上所有样本的预测情况，并与真实类标相比较，得到分类准确率，验证所选基因的区分能力。

下面的表格为此方法DIM与常用模式识别技术mRMR、ReliefF、T-test、ERGS方法在9个公共数据集上交叉验证50次5倍的分类准确度比较结果(准确度±标准差)。*为t检验中p值小于0.05的显著性差异，加粗字体标记出了在相应数据集上取得的最高分类准确率。从结果可以得出，本技术所确定的特征集合具有较强的区分能力。

表2.准确率对比

以上述表格中的GSE28700数据集为例，该数据集包含44个样本(22个正常样本和22个癌症样本)、556个基因。图3-图4为本方法使用50次5倍交叉验证所选择的特征中出现频率最高的前两位，分别为基因hsa-miR-18a*(图3)，基因hsa-miR-381(图4)。从图中可以看出所选择的特征呈现清晰的类间分离趋势。图5为两个特征的ROC曲线图，AUC值达到了0.959，说明筛选得到的这两个特征联合在一块，具有很高的区分能力。

从上述表格中可以看出，该技术可以从基因组数据中挖掘出信息丰富的变量，对于样本的分类具有较高的准确率，为后续基因标志物的研究提供了方向，具有较强的应用价值。

Claims

1.一种基因组变量综合筛选方法，其特征在于，步骤如下：

将样本集合划分为训练集和测试集两部分，训练集用于构建筛选模型，测试集用于验证；令F＝{f₁,f₂,...,f_i,...,f_m}代表变量集合，m是变量数；X＝{x₁,x₂,...,x_n}代表训练集样本集合，n是训练集样本数；C＝{c_j：j＝1,2}代表类标集合；Y＝(y₁,y₂,...,y_i,...,y_n)是n个样本的类标向量，其中y_i∈C是第i个样本的类标，1≤i≤n；

步骤一、计算基因差异性得分；

(1.1)计算特征f_i在类c_j样本上的有效范围，1≤i≤m，j＝1,2；公式(1)如下：