CN107066781A

CN107066781A - 基于遗传和环境相关的结直肠癌数据模型的分析方法

Info

Publication number: CN107066781A
Application number: CN201610953314.2A
Authority: CN
Inventors: 章乐; 郑纯秋; 李甜; 周紫垣; 陈霸东; 邢磊; 李婷婷
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2017-08-18
Anticipated expiration: 2036-11-03
Also published as: CN107066781B

Abstract

本发明提供了一种基于遗传和环境相关的结直肠癌数据模型的分析方法，包括：接收参考人群的指定特征类型的结直肠癌(CRC)数据；对所述数据进行预处理，得到标准化数据；基于标准化数据，对数据进行分类；对每个子类使用稀疏主成分分析和/或信息熵法和/或Relief方法进行特征选择；使用维恩图获取三种方法的交集，使用U检验得到有显著性差异的特征；将特征基因数据样本集分成测试样本和训练样本，根据训练样本得到训练后分类器，将测试样本注入训练后分类器，对测试样本进行特征分类，并统计分类器的分类准确性。本发明实施例可以提高提取致癌因子的准确性，提高分类准确率。

Description

基于遗传和环境相关的结直肠癌数据模型的分析方法

技术领域

本发明涉及生物信息学技术领域，主要涉及生物数据分析和生物数据挖掘的方法，具体涉及大遗传和环境相关的大肠癌数据建立一个稳健的结直肠癌的数据模型，并在该数据模型的基础上进行数据分析和挖掘。

背景技术

结直肠癌包括结肠癌和直肠癌,是世界范围内癌症相关发病和死亡的一个主要原因。2002年约有1023152例新诊断结直肠癌病例,并且528978有例患者死于结直肠癌,结直肠癌在男性恶性肿瘤发病谱和死亡谱中均居第四位分别为,而在女性恶性肿瘤发病谱中居第三位,在死亡谱中居第五位。也就是说每半分钟就有1人被新诊断为结直肠癌,每分钟就有1人因患有结直肠癌而死亡。

虽然与北美和西欧发达国家相比,我国结直肠癌发病尚处于中等水平,但是随着生活环境的变化、人口老龄化及生活方式的西化,我国结直肠癌的发病率近年来呈明显上升的趋势。根据中国国家癌症数据库资料表明,结直肠癌是中国一年期间发病率上升速度最快的第三大恶性肿瘤,仅次于肺癌、女性乳腺癌。中国结直肠癌患者的发病年龄多在40-60岁,由于结直肠癌起病隐匿,症状的公众知晓度较低,许多患者在确诊时已经处于晚期。结直肠癌大约有25％的患者初次就诊时就已经发生转移。另外,高达50％的新诊断患者最终将进展为转移性结直肠癌,发生转移的患者能存活5年以上的不足5％。中晚期的结直肠癌患者治疗效果较差,其不良预后严重影响患者本人的生活质量的同时,也给肿瘤患者及家人带来了巨大的经济负担。结直肠癌已经成为严重影响我国人群生命质量的疾病。

尽管近几十年来随着科学技术的发展及诊疗技术的进步，结直肠癌的治疗效果得到了很大的提升，尤其是早期结直肠癌的预后情况大有好转，但是晚期结直肠癌患者的5年生存率仍极差，而且大多数结直肠癌病例发现时已进入晚期。如能探明结直肠癌的发病机制，即可在病因上对其进行预防和控制，大大降低其发生率。

结直肠癌的形成既非单纯环境因素所致，也非仅仅遗传因素所为，而是外部致病因素通过一定途径与相关基因相互作用，导致机体代谢和功能的变化。因此，单纯环境因素或基因多态性的研究已不能满足结直肠癌发生的病因解释，所以基因-环境交互作用的研究已倍受关注。由于遗传因素一般恒定不变，我们可以根据其与环境因素交互作用的特点，控制环境、职业和生活方式中的有害暴露因素，以达到有效预防结直肠癌的目的。因此，使用大遗传和环境相关的大肠癌数据建立一个稳健的结直肠癌风的险预测模型的方法具有重大的现实意义。

随着疾病遗传学研究的深入开展,人们发现基因对疾病的影响是非常复杂的,很多疾病并非简单的由单一环境影响,许多常见疾病和复杂性状可能.由多种遗传与环境因素以及它们的相互作用确定,在人群中比较常见,如结直肠癌、糖尿病、骨质疏松症、高血压等。在复杂性疾病中,很多位点相互作用并且和环境因素一起影响疾病的形成。

众所周知，传统的生物实验非常昂贵并且要花费大量的时间，所以近年来越来越多的癌症科学家使用统计模型去预测结直肠癌的发病状况，从数学的层面上去预测结直肠癌的发病风险或者提取关键致癌生物标记。YaZhou Wu等人用传统的逻辑回归和交叉分析去分析数据量比较小的结直肠癌病人数据，确定预测模型去探索结直肠癌的发病状况；Ritchie和她的同事等人基于统计量和交叉验证提出了多因子降维法(MDR)来探索结直肠癌的致癌基因。MDR其基本思想是：先利用部分数据(从全部数据中随机抽取)得出模型，再在剩余的数据中加以检验；并且多次重复这一过程以避免数据的机会性划分对结果造成的影响。但是，上面的研究方法存在一定的局限性，并没有提高预测结直肠癌的精度。

以下对本发明所涉及到的技术词汇/技术术语注释如下：

1、结直肠癌(colorectal cancer，CRC)

2、稀疏主成分分析(sparse principal component analysis,SPCA)

3、支持向量机(support vector machine,SVM)

4、广义递归最大相关熵算法(generalized Kernel recursive maximumcorrentropy algorithm,GKRMC)

5、Relief方法：是一种特征选择算法，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。

发明内容

有鉴于此，本发明在总结前人的研究基础上，提出建立一个多层次的结直肠癌数据模型，并基于上述模型进行数据的分析，利用现有CRC数据，结合稀疏主成分分析、信息熵和Relief算法来对数据进行降维，并且用维恩图得到三个方法选取的特征的交集，并且使用逻辑回归、SVM和GKRMC对降维后的数据进行数据挖掘和结果预测，提高分析和预测结果的准确度。

具体而言，本发明所提出的技术方案如下：

一种基于遗传和环境相关的结直肠癌数据模型的分析方法，其特征在于，所述方法包括：

步骤1、接收样本特征类型的CRC数据；

步骤2、对所述CRC数据进行预处理，获得预处理数据；

步骤3、将CRC的所述预处理数据分为多个子类；

步骤4、针对每个所述子类，进行特征选择，获得不同子类的特征集；

步骤5、获取不同子类的所述特征集的交集，检验并得到其中具有显著性差异的特征；

步骤6、将所述具有显著性差异的特征对应的特征基因数据样本集分成测试样本和训练样本，我们可以采用多种方式进行样本的划分，例如使用基于交叉验证方法等，将所述训练样本分别注入多个分类器，得到训练后分类器，将所述测试样本注入所述训练后分类器，对所述测试样本进行特征分类，并统计所述训练后分类器的分类准确性。

优选地，步骤2.1、对维度不一致的所有CRC数据，进行规范化，所述规范化方法为：

其中x表示某一具体分数，u表示平均值，σ表示标准差，z为规范化后的数据。

优选地，所述步骤3中，所述子类为四个，四个子类数据分别为基因数据、人口学特征数据、生活方式数据、食物数据。

优选地，所述步骤4中，针对每个所述子类，采用以下方法中的一种或其任意组合，进行特征选择：稀疏主成分分析法、信息熵方法、Relief方法。

优选地，所述在所述稀疏主成分分析法中，所述主成分为：

PC_i＝l_1iX₁+l_2iX₂+L+l_miX_m

其中，X₁,X₂,...,X_m表示原始的变量，l_1i,l_2i,...l_mi表示的是主成分PC_i的系数，m表示变量的总数量。

优选地，所述信息熵方法中，计算每个变量的信息增益，选取信息增益大于一预设阈值的特征。

优选地，所述Relief方法根据各个特征和类别的相关性赋予该特征不同的权重，移除权重小于一预设阈值的特征；

对于所述权重，依据各个特征与同类样本特征及不同类样本特征的距离关系，更新所述权重。

更为优选地，上述权重的更新可以采用具体如下的方式：

从训练集D中随机选择一个样本R，从和R同类的样本中寻找最近邻样本H，设为Near Hit，从和R不同类的样本中寻找最近邻样本M，设为NearMiss，根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，则降低该特征的权重；重复以上过程T次，最后得到各特征的平均权重。

优选地，所述步骤5具体包括：针对所述步骤4中获得的特征集，采用维恩图选取交集，再利用U检验得到具有显著性差异的特征。

优选地，所述多个分类器采用以下分类器中的一种或其任意数量的组合：逻辑回归分类器、支持向量机分类器和广义递归最大相关熵分类器。

优选地，对所述分类器的分类准确性判定时，采用以下四个指标：灵敏性、特效性、精度、准确率。

优选地，对于基于信息熵进行特征选择，计算每个变量的信息增益，选取信息增益大的特征。信息熵的定义为：

其中，p(x)表示x每一种取值的概率。

优选地，对于使用Relief方法进行特征选择，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit(NH)，从和R不同类的样本中寻找最近邻样本M，称为NearMiss(NM)，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复T次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。

更为优选地，Relief算法的流程可以采用如下方式：

for i＝1:T

w_i＝w_i+|x⁽ⁱ⁾-NM⁽ⁱ⁾(x)|+|x⁽ⁱ⁾-NH⁽ⁱ⁾(x)|

其中，w_i表示特征的权重。

优选地，对于使用逻辑回归分类器，逻辑回归其实仅为在线性回归的基础上，套用了一个逻辑函数，可采用如下方式：

其中，x₁,x₂,...,x_m表示原始的变量，β₀,β₁,...,β_k表示的是的系数。

优选地，对于支持向量机分类器，进行回归预测，这里我们考虑的是一个两类的分类问题，数据点用x来表示，这是一个n维向量，W^T中的T代表转置，而类别用y来表示，可以取1或者-1，分别代表两个不同的类。一个线性分类器就是要在n维的数据空间中找到一个超平面，其方程可以表示为：

f(x)＝W^Tx+b

其中，W^Tx表示向量W^T和向量x的内积。

优选地，对于GKRMC分类器，进行回归预测，GKRMC方法的流程为：

其中，Γ(.)表示伽玛函数，α是一个形式参数，β是遗忘因子，γ_α,β表示标准化常量，表示是映射函数，γ₂表示正则因子。

与现有技术相比，本发明技术方案具有以下的有益效果：

(1)使用大数据标准收集临床结直肠癌的遗传变异和环境暴露的信息数据。收集的高维数据不仅有大容量，包括369个结直肠癌患者和929个无结直肠癌对照组，而且有305个数据类型。

(2)整合的生物分类，特征选择和回归分析三个阶段设计的结直肠癌预测模型，具有很好的鲁棒性和可靠性。

(3)通过GKRMC算法来提高模型预测结直肠癌的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图；

图2为本发明维恩图得到的交集结果图；

图3为本发明GKRMC方法流程图；

图4为本发明预测结果对比图；

图5为本发明各方法运行时间对比图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

在一个具体的实施例中，本发明提供了一种基于遗传和环境相关的结直肠癌数据的患病预测方法，所述方法包括：

步骤1、接收参考人群的指定特征类型的CRC数据；

步骤2、对所述数据进行预处理，得到标准化数据；

步骤3、基于标准化数据，从生物医学角度对数据进行分类；

步骤4、对每个子类分别使用稀疏主成分分析、信息熵、Relief方法进行特征选择的；

步骤5、使用维恩图获取三种方法的交集，使用U检验得到有显著性差异的特征；

步骤6、将所述具有显著性差异的特征对应的特征基因数据样本集分成测试样本和训练样本，将所述训练样本分别注入多个分类器，得到训练后分类器，将所述测试样本注入所述训练后分类器，对所述测试样本进行特征分类，并统计所述训练后分类器的分类准确性。

在一个具体的实施方式中，该步骤6还可以采用如下的一个优选方式实现：基于交叉验证方法，将所述特征基因数据样本集分成测试样本和训练样本，将所述训练样本分别注入逻辑回归分类器、支持向量机分类器和广义递归最大相关熵分类器，得到训练后分类器，将所述测试样本注入所述训练后分类器，对所述测试样本进行特征分类，并统计分类器的分类准确性。本发明实施例可以提高提取致癌因子的准确性、降低测试样本和训练样本的选择对结直肠癌分类准确率的影响。

图1是本发明的总体流程图，以下结合图1对本发明的模型建立和计算方法进行详细阐述。

(1)获取CRC数据，建立模型基础数据库

数据的收集是由中国重庆的第三军医大学收集,收集到的数据包括369例经诊断为结直肠癌患者的数据，929个无癌症的患者的数据。

(2)CRC数据预处理

对维度不一致的所有CRC数据，进行规范化，规范化方法可以采用本领域中的一般规范化方法，均能够适用于上述的多维度数据预处理中。

在一个优选的实施方式中，规范化方法可以采用如下的方式：

(3)生物医学分类

从医学角度出发，在一个具体的实施方式中，可以将CRC数据分为四类，分别为基因、人口学特征、生活方式、食物四类数据。基因描述的是基因位点的分布；人口学特征描述的是像年龄、性别、身高体重等；生活方式描述的是吸烟、饮酒、饮茶等情况；食物描述的是蔬菜类、豆制品类、肉类、海鲜类等食物的食用情况。

(4)特征选择

具体特征的选择，可以采用不同的方式，也可以采用相同的方式对不同的子集进行选择，以下列举出的几种方法，仅作为最优的方法供选择使用，本领域技术人员也可以在此基础上使用本领域中的其他特征选择方式对特征子集进行选择处理，该些常规的方法更改均应当视为落入本发明的保护范围之内。

(4.1)、使用稀疏主成分分析进行特征选择。在主成分分析中增加一个惩罚函数，它会把主成分变得稀疏。所描述的主成分是；

PC_i＝l_1iX₁+l_2iX₂+L+l_miX_m

其中，X₁,X₂,...,X_m表示原始的变量，l_1i,l_2i,...l_mi表示的是主成分PC_i的系数。获得的特征如下表所示：

具体稀疏主成分分析的一般方法是本领域技术人员所熟知的，此处不再赘述。

(4.2)、基于信息熵进行特征选择。计算每个变量的信息增益，选取信息增益大的特征。信息熵的定义为：

其中，p(x)表示x每一种取值的概率。获取的特征如下表所示：

选取信息熵增益大的特征时，我们可以根据样本数量、数据特性等要求，设置一阈值进行比较筛选。

(4.3)、使用Relief方法进行特征选择。根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。

对于所述权重，依据各个特征与同类样本特征及不同类样本特征的距离关系，更新所述权重。权重的更新，在于对不同的特征进行区分，从而实现对有价值特征的筛选和选取。

在一个优选的实施方式中，具体可以采用如下的方法：从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit(NH)，从和R不同类的样本中寻找最近邻样本M，称为NearMiss(NM)，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复T次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的流程为：

for i＝1:T

w_i＝w_i+|x⁽ⁱ⁾-NM⁽ⁱ⁾(x)|+|x⁽ⁱ⁾-NH⁽ⁱ⁾(x)|

其中，w_i表示特征的权重。获取的特征如下表所示：

(5)维恩图

对上述三种方法或其任意组合方式选出来的特征，用维恩图做一个交集选取交集，如图2所示。

我们选取其中两两或者三个相交的特征作为我们的候选特征。接下来，用U检验选取出有显著性差异的特征作为致癌因子。获取的特征如下表所示：

综合上述结果，对通过步骤4的三种方法选出来的特征，用维恩图做一个交集选取交集，使用U检验得到有显著性差异的特征。

(6)回归预测

基于上述数据进行回归预测时，对于不同的分类器，其具体的分类预测方法分别如下，这里需要指出的是，以下各个不同的分类器的步骤不分先后顺序，可以是以任意顺序进行先后运行的，也可以以任意的组合方式进行并列同步运行，以下的步骤标号，仅为理解方便而设置，不应理解为步骤之间的先后逻辑关系：

步骤6.1、使用逻辑回归进行回顾预测。逻辑回归其实仅为在线性回归的基础上，套用了一个逻辑函数。其中公式是；

步骤6.2、基于支持向量机进行回归预测。这里我们考虑的是一个两类的分类问题，数据点用x来表示，这是一个n维向量，W^T中的T代表转置，而类别用y来表示，可以取1或者-1，分别代表两个不同的类。一个线性分类器就是要在n维的数据空间中找到一个超平面，其方程可以表示为：

f(x)＝W^Tx+b

其中，W^Tx表示向量W^T和向量x的内积。

步骤6.3、使用GKRMC方法进行回归预测。GKRMC是一种在线的自适应的方法,它可以对数据进行万能逼近。相对来说，计算复杂度比较小。GKRMC算法的流程为：

其中，Γ(.)表示伽玛函数，α是一个形式参数，β是遗忘因子，γ_α,β表示标准化常量，表示是映射函数，γ₂表示正则因子。交集结果图如图2所示。

我们使用四个指标：灵敏性(sensitivity)、特效性(specificity)、精度(precision)和准确率(accuracy)来衡量模型的预测结直肠癌的效果。所述定义如下表所示：

在一些可行的实施例中，基于本发明提供的方法，得到的分类准确率如图4所示，各方法运行时间如图5所示。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于遗传和环境相关的结直肠癌数据模型的分析方法，其特征在于，所述方法包括：

步骤1、接收样本特征类型的CRC数据；

步骤2、对所述CRC数据进行预处理，获得预处理数据；

步骤3、将CRC的所述预处理数据分为多个子类；

2.根据权利要求1所述的方法，其特征在于，所述步骤2具体包括：

步骤2.1、对维度不一致的所有CRC数据，进行规范化，所述规范化方法为：

<mrow> <mi>z</mi> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <mi>u</mi> </mrow> <mi>&sigma;</mi> </mfrac> </mrow>

3.根据权利要求1所述的方法，其特征在于，所述步骤3中，所述子类为四个，四个子类数据分别为基因数据、人口学特征数据、生活方式数据、食物数据。

4.根据权利要求1所述的方法，其特征在于，所述步骤4中，针对每个所述子类，采用以下方法中的一种或其任意组合，进行特征选择：稀疏主成分分析法、信息熵方法、Relief方法。

5.根据权利要求4所述的方法，其特征在于，所述在所述稀疏主成分分析法中，所述主成分为：

PC_i＝l_1iX₁+l_2iX₂+L+l_miX_m

<mrow> <mi>v</mi> <mi>a</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>PC</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>max</mi> <mi> </mi> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mi>j</mi> <mi>e</mi> <mi>c</mi> <mi>t</mi> <mi> </mi> <mi>t</mi> <mi>o</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>l</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> <mo>=</mo> <mn>1</mn> <mo>,</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <msub> <mi>l</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>l</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>&le;</mo> <mi>k</mi> <mo><</mo> <mi>i</mi> </mrow>

6.根据权利要求4所述的方法，其特征在于，所述信息熵方法中，计算每个变量的信息增益，选取信息增益大于一预设阈值的特征。

7.根据权利要求4所述的方法，其特征在于，所述Relief方法根据各个特征和类别的相关性赋予该特征不同的权重，移除权重小于一预设阈值的特征；

8.根据权利要求4所述的方法，其特征在于，所述步骤5具体包括：针对所述步骤4中获得的特征集，采用维恩图选取交集，再利用U检验得到具有显著性差异的特征。

9.根据权利要求1所述的方法，其特征在于，所述多个分类器采用以下分类器中的一种或其任意数量的组合：

逻辑回归分类器、支持向量机分类器和广义递归最大相关熵分类器。

10.根据权利要求1所述的方法，其特征在于，对所述分类器的分类准确性判定时，采用以下四个指标：灵敏性、特效性、精度、准确率。