CN108182347A

CN108182347A - 一种大规模跨平台基因表达数据分类方法

Info

Publication number: CN108182347A
Application number: CN201810043836.8A
Authority: CN
Inventors: 蔡瑞初; 侯永杰; 郝志峰; 温雯; 王丽娟; 许柏炎; 陈炳丰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-06-19
Anticipated expiration: 2038-01-17
Also published as: CN108182347B

Abstract

本发明公开了一种大规模跨平台基因表达数据分类方法，包括以下步骤：S1、获取训练集，初始化分类器；S2、对训练集进行数据转换；S3、根据训练集计算相对偏移表；S4、生成候选偏序对，并计算出候选偏序对中的top偏序规则r；S5、更新分类器和训练集；S6、判断样本量与最小支持度θ的大小；S7、设定分类器CL缺省类；S8、预测分类。本发明针对跨平台基因数据挖掘这个问题，通过数据转换，提出了新的偏序对规则挖掘算法和分类模式，可以处理跨平台基因数据的差异性，不仅可以应对更复杂的数据分布，并且通过相对偏移表进行规则预筛选，显著提升了挖掘效率，能够应用于大规模数据上。

Description

一种大规模跨平台基因表达数据分类方法

技术领域

本发明涉及数据挖掘与生物信息学技术领域，更具体地说，涉及一种大规模跨平台基因表达数据分类方法。

背景技术

人的身体状态，包括精神状况和行为偏好是由先天基因组与外界刺激共同决定的。近些年来人类基因组计划的制订和顺利实施，产生了大量的生物分子数据。这些数据内具有丰富的信息，其背后隐藏着人类尚不知道的生物知识。而随着cDNA微阵列和寡核苷酸芯片等高通量检测技术的发展，使得从全基因组水平定量检测基因转录产物mRNA得以实现。基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度。“基因→mRNA→蛋白质”为基因完成表达的过程，因此可以通过分析mRNA，来分析那些基因的表达发生了变化，基因之间有何相关性。运用机器学习方法对基因表达数据进行研究，对于医学临床诊断，揭示疾病发生的因果机制等方面有着重要的意义。

关联规则和分类规则是机器学习领域比较重要的两个分支，Liu等人提出的CBA算法是首个将两种结合起来挖掘基因数据上有效的分类规则。基于关联的分类规则具有直观的可解释性，CBA算法也具有不错的准确度，但是其在高维的基因数据上会产生巨量的冗余规则，并且挖掘巨量规则的过程耗时问题也很严重,降低了算法的实用性。Tan等人提出的k-tsp算法以两个维度的大小关系作为分类规则前项，以pair-wise的形式作为的分类规则模式，来提升分类规则的稳定性，能够处理跨平台数据。但是其效率一般，只适用于小样本数据，同时由于其分类模式过于简单，难以拟合复杂的数据分布情况。

发明内容

有鉴于此，本发明提供了一种大规模跨平台基因表达数据分类方法，解决现有技术中仅能处理高维度小样本的数据，而对大规模数据量难以应对的缺陷。

一种大规模跨平台基因表达数据分类方法，包括以下步骤：S1、获取训练集，初始化分类器：从基因库中获取基因表达数据和样本标签，样本的标签为C＝{C0，C1},将基因表达数据无偏划分为训练集和测试集，其中训练集含有N个基因表达数据样本，每个样本为P个基因的表达值，从而构建一个N*P的矩阵R，并初始化分类器CL；S2、对训练集进行数据转换：对矩阵R进行数据转换，原始样本记录的是P个基因的表达值，经过数据转换后，每个样本记录的是P个按照基因表达值排序的基因名；S3、根据训练集计算相对偏移表T：根据特征函数求得正、负类样本特征，然后根据偏移量函数计算每个基因在正类样本特征中相对于负类样本特征的偏移量，根据偏移量大小对P个基因排序，获得相对偏移表T；S4、生成候选偏序对，并计算出候选偏序对中的top偏序规则r；S5、更新分类器和训练集：将top偏序规则r加入分类器CL，并去除矩阵R中被top偏序规则r前项所命中的样本；S6、判断样本量与最小支持度θ的大小：若样本量大于最小支持度θ，则重复执行步骤S3、S4以及S5；若样本量不大于最小支持度θ，则执行步骤S7；S7、设定分类器CL缺省类：将矩阵R剩余样本中的多数类设定为分类器CL的缺省类；S8、预测分类：用分类器CL对测试集进行分类，判定方法为依次比较分类器CL中的偏序规则，若规则前项命中测试样本，则输出规则后项为预测类别；若CL中无规则命中测试样本，则输出缺省类为预测类别。

作为本发明的优选方案，对训练集进行数据转换的步骤具体为：S21、创建样本中的二元组：将矩阵R中每一个样本的基因表达值和基因名组合成为一个二元组；S22、将二元组进行键升序排序：对矩阵R中每个样本内的P个二元组，以基因表达值为键升序排序；S23、将样本更新为有序基因序列：对矩阵R中每个样本，删去二元组中的基因表达值，从而将样本更新为有序基因序列。

作为本发明的优选方案，根据训练集计算相对偏移表的步骤具体为：S31、计算正类样本特征EP：根据特征函数计算矩阵R中样本的P个基因分别在正类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为正类样本特征EP；S32、计算负类样本特征EN：根据特征函数计算矩阵R中样本的P个基因分别在负类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为负类样本特征EN；S33、计算偏移量：利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)；S34、排序得到相对偏移表T：根据每个基因的偏移量得分值，对P个基因排序后得到的基因序列即为相对偏移表T。

作为本发明的优选方案，生成候选偏移对并计算top偏序规则r的步骤具体为：S41、生成m个候选偏序对：从相对偏移表T的首尾随机各取出m个基因，组合为m个候选偏序对；S42、计算每个候选偏序对的分类规则：每一个候选偏序对<g1,g2>可以产生四个分类规则{g1<g2→C₀,g1<g2→C₁,g1≥g2→C₀,g1≥g2→C₀}，从而每一个候选偏序对得到四个分类规则；S43、找出每个候选偏序对置信度最高的偏序规则，得到m个偏序规则：对每一个候选偏序对，根据置信度公式和支持度公式选取出置信度最高的偏序规则；依次对m个候选偏序对进行选取，从而可得到m个偏序规则；S44、从m个偏序规则中得到top偏序规则r：再次根据置信度公式和支持度公式从m个偏序规则中选取出置信度最高的top偏序规则r。

作为本发明的优选方案，在步骤S3中，所述特征函数的公式定义如下：C_i∈{C₀,C₁}其中，sample.index(gene)为基因在每一个样本中的得分，在本公式中，先计算出基因在每一个样本中的得分，然后再累计得分，从而得到每个基因在对应类别的样本上的总得分

作为本发明的优选方案，在步骤S3中，所述偏移量函数的公式定义如下：

Distance(gene)＝EP.index(gene)-EN.index(gene)

其中，EP.index(gene)为矩阵R中每一个基因根据在正类样本EP中的总得分排序后的顺位值，EN.index(gene)为矩阵R中每一个基因根据在负类样本EN中的总得分排序后的顺位值，通过计算矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的差值，该差值即为矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)。

作为本发明的优选方案，所述支持度(supp)公式为supp(X)＝所述置信度(conf)公式为conf(X→Y)＝supp(X∪Y)/supp(X)；先根据支持度(supp)公式计算出每一个候选偏序对规则的支持度(supp)，然后再根据每一个候选偏序对规则的支持度(supp)，利用置信度(conf)公式计算出各个候选偏序对规则的置信度(conf)，然后对比置信度(conf)，得到每一个候选偏序对中置信度(conf)最高的规则作为该候选偏序对的唯一规则。

从上述的技术方案可以看出，与现有技术相比，本发明的有益效果为：

本发明先构建一个含有N个基因表达数据测试样本，每个样本为P个基因的表达值的训练集的矩阵R，然后对矩阵R进行数据转换后得到按照基因表达值排序的基因名序列；然后计算出各个基因的相对偏移量并按照偏移量大小排序得到相对偏移表T；然后从相对偏移表T中的首尾各取出m个基因，随意组合成m个候选偏序对；然后根据置信度得到该候选偏序对的Top偏序规则r并更新分类器CL和训练集，直至训练集数量属于最小支持度θ，将矩阵R剩余样本中的多数类设定为分类器CL的缺省类；然后用分类器CL对测试集进行分类，判定方法为依次比较分类器CL中的偏序规则，若规则前项命中测试样本，则输出规则后项为预测类别；若CL中无规则命中测试样本，则输出缺省类为预测类别；因此，本发明针对跨平台基因数据挖掘这个问题，通过数据转换，提出了新的偏序对规则挖掘算法和分类模式，可以处理跨平台基因数据的差异性，不仅可以应对更复杂的数据分布，并且通过相对偏移表进行规则预筛选，显著提升了挖掘效率。

附图说明

图1为本发明实施例提供的一种大规模跨平台基因表达数据分类方法的步骤流程图。

图2为对训练集进行数据转换的具体步骤流程图。

图3为根据训练集计算相对偏移表的具体步骤流程图。

图4为生成候选偏移对并计算top偏序规则的具体步骤流程图。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所述的附图作简单地介绍，显而易见，下面的描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

本发明实施例提供了一种大规模跨平台基因表达数据分类方法。

如图1-4所示，本发明实施例所提供的一种大规模跨平台基因表达数据分类方法，包括以下步骤：

步骤S1、获取训练集，初始化分类器：从基因库中获取基因表达数据和样本标签，样本的标签为C＝{C0，C1}，将基因表达数据无偏划分为训练集和测试集，其中训练集含有N个基因表达数据样本，每个样本为P个基因的表达值，从而构建一个N*P的矩阵R，并初始化分类器CL；在本步骤S1中，该方法需要先通过基因库获取相对应的基因表达数据和相对应的样本标签，其中，样本标签为C＝{C0，C1}，所获取的基因表达数据按照8:2或7:3的比例随机划分为训练集和测试集，训练集：测试集为8:2或训练集：测试集为7:3，并将训练集构成成一个含有N个基因表达数据样本，每个样本为P个基因的表达值的N*P的矩阵R。

步骤S2、对训练集进行数据转换：对矩阵R进行数据转换，原始样本记录的是P个基因的表达值，经过数据转换后，每个样本记录的是P个按照基因表达值排序的基因名；在本步骤S2中，其具体过程为：S21、先创建样本中的二元组；将矩阵R中每一个样本的基因表达值和基因名组合成为一个二元组；从而可以得到P个二元组；S22、然后再将P个二元组按照键升序方式进行排序；对矩阵R中每个样本内的P个二元组，以基因表达值为键升序排序；S23、将样本更新为有序基因序列；对矩阵R中每个样本，删去二元组中的基因表达值，从而将样本更新为有序基因序列。显然，在本步骤S2中，其主要目的是将矩阵R中的样本按照基因表达值的键升序方式进行排序，从而使得矩阵R中的样本的随机序列变为按照基因表达值的键升序方式形成有序基因序列。

步骤S3、根据训练集计算相对偏移表T：根据特征函数求得正、负类样本特征，然后根据偏移量函数计算每个基因在正类样本特征中相对于负类样本特征的偏移量，根据偏移量大小对P个基因排序，获得相对偏移表T。在本步骤S3中，其具体过程为：S31、先计算正类样本特征EP；根据特征函数计算矩阵R中样本的P个基因分别在正类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为正类样本特征EP；S32、同时，计算负类样本特征EN；根据特征函数计算矩阵R中样本的P个基因分别在负类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为负类样本特征EN；S33、然后计算偏移量；利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)；S34、最后排序得到相对偏移表T；根据每个基因的偏移量得分值，对P个基因排序后得到的基因序列即为相对偏移表T。其中，在本步骤S3中，所述特征函数的公式定义如下：

其中，sample.index(gene)为基因在每一个样本中的得分，在本公式中，先计算出基因在每一个样本中的得分，然后再累计得分，从而得到每个基因在对应类别的样本上的总得分所述偏移量函数的公式定义如下：

Distance(gene)＝EP.index(gene)-EN.index(gene)

其中，EP.index(gene)为矩阵R中每一个基因根据在正类样本EP中的总得分排序后的顺位值，EN.index(gene)为矩阵R中每一个基因根据在负类样本EN中的总得分排序后的顺位值，通过计算矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的差值，该差值即为矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)。显然，本步骤的过程先根据有序基因序列的矩阵R中样本的P个基因分别在正类样中总分值对P个基因由高到低排序后得到的基因序列即为正类样本特征EP，同理得到负类样本特征EN，然后利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)，最后利用偏移量Distance(gene)由高到低进行排序后得到相对偏移表T，因此，本步骤的目的是将矩阵R中样本的P个基因按照基因表达值的键升序方式的有序基因序列转换为按照偏移量Distance(gene)由高到低进行排序的相对偏移表T。

步骤S4、生成候选偏序对，并计算出候选偏序对中的top偏序规则r。本步骤S4的具体过程为：S41、先生成m个候选偏序对；从相对偏移表T的首尾随机各取出m个基因，组合为m个候选偏序对；S42、再计算每个候选偏序对的分类规则；每一个候选偏序对<g1,g2>可以产生四个分类规则{g1<g2→C₀,g1<g2→C₁,g1≥g2→C₀,g1≥g2→C₀}，从而每一个候选偏序对得到四个分类规则；S43、然后找出每个候选偏序对置信度最高的偏序规则，得到m个偏序规则；对每一个候选偏序对，根据置信度公式和支持度公式选取出置信度最高的偏序规则；依次对m个候选偏序对进行选取，从而可得到m个偏序规则；S44、最后从m个偏序规则中得到top偏序规则r；再次根据置信度公式和支持度公式从m个偏序规则中选取出置信度最高的top偏序规则r。在本步骤中，所述支持度(supp)公式为所述置信度(conf)公式为conf(X→Y)＝supp(X∪Y)/supp(X)；先根据支持度(supp)公式计算出每一个候选偏序对规则的支持度(supp)，然后再根据每一个候选偏序对规则的支持度(supp)，利用置信度(conf)公式计算出各个候选偏序对规则的置信度(conf)，然后对比置信度(conf)，得到每一个候选偏序对中置信度(conf)最高的规则作为该候选偏序对的唯一规则。显然，那本步骤的目的是将相对偏移表T取出的m个候选偏序对按照置信度的大小先选取出m个在各个候选偏序对中置信度最高的偏序规则，然后再根据置信度的大小从m个偏序规则中选取出置信度最高的top偏序规则r。

步骤S5、更新分类器和训练集：将top偏序规则r加入分类器CL，并去除矩阵R中被top偏序规则r前项所命中的样本。显然，本步骤S5的目的是通过top偏序规则r进行更新分类器CL，然后删去矩阵R中被top偏序规则r前项所命中的样本，避免矩阵R中被top偏序规则r前项所命中的样本影响到后续步骤中所得到的top偏序规则r，不断迭代更新分类器CL，使得分类器CL中的top偏序规则r随之得到优化更新，提高分类器CL的预测命中率。

步骤S6、判断样本量与最小支持度θ的大小：若样本量大于最小支持度θ，则重复执行步骤S3、S4以及S5；若样本量不大于最小支持度θ，则执行步骤S7。本步骤S6的目的主要是判断矩阵R的剩余样本量与最小支持度θ的相对大小，根据矩阵R的剩余样本量与最小支持度θ的相对大小决定运行的步骤；当样本量大于最小支持度θ时，则依次执行步骤S1-步骤S5，然后再次判断矩阵R的剩余样本量与最小支持度θ的相对大小，直至样本量不大于最小支持度θ，然后执行步骤S7。

步骤S7、设定分类器CL缺省类：将矩阵R剩余样本中的多数类设定为分类器CL的缺省类。本步骤S7的目的是找出分类器CL的缺省类。

步骤S8、预测分类：用分类器CL对测试集进行分类，判定方法为依次比较分类器CL中的偏序规则，若规则前项命中测试样本，则输出规则后项为预测类别；若CL中无规则命中测试样本，则输出缺省类为预测类别。

以下结合具体的实验例对本发明进行说明。

实验例：对大规模跨平台基因表达数据进行二分类实验

步骤S1、从NCBI官网上获得公开的微阵列GEO基因表达数据12763个，样本的维度值为13877，来自6个不同的基因表达平台，类标签为年龄，“Young”/“Old”两类，“Old”定义为大于60岁以上的人群。将数据集按照8:2的比例无偏划分为训练集与测试集，其中训练集样本10208个、测试集样本2555个样本，构建出一个10208*13877的训练集样本矩阵R，初始化分类器CL为空。

步骤S2、对R进行数据转换，原始样本记录的是13877个基因的表达值，经过数据转换后，每个样本记录的是13877个按照基因表达值排序的基因名。

步骤S3、根据特征函数求得正、负类样本特征，计算每个基因在正类样本特征中相对于负类样本特征的偏移量，根据偏移量大小对13877个基因排序，获得相对偏移表T。

步骤S4、从相对偏移表T的首尾各取出50个基因，组合为50个偏序对；根据候选偏序对计算偏序规则，并从50个偏序规则中选取得分最高的偏序规则r，评分指标为关联规则学习中的置信度。

步骤S5、将r加入分类器CL，并去除R中被偏序规则r前项所命中的样本。

步骤S6、重复以上步骤S3-S5，直至训练集数量小于最小支持度θ＝20。

步骤S7、将R中剩余样本中的多数类“Young”设定为分类器CL的缺省类；

步骤S8、根据训练集得到的分类器CL对测试集样本进行判别，其中有2348个样本正确分类，分类器准确度达到91.9％。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种大规模跨平台基因表达数据分类方法，其特征在于，包括以下步骤：

S1、获取训练集，初始化分类器：从基因库中获取基因表达数据和样本标签，样本的标签为C＝{C0，C1},将基因表达数据无偏划分为训练集和测试集，其中训练集含有N个基因表达数据样本，每个样本为P个基因的表达值，从而构建一个N*P的矩阵R，并初始化分类器CL；

S2、对训练集进行数据转换：对矩阵R进行数据转换，原始样本记录的是P个基因的表达值，经过数据转换后，每个样本记录的是P个按照基因表达值排序的基因名；

S3、根据训练集计算相对偏移表T：根据特征函数求得正、负类样本特征，然后根据偏移量函数计算每个基因在正类样本特征中相对于负类样本特征的偏移量，根据偏移量大小对P个基因排序，获得相对偏移表T；

S4、生成候选偏序对，并计算出候选偏序对中的top偏序规则r；

S5、更新分类器和训练集：将top偏序规则r加入分类器CL，并去除矩阵R中被top偏序规则r前项所命中的样本；

S6、判断样本量与最小支持度θ的大小：若样本量大于最小支持度θ，则重复执行步骤S3、S4以及S5；若样本量不大于最小支持度θ，则执行步骤S7；

S7、设定分类器CL缺省类：将矩阵R剩余样本中的多数类设定为分类器CL的缺省类；

S8、预测分类：用分类器CL对测试集进行分类，判定方法为依次比较分类器CL中的偏序规则，若规则前项命中测试样本，则输出规则后项为预测类别；若CL中无规则命中测试样本，则输出缺省类为预测类别。

2.如权利要求1所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述对训练集进行数据转换的步骤具体为：

S21、创建样本中的二元组：将矩阵R中每一个样本的基因表达值和基因名组合成为一个二元组；

S22、将二元组进行键升序排序：对矩阵R中每个样本内的P个二元组，以基因表达值为键升序排序；

S23、将样本更新为有序基因序列：对矩阵R中每个样本，删去二元组中的基因表达值，从而将样本更新为有序基因序列。

3.如权利要求1所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述根据训练集计算相对偏移表的步骤具体为：

S31、计算正类样本特征EP：根据特征函数计算矩阵R中样本的P个基因分别在正类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为正类样本特征EP；

S32、计算负类样本特征EN：根据特征函数计算矩阵R中样本的P个基因分别在负类样本中总分值，然后根据总分值，对P个基因由高到低排序后得到的基因序列即为负类样本特征EN；

S33、计算偏移量：利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)；

S34、排序得到相对偏移表T：根据每个基因的偏移量得分值，对P个基因排序后得到的基因序列即为相对偏移表T。

4.如权利要求1所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述生成候选偏移对并计算top偏序规则r的步骤具体为：

S41、生成m个候选偏序对：从相对偏移表T的首尾随机各取出m个基因，组合为m个候选偏序对；

S42、计算每个候选偏序对的分类规则：每一个候选偏序对<g1,g2>可以产生四个分类规则{g1<g2→C₀,g1<g2→C₁,g1≥g2→C₀,g1≥g2→C₀}，从而每一个候选偏序对得到四个分类规则；

S43、找出每个候选偏序对置信度最高的偏序规则，得到m个偏序规则：对每一个候选偏序对，根据置信度公式和支持度公式选取出置信度最高的偏序规则；依次对m个候选偏序对进行选取，从而可得到m个偏序规则；

S44、从m个偏序规则中得到top偏序规则r：再次根据置信度公式和支持度公式从m个偏序规则中选取出置信度最高的top偏序规则r。

5.如权利要求1-4中任一项权利要求所述的一种大规模跨平台基因表达数据分类方法，其特征在于，在步骤S3中，所述特征函数的公式定义如下：

其中，sample.index(gene)为基因在每一个样本中的得分，在本公式中，先计算出基因在每一个样本中的得分，然后再累计得分，从而得到每个基因在对应类别的样本上的总得分

6.如权利要求5所述的一种大规模跨平台基因表达数据分类方法，其特征在于，在步骤S3中，所述偏移量函数的公式定义如下：

Distance(gene)＝EP.index(gene)-EN.index(gene)

7.如权利要求4所述的一种大规模跨平台基因表达数据分类方法，其特征在于，所述支持度(supp)公式为所述置信度(conf)公式为conf(X→Y)＝supp(X∪Y)/supp(X)；先根据支持度(supp)公式计算出每一个候选偏序对规则的支持度(supp)，然后再根据每一个候选偏序对规则的支持度(supp)，利用置信度(conf)公式计算出各个候选偏序对规则的置信度(conf)，然后对比置信度(conf)，得到每一个候选偏序对中置信度(conf)最高的规则作为该候选偏序对的唯一规则。