CN108182347A - 一种大规模跨平台基因表达数据分类方法 - Google Patents

一种大规模跨平台基因表达数据分类方法 Download PDF

Info

Publication number
CN108182347A
CN108182347A CN201810043836.8A CN201810043836A CN108182347A CN 108182347 A CN108182347 A CN 108182347A CN 201810043836 A CN201810043836 A CN 201810043836A CN 108182347 A CN108182347 A CN 108182347A
Authority
CN
China
Prior art keywords
gene
sample
partial order
rule
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810043836.8A
Other languages
English (en)
Other versions
CN108182347B (zh
Inventor
蔡瑞初
侯永杰
郝志峰
温雯
王丽娟
许柏炎
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810043836.8A priority Critical patent/CN108182347B/zh
Publication of CN108182347A publication Critical patent/CN108182347A/zh
Application granted granted Critical
Publication of CN108182347B publication Critical patent/CN108182347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种大规模跨平台基因表达数据分类方法,包括以下步骤:S1、获取训练集,初始化分类器;S2、对训练集进行数据转换;S3、根据训练集计算相对偏移表;S4、生成候选偏序对,并计算出候选偏序对中的top偏序规则r;S5、更新分类器和训练集;S6、判断样本量与最小支持度θ的大小;S7、设定分类器CL缺省类;S8、预测分类。本发明针对跨平台基因数据挖掘这个问题,通过数据转换,提出了新的偏序对规则挖掘算法和分类模式,可以处理跨平台基因数据的差异性,不仅可以应对更复杂的数据分布,并且通过相对偏移表进行规则预筛选,显著提升了挖掘效率,能够应用于大规模数据上。

Description

一种大规模跨平台基因表达数据分类方法
技术领域
本发明涉及数据挖掘与生物信息学技术领域,更具体地说,涉及一种大规模跨平台基因表达数据分类方法。
背景技术
人的身体状态,包括精神状况和行为偏好是由先天基因组与外界刺激共同决定的。近些年来人类基因组计划的制订和顺利实施,产生了大量的生物分子数据。这些数据内具有丰富的信息,其背后隐藏着人类尚不知道的生物知识。而随着cDNA微阵列和寡核苷酸芯片等高通量检测技术的发展,使得从全基因组水平定量检测基因转录产物mRNA得以实现。基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度。“基因→mRNA→蛋白质”为基因完成表达的过程,因此可以通过分析mRNA,来分析那些基因的表达发生了变化,基因之间有何相关性。运用机器学习方法对基因表达数据进行研究,对于医学临床诊断,揭示疾病发生的因果机制等方面有着重要的意义。
关联规则和分类规则是机器学习领域比较重要的两个分支,Liu等人提出的CBA算法是首个将两种结合起来挖掘基因数据上有效的分类规则。基于关联的分类规则具有直观的可解释性,CBA算法也具有不错的准确度,但是其在高维的基因数据上会产生巨量的冗余规则,并且挖掘巨量规则的过程耗时问题也很严重,降低了算法的实用性。Tan等人提出的k-tsp算法以两个维度的大小关系作为分类规则前项,以pair-wise的形式作为的分类规则模式,来提升分类规则的稳定性,能够处理跨平台数据。但是其效率一般,只适用于小样本数据,同时由于其分类模式过于简单,难以拟合复杂的数据分布情况。
发明内容
有鉴于此,本发明提供了一种大规模跨平台基因表达数据分类方法,解决现有技术中仅能处理高维度小样本的数据,而对大规模数据量难以应对的缺陷。
一种大规模跨平台基因表达数据分类方法,包括以下步骤:S1、获取训练集,初始化分类器:从基因库中获取基因表达数据和样本标签,样本的标签为C={C0,C1},将基因表达数据无偏划分为训练集和测试集,其中训练集含有N个基因表达数据样本,每个样本为P个基因的表达值,从而构建一个N*P的矩阵R,并初始化分类器CL;S2、对训练集进行数据转换:对矩阵R进行数据转换,原始样本记录的是P个基因的表达值,经过数据转换后,每个样本记录的是P个按照基因表达值排序的基因名;S3、根据训练集计算相对偏移表T:根据特征函数求得正、负类样本特征,然后根据偏移量函数计算每个基因在正类样本特征中相对于负类样本特征的偏移量,根据偏移量大小对P个基因排序,获得相对偏移表T;S4、生成候选偏序对,并计算出候选偏序对中的top偏序规则r;S5、更新分类器和训练集:将top偏序规则r加入分类器CL,并去除矩阵R中被top偏序规则r前项所命中的样本;S6、判断样本量与最小支持度θ的大小:若样本量大于最小支持度θ,则重复执行步骤S3、S4以及S5;若样本量不大于最小支持度θ,则执行步骤S7;S7、设定分类器CL缺省类:将矩阵R剩余样本中的多数类设定为分类器CL的缺省类;S8、预测分类:用分类器CL对测试集进行分类,判定方法为依次比较分类器CL中的偏序规则,若规则前项命中测试样本,则输出规则后项为预测类别;若CL中无规则命中测试样本,则输出缺省类为预测类别。
作为本发明的优选方案,对训练集进行数据转换的步骤具体为:S21、创建样本中的二元组:将矩阵R中每一个样本的基因表达值和基因名组合成为一个二元组;S22、将二元组进行键升序排序:对矩阵R中每个样本内的P个二元组,以基因表达值为键升序排序;S23、将样本更新为有序基因序列:对矩阵R中每个样本,删去二元组中的基因表达值,从而将样本更新为有序基因序列。
作为本发明的优选方案,根据训练集计算相对偏移表的步骤具体为:S31、计算正类样本特征EP:根据特征函数计算矩阵R中样本的P个基因分别在正类样本中总分值,然后根据总分值,对P个基因由高到低排序后得到的基因序列即为正类样本特征EP;S32、计算负类样本特征EN:根据特征函数计算矩阵R中样本的P个基因分别在负类样本中总分值,然后根据总分值,对P个基因由高到低排序后得到的基因序列即为负类样本特征EN;S33、计算偏移量:利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene);S34、排序得到相对偏移表T:根据每个基因的偏移量得分值,对P个基因排序后得到的基因序列即为相对偏移表T。
作为本发明的优选方案,生成候选偏移对并计算top偏序规则r的步骤具体为:S41、生成m个候选偏序对:从相对偏移表T的首尾随机各取出m个基因,组合为m个候选偏序对;S42、计算每个候选偏序对的分类规则:每一个候选偏序对<g1,g2>可以产生四个分类规则{g1<g2→C0,g1<g2→C1,g1≥g2→C0,g1≥g2→C0},从而每一个候选偏序对得到四个分类规则;S43、找出每个候选偏序对置信度最高的偏序规则,得到m个偏序规则:对每一个候选偏序对,根据置信度公式和支持度公式选取出置信度最高的偏序规则;依次对m个候选偏序对进行选取,从而可得到m个偏序规则;S44、从m个偏序规则中得到top偏序规则r:再次根据置信度公式和支持度公式从m个偏序规则中选取出置信度最高的top偏序规则r。
作为本发明的优选方案,在步骤S3中,所述特征函数的公式定义如下:Ci∈{C0,C1}其中,sample.index(gene)为基因在每一个样本中的得分,在本公式中,先计算出基因在每一个样本中的得分,然后再累计得分,从而得到每个基因在对应类别的样本上的总得分
作为本发明的优选方案,在步骤S3中,所述偏移量函数的公式定义如下:
Distance(gene)=EP.index(gene)-EN.index(gene)
其中,EP.index(gene)为矩阵R中每一个基因根据在正类样本EP中的总得分排序后的顺位值,EN.index(gene)为矩阵R中每一个基因根据在负类样本EN中的总得分排序后的顺位值,通过计算矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的差值,该差值即为矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)。
作为本发明的优选方案,所述支持度(supp)公式为supp(X)=所述置信度(conf)公式为conf(X→Y)=supp(X∪Y)/supp(X);先根据支持度(supp)公式计算出每一个候选偏序对规则的支持度(supp),然后再根据每一个候选偏序对规则的支持度(supp),利用置信度(conf)公式计算出各个候选偏序对规则的置信度(conf),然后对比置信度(conf),得到每一个候选偏序对中置信度(conf)最高的规则作为该候选偏序对的唯一规则。
从上述的技术方案可以看出,与现有技术相比,本发明的有益效果为:
本发明先构建一个含有N个基因表达数据测试样本,每个样本为P个基因的表达值的训练集的矩阵R,然后对矩阵R进行数据转换后得到按照基因表达值排序的基因名序列;然后计算出各个基因的相对偏移量并按照偏移量大小排序得到相对偏移表T;然后从相对偏移表T中的首尾各取出m个基因,随意组合成m个候选偏序对;然后根据置信度得到该候选偏序对的Top偏序规则r并更新分类器CL和训练集,直至训练集数量属于最小支持度θ,将矩阵R剩余样本中的多数类设定为分类器CL的缺省类;然后用分类器CL对测试集进行分类,判定方法为依次比较分类器CL中的偏序规则,若规则前项命中测试样本,则输出规则后项为预测类别;若CL中无规则命中测试样本,则输出缺省类为预测类别;因此,本发明针对跨平台基因数据挖掘这个问题,通过数据转换,提出了新的偏序对规则挖掘算法和分类模式,可以处理跨平台基因数据的差异性,不仅可以应对更复杂的数据分布,并且通过相对偏移表进行规则预筛选,显著提升了挖掘效率。
附图说明
图1为本发明实施例提供的一种大规模跨平台基因表达数据分类方法的步骤流程图。
图2为对训练集进行数据转换的具体步骤流程图。
图3为根据训练集计算相对偏移表的具体步骤流程图。
图4为生成候选偏移对并计算top偏序规则的具体步骤流程图。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所述的附图作简单地介绍,显而易见,下面的描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
本发明实施例提供了一种大规模跨平台基因表达数据分类方法。
如图1-4所示,本发明实施例所提供的一种大规模跨平台基因表达数据分类方法,包括以下步骤:
步骤S1、获取训练集,初始化分类器:从基因库中获取基因表达数据和样本标签,样本的标签为C={C0,C1},将基因表达数据无偏划分为训练集和测试集,其中训练集含有N个基因表达数据样本,每个样本为P个基因的表达值,从而构建一个N*P的矩阵R,并初始化分类器CL;在本步骤S1中,该方法需要先通过基因库获取相对应的基因表达数据和相对应的样本标签,其中,样本标签为C={C0,C1},所获取的基因表达数据按照8:2或7:3的比例随机划分为训练集和测试集,训练集:测试集为8:2或训练集:测试集为7:3,并将训练集构成成一个含有N个基因表达数据样本,每个样本为P个基因的表达值的N*P的矩阵R。
步骤S2、对训练集进行数据转换:对矩阵R进行数据转换,原始样本记录的是P个基因的表达值,经过数据转换后,每个样本记录的是P个按照基因表达值排序的基因名;在本步骤S2中,其具体过程为:S21、先创建样本中的二元组;将矩阵R中每一个样本的基因表达值和基因名组合成为一个二元组;从而可以得到P个二元组;S22、然后再将P个二元组按照键升序方式进行排序;对矩阵R中每个样本内的P个二元组,以基因表达值为键升序排序;S23、将样本更新为有序基因序列;对矩阵R中每个样本,删去二元组中的基因表达值,从而将样本更新为有序基因序列。显然,在本步骤S2中,其主要目的是将矩阵R中的样本按照基因表达值的键升序方式进行排序,从而使得矩阵R中的样本的随机序列变为按照基因表达值的键升序方式形成有序基因序列。
步骤S3、根据训练集计算相对偏移表T:根据特征函数求得正、负类样本特征,然后根据偏移量函数计算每个基因在正类样本特征中相对于负类样本特征的偏移量,根据偏移量大小对P个基因排序,获得相对偏移表T。在本步骤S3中,其具体过程为:S31、先计算正类样本特征EP;根据特征函数计算矩阵R中样本的P个基因分别在正类样本中总分值,然后根据总分值,对P个基因由高到低排序后得到的基因序列即为正类样本特征EP;S32、同时,计算负类样本特征EN;根据特征函数计算矩阵R中样本的P个基因分别在负类样本中总分值,然后根据总分值,对P个基因由高到低排序后得到的基因序列即为负类样本特征EN;S33、然后计算偏移量;利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene);S34、最后排序得到相对偏移表T;根据每个基因的偏移量得分值,对P个基因排序后得到的基因序列即为相对偏移表T。其中,在本步骤S3中,所述特征函数的公式定义如下:
其中,sample.index(gene)为基因在每一个样本中的得分,在本公式中,先计算出基因在每一个样本中的得分,然后再累计得分,从而得到每个基因在对应类别的样本上的总得分所述偏移量函数的公式定义如下:
Distance(gene)=EP.index(gene)-EN.index(gene)
其中,EP.index(gene)为矩阵R中每一个基因根据在正类样本EP中的总得分排序后的顺位值,EN.index(gene)为矩阵R中每一个基因根据在负类样本EN中的总得分排序后的顺位值,通过计算矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的差值,该差值即为矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)。显然,本步骤的过程先根据有序基因序列的矩阵R中样本的P个基因分别在正类样中总分值对P个基因由高到低排序后得到的基因序列即为正类样本特征EP,同理得到负类样本特征EN,然后利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene),最后利用偏移量Distance(gene)由高到低进行排序后得到相对偏移表T,因此,本步骤的目的是将矩阵R中样本的P个基因按照基因表达值的键升序方式的有序基因序列转换为按照偏移量Distance(gene)由高到低进行排序的相对偏移表T。
步骤S4、生成候选偏序对,并计算出候选偏序对中的top偏序规则r。本步骤S4的具体过程为:S41、先生成m个候选偏序对;从相对偏移表T的首尾随机各取出m个基因,组合为m个候选偏序对;S42、再计算每个候选偏序对的分类规则;每一个候选偏序对<g1,g2>可以产生四个分类规则{g1<g2→C0,g1<g2→C1,g1≥g2→C0,g1≥g2→C0},从而每一个候选偏序对得到四个分类规则;S43、然后找出每个候选偏序对置信度最高的偏序规则,得到m个偏序规则;对每一个候选偏序对,根据置信度公式和支持度公式选取出置信度最高的偏序规则;依次对m个候选偏序对进行选取,从而可得到m个偏序规则;S44、最后从m个偏序规则中得到top偏序规则r;再次根据置信度公式和支持度公式从m个偏序规则中选取出置信度最高的top偏序规则r。在本步骤中,所述支持度(supp)公式为所述置信度(conf)公式为conf(X→Y)=supp(X∪Y)/supp(X);先根据支持度(supp)公式计算出每一个候选偏序对规则的支持度(supp),然后再根据每一个候选偏序对规则的支持度(supp),利用置信度(conf)公式计算出各个候选偏序对规则的置信度(conf),然后对比置信度(conf),得到每一个候选偏序对中置信度(conf)最高的规则作为该候选偏序对的唯一规则。显然,那本步骤的目的是将相对偏移表T取出的m个候选偏序对按照置信度的大小先选取出m个在各个候选偏序对中置信度最高的偏序规则,然后再根据置信度的大小从m个偏序规则中选取出置信度最高的top偏序规则r。
步骤S5、更新分类器和训练集:将top偏序规则r加入分类器CL,并去除矩阵R中被top偏序规则r前项所命中的样本。显然,本步骤S5的目的是通过top偏序规则r进行更新分类器CL,然后删去矩阵R中被top偏序规则r前项所命中的样本,避免矩阵R中被top偏序规则r前项所命中的样本影响到后续步骤中所得到的top偏序规则r,不断迭代更新分类器CL,使得分类器CL中的top偏序规则r随之得到优化更新,提高分类器CL的预测命中率。
步骤S6、判断样本量与最小支持度θ的大小:若样本量大于最小支持度θ,则重复执行步骤S3、S4以及S5;若样本量不大于最小支持度θ,则执行步骤S7。本步骤S6的目的主要是判断矩阵R的剩余样本量与最小支持度θ的相对大小,根据矩阵R的剩余样本量与最小支持度θ的相对大小决定运行的步骤;当样本量大于最小支持度θ时,则依次执行步骤S1-步骤S5,然后再次判断矩阵R的剩余样本量与最小支持度θ的相对大小,直至样本量不大于最小支持度θ,然后执行步骤S7。
步骤S7、设定分类器CL缺省类:将矩阵R剩余样本中的多数类设定为分类器CL的缺省类。本步骤S7的目的是找出分类器CL的缺省类。
步骤S8、预测分类:用分类器CL对测试集进行分类,判定方法为依次比较分类器CL中的偏序规则,若规则前项命中测试样本,则输出规则后项为预测类别;若CL中无规则命中测试样本,则输出缺省类为预测类别。
从上述的技术方案可以看出,与现有技术相比,本发明的有益效果为:
本发明先构建一个含有N个基因表达数据测试样本,每个样本为P个基因的表达值的训练集的矩阵R,然后对矩阵R进行数据转换后得到按照基因表达值排序的基因名序列;然后计算出各个基因的相对偏移量并按照偏移量大小排序得到相对偏移表T;然后从相对偏移表T中的首尾各取出m个基因,随意组合成m个候选偏序对;然后根据置信度得到该候选偏序对的Top偏序规则r并更新分类器CL和训练集,直至训练集数量属于最小支持度θ,将矩阵R剩余样本中的多数类设定为分类器CL的缺省类;然后用分类器CL对测试集进行分类,判定方法为依次比较分类器CL中的偏序规则,若规则前项命中测试样本,则输出规则后项为预测类别;若CL中无规则命中测试样本,则输出缺省类为预测类别;因此,本发明针对跨平台基因数据挖掘这个问题,通过数据转换,提出了新的偏序对规则挖掘算法和分类模式,可以处理跨平台基因数据的差异性,不仅可以应对更复杂的数据分布,并且通过相对偏移表进行规则预筛选,显著提升了挖掘效率。
以下结合具体的实验例对本发明进行说明。
实验例:对大规模跨平台基因表达数据进行二分类实验
步骤S1、从NCBI官网上获得公开的微阵列GEO基因表达数据12763个,样本的维度值为13877,来自6个不同的基因表达平台,类标签为年龄,“Young”/“Old”两类,“Old”定义为大于60岁以上的人群。将数据集按照8:2的比例无偏划分为训练集与测试集,其中训练集样本10208个、测试集样本2555个样本,构建出一个10208*13877的训练集样本矩阵R,初始化分类器CL为空。
步骤S2、对R进行数据转换,原始样本记录的是13877个基因的表达值,经过数据转换后,每个样本记录的是13877个按照基因表达值排序的基因名。
步骤S3、根据特征函数求得正、负类样本特征,计算每个基因在正类样本特征中相对于负类样本特征的偏移量,根据偏移量大小对13877个基因排序,获得相对偏移表T。
步骤S4、从相对偏移表T的首尾各取出50个基因,组合为50个偏序对;根据候选偏序对计算偏序规则,并从50个偏序规则中选取得分最高的偏序规则r,评分指标为关联规则学习中的置信度。
步骤S5、将r加入分类器CL,并去除R中被偏序规则r前项所命中的样本。
步骤S6、重复以上步骤S3-S5,直至训练集数量小于最小支持度θ=20。
步骤S7、将R中剩余样本中的多数类“Young”设定为分类器CL的缺省类;
步骤S8、根据训练集得到的分类器CL对测试集样本进行判别,其中有2348个样本正确分类,分类器准确度达到91.9%。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分相互参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种大规模跨平台基因表达数据分类方法,其特征在于,包括以下步骤:
S1、获取训练集,初始化分类器:从基因库中获取基因表达数据和样本标签,样本的标签为C={C0,C1},将基因表达数据无偏划分为训练集和测试集,其中训练集含有N个基因表达数据样本,每个样本为P个基因的表达值,从而构建一个N*P的矩阵R,并初始化分类器CL;
S2、对训练集进行数据转换:对矩阵R进行数据转换,原始样本记录的是P个基因的表达值,经过数据转换后,每个样本记录的是P个按照基因表达值排序的基因名;
S3、根据训练集计算相对偏移表T:根据特征函数求得正、负类样本特征,然后根据偏移量函数计算每个基因在正类样本特征中相对于负类样本特征的偏移量,根据偏移量大小对P个基因排序,获得相对偏移表T;
S4、生成候选偏序对,并计算出候选偏序对中的top偏序规则r;
S5、更新分类器和训练集:将top偏序规则r加入分类器CL,并去除矩阵R中被top偏序规则r前项所命中的样本;
S6、判断样本量与最小支持度θ的大小:若样本量大于最小支持度θ,则重复执行步骤S3、S4以及S5;若样本量不大于最小支持度θ,则执行步骤S7;
S7、设定分类器CL缺省类:将矩阵R剩余样本中的多数类设定为分类器CL的缺省类;
S8、预测分类:用分类器CL对测试集进行分类,判定方法为依次比较分类器CL中的偏序规则,若规则前项命中测试样本,则输出规则后项为预测类别;若CL中无规则命中测试样本,则输出缺省类为预测类别。
2.如权利要求1所述的一种大规模跨平台基因表达数据分类方法,其特征在于,所述对训练集进行数据转换的步骤具体为:
S21、创建样本中的二元组:将矩阵R中每一个样本的基因表达值和基因名组合成为一个二元组;
S22、将二元组进行键升序排序:对矩阵R中每个样本内的P个二元组,以基因表达值为键升序排序;
S23、将样本更新为有序基因序列:对矩阵R中每个样本,删去二元组中的基因表达值,从而将样本更新为有序基因序列。
3.如权利要求1所述的一种大规模跨平台基因表达数据分类方法,其特征在于,所述根据训练集计算相对偏移表的步骤具体为:
S31、计算正类样本特征EP:根据特征函数计算矩阵R中样本的P个基因分别在正类样本中总分值,然后根据总分值,对P个基因由高到低排序后得到的基因序列即为正类样本特征EP;
S32、计算负类样本特征EN:根据特征函数计算矩阵R中样本的P个基因分别在负类样本中总分值,然后根据总分值,对P个基因由高到低排序后得到的基因序列即为负类样本特征EN;
S33、计算偏移量:利用偏移量函数计算每个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene);
S34、排序得到相对偏移表T:根据每个基因的偏移量得分值,对P个基因排序后得到的基因序列即为相对偏移表T。
4.如权利要求1所述的一种大规模跨平台基因表达数据分类方法,其特征在于,所述生成候选偏移对并计算top偏序规则r的步骤具体为:
S41、生成m个候选偏序对:从相对偏移表T的首尾随机各取出m个基因,组合为m个候选偏序对;
S42、计算每个候选偏序对的分类规则:每一个候选偏序对<g1,g2>可以产生四个分类规则{g1<g2→C0,g1<g2→C1,g1≥g2→C0,g1≥g2→C0},从而每一个候选偏序对得到四个分类规则;
S43、找出每个候选偏序对置信度最高的偏序规则,得到m个偏序规则:对每一个候选偏序对,根据置信度公式和支持度公式选取出置信度最高的偏序规则;依次对m个候选偏序对进行选取,从而可得到m个偏序规则;
S44、从m个偏序规则中得到top偏序规则r:再次根据置信度公式和支持度公式从m个偏序规则中选取出置信度最高的top偏序规则r。
5.如权利要求1-4中任一项权利要求所述的一种大规模跨平台基因表达数据分类方法,其特征在于,在步骤S3中,所述特征函数的公式定义如下:
其中,sample.index(gene)为基因在每一个样本中的得分,在本公式中,先计算出基因在每一个样本中的得分,然后再累计得分,从而得到每个基因在对应类别的样本上的总得分
6.如权利要求5所述的一种大规模跨平台基因表达数据分类方法,其特征在于,在步骤S3中,所述偏移量函数的公式定义如下:
Distance(gene)=EP.index(gene)-EN.index(gene)
其中,EP.index(gene)为矩阵R中每一个基因根据在正类样本EP中的总得分排序后的顺位值,EN.index(gene)为矩阵R中每一个基因根据在负类样本EN中的总得分排序后的顺位值,通过计算矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的差值,该差值即为矩阵R中每一个基因顺位在正类样本特征EP上相对于负类样本特征EN的偏移量Distance(gene)。
7.如权利要求4所述的一种大规模跨平台基因表达数据分类方法,其特征在于,所述支持度(supp)公式为所述置信度(conf)公式为conf(X→Y)=supp(X∪Y)/supp(X);先根据支持度(supp)公式计算出每一个候选偏序对规则的支持度(supp),然后再根据每一个候选偏序对规则的支持度(supp),利用置信度(conf)公式计算出各个候选偏序对规则的置信度(conf),然后对比置信度(conf),得到每一个候选偏序对中置信度(conf)最高的规则作为该候选偏序对的唯一规则。
CN201810043836.8A 2018-01-17 2018-01-17 一种大规模跨平台基因表达数据分类方法 Active CN108182347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810043836.8A CN108182347B (zh) 2018-01-17 2018-01-17 一种大规模跨平台基因表达数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810043836.8A CN108182347B (zh) 2018-01-17 2018-01-17 一种大规模跨平台基因表达数据分类方法

Publications (2)

Publication Number Publication Date
CN108182347A true CN108182347A (zh) 2018-06-19
CN108182347B CN108182347B (zh) 2022-02-22

Family

ID=62550757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810043836.8A Active CN108182347B (zh) 2018-01-17 2018-01-17 一种大规模跨平台基因表达数据分类方法

Country Status (1)

Country Link
CN (1) CN108182347B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598289A (zh) * 2018-11-16 2019-04-09 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2304876A1 (en) * 1999-04-09 2000-10-09 Whitehead Institute For Biomedical Research Methods for classifying samples and ascertaining previously unknown classes
CN101156067A (zh) * 2005-02-16 2008-04-02 惠氏公司 用于白血病诊断、预后和治疗选择的方法和系统
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN105825081A (zh) * 2016-04-20 2016-08-03 苏州大学 一种基因表达数据分类方法及分类系统
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN106055924A (zh) * 2016-05-19 2016-10-26 完美(中国)有限公司 微生物操作分类单元确定和序列辅助分离
CN106407689A (zh) * 2016-09-27 2017-02-15 牟合(上海)生物科技有限公司 一种基于基因表达谱的胃癌预后标志物筛选及分类方法
CN107273387A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 面向高维和不平衡数据分类的集成

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2304876A1 (en) * 1999-04-09 2000-10-09 Whitehead Institute For Biomedical Research Methods for classifying samples and ascertaining previously unknown classes
CN101156067A (zh) * 2005-02-16 2008-04-02 惠氏公司 用于白血病诊断、预后和治疗选择的方法和系统
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN107273387A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 面向高维和不平衡数据分类的集成
CN105825081A (zh) * 2016-04-20 2016-08-03 苏州大学 一种基因表达数据分类方法及分类系统
CN106055924A (zh) * 2016-05-19 2016-10-26 完美(中国)有限公司 微生物操作分类单元确定和序列辅助分离
CN106407689A (zh) * 2016-09-27 2017-02-15 牟合(上海)生物科技有限公司 一种基于基因表达谱的胃癌预后标志物筛选及分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AIK CHOON TAN ET AL: "Simple decision rules for classifying human cancers from gene", 《BIOINFORMATICS ORIGINAL PAPER》 *
DONALD GEMAN ET AL: "Classifying Gene Expression Profiles from", 《STATISTICAL APPLICATIONS IN GENETICS》 *
蔡瑞初 等: "基于最大间隔的基因表达规则筛选", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598289A (zh) * 2018-11-16 2019-04-09 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN108182347B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
Magallón et al. Relationships among seed plants inferred from highly conserved genes: sorting conflicting phylogenetic signals among ancient lineages
Ma et al. An evolutionary clustering algorithm for gene expression microarray data analysis
CN107025384A (zh) 一种复杂数据预测模型的构建方法
WO2006083330A1 (en) A method for the manipulation, storage, modeling, visualization and quantification of datasets
Yousefi et al. Divergent evolution and niche differentiation within the common peatmoss Sphagnum magellanicum
JP2016165286A (ja) 転写物測定値数が減少した、遺伝子発現プロファイリング
CN109913549B (zh) 基于cdc20基因共表达网络的胶质瘤分子分型及应用
CN105868584A (zh) 通过选取极端性状个体来进行全基因组选择育种的方法
CN111312334A (zh) 一种影响细胞间通讯的受体-配体系统分析方法
CN115762792A (zh) 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法
CN108182347A (zh) 一种大规模跨平台基因表达数据分类方法
Huang et al. Gene expression profiling for prediction of clinical characteristics of breast cancer
Amaratunga et al. High-dimensional data
US20050026199A1 (en) Method for identifying biomarkers using Fractal Genomics Modeling
CN106446601A (zh) 一种大规模标注lncRNA功能的方法
US20050158736A1 (en) Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
Dayao et al. Deriving spatial features from in situ proteomics imaging to enhance cancer survival analysis
CN114496097A (zh) 一种胃癌代谢基因预后预测方法和装置
WO2020109356A1 (en) Vector-based haplotype identification
CN114678062B (zh) 基于多组学特征的肝细胞癌预后预测系统及其预测方法
Bonet et al. Machine Learning Strategies for Improved Phenotype Prediction in Underrepresented Populations
Mišić et al. Evaluation of Neural Networks Based Systems for DNA Motif Discovery
Zhao et al. The compact genetic algorithm based method for disease associated study
CN115995262B (zh) 基于随机森林及lasso回归解析玉米遗传机理的方法
Bandyopadhyay et al. SSLPred: predicting synthetic sickness lethality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant