CN108897990B - 面向大规模高维序列数据的交互特征并行选择方法 - Google Patents

面向大规模高维序列数据的交互特征并行选择方法 Download PDF

Info

Publication number
CN108897990B
CN108897990B CN201810575946.9A CN201810575946A CN108897990B CN 108897990 B CN108897990 B CN 108897990B CN 201810575946 A CN201810575946 A CN 201810575946A CN 108897990 B CN108897990 B CN 108897990B
Authority
CN
China
Prior art keywords
feature
subset
significant
data
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810575946.9A
Other languages
English (en)
Other versions
CN108897990A (zh
Inventor
赵宇海
印莹
郭文鹏
王国仁
祁宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810575946.9A priority Critical patent/CN108897990B/zh
Publication of CN108897990A publication Critical patent/CN108897990A/zh
Application granted granted Critical
Publication of CN108897990B publication Critical patent/CN108897990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维SNP数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据;将与目标类相关的SNP数据执行细粒度的特征过滤;以γ为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。

Description

面向大规模高维序列数据的交互特征并行选择方法
技术领域
本发明属于交互特征选择技术领域,具体是一种面向大规模高维序列数据的交互特征并行选择方法。
背景技术
随着数据挖掘、机器学习技术的不断推进和发展,特征选择技术受到了越来越多的关注,机器学习模型就学习效率和学习结果而言,在只使用相关数据上显著受益。而找出相关数据最广泛使用的技术便是特征选择,即是从原始特征集合中选择出一个特征子集。特征选择的成功应用同时也带来了新的挑战,其中之一便是找出潜在的交互特征子集,因为这些特征组合起来才是真正影响目标变量(类标签)的特征子集。因此交互特征选择算法研究也逐渐受到广大学者的关注与重视。
目前,对于多维交互特征选择的方法主要有三大类:枚举搜索、贪婪搜索以及随机搜索。其中,枚举搜索是将所有的特征组合进行检测,优点是结果准确,但计算量非常大,不能应用到大规模数据中,典型算法有多因子降维(MDR)、高阶非冗余交互特征选择(NIFS)等;贪婪搜索算法是在低阶交互特征范围进行高阶交互特征检测,优点是搜索的空间较小,但对边际作用的影响很敏感,典型算法有SNPRuler、分类退化树(CART);随机搜索算法是通过启发式的规则,利用学习模型或者不利用模型在搜索空间中随机的进行搜索。优点是可应用于大规模数据集中,并且不受边际作用的影响,但是其性能表现不稳定,最终结果依赖于初始值和整个搜索空间的数据结构。典型算法有SNPHarvester、贝叶斯上位关联映射(BEAM)等。
发明内容
针对现有技术存在的不足,本发明提供一种面向大规模高维序列数据的交互特征并行选择方法。
本发明的技术方案如下:
面向大规模高维序列数据的交互特征并行选择方法,包括:
对原始高维序列数据进行编码;所述原始高维序列数据是生物信息领域中的原始单核苷酸多态性(Single Nucleotide Polymorphism,即SNP)数据;
通过基于图论的块过滤,保留与目标类相关的SNP数据;
将与目标类相关的SNP数据执行细粒度的特征过滤;
划分特征过滤后的SNP数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;
所述极大等位公共子序列MACS具体定义如下:
假设给定任意k条序列S1=e11e12…e1n1,S2=e21e22…e2n2,…,Sk=ek1ek2…eknk,若序列Sα=eα1eα2…eαl,l≤min{n1,n2,...,nk},满足
Figure GDA0003219712560000021
1≤i≤k,eα1=eij1,eα2=eij2,…,eαl=eijl,则称其为S1,S2,...,Sk的等位公共子序列;进一步,如果Sα的任意真超序列
Figure GDA0003219712560000022
不是S1,S2,...,Sk的等位公共子序列,则称Sα为S1,S2,...,Sk的极大等位公共子序列(MaximalAllelic Common Subsequence,简称MACS);
对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;
对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。
所述通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据,包括:
对编码后的SNP数据进行基于图论的块过滤,构建无向权重图;
找出无向权重图中的密集子图,将与目标类相关的SNP数据保留。
确定无向权重图中的密集子图,包括:
迭代地移除图中具有平均度数最小的顶点及相关的边并计算移除边后得到子图的密度,当子图顶点数量为1时迭代结束,将迭代过程中密度最大的子图作为密集子图输出。
所述将与目标类相关的SNP数据执行细粒度的特征过滤,包括:
计算与目标类相关的SNP数据区域内的所有特征,按照其与目标类标签的卡方值降序排列;
计算所有卡方值的间隔区,确定间隔区最大值;
将间隔区最大值所对应的特征在SNP数据区域中所在位置作为削减阈值进行特征削减,得到特征过滤后的SNP数据集和特征。
所述划分特征过滤后的SNP数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域,包括:
利用置换检验方法,确定特征过滤后的SNP数据集的支持度下界作为划分粒度;
基于极大等位公共子序列MACS,对特征过滤后的SNP数据集基于MapReduce并行划分成一系列低维序列数据,得到若干极大等位公共子序列构成的子序列集合作为区域划分后特征候选区域。
所述对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域,包括:
步骤S1、对候选区域对应的数据集中的MACS为节点,构建无向图,将无向图中的每个MACS作为无向图中的一个顶点,如果MACS间的相似度大于给定阈值β,则两个顶点间有边存在;
步骤S2、选择无向图中连接边的数量最多的一个顶点所对应的极大等位公共子序列MACS子集加入到输出结果中,并在无向图中删除该顶点及其连接的边,更新无向图;
步骤S3、重复执行步骤S2,迭代至无向图为空为止,经过多样性选择后,输出结果即代表性特征区域。
所述对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合,包括:
在代表性特征区域中选择出单一显著性特征并移除;
基于并行置换的蚁群算法,从移除显著特征的数据集中选出显著交互的特征子集集合,将其加入到结果集合中,结果集合即交互特征的选择结果。
所述基于并行置换的蚁群算法,从移除显著特征的数据集中选出显著交互的特征子集集合,将其加入到结果集合中,包括:
确定移除显著特征的数据集中的并行的数据块个数;
初始化基于置换的蚁群算法参数;
从每块序列集合中选择出大小为k的特征子集;
采用并行置换搜索的思想迭代的从大小为k特征子集中选择出显著性交互的特征子集,并将其加入到显著性交互的特征子集集合即结果集合中;当已选显著性交互的特征子集之外没有使得该特征子集更显著的特征时迭代停止;
当所有的蚂蚁完成搜索时一代蚁群迭代结束,保留本次迭代中得到的大小为k的显著交互特征子集;
对显著交互特征子集进行特征的后向检测,删除掉冗余特征子集,最终得到不大于k阶的显著交互特征子集集合;
对显著交互特征子集集合中的每个显著特征进行信息素大小的更新操作,进入到下一次蚁群迭代中,直到迭代到指定代数时终止,并返回显著性特征子集集合。
本发明优点:
本发明在深入研究各种多维交互特征选择方法基础上,提出了一种在面向大规模高维特征数据进行交互特征选择研究领域中基于置换搜索的并行蚁群算法进行交互特征选择的全新框架。它是根据随着数据挖掘、机器学习技术的发展需要,以避免过度拟合、便于数据的可视化、降低存储要求以及减少模型训练时间等,提出的一种高效、多维、交互的特征选择方法;主要贡献在于:
(1)提出了一个解决面向大规模序列数据进行交互特征选择问题的全新框架。
(2)提出了一种基于MACS进行特征区域划分的思想,使划分后的特征交互作用只存在于区域内部,方便了数据并行化处理;
(3)设计并实现了一种基于置换思想的蚁群局部搜索算法RouteSearching,使蚁群算法在特征子集搜索过程中能够避免边际作用的影响;
(4)设计并实现了一种基于MapReduce模型的并行蚁群交互特征选择算法框架,提高了时间效率;
(5)通过将本发明和其他三个方法在糖尿病患者数据集和模拟数据集上进行测试分析,证明了高效性和生物有效性。
有益效果:
本发明利用基于置换搜索的并行蚁群算法进行交互特征选择,在特征子集搜索过程中能够避免边际作用的影响,避免过度拟合、便于数据的可视化、降低存储要求以及减少模型训练时间,提高了时间效率;基于MACS进行特征区域划分的思想,使划分后的特征交互作用只存在于区域内部,方便了数据并行化处理;不仅解决了密度计算的负担,而且一定程度上消除了显著特征边际作用的影响。为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,利用Hadoop分布式计算的特点,将框架在MapReduce模型下并行化实现,使得特征选择更加高效、功能更为强大。
附图说明
图1为本发明一种实施例的方法流程图;
图2为本发明一种实施例的无向权重图;
图3为GRDC算法基于MapReduce模型下的执行流程;
图4为极大等位公共子序列示意图;
图5为基于置换搜索的蚁群交互特征选择算法的执行过程。
具体实施方式
下面结合附图对本发明实施例做进一步说明。
本实施方式以生物数据中的SNP(Single Nucleotide Polymorphism单核苷酸多态性,SNP)数据为实际应用背景进行举例说明。因为现阶段交互特征子集的验证工作是非常复杂的,而生物领域中目前已经有被证实的导致患病的SNP位点(特征)集合,这为最终的结果验证提供了方便。
面向大规模高维序列数据的交互特征并行选择方法,如图1所示,包括:
步骤1、对原始序列数据进行编码,得到数据集D。
本实施方式中的原始高维序列数据是生物信息中的原始SNP数据。原始SNP数据一般为两种形式:基因型或单体型数据。以某位点(特征)为例,若用A表示出现频率较高的等位基因,a表示出现频率较低的等位基因,则基因型数据有三种形式:AA、Aa或aa,单体型数据有两种形式:A或a。为便于计算机处理,通常需要先对原始SNP数据进行编码,前者的三种状态分别编码为0,1和2,后者的两种状态分别编码为0和1。本方法可同时兼容基因型数据和单体型数据。
为了方便算法后续挖掘流程,首先对原始SNP数据编码,SNP数据的其初始状态通常是用A、C、G或T来代表,以表1为例,编码前后的对照表如表2所示。
表1编码前数据集
Figure GDA0003219712560000051
表2编码后数据集
Figure GDA0003219712560000052
Figure GDA0003219712560000061
表中的每行Si代表一个样本,每列SNPj代表一个特征(即一个SNP位点)。SNP数据对应的取值表示某个样本在对应染色体上某个基因位点的变异状态,通常用0表示常态,1表示变异。最后一列class代表类别,即该样本是否患有某种疾病,0代表不患病,1代表患病。后续的处理流程都将在编码之后的0,1数据上进行挖掘分析。
本实施方式中对SNP数据进行{0,1}编码,因为它能够兼容单体型和基因型数据两种数据形式。编码后的SNP数据集为
Figure GDA0003219712560000062
其中,sr为编码后的SNP数据集中的实例即SNP数据,fs为第s个SNP数据的特征,M为SNP数据集中包含的实例总个数,N为每个实例包含的位点个数,即特征个数,C则为对应目标类标签。
步骤2、通过基于图论的块过滤,保留与目标类相关的SNP数据,记为D1。
步骤2具体按如下步骤执行:
步骤2-1、对编码后的SNP数据进行基于图论的块过滤,即根据划分后块内和块间存在的显著交互特征对的数量,构建如图2所示的无向权重图G=(V,E)。输入序列被划分为n块,
Figure GDA0003219712560000063
k为交互阶数,取值范围是[2-N],即交互特征的最小阶数是2,最大阶数是N,用户可以指定k值。N指的是原始SNP数据集中的位点数(即编码后的序列数据中的特征数),前
Figure GDA0003219712560000064
块中每块包含k个特征,最后一块包含
Figure GDA0003219712560000065
个特征。V为图G中顶点的集合,V={vn},第i个序列块对应顶点vi∈V。E为图G中边的集合,如果第i个序列块和第j个序列块之间存在显著交互的特征(位点)对,则存在边eij∈E。顶点vi的权重wi为块i内显著交互的特征对数,边eij的权重wij为块i和块j之间的显著交互特征对数。其中,块内与块间存在的显著交互位点对的数量可以通过卡方检验(χ2)来计算。
定义1(k阶交互特征)令F’为含有k个特征f1,f2,...,fk的特征子集,C为某个特征或特征子集与目标变量(类标签)相关性的度量。若满足对F’的任一划分F’={F1,F2,...,Fl},C(F’)>C(Fi),其中i∈[1,l],l≥2且
Figure GDA0003219712560000066
则称f1,f2,...,fk为k阶交互特征。
由定义1可知,如果f1,f2,...,fk为k阶交互特征,当且仅当其对目标变量(类标签)的影响大于其任一子集对目标变量(类标签)的影响。
步骤2-2、采用密集子图发现算法(GREEDYVED)找出无向权重图G中的密集子图,将与目标类相关的SNP数据保留。
无向权重图G中密集子图对应的区域分块内部和相互之间都存在较多的显著交互位点对。因此,直观上可理解为与目标类存在显著关联的“热点”区域,问题被转化为密集子图发现问题。所述确定无向权重图中的密集子图,包括:迭代地移除图中具有平均度数最小的顶点及相关的边并计算移除边后得到子图的密度,当子图顶点数量为1时迭代结束,将迭代过程中密度d(G’)最大的子图G’(G’∈G)作为密集子图输出。
无向权重图G(V,E)的顶点集合记为{vn},n表示顶点个数即
Figure GDA0003219712560000071
{vn}是包含v1到vn所有的顶点。i的初始赋值为n,循环移除当前子图G(vi)(1≤i≤n)中具有最小平均度数的顶点vx(1≤x≤i)及与其相关的边,并计算移除后得到的子图G'的密度,每循环一次执行后i进行自减1操作,当i=1时循环结束。
所述的G(Vi)表示从顶点v1到vi组成的子图。
所述的平均度数
Figure GDA0003219712560000072
子图G'的密度:
Figure GDA0003219712560000073
其中,y表示从顶点1到顶点i中除去x之外的顶点。wxy表示顶点x和顶点y之间的边exy的权重即块x和块y之间的显著交互特征个数。子图G'中的顶点个数和顶点之间存在的最大边数之和
Figure GDA0003219712560000074
|VG'|为子图G'中的顶点数量,wij表示顶点i、j之间的边的权重,wi和wj表示顶点vi和顶点vj的权重。
将密度d(G')最大的子图作为密集子图输出。
本实施方式中,根据编码后数据集D所构建的无向权重图G中的密集子图G′,得到与目标变量(类标签)相关的位点(特征)集合N1,作为保留区域中的序列数据,将处理后的数据集记为D1
步骤3、将与目标类相关的SNP数据执行细粒度的特征过滤。
步骤3-1、计算步骤2获取的与目标类相关的SNP数据区域(特征集合N1)内的所有特征ft,={f1,f2,…,fN1},t={1,2,…N1},按照其与目标变量(类标签C)的卡方值χ2(ft,C)降序排列;
步骤3-2、计算所有卡方值的间隔区,确定间隔区最大值;
本实施方式中与目标类相关的特征集合N1中所有的位点ft∈N1,第t个位点与目标类C的卡方值为χ2(ft,C),求max(χ2(ft,C)-χ2(ft-1,C)),间隔区最大值所对应的位点在位点集合N1中所在位置记为max_pos。
步骤3-3、将间隔区最大值所对应的特征在SNP数据区域中所在位置作为削减阈值进行特征削减,得到特征过滤后的SNP数据集D2,特征为N2
本实施方式中,利用间隔区最大值所对应的位点在位点集合N1中所在位置max_pos作为削减阈值,保留间隔区最大值所对应的位点之前的所有位点,对其后的位点fu(u>max_pos),如果满足
Figure GDA0003219712560000076
且χ2(fu,fv,C)>χ2(fmax_pos,C),则保留fu和fv;如果不满足,则删除fu,最终得到位点子集N2
Figure GDA0003219712560000075
特征过滤后的SNP数据集记为D2,χ2(fu,fv,C)为位点fu与位点fv交互与目标类C的卡方值。
步骤4、划分特征过滤后的SNP数据集D2为若干块,并基于极大等位公共子序列MACS得到特征候选区域。
步骤4-1、利用置换检验方法,确定特征过滤后的SNP数据集D2的支持度下界作为划分粒度γ;
显著性P-value是Llinares等人在2015年提出了一种基于假设检验的高效显著模式挖掘算法FastWY,证明了显著模式支持度γ和P-value之间的对应关系。假设在一个给定数据集B中,如果一个特征子集对应正样本数n,以及负样本数n'已知时,那么就可以得出该特征子集的支持度γ只是和其对应显著性P-value存在关系。而本发明在进行交互特征选择时,通过将蚁群算法搜索得到的特征子集对应的显著性P-value与给定显著性阈值α进行比较,如果存在P-value<α,那么就可以认为该特征子集是和目标类标签存在显著关联的。因此,当一个特征子集的显著性P-value已知时,那么就可以推出其对应的支持度γ大小,利用上述思想来确定在给定显著性P-value的前提下特征子集所对应的支持度下界值,即是本发明在序列之间求特征子集时所对应的γ值大小。
步骤4-2、基于极大等位公共子序列MACS(图3),对特征过滤后的SNP数据集D2基于MapReduce并行划分成一系列低维序列数据,得到若干极大等位公共子序列构成的子序列集合作为区域划分后特征候选区域,区域划分后特征候选区域对应的数据集为D3
划分后的第D2i块数据的特征为{f1,f2,...,fN2},1≤i≤[M/γ],每块数据D2i都包含γ行数据,[M/γ]为数据块数,N2为数据块D2i中的特征数。在MapReduce处理过程中,将数据集D2设置为全局变量,对每一个Map函数求交集时会先读取全局变量中的数据集D2,再和对应的输入数据D2i之间求交并将结果作为一行数据输出。在Reduce阶段,将得到的极大等位公共子序列MACS构成的子序列集作为区域划分后特征候选区域,区域划分后特征候选区域合对应的数据集D3输出,其特征数是N3
所述极大等位公共子序列MACS具体定义如下:
定义2(极大等位公共子序列)假设给定任意k条序列S1=e11e12…e1n1,S2=e21e22…e2n2,…,Sk=ek1ek2…eknk,若序列Sα=eα1eα2…eαl(l≤min{n1,n2,...,nk}),满足
Figure GDA0003219712560000081
1≤i≤k,eα1=eij1,eα2=eij2,…,eαl=eijl,则称其为S1,S2,...,Sk的等位公共子序列。进一步,如果Sα的任意真超序列
Figure GDA0003219712560000082
不是S1,S2,...,Sk的等位公共子序列,则称Sα为S1,S2,...,Sk的极大等位公共子序列(MaximalAllelic Common Subsequence,简称MACS)。
极大等位公共子序列与广为熟知的最长公共子序列不同。如图3所示,若S1=100101和S2=101011为任意两条由0和1构成的序列,则序列Sα=101为S1和S2的极大等位公共子序列,序列Sβ=10101为S1和S2的最长公共子序列。显然,Sα≠Sβ。计算多序列的最长公共子序列是典型的NP-难问题,时间复杂度相对于序列数量N是指数级别的,而由图3不难得知,极大等位公共子序列通过简单的比特“与”计算即可获得,时间复杂度仅为O(N)。因此,极大等位公共子序列的计算量远小于最长公共子序列。
步骤5、对候选区域对应的数据集D3基于MapReduce进行特征区域的多样性选择,得到代表性特征区域DS。
对特征候选区域基于MapReduce进行特征多样性选择的步骤包括Map阶段和Reduce阶段。Map阶段包含了步骤5-1和步骤5-2,Reduce阶段包含步骤5-3。
步骤5-1、对候选区域对应的数据集D3中的MACS为节点,构建无向图G″。将无向图G″中的每个MACS作为无向图G″中的一个顶点,如果MACS间的相似度大于给定阈值β,则两个顶点间有边存在。
步骤5-2、采用基于MapReduce的贪心策略的GRDC算法,选择无向图中连接边的数量最多的一个顶点所对应的极大等位公共子序列MACS子集加入到输出结果中,并在无向图G″中删除该顶点及其连接的边,更新图G″,重复上述过程,迭代至图G″为空为止,经过多样性选择后,输出结果即代表性特征区域DS,特征个数记为N4
本发明实现了基于MapReduce的贪心策略(图4),具体如下:
步骤5-2-1、在Map处理阶段,为了提高贪心算法的运行效率,先将每行数据的对应MACS集合进行特征区域多样性选择,得到若干代表此行序列的MACS子集。然后依次对原始数据集中每一行数据对应的MACS集合都执行此操作。当特征维数比较高时,每行数据对应求交得到的MACS数量相对也比较大,可以先在每行数据对应的集合内部进行多样性选择,使得最后进行多样性选择的MACS数量大大减少。
步骤5-2-2、在Reduce处理阶段,汇总对应Map任务处理的结果的MACS集合,对进行特征区域多样性选择,得到若干具有代表性的极大等位公共子序列MACS,将其写入到分布式文件存储系统HDFS中,即代表性特征区域DS。
步骤6、对代表性特征区域DS采用置换搜索的并行蚁群算法(图5)进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。
步骤6-1、在代表性特征区域DS中选择出单一显著性特征并移除,得到的结果记为DS′;
代表性特征区域DS包含的特征集合为fr={f1,f2,…fN4},r={1,2,…N4},DS的维数为N4,计算DS中单一特征fc(1≤c≤N4)的Score(fc,C),选出显著性特征并移除,即(Score(fc,C)>显著性P-value的特征),减少显著性特征所带来的边际作用的影响;移除显著特征的数据集为DS′,特征个数为N5
步骤6-2、基于并行置换的蚁群算法,从数据集DS′中选出显著交互的特征子集集合,将其加入到结果集合中,结果集合即交互特征的选择结果IF;
步骤6-2-1、确定数据集DS′中的并行的数据块个数q;
人工指定DS′划分成q块,记为∑DS′q(1<q<M)。对每块数据采用MapReduce框架,分布的实现基于置换蚁群算法。
步骤6-2-2、初始化基于置换的蚁群算法参数。
移除显著性特征后的代表性特征区域(序列集合DS′)的维数为N5,初始化一个长度为N5的向量L来记录每个特征对应的信息素数据,L的长度是N5,初始值为τ0。根据公式(1)计算每个特征的访问概率,
Figure GDA0003219712560000101
表示第t次迭代访问特征fw(1≤w≤N5)的概率。概率
Figure GDA0003219712560000102
由信息素浓度大小(τw(t-1))δ和启发式函数
Figure GDA0003219712560000103
共同决定。τw(t-1)表示第w个特征在t-1次迭代时的信息素浓度大小,δ表示影响信息素权重的参数。
Figure GDA0003219712560000104
则表示第w个特征的启发式函数值,β为期望启发因子。因为每个特征没有先验知识,所以设η=1,β=1。通过公式(2)可对特征进行信息素浓度的更新操作,其中ρ是信息素挥发系数,取值在0到1之间,Δτw表示第w个特征对应信息素的变化值。初始化种群大小为antNum,每个种群对应的迭代次数为iterNum。
Figure GDA0003219712560000105
步骤6-2-3从每块序列集合DS′q中选择出大小为k的特征子集。
所述从每块序列集合DS′q中选择出大小为k的位点子集是指依据步骤6-1计算DS′q中每个位点的Score,采用
Figure GDA0003219712560000106
选择出包含k个位点的子集Pq
步骤6-2-4、采用并行置换搜索的思想迭代的从大小为k个特征子集Pq中选择出显著性交互的特征子集,并将其加入到显著性交互的特征子集集合IF即结果集合中;当已选显著性交互的特征子集IF之外没有使得该特征子集更显著的特征时迭代停止。
所述的置换策略的思想为:保留上一步迭代过程中得到的显著性交互的特征子集,然后每次对集合内的一个特征进行置换。在选择下一个特征时,根据每个特征已置换次数选择集合外的一个特征与集合内的每个特征进行置换,从而减少特征的重复选择增加多样性。如果新的特征子集较原来的显著,就执行此次置换,否则不执行。这种方法,能够很好的利用高阶交互特征子集信息,有效防止低阶特征所带来的边际作用影响,从而得到显著的高阶交互特征子集。例如在序列集合DS′q中选择大小为k的特征子集Pq:在初始特征子集Pq选择过程中根据计算每个位点对应的Score,选择出来的位点所对应的χ2统计值,计算出其对应的显著性P-value,最终选择出大小为k的特征子集Pq
步骤6-2-5、当所有的蚂蚁完成搜索时一代蚁群迭代结束,保留本次迭代中得到的大小为k的显著交互特征子集。
步骤6-2-6、对显著交互特征子集进行特征的后向检测,删除掉冗余特征子集,最终得到不大于k阶的显著交互特征子集集合。
所述的后向检测就是判断如果从大小为k的特征子集Pq中删除特征X后,是否使得其Score变大。若变大,则删掉该特征。将原始的特征X从特征子集Pq中删除,后向检测后得到的特征子集加入结果集合IF中。
步骤6-2-7、对显著交互特征子集集合中IF中的每个显著特征用公式(2)进行信息素大小的更新操作。然后进入到下一次蚁群迭代中,直到迭代到指定代数iterNum时终止,并返回显著性特征子集集合。
τw(t+1)=(1-ρ)τw(t)+Δτw(t) (2)
Δτw(t)代表第w个特征在t次迭代时信息素浓度大小变化值,此处设Δτw(t)=1/(P-value({fw})),其中P-value({fw})即为选择出的交互特征子集{fw}对应的显著性P-vlaue。
所述的并行的方式指的是所述的并行方式是将整个蚁群中antNum中的每一个蚂蚁进行并行。采用的并行技术是基于Hadoop的MapReduce框架。在MapReduce框架中,置换的蚁群搜索的过程即对应着Map接口,全局信息素浓度大小更新操作即对应着Reduce接口。每个MapReduce Job即对应一次蚁群进行迭代搜索交互特征子集的过程,其中每个Mapper任务即对应着一组蚂蚁搜索交互特征子集的过程,有多少组蚂蚁就会对应多少个Mapper任务,每一个Reducer任务即是将Mapper任务结果汇总并写入到HDFS中以及信息素更新操作的过程,整个蚁群的迭代即是MapReduce Job的迭代。

Claims (8)

1.面向大规模高维序列数据的交互特征并行选择方法,其特征在于,包括:
对原始高维序列数据进行编码;所述原始高维序列数据是生物信息领域中的原始单核苷酸多态性Single Nucleotide Polymorphism,即SNP数据;
通过基于图论的块过滤,保留与目标类相关的SNP数据;
将与目标类相关的SNP数据执行细粒度的特征过滤;
划分特征过滤后的SNP数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;
所述极大等位公共子序列MACS具体定义如下:
假设给定任意k条序列
Figure FDA0003221365600000011
若序列Sα=eα1eα2…eαl,l≤min{n1,n2,...,nk},满足
Figure FDA0003221365600000012
1≤i≤k,
Figure FDA0003221365600000014
则称其为S1,S2,...,Sk的等位公共子序列;进一步,如果Sα的任意真超序列
Figure FDA0003221365600000013
不是S1,S2,...,Sk的等位公共子序列,则称Sα为S1,S2,...,Sk的极大等位公共子序列MaximalAllelic CommonSubsequence,简称MACS;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;
对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。
2.根据权利要求l所述的面向大规模高维序列数据的交互特征并行选择方法,其特征在于,所述通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据,包括:
对编码后的SNP数据进行基于图论的块过滤,构建无向权重图;
找出无向权重图中的密集子图,将与目标类相关的SNP数据保留。
3.根据权利要求2所述的面向大规模高维序列数据的交互特征并行选择方法,其特征在于,确定无向权重图中的密集子图,包括:
迭代地移除图中具有平均度数最小的顶点及相关的边并计算移除边后得到子图的密度,当子图顶点数量为1时迭代结束,将迭代过程中密度最大的子图作为密集子图输出。
4.根据权利要求l所述的面向大规模高维序列数据的交互特征并行选择方法,其特征在于,所述将与目标类相关的SNP数据执行细粒度的特征过滤,包括:
计算与目标类相关的SNP数据区域内的所有特征,按照其与目标类标签的卡方值降序排列;
计算所有卡方值的间隔区,确定间隔区最大值;
将间隔区最大值所对应的特征在SNP数据区域中所在位置作为削减阈值进行特征削减,得到特征过滤后的SNP数据集和特征。
5.根据权利要求l所述的面向大规模高维序列数据的交互特征并行选择方法,其特征在于,所述划分特征过滤后的SNP数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域,包括:
利用置换检验方法,确定特征过滤后的SNP数据集的支持度下界作为划分粒度;
基于极大等位公共子序列MACS,对特征过滤后的SNP数据集基于MapReduce并行划分成一系列低维序列数据,得到若干极大等位公共子序列构成的子序列集合作为区域划分后特征候选区域。
6.根据权利要求1所述的面向大规模高维序列数据的交互特征并行选择方法,其特征在于,所述对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域,包括:
步骤S1、对候选区域对应的数据集中的MACS为节点,构建无向图,将无向图中的每个MACS作为无向图中的一个顶点,如果MACS间的相似度大于给定阈值β,则两个顶点间有边存在;
步骤S2、选择无向图中连接边的数量最多的一个顶点所对应的极大等位公共子序列MACS子集加入到输出结果中,并在无向图中删除该顶点及其连接的边,更新无向图;
步骤S3、重复执行步骤S2,迭代至无向图为空为止,经过多样性选择后,输出结果即代表性特征区域。
7.根据权利要求l所述的面向大规模高维序列数据的交互特征并行选择方法,其特征在于,所述对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合,包括:
在代表性特征区域中选择出单一显著性特征并移除;
基于并行置换的蚁群算法,从移除显著特征的数据集中选出显著交互的特征子集集合,将其加入到结果集合中,结果集合即交互特征的选择结果。
8.根据权利要求7所述的面向大规模高维序列数据的交互特征并行选择方法,其特征在于,所述基于并行置换的蚁群算法,从移除显著特征的数据集中选出显著交互的特征子集集合,将其加入到结果集合中,包括:
确定移除显著特征的数据集中的并行的数据块个数;
初始化基于置换的蚁群算法参数;
从每块序列集合中选择出大小为k的特征子集;
采用并行置换搜索的思想迭代的从大小为k特征子集中选择出显著性交互的特征子集,并将其加入到显著性交互的特征子集集合即结果集合中;当已选显著性交互的特征子集之外没有使得该特征子集更显著的特征时迭代停止;
当所有的蚂蚁完成搜索时一代蚁群迭代结束,保留本次迭代中得到的大小为k的显著交互特征子集;
对显著交互特征子集进行特征的后向检测,删除掉冗余特征子集,最终得到不大于k阶的显著交互特征子集集合;
对显著交互特征子集集合中的每个显著特征进行信息素大小的更新操作,进入到下一次蚁群迭代中,直到迭代到指定代数时终止,并返回显著性特征子集集合。
CN201810575946.9A 2018-06-06 2018-06-06 面向大规模高维序列数据的交互特征并行选择方法 Active CN108897990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810575946.9A CN108897990B (zh) 2018-06-06 2018-06-06 面向大规模高维序列数据的交互特征并行选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810575946.9A CN108897990B (zh) 2018-06-06 2018-06-06 面向大规模高维序列数据的交互特征并行选择方法

Publications (2)

Publication Number Publication Date
CN108897990A CN108897990A (zh) 2018-11-27
CN108897990B true CN108897990B (zh) 2021-10-29

Family

ID=64344120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810575946.9A Active CN108897990B (zh) 2018-06-06 2018-06-06 面向大规模高维序列数据的交互特征并行选择方法

Country Status (1)

Country Link
CN (1) CN108897990B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801163B (zh) * 2021-01-22 2022-10-04 安徽大学 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982389A (zh) * 2012-11-02 2013-03-20 东南大学 使用基于MapReduce的蚁群优化技术求解组合优化问题的方法
CN103746982A (zh) * 2013-12-30 2014-04-23 中国科学院计算技术研究所 一种http网络特征码自动生成方法及其系统
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法
CN108073946A (zh) * 2017-11-29 2018-05-25 东北大学 一种面向图数据的投影聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050089916A1 (en) * 2003-10-28 2005-04-28 Xiongwu Xia Allele assignment and probe selection in multiplexed assays of polymorphic targets
US20170236069A1 (en) * 2016-02-11 2017-08-17 Nec Laboratories America, Inc. Scalable supervised high-order parametric embedding for big data visualization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982389A (zh) * 2012-11-02 2013-03-20 东南大学 使用基于MapReduce的蚁群优化技术求解组合优化问题的方法
CN103746982A (zh) * 2013-12-30 2014-04-23 中国科学院计算技术研究所 一种http网络特征码自动生成方法及其系统
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法
CN108073946A (zh) * 2017-11-29 2018-05-25 东北大学 一种面向图数据的投影聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"AntEpiSeeker: detecting epistatic interactions for case-control studies using a two-stage ant colony optimization algorithm";Yupeng Wang et al;《BMC Research Notes》;20100331;全文 *
Felipe Llinares L'opez et al."Fast and Memory-Efficient Significant Pattern Mining via Permutation Testing".《arXiv》.2015, *

Also Published As

Publication number Publication date
CN108897990A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
Zhang et al. Protein complexes discovery based on protein-protein interaction data via a regularized sparse generative network model
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
Smith et al. Phylogenetic inference using generative adversarial networks
CN108897990B (zh) 面向大规模高维序列数据的交互特征并行选择方法
US20230108368A1 (en) Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples
US20220336057A1 (en) Efficient voxelization for deep learning
El-Bakry et al. New fast decision tree classifier for identifying protein coding regions
US11515010B2 (en) Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures
JP2024514894A (ja) 深層学習のための効率的なボクセル化
KR20230171930A (ko) 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들
Gebert et al. Identifying genes of gene regulatory networks using formal concept analysis
US20230047347A1 (en) Deep neural network-based variant pathogenicity prediction
CN117995283B (zh) 一种单样本宏基因组聚类方法、系统、终端及存储介质
US20240153582A1 (en) Systems and methods for myopic estimation of nucleic acid binding
US20230343413A1 (en) Protein structure-based protein language models
Wang et al. Identifying Representative Network Motifs for Inferring Higher-order Structure of Biological Networks
Khan et al. AI and Genomes for Decisions Regarding the Expression of Genes
JP2024538477A (ja) タンパク質構造に基づくタンパク質言語モデル
JP2024538475A (ja) 三次元(3d)タンパク質構造ボクセルを用いた進化的保存からの変異体病原性の予測
WO2023062247A1 (en) A method, system and apparatus for training an interpretable artificial intelligence model
EP4413575A1 (en) Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples
WO2023059750A1 (en) Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples
Mathaus Analyzing gene-expression data with Bayesian networks
CN112509640A (zh) 基因本体项名称生成方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant