CN109856307A - 一种代谢组分子变量综合筛选技术 - Google Patents

一种代谢组分子变量综合筛选技术 Download PDF

Info

Publication number
CN109856307A
CN109856307A CN201910238318.6A CN201910238318A CN109856307A CN 109856307 A CN109856307 A CN 109856307A CN 201910238318 A CN201910238318 A CN 201910238318A CN 109856307 A CN109856307 A CN 109856307A
Authority
CN
China
Prior art keywords
variable
sample
class
value
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910238318.6A
Other languages
English (en)
Other versions
CN109856307B (zh
Inventor
林晓惠
李佳林
张艳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910238318.6A priority Critical patent/CN109856307B/zh
Publication of CN109856307A publication Critical patent/CN109856307A/zh
Application granted granted Critical
Publication of CN109856307B publication Critical patent/CN109856307B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种代谢组分子变量综合筛选技术,属于代谢组学数据分析技术领域。本发明中考量了分子对变量上多种可能的样本分布模式,对分子对变量的区分能力进行了综合的评价,并使用与分子对变量相同的指标,有机融合了单变量评价过程,将所有单变量和对变量的评分进行排序,选择得分最高的对变量及其分布模式或单变量进行后续靶向代谢分析。该方法的核心技术基于代谢组学的实际特点,对对变量上多种可能样本分布模式进行了多角度分析与综合评价,挖掘了信息丰富的变量,对所选分子变量和分子对变量进行分类测试,分类性能优越,故本发明为代谢组学数据的前期分析处理提供了切实有效的方法,具有较强的应用价值。

Description

一种代谢组分子变量综合筛选技术
技术领域
本发明属于代谢组学数据分析技术领域,发明结合当前高通量技术下非靶向代谢组变量多,噪音多,生物体代谢组中分子以各种通路相互关联,分子变量之间关系复杂多样等实际特点,分析样本在成对分子变量上多种可能的分布情况,对成对分子的类间区分能力进行综合评价,并使用统一指标,有机融合单分子的评价过程,有助于迅速从非靶向代谢组中筛选差异性代谢成分或组合代谢成分,来进行后续针对性定性定量研究,是一种代谢组分子变量综合评价筛选技术。
背景技术
代谢产物是基因表达的最终产物,在代谢酶的作用下生成。代谢物更多地反映了细胞所处的环境,这又与细胞的营养状态,药物和环境污染物的作用,以及其它外界因素的影响密切相关。研究人员通过对机体代谢产物进行深入研究,可以判断机体处于何种状态,而对基因和蛋白质的研究都无法得出这样的结论。代谢物的研究渗透多个领域,包括营养食品科学、毒理学、环境学、植物学等,代谢组学研究具有广泛的前景。
非靶向代谢组学(Untargeted metabolomics)是指采用LC-MS、GC-MS、NMR技术,无偏向性的检测机体受到刺激或扰动前后所有小分子代谢物,是代谢组学研究的重要步骤。但是,随着高通量检测技术的发展,代谢组学数据维度越来越高、由于实验,设备等原因,数据中噪音多、由于实验成本等原因,实验中涉及的样本量通常较小,由于这些特点的存在,非靶向代谢物分析受干扰较多,确定与问题相关代谢物的难度越来越大,从非靶向代谢实验中充分利用代谢组所携带的信息,快速且准确地确定与关键差异性代谢分子,为当前问题的进一步研究提供线索和方向的新技术,对于代谢组学研究具有重要的意义。
代谢反应机制十分复杂,代谢物以各类通路反应的形式相互关联,代谢分子变量间存在密切联系,其中蕴含丰富的信息,单分子反映差异的能力有限,差异有很大一部分反应在变量的组合形式上,仅研究单分子将忽略重要信息。分子变量间关系复杂而多样,不同变量对构成的二维平面空间上,样本的分布模式多种多样,对组合变量区分能力的判定需要根据情况作出变化,仅研究的单一的样本分布模式将对组合变量的区分能力产生误判,从而丢失大量有用信息,故需要进行组合变量的综合评价。
本发明在综合分析多种实际代谢组学数据的基础上,提出了一种代谢组变量综合筛选技术,该技术构建所有的对变量,对对变量分别进行多种假设样本分布模式下的类间区分能力评分,选取最高评分作为对变量的最终得分,并将最终得分相对应的样本分布模式确定为对变量的最佳样本分布模式。技术中融合了单变量评价过程,使用信息增益对每个单变量计算最佳划分点,使用与对变量评价过程相统一的指标,计算最佳划分点下的单变量类间区分能力评分。将所有单变量和对变量的评分进行排序,筛选得分最高的对变量及其分布模式(或单变量)进行后续靶向生物学分析。
发明内容
本发明的目的是基于代谢组分子变量多、数据噪音大、分子变量间关系复杂多样,难以用单一模式进行刻画的特点,建立一种能迅速确定差异性分子变量或分子组合变量的综合评价筛选方法。该方法的核心技术为:代谢分子对变量上多种可能样本分布模式的分析与综合评价。方法中,构建所有的对变量,对每对对变量所构成的二维平面,技术将分别分析可能呈现的几种样本分布模式:(1)两类样本在两个变量上的相对含量存在较大差异,或描述为:在两个变量构建的二维平面上,两类样本分别位于第一,三象限对角线的上下方,此情况下,样本呈现为水平分布模式;(2)两类样本在两个变量构建的二维平面上,分别分布于两变量的样本均值线相交叉构成的四个区域中,此情况下,样本呈现垂直分布模式;(3)两类样本在两个变量构建的二维平面上,分别近似形成两个分离的簇,但又不符合(1)(2)中描述的分布模式,此情况下,样本呈现簇分布模式;对每对变量的区分能力分别在三种假设样本分布模式下进行评分,选取最高评分作为对变量的最终得分,将最终得分相对应的样本分布模式确定为对变量的最佳分布模式。对单变量,根据信息增益找最佳分割点,使用最佳分割点分配样本,并使用在对变量分析中相同的指标计算此分配下单变量的得分。将所有单变量和对变量的评分进行排序,选择得分最高的对变量(或单变量),进行代谢物靶向研究。
为了实现上述目标,本发明采用的技术方案如下:
一种代谢组分子变量综合筛选技术,步骤如下:
使用LC-MS,GC-MS技术检测所研究问题的样本中的小分子代谢成分(相对分子量1000以下),并确定这些成分在不同样本中的含量。将各种成分看作变量,将成分的含量看作变量的值。
将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证。令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标。
步骤一、计算单变量得分;
(1.1)获取单变量最佳分裂点:首先将变量fi在所有训练样本上的取值进行递增顺序排列,每对不相等相邻值的中点作为此变量可能的分裂点,n个样本最多需计算n-1个可能的分裂点。对于每一个可能的分裂点,计算使用此分裂点进行训练样本集合划分时获得的信息增益,将信息增益最大的分裂点作为变量fi最佳分裂点。公式如下:
sp*=argmaxIG(X,spk),k=1,2,...,n1-1 (3)
公式(1)中,IG(X,spk)代表变量fi使用分裂点spk划分训练样本集合X后,得到的信息增益,n1为训练样本在变量fi上的取值个数,n1≤n,n为样本数量,X-代表在变量fi上取值小于分裂点spk的训练样本构成的集合,X+代表在变量fi上取值不小于分裂点spk的训练样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X集合的大小;公式(2)中H(X)代表信息熵,是度量样本集合纯度的一个指标,pl为集合X中类标为l的样本的比例,H(X)的值越小,则样本集合X的纯度越高;公式(3)中,sp*代表变量fi最佳分裂点。
(1.2)计算单变量得分:对每个单变量fi,1≤i≤m,构建对应的f′i,f′i在所有样本上的值,为此单变量fi的最佳划分点的值,使用变量fi与其对应的f′i组成(fi,f′i),以在单变量fi上及对应f′i上的值的相对大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足:fi<f′i,fi≥f′i。使用公式(4)-(6)进行单变量fi区分能力得分S(i,i′)的计算:
S(x,y)=(Compxy,max-Compxy)/Compxy,max (6)
公式(4)中,为fx和fy所构成的二维平面上,某区域d内类标为l的样本个数,l=1,2。为区域d内样本总数,r为区域的个数;公式(5)中,frexy(l)为类标为l的样本总个数,num为样本总数;公式(6)中,S(x,y)刻画了当前划分下各个区域的样本纯度,S(x,y)越高代表当前划分越能将异类样本区分开,也就越有效;对于此处单变量得分的计算,x=i,y=i′,r=2。
步骤二、计算对变量得分;
对每个对变量(fi,fj),1≤i<j≤m,分别分析其形成的二维平面上,三种样本分布模式:
(i)对于水平分布模式,根据变量fi和变量fj的大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足下列条件:fi<fj和fi≥fj。使用公式(4)-(6),x=i,y=j,r=2,进行得分的计算,记为Sh(i,j);
(ii)对于垂直分布模式,计算变量fi下所有训练样本的均值,记为μi,计算变量fj下所有训练样本的均值,记为μj,根据变量fi和变量fj的值将训练样本集合划分,得到四个区域,区域内样本分别满足:fi≥μi∩fj≥μj,fi≥μi∩fi<μj,fi<μi∩fj≥μj以及fi<μi∩fj<μj。使用公式(4)-(6),x=i,y=j,r=4,进行得分的计算,记为Sv(i,j);
(iii)对于簇分布模式,先移除训练集内每类样本中的离群样本,保留有效范围内的样本,构成新的样本集X′。类l样本的有效范围如下:
其中,分别为:变量fi在训练集类标为l的样本上的均值和标准差。则训练集类标为l的样本的中心的计算公式为:
其中,分别为类l样本集合的中心在变量fi和变量fj上的值;xq为训练集某样本,为样本xq在变量fi和变量fj上的值;yq为样本xq的类别;随后,令为样本xq离类l样本中心的欧式距离,计算训练集所有类l有效样本离类l样本中心的最大距离,此距离为类l形成的近似圆区域的半径公式如下:
以不同类的样本形成的近似圆区域为基础,得到不同类的一个重叠区域,并得到位于重叠区域的样本,即满足xq为训练集内某样本。使用公式(4)-(6),x=i,y=j,r=1,进行得分的计算,记为So(i,j);
比较三个模式(i)-(iii)相对应的三个得分,取三个得分中最大者为对变量最终得分,即S(i,j)=max{So(i,j),Sh(i,j),Sv(i,j)},将对变量的模式确定为最高得分对应的模式。
步骤三、选择得分最高的前k个单变量或对变量;
将所有对变量和单变量根据得分进行降序排序,令所选集合将对变量(fi,fj)或者单变量fi按降序顺序加入Pk。当前欲加入对变量(fi,fj),fi或者f已出现在集合Pk中某个对变量中,且此对变量与(fi,fj)采用相同的样本分布模式时,则不将此对变量(fi,fj)加入,而继续考虑将得分次高者加入Pk,迭代此加入的过程,直到集合Pk的大小|Pk|=k为止。
步骤四、利用最优变量构造分类器,进行变量性能验证;
使用Pk中的对变量或单变量建立分类器,通过多数投票的方式融合各个基分类器的预测结果。基分类器分类原理如下:
(4.1)对于单变量fi
(A)当待预测样本变量fi的取值小于f′i的取值时:1类样本中变量fi小于f′i的比例大于2类样本中变量f小于f′i的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于f′i的取值时:1类样本中变量fi大于等于f′i的比例大于2类样本中变量fi大于等于f′i的比例,则将样本预测为1类,否则,预测为2类;
(4.2)对于对变量(fi,fj),当其采用水平分布模式时:
(A)当待预测样本变量fi的取值小于变量fj的取值时:1类样本中变量fii小于变量fj的比例大于2类样本中变量fi小于变量fj的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于变量fj的取值时:1类样本中变量fi大于等于变量fj的比例大于2类样本中变量fj大于等于变量fj的比例,则将样本预测为1类,否则,预测为2类;
(4.3)对于对变量(fi,fj),当其采用垂直分布模式时:
(A)当待预测样本变量fi与fj的取值满足fi≥μi∩fj≥μj时:1类样本中满足fi≥μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi与fj的取值满足fi≥μi∩fj<μj时:1类样本中满足fi≥μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(C)当待预测样本变量fi与fj的取值满足fi<μi∩fj≥μj时:1类样本中满足fi<μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(D)当待预测样本变量fi与fj的取值满足fi<μi∩fj<μj时:1类样本中满足fi<μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(4.4)对于对变量(fi,fj),当其采用簇分布模式时,令为fi,fj构成的二维平面上,待预测样本xu与类l圆心的欧式距离,rl为类l样本构成的圆的半径,l=1,2:
(A)当待预测样本xu位于两圆公共区域,即 时:统计fi,fj构成的二维平面上,与待预测样本最近的3个样本中,两类样本的数量,取数量较多的类作为预测样本的类;
(B)当待预测样本xu仅位于其中一个圆内,即 待预测样本xu的类为所在圆的所属类;
(C)当待预测样本xu位于两圆之外,即时:当满足:
则将其预测为1类,否则预测为2类。
本发明的有益效果:该方法的核心技术基于代谢组学的实际特点,对对变量上多种可能样本分布模式进行了多角度分析与综合评价,挖掘了信息丰富的变量,对所选分子变量和分子对变量进行分类测试,分类性能优越,故本发明为代谢组学数据的前期分析处理提供了切实有效的方法,具有较强的应用价值。
附图说明
图1为使用该方法,在乳腺代谢公共数据集上找到的区分能力排名第一的变量f35
图2为使用该方法,在乳腺代谢公共数据集上找到的区分能力排名第二的变量对f13、f35
图3为使用该方法,在乳腺代谢公共数据集上找到的区分能力排名第三的变量对f7、f147
具体实施方式
下面结合技术方案,构建假设的数据集来进一步说明本发明的具体实施方式。假设代谢数据共10个样本,包含两类(1和2),共4个代谢分子变量:f1、f2、f3和f4,将k设置为3。
变量评价与筛选:
(1)计算单变量的最佳划分点。以变量f1为例:将所有训练集样本在f1上的取值排序,依次采用相邻两个不相等的值的中点作为分裂点,使用公式(1)计算每个分裂点下,将训练样本集合划分获得的信息增益,并取最大信息增益对应的分裂点作为该变量的最佳分裂点,不妨设变量f1最佳分裂点的值为a,同理我们可以得到变量f2、f3和f4的最佳分裂点,分别设为b,c,d。
(2)利用计算得到的最佳分裂点,构造f′1、f′2、f′3和f′4,其中,f′1在所有训练样本上的取值为a,同理,f′2、f′3和f′4在所有训练样本上的取值分别为b,c,d。
(3)构造集合{(f1,f′1),(f2,f′2),(f3,f′3),(f4,f′4),(f1,f2),(f1,f3),(f1,f4),(f2,f3),(f2,f4),(f3,f4)}。
(4)对每个单变量fi,计算其得分S(i,i)。以f1为例,根据所有训练样本在f1和f′1上取值的大小关系,将训练样本集合划分,得到两个区域,区域内训练样本在f1和f′1上的取值分别为:f1<f′1,f1≥f′1。或者表示为:f1<a,f1≥a。利用公式(4)-(6)计算单变量f1得分S(1,1),不妨设为0.7。同理,计算单变量f2、f3和f4得分,不妨分别设为0.6,0.8,0.85。
(5)对每个对变量(fi,fj),计算其得分S(i,j)。以(f1,f2)为例,依次计算:(i)水平分布模式得分:根据训练样本在变量f1和变量f2上的值的大小关系,将训练样本集合内所有样本分配到f1<f2,f1≥f2两个区域,并使用公式(4)-(6)计算对变量(f1,f2)在假设的水平分布模式下的得分,记为Sh(1,2),不妨设为0.7;(ii)垂直分布模式得分:计算训练样本集合内所有样本在f1,f2上的均值,分别记为μ1,μ2,以训练样本在f1,f2上的取值为基础,将训练样本按条件分配到如下4个区域:f1≥μ1∩f2≥μ2,f1≥μ1∩f2<μ2,f1<μ1∩f2≥μ2以及f1<μ1∩f2<μ2,然后使用公式(4)-(6)计算对变量(f1,f2)在假设的垂直分布模式下的得分,记为Sv(1,2),不妨设为0.9;(iii)簇分布模式得分:使用公式(8)计算训练样本集合内类标为1和2的两类样本的近似圆圆心,分别记为使用公式(9)计算训练样本集合内类标为1和2的两类样本的近似圆半径,分别记为得到两簇重叠区域以及落在重叠区域内的样本,即训练样本集合内满足:的所有样本,xq为某训练样本,使用公式(4)-(6)计算对变量(f1,f2)在假设的簇分布模式下的得分,记为So(1,2),不妨设为0.8。综合(i)(ii)(iii)计算得到的三个得分,将最高得分0.9作为对变量(f1,f2)最终得分,即S(1,2)=Sv(1,2)=0.9,并将对变量(f1,f2)的最佳样本分布模式确定为最高得分所对应的分布模式,即垂直。对其他对变量采取相同的处理方式,计算其得分以及相应的样本分布模式,假设S(1,3)=Sv(1,3)=0.65,S(1,4)=So(1,4)=0.75,S(2,3)=Sh(2,3)=0.55,S(2,4)=Sv(2,4)=0.5,S(3,4)=So(3,4)=0.87。
(6)将全体对变量和单变量根据得分降序排序,排序结果为S(1,2)>S(3,4)>S(4,4)>S(3,3)>S(1,4)>S(1,1)>S(1,3)>S(2,2)>S(2,3)>S(2,4)。令k=3,即选取排名前3者。其中,对变量(f1,f2)得分最高,为S(1,2)=0.9,对应分布模式为垂直;对变量(f3,f4)得分次之,为S(3,4)=0.87,对应分布模式为簇分布模式;单变量f4得分第三,为S(4,4)=0.8。
变量或变量对的区分能力验证:
利用三对变量构造分类器。对于对变量(f1,f2),由于其采用垂直分布模式,根据未知样本在变量f1,f2上的取值,将其分配到下面满足条件的区域中:f1≥μ1∩f2≥μ2,f1≥μ1∩f2<μ2,f1<μ1∩f2≥μ2以及f1<μ1∩f2<μ2,不妨设样本被分配到了区域f1≥μ1∩f2≥μ2,1类样本中位于此区域的比例大于2类样本中位于此区域的比例,故将样本预测为1类;对于对变量(f3,f4),由于其采用簇分布模式,根据未知样本在变量f3,f4上的取值,将其分配到下面满足条件的区域中,xu为未知样本: 设样本被分配到区域 中,即仅落在1类构成的近似圆内,故将样本预测为1类;对于单变量f4,未知样本在f4′上的取值为f4的最佳划分点,即d。根据未知样本在f4,f′4上的取值,将其分配到下面满足条件的区域中:f4<f′4,f4≥f′4。设样本被分配到区域f4<f′4中,1类样本中位于此区域的比例大于2类样本中位于此区域的比例,故将样本预测为1类。综合投票结果,将未知样本预测为1类票数为3,2类票数为0,故将样本预测为1类。计算测试集上所有样本的预测情况,并与真实类标相比较,得到分类准确率,验证所选代谢分子或代谢分子对的区分能力。
下面的表格为此方法(EC)与常用模式识别技术k-TSP和k-SF方法在两个代谢公共数据集上交叉验证50次5倍的分类准确度比较结果(准确度±标准差)。k为各方法进行分类所使用的变量数,*为t检验中p值小于0.05的显著性差异,**为p值小于0.01的显著性差异。从结果可以得出,本技术所确定的差异性分子或分子对具有较强的区分能力。
表1.准确率对比
上述表格中的乳腺癌代谢公共数据(breast)包括271例乳腺癌样本(204例雌激素受体阳性ER+和67例雌激素受体阴性ER-),对于每个样本组织,采用气相色谱-飞行时间质谱联用技术(GC-TOFMS)测定了162种已知化学结构的代谢产物。图1-3为使用交叉验证50次5倍,选择变量数设为3的情况下,本方法选择频率最高的前三位,分别为单变量f35(图1),对变量(f13,f35)(图2,垂直分布模式),以及对变量(f7,f147)(图3,垂直分布模式),图中叉点为雌激素受体阴性患者组织(ER-),圆点为雌激素受体阳性患者组织(ER+)。从图中可以得出,此技术找出的变量所构成的空间中,两类样本在方法确定的分布模式下呈现清晰的类间分离趋势,该技术从代谢数据中挖掘了信息丰富的变量,为后续靶向代谢研究提供了方向,具有较强的应用价值。

Claims (1)

1.一种代谢组分子变量综合筛选技术,其特征在于,步骤如下:
使用LC-MS,GC-MS技术检测所研究问题的样本中的小分子代谢成分,相对分子量1000以下,并确定这些成分在不同样本中的含量;将各种成分看作变量,将成分的含量看作变量的值;
将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证;令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标;
步骤一、计算单变量得分;
(1.1)获取单变量最佳分裂点:首先将变量fi在所有训练样本上的取值进行递增顺序排列,每对不相等相邻值的中点作为此变量可能的分裂点,n个样本最多需计算n-1个可能的分裂点;对于每一个可能的分裂点,计算使用此分裂点进行训练样本集合划分时获得的信息增益,将信息增益最大的分裂点作为变量fi最佳分裂点;公式如下:
sp*=argmaxIG(X,spk),k=1,2,...,n1-1(3)
公式(1)中,IG(X,spk)代表变量fi使用分裂点spk划分训练样本集合X后,得到的信息增益,n1为训练样本在变量fi上的取值个数,n1≤n,n为样本数量,X-代表在变量fi上取值小于分裂点spk的训练样本构成的集合,X+代表在变量fi上取值不小于分裂点spk的训练样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X集合的大小;公式(2)中H(X)代表信息熵,是度量样本集合纯度的一个指标,pl为集合X中类标为l的样本的比例,H(X)的值越小,则样本集合X的纯度越高;公式(3)中,sp*代表变量fi最佳分裂点;
(1.2)计算单变量得分:对每个单变量fi,1≤i≤m,构建对应的f’i,f’i在所有样本上的值,为此单变量fi的最佳划分点的值,使用变量fi与其对应的f’i组成(fi,f’i),以在单变量fi上及对应f’i上的值的相对大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足:fi<f’i,fi≥f’i;使用公式(4)-(6)进行单变量fi区分能力得分S(i,i’)的计算:
S(x,y)=(Compxy,max-Compxy)/Compxy,max(6)
公式(4)中,为fx和fy所构成的二维平面上,某区域d内类标为l的样本个数,l=1,2;为区域d内样本总数,r为区域的个数;公式(5)中,frexy(l)为类标为l的样本总个数,num为样本总数;公式(6)中,S(x,y)刻画了当前划分下各个区域的样本纯度,S(x,y)越高代表当前划分越能将异类样本区分开,也就越有效;对于此处单变量得分的计算,x=i,y=i’,r=2;
步骤二、计算对变量得分;
对每个对变量(fi,fj),1≤i<j≤m,分别分析其形成的二维平面上,三种样本分布模式:
(i)对于水平分布模式,根据变量fi和变量fj的大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足下列条件:fi<fj和fi≥fj;使用公式(4)-(6),x=i,y=j,r=2,进行得分的计算,记为Sh(i,j);
(ii)对于垂直分布模式,计算变量fi下所有训练样本的均值,记为μi,计算变量fj下所有训练样本的均值,记为μj,根据变量fi和变量fj的值将训练样本集合划分,得到四个区域,区域内样本分别满足:fi≥μi∩fj≥μj,fi≥μi∩fj<μj,fi<μi∩fj≥μj以及fi<μi∩fj<μj;使用公式(4)-(6),x=i,y=j,r=4,进行得分的计算,记为Sv(i,j);
(iii)对于簇分布模式,先移除训练集内每类样本中的离群样本,保留有效范围内的样本,构成新的样本集X’;类l样本的有效范围如下:
其中,分别为:变量fi在训练集类标为l的样本上的均值和标准差;则训练集类标为l的样本的中心的计算公式为:
其中,分别为类l样本集合的中心Vl ij在变量fi和变量fj上的值;xq为训练集某样本,为样本xq在变量fi和变量fj上的值;yq为样本xq的类别;随后,令d(Vl ij,xq)为样本xq离类l样本中心Vl ij的欧式距离,计算训练集所有类l有效样本离类l样本中心的最大距离,此距离为类l形成的近似圆区域的半径rl ij,公式如下:
rl ij=maxad(Vl ij,xq),xq∈X’and yq=l,l=1,2(9)
以不同类的样本形成的近似圆区域为基础,得到不同类的一个重叠区域,并得到位于重叠区域的样本,即满足xq为训练集内某样本;使用公式(4)-(6),x=i,y=j,r=1,进行得分的计算,记为So(i,j);
比较三个模式(i)-(iii)相对应的三个得分,取三个得分中最大者为对变量最终得分,即S(i,j)=max{So(i,j),Sh(i,j),Sv(i,j)},将对变量的模式确定为最高得分对应的模式;
步骤三、选择得分最高的前k个单变量或对变量;
将所有对变量和单变量根据得分进行降序排序,令所选集合将对变量(fi,fj)或者单变量fi按降序顺序加入Pk;当前欲加入对变量(fi,fj),fi或者fj已出现在集合Pk中某个对变量中,且此对变量与(fi,fj)采用相同的样本分布模式时,则不将此对变量(fi,fj)加入,而继续考虑将得分次高者加入Pk,迭代此加入的过程,直到集合Pk的大小|Pk|=k为止;
步骤四、利用最优变量构造分类器,进行变量性能验证;
使用Pk中的对变量或单变量建立分类器,通过多数投票的方式融合各个基分类器的预测结果;基分类器分类原理如下:
(4.1)对于单变量fi
(A)当待预测样本变量fi的取值小于f’i的取值时:1类样本中变量fi小于f’i的比例大于2类样本中变量f小于f’i的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于f’i的取值时:1类样本中变量fi大于等于f’i的比例大于2类样本中变量fi大于等于f’i的比例,则将样本预测为1类,否则,预测为2类;
(4.2)对于对变量(fi,fj),当其采用水平分布模式时:
(A)当待预测样本变量fi的取值小于变量fj的取值时:1类样本中变量fi小于变量fj的比例大于2类样本中变量fi小于变量fj的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于变量fj的取值时:1类样本中变量fi大于等于变量fj的比例大于2类样本中变量fi大于等于变量fj的比例,则将样本预测为1类,否则,预测为2类;
(4.3)对于对变量(fi,fj),当其采用垂直分布模式时:
(A)当待预测样本变量fi与fj的取值满足fi≥μi∩fj≥μj时:1类样本中满足fi≥μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi与fj的取值满足fi≥μi∩fj<μj时:1类样本中满足fi≥μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(C)当待预测样本变量fi与fj的取值满足fi<μi∩fj≥μj时:1类样本中满足fi<μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(D)当待预测样本变量fi与fj的取值满足fi<μi∩fj<μj时:1类样本中满足fi<μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(4.4)对于对变量(fi,fj),当其采用簇分布模式时,令d(Vl ij,xu)为fi,fj构成的二维平面上,待预测样本xu与类l圆心Vl ij的欧式距离,rl为类l样本构成的圆的半径,l=1,2:
(A)当待预测样本xu位于两圆公共区域,即d(V1 ij,xu)≤r1∩d(V2 ij,xu)≤r2时:统计fi,fj构成的二维平面上,与待预测样本最近的3个样本中,两类样本的数量,取数量较多的类作为预测样本的类;
(B)当待预测样本xu仅位于其中一个圆内,即d(V1 ij,xu)≤r1∩d(V2 ij,xu)>r2或d(V2 ij,xu)>r1∩d(V2 ij,xu)≤r2:待预测样本xu的类为所在圆的所属类;
(C)当待预测样本xu位于两圆之外,即d(V1 ij,xu)>r1∩d(V2 ij,xu)>r2时:当满足:
则将其预测为1类,否则预测为2类。
CN201910238318.6A 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术 Expired - Fee Related CN109856307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910238318.6A CN109856307B (zh) 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910238318.6A CN109856307B (zh) 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术

Publications (2)

Publication Number Publication Date
CN109856307A true CN109856307A (zh) 2019-06-07
CN109856307B CN109856307B (zh) 2021-04-16

Family

ID=66902186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910238318.6A Expired - Fee Related CN109856307B (zh) 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术

Country Status (1)

Country Link
CN (1) CN109856307B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890130A (zh) * 2019-12-03 2020-03-17 大连理工大学 基于多类型关系的生物网络模块标志物识别方法
CN111739581A (zh) * 2020-06-12 2020-10-02 大连理工大学 一种基因组变量综合筛选方法
WO2022027118A1 (pt) * 2020-08-04 2022-02-10 Universidade Estadual De Campinas Método automático de seleção molecular

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050162A (zh) * 2013-03-11 2014-09-17 富士通株式会社 数据处理方法和数据处理装置
CN104699707A (zh) * 2013-12-06 2015-06-10 深圳先进技术研究院 一种聚类数据的方法和装置
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN105424827A (zh) * 2015-11-07 2016-03-23 大连理工大学 一种代谢组学数据随机误差的筛选和校正方法
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
WO2018067886A2 (en) * 2016-10-05 2018-04-12 Nantomics, Llc Stress induced mutations as a hallmark of cancer
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN108537003A (zh) * 2018-03-30 2018-09-14 大连理工大学 基于单变量和对变量的标志物筛选方法
CN108595585A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 样本数据分类方法、模型训练方法、电子设备及存储介质
US20180322363A1 (en) * 2015-03-26 2018-11-08 Oracle International Corporation Multi-distance clustering
CN109214462A (zh) * 2018-09-25 2019-01-15 东北大学 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法
CN109508087A (zh) * 2018-09-25 2019-03-22 易念科技(深圳)有限公司 脑纹信号识别方法及终端设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050162A (zh) * 2013-03-11 2014-09-17 富士通株式会社 数据处理方法和数据处理装置
CN104699707A (zh) * 2013-12-06 2015-06-10 深圳先进技术研究院 一种聚类数据的方法和装置
US20180322363A1 (en) * 2015-03-26 2018-11-08 Oracle International Corporation Multi-distance clustering
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN105424827A (zh) * 2015-11-07 2016-03-23 大连理工大学 一种代谢组学数据随机误差的筛选和校正方法
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
WO2018067886A2 (en) * 2016-10-05 2018-04-12 Nantomics, Llc Stress induced mutations as a hallmark of cancer
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN108537003A (zh) * 2018-03-30 2018-09-14 大连理工大学 基于单变量和对变量的标志物筛选方法
CN108595585A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 样本数据分类方法、模型训练方法、电子设备及存储介质
CN109214462A (zh) * 2018-09-25 2019-01-15 东北大学 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法
CN109508087A (zh) * 2018-09-25 2019-03-22 易念科技(深圳)有限公司 脑纹信号识别方法及终端设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUAN LIU ET AL: "A new feature selection method based on a validity index of feature subset", 《PATTERN RECOGNITION LETTERS》 *
XIN HUANG ET AL: "Analyzing omics data by pair-wise feature evaluation with horizontal and vertical comparisons", 《JOURNAL OF PHARMACEUTICAL AND BIOMEDICAL ANALYSIS》 *
张健 等: "基于分裂式K均值聚类的图像分割方法", 《计算机应用》 *
江峰 等: "基于加权的K-modes聚类初始中心选择算法", 《山东大学学报(工学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890130A (zh) * 2019-12-03 2020-03-17 大连理工大学 基于多类型关系的生物网络模块标志物识别方法
CN110890130B (zh) * 2019-12-03 2022-09-20 大连理工大学 基于多类型关系的生物网络模块标志物识别方法
CN111739581A (zh) * 2020-06-12 2020-10-02 大连理工大学 一种基因组变量综合筛选方法
WO2022027118A1 (pt) * 2020-08-04 2022-02-10 Universidade Estadual De Campinas Método automático de seleção molecular

Also Published As

Publication number Publication date
CN109856307B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
Wen et al. A maximal clique based multiobjective evolutionary algorithm for overlapping community detection
CN109856307A (zh) 一种代谢组分子变量综合筛选技术
Steinley Properties of the hubert-arable adjusted rand index.
CN109299380B (zh) 在线教育平台中基于多维特征的习题个性化推荐方法
Huang et al. Exploiting local coherent patterns for unsupervised feature ranking
CN102262642B (zh) 一种Web图像搜索引擎及其实现方法
CN110222782A (zh) 基于密度聚类的有监督二分类数据分析方法及系统
CN110322930A (zh) 基于水平关系的代谢组学网络标志物识别方法
CN111984873A (zh) 一种服务推荐系统和方法
Seddig et al. Using cultural and structural indicators to explain measurement noninvariance in gender role attitudes with multilevel structural equation modeling
Vankayalapati et al. K-means algorithm for clustering of learners performance levels using machine learning techniques.
Cruz-Ramírez et al. A preliminary study of ordinal metrics to guide a multi-objective evolutionary algorithm
CN113672809A (zh) 一种基于个性化推荐算法的智能导学方法及系统
Kennedy et al. Voting and values: Grassroots elections in rural and urban China
CN108537003A (zh) 基于单变量和对变量的标志物筛选方法
CN110010204A (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN115396389A (zh) 一种基于情绪能量感知的物联网信息技术客服服务系统
Bergman et al. Revitalizing the typological approach: Some methods for finding types
Kruisselbrink et al. Enhancing search space diversity in multi-objective evolutionary drug molecule design using niching
Liu et al. Combination of multiple retrieval systems using rank-score function and cognitive diversity
CN110008975A (zh) 基于免疫危险理论的社交网络水军检测方法
CN110427964A (zh) 一种基于互信息的多元时间序列变量选择方法
Zhou Evaluation research on data processing of mental health of college students based on decision tree algorithm
Huang et al. Conjecturable knowledge discovery: A fuzzy clustering approach
CN109376366A (zh) 一种异常线损影响因素的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210416