CN108537003B

CN108537003B - 基于单变量和对变量的标志物筛选方法

Info

Publication number: CN108537003B
Application number: CN201810293444.7A
Authority: CN
Inventors: 林晓惠; 宋欢欢; 张艳慧
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2020-04-07
Anticipated expiration: 2038-03-30
Also published as: CN108537003A

Abstract

本发明属于生物数据分析技术领域，涉及一种基于单变量和对变量的标志物筛选方法。生物数据具有维度高、样本量小的特点，所以利用简单且准确的决策规则评价、选择变量，从而进行分类与预测是生物数据分析的重要任务。为综合评价变量，本发明使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量，与其对应的原始变量建立对变量。同时，原始空间的变量也通过两两组合生成变量对。然后，根据两个评分准则对所有的对变量进行评分，将其按照得分由大到小排序，选择得分最高且不重叠的k对变量，构造融合分类器。该方法的核心技术利用单变量构造新的对变量，可以使用相同的准则评估单变量与对变量的分类性能，提供切实有效的数据处理方法。

Description

基于单变量和对变量的标志物筛选方法

技术领域

本发明属于生物数据分析技术领域，涉及一种基于单变量和对变量的标志物筛选方法，是一种同时衡量单变量和对变量的特征选择与分类方法。

背景技术

生物数据通常具有维度高、样本量小的特点，所以利用简单且准确的决策规则评价、选择变量，从而进行分类与预测是生物数据分析的重要任务，对疾病诊断、药物疗效、预后等研究具有重要意义。

单分子标志物经常作为临床诊断和预后判断的重要指标，例如甲胎蛋白(AFP)已经被认为是肝癌诊断的首选血清肿瘤标记物。然而，分子个体标志物通常存在假阳性高的问题。因此，确定与疾病发生发展密切相关的生物标志物，降低假阳性，对疾病诊断、预后以及疾病机理的研究十分重要。

k-TSP算法根据一对变量的相对含量在不同样本组中的差异评价特征对的重要性，选择得分最高的k对变量建立分类模型。该算法只选择少数几对变量，并通过它们的相对含量对样本进行预测，易获得生物学解释且分类性能与支持向量机和随机森林相当，在基因组学和代谢组学等组学数据分析中应用广泛。同时，k-TSP算法在处理白血病、肺癌、前列腺癌、乳腺癌、淋巴癌、膀胱癌等多种癌症中均展现出其良好的性能。

本发明提出了一种同时评价单变量与对变量的特征选择与分类方法。该方法使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量，与其对应的原始变量建立对变量。同时，原始变量也通过两两组合生成对变量。然后，根据k-TSP算法的两个评分准则对所有的对变量进行评分，将其按照得分由大到小排序，选择得分最高且不重叠的k对变量，构造融合分类器。

发明内容

本发明的目的是建立一种同时评价单变量与对变量的特征选择与分类方法。该方法的核心技术利用单变量构造新的对变量，可以使用相同的准则评估单变量与对变量的分类性能。

为了实现上述目标，本发明采用的技术方案如下：

一种基于单变量和对变量的标志物筛选方法，步骤如下：

(1)获得单变量的最佳分裂点：令F＝{f₁,f₂,...,f_m}代表变量集合，m是变量数，X＝{x₁,x₂,…,x_n}代表样本集合，n是样本数，C＝{c₁,c₂}代表类标集合，Y＝{y₁,y₂...,y_n}是n个样本的类标向量，其中y_i∈C是第i个样本的类标；首先将变量f_i按照变量在样本上的取值递增顺序排列；每对相邻值的中点作为可能的分裂点，n个样本需计算n-1个可能的分裂点；然后，扫描可能的分裂点，对于每一个可能的分裂点，计算信息增益，信息增益最大的分裂点就是变量f_i最佳分裂点；公式如下：

sp^*＝argmaxIG(X,sp_k),k＝1,2,...,n-1 (2)

其中，IG(X,sp_k)代表变量f_i使用分裂点sp_k划分样本集合X后的信息增益；X^-代表在变量f_i上取值小于分裂点sp_k的样本构成的集合，X⁺代表在变量f_i上取值不小于分裂点sp_k的样本构成的集合，|X^-|、|X⁺|和|X|分别是X^-、X⁺与X样本集合的大小；H(X)代表信息熵，是度量样本集合纯度的一个指标；H(X)的值越小，则样本集合X的纯度越高；sp^*代表最佳分裂点；

(2)构造新变量：利用最佳分裂点构造新变量，新变量f_i'(1≤i≤m)在每个样本上取值相同，均为最佳分裂点的值；

(3)构建对变量：使用两种方式构造对变量，第一种方式使用原始变量两两组合构造对变量(f_i,f_j)，1≤i≠j≤m；第二种方式使用变量f_i与其对应的新变量f_i'组成伪对变量(f_i,f_i')，1≤i≤m，新变量f_i'在所有样本上取值相同，且只与变量f_i组成对变量，所以这种方式构造的对变量称为伪对变量；将两种方式构建的对变量集合记做PS；

(4)获得对变量得分：使用两个准则获得对变量得分，第一准则Δ_ij与第二准则Γ_ij；

Δ_ij＝|P_ij(c₁)-P_ij(c₂)| (3)

P_ij(c_l)＝Pr(R_(i,q)<R_(j,q)|y_q＝c_l,q＝1,2,...,n),l＝1,2 (4)

Γ_ij＝|μ_ij(c₁)-μ_ij(c₂)| (5)

在公式(3)-(4)中，y_q＝c_l代表第q个样本的类标为c_l，对于二分类问题，l的取值为1和2；R_(i,q)与R_(j,q)分别代表第i个变量f_i与第j个变量f_j在第q个样本x_q中含量的排名，按升序排名，排名第一的变量，其值最小；P_ij(c_l)代表在类标为c_l的样本中变量f_i的排名小于变量f_j排名的概率；Δ_ij代表c₁类样本中变量f_i排名小于变量f_j排名的概率与c₂类样本中变量f_i排名小于变量f_j排名的概率差值的绝对值，Δ_ij得分的取值范围为[0,1]，Δ_ij值越大表明对变量对于两类问题的区分越明显；当Δ_ij＝1时，R_(i,q)-R_(j,q)的大小关系在两类样本中呈现符号相反的情况，即在一类样本中R_(i,q)均大于R_(j,q)，在另一类样本中R_(i,q)均小于R_(j,q)，这是一种理想情况；

在公式(5)-(6)中，|{x_q|y_q＝c_l}|代表类标为c_l的样本数；R_(i,q)-R_(j,q)代表样本x_q距离直线f_i＝f_j的距离；计算样本到直线的距离时，将变量在样本上的取值替换为在样本上的排名，同时因为计算每一个样本到直线的距离分母均相同，省略分母，所以样本x_q到直线f_i＝f_j的距离表示为R_(i,q)-R_(j,q)；μ_ij(c_l)代表类别c_l的样本距离f_i＝f_j直线的平均距离；Γ_ij代表c₁类样本与c₂类样本分别距离直线f_i＝f_j平均距离的差值的绝对值；

(5)选择得分最高且不重叠的k对变量：计算PS中所有对变量的第一准则与第二准则得分，按照得分降序排列，在第一准则得分相同时使用第二准则评价对变量；令所选k对变量集合S_k＝Φ，将得分最高的对变量(f_i,f_j)或者(f_i,f_i')加入S_k，移除包含f_i或者f_j的对变量，将得分次高的对变量加入S_k，迭代该过程，直到集合S_k的大小|S_k|＝k为止；

(6)构造分类器：使用S_k中的k对变量建立分类器，通过多数投票的方式融合各个基分类器的预测结果；基分类器分类原理如下：

如果c₁类样本中变量f_i排名小于变量f_j排名的概率大于c₂类样本中变量f_i排名小于变量f_j排名的概率，当待预测样本变量f_i的取值小于变量f_j的取值时，则将样本预测为c₁类，否则预测为c₂类；同理，如果c₁类样本中变量f_i排名小于变量f_j排名的概率小于等于c₂类样本中变量f_i排名小于变量f_j的概率，当待预测样本变量f_i的取值小于变量f_j的取值时，则将样本预测为c₂类，否则，预测为c₁类。

在解决二分类问题时，步骤(5)中的k值为奇数，以打破投票相同的情况。

本发明的效果和益处：

本发明应用于生物组学数据分析，同时衡量了单变量与对变量中包含的信息量，挖掘生物大数据中富含信息的生物标志物；利用最佳分割点构造新的变量，扩大了变量搜索空间；同时进行标志物发现和分类模型构建，选择几对变量和几个变量构建集成的分类模型，分类原理容易获得生物学解释，有助于对疾病致病机理的研究，为疾病的早期诊断和预后研究提供切实有效的数据处理方法。

具体实施方式

下面结合技术方案和一组模拟数据进一步说明本发明的具体实施方式，模拟数据仅限于说明本发明以便于理解，而非对本发明的限制。

表1中为本发明的模拟数据，数据包含两类(c₁和c₂)，每一类包含5个样本，共4个变量：f₁、f₂、f₃和f₄。

表1：变量f₁，f₂，f₃和f₄在10个样本上的取值

(1)我们以变量f₁为例，计算变量的最佳分裂点。将变量f₁按照升序排列，排序结果为{-11,-10,-6,-3,-2,-2,1,6,8,10}；相邻两个值的中点作为分裂点，则所有的分裂点为{-10.5,-8,-4.5,-2.5,-2,-0.5,3.5,7,9}；使用公式(1)计算9个分裂点的信息增益，根据公式(2)得到变量f₁在分裂点-2.5时，信息增益取值最大。所以变量f₁的最佳分裂点为-2.5。同理我们可以得到变量f₂、f₃和f₄的最佳分裂点分别为-4.5、8.5和9.5。

(2)利用计算得到的最佳分裂点，构造新变量，记做f₁'、f₂'、f₃'和f₄'。

(3)构造对变量集合为{(f₁,f₁'),(f₂,f₂'),(f₃,f₃'),(f₄,f₄'),(f₁,f₂),(f₁,f₃),(f₁,f₄),(f₂,f₃),(f₂,f₄),(f₃,f₄)}。

(4)利用公式(3)-(6)计算10对变量的第一准则与第二准则得分。

(5)按照得分降序排列对变量：(f₃,f₃')>(f₁,f₃)>(f₄,f₄')>(f₁,f₂)>(f₁,f₁')>(f₁,f₄)>(f₂,f₃)>(f₂,f₂')>(f₂,f₄)>(f₃,f₄)。在本次模拟数据中令k＝3，选择得分最高且不重叠的3对变量，分别为(f₃,f₃')，(f₄,f₄')，(f₁,f₂)。

(6)利用三对变量构造分类器，令x＝{-4,5,10,7}为待测样本。根据对变量(f₃,f₃')，P_33'(c₁)<P_33'(c₂)&&R_(3,x)>R_(3',x),所以将x预测为c₁类；根据对变量(f₄,f₄')，P_44'(c₁)<P_44'(c₂)&&R_(4,x)<R_(4',x)，所以将x预测为c₂类；根据对变量(f₁,f₂)，P₁₂(c₁)>P₁₂(c₂)&&R_(1,x)<R_(2,x)，所以将x预测为c₁类。通过三对变量投票的结果，最终将未知样本预测为c₁类。

Claims

1.一种基于单变量和对变量的标志物筛选方法，其特征在于，步骤如下：

(1)获得单变量的最佳分裂点：令F＝{f₁,f₂,...,f_m}代表变量集合，m是变量数，X＝{x₁,x₂,…,x_n}代表生物样本集合，n是生物样本数，C＝{c₁,c₂}代表类标集合，Y＝{y₁,y₂...,y_n}是n个生物样本的类标向量，其中y_g∈C是第g个生物样本的类标；首先将变量f_i按照变量在生物样本上的取值递增顺序排列；每对相邻值的中点作为可能的分裂点，n个生物样本需计算n-1个可能的分裂点；然后，扫描可能的分裂点，对于每一个可能的分裂点，计算信息增益，信息增益最大的分裂点就是变量f_i最佳分裂点；公式如下：

sp^*＝arg max IG(X,sp_k),k＝1,2,...,n-1 (2)

其中，IG(X,sp_k)代表变量f_i使用分裂点sp_k划分生物样本集合X后的信息增益；X^-代表在变量f_i上取值小于分裂点sp_k的生物样本构成的集合，X⁺代表在变量f_i上取值不小于分裂点sp_k的生物样本构成的集合，|X^-|、|X⁺|和|X|分别是X^-、X⁺与X生物样本集合的大小；H(X)代表信息熵，是度量生物样本集合纯度的一个指标；H(X)的值越小，则生物样本集合X的纯度越高；sp^*代表最佳分裂点；

(2)构造新变量：利用最佳分裂点构造新变量，新变量f_i'在每个生物样本上取值相同，均为最佳分裂点的值，其中1≤i≤m；

(3)构建对变量：使用两种方式构造对变量，第一种方式使用原始变量两两组合构造对变量(f_i,f_j)，1≤i≠j≤m；第二种方式使用变量f_i与其对应的新变量f_i'组成伪对变量(f_i,f_i')，1≤i≤m，新变量f_i'在所有生物样本上取值相同，且只与变量f_i组成对变量，所以这种方式构造的对变量称为伪对变量；将两种方式构建的对变量集合记做PS；

Δ_ij＝|P_ij(c₁)-P_ij(c₂)| (3)

P_ij(c_l)＝Pr(R_(i,q)＜R_(j,q)|y_q＝c_l,q＝1,2,...,n),l＝1,2 (4)

Γ_ij＝|μ_ij(c₁)-μ_ij(c₂)| (5)

在公式(3)-(4)中，y_q＝c_l代表第q个生物样本的类标为c_l，对于二分类问题，l的取值为1和2；R_(i,q)与R_(j,q)分别代表第i个变量f_i与第j个变量f_j在第q个生物样本x_q中含量的排名，按升序排名，排名第一的变量，其值最小；P_ij(c_l)代表在类标为c_l的生物样本中变量f_i的排名小于变量f_j排名的概率；Δ_ij代表c₁类生物样本中变量f_i排名小于变量f_j排名的概率与c₂类生物样本中变量f_i排名小于变量f_j排名的概率差值的绝对值，Δ_ij得分的取值范围为[0,1]，Δ_ij值越大表明对变量对于两类问题的区分越明显；当Δ_ij＝1时，R_(i,q)-R_(j,q)的大小关系在两类生物样本中呈现符号相反的情况，即在一类生物样本中R_(i,q)均大于R_(j,q)，在另一类生物样本中R_(i,q)均小于R_(j,q)；

在公式(5)-(6)中，|{x_q|y_q＝c_l}|代表类标为c_l的生物样本数；R_(i,q)-R_(j,q)代表生物样本x_q距离直线f_i＝f_j的距离；计算生物样本到直线的距离时，将变量在生物样本上的取值替换为在生物样本上的排名，同时因为计算每一个生物样本到直线的距离分母均相同，省略分母，所以生物样本x_q到直线f_i＝f_j的距离表示为R_(i,q)-R_(j,q)；μ_ij(c_l)代表类别c_l的生物样本距离f_i＝f_j直线的平均距离；Γ_ij代表c₁类生物样本与c₂类生物样本分别距离直线f_i＝f_j平均距离的差值的绝对值；

(5)选择得分最高且不重叠的d对变量：计算PS中所有对变量的第一准则与第二准则得分，按照得分降序排列，在第一准则得分相同时使用第二准则评价对变量；令所选d对变量集合S_d＝Φ，将得分最高的对变量(f_i,f_j)或者(f_i,f_i')加入S_d，移除包含f_i或者f_j的对变量，将得分次高的对变量加入S_d，迭代该过程，直到集合S_d的大小|S_d|＝d为止；

(6)构造分类器：使用S_d中的d对变量建立分类器，通过多数投票的方式融合各个基分类器的预测结果；基分类器分类原理如下：

如果c₁类生物样本中变量f_i排名小于变量f_j排名的概率大于c₂类生物样本中变量f_i排名小于变量f_j排名的概率，当待预测生物样本变量f_i的取值小于变量f_j的取值时，则将生物样本预测为c₁类，否则预测为c₂类；同理，如果c₁类生物样本中变量f_i排名小于变量f_j排名的概率小于等于c₂类生物样本中变量f_i排名小于变量f_j的概率，当待预测生物样本变量f_i的取值小于变量f_j的取值时，则将生物样本预测为c₂类，否则，预测为c₁类。

2.根据权利要求1所述的一种基于单变量和对变量的标志物筛选方法，其特征在于，在解决二分类问题时，步骤(5)中的d值为奇数，以打破投票相同的情况。