CN104866863B - 一种生物标志物筛选方法 - Google Patents

一种生物标志物筛选方法 Download PDF

Info

Publication number
CN104866863B
CN104866863B CN201510207807.7A CN201510207807A CN104866863B CN 104866863 B CN104866863 B CN 104866863B CN 201510207807 A CN201510207807 A CN 201510207807A CN 104866863 B CN104866863 B CN 104866863B
Authority
CN
China
Prior art keywords
feature
score
features
alpha
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510207807.7A
Other languages
English (en)
Other versions
CN104866863A (zh
Inventor
王君
林晓惠
丁翔飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201510207807.7A priority Critical patent/CN104866863B/zh
Publication of CN104866863A publication Critical patent/CN104866863A/zh
Application granted granted Critical
Publication of CN104866863B publication Critical patent/CN104866863B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布,计算重叠区域权重O,再计算SVM权重和变量关系得分。MBS采用特征的SVM权重|wi|、重叠区域权值OAi和变量关系得分值Scorei综合评价该特征,也作为排名依据,确定参数α1的最优值后,确定参数α2的值。本发明研究了变量关系得分,把它和变量重叠区域权值、特征权重一起考察,提供了一种特征综合评价的新方法。最终通过改善特征选择性能,帮助发现生物标志信息。

Description

一种生物标志物筛选方法
技术领域
本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。
背景技术
近年来,随着科学技术的发展,数据收集越来越易于实现。使基因、蛋白和代谢组学数据具有高维、海量等特点,如何从高维数据中筛选有用的特征(变量)信息被作为挑战问题提出。
支持向量机迭代特征删除算法(Support Vector Machine-Recursive FeatureElimination,SVM-RFE)是一种高性能的特征选择方法,广泛应用于基因、蛋白、代谢等领域。SVM-RFE在每次迭代时,根据当前特征子集构建超平面,同时计算特征的权重。但是随着分析技术的发展,基因、蛋白等生物数据维数巨增,其中存在噪音和不含问题相关信息的无关变量。噪音和无关的变量的存在可能会影响SVM超平面的构建,从而使得特征权重的评价产生误差。为了更加准确地确定区分能力强的特征子集,基于重叠区域的支持向量机迭代特征删除算法(Support Vector Machine-Recursive Feature Elimination Based onOverlapping Area,OA-SVM-RFE)统计分析每一特征在不同类别样本中的重叠度,在迭代删除过程中将SVM计算的特征的权重和特征的重叠度结合,综合评价特征。而在实际的生物数据分析中,还会存在特征之间相互关联,共同表征复杂的生命现象。因此在处理高维生物信息样本、选择区分反映不同类别的生物样本的特征时,考虑变量之间的相互关联,有助于确定反映不同种类疾病、药物疗效等的标志信息。
对于本发明使用的特征重叠区域权值(重叠度)OA,计算方法如下:
设一个c>2类问题包含n个样本和p个特征。对于特征fi(1≤i≤p),首先用它在第k(1≤k≤c)类样本上的均值加减修正的标准偏差,作为其有效范围;再计算其在类别h和k(1≤h≤c,h≠k)中的重叠区域,即特征fi在h类、k类的有效范围的交集作为重叠区域值;然后计算重叠区域系数并标准化;最后用1减去标准重叠区域系数,得到特征fi的重叠区域权值OA。
重叠区域是在各类样本之间特征的重叠深度,某一特征的重叠区域越小,在该特征上样本区分较容易,则特征的重叠区域权值越大。
发明内容
为了解决上述生物问题,通过变量之间的相互关系,挖掘生物数据的潜在标志物,更准确地提供辅助分析,本发明提供一种生物数据分析的方法——生物标志物筛选方法(AMethod of Biomarkers Selection,MBS)。
SVM-RFE是一种基于支持向量机的特征选择方法。SVM通过构建超平面来建立分类模型,同时对超平面上的每个维度(特征、变量)计算权重|w|。SVM-RFE据此来迭代删除权重小的特征。最后被删除的特征一般区分能力强。OA-SVM-RFE方法在SVM-RFE基础上考察了特征在不同类别样本上的重叠区域,重叠区域较高的变量,由于各类样本在该变量上分布混杂在一起,较难区分,所以变量的区分能力弱低,重叠区域权值OA低;反之,重叠区域低的变量,区分能力强,重叠区域权值OA高。OA-SVM-RFE在每一次迭代时,同时使用SVM计算的特征权重|w|和变量的重叠度度量,综合评价当前特征集中每一特征的重要性,删除综合评价指标低的特征。
在复杂的生物现象中,变量之间可能相互联系、相互作用。因此在生物信息处理中,考虑变量之间的关联性有助于要有效挖掘隐藏在大量数据中反映不同生命现象的标识信息。在两类问题中,最高得分对(top scoring pair(s),TSP)成对考察变量,通过统计分析一对变量fi和fj(i≠j)在不同类别样本中含量相对关系的差异,计算两个变量关系的得分△ij,据此评价对变量的区分能力。TSP得分越高,则该对变量越好。
本发明提出变量关系得分Score,利用TSP方法评价变量与当前特征子集中其他变量的平均关联性,从变量在SVM超平面上的贡献、自身在样本上分布的统计性能、与当前特征子集中其他变量的平均关联性三个角度出发,综合评价特征的重要性,以发现生物标志信息。
本发明评价特征的综合得分:
公式(1)中,E(i)是特征fi的综合得分,|wi|是SVM计算的特征权重,OAi是特征fi的重叠度,Scorei是fi的关系得分。α1、α2是参数,分别用于调整特征重叠度和变量关系得分在变量综合评价中的比例,0≤α1<1,0≤α2<1。
MBS使用公式(1)计算当前特征集中每一特征的综合评价分,迭代删除当前特征集中综合评价权重低的r%(0<r<100)特征。在迭代过程中,保留性能最好的特征子集,作为所选特征子集。
本发明的技术方案是:一种生物标志物筛选方法,步骤如下:
(1)设当前特征集合为F,初始时,F包含所有特征,FS为空;maxACC=0,r=5;
(2)根据特征在样本上的分布,计算每一特征fi∈F的重叠度OAi
(3)设定α2=0,即不考虑变量关系得分;
(4)根据F构建SVM分类模型,计算特征集合F的5倍交叉验证的分类准确率ACC,计算每一特征fi∈F的|wi|;
(5)若ACC>maxACC,那么maxACC=ACC,FS=F;
(6)对F中的每一变量fi,计算其关系得分Scorei
(7)计算特征的综合得分E(i):
其中,E(i)是特征fi的综合得分,|wi|是SVM计算的特征权重,OAi是特征fi的重叠度,Scorei是fi的关系得分,α1、α2是参数,分别用于调整特征重叠度和变量关系得分在变量综合评价中的比例,0≤α1<1,0≤α2<1;
(8)MBS使用E(i)综合评价当前特征集中每一特征的重要性,删除当前特征集中综合评价权重低的r%(0<r<100)特征,重复步骤(4)、(5)、(6)、(7)和(8),直到F为空;
(9)α1在[0,1)的范围内按照步长0.1步进,令F包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α1在每个步长选择的特征子集,得到“最优”特征子集时对应α1的“最优”值;
(10)设定α1为“最优”取值,α2在[0,1)的范围内按步长0.1步进,F为包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α2在每个步长选择的特征子集,得到“最优”特征子集时对应参数α2的“最优”取值;
(11)输出α1“最优”值和α2“最优”值时对应的“最优”特征子集FS;
所述的变量关系得分Scorei,计算方法如下:
a.对一个c>2类问题,当前特征集合为F,p是F中所含特征数量,按照“一对一”准则划分为c(c-1)/2个两类问题;在每一个两类问题上,按照TSP方法计算变量fi和F中其他变量fj的得分Δij
b.计算在c(c-1)/2个两类问题上变量fi和F中其他变量的关联性的平均得分:
其中,Scorei表示fi的变量关系得分;fj是当前特征集合中所有除fi以外的变量;对fi和F中其余的每一变量fj计算二者在每一个2类(m∈{1,2,c(c-1)/2})问题上的TSP得分;Δijm代表fi和fj在第m个2类问题上的TSP得分,Δijm的平方保证TSP得分高的对变量的优势,同时加大TSP得分低的对变量和得分高的对变量的差距;Δijm平方的和的均值让其数值保持在特征权重|wi|和重叠度权值OAi的数量级上,让MBS建模时均衡考虑将三者作为特征的综合评价。
本发明研究了变量关系得分,把它和变量重叠度、SVM计算的权重一起考察,提出了一种特征综合评价的新方法MBS。在特征迭代删除的过程中多角度综合度量特征含有的信息量,发现富含信息的生物标志信息。
具体实施方式
以下结合技术方案,进一步说明本发明的具体实施方式。
以3类(c=3)问题上6个特征(F={f1,f2,f3,f4,f5,f6})为例,说明变量关系得分计算方法。该3类问题划分为3个2类问题,第1个2类问题是:1vs 2(1类样本和2类样本的区分);第2个2类问题是:1vs 3(1类样本和3类样本的区分);第3个2类问题是:2vs 3(2类样本和3类样本的区分)。以f1的变量关系得分Score1的计算为例,首先计算在上述3个2类问题上f1和其余5个变量组成的变量对的TSP得分Δ1jm1jm代表f1和fj在第m个2类问题上的TSP得分,j=2,3,4,5,6,m=1,2,3)。设该问题计算的结果如表1所示。则Score1=(2.0+1.3+1.5+1.8+0.8)/(3*5)=0.18136。
表1特征f1的关联性得分计算
对特征fi(1≤i≤6)如上所示计算其变量关系得分Scorei,在MSB的每一次迭代时根据公式(1),结合SVM计算的特征权重、重叠区域权值和变量的关系得分,综合评价特征的区分能力,以更准确的删除区分能力弱的特征,保留区分信息大的特征在所选特征子集中。

Claims (1)

1.一种生物标志物筛选方法,其特征在于以下步骤:
(1)设当前生物标志物的特征集合为F,初始时,F包含所有生物标志物的特征,FS为空;maxACC=0,r=5,r为迭代删除当前特征集中综合评价权重低的特征的百分率;其中FS表示特征子集,maxACC为当前得到的最大准确率;
(2)根据特征在样本上的分布,计算每一特征fi∈F的重叠度OAi
对于重叠度OAi的计算方法如下:
设一个c>2类问题包含n个样本和p个特征;对于特征fi,首先用它在第k类样本上的均值加减修正的标准偏差,作为其有效范围,其中1≤i≤p,1≤k≤c;再计算其在类别h和k中的重叠区域,即特征fi在h类、k类的有效范围的交集作为重叠区域值,其中1≤h≤c,h≠k;然后计算重叠区域系数并标准化;最后用1减去标准重叠区域系数,得到特征fi的重叠度OAi
(3)α1、α2是分别用于调整特征重叠度和特征关系得分在变量综合评价中的比例的参数,0≤α1<1,0≤α2<1,寻优初始时,设定α2=0,即不考虑特征关系得分,先对参数α1进行寻优;
(4)根据F构建SVM分类模型,计算特征集合F的5倍交叉验证的分类准确率ACC,计算每一特征fi∈F的|wi|,其中,|wi|是SVM计算的特征权重的绝对值;
(5)若ACC>maxACC,那么maxACC=ACC,FS=F;
(6)对F中的每一特征fi,计算其关系得分Scorei
(7)计算特征的综合得分E(i):
其中,E(i)是特征fi的综合得分,|wi|是SVM计算的特征权重,OAi是特征fi的重叠度,Scorei是fi的关系得分;
(8)生物标志物筛选方法使用E(i)综合评价当前特征集中每一特征的重要性,删除当前特征集中综合评价权重低的r%特征,0<r<100,重复步骤(4)、(5)、(6)、(7)和(8),直到F为空,r为迭代删除当前特征集中综合评价权重低的特征的百分率;
(9)α1在[0,1)的范围内按照步长0.1步进,令F包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α1在每个步长选择的特征子集,得到“最优”特征子集时对应α1的“最优”值;
(10)设定α1为“最优”取值,α2在[0,1)的范围内按步长0.1步进,F为包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α2在每个步长选择的特征子集,得到“最优”特征子集时对应参数α2的“最优”取值;
(11)输出α1“最优”值和α2“最优”值时对应的“最优”特征子集FS;
所述的特征关系得分Scorei,计算方法如下:
a.对一个c>2类问题,当前特征集合为F,p是F中所含特征数量,按照“一对一”准则划分为c(c-1)/2个两类问题;在每一个两类问题上,按照最高得分对方法计算特征fi和F中其他特征fj的得分Δij
b.计算在c(c-1)/2个两类问题上特征fi和F中其他特征的关联性的平均得分:
<mrow> <msub> <mi>Score</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mo>&amp;times;</mo> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </munderover> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>F</mi> <mo>,</mo> <mi>j</mi> <mo>&amp;NotEqual;</mo> <mi>i</mi> </mrow> </munder> <msubsup> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>m</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> <mrow> <mi>c</mi> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <mi>p</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
其中,Scorei表示fi的特征关系得分;fj是当前特征集合中所有除fi以外的特征;对fi和F中其余的每一特征fj计算二者在每一个2类问题上的最高得分对得分,其中m∈{1,2,c(c-1)/2};Δijm代表fi和fj在第m个2类问题上的最高得分对得分,Δijm的平方保证最高得分对得分高的一对特征的优势,同时加大最高得分,对得分低的一对特征和得分高的一对特征的差距;Δijm平方的和的均值让其数值保持在特征权重|wi|和重叠度OAi的数量级上,让生物标志物筛选方法建模时均衡考虑将三者作为特征的综合评价。
CN201510207807.7A 2015-04-27 2015-04-27 一种生物标志物筛选方法 Expired - Fee Related CN104866863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510207807.7A CN104866863B (zh) 2015-04-27 2015-04-27 一种生物标志物筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510207807.7A CN104866863B (zh) 2015-04-27 2015-04-27 一种生物标志物筛选方法

Publications (2)

Publication Number Publication Date
CN104866863A CN104866863A (zh) 2015-08-26
CN104866863B true CN104866863B (zh) 2018-02-16

Family

ID=53912684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510207807.7A Expired - Fee Related CN104866863B (zh) 2015-04-27 2015-04-27 一种生物标志物筛选方法

Country Status (1)

Country Link
CN (1) CN104866863B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909781B (zh) * 2017-02-22 2019-12-31 北京航空航天大学 一种用于优化选取脑卒中相关生物标志物的方法
CN107798217B (zh) * 2017-10-18 2020-04-28 大连理工大学 基于特征对的线性关系的数据分析方法
CN108537003B (zh) * 2018-03-30 2020-04-07 大连理工大学 基于单变量和对变量的标志物筛选方法
CN109856307B (zh) * 2019-03-27 2021-04-16 大连理工大学 一种代谢组分子变量综合筛选技术
CN110322930B (zh) * 2019-06-06 2021-12-03 大连理工大学 基于水平关系的代谢组学网络标志物识别方法
CN110890130B (zh) * 2019-12-03 2022-09-20 大连理工大学 基于多类型关系的生物网络模块标志物识别方法
CN111081321B (zh) * 2019-12-18 2023-10-31 江南大学 一种cns药物关键特征识别方法
CN111739581B (zh) * 2020-06-12 2022-10-18 大连理工大学 一种基因组变量综合筛选方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
CN104361319A (zh) * 2014-11-10 2015-02-18 杭州景联文科技有限公司 一种基于svm-rfe特征选择的假指纹检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719194B2 (en) * 2011-09-19 2014-05-06 Siemens Aktiengesellschaft Hybrid interior-point alternating directions algorithm for support vector machines and feature selection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
CN104361319A (zh) * 2014-11-10 2015-02-18 杭州景联文科技有限公司 一种基于svm-rfe特征选择的假指纹检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SVM-RFE-SFS的基因选择方法;游伟等;《中国生物医学工程学报》;20100228;第29卷(第1期);第93-99页 *

Also Published As

Publication number Publication date
CN104866863A (zh) 2015-08-26

Similar Documents

Publication Publication Date Title
CN104866863B (zh) 一种生物标志物筛选方法
Kotopka et al. Model-driven generation of artificial yeast promoters
Kimball et al. A beginner’s guide to analyzing and visualizing mass cytometry data
Chikina et al. CellCODE: a robust latent variable approach to differential expression analysis for heterogeneous cell populations
CN103116713B (zh) 基于随机森林的化合物和蛋白质相互作用预测方法
Piro et al. DUDes: a top-down taxonomic profiler for metagenomics
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
CN105843870B (zh) 重复性和再现性的分析方法及其应用
CN110603597A (zh) 用于生物标记识别的系统和方法
CN110322930A (zh) 基于水平关系的代谢组学网络标志物识别方法
CN108537003A (zh) 基于单变量和对变量的标志物筛选方法
CN113260710A (zh) 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法
CN113584175A (zh) 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用
Liu et al. Recognizing ion ligand–binding residues by random forest algorithm based on optimized dihedral angle
CN110223732A (zh) 多类生物序列注释的整合方法
CN110970093A (zh) 一种筛选引物设计模板的方法、装置及应用
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
Arango et al. AI-based predictive biomarker discovery via contrastive learning retrospectively improves clinical trial outcome
Bortul et al. A Case–Control Study by DdPCR of ALU 260/111 and LINE-1 266/97 Copy Number Ratio in Circulating Cell-Free DNA in Plasma Revealed LINE-1 266/97 as a Potential Biomarker for Early Breast Cancer Detection
Jin et al. A comparative study of deconvolution methods for RNA-seq data under a dynamic testing landscape
CN111383708A (zh) 基于化学基因组学的小分子靶标预测算法及其应用
Czerwinska et al. Application of independent component analysis to tumor transcriptomes reveals specific and reproducible immune-related signals
CN104636636A (zh) 蛋白质远程同源性检测方法及装置
CN115841844B (zh) Covid-19和肺癌标志物筛选及预后风险模型构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180216

Termination date: 20210427

CF01 Termination of patent right due to non-payment of annual fee