CN103761451B - 基于生物医学大数据的生物标记物组合识别方法和系统 - Google Patents

基于生物医学大数据的生物标记物组合识别方法和系统 Download PDF

Info

Publication number
CN103761451B
CN103761451B CN201410001304.XA CN201410001304A CN103761451B CN 103761451 B CN103761451 B CN 103761451B CN 201410001304 A CN201410001304 A CN 201410001304A CN 103761451 B CN103761451 B CN 103761451B
Authority
CN
China
Prior art keywords
model
predictive ability
feature
label
clinical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410001304.XA
Other languages
English (en)
Other versions
CN103761451A (zh
Inventor
王勇
邹猛
张朋军
陈洛南
田亚平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Mathematics and Systems Science of CAS
Original Assignee
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Mathematics and Systems Science of CAS filed Critical Academy of Mathematics and Systems Science of CAS
Priority to CN201410001304.XA priority Critical patent/CN103761451B/zh
Publication of CN103761451A publication Critical patent/CN103761451A/zh
Application granted granted Critical
Publication of CN103761451B publication Critical patent/CN103761451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于生物学医学大数据的生物标记物组合识别方法,其步骤包括:1)获取大量病人和健康人群的血清中蛋白或者代谢小分子的临床数据;2)根据获取的临床数据,采用最近中心分类框架构建标记物组合识别的最优化模型;3)对于单个特征进行逐个分析得到单个特征的预测能力,并根据单个特征的预测能力对所有特征进行排序;4)对有预测能力的特征,将临床数据整理为指定格式输入到所述标记物组合识别的最优化模型中,以对多个标记物组合的预测能力进行评估,并通过最小化分类的误差确定最优的标记物组合。本发明专门针对标记物组合进行识别,可应用在基因表达,蛋白质组等生物医学大数据中。

Description

基于生物医学大数据的生物标记物组合识别方法和系统
技术领域
本发明属于生物技术、信息技术交叉领域,具体涉及一种基于生物医学大数据的生物标记物组合识别方法和系统。
背景技术
基于大数据的健康管理是个性化医疗和未来医学的前沿趋势。其中基于临床数据的生物标记物的健康诊断是一个重要的研究热点,有着广阔的应用前景。生物标记物是指能将机体的生理和病理状态区分开来的生物分子。例如肿瘤标志物(Tumor Marker)是反映肿瘤存在的化学类物质。它们或不存在于正常成人组织而仅见于胚胎组织,或在肿瘤组织中的含量大大超过在正常组织里的含量,它们的存在或量变可以提示肿瘤的性质,借以了解肿瘤的组织发生、细胞分化、细胞功能,以帮助肿瘤的诊断、分类、预后判断以及治疗指导(参考文献Margaret Sullivan Pepe,Ruth Etzioni,Ziding Feng,John D.Potter,MaryLou Thompson,Mark Thornquist,Marcy Winget and Yutaka Yasui,Phases ofBiomarker Development for Early Detection of Cancer.JNCI J Natl Cancer Inst(2001)93(14):1054-1061.)。
筛选到可用于肿瘤早期发现、早期诊断的生物标记物可大大提高肿瘤患者的临床治疗效果。最新数据显示肿瘤组织普遍具有特征性的蛋白,miRNA、代谢小分子等分子层面的差异表达谱,即指肿瘤细胞某几种蛋白、miRNA、或代谢小分子的表达水平常与同一组织中的正常细胞存在显著差异,而特征性的蛋白、miRNA、或代谢小分子异常表达可望成为用于肿瘤的诊断、病理分级、临床分期、疗效与预后的生物标记物,显示了良好的临床应用前景。
近年来研究人员发现在血清中也存在独立于细胞之外并且即使在严酷环境下也能明显保持稳定的蛋白、miRNA、或代谢小分子,而作为生物检测样本,血清具有取材方便、无创伤性、并可连续的体外检测的优点,使得基于蛋白、miRNA、或代谢小分子定性和定量检测技术寻找癌症特异性的血清蛋白、miRNA、或代谢小分子作为分子标记的方法比传统的方法将更加有效,进而可以克服分子标记在抗体制备和定量分析上发展所遇到的瓶颈。因此,开发一种可辅助复杂疾病筛查和诊断的血清蛋白、miRNA、或代谢小分子作为生物标记物,具有广泛的科研价值和临床应用前景。
全自动生化分析仪是根据光电比色原理来测量体液中某种特定化学成分的仪器。由于其测量速度快、准确性高、消耗试剂量小,现已在各级医院、防疫站、计划生育服务站得到广泛使用。配合使用可大大提高常规生化检验的效率及收益。用于检测、分析生命化学物质的仪器,给临床上对疾病的诊断、治疗和预后及健康状态提供信息依据。利用全自动生化分析仪可以低成本、迅速地获取病人或者正常人血清中的蛋白或者代谢小分子的浓度。
通过全自动生化分析仪可以测量到大量病人和健康人群的血清中的蛋白或者代谢小分子的浓度数据,一个直接的应用就是构建模型,来对比健康人群和病人的不同,找到明显差异的蛋白或者代谢小分子,作为生物标记物,并进一步基于他们对新的样本和测量数据进行健康评估或者诊断。一般来说,这对单个分子而言,可以通过比较该分子在健康和病人人群值的差异,计算差异倍数,并作严格的统计分析,可以得到有区分能力的单个标记物。
但是单个标记物在预测的稳定性、精度等方面存在不足,急需研究新的方法来使用两个或更多种标记物的测量结果来改进检查中的诊断问题。当然一种十分简单但通常仍然很有效的方法就是直接对有预测能力的单个分子标记物进行叠加,即如果样品对被检标记物的至少一种呈阳性,则认为是阳性结果。但是,对于复杂疾病而言,更为重要的、更为关心的是对标记物之间的非线性组合的发现,及组合中单个标记物的预测能力都很弱,但是组合之后却有很好、很稳定的预测能力。在本发明中,我们提出一种新的方法来识别生物标记物的组合。有了这样的组合,通过对标记物组合中的标记物的测量值,例如,两种蛋白的在血清中浓度的测量值,在数学上进行组合,并将组合值用于疾病的诊断的(参考文献Sophie Brouard,Elaine Mansfield,Christophe Braud,Li Li,Magali Giral,Szu-chuanHsieh,Dominique Baeten,Meixia Zhang,Joanna Ashton-Chess,Cécile Braudeau,FrankHsieh,Alexandre Dupont,Annaik Pallier,Anne Moreau,Stéphanie Louis,CatherineRuiz,Oscar Salvatierra,Jean-Paul Soulillou,and Minnie Sarwal,Identificationof a peripheral blood transcriptional biomarker panel associated withoperational renal allograft tolerance,PNAS 2007 104(39)15448-15453)。
标记物的组合可以通过数学建模的办法来识别。海量的高维数据分析与建模对数学方法带来了极大的挑战。构建将数据维数降低、利于进一步处理、可视化和理解信息的数学模型,已成为各科学领域面对的一个共同问题。特别在生物医学交叉研究中,高通量测序、芯片等实验手段的快速发展产生了海量的高维数据,对这些数据进行高效的、保留较强生物解释性的降维是计算生物学研究的核心问题。该问题在人工智能和机器学习领域也被称为特征选择,是一个根据一定的评估准则最优地从初始高维特征集合中选出低维特征集合的过程,作为一个困难问题长期存在(参考文献Isabelle Guyon and AndréElisseeff.2003.An introduction to variable and featureselection.J.Mach.Learn.Res.3(March 2003),1157-1182.)。
目前流行的生物标志物识别的方法主要针对单个标记物,单个标记物在预测精度、稳定性方面尚难令人满意。此外简单的将一些单个有预测能力的标记物组合在一起,在临床数据是高维数据时,倾向于选出过多的标记物,不能去除高度相关的、冗余的生物标记物,不能发现标记物之间的非线性的组合效应。除此之外,现有的方法将分类和特征选择割裂进行处理,未能实现同时最优化。从实用角度讲,现有的技术也未能将生物标记物组合的检测,建模和验证形成一个实用的计算系统。
发明内容
本发明针对可用于肿瘤早期发现、早期诊断的生物标记物组合识别问题,提出了一种基于最优化理论与算法的生物标记物组合识别的新方法。该方法分析全自动生化分析仪测量血清中分子浓度获取的临床数据,通过求解生物标记物组合识别的数学模型,得到分类性能最好、同时标记物个数最少的生物标记物组合。
本发明采用的技术方案如下:
一种基于生物学医学大数据的生物标记物组合识别方法,其步骤包括:
1)获取大量病人和健康人群的血清中蛋白或者代谢小分子的临床数据;
2)根据获取的临床数据,采用最近中心分类框架构建标记物组合识别的最优化模型;
3)对于单个特征进行逐个分析得到单个特征的预测能力,并根据单个特征的预测能力对所有特征进行排序;
4)对有预测能力的特征,将临床数据整理为指定格式输入到所述标记物组合识别的最优化模型中,以对多个标记物组合的预测能力进行评估,并通过最小化分类的误差确定最优的标记物组合。
进一步地,步骤1)利用全自动生化分析仪从血清中获取所述临床数据;对获取的临床数据进行预处理,包括数据的标准化,无量纲化,以及去除异常数据点。
进一步地,步骤2)所述标记物组合识别的最优化模型为混合整数规划模型,通过求解下式得到:
subject to
xj∈{0,1}
γi≥0
a∈{1,2}
其中,sij为基于血清测量的临床数据集矩阵Smn中的元素,代表第i个样本中第j个分子的浓度,Si代表样本i,i=1,2,…,m;j=1,2,…,n;整数变量xj为第j个特征是否被选到最优的标记物组合中,如果xj=1,则特征j被选入,否则不被选入;ε和k为常数,作为模型的参数事先给定,ε取值为正的充分小的数,其物理意义是精度,k是最优标记物组合中的标记物的个数;a是类别的标签;Ia代表类别a中所有样本的集合;γi是松弛变量,用来表示对样本i的分类误差的允许程度;约束使得最优的标记物组合中恰好有k个特征;代表总的分类误差,作为目标函数,其最小值对应最好的分类精度。
进一步地,步骤3)计算单个特征的预测能力的方法是:分别计算单个特征预测能力的接受者操作特征曲线(简称ROC曲线,为Receiver Operating Characteristic Curve的缩写,是一种坐标图示的分析工具,用来衡量预测精度)下面积,进而绘制单个特征的火山图,并对单个特征的预测能力进行总的评估。
进一步地,步骤3)对所有特征进行排序时,删除没有预测能力的特征。
进一步地,步骤4)通过变动参数k来求解多次模型,同时记录分类精度的变化,当分类精度最大时得到的最优解即为模型最终输出的最优的标记物组合。具体地,步骤4)通过变动参数k求解多次模型的具体方法是:
a)当k=1时求解模型,得到的最优解与单个特征的预测能力进行对比;
b)当k=2,3时求解模型,得到的最优解与基于支持向量机等其他分类器的穷举法得到的结果进行比较;
c)当k>4时求解模型,对于每个k得到的最优标记物组合,利用支持向量机等其他分类器进行精度评估;
d)比较当k变化时预测精度的变化趋势,识别最优的生物标记物组合。
一种实现上述方法的基于生物医学大数据的生物标记物组合识别系统,包括:
临床数据获取模块,用于获取大量病人和健康人群的血清中的蛋白或者代谢小分子的临床数据;
最优化模型构建模块,用于根据获取的临床数据构建标记物组合识别的最优化模型;
单标记物预测能力评估模块,用于对单个特征进行逐个分析得到单个特征的预测能力;
多标记物预测能力评估模块,用于对有预测能力的特征,将临床数据整理为指定格式输入到所述标记物组合识别的最优化模型中,以对多个标记物组合的预测能力进行评估,并最终确定最优的标记物组合。
进一步地,所述临床数据获取模块为全自动生化分析仪。
进一步地,所述最优化模型构建模块对获取的临床数据进行预处理,包括数据的标准化,无量纲化,以及去除异常数据点。
本发明提出了一种全新的基于数学规划的生物标记物组合的识别框架,包括数据获取、建模、标记物组合识别的整个过程,该方法构建了生物标记物组合的识别最优化模型,并公开了该模型的求解方法。本发明已经经过试验验证,在结肠癌的早期诊断的生物标记物组合识别的试验结果很好;并且分析癌症病人和正常人两个群体的血清生化数据,针对样本特异性导致的强非线性,能够选出非冗余的关键蛋白作为生物标记物,取得了很高的分类精度,证明了该方法的可行性和优越性。与现有技术相比,本发明专门针对标记物组合的识别,且作为一般性方法论可应用在基因表达,蛋白质组等生物医学大数据中。
附图说明
图1是本发明的生物标记物组合识别方法的最优化建模与求解示意图。
图2是本发明的生物标记物组合识别的最近中心分类框架的示意图。
图3是本发明实施例的生物标记物组合识别方法的具体流程图。
具体实施方式
下面通过具体实施例和附图,对本发明做详细的说明。
图1所示为本实施例的基于生物医学大数据的生物标记物组合识别方法的流程图,对其具体说明如下:
1.临床数据获取
通过全自动生化分析仪可以测量到大量病人和健康人群的血清中的蛋白或者代谢小分子的浓度数据。将这些数据分为三组:
Cohort I:包括1/3的病人和健康人,用于数学建模,识别生物标记物的组合。
Cohort II:包括1/3的病人和健康人,用于模型标定,确定预测评估的阈值。
Cohort III:包括1/3的病人和健康人,用于模型的验证,与其他方法比较,并作群体健康分析。
具体而言,临床数据的获取分为样品准备和计算机系统获取数据两阶段:
加样系统:
A.样品准备:样品管(杯)置于样品架上,样品架分圆盘状和传送条带状等类型
B.样品的吸取:由吸样针完成,通常装有液面传感装置,以防止空吸和吸入凝块
C.试剂分配:由试剂盘、试剂加样器,搅拌装置等部分组成
计算机系统:
A.病人/健康人样品的识别
B.添加样本和试剂
C.混合
D.数据的处理,计算结果
E.恒温控制
F.结果显示和打印
G.数据管理—存储、质控
2.生物标记物组合识别的最优化建模
从最优化方法论的角度入手探求生物标记物组合的确定性模型和算法,发展了基于混合整数规划的高维数据降维的方法论框架。具体地,提出同时最大化数据解释能力和最小化特征数目的多目标优化模型,进一步将该问题转化为单目标优化,在特征数目较小时,可直接求解规划得到最优解。当特征数目较大,计算变得困难时,可松弛优化变量用线性规划来近似整数规划,为本质为NP难的组合优化问题设计了高效的求解算法。
具体而言,分为三个步骤:
I构建识别生物标记物组合的模型
II求解模型并得到一组生物标记物
III基于该生物标记物对样本的健康评估打分
如图2所示,建模的过程为临床数据预处理,最近中心分类器构建,生物标记物组合识别的最优化模型,确定最优组合四个步骤。
生物标记物组合识别的主要目的是寻找一组生物标记物的组合,能够最优地将疾病和健康样本区分开来。这样我们可以自然地引入最优化的思想来将这个问题描述为一个有约束的最优化问题。如图2所示,我们将引入两组变量。一组变量是针对测量的临床特征,我们引入一个取值为0,1的整数变量来表征给定特征是否被选入最优的组合。如果取值为1,则选中该特征,如果取值为0,则不选取该特征。类似的,对于每个样本,也引入一个大于等于0的连续变量来表征该样本是否被正确的识别为正常或者疾病状态,即分类的误差。假设取值为0,则该样本可以被正确分类,如果大于0,则没有被正确分类。
当最优的生物标记物的组合中的生物标记物个数是固定的,那么我们的目标函数为最小化分类误差,即在所有可能的组合中寻找分类误差最小的组合。为了定量化分类误差,我们选择了如图2所示的最近中心分类方法。图2的示意图中,横坐标为样本空间在特征1的维度,纵坐标为样本空间在特征2的维度,类Ⅰ、类Ⅱ、类Ⅲ为训练样本已知的三种类型,例如疾病的早期,中期和晚期;d1、d2、d3为待分类样本分别到类Ⅰ、类Ⅱ、类Ⅲ中心的距离,图中的具体数字表示训练样本的编号。
该分类方法的思想很简单,即对于新的样本,计算其与疾病和健康人群的中心的距离(欧式距离或者是基于交叉熵定义的距离),哪个距离小则新样本被划分到哪类。留一法(Leave One Out)作为一种特殊的交叉验证,在我们的模型中作为衡量分类精度的准则。它对训练集里的所有样本,每次只抽取一个作为测试样本。留一法计算得到的误差是推广误差的几乎无偏估计。
最终我们可以构建一个混合整数规划模型,求解该模型,我们可以得到两组变量的最优值,分别告诉我们特定的特征是否被选择到最优的标记物组合中,特定的样本是否被正确的分类。这样可以得到给定标记物数目的最优的组合,该组合在给定的精度准则下实现病人和正常人的最优划分。
考虑一个基于血清测量的临床数据集矩阵Smn,其刻画了n个生物分在m个样本中的浓度。特别地,矩阵中的元素sij代表了第i个样本中第j个分子的浓度,我们用Si代表样本i,i=1,2,…,m;j=1,2,…,n.如前所述,我们定义整数变量xj,其意义为第j个特征是否被选到最优的标记物组合中。如果xj=1,则特征j被选入,否则将不被选入。有了该变量的定义,我们的标记物组合的最优化模型可以通过求解如下的最优化模型得到:
s.t.
xj∈{0,1}
γi≥0
a∈{1,2}
这里ε和k为常数,作为模型的参数事先给定。ε取值为正的充分小的数,其物理意义是精度。k是最优标记物组合中的标记物的个数。a是类别的标签,对于疾病和健康人群这样的二分类来说,它的取值为1或者2,分别代表病人和健康人。Ia代表类别a中所有样本的集合。γi是模型引入的松弛变量,用来表示对样本i的分类误差的允许程度。这里我们利用约束来使得最优的标记物组合中恰好有k个特征。代表总的分类误差,这个作为目标函数,需要在最优化的过程中取得最小值,从而对应最好的分类精度。
总之通过以上模型,我们希望最小化分类的误差,或者是最大化由留一法来度量的交叉验证精度,同时满足最终的最优标记物组合中的特征数是个固定的常数。在实际计算中,我们可以通过变动参数k来求解多次模型,这样每次可以得到特征数为k的最优的标记物组合。我们可以将k从1逐渐增长,于此同时记录分类精度的变化,当分类精度得到最大的时候,得到的最优解就是最终模型需要输出的最优的标记物组合。
为了求解上述的混合整数规划模型(M ILP),我们可以使用商业软件CPLEX。在我们的测试中,我们使用了MATLAB 7.10的环境,普通的台式计算机(2.00GHZ Inter Core 2Due CPU和2GB内存。对于特征数目小于100的临床数据,可以很快得到计算结果。
3.最优生物标记物组合识别的具体计算流程
图3所示为生物标记物组合识别的计算流程图,具体地分为如下几个步骤:
1.对临床数据的预处理,这里包括数据的标准化,无量纲化,以及去除异常数据点。
2.对于单个特征进行逐个分析。对每个特征,分别计算衡量单个特征预测能力的ROC曲线下面积。也可以计算单个特征在健康和病人组里浓度的变化倍数,以及衡量相对变化的t检验,Kolmogorov–Smirnov检验。根据这些计算结果绘制单个特征的火山图,并对单个特征的预测能力进行总的评估。
3.根据单个特征的预测能力,对所有特征进行排序,进而删除一些排序靠后没有预测能力的特征。
4.对有预测能力的特征,输入到最优标记物组合识别的最优化模型中。
5.当k=1时求解模型,得到的最优解与单个特征的预测能力进行对比。
6.当k=2,3时求解模型,得到的最优解与基于支持向量机等其他分类器的穷举法得到的结果进行比较。
7.当k>4时,求解模型,对于每个k得到的最优标记物组合,利用支持向量机等其他分类器进行精度评估。
8.比较当k变化时预测精度的变化趋势,识别最优的生物标记物组合。
9.输出最优的生物标记物组合,并输出其对应的分类精度。
下面简要介绍上述方法的具体应用过程,主要包括模型标定过程和模型测试过程。
a)最优生物标记物组合识别模型的标定
生物标记物的识别以及基于该生物标记物的评估,是针对训练数据的,为了保证模型的推广性,同时赋予评估分数予实际意义,需要将模型进行标定,通过确定阈值,转化为风险的概念。具体分为三个步骤:
I 对Cohort II中的样本进行评估打分并按照分数排序
II 对于选定的阈值,在群体层面计算对应的阳性预测率
III 根据疾病的发病率等估算适合的阳性预测率,确定阈值
IV 将人群划分为高危、中危和无风险。
对于Cohort II中的每个样本Si,我们通过最优的生物标记物组合计算其预测分数T(θ*,Si).然后根据这个分数,我们将所有健康病人样本进行排序T(θ*,Si),i=1,...,N.根据这个排序,再加上Cohort II中样本的已知的标签(不妨假设有n个病人,m个健康人样本),这样我们可以计算总的预测精度。
在群体层面,由下式我们可以计算得到ROC曲线下面积(AUC score):
这里指示函数定义为:
Cohort II主要用来模型标定,即帮助我们决定预测模型的阈值。有了这个阈值,对于单个的样本,我们可以评估它的风险。实际上,对于任意给定的数值T,我们可以通过下式来计算阳性预测率,
这样我们可以定义一个函数f(.)来实现从预测分数到阳性预测率的一一映射。不妨我们假设我们想得到阳性预测率为0.7和0.5时的阈值Th,Tm
f(Th)=0.7
f(Tm)=0.5
下一步,借助这两个阈值,我们可以将群体分为三个风险组:
高风险组:
T(θ*,S)>0.7
中等风险组
0.5<T(θ*,S)<0.7
低风险组
T(θ*,S)<0.5
b)最优生物标记物组合识别模型的预测能力的测试
利用Cohort III中的样本对标定后的模型进行盲测试,客观地确定生物标记物的对单个样本的预测精度,同时在群体层面对评估分数的分布进行分析和诊断。
给定最优的生物标记物组合,测试的目的是通过Cohort III.中预留的,未用到模型确定中的所有样本,来衡量预测的能力。具体地,对于每个样本Si,我们可以计算其预测分数T(θ*,Si),根据模型标定中给出的阈值,我们可以预测单个样本的风险程度,同样的道理,我们可以对群体层面进行管理。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,或者相关参数的调节和选取。所有这些改进和变换,及参数相关的调节和选取都应属于本发明所附权利要求的保护范围。

Claims (9)

1.一种基于生物学医学大数据的生物标记物组合识别方法,其步骤包括:
1)获取大量病人和健康人群的血清中蛋白或者代谢小分子的临床数据;
2)根据获取的临床数据,采用最近中心分类框架构建标记物组合识别的最优化模型;所述标记物组合识别的最优化模型为混合整数规划模型,通过求解下式得到:
min x j , γ i Σ i = 1 m γ i
subject to
&Sigma; j = 1 n | ( s i j - &Sigma; t &NotEqual; i , s t &Element; I a s t j ) | x j + &epsiv; - &gamma; i < &Sigma; j = 1 n | ( s i j - &Sigma; s t &NotElement; I a s t j ) | x j , f o r S i &Element; I a
&Sigma; j = 1 n x j = k
xj∈{0,1}
γi≥0
a∈{1,2}
其中,sij为基于血清测量的临床数据集矩阵Smn中的元素,代表第i个样本中第j个分子的浓度,Si代表样本i,i=1,2,…,m;j=1,2,…,n;整数变量xj为第j个特征是否被选到最优的标记物组合中,如果xj=1,则特征j被选入,否则不被选入;ε和k为常数,作为模型的参数事先给定,ε取值为正的充分小的数,其物理意义是精度,k是最优标记物组合中的标记物的个数;a是类别的标签;Ia代表类别a中所有样本的集合;γi是松弛变量,用来表示对样本i的分类误差的允许程度;约束使得最优的标记物组合中恰好有k个特征;代表总的分类误差,作为目标函数,其最小值对应最好的分类精度;
3)对于单个特征进行逐个分析得到单个特征的预测能力,并根据单个特征的预测能力对所有特征进行排序;
4)对有预测能力的特征,将临床数据整理为指定格式输入到所述标记物组合识别的最优化模型中,以对多个标记物组合的预测能力进行评估,并通过最小化分类的误差确定最优的标记物组合。
2.如权利要求1所述的方法,其特征在于,步骤3)计算单个特征的预测能力的方法是:分别计算单个特征预测能力的接受者操作特征曲线下面积,进而绘制单个特征的火山图,并对单个特征的预测能力进行总的评估。
3.如权利要求1所述的方法,其特征在于:步骤3)对所有特征进行排序时,删除没有预测能力的特征。
4.如权利要求1所述的方法,其特征在于:步骤4)通过变动参数k来求解多次模型,同时记录分类精度的变化,当分类精度最大时得到的最优解即为模型最终输出的最优的标记物组合。
5.如权利要求4所述的方法,其特征在于:步骤4)通过变动参数k求解多次模型的具体方法是:
a)当k=1时求解模型,得到的最优解与单个特征的预测能力进行对比;
b)当k=2,3时求解模型,得到的最优解与基于支持向量机等其他分类器的穷举法得到的结果进行比较;
c)当k>4时求解模型,对于每个k得到的最优标记物组合,利用支持向量机等其他分类器进行精度评估;
d)比较当k变化时预测精度的变化趋势,识别最优的生物标记物组合。
6.如权利要求1所述的方法,其特征在于:对获取的临床数据进行预处理,包括数据的标准化,无量纲化,以及去除异常数据点。
7.一种实现权利要求1所述方法的基于生物医学大数据的生物标记物组合识别系统,包括:
临床数据获取模块,用于获取大量病人和健康人群的血清中的蛋白或者代谢小分子的临床数据;
最优化模型构建模块,用于根据获取的临床数据构建标记物组合识别的最优化模型;
单标记物预测能力评估模块,用于对单个特征进行逐个分析得到单个特征的预测能力;
多标记物预测能力评估模块,用于对有预测能力的特征,将临床数据整理为指定格式输入到所述标记物组合识别的最优化模型中,以对多个标记物组合的预测能力进行评估,并最终确定最优的标记物组合。
8.如权利要求7所述的系统,其特征在于:所述临床数据获取模块为全自动生化分析仪。
9.如权利要求7所述的系统,其特征在于:所述最优化模型构建模块对获取的临床数据进行预处理,包括数据的标准化,无量纲化,以及去除异常数据点。
CN201410001304.XA 2014-01-02 2014-01-02 基于生物医学大数据的生物标记物组合识别方法和系统 Active CN103761451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410001304.XA CN103761451B (zh) 2014-01-02 2014-01-02 基于生物医学大数据的生物标记物组合识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410001304.XA CN103761451B (zh) 2014-01-02 2014-01-02 基于生物医学大数据的生物标记物组合识别方法和系统

Publications (2)

Publication Number Publication Date
CN103761451A CN103761451A (zh) 2014-04-30
CN103761451B true CN103761451B (zh) 2017-04-05

Family

ID=50528687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410001304.XA Active CN103761451B (zh) 2014-01-02 2014-01-02 基于生物医学大数据的生物标记物组合识别方法和系统

Country Status (1)

Country Link
CN (1) CN103761451B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312336A (zh) * 2014-11-13 2020-06-19 中国科学院上海生命科学研究院 生物边标识系统的建立方法和系统
CN109670976B (zh) * 2018-12-18 2021-02-26 泰康保险集团股份有限公司 特征因子确定方法及设备
CN110942808A (zh) * 2019-12-10 2020-03-31 山东大学 一种基于基因大数据的预后预测方法及预测系统
TWI763215B (zh) * 2020-12-29 2022-05-01 財團法人國家衛生研究院 篩選用於預測生理狀態的特徵的電子裝置和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102648290A (zh) * 2009-07-13 2012-08-22 萨里大学 用于胃肠癌的生物标志物

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102648290A (zh) * 2009-07-13 2012-08-22 萨里大学 用于胃肠癌的生物标志物

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Identification of a peripheral blood transcriptional biomarker panel associated with operational renal allograft tolerance";Sophie Brouard等;《Proceedings of the National Academy of Sciences of the United States of America》;20070925;第104卷(第39期);第15448–15453页 *
"Revealing metabolite biomarkers for acupuncture treatment by linear programming based feature selection";Yong Wang等;《BMC Systems Biology 2012》;20120716;第6卷(第S1期);第1-16页 *

Also Published As

Publication number Publication date
CN103761451A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
Su et al. Single cell proteomics in biomedicine: High‐dimensional data acquisition, visualization, and analysis
CN103761426B (zh) 一种在高维数据中快速识别特征组合的方法及系统
CN101981446A (zh) 用于使用支持向量机分析流式细胞术数据的方法和系统
CN103761451B (zh) 基于生物医学大数据的生物标记物组合识别方法和系统
JP2018068752A (ja) 機械学習装置、機械学習方法及びプログラム
CN104812913A (zh) 慢性阻塞性肺疾病(copd)生物标记及其用途
US11885733B2 (en) White blood cell population dynamics
Darooei et al. Discriminating tuberculous pleural effusion from malignant pleural effusion based on routine pleural fluid biomarkers, using mathematical methods
Parker et al. Methodological deficits in diagnostic research using ‘-omics’ technologies: evaluation of the QUADOMICS tool and quality of recently published studies
CN113167782A (zh) 用于样品质量评估的方法
Omoruyi et al. Evaluation of the performance of urine albumin, creatinine and albumin–creatinine ratio assay on two POCT analyzers relative to a central laboratory method
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN115798712B (zh) 一种诊断待测者是否是乳腺癌的系统以及生物标志物
Subtil et al. An enhancement of ROC curves made them clinically relevant for diagnostic-test comparison and optimal-threshold determination
Zhang et al. Suggestions for designing studies investigating diagnostic accuracy of biomarkers
CN104272112A (zh) 用于帮助诊断中风的基于生物标记的方法和生物芯片
Eigentler et al. Which melanoma patient carries a BRAF-mutation? A comparison of predictive models
Van Hoovels et al. Integrating quality assurance in autoimmunity: the changing face of the automated ANA IIF test
CN102445543B (zh) 辅助诊断肺癌淋巴结转移的试剂
CN114678062B (zh) 基于多组学特征的肝细胞癌预后预测系统及其预测方法
US20130080101A1 (en) System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management
CN107121551A (zh) 鼻咽癌的生物标志物组合、检测试剂盒及应用
CN103777025B (zh) 蛋白质微阵列芯片的临界值一级参考品的制备方法、临界值系数的确定和实验结果判定方法
Al Balushi et al. The Potential of Salivary Biomarkers in Early Detection of Pancreatic Ductal Adenocarcinoma: A Systematic Review
Huang et al. Biomarker Panel Development Using Logic Regression in the Presence of Missing Data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant