CN111584005B - 一种基于融合不同模式标志物的分类模型构建算法 - Google Patents

一种基于融合不同模式标志物的分类模型构建算法 Download PDF

Info

Publication number
CN111584005B
CN111584005B CN202010284362.3A CN202010284362A CN111584005B CN 111584005 B CN111584005 B CN 111584005B CN 202010284362 A CN202010284362 A CN 202010284362A CN 111584005 B CN111584005 B CN 111584005B
Authority
CN
China
Prior art keywords
characteristic
feature
score
ratio
evaluation criterion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010284362.3A
Other languages
English (en)
Other versions
CN111584005A (zh
Inventor
黄鑫
廖振前
苏本哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anshan Normal University
Original Assignee
Anshan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anshan Normal University filed Critical Anshan Normal University
Priority to CN202010284362.3A priority Critical patent/CN111584005B/zh
Publication of CN111584005A publication Critical patent/CN111584005A/zh
Application granted granted Critical
Publication of CN111584005B publication Critical patent/CN111584005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Urology & Nephrology (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Hematology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Cell Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于融合不同模式标志物的分类模型构建算法,为复杂疾病诊断提供一种精确简单的决策规则。(i)利用相对差异表达的方式消除个体差异对于数据分析的影响;(ii)通过计算单特征和比值特征在不同类别样本中表达值变化的概率差来衡量各自的判别能力,从而消除不同模式标志物表达值量级上的差异对于数据分析的影响。由于使用同一种特征评价准则衡量单特征重要性得分和比值特征重要性得分,因此可以直接比较不同模式特征的判别能力,发现真实有效地反映机体生理、病理状态变化的单特征或者比值特征。将不同模式标志物有机地融合,丰富疾病诊断的判别信息,使所筛选的潜在性标志物集合具有临床测试简单、假阳性低、生物学可解释性强。

Description

一种基于融合不同模式标志物的分类模型构建算法
技术领域
本发明涉及生物数据分析技术领域,特别涉及一种基于融合不同模式标志物的分类模型构建算法。
背景技术
随着高通量技术的飞速发展,涌现出越来越多的高维组学数据(如基因组学、蛋白质组学和代谢组学等)。如何运用统计学分析方法和机器学习算法从复杂的组学数据中发现重要信息是生物信息学研究中的一大挑战。组学数据往往具有“样本数量少,特征维度高”的特点,易导致过拟合现象的产生,给数据分析带来一定的困难。特征选择算法能剔除数据中的噪音和冗余特征,提高分类模型的精度并且减少算法运行时间。将特征选择算法应用于疾病组学数据分析中,可以发现复杂疾病的生物标志物,对疾病的临床诊断和治疗研究具有重要的现实意义。
复杂疾病的临床标志物研究已经成为生物信息学领域中的热点,尤其是恶性肿瘤的早期诊断、分型和预后信息的筛选对于提高病人的生存率十分重要。癌症死亡率居高,严重威胁着人类的健康,给社会、家庭都带来沉重的经济负担。据世界卫生组织调查结果表明在我国,每65人当中就有1名癌症患者。癌症的发生涉及遗传、病毒以及环境等多重因素间复杂的相互作用,致病机理尚未彻底明确,并且肿瘤发展较快,早期诊断困难,治愈率低。利用生物信息学方法可以对癌症致病机理进行深入分析、发现新型有效的恶性肿瘤标志物、探究机体对不同治疗方案的真实响应,通过早诊断、早干预提高恶性肿瘤的预后及术后效果,从而有助于降低病人的死亡率。
分子含量上的差异性表达可以反映生命机体生理、病理的变化。甲胎蛋白和前列腺特异抗原等单分子标志物具有一定的疾病判别能力,并且临床测试、分析简单,被广泛应用于癌症的诊断中。然而,生命机体十分复杂,分子间以通路或网络的形式实现各项生理功能,维持生命机体的正常活动,因此分子间存在着密切的关联关系。仅考察单分子标志物含量上的波动可能无法全面地表征生命机体对于外界刺激的响应。利用特征间关联关系在疾病发生发展中的变化,筛选可以反映生命机体癌变的关键信息,有助于提高癌症的临床诊断和治疗效果。在系统生物学中,两个分子间的比值可以解释为一个分子通过一条或多条通路转化成另一个分子的化学反应。因此,分析比值特征在不同生理、病理状态下的差异,发现具有判别能力的重要比值特征,可以从通路信号角度进一步促进临床标志物的研究。
考虑到不同模式的标志物有其自身的优势,探索不同模式的标志物筛选与融合算法,消除不同模式标志物表达值上量级的差异对于数据分析的影响,研制既可以用于衡量单特征区分能力,也可以用于衡量比值特征区分能力的评价准则。基于所研制的评价准则筛选富含判别信息的单特征或比值特征,有机地融合不同模式的标志物,从而丰富疾病的临床诊断信息,提高疾病的分型效果。此外在临床应用中,癌症的诊断和分型应该基于少量的标志物和简单有效的决策规则。一些机器学习算法利用复杂的决策边界对未知样本进行预测,而这些复杂的决策边界往往难以从生物学角度进行解释,因而限制其在临床上的进一步应用。基于所选少量的标志物构造精确简单的分类模型,不仅有助于提高癌症的分型效果,而且可以降低临床诊断成本。
发明内容
为了解决背景技术提出的技术问题,本发明提供一种基于融合不同模式标志物的分类模型构建算法,可以筛选出具有强判别能力的不同模式标志物,并利用所选标志物构造精确简单的分类模型,为复杂疾病的临床诊断提供有效的新方法。
为了达到上述目的,本发明采用以下技术方案实现:
一种基于融合不同模式标志物的分类模型构建算法,包括如下步骤:
步骤一:筛选具有强判别能力的单特征
A根据第一评价准则计算每一个单特征的第一得分△,并基于第一得分△对所有的单特征进行降序排序,第一评价准则计算方式如下:
pi(cl)=prob(fi<Si|yt=cl) (1)
i=|pi(c1)-pi(c2)| (2)
公式(1)中Si表示特征fi在所有样本上的均值,pi(cl)表示在cl类样本中事件fi<Si的概率;△i值越大,表明特征fi区分能力越强;
B根据第二评价准则计算每一个单特征的第二得分τ;当一些单特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τi=|γi(c1)-γi(c2)| (4)
公式(3)中γi(cl)表示特征fi在cl类样本中表达值的平均含量,公式(4)中τi能够反映特征fi的表达值在两类样本中波动情况;τi值越大,表明特征fi区分能力越强;
步骤二:筛选具有强判别能力的比值特征
A根据第一评价准则计算每一个比值特征的第一得分△,并基于第一得分△对所有的比值特征进行降序排序,第一评价准则计算方式如下:
pij(cl)=prob(rij<Sij|yt=cl) (5)
ij=|pij(c1)-pij(c2)| (6)
公式(5)中Sij表示特征rij在所有样本上的均值,pij(cl)表示在cl类样本中事件rij<Sij的概率;△ij值越大,表明特征rij区分能力越强;
B根据第二评价准则计算每一个比值特征的第二得分τ;当一些比值特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τij=|γij(c1)-γij(c2)| (8)
公式(7)中γij(cl)表示比值特征rij在cl类样本中表达值的平均含量,公式(8)中τij能够反映比值特征rij的表达值在两类样本中波动情况;τij值越大,表明特征rij区分能力越强;
步骤三:由于使用相同的评价准则来衡量单特征和比值特征的得分,因此可以直接比较单特征和比值特征的判别能力,筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物;
步骤四:基于每一个所选的单特征或比值特征,构建一个基分类器,分类原理如下:
(i)基于单特征fi所构建的基分类器
A当pi(c1)>pi(c2)时,如果在未知样本xu中fiu<Si,则预测xu的类标为c1,否则为c2
B当pi(c1)≤pi(c2)时,如果在未知样本xu中fiu≥Si,则预测xu的类标为c1,否则为c2
(ii)基于比值特征rij所构建的基分类器
A当pij(c1)>pij(c2)时,如果在未知样本xu中fiu/fju<Sij,则预测xu的类标为c1,否则为c2
B当pij(c1)≤pij(c2)时,如果在未知样本xu中fiu/fju≥Sij,则预测xu的类标为c1,否则为c2
步骤五:融合k个基分类器的分类结果,采用多数投票的方式预测未知样本xu的类标。
与现有技术相比,本发明的有益效果是:
1)本发明(i)利用相对差异表达的方式消除个体差异对于数据分析的影响;(ii)通过计算单特征和比值特征在不同类别样本中表达值变化的概率差来衡量各自的判别能力,从而消除不同模式标志物表达值量级上的差异对于数据分析的影响。由于使用同一种特征评价准则衡量单特征重要性得分和比值特征重要性得分,因此可以直接比较不同模式特征的判别能力,发现真实有效地反映机体生理、病理状态变化的单特征或者比值特征。将不同模式标志物有机地融合,从而丰富疾病诊断的判别信息,使所筛选的潜在性标志物集合具有临床测试简单、假阳性低、生物学可解释性强等优势。
2)不同模式的标志物可以从不同角度反映生命机体生理、病理的变化,本发明基于样本概率差的方法筛选具有强判别能力的单分子标志物和比值型标志物,融合不同模式的标志物,以期丰富癌症的判别信息,从而系统地分析癌变过程中发生显著性变化的关键生物因素。癌症的诊断应该基于少量的标志物和精确、简单的决策规则。本发明基于所筛选的k个单分子标志物或比值型标志物,构建k个基分类器。每个基分类器通过考察所选模式标志物在未知样本中的含量和其在训练样本中均值的大小关系,预测未知样本的类别。对k个基分类器的分类结果进行统计,采用多数投票的方式判断未知样本的类别,因此可以提高临床诊断效率、降低临床诊断成本。
具体实施方式
以下对本发明提供的具体实施方式进行详细说明。
癌症的发生、发展涉及多种因素间复杂的相互作用,单一模式的标志物可能无法全面地表征生命机体生理、病理上的变化,从而影响癌症的临床诊断效果。同时,考虑到临床实际应用,癌症诊断的决策规则应当是简单且精准的。本发明提供了一种基于融合不同模式标志物的分类模型构建算法(Constructing classification model by combiningdifferent biomarker patterns,CDBP)。CDBP从复杂的组学数据中筛选具有强判别能力的单特征或比值特征,并且利用所选的单特征或比值特征构建精确、简单的决策规则,预测未知样本。将F={f1,f2,…,fm}定义为特征集合,其中m表示特征的个数;X={x1,x2,...,xn}定义为样本集合,其中n表示样本的个数;C={c1,c2}定义为类标集合,其中c1表示正类,c2表示负类;Y={y1,y2,…,yn}定义为n个样本类标向量,其中yi∈C表示样本xi的类标。
为筛选具有强判别能力的单特征标志物,本发明首先使用第一评价准则计算特征fi的第一得分△i
pi(cl)=prob(fi<Si|yt=cl) (1)
i=|pi(c1)-pi(c2)| (2)
公式(1)中Si表示特征fi在所有样本上的均值,pi(cl)表示在cl类样本中事件fi<Si的概率。△i值越大,表明特征fi区分能力越强。当某些特征在第一评价准则下具有相同的得分时,本发明将采用第二评价准则计算这些特征的第二得分τ,从而对其进行进一步地区分。第二评价准则的计算方式如下:
τi=|γi(c1)-γi(c2)| (4)
公式(3)中γi(cl)表示特征fi在cl类样本中表达值的平均含量,公式(4)中τi能够反映特征fi的表达值在两类样本中波动情况。τi值越大,表明特征fi区分能力越强。
定义rij表示特征fi和特征fj的比值特征,为筛选具有强判别能力的比值特征标志物,本发明首先使用第一评价准则计算比值特征rij的第一得分△ij
pij(cl)=prob(rij<Sij|yt=cl) (5)
ij=|pij(c1)-pij(c2)| (6)
公式(5)中Sij表示特征rij在所有样本上的均值,pij(cl)表示在cl类样本中事件rij<Sij的概率。△ij值越大,表明特征rij区分能力越强。当某些比值特征在第一评价准则下具有相同的得分时,本发明将采用第二评价准则计算这些比值特征的第二得分τ,从而对其进行进一步地区分。第二评价准则的计算方式如下:
τij=|γij(c1)-γij(c2)| (8)
公式(7)中γij(cl)表示比值特征rij在cl类样本中表达值的平均含量,公式(8)中τij能够反映比值特征rij的表达值在两类样本中波动情况。τij值越大,表明特征rij区分能力越强。本发明适应于高维数据的特征筛选,可以应用于疾病组学数据分析、转化医学等领域。
本发明采用的技术方案如下:
步骤1:筛选具有强判别能力的单特征
A根据公式(2)计算每一个单特征在第一评价准则下的得分△,并基于第一得分△对所有的单特征进行降序排序;
B根据公式(4)计算每一个单特征的第二得分τ。当一些单特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分;
步骤2:筛选具有强判别能力的比值特征
A根据公式(6)计算每一个比值特征在第一评价准则下的得分△,并基于第一得分△对所有的比值特征进行降序排序;
B根据公式(8)计算每一个比值特征的第二得分τ。当一些比值特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分;
步骤3:由于使用相同的评价准则来衡量单特征和比值特征的得分,因此可以直接比较单特征和比值特征的判别能力,筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物。
步骤4:基于每一个所选的单特征或比值特征,构建一个基分类器,分类原理如下:
(i)基于单特征fi所构建的基分类器
A当pi(c1)>pi(c2)时,如果在未知样本xu中fiu<Si,则预测xu的类标为c1,否则为c2
B当pi(c1)≤pi(c2)时,如果在未知样本xu中fiu≥Si,则预测xu的类标为c1,否则为c2
(ii)基于比值特征rij所构建的基分类器
A当pij(c1)>pij(c2)时,如果在未知样本xu中fiu/fju<Sij,则预测xu的类标为c1,否则为c2
B当pij(c1)≤pij(c2)时,如果在未知样本xu中fiu/fju≥Sij,则预测xu的类标为c1,否则为c2
步骤5:融合k个基分类器的分类结果,采用多数投票的方式预测未知样本xu的类标。
实施案例:基于血清代谢轮廓的肝病标志物筛选。
(1)大鼠血清样本的收集。
本实验所使用的肝癌时间序列数据集为基于二乙基亚硝胺诱导大鼠逐步发癌所获得的,包括训练集和外部测试集。训练集由10只对照组大鼠(N)和7只模型组大鼠(M)组成,包含7个时间点,共119个血清样本,其中T1为肝炎阶段(H),T2到T4为肝硬化阶段,T5到T7为肝癌阶段。测试集由额外的6只模型组大鼠构成,同样包括肝炎阶段、肝硬化阶段和肝癌阶段。
(2)数据的分离分析和预处理
本实验采用基于鞘流接口的毛细管电泳-飞行时间质谱系统进行血清代谢谱采集,通过Cation-Positive和Anion-Negative两种模式对血清样本进行定量检测,利用质量控制样本对分析过程进行监控,并且采用多内标校正法对数据进行归一化处理。
(3)为发现肝病不同阶段的潜在性标志物,将本研究问题划分为4个两类子问题:Nvs.M,H vs.CIR,HCC vs.CIR和HCC vs.non-HCC。
(4)相关参数设定:50次5倍交叉验证,k值设置为9。利用交叉验证分类准确率的均值和标准差来衡量算法的有效性。
(5)利用本发明分析每一个子问题,筛选具有强判别能力的单分子标志物或比值型标志物。表1给出了基于本发明所筛选的标志物集合在每一个子问题上分类准确率的均值和标准差。对于子问题N vs.M,HCC vs.non-HCC和HCC vs.CIR,本发明的分类准确率在所有的比较方法中最高,分别为97.66±0.93,86.90±2.19和82.00±3.64;对于子问题Hvs.CIR,本发明同样具有良好的性能,其分类准确率均位居第二。实验结果表明在所有的比较方法中,本发明对于区分肝病不同阶段具有最优的总体性能,并且可以有效地筛选出区分肝癌和非肝癌的潜在性标志物。
表1 7种方法在不同子问题上的比较。
*表示在所有比较方法中准确率最高,**表示在所有比较方法中准确率次高。
以上实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

Claims (1)

1.一种基于融合不同模式标志物的分类模型构建算法,其特征在于,包括如下步骤:
步骤一:筛选具有强判别能力的单特征
A根据第一评价准则计算每一个单特征的第一得分△,并基于第一得分△对所有的单特征进行降序排序,第一评价准则计算方式如下:
pi(cl)=prob(fi<Si|yt=cl) (1)
i=|pi(c1)-pi(c2)| (2)
公式(1)中Si表示特征fi在所有样本上的均值,pi(cl)表示在cl类样本中事件fi<Si的概率;△i值越大,表明特征fi区分能力越强;
B根据第二评价准则计算每一个单特征的第二得分τ;当一些单特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τi=|γi(c1)-γi(c2)| (4)
公式(3)中γi(cl)表示特征fi在cl类样本中表达值的平均含量,公式(4)中τi能够反映特征fi的表达值在两类样本中波动情况;τi值越大,表明特征fi区分能力越强;
步骤二:筛选具有强判别能力的比值特征
A根据第一评价准则计算每一个比值特征的第一得分△,并基于第一得分△对所有的比值特征进行降序排序,第一评价准则计算方式如下:
pij(cl)=prob(rij<Sij|yt=cl) (5)
ij=|pij(c1)-pij(c2)| (6)
公式(5)中Sij表示特征rij在所有样本上的均值,pij(cl)表示在cl类样本中事件rij<Sij的概率;△ij值越大,表明特征rij区分能力越强;
B根据第二评价准则计算每一个比值特征的第二得分τ;当一些比值特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τij=|γij(c1)-γij(c2)| (8)
公式(7)中γij(cl)表示比值特征rij在cl类样本中表达值的平均含量,公式(8)中τij能够反映比值特征rij的表达值在两类样本中波动情况;τij值越大,表明特征rij区分能力越强;
步骤三:由于使用相同的评价准则来衡量单特征和比值特征的得分,因此可以直接比较单特征和比值特征的判别能力,筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物;
步骤四:基于每一个所选的单特征或比值特征,构建一个基分类器,分类原理如下:
(i)基于单特征fi所构建的基分类器
A当pi(c1)>pi(c2)时,如果在未知样本xu中fiu<Si,则预测xu的类标为c1,否则为c2
B当pi(c1)≤pi(c2)时,如果在未知样本xu中fiu≥Si,则预测xu的类标为c1,否则为c2
(ii)基于比值特征rij所构建的基分类器
A当pij(c1)>pij(c2)时,如果在未知样本xu中fiu/fju<Sij,则预测xu的类标为c1,否则为c2
B当pij(c1)≤pij(c2)时,如果在未知样本xu中fiu/fju≥Sij,则预测xu的类标为c1,否则为c2
步骤五:融合k个基分类器的分类结果,采用多数投票的方式预测未知样本xu的类标。
CN202010284362.3A 2020-04-12 2020-04-12 一种基于融合不同模式标志物的分类模型构建算法 Active CN111584005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284362.3A CN111584005B (zh) 2020-04-12 2020-04-12 一种基于融合不同模式标志物的分类模型构建算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284362.3A CN111584005B (zh) 2020-04-12 2020-04-12 一种基于融合不同模式标志物的分类模型构建算法

Publications (2)

Publication Number Publication Date
CN111584005A CN111584005A (zh) 2020-08-25
CN111584005B true CN111584005B (zh) 2023-10-20

Family

ID=72126326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284362.3A Active CN111584005B (zh) 2020-04-12 2020-04-12 一种基于融合不同模式标志物的分类模型构建算法

Country Status (1)

Country Link
CN (1) CN111584005B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555108B (zh) * 2021-07-01 2024-05-31 鞍山师范学院 基于数据驱动方式筛选癌症早期诊断标志物的网络算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117812A1 (ko) * 2015-01-21 2016-07-28 서울대학교 산학협력단 암 바이오마커의 성능 평가 장치 및 방법
CN108537003A (zh) * 2018-03-30 2018-09-14 大连理工大学 基于单变量和对变量的标志物筛选方法
CN110322930A (zh) * 2019-06-06 2019-10-11 大连理工大学 基于水平关系的代谢组学网络标志物识别方法
CN110444248A (zh) * 2019-07-22 2019-11-12 山东大学 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003041562A2 (en) * 2001-11-14 2003-05-22 Whitehead Institute For Biomedical Research Molecular cancer diagnosis using tumor gene expression signature
WO2004111201A2 (en) * 2003-06-11 2004-12-23 Research Foundation Of State University Of New York Data classification using point-wise tests

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117812A1 (ko) * 2015-01-21 2016-07-28 서울대학교 산학협력단 암 바이오마커의 성능 평가 장치 및 방법
CN108537003A (zh) * 2018-03-30 2018-09-14 大连理工大学 基于单变量和对变量的标志物筛选方法
CN110322930A (zh) * 2019-06-06 2019-10-11 大连理工大学 基于水平关系的代谢组学网络标志物识别方法
CN110444248A (zh) * 2019-07-22 2019-11-12 山东大学 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统

Also Published As

Publication number Publication date
CN111584005A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
Liu et al. Early diagnosis of complex diseases by molecular biomarkers, network biomarkers, and dynamical network biomarkers
US7660709B2 (en) Bioinformatics research and analysis system and methods associated therewith
CN107025384A (zh) 一种复杂数据预测模型的构建方法
CN110322930B (zh) 基于水平关系的代谢组学网络标志物识别方法
CN110890130B (zh) 基于多类型关系的生物网络模块标志物识别方法
Hu et al. Classifying the multi-omics data of gastric cancer using a deep feature selection method
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN115537467A (zh) 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用
CN111584005B (zh) 一种基于融合不同模式标志物的分类模型构建算法
CN109033747B (zh) 基于pls多扰动集成基因选择的肿瘤特异基因识别方法
CN117904289A (zh) 一种单碱基突变的肺癌早筛标志物、试剂盒、检测装置和计算机可读介质
WO2012107786A1 (en) System and method for blind extraction of features from measurement data
Qiu et al. Unsupervised learning framework with multidimensional scaling in predicting epithelial-mesenchymal transitions
CN115662504A (zh) 一种基于多角度融合的生物组学数据分析方法
De Iorio et al. Statistical techniques in metabolic profiling
Liu et al. Improved ReliefF-based feature selection algorithm for cancer histology
Yuan et al. HEARTSVG: a fast and accurate method for spatially variable gene identification in large-scale spatial transcriptomic data
Keedwell et al. Gene expression rule discovery and multi-objective ROC analysis using a neural-genetic hybrid
CN114822690A (zh) 应用于全基因组表达谱数据的多类别多功能智能分类方法
Zhang et al. A novel method for feature selection based on molecular interactive effect network
Huang et al. A Novel Method for Constructing Classification Models by Combining Different Biomarker Patterns
Zhang et al. Identifying biomarkers of hepatocellular carcinoma based on gene co-expression network from high-throughput data
Koleini et al. Biomarker discovery in multi-omics datasets using tensor decompositions; A comprehensive review
CN107798217B (zh) 基于特征对的线性关系的数据分析方法
Rasanjana et al. A svm model for candidate y-chromosome gene discovery in prostate cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant