CN111584005B - 一种基于融合不同模式标志物的分类模型构建算法 - Google Patents
一种基于融合不同模式标志物的分类模型构建算法 Download PDFInfo
- Publication number
- CN111584005B CN111584005B CN202010284362.3A CN202010284362A CN111584005B CN 111584005 B CN111584005 B CN 111584005B CN 202010284362 A CN202010284362 A CN 202010284362A CN 111584005 B CN111584005 B CN 111584005B
- Authority
- CN
- China
- Prior art keywords
- feature
- ratio
- score
- characteristic
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 14
- 238000013145 classification model Methods 0.000 title claims abstract description 11
- 230000004927 fusion Effects 0.000 title claims abstract description 9
- 238000010276 construction Methods 0.000 title claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims abstract description 31
- 201000010099 disease Diseases 0.000 claims abstract description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 abstract description 9
- 238000003745 diagnosis Methods 0.000 abstract description 7
- 239000003550 marker Substances 0.000 abstract description 6
- 238000012360 testing method Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000001575 pathological effect Effects 0.000 abstract description 3
- 201000011510 cancer Diseases 0.000 description 17
- 206010028980 Neoplasm Diseases 0.000 description 15
- 238000000034 method Methods 0.000 description 13
- 238000003759 clinical diagnosis Methods 0.000 description 7
- 241000700159 Rattus Species 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 201000007270 liver cancer Diseases 0.000 description 5
- 208000014018 liver neoplasm Diseases 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 210000002966 serum Anatomy 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 3
- 238000013399 early diagnosis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 208000019423 liver disease Diseases 0.000 description 3
- 231100000915 pathological change Toxicity 0.000 description 3
- 230000036285 pathological change Effects 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- LTUJKAYZIMMJEP-UHFFFAOYSA-N 9-[4-(4-carbazol-9-yl-2-methylphenyl)-3-methylphenyl]carbazole Chemical compound C12=CC=CC=C2C2=CC=CC=C2N1C1=CC=C(C=2C(=CC(=CC=2)N2C3=CC=CC=C3C3=CC=CC=C32)C)C(C)=C1 LTUJKAYZIMMJEP-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 208000019425 cirrhosis of liver Diseases 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 208000006454 hepatitis Diseases 0.000 description 2
- 231100000283 hepatitis Toxicity 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010016654 Fibrosis Diseases 0.000 description 1
- WBNQDOYYEUMPFS-UHFFFAOYSA-N N-nitrosodiethylamine Chemical compound CCN(CC)N=O WBNQDOYYEUMPFS-UHFFFAOYSA-N 0.000 description 1
- 102000007066 Prostate-Specific Antigen Human genes 0.000 description 1
- 108010072866 Prostate-Specific Antigen Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 1
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 239000003181 biological factor Substances 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007882 cirrhosis Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000001269 time-of-flight mass spectrometry Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Pathology (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Urology & Nephrology (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Hematology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Cell Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种基于融合不同模式标志物的分类模型构建算法,为复杂疾病诊断提供一种精确简单的决策规则。(i)利用相对差异表达的方式消除个体差异对于数据分析的影响;(ii)通过计算单特征和比值特征在不同类别样本中表达值变化的概率差来衡量各自的判别能力,从而消除不同模式标志物表达值量级上的差异对于数据分析的影响。由于使用同一种特征评价准则衡量单特征重要性得分和比值特征重要性得分,因此可以直接比较不同模式特征的判别能力,发现真实有效地反映机体生理、病理状态变化的单特征或者比值特征。将不同模式标志物有机地融合,丰富疾病诊断的判别信息,使所筛选的潜在性标志物集合具有临床测试简单、假阳性低、生物学可解释性强。
Description
技术领域
本发明涉及生物数据分析技术领域,特别涉及一种基于融合不同模式标志物的分类模型构建算法。
背景技术
随着高通量技术的飞速发展,涌现出越来越多的高维组学数据(如基因组学、蛋白质组学和代谢组学等)。如何运用统计学分析方法和机器学习算法从复杂的组学数据中发现重要信息是生物信息学研究中的一大挑战。组学数据往往具有“样本数量少,特征维度高”的特点,易导致过拟合现象的产生,给数据分析带来一定的困难。特征选择算法能剔除数据中的噪音和冗余特征,提高分类模型的精度并且减少算法运行时间。将特征选择算法应用于疾病组学数据分析中,可以发现复杂疾病的生物标志物,对疾病的临床诊断和治疗研究具有重要的现实意义。
复杂疾病的临床标志物研究已经成为生物信息学领域中的热点,尤其是恶性肿瘤的早期诊断、分型和预后信息的筛选对于提高病人的生存率十分重要。癌症死亡率居高,严重威胁着人类的健康,给社会、家庭都带来沉重的经济负担。据世界卫生组织调查结果表明在我国,每65人当中就有1名癌症患者。癌症的发生涉及遗传、病毒以及环境等多重因素间复杂的相互作用,致病机理尚未彻底明确,并且肿瘤发展较快,早期诊断困难,治愈率低。利用生物信息学方法可以对癌症致病机理进行深入分析、发现新型有效的恶性肿瘤标志物、探究机体对不同治疗方案的真实响应,通过早诊断、早干预提高恶性肿瘤的预后及术后效果,从而有助于降低病人的死亡率。
分子含量上的差异性表达可以反映生命机体生理、病理的变化。甲胎蛋白和前列腺特异抗原等单分子标志物具有一定的疾病判别能力,并且临床测试、分析简单,被广泛应用于癌症的诊断中。然而,生命机体十分复杂,分子间以通路或网络的形式实现各项生理功能,维持生命机体的正常活动,因此分子间存在着密切的关联关系。仅考察单分子标志物含量上的波动可能无法全面地表征生命机体对于外界刺激的响应。利用特征间关联关系在疾病发生发展中的变化,筛选可以反映生命机体癌变的关键信息,有助于提高癌症的临床诊断和治疗效果。在系统生物学中,两个分子间的比值可以解释为一个分子通过一条或多条通路转化成另一个分子的化学反应。因此,分析比值特征在不同生理、病理状态下的差异,发现具有判别能力的重要比值特征,可以从通路信号角度进一步促进临床标志物的研究。
考虑到不同模式的标志物有其自身的优势,探索不同模式的标志物筛选与融合算法,消除不同模式标志物表达值上量级的差异对于数据分析的影响,研制既可以用于衡量单特征区分能力,也可以用于衡量比值特征区分能力的评价准则。基于所研制的评价准则筛选富含判别信息的单特征或比值特征,有机地融合不同模式的标志物,从而丰富疾病的临床诊断信息,提高疾病的分型效果。此外在临床应用中,癌症的诊断和分型应该基于少量的标志物和简单有效的决策规则。一些机器学习算法利用复杂的决策边界对未知样本进行预测,而这些复杂的决策边界往往难以从生物学角度进行解释,因而限制其在临床上的进一步应用。基于所选少量的标志物构造精确简单的分类模型,不仅有助于提高癌症的分型效果,而且可以降低临床诊断成本。
发明内容
为了解决背景技术提出的技术问题,本发明提供一种基于融合不同模式标志物的分类模型构建算法,可以筛选出具有强判别能力的不同模式标志物,并利用所选标志物构造精确简单的分类模型,为复杂疾病的临床诊断提供有效的新方法。
为了达到上述目的,本发明采用以下技术方案实现:
一种基于融合不同模式标志物的分类模型构建算法,包括如下步骤:
步骤一:筛选具有强判别能力的单特征
A根据第一评价准则计算每一个单特征的第一得分△,并基于第一得分△对所有的单特征进行降序排序,第一评价准则计算方式如下:
pi(cl)=prob(fi<Si|yt=cl) (1)
△i=|pi(c1)-pi(c2)| (2)
公式(1)中Si表示特征fi在所有样本上的均值,pi(cl)表示在cl类样本中事件fi<Si的概率;△i值越大,表明特征fi区分能力越强;
B根据第二评价准则计算每一个单特征的第二得分τ;当一些单特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τi=|γi(c1)-γi(c2)| (4)
公式(3)中γi(cl)表示特征fi在cl类样本中表达值的平均含量,公式(4)中τi能够反映特征fi的表达值在两类样本中波动情况;τi值越大,表明特征fi区分能力越强;
步骤二:筛选具有强判别能力的比值特征
A根据第一评价准则计算每一个比值特征的第一得分△,并基于第一得分△对所有的比值特征进行降序排序,第一评价准则计算方式如下:
pij(cl)=prob(rij<Sij|yt=cl) (5)
△ij=|pij(c1)-pij(c2)| (6)
公式(5)中Sij表示特征rij在所有样本上的均值,pij(cl)表示在cl类样本中事件rij<Sij的概率;△ij值越大,表明特征rij区分能力越强;
B根据第二评价准则计算每一个比值特征的第二得分τ;当一些比值特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τij=|γij(c1)-γij(c2)| (8)
公式(7)中γij(cl)表示比值特征rij在cl类样本中表达值的平均含量,公式(8)中τij能够反映比值特征rij的表达值在两类样本中波动情况;τij值越大,表明特征rij区分能力越强;
步骤三:由于使用相同的评价准则来衡量单特征和比值特征的得分,因此可以直接比较单特征和比值特征的判别能力,筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物;
步骤四:基于每一个所选的单特征或比值特征,构建一个基分类器,分类原理如下:
(i)基于单特征fi所构建的基分类器
A当pi(c1)>pi(c2)时,如果在未知样本xu中fiu<Si,则预测xu的类标为c1,否则为c2;
B当pi(c1)≤pi(c2)时,如果在未知样本xu中fiu≥Si,则预测xu的类标为c1,否则为c2;
(ii)基于比值特征rij所构建的基分类器
A当pij(c1)>pij(c2)时,如果在未知样本xu中fiu/fju<Sij,则预测xu的类标为c1,否则为c2;
B当pij(c1)≤pij(c2)时,如果在未知样本xu中fiu/fju≥Sij,则预测xu的类标为c1,否则为c2;
步骤五:融合k个基分类器的分类结果,采用多数投票的方式预测未知样本xu的类标。
与现有技术相比,本发明的有益效果是:
1)本发明(i)利用相对差异表达的方式消除个体差异对于数据分析的影响;(ii)通过计算单特征和比值特征在不同类别样本中表达值变化的概率差来衡量各自的判别能力,从而消除不同模式标志物表达值量级上的差异对于数据分析的影响。由于使用同一种特征评价准则衡量单特征重要性得分和比值特征重要性得分,因此可以直接比较不同模式特征的判别能力,发现真实有效地反映机体生理、病理状态变化的单特征或者比值特征。将不同模式标志物有机地融合,从而丰富疾病诊断的判别信息,使所筛选的潜在性标志物集合具有临床测试简单、假阳性低、生物学可解释性强等优势。
2)不同模式的标志物可以从不同角度反映生命机体生理、病理的变化,本发明基于样本概率差的方法筛选具有强判别能力的单分子标志物和比值型标志物,融合不同模式的标志物,以期丰富癌症的判别信息,从而系统地分析癌变过程中发生显著性变化的关键生物因素。癌症的诊断应该基于少量的标志物和精确、简单的决策规则。本发明基于所筛选的k个单分子标志物或比值型标志物,构建k个基分类器。每个基分类器通过考察所选模式标志物在未知样本中的含量和其在训练样本中均值的大小关系,预测未知样本的类别。对k个基分类器的分类结果进行统计,采用多数投票的方式判断未知样本的类别,因此可以提高临床诊断效率、降低临床诊断成本。
具体实施方式
以下对本发明提供的具体实施方式进行详细说明。
癌症的发生、发展涉及多种因素间复杂的相互作用,单一模式的标志物可能无法全面地表征生命机体生理、病理上的变化,从而影响癌症的临床诊断效果。同时,考虑到临床实际应用,癌症诊断的决策规则应当是简单且精准的。本发明提供了一种基于融合不同模式标志物的分类模型构建算法(Constructing classification model by combiningdifferent biomarker patterns,CDBP)。CDBP从复杂的组学数据中筛选具有强判别能力的单特征或比值特征,并且利用所选的单特征或比值特征构建精确、简单的决策规则,预测未知样本。将F={f1,f2,…,fm}定义为特征集合,其中m表示特征的个数;X={x1,x2,...,xn}定义为样本集合,其中n表示样本的个数;C={c1,c2}定义为类标集合,其中c1表示正类,c2表示负类;Y={y1,y2,…,yn}定义为n个样本类标向量,其中yi∈C表示样本xi的类标。
为筛选具有强判别能力的单特征标志物,本发明首先使用第一评价准则计算特征fi的第一得分△i:
pi(cl)=prob(fi<Si|yt=cl) (1)
△i=|pi(c1)-pi(c2)| (2)
公式(1)中Si表示特征fi在所有样本上的均值,pi(cl)表示在cl类样本中事件fi<Si的概率。△i值越大,表明特征fi区分能力越强。当某些特征在第一评价准则下具有相同的得分时,本发明将采用第二评价准则计算这些特征的第二得分τ,从而对其进行进一步地区分。第二评价准则的计算方式如下:
τi=|γi(c1)-γi(c2)| (4)
公式(3)中γi(cl)表示特征fi在cl类样本中表达值的平均含量,公式(4)中τi能够反映特征fi的表达值在两类样本中波动情况。τi值越大,表明特征fi区分能力越强。
定义rij表示特征fi和特征fj的比值特征,为筛选具有强判别能力的比值特征标志物,本发明首先使用第一评价准则计算比值特征rij的第一得分△ij:
pij(cl)=prob(rij<Sij|yt=cl) (5)
△ij=|pij(c1)-pij(c2)| (6)
公式(5)中Sij表示特征rij在所有样本上的均值,pij(cl)表示在cl类样本中事件rij<Sij的概率。△ij值越大,表明特征rij区分能力越强。当某些比值特征在第一评价准则下具有相同的得分时,本发明将采用第二评价准则计算这些比值特征的第二得分τ,从而对其进行进一步地区分。第二评价准则的计算方式如下:
τij=|γij(c1)-γij(c2)| (8)
公式(7)中γij(cl)表示比值特征rij在cl类样本中表达值的平均含量,公式(8)中τij能够反映比值特征rij的表达值在两类样本中波动情况。τij值越大,表明特征rij区分能力越强。本发明适应于高维数据的特征筛选,可以应用于疾病组学数据分析、转化医学等领域。
本发明采用的技术方案如下:
步骤1:筛选具有强判别能力的单特征
A根据公式(2)计算每一个单特征在第一评价准则下的得分△,并基于第一得分△对所有的单特征进行降序排序;
B根据公式(4)计算每一个单特征的第二得分τ。当一些单特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分;
步骤2:筛选具有强判别能力的比值特征
A根据公式(6)计算每一个比值特征在第一评价准则下的得分△,并基于第一得分△对所有的比值特征进行降序排序;
B根据公式(8)计算每一个比值特征的第二得分τ。当一些比值特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分;
步骤3:由于使用相同的评价准则来衡量单特征和比值特征的得分,因此可以直接比较单特征和比值特征的判别能力,筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物。
步骤4:基于每一个所选的单特征或比值特征,构建一个基分类器,分类原理如下:
(i)基于单特征fi所构建的基分类器
A当pi(c1)>pi(c2)时,如果在未知样本xu中fiu<Si,则预测xu的类标为c1,否则为c2;
B当pi(c1)≤pi(c2)时,如果在未知样本xu中fiu≥Si,则预测xu的类标为c1,否则为c2;
(ii)基于比值特征rij所构建的基分类器
A当pij(c1)>pij(c2)时,如果在未知样本xu中fiu/fju<Sij,则预测xu的类标为c1,否则为c2;
B当pij(c1)≤pij(c2)时,如果在未知样本xu中fiu/fju≥Sij,则预测xu的类标为c1,否则为c2;
步骤5:融合k个基分类器的分类结果,采用多数投票的方式预测未知样本xu的类标。
实施案例:基于血清代谢轮廓的肝病标志物筛选。
(1)大鼠血清样本的收集。
本实验所使用的肝癌时间序列数据集为基于二乙基亚硝胺诱导大鼠逐步发癌所获得的,包括训练集和外部测试集。训练集由10只对照组大鼠(N)和7只模型组大鼠(M)组成,包含7个时间点,共119个血清样本,其中T1为肝炎阶段(H),T2到T4为肝硬化阶段,T5到T7为肝癌阶段。测试集由额外的6只模型组大鼠构成,同样包括肝炎阶段、肝硬化阶段和肝癌阶段。
(2)数据的分离分析和预处理
本实验采用基于鞘流接口的毛细管电泳-飞行时间质谱系统进行血清代谢谱采集,通过Cation-Positive和Anion-Negative两种模式对血清样本进行定量检测,利用质量控制样本对分析过程进行监控,并且采用多内标校正法对数据进行归一化处理。
(3)为发现肝病不同阶段的潜在性标志物,将本研究问题划分为4个两类子问题:Nvs.M,H vs.CIR,HCC vs.CIR和HCC vs.non-HCC。
(4)相关参数设定:50次5倍交叉验证,k值设置为9。利用交叉验证分类准确率的均值和标准差来衡量算法的有效性。
(5)利用本发明分析每一个子问题,筛选具有强判别能力的单分子标志物或比值型标志物。表1给出了基于本发明所筛选的标志物集合在每一个子问题上分类准确率的均值和标准差。对于子问题N vs.M,HCC vs.non-HCC和HCC vs.CIR,本发明的分类准确率在所有的比较方法中最高,分别为97.66±0.93,86.90±2.19和82.00±3.64;对于子问题Hvs.CIR,本发明同样具有良好的性能,其分类准确率均位居第二。实验结果表明在所有的比较方法中,本发明对于区分肝病不同阶段具有最优的总体性能,并且可以有效地筛选出区分肝癌和非肝癌的潜在性标志物。
表1 7种方法在不同子问题上的比较。
*表示在所有比较方法中准确率最高,**表示在所有比较方法中准确率次高。
以上实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。
Claims (1)
1.一种基于融合不同模式标志物的分类模型构建算法,其特征在于,包括如下步骤:
步骤一:筛选具有强判别能力的单特征
A根据第一评价准则计算每一个单特征的第一得分△,并基于第一得分△对所有的单特征进行降序排序,第一评价准则计算方式如下:
pi(cl)=prob(fi<Si|yt=cl) (1)
△i=|pi(c1)-pi(c2)| (2)
公式(1)中Si表示特征fi在所有样本上的均值,pi(cl)表示在cl类样本中事件fi<Si的概率;△i值越大,表明特征fi区分能力越强;
B根据第二评价准则计算每一个单特征的第二得分τ;当一些单特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τi=|γi(c1)-γi(c2)| (4)
公式(3)中γi(cl)表示特征fi在cl类样本中表达值的平均含量,公式(4)中τi能够反映特征fi的表达值在两类样本中波动情况;τi值越大,表明特征fi区分能力越强;
步骤二:筛选具有强判别能力的比值特征
A根据第一评价准则计算每一个比值特征的第一得分△,并基于第一得分△对所有的比值特征进行降序排序,第一评价准则计算方式如下:
pij(cl)=prob(rij<Sij|yt=cl) (5)
△ij=|pij(c1)-pij(c2)| (6)
公式(5)中Sij表示特征rij在所有样本上的均值,pij(cl)表示在cl类样本中事件rij<Sij的概率;△ij值越大,表明特征rij区分能力越强;
B根据第二评价准则计算每一个比值特征的第二得分τ;当一些比值特征具有相同的第一得分时,利用第二得分τ对其进行进一步的区分,第二评价准则计算方式如下:
τij=|γij(c1)-γij(c2)| (8)
公式(7)中γij(cl)表示比值特征rij在cl类样本中表达值的平均含量,公式(8)中τij能够反映比值特征rij的表达值在两类样本中波动情况;τij值越大,表明特征rij区分能力越强;
步骤三:由于使用相同的评价准则来衡量单特征和比值特征的得分,因此可以直接比较单特征和比值特征的判别能力,筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物;
步骤四:基于每一个所选的单特征或比值特征,构建一个基分类器,分类原理如下:
(i)基于单特征fi所构建的基分类器
A当pi(c1)>pi(c2)时,如果在未知样本xu中fiu<Si,则预测xu的类标为c1,否则为c2;
B当pi(c1)≤pi(c2)时,如果在未知样本xu中fiu≥Si,则预测xu的类标为c1,否则为c2;
(ii)基于比值特征rij所构建的基分类器
A当pij(c1)>pij(c2)时,如果在未知样本xu中fiu/fju<Sij,则预测xu的类标为c1,否则为c2;
B当pij(c1)≤pij(c2)时,如果在未知样本xu中fiu/fju≥Sij,则预测xu的类标为c1,否则为c2;
步骤五:融合k个基分类器的分类结果,采用多数投票的方式预测未知样本xu的类标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284362.3A CN111584005B (zh) | 2020-04-12 | 2020-04-12 | 一种基于融合不同模式标志物的分类模型构建算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284362.3A CN111584005B (zh) | 2020-04-12 | 2020-04-12 | 一种基于融合不同模式标志物的分类模型构建算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111584005A CN111584005A (zh) | 2020-08-25 |
CN111584005B true CN111584005B (zh) | 2023-10-20 |
Family
ID=72126326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010284362.3A Active CN111584005B (zh) | 2020-04-12 | 2020-04-12 | 一种基于融合不同模式标志物的分类模型构建算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111584005B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555108B (zh) * | 2021-07-01 | 2024-05-31 | 鞍山师范学院 | 基于数据驱动方式筛选癌症早期诊断标志物的网络算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016117812A1 (ko) * | 2015-01-21 | 2016-07-28 | 서울대학교 산학협력단 | 암 바이오마커의 성능 평가 장치 및 방법 |
CN108537003A (zh) * | 2018-03-30 | 2018-09-14 | 大连理工大学 | 基于单变量和对变量的标志物筛选方法 |
CN110322930A (zh) * | 2019-06-06 | 2019-10-11 | 大连理工大学 | 基于水平关系的代谢组学网络标志物识别方法 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030225526A1 (en) * | 2001-11-14 | 2003-12-04 | Golub Todd R. | Molecular cancer diagnosis using tumor gene expression signature |
US8478534B2 (en) * | 2003-06-11 | 2013-07-02 | The Research Foundation For The State University Of New York | Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease |
-
2020
- 2020-04-12 CN CN202010284362.3A patent/CN111584005B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016117812A1 (ko) * | 2015-01-21 | 2016-07-28 | 서울대학교 산학협력단 | 암 바이오마커의 성능 평가 장치 및 방법 |
CN108537003A (zh) * | 2018-03-30 | 2018-09-14 | 大连理工大学 | 基于单变量和对变量的标志物筛选方法 |
CN110322930A (zh) * | 2019-06-06 | 2019-10-11 | 大连理工大学 | 基于水平关系的代谢组学网络标志物识别方法 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111584005A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Early diagnosis of complex diseases by molecular biomarkers, network biomarkers, and dynamical network biomarkers | |
US7660709B2 (en) | Bioinformatics research and analysis system and methods associated therewith | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
CN110322930B (zh) | 基于水平关系的代谢组学网络标志物识别方法 | |
US20170059581A1 (en) | Methods for diagnosis and prognosis of inflammatory bowel disease using cytokine profiles | |
CN109033747B (zh) | 基于pls多扰动集成基因选择的肿瘤特异基因识别方法 | |
CN110890130A (zh) | 基于多类型关系的生物网络模块标志物识别方法 | |
CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及系统 | |
CN110010204A (zh) | 基于融合网络和多打分策略的预后生物标志物识别方法 | |
CN111584005B (zh) | 一种基于融合不同模式标志物的分类模型构建算法 | |
CN115128285A (zh) | 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、系统 | |
WO2012107786A1 (en) | System and method for blind extraction of features from measurement data | |
CN103761451B (zh) | 基于生物医学大数据的生物标记物组合识别方法和系统 | |
CN115440375A (zh) | 一种结直肠癌预测系统及其应用 | |
US9734122B2 (en) | System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management | |
CN111739581B (zh) | 一种基因组变量综合筛选方法 | |
CN110797083B (zh) | 基于多网络的生物标志物识别方法 | |
Thenmozhi et al. | Distribution based fuzzy estimate spectral clustering for Cancer detection with protein sequence and structural motifs | |
Koleini et al. | Biomarker discovery in multi-omics datasets using tensor decompositions; A comprehensive review | |
Mythili et al. | CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee | |
CN111276243A (zh) | 一种基于生物标志物的多变量分类系统和方法 | |
Basha et al. | Enhancing Immunological Disorder Recognition through Machine Learning | |
Lalitha et al. | Deep Learning-Based Analysis of Liquid Biopsies for Uterus Cancer Biomarker Discovery | |
Kumar et al. | A Review on Cancer Dataset Classification using Data Mining Methods | |
Song et al. | QuadST identifies cell-cell interaction-changed genes in spatially resolved transcriptomics data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |