CN113611404A - 一种基于集成学习的血浆样本癌症早筛方法 - Google Patents
一种基于集成学习的血浆样本癌症早筛方法 Download PDFInfo
- Publication number
- CN113611404A CN113611404A CN202110780982.0A CN202110780982A CN113611404A CN 113611404 A CN113611404 A CN 113611404A CN 202110780982 A CN202110780982 A CN 202110780982A CN 113611404 A CN113611404 A CN 113611404A
- Authority
- CN
- China
- Prior art keywords
- tree
- training
- model
- decision
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 36
- 201000011510 cancer Diseases 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012216 screening Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000012706 support-vector machine Methods 0.000 claims abstract description 15
- 230000011987 methylation Effects 0.000 claims abstract description 12
- 238000007069 methylation reaction Methods 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 8
- 230000035772 mutation Effects 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 34
- 238000003066 decision tree Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 9
- 102000054766 genetic haplotypes Human genes 0.000 claims description 8
- 230000007067 DNA methylation Effects 0.000 claims description 3
- 239000013256 coordination polymer Substances 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 10
- 210000002381 plasma Anatomy 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 4
- 230000009946 DNA mutation Effects 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 3
- 206010008342 Cervix carcinoma Diseases 0.000 description 2
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 201000010881 cervical cancer Diseases 0.000 description 2
- 230000002380 cytological effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 239000000439 tumor marker Substances 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002357 endometrial effect Effects 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 210000000777 hematopoietic system Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009595 pap smear Methods 0.000 description 1
- 208000003154 papilloma Diseases 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Public Health (AREA)
- Zoology (AREA)
- Epidemiology (AREA)
- Wood Science & Technology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Software Systems (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Genetics & Genomics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于集成学习的血浆样本癌症早筛方法,属于癌症早筛领域。癌症早筛方法:步骤1将血浆中ctDNA突变和甲基化分析数据经过特征值提取后得到的数据作为训练集和验证集,然后将所述的训练集分别导入到梯度提升树模型和支持向量机的分类模型中;步骤2将步骤1训练完成的梯度提升树模型和训练完成的支持向量机的分类模型进行融合,得到集成分类模型;步骤3将步骤1所述的验证集导入到步骤3所述的集成分类模型中,通过投票机制得到分类结果,即筛选癌症早筛的结果。在不同训练条件下优化模型性能,增强了模型训练时对样本量、样本特征分布等的适应性,有效提高了模型的稳定性,保证了在实际应用中的可靠性,产生稳定的预测精度。
Description
技术领域
本发明属于癌症早筛领域,具体涉及一种基于集成学习的血浆样本癌症早筛方法。
背景技术
癌症的早期诊断是提高癌症患者生存率的最有效手段之一。目前,癌症的早期筛查和临床诊断主要依赖于CT,PET-CT,MRI等影像学手段,以及超声波、内窥镜、细胞学检测,侵入式的组织样本采集和病理学检测等方式。检测多基于上述一种或多种检测相结合的方法,如针对肺癌高危人群的CT、X光技术。但是,由于癌症早期肿块体积小,CT识别要求病变组织的扫描面积大于1cm,因此CT、X光、超声波检查都难以识别早期肿瘤。另外,CT和X光检查的放射性累计会对人体产生危害,无法多次密集进行检查。乳腺癌的超声波诊断,同时超声波需要穿透软的组织,另一种是超声波-核磁共振(MRI)诊断,适用于高风险人群,1年检查一次。而用于结直肠癌的内窥镜检查价格昂贵,同时患者的体验较差。宫颈癌多采用细胞学诊断,肿瘤标志物检测,是迄今人类所有癌症中唯一明确病因的癌症,目前的研究数据均显示,人乳头瘤的病毒(HPV)是发生宫颈癌的必要前提条件。对于20-30岁易感染HPV病毒的女性,一般使用TCT宫颈涂片一年检查一次。肝癌采用腹部B超+AFP检查(甲胎蛋白-肿瘤标志物检查),前列腺癌采用血PSA检查(血液生化诊断),子宫内膜癌采用子宫内膜活检(细胞学诊断)。可以看出,目前诊断癌症的方法存在较大局限性,仍然存在无法有效检测早期癌症、成本高、检测手段耐受性差等缺陷。
发明内容
本发明的目的是为了有效的检测早期癌症,为了提高模型的精度,特异度和敏感度,本发明提供了一种基于集成学习的血浆样本癌症早筛方法,所述癌症早筛方法的具体步骤如下:
步骤1:将血浆中ctDNA突变和甲基化分析数据经过特征值提取后得到的数据作为训练集和验证集,然后将所述的训练集分别导入到梯度提升树模型和支持向量机的分类模型中;
步骤2:将步骤1训练完成的梯度提升树模型和训练完成的支持向量机的分类模型进行融合,得到集成分类模型;
步骤3:将步骤1所述的验证集导入到步骤3所述的集成分类模型中,通过投票机制得到分类结果,即筛选癌症早筛的结果。
进一步地限定,步骤1所述特征值为血浆中的DNA甲基化单倍型块对应的甲基化单倍负荷。
进一步地限定,步骤1所述训练集和验证集均为WGBS、WGS和TagetedSeq。
进一步地限定,训练步骤1所述梯度提升树的步骤为:
1)将训练集输入到初始梯度提升树模型中,初始化一棵树作为基础树;
2)根据特征及预测值生成第一个决策树;
3)根据决策树的输出与真实的标签在残差下降方向迭代生成多个决策树,在生成的决策树的个数达到预先给定的超参数值时,训练结束,所述真实的标签是肿瘤是否发生。
进一步地限定,步骤3)的步骤为:
(1)计算前一棵树在梯度方向上的残差作为新的训练集;
(2)拟合上一棵树产生的残差,生成当前决策回归树,更新fm(x)=fm-1(x)+T(x,Θm),其中,Θ代表每棵决策回归树的参数,T代表每个决策树的预测函数,f代表融合决策函数,m是迭代次数,生成训练完成的梯度提升树模型。
进一步地限定,训练步骤1所述梯度提升树的步骤中,是采用损失函数获得的每一棵树的参数。
进一步地限定,所述损失函数为均方误差损失函数,其中,是最优参数集合,m是迭代次数,x是训练样本,f是融合决策函数,N是样本个数,L是均方差函数,y是真值,i是样本序号,Θ是候选参数集合,T是决策树的预测函数。
进一步地限定,训练步骤1所述支持向量机的分类模型的步骤为:
(1)将训练集划分为n个区间,根据每个区间的复杂度CP值,生成对应的回归参数,根据回归参数对每个区间进行回归,迭代得到对应的支持向量;
(2)根据每个区域的支持向量,构建新的训练样集SVs={TS1,TS2,…,TSk}={SVi},i=1,…,m;其中,TSk为第k个区域对应的支持向量;
(3)以新的训练样集的复杂度为度量,设置回归参数,分别拟合划分后的样本区间,得到拟合的分类函数,作为训练完成的支持向量机的分类模型。
有益效果:本发明的方法是基于血浆MHB标记物、特征优化的癌症检测框架,本发明针对不同样本条件,建立了基于梯度提升树与支持向量机的双重集成分类器,利用投票机制,在不同训练条件下优化模型性能,增强了模型训练时对样本量、样本特征分布等的适应性,有效提高了模型的稳定性,保证了在实际应用中的可靠性,产生稳定的预测精度。
附图说明
图1为双重集成的癌症检测模型的流程图。
具体实施方式
实施例1.
原始数据来源:循环肿瘤DNA(Circulation TumorDNA,ctDNA)是液体活检的重要检测对象之一。ctDNA甲基化水平和相关DNA突变(SNVs、INDELS和拷贝数突变)是液体活检特征的重要来源。由于早期恶性肿瘤释放的ctDNA含量较低,提高DNA突变检测和甲基化监测的信噪比是重点解决的问题。在游离DNA(Cell-Free DNA,cfDNA)中,除了ctDNA外,还有大量的DNA片段来自于造血系统,是影响ctDNA分析的主要噪音数据来源。
1.数据清洗
本发明以血浆中的ctDNA为标记物,甲基化水平为检测度量值,考虑样本噪声的影响,样本分布的有偏性等因素,提出了基于噪声分布的肿瘤标记物数据清洗方法,通过分别分析血细胞DNA突变和甲基化信息,得到噪声分布的近似表达。然后,对ctDNA突变和甲基化分析数据进行滤波和去噪,确保频率为0.1%的突变能被可靠检测到,为后续特征提取建立可靠稳定的支撑数据集。
2.特征选择
本发明采用血浆中的DNA甲基化单倍型块(Methylation Haplotype Blocks,MHB)作为标记物,对应的甲基化单倍负荷(Methylation Haplotype Load,MHL)为特征值。
图1为双重集成的癌症检测模型的流程图,一种基于集成学习的癌症早筛方法,所述癌症早筛方法的具体步骤如下:
步骤1:将血浆中ctDNA突变和甲基化分析数据经过特征值提取后得到的数据作为训练集和验证集,然后将所述的训练集分别导入到梯度提升树模型和支持向量机的分类模型中;
步骤2:将步骤1训练完成的梯度提升树模型和训练完成的支持向量机的分类模型进行融合,得到集成分类模型;
步骤3:将步骤1所述的验证集导入到步骤3所述的集成分类模型中,通过投票机制得到分类结果,即筛选癌症早筛的结果。
步骤1所述特征值为血浆中的DNA甲基化单倍型块对应的甲基化单倍负荷。
步骤1所述训练集和验证集均为WGBS、WGS和TagetedSeq。
训练步骤1所述梯度提升树的步骤为:
1)将训练集输入到初始梯度提升树模型中,初始化一棵树作为基础树;
2)根据特征及预测值生成第一个决策树;
3)根据决策树的输出与真实的标签在残差下降方向迭代生成多个决策树,在生成的决策树的个数达到预先给定的超参数值时,训练结束,所述真实的标签是肿瘤是否发生。
步骤3)的步骤为:
(1)计算前一棵树在梯度方向上的残差作为新的训练集;
(2)拟合上一棵树产生的残差,生成当前决策回归树,更新fm(x)=fm-1(x)+T(x,Θm),其中,Θ代表每棵决策回归树的参数,T代表每个决策树的预测函数,f代表融合决策函数,m是迭代次数,生成训练完成的梯度提升树模型。
最终训练结束后得到的多棵决策树共同决策,得到最后的分类结果。该方法在训练过程中可以通过各个特征在每棵决策树上作为节点的次数来获取各个特征在肿瘤分类问题上的权重,进而得到有效的特征组合,去掉前期特征候选集中的冗余特征,得到最终的预测模型的同时实现特征集的优化。相较于现有的依赖于单一机器学习方法的预测模型,该方法具有更高的预测精度和可靠性。
假设提升算法中的弱学习器模型是二叉回归树,那么该方法叫做提升树方法,具体步骤如表1所示,在提升算法中,每一步生成的弱预测模型都是基于损失函数梯度方向,在每一步生成下一个弱预测模型的时候,没有对之前产生的模型做任何改变,而是增加一个新的估计器去补充之前弱预测模型预测结果与真实值的误差,相当于构建了一个新的模型,从而提高了整体的预测效果。
基于双重集成学习方法中的梯度提升树可以替换为其他基于决策树的集成模型,如随机森林、XGBoost等。
训练步骤1所述梯度提升树的步骤中,是采用损失函数获得的每一棵树的参数。所述损失函数为均方误差损失函数,其中,是最优参数集合,m是迭代次数,x是训练样本,f是融合决策函数,N是样本个数,L是均方差函数,y是真值,i是样本序号,Θ是候选参数集合,T是决策树的预测函数。
训练步骤1所述支持向量机的分类模型的步骤为:
(1)将训练集划分为n个区间,根据每个区间的复杂度CP值,生成对应的回归参数,根据回归参数对每个区间进行回归,迭代得到对应的支持向量;
(2)根据每个区域的支持向量,构建新的训练样集SVs={TS1,TS2,…,TSk}={SVi},i=1,…,m;其中,TSk为第k个区域对应的支持向量;
(3)以新的训练样集的复杂度为度量,设置回归参数,分别拟合划分后的样本区间,得到拟合的分类函数,作为训练完成的支持向量机的分类模型。
Claims (9)
1.一种基于集成学习的血浆样本癌症早筛方法,其特征在于,所述癌症早筛方法的具体步骤如下:
步骤1:将血浆中ctDNA突变和甲基化分析数据经过特征值提取后得到的数据作为训练集和验证集,然后将所述的训练集分别导入到梯度提升树模型和支持向量机的分类模型中;
步骤2:将步骤1训练完成的梯度提升树模型和训练完成的支持向量机的分类模型进行融合,得到集成分类模型;
步骤3:将步骤1所述的验证集导入到步骤3所述的集成分类模型中,通过投票机制得到分类结果,即筛选癌症早筛的结果。
2.根据权利要求1所述的癌症早筛方法,其特征在于,步骤1所述特征值为血浆中的DNA甲基化单倍型块对应的甲基化单倍负荷。
3.根据权利要求1所述的癌症早筛方法,其特征在于,步骤1所述训练集和验证集均为WGBS、WGS和TagetedSeq。
4.根据权利要求1所述的癌症早筛方法,其特征在于,训练步骤1所述梯度提升树的步骤为:
1)将训练集输入到初始梯度提升树模型中,初始化一棵树作为基础树;
2)根据特征及预测值生成第一个决策树;
3)根据决策树的输出与真实的标签在残差下降方向迭代生成多个决策树,在生成的决策树的个数达到预先给定的超参数值时,训练结束;所述真实的标签是肿瘤是否发生。
5.根据权利要求4所述的癌症早筛方法,其特征在于,步骤3)的步骤为:
(1)计算前一棵树在梯度方向上的残差作为新的训练集;
(2)拟合上一棵树产生的残差,生成当前决策回归树,更新fm(x)=fm-1(x)+T(x,Θm),其中,Θ代表每棵决策回归树的参数,T代表每个决策树的预测函数,f代表融合决策函数,m是迭代次数,生成训练完成的梯度提升树模型。
6.根据权利要求1所述的癌症早筛方法,其特征在于,训练步骤1所述梯度提升树的步骤中,是采用损失函数获得的每一棵树的参数。
8.根据权利要求1所述的癌症早筛方法,其特征在于,训练步骤1所述支持向量机的分类模型的步骤为:
(1)将训练集划分为n个区间,根据每个区间的复杂度CP值,生成对应的回归参数,根据回归参数对每个区间进行回归,迭代得到对应的支持向量;
(2)根据每个区域的支持向量,构建新的训练样集SVs={TS1,TS2,…,TSk}={SVi},i=1,…,m;其中,TSk为第k个区域对应的支持向量;
(3)以新的训练样集的复杂度为度量,设置回归参数,分别拟合划分后的样本区间,得到拟合的分类函数,作为训练完成的支持向量机的分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110780982.0A CN113611404A (zh) | 2021-07-09 | 2021-07-09 | 一种基于集成学习的血浆样本癌症早筛方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110780982.0A CN113611404A (zh) | 2021-07-09 | 2021-07-09 | 一种基于集成学习的血浆样本癌症早筛方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113611404A true CN113611404A (zh) | 2021-11-05 |
Family
ID=78304390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110780982.0A Pending CN113611404A (zh) | 2021-07-09 | 2021-07-09 | 一种基于集成学习的血浆样本癌症早筛方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611404A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221652A (zh) * | 2022-07-16 | 2022-10-21 | 天津布尔科技有限公司 | 一种发动机中冷器故障预测方法、装置及存储介质 |
CN115274100A (zh) * | 2022-09-30 | 2022-11-01 | 谱宁医学科技(天津)有限责任公司 | 基于血浆光谱的疾病筛查模型构建方法及疾病筛查装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256207A (zh) * | 2018-08-29 | 2019-01-22 | 王雁 | 一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法 |
CN110852158A (zh) * | 2019-09-30 | 2020-02-28 | 西安电子科技大学 | 一种基于模型融合的雷达人体运动状态分类算法及系统 |
CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
-
2021
- 2021-07-09 CN CN202110780982.0A patent/CN113611404A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
CN109256207A (zh) * | 2018-08-29 | 2019-01-22 | 王雁 | 一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法 |
CN110852158A (zh) * | 2019-09-30 | 2020-02-28 | 西安电子科技大学 | 一种基于模型融合的雷达人体运动状态分类算法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221652A (zh) * | 2022-07-16 | 2022-10-21 | 天津布尔科技有限公司 | 一种发动机中冷器故障预测方法、装置及存储介质 |
CN115274100A (zh) * | 2022-09-30 | 2022-11-01 | 谱宁医学科技(天津)有限责任公司 | 基于血浆光谱的疾病筛查模型构建方法及疾病筛查装置 |
CN115274100B (zh) * | 2022-09-30 | 2022-12-09 | 谱宁医学科技(天津)有限责任公司 | 基于血浆光谱的疾病筛查模型构建方法及疾病筛查装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Multiparametric MRI and radiomics in prostate cancer: a review | |
CN111553892B (zh) | 基于深度学习的肺结节分割计算方法、装置及系统 | |
CN107133638B (zh) | 基于两分类器的多参数mri前列腺癌cad方法及系统 | |
JP2021527473A (ja) | 即時精密検査 | |
CN113208640A (zh) | 一种基于乳腺专用pet影像组学预测腋窝淋巴结转移的方法 | |
CN110391015A (zh) | 一种基于影像组学量化肿瘤免疫状态的方法 | |
CN113611404A (zh) | 一种基于集成学习的血浆样本癌症早筛方法 | |
CN114677378B (zh) | 基于卵巢肿瘤良恶性预测模型的计算机辅助诊疗系统 | |
CN111584064A (zh) | 一种结、直肠癌转移预测系统及其使用方法 | |
Chung et al. | Discovery radiomics for multi-parametric MRI prostate cancer detection | |
JP7539981B2 (ja) | 非侵襲的放射線イメージングからの肝疾患の重症度の自動的分類 | |
Dai et al. | Diagnostic Performance of Radiomics and Deep Learning to Identify Benign and Malignant Soft Tissue Tumors: A Systematic Review and Meta-analysis | |
CN113706518A (zh) | 一种基于人工智能的股骨头坏死分期分析方法及系统 | |
CN117152054A (zh) | 一种无需纳入临床病理特征的乳癌患者淋巴结转移预测模型 | |
CN116825372A (zh) | 一种乳癌患者淋巴结转移预测模型及其构建方法 | |
Demetriou et al. | AI-enhanced digital pathology and radiogenomics in precision oncology | |
US20230252633A1 (en) | Method for biomarker estimation | |
CN114445374A (zh) | 一种基于扩散峰度成像mk图的图像特征处理方法及系统 | |
Li et al. | Significance of MRI-based radiomics in predicting pathological complete response to neoadjuvant chemoradiotherapy of locally advanced rectal cancer: A narrative review | |
Liu et al. | Assessing the Influence of B‐US, CDFI, SE, and Patient Age on Predicting Molecular Subtypes in Breast Lesions Using Deep Learning Algorithms | |
CN116403076B (zh) | 一种基于dti序列对gbm患者进行风险分层的方法及系统 | |
RU2828973C1 (ru) | Способ диагностики рака предстательной железы с помощью прогностической модели с использованием глубокого обучения на основе радиомических признаков путем комплексной интерпретации клинико-лабораторных данных и бпМРТ | |
Diaz et al. | Analysis of the spatial distribution of prostate cancer obtained from histopathological images | |
CN110916665B (zh) | 一种磁共振扩散加权图像影像组学特征处理方法 | |
US12094107B2 (en) | CAD device and method for analyzing medical images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211105 |