CN111370061A - 基于蛋白标记物与人工智能的癌症筛查方法 - Google Patents

基于蛋白标记物与人工智能的癌症筛查方法 Download PDF

Info

Publication number
CN111370061A
CN111370061A CN201910537819.4A CN201910537819A CN111370061A CN 111370061 A CN111370061 A CN 111370061A CN 201910537819 A CN201910537819 A CN 201910537819A CN 111370061 A CN111370061 A CN 111370061A
Authority
CN
China
Prior art keywords
sample
protein
tumor
data
marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910537819.4A
Other languages
English (en)
Inventor
李世勇
茅矛
张锋
陈彦
钟果林
张岩
陈灏
封裕敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Siqin Medical Technology Co ltd
Original Assignee
Shenzhen Siqin Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Siqin Medical Technology Co ltd filed Critical Shenzhen Siqin Medical Technology Co ltd
Priority to CN201910537819.4A priority Critical patent/CN111370061A/zh
Publication of CN111370061A publication Critical patent/CN111370061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Abstract

本发明提出了一种确定样本来源的方法。该方法包括:(1)将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;(2)将样本数据进行标准化处理,所述数据包括:步骤(1)所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据;(3)基于步骤(2)所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。根据本发明实施例的方法,可基于待测样本的蛋白含量以及临床数据,通过预测模型,准确、方便地确定待测样本是否来源于癌症患者,进而为进一步的癌症相关致病机制的研究或癌症的早期筛查奠定基础。

Description

基于蛋白标记物与人工智能的癌症筛查方法
技术领域
本发明涉及生物信息领域,具体地,本发明涉及确定样本来源的方法。
背景技术
肿瘤标志物(tumormarker)是指在肿瘤发生和增殖过程中,由肿瘤细胞的基因表达而合成分泌、释放或是由机体对肿瘤细胞反应而异常产生和(或)升高的能反映肿瘤发生、发展,监测肿瘤对治疗反应的一类物质。肿瘤标志物按本质可分为:蛋白质类;糖类;脂类;酶类;激素类和多胺类以及基因产物等。其存在于肿瘤患者的组织、体液和排泄物中,能够用免疫学、生物学及化学的方法检测到。如可从血清学水平使用放射免疫分析(RIA)和酶联免疫分析(ELISA)以及全自动免疫化学分析系统来定量检测肿瘤标记物;使用免疫组化或原位分子杂交组化技术等检测组织中的肿瘤标记物,也可以使用流式细胞仪或分子生物学技术以及基因芯片等来检测。
现在临床应用的肿瘤标志物已经接近20种。然而,每一个肿瘤标志物的应用都基于特定人群,检测患有预期特定癌症的可能性。比如,针对肝硬化,肝炎病人,使用甲胎蛋白(AFP)确定其是否有患肝癌的可能性。临床上更多的是将肿瘤标志物应用疾病的进展监测,对癌症治疗(手术、化疗、放疗)的疗效监测,和辅助癌症分期。
由于单一的肿瘤标志物的特异性和敏感性往往偏低,不能满足临床早筛的要求。随着大量的临床实验研究发现和技术的更新带来标志物检测成本的下降,更多的人倡导使用多个肿瘤标志物组合起来进行来提高特异性和灵敏性。而即使将多个标志物组合在一起检测,临床上仍然是对每个标志物单独的分析,划定参考范围。
因此,尝试将不同肿瘤标志物组合后有效实现肿瘤的筛查,仍是科研工作者拭待解决的问题。
发明内容
本申请是基于发明人对以下事实和问题的发现和认识作出的:
本申请的发明人通过探索不同蛋白标志物的组合,建立了蛋白标志物组合的筛选标准,得到肿瘤早筛的最优蛋白组合。进而发明人将癌症患者和正常人的最优蛋白表达水平以及相关临床数据进行机器模型学习后,发现癌症患者和正常人最优相关蛋白的表达水平以及相关临床数据具有显著差异。进而基于预定的机器学习模型所确定的肿瘤预测模型,通过测定待测样本的最优蛋白表达量,可确定待测样本是否来源于肿瘤患者,极大的提高肿瘤筛查的特异性,为进一步的癌症相关致病机制的研究或癌症的早期筛查奠定了基础。
基于此,在本发明的第一方面,本发明提出了一种确定样本来源的方法。根据本发明的实施例,所述方法包括:(1)将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;(2)将样本数据进行标准化处理,所述数据包括:步骤(1)所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据;(3)基于步骤(2)所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。其中,哑变量转化数据是指对临床数据进行赋值后的数据,比如临床数据-性别,发明人将女性赋值1,男性赋值0。根据本发明实施例的方法,可基于待测样本的肿瘤标志物的含量以及临床数据,通过预测模型,准确、方便地确定待测样本是否来源于癌症患者,进而为进一步的癌症相关致病机制的研究或癌症的早期筛查奠定基础。
根据本发明的实施例,所述方法还可以进一步包括如下附加技术特征至少之一:
根据本发明的实施例,所述肿瘤标志物是通过预定肿瘤标志物的筛选方法和标准确定的。基于预定肿瘤标志物的筛选方法和标准确定的最优肿瘤标志物组合进行后续的检查,可有效提高检测的准确性。
根据本发明的实施例,所述肿瘤标志物是通过如下方式确定的:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的待筛选蛋白肿瘤标志物的含量,所述已知类型样本是由已知数目的正常样本和已知数目的癌症样本组成;
(2)将正常样本的待筛选蛋白肿瘤标志物的含量与癌症样本的待筛选蛋白肿瘤标志物的含量进行t-test比较,以便获得第一预选肿瘤标志物;
(3)基于机器模型的方法对特征变量的打分机制进行变量筛选,比如LASSO模型的L1正则化(为了防止机器学习过拟合,引入的损失函数的惩罚项,引入变量越多,惩罚就越大。L1正则化是通过稀疏参数(将某些特征变量的系数设置为0,减少特征变量的数量)来降低复杂度)。为了保证选取特征变量的稳定性,我们通过随机抽取不同的数据子集和特征变量子集,进行特征变量筛选,并重复这个过程至少100次以上。并将每个特征变量,在至少100次重复过程中,作为重要特征被筛选出来的次数除以它所在的子集被抽取到的次数,定义为特征变量的频率;
(4)基于支持向量机模型和特征变量的重要性,去除特征变量频率最小的特征并逐步进行迭代处理;
(5)对所述迭代处理结果进行交叉验证计算分类正确率,选取分类正确率没有大的改变的条件下,特征最少的变量作为第二预选肿瘤标志物;
(6)基于第一预选肿瘤标志物的特征变量,以及(5)所述第二预选肿瘤标志物,第一预选和第二预选的并集做为目标肿瘤标志物;
优选地,进一步包括:对不同于步骤(1)所用已知类型样本的已知类型样本逐步进行步骤(1)~(6)处理,以便获得第三预选肿瘤标志物;
将所述第二预选肿瘤标志物与所述第三预选肿瘤标志物进行优化处理,所述优化处理是指将相同的肿瘤标志物取交集,不存在于第第二预选肿瘤标志物而存在于第三预选标志物中的肿瘤标志物直接加入,以便获得所述目标标志物。
根据本发明的实施例,所述预测模型是通过如下方式获得的:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的蛋白肿瘤标志物的含量,所述已知类型样本由已知数目的正常样本和已知数目的癌症样本组成;
(2)将已知类型样本数据进行标准化处理,以便获得所述已知类型样本数据的标准差和方差,所述数据包括:步骤(1)所获得的蛋白肿瘤标志物的含量、临床数据的哑变量转化数据;
(3)使用机器学习模型和10-fold交叉验证方法,确定机器学习模型的预测效果、方差和偏差;
(4)基于机器学习模型的预测效果、方差和偏差,确定所述预测模型。
根据本发明的实施例,所述预测模型是基于LASSO学习模型确认的。
根据本发明的实施例,所述机器学习模型可包括RF、LASSO、SVM等模型,发明人通过10-fold交叉验证的方法(发明人将数据分成10份,其中9份数据用来建模,1份用来作为测试集,评价测试效果,依次替换训练和测试集),来评估机器学习模型的预测效果和方差,偏差。发现,最终LASSO机器学习模型的预测效果最好。
根据本发明的实施例,所述蛋白包括选自AFP,CEA,CA724,CA199,CA125,CA242,CY211,CA50,CA153,NSE,PSA,HCG,TG,SCC,Angiopoietin-2,AXL,CD44,DKK1,Endoglin,FGF2,Follistatin,NSE,OPG,OPN,PAR,Prolactin,sEGFR,sFas,sHER2/sEGFR2/sErbB2的至少之一。
根据本发明的实施例,所述数据进一步包括缺失蛋白输入数据。发明人发现,如果实验或者样本存在问题,部分样本的蛋白数据不能检测到,这时可通过一定的通过算法估计该蛋白的含量,此估计的蛋白含量即为缺失蛋白输入数据。
根据本发明的实施例,所述缺失蛋白输入数据是通过K-临近方法计算获得的。
根据本发明的实施例,所述预测模型是基于LASSO学习模型确认的,所述样本来源于肿瘤患者的阈值为0.9。根据本发明的实施例,基于预测模型,确定所述待测样本来源于肿瘤患者的概率,所述概率大于0.9是所述待测样本来源于肿瘤患者的指示。
为了便于理解,申请人将根据本申请实施例的确定样本来源的方法流程表示于图1中。
在本发明的第二方面,本发明提出了一种计算机可读介质。根据本发明的实施例,所述计算机可读介质中存储有指令,所述指令被适于处理执行以便通过下列步骤确定样本来源,(1)将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;(2)将样本数据进行标准化处理,所述数据包括:步骤(1)所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据;(3)基于步骤(2)所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。根据本发明实施例的计算机可读介质,可基于待测样本的肿瘤标志物的含量以及临床数据,通过预测模型,准确、方便地确定待测样本是否来源于癌症患者,进而为进一步的癌症相关致病机制的研究或癌症的早期筛查奠定基础。
在本发明的第三方面,本发明提出了一种确定样本来源的系统。根据本发明的实施例,所述系统包括:蛋白含量测定装置,所述蛋白含量测定装置用于将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;标准化处理装置,所述标准化处理装置与所述蛋白含量测定装置向量,用于将样本数据进行标准化处理,所述数据包括:蛋白含量测定装置所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据;确定装置,所述确定与所述标准化处理装置相连,用于基于标准化处理装置所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。根据本发明实施例的系统,可基于待测样本的肿瘤标志物的含量以及临床数据,通过预测模型,准确、方便地确定待测样本是否来源于癌症患者,进而为进一步的癌症相关致病机制的研究或癌症的早期筛查奠定基础。
需要说明的是,本领域技术人员能够理解,在前面所描述的确定样本来源的方法的特征和优点也适合于计算机可读介质和确定样本来源的系统,为描述方便,不再赘述。
附图说明
图1是根据本发明实施例的确定样本来源的方法流程图;
图2是根据本发明实施例的确定样本来源的系统的结构示意图;
图3是根据本发明另一实施例的确定样本来源的系统的结构示意图;
图4是根据本发明再一实施例的确定样本来源的系统的结构示意图;
图5是根据本发明实施例的肿瘤标志物的10折交叉验证后的准确率;
图6是现有技术选择特征与本发明筛选出的特征集的预测结果比较,其中,左图采用的是支持向量的方法,右图采用的是逻辑回归的方法;
图7是根据本发明实施例的预测模型的ROC曲线;以及
图8是根据本发明实施例的方法特异性和敏感性的结果图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
为了描述方便,本发明所提出的确定样本来源的系统的结构示意图可参考图2。根据本发明的实施例,所述系统包括:
蛋白含量测定装置100,所述蛋白含量测定装置100用于将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;
标准化处理装置200,所述标准化处理装置200与所述蛋白含量测定装置向量100,用于将样本数据进行标准化处理,所述数据包括:蛋白含量测定装置所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据,任选地,所述数据进一步包括缺失蛋白输入数据,具体地,所述缺失蛋白输入数据是通过K-临近方法计算获得的;
确定装置300,所述确定装置300与所述标准化处理装置200相连,用于基于标准化处理装置200所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。
根据本发明的具体实施例,参考图3,所述系统进一步包括:肿瘤标志物筛选装置400,所述肿瘤标志物筛选装置400用于通过预定肿瘤标志物的筛选方法和标准确定的所述肿瘤标志物。
具体地,所述肿瘤标志物筛选装置400适于通过如下方式确定所述肿瘤标志物:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的待筛选肿瘤蛋白标志物的含量,所述已知类型样本是由已知数目的正常样本和已知数目的癌症样本组成;
(2)将正常样本的待筛选蛋白肿瘤标志物的含量与癌症样本的待筛选蛋白肿瘤标志物的含量进行t-test比较,以便获得第一预选肿瘤标志物;
(3)基于LASSO模型对第一预选肿瘤标志物特征变量进行变量筛选,所述变量筛选是通过随机抽取不同的数据子集和特征变量子集进行的,随机抽取的次数为至少100次,每个特征变量在至少100次的随机抽取过程中,作为重要特征变量被筛选出来的次数与它所在的特征变量子集被抽取到的次数之商为所述特征变量的频率;
(4)基于支持向量机模型和特征变量的重要性,去除特征变量频率最小的特征并逐步进行迭代处理;
(5)对所述迭代处理结果进行交叉验证计算分类正确率,选取分类正确率不变,特征最少的变量作为第二预选肿瘤标志物;
(6)基于第一预选肿瘤标志物的特征变量,以及(5)所述第二预选肿瘤标志物,第一预选和第二预选的并集作为目标肿瘤标志物;
优选地,进一步包括:对不同于步骤(1)所用已知类型样本的已知类型样本逐步进行步骤(1)~(6)处理,以便获得第三预选肿瘤标志物;
将所述第二预选肿瘤标志物与所述第三预选肿瘤标志物进行优化处理,以便获得所述目标标志物。
根据本发明的具体实施例,参考图4,所述系统进一步包括:预测模型获得装置500,所述预测模型获得装置500适于通过如下方式获得的所述预测模型:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的蛋白肿瘤标志物的含量,所述已知类型样本由已知数目的正常样本和已知数目的癌症样本组成;
(2)将已知类型样本数据进行标准化处理,以便获得所述已知类型样本数据的标准差和方差,所述数据包括:步骤(1)所获得的蛋白肿瘤标志物的含量、临床数据的哑变量转化数据;
(3)使用机器学习模型和10-fold交叉验证方法,确定机器学习模型的预测效果、方差和偏差;
(4)基于机器学习模型的预测效果、方差和偏差,确定所述预测模型。
优选地,所述预测模型是基于LASSO学习模型确认的,所述样本来源于肿瘤患者的阈值为0.9,基于预测模型,确定所述待测样本来源于肿瘤患者的概率,所述概率大于0.9是所述待测样本来源于肿瘤患者的指示。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品,例如可以采购自Illumina公司。
实施例1
肿瘤标志物的常见的定量方法有:1)血清学水平使用放射免疫分析(RIA);2)酶联免疫分析(ELISA);3)全自动免疫化学分析系统来定量。在本发明中,使用新开发的标准化方法,能够抵消不同定量方法带来的影响,跨平台使用;
本实施例中的样本都是使用的全自动免疫化学分析系统定量的,具体处理过程如下:
(1)样本预处理:受试者或对照样本(已知类型样本)的血液样本分别为10ml,在生物安全柜内将血液样本从采血管中移至10mL离心管内,在离心管盖上标记样本编号、处理样本日期,以4℃1600g转速离心10min,将离心后的上清收集至新的10mL离心管中,以4℃16000g转述离心10min,取上清1ml,放入日立杯中。
(2)将待检测的样本放入化学发光检测仪(比如罗氏的e411/e601)的样本待检测位。放入要检测的蛋白的试剂:AFP,CEA,CA724,CA199,CA125,CA211,CA153等。
(3)按照仪器的标准SOP进行操作,自动化的完成蛋白的定量检测;获得相关蛋白的表达量。
实施例2
标志物的筛选:利用已经发表的文献中的蛋白肿瘤标志物数据(Cohen,J.D.,etal.,2018.),该数据包含1817个样本的蛋白表达数据,其中正常人样本:812例;癌症患者样本:1005例。该数据集包含:AFP,Angiopoietin-2,AXL,CA-125,CA15-3,CA19-9,CD44,CEA,CYFRA 21-1,DKK1,Endoglin,FGF2,Follistatin,NSE,OPG,OPN,PAR,Prolactin,sEGFR,sFas,sHER2/sEGFR2/sErbB2,等共39个蛋白标志物的表达量。
(1)在癌症和正常人中进行t-test比较,要求蛋白的表的量在癌症组中显著性高于正常人群(排除13个蛋白标志物,如表1所示);同时分不同癌症类型(只针对癌症发病率高的几个癌种)与正常样本进行同样的假设检验。存在显著性差异的癌种越多,优先级越高。
表1:
Figure BDA0002101729980000071
Figure BDA0002101729980000081
(2)基于LASSO模型自带的L1正则化进行特征选取。基于此,发明人使用bootstrap进行变量和样本子集(有放回的抽样)的随机抽取。对每一次随机抽取的变量和样本集,通过LASSO和交叉验证的方法,选取出特征变量,最后计算选取出的变量的频率,取前面13个作为特征候选集。结果如表2所示。
表2:
Figure BDA0002101729980000082
Figure BDA0002101729980000091
(3)基于支持向量机模型,根据变量重要性排序,每次从特征集合中去掉一个分类变量重要性最低的特征逐次进行迭代,并计算分类正确率,最终选取变量个数最少、分类正确率最高作为标志物的组合。为了保证特征的稳定性。发明人采用了交叉验证方法:本实施例中,使用10折交叉验证,在每一次迭代过程中,将数据集划分成10份,随机选择其中的9份作为训练集用于构建支持向量机分类器,剩余的1份作为验证集数据进行验证,重复上面的过程,最终将测试集上的平均准确率作为这次迭代过程的分类正确率。结果如图5所示。最终选择5个标志物作为效果最好的标志物组合:IL-8,OPN,IL-6,GDF15,Prolactin;
(4)将上面两步选择的特征并集作为特征候选集;
(5)有条件情况下,根据步骤(4)筛选出的标志物,使用第三方独立的样本进行蛋白定量(也包括上面没有包括的肿瘤标志物的定量检测),重复上面的过程,优化肿瘤标志物的组合。
通过使用新发明的方法获得的特征和使用参考文献中的选择的肿瘤蛋白标志物特征集,基于同样的机器学习方法(比如:支持向量机或逻辑回归方法)进行交叉验证,发现本发明的筛选出的特集合(AUC_select)对于预测肿瘤的性能,优于现有技术中选择的特征(AUC_ref)。尤其是在98%的特异性(肿瘤发病率低,因此要求高特异性极高),更存在显著差异(如图6,7)。
实施例3
为了比较本发明开发的方法在肿瘤早筛上预测的性能,发明人从某三甲医院获得常见肿瘤标志物的检测数据作为第三方独立验证试验,与临床上常规的方法比较。本实施例使用的标志物,为临床常规的蛋白标志物:AFP、CEA、CA125、CA153、CA19-9、CYFRA 21-1等。该验证集:包括266个正常体检人群以及81不同癌症的肿瘤病人。以下表3列举其中100例样本的肿瘤标志物定量结果。
表3:
Figure BDA0002101729980000092
Figure BDA0002101729980000101
Figure BDA0002101729980000111
Figure BDA0002101729980000121
(一)数据的过滤和预处理:对于某些样本在实施例1种,由于某些原因不能完成所有蛋白标志物的检测或者医院对有些样本做了某种特殊癌症相关的蛋白,去除样本中蛋白标志物缺失比例>10%的样本;去除某种标志物在所有样本中,检测缺失率>25%的样本;对于过滤后的某些缺失数据,采用k-Means聚类算法,寻找与存在缺失值样本最接近的样本,并将这些样本的均值作为该样本的缺失值,补齐数据。
(二)数据标准化处理:
由于不同蛋白标志物的定量方法和平台存在不一样,造成蛋白表达量范围,差别大。为了消除这样的影响,发明人使用Z-score的标准化方法,对数据进行标准化处理。
(三)建立模型:
(1)模型的选择和参数的优化。机器学习中常见的分类算法有:Bayesian模型,决策树,支持向量机,神经网络,LASSO等。
(2)采用了交叉验证方法:本实施例中,使用10折交叉验证,对每种分类方法,依次将数据集划分成10份,随机选择其中的9份作为训练集用于构建分类模型,剩余的1份作为验证集数据进行验证,重复上面的过程。得到每种方法在预测集上的ROC曲线,同时使用医院的数据进行独立验证(防止模型过拟合),通过比较,最终选择LASSO为分类器。
(3)根据选定的模型(LASSO),同样使用10折交叉验证,得到最优参数和cut-off值,由于肿瘤发病率低,基数大,因此所获得的cut-off值,具有很高特异性,最终发明人选择98%特异性作为cut-off值。使用所有的数据以及上面得到的最优参数进行建立预测模型如图7所示。
(4)对医院测试数据按照上面步骤(1)、(2)进行预处理,使用步骤(3)建立的模型进行预测,预测样本来源肿瘤的概率(p-value)。P-value>0.9的被认为是来源肿瘤样本。
上面所述的方法特异性是98%,敏感性是51%(95%置信区间:32%~65%,结果见图8)。此结果说明了本方法的有效性和优越性。
如果使用传统的对每个标志物独立分析,与其对应的标志物的阈值进行比较(见表4)。
表4:
Figure BDA0002101729980000131
Figure BDA0002101729980000141
根据标志物异常的数目进行统计,统计结果见表5。
表5:
异常的标志物数目 真阳性样本 敏感性 假阳性样本 特异性
>=1 58 72% 160 40%
>=2 29 36% 43 84%
>=3 12 15% 2 99%
由此可见,本申请所开发的方法对于肿瘤早筛,较传统的方法有性能极大的提高,而且能够实现自动化分析。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种确定样本来源的方法,其特征在于,包括:
(1)将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;
(2)将样本数据进行标准化处理,所述数据包括:步骤(1)所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据;
(3)基于步骤(2)所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。
2.根据权利要求1所述的方法,其特征在于,所述肿瘤标志物是通过预定肿瘤标志物的筛选方法和标准确定的。
3.根据权利要求2所述的方法,其特征在于,所述肿瘤标志物是通过如下方式确定的:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的待筛选肿瘤蛋白标志物的含量,所述已知类型样本是由已知数目的正常样本和已知数目的癌症样本组成;
(2)将正常样本的待筛选蛋白肿瘤标志物的含量与癌症样本的待筛选蛋白肿瘤标志物的含量进行t-test比较,以便获得第一预选肿瘤标志物;
(3)基于LASSO模型对第一预选肿瘤标志物特征变量进行变量筛选,所述变量筛选是通过随机抽取不同的数据子集和特征变量子集进行的,随机抽取的次数为至少100次,每个特征变量在至少100次的随机抽取过程中,作为重要特征变量被筛选出来的次数与它所在的特征变量子集被抽取到的次数之商为所述特征变量的频率;
(4)基于支持向量机模型和特征变量的重要性,去除特征变量频率最小的特征并逐步进行迭代处理;
(5)对所述迭代处理结果进行交叉验证计算分类正确率,选取分类正确率不变,特征最少的变量作为第二预选肿瘤标志物;
(6)基于第一预选肿瘤标志物的特征变量,以及(5)所述第二预选肿瘤标志物,第一预选和第二预选的并集做为目标肿瘤标志物;
优选地,进一步包括:对不同于步骤(1)所用已知类型样本的已知类型样本逐步进行步骤(1)~(6)处理,以便获得第三预选肿瘤标志物;
将所述第二预选肿瘤标志物与所述第三预选肿瘤标志物进行优化处理,以便获得所述目标标志物。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述预测模型是通过如下方式获得的:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的蛋白肿瘤标志物的含量,所述已知类型样本由已知数目的正常样本和已知数目的癌症样本组成;
(2)将已知类型样本数据进行标准化处理,以便获得所述已知类型样本数据的标准差和方差,所述数据包括:步骤(1)所获得的蛋白肿瘤标志物的含量、临床数据的哑变量转化数据;
(3)使用机器学习模型和10-fold交叉验证方法,确定机器学习模型的预测效果、方差和偏差;
(4)基于机器学习模型的预测效果、方差和偏差,确定所述预测模型。
5.根据权利要求4所述的方法,其特征在于,
所述预测模型是基于LASSO学习模型确认的。
6.根据权利要求1所述的方法,其特征在于,所述蛋白包括选自AFP,CEA,CA724,CA199,CA125,CA242,CY211,CA50,CA153,NSE,PSA,HCG,TG,SCC,Angiopoietin-2,AXL,CD44,DKK1,Endoglin,FGF2,Follistatin,NSE,OPG,OPN,PAR,Prolactin,sEGFR,sFas,sHER2/sEGFR2/sErbB2的至少之一。
7.根据权利要求1所述的方法,其特征在于,所述数据进一步包括缺失蛋白输入数据。
8.根据权利要求7所述的方法,其特征在于,所述缺失蛋白输入数据是通过K-临近方法计算获得的。
9.根据权利要求5所述的方法,其特征在于,所述预测模型是基于LASSO学习模型确认的,所述样本来源于肿瘤患者的阈值为0.9。
10.根据权利要求9所述的方法,其特征在于,基于预测模型,确定所述待测样本来源于肿瘤患者的概率,所述概率大于0.9是所述待测样本来源于肿瘤患者的指示。
11.一种计算机可读介质,其特征在于,所述计算机可读介质中存储有指令,所述指令被适于处理执行以便通过下列步骤确定样本来源,
(1)将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;
(2)将样本数据进行标准化处理,所述数据包括:步骤(1)所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据;
(3)基于步骤(2)所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。
12.根据权利要求11所述的计算机可读介质,其特征在于,所述肿瘤标志物是通过预定肿瘤标志物的筛选方法和标准确定的;
优选地,所述肿瘤标志物是通过如下方式确定的:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的待筛选肿瘤蛋白标志物的含量,所述已知类型样本是由已知数目的正常样本和已知数目的癌症样本组成;
(2)将正常样本的待筛选蛋白肿瘤标志物的含量与癌症样本的待筛选蛋白肿瘤标志物的含量进行t-test比较,以便获得第一预选肿瘤标志物;
(3)基于LASSO模型对第一预选肿瘤标志物特征变量进行变量筛选,所述变量筛选是通过随机抽取不同的数据子集和特征变量子集进行的,随机抽取的次数为至少100次,每个特征变量在至少100次的随机抽取过程中,作为重要特征变量被筛选出来的次数与它所在的特征变量子集被抽取到的次数之商为所述特征变量的频率;
(4)基于支持向量机模型和特征变量的重要性,去除特征变量频率最小的特征并逐步进行迭代处理;
(5)对所述迭代处理结果进行交叉验证计算分类正确率,选取分类正确率不变,特征最少的变量作为第二预选肿瘤标志物;
(6)基于第一预选肿瘤标志物的特征变量,以及(5)所述第二预选肿瘤标志物,第一预选和第二预选的并集做为目标肿瘤标志物;
优选地,进一步包括:对不同于步骤(1)所用已知类型样本的已知类型样本逐步进行步骤(1)~(6)处理,以便获得第三预选肿瘤标志物;
将所述第二预选肿瘤标志物与所述第三预选肿瘤标志物进行优化处理,以便获得所述目标标志物。
13.根据权利要求12所述的计算机可读介质,其特征在于,所述预测模型是通过如下方式获得的:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的蛋白肿瘤标志物的含量,所述已知类型样本由已知数目的正常样本和已知数目的癌症样本组成;
(2)将已知类型样本数据进行标准化处理,以便获得所述已知类型样本数据的标准差和方差,所述数据包括:步骤(1)所获得的蛋白肿瘤标志物的含量、临床数据的哑变量转化数据;
(3)使用机器学习模型和10-fold交叉验证方法,确定机器学习模型的预测效果、方差和偏差;
(4)基于机器学习模型的预测效果、方差和偏差,确定所述预测模型;
优选地,所述预测模型是基于LASSO学习模型确认的;
任选地,所述蛋白包括选自AFP,CEA,CA724,CA199,CA125,CA242,CY211,CA50,CA153,NSE,PSA,HCG,TG,SCC,Angiopoietin-2,AXL,CD44,DKK1,Endoglin,FGF2,Follistatin,NSE,OPG,OPN,PAR,Prolactin,sEGFR,sFas,sHER2/sEGFR2/sErbB2的至少之一。
14.根据权利要求12所述的计算机可读介质,其特征在于,所述数据进一步包括缺失蛋白输入数据;
优选地,所述缺失蛋白输入数据是通过K-临近方法计算获得的。
15.根据权利要求13所述的计算机可读介质,其特征在于,所述预测模型是基于LASSO学习模型确认的,所述样本来源于肿瘤患者的阈值为0.9;
优选地,基于预测模型,确定所述待测样本来源于肿瘤患者的概率,所述概率大于0.9是所述待测样本来源于肿瘤患者的指示。
16.一种确定样本来源的系统,其特征在于,包括:
蛋白含量测定装置,所述蛋白含量测定装置用于将所述样本进行蛋白含量测定处理,以便获得所述样本的肿瘤蛋白标志物含量;
标准化处理装置,所述标准化处理装置与所述蛋白含量测定装置向量,用于将样本数据进行标准化处理,所述数据包括:蛋白含量测定装置所获得的肿瘤蛋白标志物含量、临床数据的哑变量转化数据;
确定装置,所述确定装置与所述标准化处理装置相连,用于基于标准化处理装置所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率;
任选地,所述数据进一步包括缺失蛋白输入数据。
17.根据权利要求16所述的系统,其特征在于,进一步包括:肿瘤标志物筛选装置,所述肿瘤标志物筛选装置用于通过预定肿瘤标志物的筛选方法和标准确定的所述肿瘤标志物;
优选地,所述肿瘤标志物物筛选装置适于通过如下方式确定所述肿瘤标志物:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的待筛选肿瘤蛋白标志物的含量,所述已知类型样本是由已知数目的正常样本和已知数目的癌症样本组成;
(2)将正常样本的待筛选蛋白肿瘤标志物的含量与癌症样本的待筛选蛋白肿瘤标志物的含量进行t-test比较,以便获得第一预选肿瘤标志物;
(3)基于LASSO模型对第一预选肿瘤标志物特征变量进行变量筛选,所述变量筛选是通过随机抽取不同的数据子集和特征变量子集进行的,随机抽取的次数为至少100次,每个特征变量在至少100次的随机抽取过程中,作为重要特征变量被筛选出来的次数与它所在的特征变量子集被抽取到的次数之商为所述特征变量的频率;
(4)基于支持向量机模型和特征变量的重要性,去除特征变量频率最小的特征并逐步进行迭代处理;
(5)对所述迭代处理结果进行交叉验证计算分类正确率,选取分类正确率不变,特征最少的变量作为第二预选肿瘤标志物;
(6)基于第一预选肿瘤标志物的特征变量,以及(5)所述第二预选肿瘤标志物,第一预选和第二预选的并集作为目标肿瘤标志物;
优选地,进一步包括:对不同于步骤(1)所用已知类型样本的已知类型样本逐步进行步骤(1)~(6)处理,以便获得第三预选肿瘤标志物;
将所述第二预选肿瘤标志物与所述第三预选肿瘤标志物进行优化处理,以便获得所述目标标志物。
18.根据权利要求16所述的系统,其特征在于,进一步包括预测模型获得装置,所述预测模型获得装置适于通过如下方式获得的所述预测模型:
(1)将已知类型样本进行蛋白含量测定处理,以便获得所述已知类型样本的蛋白肿瘤标志物的含量,所述已知类型样本由已知数目的正常样本和已知数目的癌症样本组成;
(2)将已知类型样本数据进行标准化处理,以便获得所述已知类型样本数据的标准差和方差,所述数据包括:步骤(1)所获得的蛋白肿瘤标志物的含量、临床数据的哑变量转化数据;
(3)使用机器学习模型和10-fold交叉验证方法,确定机器学习模型的预测效果、方差和偏差;
(4)基于机器学习模型的预测效果、方差和偏差,确定所述预测模型;
优选地,所述预测模型是基于LASSO学习模型确认的。
19.根据权利要求16所述的系统,其特征在于,所述缺失蛋白输入数据是通过K-临近方法计算获得的。
20.根据权利要求18所述的系统,其特征在于,所述预测模型是基于LASSO学习模型确认的,所述样本来源于肿瘤患者的阈值为0.9;
优选地,基于预测模型,确定所述待测样本来源于肿瘤患者的概率,所述概率大于0.9是所述待测样本来源于肿瘤患者的指示。
CN201910537819.4A 2019-06-20 2019-06-20 基于蛋白标记物与人工智能的癌症筛查方法 Pending CN111370061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537819.4A CN111370061A (zh) 2019-06-20 2019-06-20 基于蛋白标记物与人工智能的癌症筛查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537819.4A CN111370061A (zh) 2019-06-20 2019-06-20 基于蛋白标记物与人工智能的癌症筛查方法

Publications (1)

Publication Number Publication Date
CN111370061A true CN111370061A (zh) 2020-07-03

Family

ID=71212222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537819.4A Pending CN111370061A (zh) 2019-06-20 2019-06-20 基于蛋白标记物与人工智能的癌症筛查方法

Country Status (1)

Country Link
CN (1) CN111370061A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037852A (zh) * 2020-09-01 2020-12-04 复旦大学附属中山医院 一种t1期结直肠癌淋巴结转移预测方法和系统
CN112885409A (zh) * 2021-01-18 2021-06-01 吉林大学 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN113537285A (zh) * 2021-06-08 2021-10-22 内蒙古卫数数据科技有限公司 一种利用患者历史比对数据基于机器学习技术的新型临床错配样本识别方法
EP3971910A1 (en) * 2020-09-21 2022-03-23 Thorsten Kaiser Method for predicting markers which are characteristic for at least one medical sample and /or for a patient

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102128876A (zh) * 2010-12-22 2011-07-20 浙江大学 筛选胰腺癌的血清蛋白质谱模型及其构建方法
CN106407742A (zh) * 2016-08-26 2017-02-15 赵毅 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法
CN107292114A (zh) * 2017-06-28 2017-10-24 中日友好医院 一种孤立性肺结节恶性概率预测模型的建立方法
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN108446848A (zh) * 2018-03-21 2018-08-24 北京理工大学 个体网络安全意识分级量化评价方法
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
CN109097471A (zh) * 2018-08-21 2018-12-28 杭州和壹基因科技有限公司 一种用于结直肠癌及癌前病变检测的试剂盒及其使用方法
WO2019018374A1 (en) * 2017-07-17 2019-01-24 University Of Pittsburgh-Of The Commonwealth System Of Higher Education DIAGNOSTIC AND PROGNOSTIC TESTING FOR MULTIPLE TYPES OF CANCER BASED ON TRANSCRIPT PROFILING

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102128876A (zh) * 2010-12-22 2011-07-20 浙江大学 筛选胰腺癌的血清蛋白质谱模型及其构建方法
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
CN106407742A (zh) * 2016-08-26 2017-02-15 赵毅 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法
CN107292114A (zh) * 2017-06-28 2017-10-24 中日友好医院 一种孤立性肺结节恶性概率预测模型的建立方法
WO2019018374A1 (en) * 2017-07-17 2019-01-24 University Of Pittsburgh-Of The Commonwealth System Of Higher Education DIAGNOSTIC AND PROGNOSTIC TESTING FOR MULTIPLE TYPES OF CANCER BASED ON TRANSCRIPT PROFILING
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN108446848A (zh) * 2018-03-21 2018-08-24 北京理工大学 个体网络安全意识分级量化评价方法
CN109097471A (zh) * 2018-08-21 2018-12-28 杭州和壹基因科技有限公司 一种用于结直肠癌及癌前病变检测的试剂盒及其使用方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037852A (zh) * 2020-09-01 2020-12-04 复旦大学附属中山医院 一种t1期结直肠癌淋巴结转移预测方法和系统
EP3971910A1 (en) * 2020-09-21 2022-03-23 Thorsten Kaiser Method for predicting markers which are characteristic for at least one medical sample and /or for a patient
CN112885409A (zh) * 2021-01-18 2021-06-01 吉林大学 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN112885409B (zh) * 2021-01-18 2023-03-24 吉林大学 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN113537285A (zh) * 2021-06-08 2021-10-22 内蒙古卫数数据科技有限公司 一种利用患者历史比对数据基于机器学习技术的新型临床错配样本识别方法

Similar Documents

Publication Publication Date Title
Khosravi et al. Deep convolutional neural networks enable discrimination of heterogeneous digital pathology images
US20240112811A1 (en) Methods and machine learning systems for predicting the likelihood or risk of having cancer
CN111370061A (zh) 基于蛋白标记物与人工智能的癌症筛查方法
CN110716043B (zh) 一种用于乳腺癌早期筛查和诊断的血清蛋白标志物、试剂盒及检测方法
US10725017B2 (en) Prediction of therapeutic response using vibrational spectroscopy
CN112071363B (zh) 胃黏膜病变蛋白质分子分型、病变进展及胃癌相关蛋白标志物、预测病变进展风险的方法
US20170059581A1 (en) Methods for diagnosis and prognosis of inflammatory bowel disease using cytokine profiles
US20210310075A1 (en) Cancer Classification with Synthetic Training Samples
CN115798712B (zh) 一种诊断待测者是否是乳腺癌的系统以及生物标志物
CN111833963A (zh) 一种cfDNA分类方法、装置和用途
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN107849613A (zh) 用于肺癌分型的方法
CN113421608A (zh) 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
WO2015042454A1 (en) Compositions, methods and kits for diagnosis of lung cancer
Cao et al. Two classifiers based on serum peptide pattern for prediction of HBV-induced liver cirrhosis using MALDI-TOF MS
CN112397153A (zh) 一种用于预测食管鳞癌预后的生物标志物的筛选方法
Wiemer et al. Bioinformatics in proteomics: application, terminology, and pitfalls
CN114822827A (zh) 一种慢性阻塞性肺疾病急性加重预测系统和预测方法
WO2020250995A1 (ja) 罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム
CN110780070B (zh) 一种用于检测癌症化疗敏感性的血浆蛋白分子、应用及试剂盒
CN112382341A (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
CN115792247B (zh) 蛋白组合在制备甲状腺乳头状癌风险辅助分层系统中的应用
WO2023102786A1 (zh) 基因标志物在预测孕妇早产风险中的应用
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703