CN110781915A - 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法 - Google Patents

一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法 Download PDF

Info

Publication number
CN110781915A
CN110781915A CN201910877225.8A CN201910877225A CN110781915A CN 110781915 A CN110781915 A CN 110781915A CN 201910877225 A CN201910877225 A CN 201910877225A CN 110781915 A CN110781915 A CN 110781915A
Authority
CN
China
Prior art keywords
indicator
colorectal cancer
combination
support vector
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910877225.8A
Other languages
English (en)
Other versions
CN110781915B (zh
Inventor
孙子奎
宣涛
梁覃斯
蔡庆乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Original Assignee
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd filed Critical SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority to CN201910877225.8A priority Critical patent/CN110781915B/zh
Publication of CN110781915A publication Critical patent/CN110781915A/zh
Application granted granted Critical
Publication of CN110781915B publication Critical patent/CN110781915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法,其特征在于,通过选择ΔCt值作为基础数值,选择指示菌与便潜血FIT(拟合)指标的组合作为指示指标;以及基于支持向量机方法和核函数、惩罚系数、gamma值的参数和相应的模型的优化测试来获得更为准确的结直肠癌鉴别方法。本发明的有益效果在于:本发明的SVM优化算法结合优选的指示菌引物组合与便潜血FIT指标组合较便潜血FIT检测准确度高;较未经优化的SVM算法鉴别准确度高;较未经优化的指示菌引物组合与便潜血FIT指标组合准确度高。

Description

一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的 方法
技术领域
本发明属于基因检测领域,具体涉及一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法。
背景技术
结直肠癌是危害人们健康的第四大癌症,死亡率位居第二。已有研究表明人们的日常饮食及营养状况能影响结直肠癌发生发展。不良的饮食习惯可通过损伤宿主的DNA、调节肠道微生物的组成及代谢、干扰肠道功能性屏障的形成等方式直接影响宿主的免疫反应导致肠道炎症的发生。另外,肠道菌群也可直接影响人们患肠道疾病的敏感性。结直肠癌组织及邻近的肠粘膜内微生物组成的巨大变化即微生态失调与结直肠癌的发生发展密切相关。
已有研究表明,在结直肠癌患者的粪便及结肠黏膜中存在大量的具核梭杆菌(Fusobacterium nucleatum,简称Fn),该菌可通过FadA抗原与E-钙粘着蛋白结合激活Wnt信号转导途径导致细胞异常增殖、微卫星不稳定。
Fn也可通过与肠道上皮细胞受体TLR4、MyD88相互作用引起炎症反应来促进肿瘤的发生。此外,一种能够产生由聚酮合酶岛基因编码的colibactin物质的大肠杆菌也与结直肠癌发生发展有关,该菌产生的colibactin在引起宿主DNA损伤的同时,可通过与细胞衰老凋亡相关的干细胞生长因子的相互作用引起上皮细胞的异常增殖。
另外,研究表明产肠毒素的脆弱拟杆菌(Enterotoxigenic Bacteroidesfragilis)一方面通过分泌精氨氧化酶代谢产生活性氧引起宿主DNA损伤,另一方面通过引起炎症反应影响结直肠癌的发生。
其它的一些肠道微生物也可通过引起炎症反应参与肿瘤的发生。通过对结直肠癌患者及高危腺瘤患者的肿瘤组织及周边正常组织黏膜中微生物组成的对比研究发现,40%的患者中肿瘤组织及附近正常组织黏膜中微生物组成相似,表明肠道微生态失调可能是癌变前的一个重要标志。
因此通过对粪便中这些与结直肠癌发生发展相关的微生物丰度异常进行检测,并提高相关结直肠癌指示菌的检测的灵敏度和精度,可以协助后期临床上对于更加准确鉴别结直肠癌提供客观性参考和帮助。
发明内容
为了克服现有技术所存在的缺陷,本发明的目的在于提供一种通过优选与结直肠癌发生发展相关的微生物,使用支持向量机算法判断微生物丰度异常进而提高相关结直肠癌指示菌的检测的灵敏度和精度,从而间接提高后期鉴别结直肠癌特异性和灵敏度的方法。
为了实现本发明的目的,所采用的技术方案是:
一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法,包括如下步骤:
步骤一:规范输入参考集数据文件格式为csv格式;
步骤二:读取数据,筛选需要使用的指标,选择ΔCt值作为基础数值,选择指示菌与FIT(拟合)指标的组合作为指示指标;
步骤三:在所有参考样本中,取70%的样本作为训练集,剩下的作为验证集;
步骤四:选择支持向量机方法,初始化分类器;
步骤五:使用训练集进行支持向量机算法的参数选优和训练;所述参数包括:核函数、惩罚系数、gamma值;
步骤六:使用上一步选优得到的包括核函数、惩罚系数、gamma值的参数和相应的模型,利用验证集里的特征数据进行预测,得到验证集的预测结果;
步骤七:根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整;
步骤八:按照规范输入待检测样本的数据文件,用上述通过指示菌和核函数、惩罚系数、gamma值优选后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。
在本发明的一个优选实施例中,所述指示菌为具核梭杆菌(F.nucleatum)、厌氧消化链球菌(P.anaerobius)、共生梭菌(C.symbiosum)、不解糖卟啉单胞菌(P.asaccharolytica)、中间普氏菌(P.intermedia)、脆弱类杆菌(B.fragilis)、唾液链球菌(S.salivarius)的组合。
在本发明的一个优选实施例中,所述指示菌的组合的序列如SEQ NO.1-14所示。
在本发明的一个优选实施例中,所述第五步的选优具体是:将惩罚系数C设为7个等级:0.001,0.01,0.1,1,10,100,1000;将gamma值设为8个等级:0.00001,0.0001,0.001,0.1,1,10,100,1000;再在他们适用范围内进行网格组合测试。
在本发明的一个优选实施例中,所述选优后得到的包括核函数、惩罚系数、gamma值的参数为:C:100,gamma:0.001,kernel:高斯核。
本发明的有益效果在于:
本发明的SVM优化算法结合优选的指示菌引物组合与便潜血FIT指标组合较便潜血FIT检测准确度高;较未经优化的SVM算法鉴别准确度高;较未经优化的指示菌引物组合与便潜血FIT指标组合准确度高。
附图说明
图1为现有技术的逻辑参考图。
图2为本发明的逻辑参考图(1)。
图3为本发明的逻辑参考图(2)。
图4为本发明的逻辑参考图(3)。
图5为本发明的逻辑参考图(4)。
具体实施方式
“指示菌”一词可用于任一群在分类学、生理学或生态学上相似的微生物,它们的存在与否可指示样品在过去或现在所具有的而不能直接证明的某些特征。比如卫生指示菌。这里的指示菌特指可用于鉴别结直肠癌的细菌。
SVM算法(支持向量机算法),英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器。
实施例1:SVM算法结合指示菌引物组合与便潜血FIT指标组合较便潜血FIT检测准确度高
1检测粪便中9种肠道菌丰度和大便隐血检测结果
1.1样本来源
通过合作关系收集2017年1月1日到2018年6月30日辽宁省肿瘤医院肛肠科结直肠癌患者及肠镜检查为健康人群的粪便样本1086例。
1.2标本提取
使用粪便收集盒,撕下背胶,套入塑料袋;将盒子粘贴到马桶上,将粪便排泄到粪便收集盒中;采样勺子取样(约5勺粪便)至粪便保存管中,后用力拧紧管盖;将粪便保存管装入自封口带,-80℃保存备用。
用天根细菌基因组DNA提取试剂盒(DP302)提取样本中的细菌基因组DNA,-20℃保存备用。
1.3合成PCR扩增引物
利用生物信息学知识和DNAstar等相关生物信息学软件,对Genbank数据库中所能检索到的粪便中7种肠道菌基因核酸序列进行基因序列比对分析,选定目标区域的特异性序列,设计出针对粪便中7种肠道菌及内参16s rRNA的相应特异性基因片段的PCR引物(见表1)。
表1引物序列
Figure BDA0002204748920000061
注:引物名称以基因对应的外显子编号命名;F代表上游引物,R代表下游引物。
1.4准备混合PCR引物工作液
(1)合成的每个PCR引物分别用双蒸水配制成100μmol/L的储存液;
(2)将引物配对并分为10组,每组1对引物,
第一组为引物组合I:分别取F.nucleatum-F,F.nucleatum-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液I;
第二组为引物组合II:分别取P.anaerobius-F,P.anaerobius-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液II;
第三组为引物组合III:分别取C.symbiosum-F,C.symbiosum-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液III;
第四组为引物组合Ⅳ:分别取P.asaccharolytica-F,P.asaccharolytica-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液Ⅳ;
第五组为引物组合Ⅴ:分别取P.intermedia-F,P.intermedia-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液Ⅴ;
第六组为引物组合Ⅵ:分别取B.fragilis-F,B.fragilis-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液Ⅵ;
第七组为引物组合Ⅶ:分别取S.salivarius-F,S.salivarius-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液Ⅶ;
第八组为引物组合Ⅷ:分别取16s rRNA-F,16s rRNA-R对应的PCR引物储存液各10μl加入到同一1.5ml Eppendorf管中,再加入80μl的双蒸水即为混合PCR引物工作液Ⅷ。
1.5PCR扩增反应:
(1)PCR反应体系:PCR扩增反应体系为20μl,其中包括2×qPCR SYBR GreenMaster Mix 10μl,混合PCR引物工作液I(或混合PCR引物工作液II或混合PCR引物工作液III或混合PCR引物工作液Ⅳ或混合PCR引物工作液Ⅴ或混合PCR引物工作液Ⅵ或混合PCR引物工作液Ⅶ或混合PCR引物工作液Ⅷ)1μl,样本(DNA)30ng,补ddH2O至终体积为20μl;
(2)PCR反应程序:95℃30sec→95℃5sec、60℃34sec、(40个循环)→95℃15sec、60℃60sec(熔解曲线)→4℃保温。
1.6数据分析
目标肠道菌丰度计算采用扩增曲线阈值线(Ct)计算法,通过16srRNA进行标准化,即ΔCt=Ct16srRNA-Cttaget
1.7大便隐血检测(胶体金法)
将大便隐血检测试剂盒(胶体金法)检测试剂条及B管样本提前平衡至室温;每个样本准备一个样本处理管,并在处理管中加入600ul蒸馏水;用取样棒随机从粪便样本的不同部位取样,取样量以沾满取样棒前端的小圆环为准,将样本在处理管中搅拌均匀,使样本与蒸馏水完全混合;将检测试剂条加样的一端竖直进入样本混合液中,注意不能浸没试剂条MAX线以上,浸入15秒后取出试剂条水平放于桌面上;在3~5分钟内观察结果、记录并拍照。
2.结直肠癌鉴别方法比较
2.1使用便潜血FIT判读法进行结直肠癌鉴别:根据大便隐血检测结果进行结直肠癌鉴别,判读标准及等级划分为(见逻辑图1):
(1)便潜血结果(-):结直肠癌鉴别(-)
(2)便潜血结果(+):结直肠癌鉴别(+)
2.2使用支持向量机算法鉴别结直肠癌:
2.2.1规范粪便处理结果
规范输入参考集数据文件格式,第一列为样本编号,第二列到第八列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7的ΔCt数值,第九列为便隐血结果,第十列为样本信息。文件格式为csv格式。
2.2.2读取csv文件,筛选指示指标
基于指示菌ΔCt值和便潜血FIT判断值两种数据类型采用支持向量机算法对各样本进行分析,如逻辑图2、逻辑图3。
2.2.3划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
2.2.4模型优选以及参数调优
比较了默认参数的线性回归、支持向量机、以及极致梯度提升的方法,最终选择了准确度较高的支持向量机方法。初始化支持向量机分类器。
支持向量机有线性核参数、多项式核函数、高斯径向基函数核(RBF核)参数等,我们选取效力较好的线性核参数、高斯核参数进行网格法进行重要参数优选。
第一个重要参数C是惩罚系数,C越大,越不能接受误差,越接近训练集,容易过拟合;反之,C过小,容易欠拟合。将C的设为7个等级。
另一个重要参数是g参数(RBF核中的gamma值),g越大,会使高斯分布集中,过于拟合至支持向量,即过拟合,容易出现训练集准确率高但验证集准确率不高的情况;g越小,高斯分布会更分散,模型会更平滑,但是训练集的准确性不容易提高。我们将g设为8个等级。
参数C是惩罚系数,C越大,越不能接受误差,越接近训练集,容易过拟合;反之,C过小,容易欠拟合。
将惩罚系数C设为7个等级:0.001,0.01,0.1,1,10,100,1000。高斯核的一个重要参数是gamma值,将其设为8个等级:0.00001,0.0001,0.001,0.1,1,10,100,1000。
对线性核和高斯核、7个惩罚系数等级和8个gamma值,在他们适用范围内进行网格组合测试,得到最优参数为:C:100,gamma:0.001,kernel:高斯核,判断逻辑如逻辑图4所示。
2.2.5使用验证集进行验证
使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里的样本的指示数据进行预测,得到验证集的预测结果,如逻辑图4。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。本方法准确性统计如下表2。
表2
方法 敏感度 特异性
支持向量机 92.9% 92.6%
2.2.6检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
现有的传统的便潜血FIT检测方法经常存在误判问题,本发明的方法与传统便潜血FIT检测方法的对比数据见表3。
表3
样本编号 判断结果(便潜血FIT) 判断结果(SVM) 样本实际信息
C47 - + 肿瘤患者粪便
由表3可知,本发明的方法能够克服便潜血FIT判断方法当中的误判,从而避免漏诊。
敏感度代表检测的灵敏度,是本检测中最重要的指标。由表4可知,与便潜血FIT判断方法相比,本发明的SVM算法在特异性无太大差异的情况下敏感度提高了11.1%。
表4
方法 敏感度 特异性
便潜血FIT判断方法 81.8% 95.2%
支持向量机 92.9% 92.6%
实施例2:支持向量机方法检测模型参数优化
1.对粪便进行处理
本实施例中具体实验步骤与实施例1中的实验步骤相同。收集健康人和结直肠癌患者的粪便,提取细菌基因组,用16s rRNA引物进行PCR,扩增曲线阈值线(Ct)计算法记录数值。另外进行便隐血检测。
2.规范粪便处理结果
本实施例中具体结果处理与实施例1中的步骤相同。规范输入参考集数据文件格式,第一列为样本编号,第二列到第八列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7的ΔCt数值,第九列为便隐血结果,第十列为样本信息。文件格式为csv格式。
3.读取csv文件,筛选指示指标
本实施例中具体筛选步骤与实施例1中的步骤相同。
4.划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
5.模型优选以及参数调优
本实施例中具体步骤与实施例1中的步骤相同。
6.使用验证集进行验证
本实施例中具体验证与实施例1中的步骤相同。使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里样本的指示数据进行预测,得到验证集的预测结果。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。
7.检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
将本申请中优选的参数组合和对比参数组合进行对比,数据见表5:
由表5可知,本申请的优选参数组合能够更准确进行结直肠癌鉴别。
表5
样本编号 优选参数组合 对比参数组合1 对比参数组合2 样本实际信息
C236 + - - 肿瘤患者粪便
C282 + - - 肿瘤患者粪便
C259 + - + 肿瘤患者粪便
模型参数组合准确率对比见表6,可见本申请的参数组合的特异性和敏感度均较高,这说明本申请的检出率更高,且检出效果更好。
表6
方法 敏感度 特异性
对比参数组合1 82.2% 86.4%
对比参数组合2 85.1% 88.7%
优选参数组合 92.9% 92.6%
实施例3:支持向量机方法检测菌种组合优选1
1.对粪便进行处理
本实施例中具体实验步骤与实施例1中的实验步骤略有不同。本实施例中检测9种指示菌组合,比较9种指示菌组合与本发明所述7种优选指示菌鉴别结直肠癌的性能。其余实验步骤与实施例1相同。
组合收集健康人和结直肠癌患者的粪便,提取细菌基因组,用16s rRNA引物进行PCR,扩增曲线阈值线(Ct)计算法记录数值。另外进行便隐血检测。
9种指示菌引物序列如下:
表7
Figure BDA0002204748920000161
注:引物名称以基因对应的外显子编号命名;F代表上游引物,R代表下游引物。
2.规范粪便处理结果
规范输入参考集数据文件格式,第一列为样本编号,第二列到第十列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7、指示菌8、指示菌9的ΔCt数值,第十一列为便隐血结果,第十二列为样本信息。文件格式为csv格式。
3.读取csv文件,筛选指示指标
本实施例中具体筛选步骤与实施例2中的步骤相同。
4.划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
5.模型优选以及参数调优
本实施例中具体参数调优等步骤与实施例1中的步骤相同。
6.使用验证集进行验证
本实施例中具体验证与实施例1中的步骤相同。使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里样本的指示数据进行预测,得到验证集的预测结果。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。
7.检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
将本申请中优选的参数组合和对比参数组合进行对比,数据见表8:
将本申请的7个菌的组合作为优选组合,指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7、指示菌8、指示菌9为另一个对比组合,通过菌种所涉及的引物组合实施例对比。
由表8可知,在增加两个指示菌的情况下,对比组合的敏感度无明显提高,本优选组合更适合实际使用。
表8
方法 敏感度 特异性
对比组合 92.9% 92.8%
优选组合 92.9% 92.6%
实施例4:支持向量机方法检测菌种组合优选2
1.对粪便进行处理
本实施例中具体实验步骤与实施例1中的实验步骤相同。收集健康人和结直肠癌患者的粪便,提取细菌基因组,用16s rRNA引物进行PCR,扩增曲线阈值线(Ct)计算法记录数值。另外进行便隐血检测。
2.规范粪便处理结果
本实施例中具体结果处理与实施例1中的步骤相同。规范输入参考集数据文件格式,第一列为样本编号,第二列到第八列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7、的ΔCt数值,第九列为便隐血结果,第十列为样本信息。文件格式为csv格式。
3.读取csv文件,筛选指示指标
本实施例中具体筛选步骤与实施例1中的步骤相同。
4.划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
5.模型优选以及参数调优
本实施例中具体参数调优等步骤与实施例1中的步骤相同。
6.使用验证集进行验证
本实施例中具体验证与实施例1中的步骤相同。使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里样本的指示数据进行预测,得到验证集的预测结果。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。
7.检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
将本申请中优选的参数组合和对比参数组合进行对比,数据见表9:
将本申请的7个菌的组合作为优选组合,指示菌2为另一个对比组合,通过菌种所涉及的引物组合实施例对比。
由表9可知,本申请的优选组合敏感度更高,这说明对于比较难以检测的样本,其更容易检测出结果。
表9
方法 敏感度 特异性
对比组合 82.3% 87.5%
优选组合 92.9% 92.6%
实施例5:支持向量机方法检测菌种组合优选3
1.对粪便进行处理
本实施例中具体实验步骤与实施例1中的实验步骤相同。收集健康人和结直肠癌患者的粪便,提取细菌基因组,用16s rRNA引物进行PCR,扩增曲线阈值线(Ct)计算法记录数值。另外进行便隐血检测。
2.规范粪便处理结果本实施例中具体结果处理与实施例1中的步骤相同。规范输入参考集数据文件格式,第一列为样本编号,第二列到第八列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7、的ΔCt数值,第九列为便隐血结果,第十列为样本信息。文件格式为csv格式。
3.读取csv文件,筛选指示指标
本实施例中具体筛选步骤与实施例1中的步骤相同。
4.划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
5.模型优选以及参数调优
本实施例中具体参数调优等步骤与实施例1中的步骤相同。
6.使用验证集进行验证
本实施例中具体验证与实施例1中的步骤相同。使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里样本的指示数据进行预测,得到验证集的预测结果。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。
7.检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
将本申请中优选的参数组合和对比参数组合进行对比,数据见表10:
将本申请的7个菌的组合作为优选组合,指示菌3、指示菌5、指示菌7为另一个对比组合,通过菌种所涉及的引物组合实施例对比。
由表10可知,本申请的优选组合敏感度更高,这说明对于比较难以检测的样本,其更容易检测出结果。
表10
方法 敏感度 特异性
对比组合 84.2% 89.5%
优选组合 92.9% 92.6%
实施例6:支持向量机方法检测菌种组合优选4
1.对粪便进行处理
本实施例中具体实验步骤与实施例1中的实验步骤相同。收集健康人和结直肠癌患者的粪便,提取细菌基因组,用16s rRNA引物进行PCR,扩增曲线阈值线(Ct)计算法记录数值。另外进行便隐血检测。
2.规范粪便处理结果
本实施例中具体结果处理与实施例1中的步骤相同。规范输入参考集数据文件格式,第一列为样本编号,第二列到第八列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7、的ΔCt数值,第九列为便隐血结果,第十列为样本信息。文件格式为csv格式。
3.读取csv文件,筛选指示指标
本实施例中具体筛选步骤与实施例1中的步骤相同。
4.划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
5.模型优选以及参数调优
本实施例中具体参数调优等步骤与实施例1中的步骤相同。
6.使用验证集进行验证
本实施例中具体验证与实施例1中的步骤相同。使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里样本的指示数据进行预测,得到验证集的预测结果。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。
7.检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
将本申请中优选的参数组合和对比参数组合进行对比,数据见表11:
将本申请的7个菌的组合作为优选组合,指示菌3、指示菌4、指示菌5、指示菌7为另一个对比组合,通过菌种所涉及的引物组合实施例对比。
由表11可知,本申请的优选组合敏感度更高,这说明对于比较难以检测的样本,其更容易检测出结果。
表11
Figure BDA0002204748920000231
实施例7:支持向量机方法检测菌种组合优选5
1.对粪便进行处理
本实施例中具体实验步骤与实施例1中的实验步骤相同。收集健康人和结直肠癌患者的粪便,提取细菌基因组,用16s rRNA引物进行PCR,扩增曲线阈值线(Ct)计算法记录数值。另外进行便隐血检测。
2.规范粪便处理结果
本实施例中具体结果处理与实施例1中的步骤相同。规范输入参考集数据文件格式,第一列为样本编号,第二列到第八列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7的ΔCt数值,第九列为便隐血结果,第十列为样本信息。文件格式为csv格式。
3.读取csv文件,筛选指示指标
本实施例中具体筛选步骤与实施例1中的步骤相同。
4.划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
5.模型优选以及参数调优
本实施例中具体参数调优等步骤与实施例1中的步骤相同。
6.使用验证集进行验证
本实施例中具体验证与实施例1中的步骤相同。使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里样本的指示数据进行预测,得到验证集的预测结果。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。
7.检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
将本申请中优选的参数组合和对比参数组合进行对比,数据见表12:
将本申请的7个菌的组合作为优选组合,指示菌1、指示菌4、指示菌5、指示菌6、指示菌7为另一个对比组合,通过菌种所涉及的引物组合实施例对比。
由表12可知,本申请的优选组合敏感度更高,这说明对于比较难以检测的样本,其更容易检测出结果。
表12
方法 敏感度 特异性
对比组合 87.2% 90.1%
优选组合 92.9% 92.6%
实施例8:支持向量机方法检测菌种组合优选6
1.对粪便进行处理
本实施例中具体实验步骤与实施例3中的实验步骤相同。收集健康人和结直肠癌患者的粪便,提取细菌基因组,用16s rRNA引物进行PCR,扩增曲线阈值线(Ct)计算法记录数值。另外进行便隐血检测。
2.规范粪便处理结果
本实施例中具体结果处理与实施例3中的步骤相同。规范输入参考集数据文件格式,第一列为样本编号,第二列到第十列为指示菌1、指示菌2、指示菌3、指示菌4、指示菌5、指示菌6、指示菌7、指示菌8、指示菌9的ΔCt数值,第十一列为便隐血结果,第十二列为样本信息。文件格式为csv格式。
3.读取csv文件,筛选指示指标
本实施例中具体筛选步骤与实施例3中的步骤相同。
4.划分训练集与验证集
取1086个已知样本参考集,再随机取其中760个用来训练参数等,326个样本用来验证训练的效果。
5.模型优选以及参数调优
本实施例中具体参数调优等步骤与实施例3中的步骤相同。
6.使用验证集进行验证
本实施例中具体验证与实施例3中的步骤相同。使用上一步得到的最优参数,包括最优核(高斯核)、最优惩罚系数(100)和最优gamma值(0.001)和对应的模型,利用验证集里样本的指示数据进行预测,得到验证集的预测结果。
根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性,再根据使用场景进行敏感度和特异性的调整。
7.检测待检测样本
按照规范输入待检测样本的数据文件,用上述优选指示菌等指标以及优选核函数优选惩罚系数优选gamma值后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。如逻辑图5。
将本申请中优选的参数组合和对比参数组合进行对比,数据见表13:
将本申请的7个菌的组合作为优选组合,指示菌3、指示菌4、指示菌5、指示菌6、指示菌7、指示菌8、指示菌9为另一个对比组合,通过菌种所涉及的引物组合实施例对比。
由表13可知,本申请的优选组合敏感度更高,这说明对于比较难以检测的样本,其更容易检测出结果。
表13
方法 敏感度 特异性
对比组合 89.4% 92.7%
优选组合 92.9% 92.6%
综上,本发明的主要创新点在于:
1.SVM算法更充分地利用了检测结果信息。以前的鉴别方法是将便潜血FIT检测结果作为结直肠癌鉴别标准。本算法直接使用ΔCt值及便潜血FIT检测组合,信息分辨率更高。(这里的ΔCt值表征的是细菌丰度高低)。
2.基于结直肠癌的数据,优选了指示菌组合,节省了成本。
3.基于结直肠癌的数据,优选了数据模型以及核函数、惩罚系数、gamma值。
4.SVM算法结论更明确,避免了多个指示菌和便潜血的判断对客户的困扰。
序列表
<110> 上海派森诺生物科技股份有限公司
<120> 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法
<130> 20190917
<160> 20
<170> SIPOSequenceListing 1.0
<210> 1
<211> 29
<212> DNA
<213> F. nucleatum
<400> 1
caaccattac tttaactcta ccatgttca 29
<210> 2
<211> 32
<212> DNA
<213> F. nucleatum
<400> 2
ttgactttac tgagggagat tatgtaaaaa tc 32
<210> 3
<211> 25
<212> DNA
<213> P. anaerobius
<400> 3
agacgaattc aagtcagtaa ataca 25
<210> 4
<211> 22
<212> DNA
<213> P. anaerobius
<400> 4
ctcctatcca ccaggatatc aa 22
<210> 5
<211> 19
<212> DNA
<213> C. symbiosum
<400> 5
gtgagatgat gtgccaggc 19
<210> 6
<211> 20
<212> DNA
<213> C. symbiosum
<400> 6
taccggttgc ttcgtcgatt 20
<210> 7
<211> 22
<212> DNA
<213> P. asaccharolytica
<400> 7
tcgaccacat agagctaagc ac 22
<210> 8
<211> 21
<212> DNA
<213> P. asaccharolytica
<400> 8
tcctcgactt tcataccgtc t 21
<210> 9
<211> 25
<212> DNA
<213> P. intermedia
<400> 9
cgtggaccaa agattcatcg gtgga 25
<210> 10
<211> 20
<212> DNA
<213> P. intermedia
<400> 10
ccgctttact ccccaacaaa 20
<210> 11
<211> 20
<212> DNA
<213> B. fragilis
<400> 11
cagcgtatta agagccgttt 20
<210> 12
<211> 24
<212> DNA
<213> B. fragilis
<400> 12
tgagtttggt ggtagtatct tctg 24
<210> 13
<211> 20
<212> DNA
<213> S. salivarius
<400> 13
ttcgcttccc agaatcaagt 20
<210> 14
<211> 20
<212> DNA
<213> S. salivarius
<400> 14
aaacgaccag ccagcaattc 20
<210> 15
<211> 17
<212> DNA
<213> 16s rRNA
<400> 15
ggtgaatacg ttcccgg 17
<210> 16
<211> 22
<212> DNA
<213> 16s rRNA-R
<400> 16
tacggctacc ttgttacgac tt 22
<210> 17
<211> 20
<212> DNA
<213> P. micra
<400> 17
tagtcgtatg ccatagaccc 20
<210> 18
<211> 19
<212> DNA
<213> P. micra
<400> 18
tcggtaatgt ctaacaccc 19
<210> 19
<211> 24
<212> DNA
<213> E.faecalis
<400> 19
cccttattgt tagttgccat catt 24
<210> 20
<211> 21
<212> DNA
<213> E.faecalis
<400> 20
actcgttgta cttcccattg t 21

Claims (5)

1.一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法,其特征在于,包括如下步骤:
步骤一:规范输入参考集数据文件格式为csv格式;
步骤二:读取数据,筛选需要使用的指标,选择ΔCt值作为基础数值,选择指示菌与FIT(拟合)指标的组合作为指示指标;
步骤三:在所有参考样本中,取70%的样本作为训练集,剩下的作为验证集;
步骤四:选择支持向量机方法,初始化分类器;
步骤五:使用训练集进行支持向量机算法的参数选优和训练;所述参数包括:核函数、惩罚系数、gamma值;
步骤六:使用上一步选优得到的包括核函数、惩罚系数、gamma值的参数和相应的模型,利用验证集里的特征数据进行预测,得到验证集的预测结果;
步骤七:根据验证集的预测结果和真实结果对比,计算出本方法的敏感度和特异性;
步骤八:按照规范输入待检测样本的数据文件,用上述通过指示菌和核函数、惩罚系数、gamma值优选后的方法进行分析,输出结直肠癌鉴别结果文件和检测报告。
2.如权利要求1所述的一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法,其特征在于,所述的指示菌为对具核梭杆菌(F.nucleatum)、厌氧消化链球菌(P.anaerobius)、共生梭菌(C.symbiosum)、不解糖卟啉单胞菌(P.asaccharolytica)、中间普氏菌(P.intermedia)、脆弱类杆菌(B.fragilis)、唾液链球菌(S.salivarius)的组合。
3.如权利要求2所述的一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法,其特征在于,所述指示菌的组合的序列如SEQ NO.1-14所示。
4.如权利要求1所述的一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法,其特征在于,所述第五步的选优具体是:将惩罚系数C设为7个等级:0.001,0.01,0.1,1,10,100,1000;将gamma值设为8个等级:0.00001,0.0001,0.001,0.1,1,10,100,1000;再在他们适用范围内进行网格组合测试。
5.如权利要求1所述的一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法,其特征在于,所述选优后得到的包括核函数、惩罚系数、gamma值的参数为:C:100,gamma:0.001,kernel:高斯核。
CN201910877225.8A 2019-09-17 2019-09-17 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法 Active CN110781915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910877225.8A CN110781915B (zh) 2019-09-17 2019-09-17 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910877225.8A CN110781915B (zh) 2019-09-17 2019-09-17 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法

Publications (2)

Publication Number Publication Date
CN110781915A true CN110781915A (zh) 2020-02-11
CN110781915B CN110781915B (zh) 2023-06-20

Family

ID=69383557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910877225.8A Active CN110781915B (zh) 2019-09-17 2019-09-17 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法

Country Status (1)

Country Link
CN (1) CN110781915B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111334590A (zh) * 2020-02-20 2020-06-26 南京派森诺基因科技有限公司 一种鉴别结直肠癌的试剂盒及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049985A1 (en) * 2003-08-28 2005-03-03 Mangasarian Olvi L. Input feature and kernel selection for support vector machine classification
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统
WO2018036503A1 (en) * 2016-08-25 2018-03-01 The Chinese University Of Hong Kong Fecal bacterial markers for colorectal cancer
CN109943636A (zh) * 2019-04-11 2019-06-28 上海宝藤生物医药科技股份有限公司 一种结直肠癌微生物标志物及其应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049985A1 (en) * 2003-08-28 2005-03-03 Mangasarian Olvi L. Input feature and kernel selection for support vector machine classification
WO2018036503A1 (en) * 2016-08-25 2018-03-01 The Chinese University Of Hong Kong Fecal bacterial markers for colorectal cancer
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统
CN109943636A (zh) * 2019-04-11 2019-06-28 上海宝藤生物医药科技股份有限公司 一种结直肠癌微生物标志物及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吕艳伟;李文桓;田伟;陈大方;段芳芳;王立芳;刘志科;: "基于不同核函数构建的退行性颈椎病支持向量机高危人群筛查模型的比较" *
朱悦;吴建华;方颖;: "SVM在冠心病分类预测中的应用研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111334590A (zh) * 2020-02-20 2020-06-26 南京派森诺基因科技有限公司 一种鉴别结直肠癌的试剂盒及其应用

Also Published As

Publication number Publication date
CN110781915B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
Sarangi et al. Methods for studying gut microbiota: a primer for physicians
CN105368944B (zh) 可检测疾病的生物标志物及其用途
CN107574243B (zh) 分子标志物、内参基因及其应用、检测试剂盒以及检测模型的构建方法
CN105219844B (zh) 一种筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型
CN107075563B (zh) 用于冠状动脉疾病的生物标记物
Takahashi et al. Diagnostic classification of schizophrenia by neural network analysis of blood-based gene expression signatures
CN107075446B (zh) 用于肥胖症相关疾病的生物标记物
Weigt et al. Gene expression profiling of bronchoalveolar lavage cells preceding a clinical diagnosis of chronic lung allograft dysfunction
CN101608241B (zh) 用于检测人类K-ras基因突变的引物、探针及其试剂盒
CN107075453B (zh) 冠状动脉疾病的生物标记物
CN105316341A (zh) 一种LncRNA及其在作为前列腺癌检测标记物或前列腺癌预后复发标记物中的应用
CN104968802B (zh) 作为诊断标志物的新miRNA
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN111500705B (zh) IgAN肠道菌群标志物、IgAN代谢物标志物及其应用
Baud et al. Microbial diversity in the vaginal microbiota and its link to pregnancy outcomes
Scannell Bryan et al. Genome-wide association studies and heritability estimates of body mass index related phenotypes in Bangladeshi adults
CN110643721A (zh) 一种检测结直肠癌指示菌的试剂盒
CN111334590A (zh) 一种鉴别结直肠癌的试剂盒及其应用
CN114438214A (zh) 结直肠癌肿瘤标志物及其检测方法与装置
CN115029431A (zh) 一种2型糖尿病基因检测试剂盒以及2型糖尿病遗传风险评估系统
CN109182522B (zh) 用于口腔癌风险预测的微生物群及应用
CN110106250A (zh) 与奶牛围产期代谢疾病抗性相关的分子标记及应用
CN110781915A (zh) 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法
CN105543403A (zh) 水牛泌乳相关基因Leptin作为分子标记的方法及其应用
CN110592204A (zh) 血清miRNA组合作为分子标记物评估非阻塞性无精症

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant