CN113313257A

CN113313257A - 基于质谱分析数据的gbs菌株的克隆复合体分型系统及应用

Info

Publication number: CN113313257A
Application number: CN202110710482.XA
Authority: CN
Inventors: 刘海英; 黄莲芬; 高坎坎; 钟华敏; 邓秋连; 谢永强; 李姿娴; 陈光炼
Original assignee: Guangzhou Women and Childrens Medical Center
Current assignee: Guangzhou Women and Childrens Medical Center
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-08-27

Abstract

本发明公开了基于质谱分析数据的GBS菌株的克隆复合体分型系统及应用。所述分型系统包括：数据收集模块，用于获取GBS菌株蛋白质样本质谱数据；分型模块，用于对质谱数据进行分型处理；所述的分型处理采用基于遗传算法、SVM、KNN、RF、XGB等分类算法或聚类分析方法构建的GBS菌株克隆复合体的识别模型。该系统通过遗传算法等分类算法或聚类分析方法构建GBS菌株常见克隆复合体的自动识别模型，与现有耗时长、操作繁琐、费用昂贵的分子生物学GBS菌株分型方法相比，能够在菌种鉴定的同时，不需花费其他成本且快速分型，尤其是甄别高致病型CC17亚群，具有快速、准确、低成本、高通量，更高的灵敏度和准确率。

Description

基于质谱分析数据的GBS菌株的克隆复合体分型系统及应用

技术领域

本发明涉及生物技术领域，具体而言，涉及基于质谱分析数据的GBS菌株的克隆复合体分型系统及应用。

背景技术

B族链球菌(Group B streptococcus,GBS)，又称无乳链球菌(S.agalactiae)，是围生期重症感染主要致病菌之一，严重威胁母婴安全，可造成胎膜早破、羊膜炎、早产、死胎、产褥感染、新生儿败血症、脑膜炎、中毒性休克、肺炎、早产合并低体重儿或极低体重儿等母婴不良后果。新生儿GBS感染分为早发型感染(EOD，出生1周内发病)和晚发型感染(LOD，出生7d～3个月发病)。EOD患儿常有败血症合并肺炎或合并脑膜炎，发病率为(1～4)/1 000，多为产时垂直传播；LOD患儿以脑膜炎多见，可由产时垂直传播、院内感染或其他因素所致。新生儿GBS感染致死率和致残率高，不少存活儿中留有严重的神经系统后遗症。

细菌分型常用于研究病原菌的分子流行情况，制定合理感控措施，更好的预防和控制相关感染性疾病。GBS菌有多种分型方法，按其荚膜多糖抗原可分为Ⅰa、Ⅰb、Ⅱ～Ⅸ等10种血清型，根据七个保守的管家基因核苷酸序列可进行多位点序列分型(MLST)。MLST已广泛用于GBS分子流行病学研究，在人类中已鉴定出ST型基础上的6个主要克隆复合体(Complex clone,CC)：CC1、CC10/CC12、CC17、CC19、CC23和CC26，其中CC17能表达一种能侵袭脑上皮细胞的高毒力蛋白(HvgA)，而能易于通过患儿血脑屏障引发脑膜炎，被认为是高毒力菌。基质辅助激光解析电离飞行时间质谱(MALDI-TOF MS)技术依据细菌蛋白指纹谱，能在数分钟内快速自动将致病菌鉴定到属、种甚至亚型，具有快速、准确、低成本、高通量的特点，近年来在临床病原微生物鉴定领域应用广泛。该技术对微生物鉴定的理论基础，是将设备采集的未知样品图谱与数据库中已知菌种的图谱进行统计学聚类分析，获得鉴定结果，故此菌种鉴定准确性和特异性高度依赖于MALDI-TOF MS生产厂商或用户预先建立的微生物MALDI-TOF MS图谱数据库的完善性与可靠性。虽然微生物质谱仪厂家随设备提供了完善的微生物GBS种属鉴定用数据库，但是该数据库仅能将GBS准确鉴定种，而不能进行进一步对亚型快速准确分型。MLST分型在流行病学领域广泛应用，但是传统的MLST分型操作方法耗时长、操作繁琐、费用昂贵，不适于临床常规开展。为了探索MALDI-TOF MS技术在GBS细菌亚型快速分型中的潜能，我们研究分析了GBS菌株不同ST型的MALDI-TOF MS蛋白质谱峰谱，发现按MLST分型归类的不同CC群GBS蛋白指纹谱峰统计差异显著，相同的CCs蛋白指纹谱峰统计聚类好(CC10需分成ST10和非S10群)，即GBS菌MALDI-TOF MS蛋白指纹谱呈CC群依赖性类聚。这与2020年基因组学新发现-基因组特征与CCs关联相一致，即具有不同侵袭潜能的GBS菌CCs种群具有不同的毒力和生态学适应基因组特征。已发现279个CC特异性基因，可能参与毒力、疾病、新陈代谢和细胞机制的调节，如CC17和CC23的特征性编码菌毛、群体感应蛋白、摄取离子和微量营养素的蛋白基因。已有与ST型相关的GBS菌MALDI-TOF MS蛋白指纹图研究甚少，仅见GBS菌株ST1和ST-17菌株MALDI-TOF MS特征峰谱的研究，或需要依赖于商业化的蛋白质谱数据统计分析收费软件如CliniProTools，临床应用受限。已有研究显示，不同CCs GBS致病性与毒力不同，临床上强烈需要对其进行快速分型。鉴于GBS菌MALDI-TOF MS蛋白指纹谱呈CC群依赖性类聚，我们利用先进的统计学方法和软件分析系统，在GBS菌MALDI-TOF MS蛋白指纹图中发现了CC特异性差异肽峰谱，并建立CCs分型模型和质谱图数据库(MSP)，用于GBS菌的快速准确CCs临床分型。目前，国内外尚无MALDI-TOF MS蛋白指纹图GBS细菌CCs分型模型/质谱图数据库。

鉴于此，特提出本发明。

发明内容

本发明的目的在于提供一种基于质谱分析数据的GBS菌株克隆复合体(CCs)的分型系统，该分型系统通过遗传算法等分类算法或聚类分析方法构建GBS菌株CC型的识别模型，与现有GBS菌株血清学分型、多位点序列分型(MLST)方法相比，能够快速、准确、低成本、高通量分型常见CC亚型，具有更高的灵敏度和准确率。

由于不同CC分型具有不同的药敏特征，本发明的另一个目的在于，提供上述分型系统在治疗/预防新生儿脑膜炎的GBS菌株CC分型预测以及药物筛选中的指导应用。

本发明是这样实现的：

第一方面，本发明提供基于质谱分析数据的GBS菌株克隆复合体(CCs)的分型系统，所述分型系统用于GBS菌株克隆复合体(CCs)的分型，所述分型系统包括：

数据收集模块，用于获取GBS菌株蛋白质样本质谱数据；

数据处理模块，用于根据处理模型，对数据收集模块获得的质谱数据进行处理；

分型模块，用于根据数据处理模块的处理结果对GBS菌株克隆复合体进行分型；

所述处理模型包括采用基于遗传算法等聚类分析方法构建的GBS菌株克隆复合体的识别模型。

遗传算法是计算数学中用于解决最佳化的搜索算法，是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题，一定数量的候选解(称为个体)的抽象表示(称为染色体)的种群向更好的解进化。传统上，解用二进制表示(即0和1的串)，但也可以用其他表示方法。进化从完全随机个体的种群开始，之后一代一代发生。在每一代中，整个种群的适应度被评价，从当前种群中随机地选择多个个体(基于它们的适应度)，通过自然选择和突变产生新的生命种群，该种群在算法的下一次迭代中成为当前种群。

本发明中可选用的建模算法包括随机森林(Random Forest)、支持向量机(Support Vector Machine,SVM)、遗传算法(GA)、神经网络算法(SNN)、单变量分类算法(QC)和XGB(Extreme Gradient Boosting)算法等。

在可选的实施方式中，所述分型系统还包括数据模型的构建模块，用于构建GBS菌株克隆复合体(CCs)的识别模型；

所述构建模块包括：标本数据获取子模块、建模子模块和验证子模块；

所述标本数据获取子模块，用于获取已知CC型GBS菌株蛋白质样本的质谱数据，并将质谱数据划分为训练集和验证集；所述已知CC型GBS菌株包括CC1(ST1,ST2，ST938)、CC10(ST10)、CC12(ST12，ST8，ST579，ST268)、CC17(ST17,ST188,ST357，ST146，ST680，ST179)、CC19(ST19,ST27，ST138，ST197，ST335)和CC23(ST23，ST55，ST452，ST88，ST163，ST223)共计6种克隆复合体型的GBS菌株中的至少两种；

除上述CC型外，能够采用本发明提供的分型系统进行分型的GBS菌株还可以包括其他CCs，例如ST4、ST24、ST103、ST156、ST249、ST480或ST651中的一种或多种。

所述建模子模块，用于根据训练集，利用遗传算法或聚类分析方法，构建每种CC型GBS菌株的特征峰群和指纹峰群；所述验证子模块，用于利用验证集对特征峰群和指纹峰群进行验证。

上述已知CC型GBS菌株是根据七个保守的管家基因核苷酸序列进行多位点序列分型的(MLST)。所有GBS菌株的培养和鉴定均在各三级中心的临床微生物学实验室进行常规检测，而后用无乳链球菌MLST分型引物经典地进行MLST分型，然后将产物与无乳链球菌MLST在线数据库(http://pubmlst.org/sagalactiae/)中的结果进行序列比较，确定等位基因和序列类型。

上述训练集和验证集的划分，可以在获取菌株之后，质谱检测之前直接对菌株进行划分，也可以在完成质谱检测之后，再依据菌株的分型对质谱检测结果进行划分，验证集和训练集中包含的质谱数据数量比可以为1:1～3，例如1:1、1:2或1:3。

上述指纹峰群的获取原理是建立在微生物鉴定基础上，利用核心图谱建造标准蛋白指纹图谱库，以质谱检测到的离子质荷比(m/z)为横坐标和离子峰强度为纵坐标建立每个分离菌株的指纹图谱，离子峰为菌体内高丰度、表达稳定的核糖体蛋白的质谱检测峰，因此可以依据细菌的蛋白图谱，通过筛选出与细菌临床致病性相关的毒力因子，再根据相关生物标记进行分型，从而确定分离菌株的分子特征。在本发明中以GBS标准菌株ATCC13813为内部质控菌株，以VITEK/Bruker等微生物质谱仪进行GBS纯菌落不同亚型图谱建库，分析不同MLST分型克隆复合体组间(例如CC17、CC10、CC12、CC19或CC23)的指纹图谱，鉴定指示某一分型特征的肽段峰或峰群，建立高致病性CC17型GBS菌或不同CC分型GBS菌株MS快速鉴定模型。

在可选实施方式中，所述建模子模块选定指纹图谱质谱峰中筛选鉴定分值≥2.3分的蛋白质谱谱图进行分型模型构建，以装箱法对训练集谱图峰数据进行降维，选取交叉验证分型准确率最高的峰数装箱，挑取蛋白指纹图谱质谱峰特征；

用UHCA法评估质谱峰装箱的分型准确率，选择交叉验证分型准确率最高的装箱峰数对建模所用的训练集按CCs分型聚类，用一规则和皮尔逊相关系数法分别对提取的峰特征进行排序，选择排序前10名的10个差异峰，用随机森林、支持向量机、遗传算法或监督神经网络等分类算法筛选交叉验证与验证集测试分型准确率最高的分型模型，每种峰数装箱和质谱峰特征选择时，所用训练数据集均进行5～30次交叉验证，用建模数据建好模型后，用验证集测试数据分析预测能力，选择具有最高准确率的预测模型作为评估模型。

在可选实施方式中，所述分型模块包括：

分型子模块，用于将待测GBS菌株蛋白质样本质谱数据与建模子模块构建的特征峰群和指纹峰群进行比对，导出相似度峰群阵列；

降维子模块，采用装箱法对相似度峰群阵列进行降维处理，并输出分型结果。

优选地，所述降维子模块包括至少两级。通过多级降维能够将质谱谱图存在部分重叠的不同ST分型进行区分，避免相同CC分型对ST分型结果的影响。

验证子模块，用于利用验证集对特征峰群和指纹峰群进行验证。

在可选实施方式中，所述GBS菌株蛋白质样本获取方法包括甲酸-乙腈提取法，具体包括，GBS菌株经乙醇破壁后，离心收取沉淀，根据沉淀物体积，再向沉淀物中加入等体积的体积百分比为70％的甲酸溶液,混匀后，加入和甲酸溶液等体积的乙腈溶液，混匀后，离心取上清，得到GBS菌株蛋白质样本。

在可选实施方式中，所述的GBS菌株蛋白质样本为待测GBS菌株蛋白质样本时，其获取方法还包括待测人员组织液的采取，待测人员组织液中GBS菌株的分离，和分离后的GBS菌株的增殖。

在可选实施方式中，所述的待测细菌样本来源包括阴/直肠拭子、尿液、粪便、咽拭子、创口脓液、关节液、胸腹水、血液、骨髓或脑脊液中的至少一种。

在可选实施方式中，所述的质谱的检测方法包括将GBS菌株样本置于MALDI靶板，涂覆HCCA基质溶液，晾干后用质谱仪进行检测。

优选地，所述GBS菌株样本经过体积百分比为70％的甲酸溶液破壁后再置于MALDI靶板。

优选地，所述HCCA基质溶液为α-氰基-4-羟基肉桂酸溶于溶剂的饱和溶液，所述溶剂由乙腈、水和三氟乙酸按照体积比50:47.5:2.5混合制得。

在可选的实施方式中，本发明前述实施方式中所述质谱的检测设备包括Bruker质谱仪或Vitek等MALDI-TOF质谱仪。

第二方面，本发明提供了前述任一项实施方式所述的分型系统在治疗和/或预防围产期新生儿脑膜炎的药物筛选中的应用。

通过分析脑脊液GBS分离菌株和其他部位如阴道拭子、乳腺脓液等部位GBS菌亚型组成和药敏的特征来指导和筛选有效治疗和/或预防药物。

本发明具有以下有益效果：

基于MALDI-TOF MS蛋白指纹图GBS细菌CCs自动分型技术具有高效、便捷、快速、准确的特点，能满足潜在的巨大临床需求，具有广泛应用价值。根据不同CCs GBS致病性与毒力不同，本发明通过微生物质谱仪采集含不同ST型的CCs群GBS菌蛋白指纹谱，分析不同CCs的MALDI-TOF MS蛋白指纹谱特征，通过建立并选择最佳的统计学分型模型，用于GBS菌微生物质谱仪GBS快速CCs分型，并进行方法学诊断效能评价。

本发明提供了一种基于质谱分析数据的GBS菌株的分型系统，该系统通过遗传算法等聚类统计分析方法构建GBS菌株克隆复合体(CCs)分类的识别模型，与现有耗时长、操作繁琐、费用昂贵的GBS菌株分类方法相比，能够在菌种鉴定的同时，不需花费其他成本且快速分类，尤其是甄别高致病型CC17亚群群，具有快速、准确、低成本、高通量，更高的灵敏度和准确率。尤其是，当用于区分CC17亚型与其他非CC17亚型时，灵敏度为97.5％，特异性为100％，正确度为98.9％。

本发明还提供上述分型系统在治疗和/或预防新生儿脑膜炎的药物筛选中的应用，在精确区分CCs分型后，预测不同毒力CC分型的治疗/预防药物有效性，能够实现更加精准的靶向治疗和/或预防。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例1CC17型中ST17型菌与常见非ST17型GBS菌在m/z2956的肽峰图；

图2为实施例1CC17型中ST17型与常见非ST17型GBS菌在m/z 5912的肽峰图；

图3为实施例1训练集CC17型中ST17组与非ST17组GBS菌质谱图峰统计的二维散点图；

图4为实施例1训练集CC17型中ST17组与非ST17组GBS菌质谱图峰统计的胶图；

图5为实施例2所得474例谱图质谱峰数据标签(ST型)分布情况示意图；

图6为实施例2中采用XGB对全量特征计算后的结果示意图；

图7为实施例2中采用GA+XGB对全量特征计算后的结果示意图；

图8为实施例2中采用GA+KNN、GA+SVM、GA+RF和XGB针对任务一的计算结果；

图9为实施例2中GA+KNNST17用于任务一后的10折交叉验证结果；

图10为实施例2中GA+SVM ST17用于任务一后10折交叉验证结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

1.1实验材料

低龄婴儿血液或脑脊液分离的GBS菌共235株，源于2015年～2018年全国多个中心研究收集的新生儿侵袭感染GBS菌库。所有菌株均经血清凝集试验、分子生物学分型及多重PCR的多位点序列分型(MLST)，共归为CC1、CC10、CC17、CC19、CC23和CC26等6种CC型别，其中CC17比例最高，占38.92％(91/235)，包括ST17、ST19、ST12、ST10、ST23、ST27、ST188、ST2、ST24、ST197、ST651、ST4、ST8、ST55、ST88、ST103、ST138、ST146、ST156、ST163、ST179、ST223、ST249、ST268、ST335、ST357、ST452、ST480、ST579、ST680及ST938。血清型包括III、Ib、Ia、V、Ⅳ和VI。

1.2菌株分组

1.2.1训练集

选取45株CC17菌(ST17)组，非CC17组包括ST10(15株)、ST12(15株)和ST19(20株)型共50株GBS菌。

1.2.2验证集

选取40株ST17型菌为模型验证的CC17组，16株ST10型、17株ST12型和17株ST19型等共50株GBS菌为非CC17组。

1.2.3模型分类观察组

剩余11株ST23及其它39株少见型菌株为模型分类观察组。

1.3细菌蛋白提取

1.3.1菌株复苏

将-70℃低温保存的GBS菌株复苏，转种至哥伦比亚血琼脂平板(迪景生物有限公司)，置于35℃、5％CO₂条件下孵育16～18h，得到纯培养菌落。

1.3.2总蛋白提取

GBS菌蛋白采用甲酸提取法。用接种环取单个菌落与300μL去离子水充分混匀，再加入900μL无水乙醇，充分混合后以≥13000rpm转速离心2min；弃上清液后再次离心，小心吸弃残余的乙醇(小心不要破坏沉淀)将沉淀在室温晾干2～3min；相继加入15μL 70％甲酸溶液和乙腈，充分混匀，然后以≥13000rpm转速离心2min；取1μL上清液至MALDI靶板，室温晾干后30min内涂覆1μL HCCA基质溶液，室温晾干。

HCCA基质溶液配制：将乙腈、水和三氟乙酸按照体积比50:47.5:2.5混合制得溶剂，而后将α-氰基-4-羟基肉桂酸溶于溶剂中得到饱和溶液。

1.4质谱谱图采集

将MALDI靶板放入质谱仪MALDI Microflex LT(Bruker Daltonics,Bremen,Germany)中检测，每次检测前做定标及质控，以减少指纹谱图曲线漂移。根据菌株鉴定与数据库对比的结果，当分值在2.300～3.000之间为完全可靠地鉴定到种的水平，2.000～2.999之间为鉴定到种的水平，1.700～1.999为鉴定到属的水平，0.000～1.699为没有可信的鉴定结果。为保证指纹图谱的质量，所有菌株指纹图谱均选取鉴定分值>2.3分，且质子量m/z2000～20000间的肽峰谱进行建模和模型效能验证分析。

1.5分型建模与验证

使用ClinProTool系统的遗传算法对CC17型和非CC17型菌质谱图进行建模。将CC17型和非CC17型建模组质谱图导入ClinProTools 3.0软件(Bruker Daltonik,Germany)，展示两组质谱图的胶图和质谱峰二维统计散点图，采用GA算法进行建模和验证分析。GA算法建模可得到CC17组与非CC17组m/z 2000～20000的差异肽峰谱，从中筛选10个差异峰，并赋予区分的权重分值，见表1.1，以此建立CC17-GA分类模型。模型验证时，上传已知序列分型的CC17型和非CC17型验证组菌株质谱图，以建好的CC17-GA分类模型进行分类，并计算灵敏度、特异性、准确性、阳性预测值和阴性预测值等参数，对模型进行CC分型诊断效能评价。

表1实施例1中选取的10个差异峰的峰位及权重分值表

表1.1中m/z 5912和m/z 2956两个肽峰的差异权重均大于1，提示该两个肽峰为CC17型分类的主要特征峰。

图1为CC17型与常见非CC17型GBS菌在m/z 2956的肽峰图，图2为CC17型与常见非CC17型GBS菌在m/z 5912的肽峰图，由图1和图2可以看出，与常见非CC17型GBS菌(ST10、ST12、ST19)相比，CC17型GBS菌在m/z 2956与m/z 5912处虽表达不均一，但均有较为明显的肽峰。

图3和图4分别为训练集CC17组与非CC17组GBS菌质谱图峰统计的二维散点图和胶图，由图3中能够看出选取10个差异峰进行建模统计结果中，CC17组与非CC17组谱图峰统计区分度非常好，无肉眼可见明显重叠。图4显示CC17与非CC17在m/z 2956与m/z 5912处的差异。

用验证组的90株GBS菌，包括40株ST17型菌为模型验证的CC17组，而16株ST10型、17株ST12型和17株ST19型为模型验证的非CC17组，验证已建立的ST17-GA(10)模型分类效能。结果显示，40株ST17型验证菌中仅1株被模型误判为非CC17，其余39株(97.5％)被正确分为CC17型。16株ST10型、17株ST12型及17株ST19型等50株GBS菌均被模型正确判为非CC17型，结果见表1.2，该模型对CC17型鉴别准确度达98.9％，灵敏度、特异性分别为97.5％、100％，阳性、阴性预测值各为100％、98.0％。

表2实施例1验证集的验证结果表

ST23及其它少见ST型菌株共50株，作为分类观察组，分析CC17-GA(10)模型对少见ST菌株的分类情况。结果显示，21株(42.0％)被误判为CC17亚型，见表1.3。具体是，11株ST23型菌中8株(72.7％)被归为CC17组，3株归为非CC17组。6株ST27型、2株ST197型、2株ST651型、2株ST2型GBS菌全部被分类为非CC17型。5株ST188型菌有4株(80％)判为CC17组，2株ST24型菌均判为CC17组。余下20株其它少见ST型菌中，13株归为非CC17组，7株归为CC17组。

表3实施例1中模型分类观察组观察结果

实施例2

本实施例提供了将多个模型用于实现了ST17/其他ST分型的二分类的方法，实验样本来源于实施例1的样本，每株菌采集2张高质量谱图，具体步骤如下：

2.1模型数据

2.1.1原始数据概览

依据实施例1的质谱检测结果生成Excel格式数据集，取文件名作为ST分型标签，文件内的sheet名为样本编号，共得到原始谱图质谱峰数据478个。

2.1.2数据预处理

将2.1.1中得到的478例谱图质谱峰数据统一转换为csv格式，命名规则为[ST分型标签]-[样本名称].csv5示例：ST23-31_0_B6_1.csv。去除Intens.值域异常现象(取值非常大为2W-10W)的样本，共计4个，得到有效数据样本数：474例。所得474例谱图质谱峰数据标签(ST型)分布情况如图5所示，其中A为6种ST分型结果，B为按照ST17和非ST17分型结果，可以看出474例样本的ST分型整体分布较均衡，其中ST23较少。

2.2特征提取

2.2.1特征降维

将原始m/z数值映射到步长为5，范围在2000-20000的m/z特征区间中，以降低输入到机器学习模型中的训练特征数。如m/z＝2224.479→m/z＝2225。

2.2.2特征标准化

将Intens.取值按照L2范数进行标准化，统一量纲。如Intens.＝704.9592803→Intens.＝0.05333。

2.2.3使用GA算法进一步提取最佳特征列(选择m/z区间)

分别使用GA+KNN、GA+SVM、GA+XGB和GA+RF算法进行特征列提取，种群值设为100，进化200轮，寻找最佳特征组合。计算结果共提取出106个关键特征，其中使用GA+XGB算法提取出的特征列效果最佳。用XGB和GA+XGB对全量特征按重要性计算、排列后的结果分别如图6和图7所示，机器选择出的特征列与文章中观察得到的主要差异峰一致，同时机器赋予了m/z 5910和2955较高的权重。

2.3模型训练与评估结果

数据集设置：474例有效样本中取3/4做为训练数据，剩余1/4做为测试数据，采用分层采样方法保留原数据集标签分布特征。

2.3.1交叉验证+模型选择

在全量数据集上使用10折交叉验证方法分别测试GA+KNN、GA+SVM、GA+RF和XGB针对任务一：ST17/其他的二分类；任务二：ST10/ST12/ST17/ST19/ST23/STQT的多分类任务上的模型性能，选择准确率最高的模型进行训练。四种算法针对任务一的计算结果如图8所示。各模型交叉验证准确率数据以及验证集验证得到的模型准确率和加权准确率如表4所示，作为示例，GA+KNNST17用于任务一后的10折交叉验证结果如图9所示，GA+SVM ST17用于任务一后，经验证集的验证结果如图10所示。测试发现XGB模型在两种分类任务上具有较好的性能。

表4实施例2中各模型交叉验证准确率数据以及验证集验证得到的模型准确率和加权准确率结果

计算模型	任务类型	交叉验证准确率(％)	模型准确率	加权准确率
					GA+KNNST17	任务一	82.61	0.92	0.92
GA+KNNST17	任务二	68.39	0.70	0.68
					GA+SVMST17	任务一	87.27	0.90	0.90
GA+SVM ST17	任务二	64.36	0.68	0.62
					GA+RF ST17	任务一	86.22	0.92	0.92
GA+RF ST17	任务二	64.32	0.71	0.67
					XGB ST17	任务一	88.77	0.94	0.94
XGB ST17	任务二	80.80	0.87	0.86

由表4可以看出，通过应用交叉验证方法与独立验证集测试结果表明，XGB模型在ST17二分类和ST分型多分类任务上拥有最佳性能，对于ST17/其他二分类任务能够达到94％准确率；对于ST分型多分类任务能够达到87％准确率，建议优先使用XGB算法进行建模。

实施例3

3.1菌株来源

本实施例共准备了B族链球菌235株，所有菌株均经微生物鉴定仪鉴定，血清学分型及多位点序列分型。

3.2菌株准备

将实验菌株于哥伦比亚血琼脂培养基中划线分离培养，37℃培养18h。

3.3样品制备

甲酸-乙腈法提取菌体蛋白，加入300μL去离子水至灭菌EP管，挑取1接种环的待测菌株在管壁磨匀后，用移液枪适当吹打或涡旋混匀使其充分混合，加入900μL无水乙醇，涡旋混匀，13000rpm离心2min，弃上清液后再次离心，移液枪小心吸弃残余的乙醇，不要破坏沉淀，将沉淀在室温下放置2～3min使其完全干燥，加入30μL70％甲酸溶液，涡旋混匀，再加入等量乙腈，涡旋混匀，13000rpm离心2min，得到待测菌株的蛋白上清液。取1μL上清液至质谱鉴定靶板,室温下晾干，再加入1μL基质溶液，室温下晾干，每个样本点6个靶点。

3.4谱图采集

将靶板放入德国Bruker公司的基质辅助激光解析电离飞行时间质谱仪检测，用FlexControl软件采集样本数据，选择正离子线性操作模式，检测范围：为2000～20000Da，每个靶点自动重复采集4～6次，每次采集数据前都要用标准品溶液进行质量校正。BioTyper软件将采集得到的数据与仪器厂家提供的数据库中标准GBS图谱比对，通过评分判定结果，得分2.300～3.000表示菌种鉴定高度可靠，2.000～2.299表示菌属鉴定可靠，1.700～1.999表示可能的菌属鉴定，0.000～1.699表示鉴定结果不可信。将评分2.300～3.000之间的图谱按CCs分型分别导入FlexAnalysis软件中，在基线校正和平滑化处理后去除低质量的图谱，剩余有效图谱数大于20的菌株用于建模。

3.5谱库建立

分别导入CC10-1、CC10-2、CC17、CC19和CC23五个CCs分型的图谱到CliniProTools软件中，利用遗传算法(GA)、神经网络算法(SNN)和单变量分类算法(QC)生成分类模型，得到CCs特征肽峰及其对应权重，并应用Biotyper软件，构建GBS菌株不同CCs分型的亚型分型MSP，并将CCs特征肽峰添加到自建库中。其余未用于建模的菌株每株各挑选6张评分＞2.3的谱图来验证数据库，并计算其敏感度、特异度、阴性预测值和阳性预测值。

3.6 B族链球菌CCs分型的MALDI-TOF MS数据库的建立

本实验采集得评分＞2.3的谱图共2741张，其中CC10 257张，CC12 491张，CC171095张，CC19 240张，CC23 193张；经过FlexAnalysis软件分析后筛选出47株实验菌株，共计1127张谱图，其中CC10-1 9株，CC10-210株，CC19 10株，CC23 8株，分别用于构建GBS不同CCs分型的MALDI-TOF MS数据库。

表5 GBS不同CCs分型的建模菌株及图谱数目

3.7 B族链球菌CCs分型的MALDI-TOF MS数据库的性能验证

用于验证的菌株共45株，其中CC10 5株，CC12 5株，CC17 21株，CC19 6株，CC23 8株，每株各挑选6张图谱，共计图谱270张；使用BIOTYPER原数据库进行鉴定，评分大多在2.300～2.499之间，少部分分值能达到2.5以上；而使用B族链球菌不同CCs分型的MALDI-TOF MS数据库鉴定，270张谱图中仅有39张鉴定分数＜2.40，更有119张图谱分数＞2.60。结果表明，数据库的完善大幅度提高了质谱仪对GBS鉴定到种的能力。分型鉴定结果见表6，鉴定结果匹配的图谱共有245张，鉴定错误的有22张图谱，其中，4张被鉴定为CC23型，10张被鉴定为CC19型，2张被鉴定为CC10型，4张被鉴定为CC12型，2张被鉴定为CC17型。各GBS菌CCs分型数据库的敏感度、特异度、阴性预测值、阳性预测值等计算结果见表7。

表6 GBS不同CCs分型的MALDI-TOF MS数据库验证结果

表7 GBS菌各CCs数据库统计结果

本研究用45株GBS菌建立的GBS CCs分型MPS数据库，包括1个菌种5个CCs分型共1127张图谱，用45株菌270张图谱验证自建库，总正确率为91.85％，可准确辨别96.67％的CC10型GBS菌，83.33％的CC12型菌，92.86％的CC17型菌，98.61％的CC23型菌，91.67％的CC19型菌，是对原GBS数据库的完善和扩展，可用于对GBS菌的日常鉴定及快速分型，对临床诊断和治疗提供便利。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于质谱分析数据的GBS菌株的克隆复合体分型系统，其特征在于，所述分型系统用于GBS菌株克隆复合体的分型，所述分型系统包括：

数据收集模块，用于获取GBS菌株蛋白质样本的质谱数据；

所述处理模型包括采用基于遗传算法或聚类分析方法构建的GBS菌株克隆复合体的识别模型。

2.根据权利要求1所述的分型系统，其特征在于，所述分型系统还包括数据模型的构建模块，用于构建GBS菌株克隆复合体的识别模型；

所述标本数据获取子模块，用于获取已知CC型GBS菌株的蛋白质样本的质谱数据，并将质谱数据划分为训练集和验证集；

所述已知CC型包括CC1、CC10、CC12、CC17、CC19和CC23中的至少两种；

所述建模子模块，用于根据训练集，利用遗传算法或聚类分析方法，构建每种CC型GBS菌株的特征峰群和指纹峰群；

所述验证子模块，用于利用验证集对特征峰群和指纹峰群进行验证。

3.根据权利要求2所述的分型系统，其特征在于，所述建模子模块选定指纹图谱质谱峰中筛选鉴定分值≥2.3分的蛋白质谱谱图进行分型模型构建，以装箱法对训练集谱图峰数据进行降维，选取交叉验证分型准确率最高的峰数装箱，挑取蛋白指纹图谱质谱峰特征；

用UHCA法评估质谱峰装箱的分型准确率，选择交叉验证分型准确率最高的装箱峰数对建模所用的训练集按CCs分型聚类，用一规则和皮尔逊相关系数法分别对提取的峰特征进行排序，选择排序前10名的差异峰，用随机森林、支持向量机、遗传算法或监督神经网络统计分类算法筛选交叉验证与验证集测试分型准确率最高的分型模型，每种峰数装箱和质谱峰特征选择时，所用训练数据集均进行5～30次交叉验证，用建模数据建好模型后，用验证集测试数据分析预测能力，选择具有最高准确率的预测模型作为评估模型。

4.根据权利要求2所述的分型系统，其特征在于，所述分型模块包括：

降维子模块，采用装箱法对相似度峰群阵列进行降维处理，并输出分型结果；

优选地，所述降维子模块包括至少两级。

5.根据权利要求1～4任一项所述的分型系统，其特征在于，所述GBS菌株蛋白质样本获取方法包括甲酸-乙腈提取法，具体包括，GBS菌株经乙醇破壁后，离心收取沉淀，根据沉淀物体积，再向沉淀物中加入等体积的体积百分数为70％的甲酸溶液，混匀后，加入和甲酸溶液等体积的乙腈溶液，混匀后，离心取上清，得到GBS菌株蛋白质样本。

6.根据权利要求5所述的分型系统，其特征在于，所述的GBS菌株蛋白质样本为待测GBS菌株蛋白质样本时，其获取方法还包括待测人员组织液的采取，待测人员组织液中GBS菌株的分离，和分离后的GBS菌株的增殖。

7.根据权利要求6所述的分型系统，其特征在于，所述GBS菌株的来源包括阴/直肠拭子、尿液、粪便、咽拭子、创口脓液、关节液、胸腹水、血液、骨髓或脑脊液中的至少一种。

8.根据权利要求1～4任一项所述的分型系统，其特征在于，所述的质谱的检测方法包括将GBS菌株置于MALDI靶板，涂覆HCCA基质溶液，晾干后用质谱仪进行检测；

优选地，所述GBS菌株经过体积百分比为70％的甲酸溶液破壁后再置于MALDI靶板。

9.根据权利要求8所述的分型系统，其特征在于，所述HCCA基质溶液为α-氰基-4-羟基肉桂酸溶于溶剂的饱和溶液，所述溶剂由乙腈、水和三氟乙酸按照体积比50:47.5:2.5混合制得。

10.权利要求1～9任一项所述的分型系统在治疗和/或预防围产期新生儿脑膜炎的药物筛选中的应用。