CN111020028A

CN111020028A - 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法

Info

Publication number: CN111020028A
Application number: CN202010106384.0A
Authority: CN
Inventors: 王荃; 李晓; 周开臣
Original assignee: Shaanxi University of Science and Technology
Current assignee: Tianjin Medical University; Shaanxi University of Science and Technology
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-04-17

Abstract

本发明涉及一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法。它是通过尿路致病性大肠杆菌菌毛抗原基因的分布情况，利用机器学习XGBoost算法，将上尿路感染和下尿路感染病人来源的UPEC菌株的22种菌毛抗原基因的特征进行分类，并建立机器学习模型。并通过该机器学习模型分析UPEC菌株的菌毛抗原基因的分布，从而对尿路感染进行感染部位的预测。

Description

一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法

技术领域

本发明涉及一种对尿路感染的感染部位进行定位判断的方法。通过对尿路致病性大肠杆菌（Uropathogenic Escherichia coli, UPEC）的22种菌毛抗原基因（CS1-like,Mat, Type 1, F9, Ycb, Sfm, LPF, ECSF-0165, ECSF-4008, CS12, Afa, Yeh, Yeh-like, F17-like, Yfc, Pix, Yqi, Ybg, Auf, F1CS, P, Yad）存在与否，并利用机器学习XGBoost算法，将上尿路感染和下尿路感染病人来源的UPEC的22种菌毛抗原基因分布特征分开，并建立机器学习模型，通过该机器学习模型分析UPEC菌株的菌毛抗原基因分布特征，进而对尿路感染进行感染部位的预测。

背景技术

尿路感染（Urinary tract infections, UTIs）是由各种病原体侵入泌尿系统引起的最常见的感染性疾病之一，包括单纯性膀胱炎、急性单纯性肾盂肾炎、复杂性尿路感染、反复发作性尿路感染等临床常见泌尿系统感染性疾病。据报道，大约40%的女性和12%的男性在一生中至少会经历一次有症状的尿路感染，其中10%的女性会在感染后的6-12个月中再次遭受感染。此外，儿童也存在遭受病原细菌引起的尿路感染的风险。许多人一生遭受痛苦的复发和慢性尿路感染。

根据感染部位，可将尿路感染分为上尿路感染（肾盂肾炎，输尿管炎）和下尿路感染（膀胱炎，尿道炎）。下尿路感染或急性细菌性膀胱炎主要表现为尿频、尿急、尿痛、排尿不适、下腹部疼痛等。下尿路感染症状基本不会发烧，尿常规会提示白细胞升高，尿培养可能会培养出细菌。上尿路感染主要临床症状为寒战、发热、全身酸痛等全身感染症状，伴有尿频、尿急、尿痛、下腹部疼痛等症状，查体一侧或两侧肾区叩击痛，血常规或降钙素原（PCT）、C反应蛋白（CRP）都可能会升高，尿常规也会提示白细胞大量升高。上述临床症状通常被视为鉴别尿路感染部位的标准。

尿路感染通常使用抗生素治疗，上下尿路感染的治疗和用药有所不同。但是随着广谱抗菌药物的不断开发和应用，细菌耐药性显着提高导致缺乏适当的治疗药物，以及破坏了患者体内的正常菌群从而引起继发感染。多药耐药性的广泛存在给临床治疗带来了巨大的困难和挑战，突出了合理且准确地使用抗生素的重要性。

造成尿路感染的病原细菌主要为革兰氏阴性细菌，包括大肠杆菌，变形杆菌，普罗维登斯氏菌，铜绿假单胞菌等。尿路致病性大肠杆菌（Uropathogenic Escherichia coli,UPEC）是UTI的主要致病因素。UPEC表达多种毒力因子，包括菌毛，毒素蛋白，铁捕获系统，鞭毛和表面多糖结构等。菌毛是在细菌表面表达的一种蛋白质，介导了多种生物学功能，如粘附和侵袭以及生物膜的形成。作为UPEC的关键毒力因子，多种菌毛共同协作导致疾病的发生。

前期有研究表明：（1）根据UPEC的I型菌毛抗原基因的多态性所构建的系统进化树与根据这些细菌基因组直系同源基因构建的系统进化树非常相似；（2）通过三种菌毛抗原基因（yagV, fimF, fimH）的进化分析以及菌毛抗原类型的鉴定确定尿路感染大肠杆菌的型别已经获得国家专利（专利号CN104561326B，王荃）。由此可见，菌毛抗原基因在UPEC分型上具有一定的价值。而病原细菌的分型为溯源病原细菌提供了关键信息,是感染性疾病预防、诊断和控制中切断感染源的重要科学依据。基于以上特性，我们想知道是否可以将UPEC的菌毛抗原基因用作判断上尿路感染和下尿路感染定位的靶标，以实现快速准确的判断，并减少实验用药的时间，从而减少抗生素的滥用，达到精确治疗的目的。

机器学习（Machine Learning）这个概念最早源于人工智能的研究领域，其实它是一种实现人工智能的方法。从学习方法上来划分，机器学习算法可以分为非监督学习、监督学习、半监督学习、深度学习、集成学习和强化学习。简而言之，机器学习就是采用某种算法来分析数据，并从中推理，再对现实世界中的事物做出预测。与传统的采用某种特定指令集硬性编码的程序软件不同，机器学习是利用大量的数据来“训练”机器，并通过某种算法来使机器学会如何完成一项任务。

XGBoost是2014年2月诞生的专注于梯度提升算法的机器学习函数库，此函数库因其优良的学习效果以及高效的训练速度而获得广泛的关注。XGBoost不仅学习效果很好，而且速度也很快。其原理是，首先使用训练集和样本真值（即标准答案）训练一棵树，然后使用这棵树去预测训练集，得到每个样本的预测值，由于预测值与真值存在偏差，所以二者相减可以得到“残差”。接下来训练第二棵树，此时不再使用真值，而是使用残差作为标准答案。两棵树的训练完成后，可以再次得到每个样本的残差，然后进一步训练第三棵树，以此类推。

我们推测可以将XGBoost算法运用到尿路致病性大肠杆菌22种菌毛抗原基因的分类上，并通过XGBoost算法建立机器学习模型，对引起尿路感染的UPEC菌毛抗原基因分布特征进行判断，从而对未知尿路感染的感染位置进行预测和辅助诊断。

发明内容

本发明的目的在于建立一种基于尿路致病性大肠杆菌的22种菌毛抗原基因的分类从而对尿路感染的位置进行预测的方法。本发明公开的实施方式满足了这一目的。

该方法的特征在于通过机器学习的XGBoost分析，对UPEC的22种菌毛抗原基因进行分类，并建立机器学习的模型，用于对未知感染位置的尿路感染进行预测。

上述过程包括：细菌基因组提取—PCR扩增—PCR产物电泳检测—22种菌毛抗原基因的检测—上下尿路感染来源菌株的分组—聚类分析—机器学习建模。

由上述的技术方案可见，本发明建立的方法具有以下优点：

（1）本发明通过前期数据收集和分析处理，建立机器学习模型，解决了对UPEC的22种菌毛抗原基因进行分类的问题，可以更快的预测尿路感染发生的位置，辅助临床诊断。

（2）准确性高：本发明利用机器学习的方法判断尿路感染发生的位置，避免临床诊断中各种因素造成的误差，结合临床症状诊断标准，更准确地给出判断，具有较大的临床诊断价值。

附图说明

图1，根据90株UPEC菌株的22种菌毛抗原基因分布进行聚类分析的树状图；

图2，根据90株UPEC菌株的22种菌毛抗原基因分布进行机器学习后，测试集的ROC曲线；

图3，根据90株UPEC菌株的22种菌毛抗原基因分布进行聚类分析的热图。

具体实施方式

下面通过具体的实施方案叙述本发明。除非特别说明，本发明中所用的技术手段均为本领域技术人员所公知的方法。另外，实施方案应理解为说明性的，而非限制本发明的范围，本发明的实质和范围仅由权利要求书所限定。对于本领域技术人员而言，在不背离本发明实质和范围的前提下，对这些实施方案中的物料成分和用量进行的各种改变或改动也属于本发明的保护范围。下面举较佳实施例，结合具体实例对本发明作进一步详细描述。所述Hcluster程序代码、机器学习XGBoost算法程序代码、Heatmap代码均为公开的开源代码。

实施例1：基因组的提取

我们收集了天津医科大学第二医院从90例尿路感染病人尿液分离的UPEC菌株，菌株冻存于-80℃冰箱。细菌基因组提取试剂盒（DP302）购自天根生化科技（北京）有限公司，具体操作步骤如下：

1)从菌种冻存管中取少许菌液，划线接种于Luria-Bertani固体平板，37°C，过夜培养。

2)用接种环挑取Luria-Bertani固体平板的单克隆菌落，接种于5 mL Luria-Bertani液体培养基，37°C，过夜培养。

3)取细菌培养液2 mL，10000 rpm离心1分钟收集菌体，去掉上清。

4)加200 μL缓冲液GA，振荡至菌体充分混匀。

5)加20 μL蛋白酶K，温柔混匀。

6)加220 μL缓冲液GB，振荡15秒，70°C水浴10分钟至溶液变清亮。

7)加220 μL无水乙醇，充分振荡混匀15秒，简短离心以去除管盖内壁的水珠。

8)将上述全部吸入到吸附柱中，吸附柱放入收集管种，12000rpm离心1分钟，倒掉废液，将吸附柱放入收集管中。

9)向吸附柱中加入500 μL缓冲液GD，12000 rpm离心1分钟，倒掉废液，将吸附柱放入收集管中。

10)向吸附柱中加入600 μL漂洗液PW，12000 rpm离心1分钟，倒掉废液，将吸附柱放入收集管中。

11)将吸附柱放回收集管中，12000 rpm离心2分钟，倒掉废液。将吸附柱置于室温放置数分钟，以彻底晾干吸附材料中残余的漂洗液。

12)将吸附柱转入一个干净的离心管中，向吸附膜的中间部位悬空滴加50 μL洗脱缓冲液TE，室温放置5 min，12000 rpm离心2分钟，将溶液收集到离心管中，测定DNA浓度，保存在-20℃。

实施例2：引物的设计

从NCBI上下载大肠杆菌的22种菌毛抗原的基因序列，针对编码这22种菌毛usher蛋白的基因，设计特异性PCR检测引物，引物序列如下表1所示：

表1. UPEC菌毛抗原基因的特异性扩增引物序列

实施例3：PCR产物的获得与检测

使用实施例2中所列引物，以提取的细菌基因组为模板，进行PCR扩增反应。PCR体系为：10 mM 上下游引物各1 μl、10×buffer 3 μl、10 mM dNTP 0.6 μl、5 U/μl Taq 聚合酶0.2μl及2 μl的待测样品模板加入到0.2 ml的薄壁PCR管中，最后用ddH₂O补足至30 μl。PCR条件为：反应循环参数包括DNA的变性、复性、延伸的温度和时间、循环次数，具体为：预变性温度和时间为95℃，5分钟；变性温度和时间为95℃，50秒；复性时间为45秒，复性温度见表1；延伸温度和时间为72℃，1分钟；变性、复性、延伸的循环次数为30个循环；为稳定扩增产物而进行一个循环的温度和时间为72℃，10分钟。扩增产物与6×上样缓冲液以5：1的体积比混合；将混合液上样于1％的琼脂糖凝胶上；将琼脂糖凝胶电泳110v稳压电泳约30分钟，用Trans 2000 plus Ⅱ DNA Marker进行对照分析。

实施例4：聚类分析

聚类就是将相同相似的对象划分到同一个组中。所述的聚类分析，具体方法是根据PCR结果判断每个菌株的这22个菌毛抗原基因的有无，将“有”视为“1”，“无”视为“0”，建立二进制矩阵。通过R语言中的Hcluster函数对这90个UPEC菌株进行22个菌毛抗原基因进行聚类，计算Euclidean距离，并用ward.D方法进行聚类并画树状图，结果显示90个菌株明显分成两组，有31株菌聚在左侧的一组中，而其中有24株菌是来源于上尿路感染病人（77.42%），7株菌来源于下尿路感染病人（22.58%）；另59株菌聚在右侧的一组中，而其中有52株菌是来源于下尿路感染病人（88.14%），7株菌来源于上尿路感染病人（11.86%）（图1）。可以认为引起上尿路感染的菌株的22对菌毛抗原基因分布特征和下尿路感染的菌株的22对菌毛抗原基因分布特征是不一样的。因此我们推测这22种菌毛抗原基因的分布特性与其感染部位有一定的相关性。

实施例5：机器学习算法的设计

为证实UPEC菌株的22种菌毛抗原基因的分布特性与其来源于上或下尿路感染具有一定的相关性，我们对90个UPEC菌株进行了5次随机分组，每次分为三组，分别为训练集、验证集和测试集，然后利用Pyhon3.8中的XGBoost算法，对上下尿路两组UPEC菌株的22种菌毛抗原基因进行分类学习。利用ROC曲线下面积这一指标来评估22种菌毛抗原基因对尿路感染部位判断的价值。在训练集中使用XGBoost算法的ROC曲线下面积平均为0.87608±0.081464，验证集中ROC曲线下面积平均为0.84846±0.035726。对数据进行训练后，利用XGBoost算法对于测试集数据进行预测分析，ROC曲线下面积平均为0.84066±0.042216（图2），证明了UPEC菌株的22种菌毛抗原基因分布对于判断该菌株来源于上尿路感染病人或是下尿路感染病人具有重要的价值。

实施例6：热图分析

为了使90个UPEC菌株的22种菌毛抗原基因分布特征可视化，我们进行了热图分析，详细观察每种菌毛抗原基因分布特征。所述热图分析，具体是根据实施例4中所建立的二进制矩阵，利用R语言中的pheatmap函数对这90个UPEC菌株的22个菌毛抗原基因进行热图分析，计算Euclidean距离，并用complete方法聚类画图。从热图上我们可以直观看到，F17-like几乎只存在于上尿路感染中（81.82%），而Ybg、Ycb和Sfm大部分存在于下尿路感染组中(分别为90.91%、88.9% 和 86.96%)（图3）。由此我们可以得出结论，F17-like，Ybg，Ycb和Sfm四种菌毛在指示尿路感染的部位中有一定的价值，可能是鉴别上下尿路感染的关键。此外，CS12这一菌毛特征在90株UPEC菌株中均为阴性，可能提示这种菌毛特征并不存在于引起上下尿路感染的UPEC菌株中。

实施例7：临床实际应用

为了验证上述模型效果，我们又从天津医科大学第二医院收集了10个从尿路感染病人尿液中分离的UPEC菌株。在不知道该菌株来源自上尿路感染或下尿路感染的情况下，我们提取其细菌基因组，进行PCR扩增，根据PCR结果列出这10个菌株的22种菌毛抗原基因的分布特性，然后根据22种菌毛抗原基因的有无，建立由“1”和“0”组成的二进制矩阵，将该矩阵导入已经训练好的机器学习模型中，从而预测这10个UPEC菌株所来源的尿路感染的感染位置。与临床医师根据病人尿路感染症状所作出的诊断比对，我们发现机器学习模型对这10株菌所来源的感染部位的预测准确率可达90%。

SEQUENCE LISTING

<110> 天津医科大学

<120> 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法

<160> 44

<170> PatentIn version 3.5

<210> 1

<211> 19

<212> DNA

<213> 人工序列

<400> 1

gcttgtacaa ccgacaaca 19

<210> 2

<211> 20

<212> DNA

<213> 人工序列

<400> 2

ctctgttcat cctgttcaga 20

<210> 3

<211> 18

<212> DNA

<213> 人工序列

<400> 3

atggacagtt acgcatcc 18

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<400> 4

tccacatcgt aaataccgta 20

<210> 5

<211> 18

<212> DNA

<213> 人工序列

<400> 5

atgccgcagg taatagtg 18

<210> 6

<211> 20

<212> DNA

<213> 人工序列

<400> 6

gaattgctca tcgacattac 20

<210> 7

<211> 21

<212> DNA

<213> 人工序列

<400> 7

cgattgtacc tgaccgttcc t 21

<210> 8

<211> 19

<212> DNA

<213> 人工序列

<400> 8

cagatgccct tcacgttgc 19

<210> 9

<211> 19

<212> DNA

<213> 人工序列

<400> 9

cgacacttgc agatgacac 19

<210> 10

<211> 20

<212> DNA

<213> 人工序列

<400> 10

tgacatactg taactggcgt 20

<210> 11

<211> 19

<212> DNA

<213> 人工序列

<400> 11

gttgagataa cgccagaga 19

<210> 12

<211> 20

<212> DNA

<213> 人工序列

<400> 12

cactcgacga cgtagagtag 20

<210> 13

<211> 20

<212> DNA

<213> 人工序列

<400> 13

ctttcggtaa ctacgggtct 20

<210> 14

<211> 18

<212> DNA

<213> 人工序列

<400> 14

ctggctgtag caccgaat 18

<210> 15

<211> 19

<212> DNA

<213> 人工序列

<400> 15

attagagaat ggcacatcc 19

<210> 16

<211> 18

<212> DNA

<213> 人工序列

<400> 16

atcgccattt gaagatgt 18

<210> 17

<211> 20

<212> DNA

<213> 人工序列

<400> 17

aatagttacg ccacctattc 20

<210> 18

<211> 18

<212> DNA

<213> 人工序列

<400> 18

tgaagagtac gcgatagc 18

<210> 19

<211> 18

<212> DNA

<213> 人工序列

<400> 19

ctccgtgagt tcggtctt 18

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<400> 20

aacaggtgtc tcagcatgat 20

<210> 21

<211> 18

<212> DNA

<213> 人工序列

<400> 21

ctgatggtga taatgcca 18

<210> 22

<211> 20

<212> DNA

<213> 人工序列

<400> 22

actgaggctc agacacacta 20

<210> 23

<211> 18

<212> DNA

<213> 人工序列

<400> 23

atgtctcgcg tcaatgtc 18

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<400> 24

cagcatcgta atagtgttca 20

<210> 25

<211> 21

<212> DNA

<213> 人工序列

<400> 25

gtacctgaag tacaacgtca c 21

<210> 26

<211> 19

<212> DNA

<213> 人工序列

<400> 26

caggacgtac tgtatgacg 19

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<400> 27

agccatgctt tcctacaacc 20

<210> 28

<211> 18

<212> DNA

<213> 人工序列

<400> 28

atatcccagc gaccaacg 18

<210> 29

<211> 19

<212> DNA

<213> 人工序列

<400> 29

caggtcgtag ccatattga 19

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<400> 30

tgattctcgt cataagcatg 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<400> 31

ctgcctaagg tgctactaac 20

<210> 32

<211> 19

<212> DNA

<213> 人工序列

<400> 32

tgctgacatc gagatcaga 19

<210> 33

<211> 18

<212> DNA

<213> 人工序列

<400> 33

gtcatggtaa ccctgtgc 18

<210> 34

<211> 18

<212> DNA

<213> 人工序列

<400> 34

tcgcaacatg agcatctc 18

<210> 35

<211> 18

<212> DNA

<213> 人工序列

<400> 35

cctacaacgg ttcctacg 18

<210> 36

<211> 18

<212> DNA

<213> 人工序列

<400> 36

gtagctaccg tcacgcaa 18

<210> 37

<211> 21

<212> DNA

<213> 人工序列

<400> 37

ccacccagac tgcgaggcta t 21

<210> 38

<211> 21

<212> DNA

<213> 人工序列

<400> 38

gtcggcatcc gcattatcaa a 21

<210> 39

<211> 19

<212> DNA

<213> 人工序列

<400> 39

gctgtacacc gtcacactc 19

<210> 40

<211> 18

<212> DNA

<213> 人工序列

<400> 40

tatcagacat ccgcaaca 18

<210> 41

<211> 18

<212> DNA

<213> 人工序列

<400> 41

ccgcaacatc tcctacag 18

<210> 42

<211> 18

<212> DNA

<213> 人工序列

<400> 42

cgcgctttca ctaatgtt 18

<210> 43

<211> 19

<212> DNA

<213> 人工序列

<400> 43

accaaatcag taacggaca 19

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<400> 44

cctgactgtt catggttatc 20

Claims

1.一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法，其特征在于利用特异性PCR引物，对尿路致病性大肠杆菌基因的存在与否进行检测，并利用机器学习XGBoost算法，对这22种菌毛抗原基因特征进行分类，通过分析UPEC菌株的菌毛抗原基因的分布，对尿路感染进行感染部位的预测；主要步骤包括：

细菌基因组提取；

PCR扩增；

PCR产物电泳检测；

22种菌毛抗原基因的检测；

上下尿路感染来源菌株的分组；

聚类分析；

机器学习建模；

所述的聚类分析指的是：根据PCR结果判断每个菌株的这22个菌毛抗原基因的有无，将“有”视为“1”，“无”视为“0”，建立二进制矩阵；通过R语言中的Hcluster函数对这90个UPEC菌株进行22个菌毛抗原基因进行聚类，计算Euclidean距离，并用ward.D方法进行聚类并画树状图；

所述的机器学习建模指的是：对90个UPEC菌株进行了5次随机分组，每次分为三组，分别为训练集、验证集和测试集，然后利用Pyhon3.8中的XGBoost算法，对上下尿路两组UPEC菌株的22种菌毛抗原基因进行分类学习。

2.权利要求1所述的利用机器学习XGBoost算法对UPEC的菌毛抗原基因特征进行分类。