CN111020028A - 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法 - Google Patents

一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法 Download PDF

Info

Publication number
CN111020028A
CN111020028A CN202010106384.0A CN202010106384A CN111020028A CN 111020028 A CN111020028 A CN 111020028A CN 202010106384 A CN202010106384 A CN 202010106384A CN 111020028 A CN111020028 A CN 111020028A
Authority
CN
China
Prior art keywords
urinary tract
tract infection
pilus antigen
upec
pilus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010106384.0A
Other languages
English (en)
Inventor
王荃
李晓
周开臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Medical University
Shaanxi University of Science and Technology
Original Assignee
Shaanxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi University of Science and Technology filed Critical Shaanxi University of Science and Technology
Priority to CN202010106384.0A priority Critical patent/CN111020028A/zh
Publication of CN111020028A publication Critical patent/CN111020028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法。它是通过尿路致病性大肠杆菌菌毛抗原基因的分布情况,利用机器学习XGBoost算法,将上尿路感染和下尿路感染病人来源的UPEC菌株的22种菌毛抗原基因的特征进行分类,并建立机器学习模型。并通过该机器学习模型分析UPEC菌株的菌毛抗原基因的分布,从而对尿路感染进行感染部位的预测。

Description

一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的 方法
技术领域
本发明涉及一种对尿路感染的感染部位进行定位判断的方法。通过对尿路致病性大肠杆菌(Uropathogenic Escherichia coli, UPEC)的22种菌毛抗原基因(CS1-like,Mat, Type 1, F9, Ycb, Sfm, LPF, ECSF-0165, ECSF-4008, CS12, Afa, Yeh, Yeh-like, F17-like, Yfc, Pix, Yqi, Ybg, Auf, F1CS, P, Yad)存在与否,并利用机器学习XGBoost算法,将上尿路感染和下尿路感染病人来源的UPEC的22种菌毛抗原基因分布特征分开,并建立机器学习模型,通过该机器学习模型分析UPEC菌株的菌毛抗原基因分布特征,进而对尿路感染进行感染部位的预测。
背景技术
尿路感染(Urinary tract infections, UTIs)是由各种病原体侵入泌尿系统引起的最常见的感染性疾病之一,包括单纯性膀胱炎、急性单纯性肾盂肾炎、复杂性尿路感染、反复发作性尿路感染等临床常见泌尿系统感染性疾病。据报道,大约40%的女性和12%的男性在一生中至少会经历一次有症状的尿路感染,其中10%的女性会在感染后的6-12个月中再次遭受感染。此外,儿童也存在遭受病原细菌引起的尿路感染的风险。许多人一生遭受痛苦的复发和慢性尿路感染。
根据感染部位,可将尿路感染分为上尿路感染(肾盂肾炎,输尿管炎)和下尿路感染(膀胱炎,尿道炎)。下尿路感染或急性细菌性膀胱炎主要表现为尿频、尿急、尿痛、排尿不适、下腹部疼痛等。下尿路感染症状基本不会发烧,尿常规会提示白细胞升高,尿培养可能会培养出细菌。上尿路感染主要临床症状为寒战、发热、全身酸痛等全身感染症状,伴有尿频、尿急、尿痛、下腹部疼痛等症状,查体一侧或两侧肾区叩击痛,血常规或降钙素原(PCT)、C反应蛋白(CRP)都可能会升高,尿常规也会提示白细胞大量升高。上述临床症状通常被视为鉴别尿路感染部位的标准。
尿路感染通常使用抗生素治疗,上下尿路感染的治疗和用药有所不同。但是随着广谱抗菌药物的不断开发和应用,细菌耐药性显着提高导致缺乏适当的治疗药物,以及破坏了患者体内的正常菌群从而引起继发感染。多药耐药性的广泛存在给临床治疗带来了巨大的困难和挑战,突出了合理且准确地使用抗生素的重要性。
造成尿路感染的病原细菌主要为革兰氏阴性细菌,包括大肠杆菌,变形杆菌,普罗维登斯氏菌,铜绿假单胞菌等。尿路致病性大肠杆菌(Uropathogenic Escherichia coli,UPEC)是UTI的主要致病因素。UPEC表达多种毒力因子,包括菌毛,毒素蛋白,铁捕获系统,鞭毛和表面多糖结构等。菌毛是在细菌表面表达的一种蛋白质,介导了多种生物学功能,如粘附和侵袭以及生物膜的形成。作为UPEC的关键毒力因子,多种菌毛共同协作导致疾病的发生。
前期有研究表明:(1)根据UPEC的I型菌毛抗原基因的多态性所构建的系统进化树与根据这些细菌基因组直系同源基因构建的系统进化树非常相似;(2)通过三种菌毛抗原基因(yagV, fimF, fimH)的进化分析以及菌毛抗原类型的鉴定确定尿路感染大肠杆菌的型别已经获得国家专利(专利号CN104561326B,王荃)。由此可见,菌毛抗原基因在UPEC分型上具有一定的价值。而病原细菌的分型为溯源病原细菌提供了关键信息,是感染性疾病预防、诊断和控制中切断感染源的重要科学依据。基于以上特性,我们想知道是否可以将UPEC的菌毛抗原基因用作判断上尿路感染和下尿路感染定位的靶标,以实现快速准确的判断,并减少实验用药的时间,从而减少抗生素的滥用,达到精确治疗的目的。
机器学习(Machine Learning)这个概念最早源于人工智能的研究领域,其实它是一种实现人工智能的方法。从学习方法上来划分,机器学习算法可以分为非监督学习、监督学习、半监督学习、深度学习、集成学习和强化学习。简而言之,机器学习就是采用某种算法来分析数据,并从中推理,再对现实世界中的事物做出预测。与传统的采用某种特定指令集硬性编码的程序软件不同,机器学习是利用大量的数据来“训练”机器,并通过某种算法来使机器学会如何完成一项任务。
XGBoost是2014年2月诞生的专注于梯度提升算法的机器学习函数库,此函数库因其优良的学习效果以及高效的训练速度而获得广泛的关注。XGBoost不仅学习效果很好,而且速度也很快。其原理是,首先使用训练集和样本真值(即标准答案)训练一棵树,然后使用这棵树去预测训练集,得到每个样本的预测值,由于预测值与真值存在偏差,所以二者相减可以得到“残差”。接下来训练第二棵树,此时不再使用真值,而是使用残差作为标准答案。两棵树的训练完成后,可以再次得到每个样本的残差,然后进一步训练第三棵树,以此类推。
我们推测可以将XGBoost算法运用到尿路致病性大肠杆菌22种菌毛抗原基因的分类上,并通过XGBoost算法建立机器学习模型,对引起尿路感染的UPEC菌毛抗原基因分布特征进行判断,从而对未知尿路感染的感染位置进行预测和辅助诊断。
发明内容
本发明的目的在于建立一种基于尿路致病性大肠杆菌的22种菌毛抗原基因的分类从而对尿路感染的位置进行预测的方法。本发明公开的实施方式满足了这一目的。
该方法的特征在于通过机器学习的XGBoost分析,对UPEC的22种菌毛抗原基因进行分类,并建立机器学习的模型,用于对未知感染位置的尿路感染进行预测。
上述过程包括:细菌基因组提取—PCR扩增—PCR产物电泳检测—22种菌毛抗原基因的检测—上下尿路感染来源菌株的分组—聚类分析—机器学习建模。
由上述的技术方案可见,本发明建立的方法具有以下优点:
(1)本发明通过前期数据收集和分析处理,建立机器学习模型,解决了对UPEC的22种菌毛抗原基因进行分类的问题,可以更快的预测尿路感染发生的位置,辅助临床诊断。
(2)准确性高:本发明利用机器学习的方法判断尿路感染发生的位置,避免临床诊断中各种因素造成的误差,结合临床症状诊断标准,更准确地给出判断,具有较大的临床诊断价值。
附图说明
图1,根据90株UPEC菌株的22种菌毛抗原基因分布进行聚类分析的树状图;
图2,根据90株UPEC菌株的22种菌毛抗原基因分布进行机器学习后,测试集的ROC曲线;
图3,根据90株UPEC菌株的22种菌毛抗原基因分布进行聚类分析的热图。
具体实施方式
下面通过具体的实施方案叙述本发明。除非特别说明,本发明中所用的技术手段均为本领域技术人员所公知的方法。另外,实施方案应理解为说明性的,而非限制本发明的范围,本发明的实质和范围仅由权利要求书所限定。对于本领域技术人员而言,在不背离本发明实质和范围的前提下,对这些实施方案中的物料成分和用量进行的各种改变或改动也属于本发明的保护范围。下面举较佳实施例,结合具体实例对本发明作进一步详细描述。所述Hcluster程序代码、机器学习XGBoost算法程序代码、Heatmap代码均为公开的开源代码。
实施例1:基因组的提取
我们收集了天津医科大学第二医院从90例尿路感染病人尿液分离的UPEC菌株,菌株冻存于-80℃冰箱。细菌基因组提取试剂盒(DP302)购自天根生化科技(北京)有限公司,具体操作步骤如下:
1)从菌种冻存管中取少许菌液,划线接种于Luria-Bertani固体平板,37°C,过夜培养。
2)用接种环挑取Luria-Bertani固体平板的单克隆菌落,接种于5 mL Luria-Bertani液体培养基,37°C,过夜培养。
3)取细菌培养液2 mL,10000 rpm离心1分钟收集菌体,去掉上清。
4)加200 μL缓冲液GA,振荡至菌体充分混匀。
5)加20 μL蛋白酶K,温柔混匀。
6)加220 μL缓冲液GB,振荡15秒,70°C水浴10分钟至溶液变清亮。
7)加220 μL无水乙醇,充分振荡混匀15秒,简短离心以去除管盖内壁的水珠。
8)将上述全部吸入到吸附柱中,吸附柱放入收集管种,12000rpm离心1分钟,倒掉废液,将吸附柱放入收集管中。
9)向吸附柱中加入500 μL缓冲液GD,12000 rpm离心1分钟,倒掉废液,将吸附柱放入收集管中。
10)向吸附柱中加入600 μL漂洗液PW,12000 rpm离心1分钟,倒掉废液,将吸附柱放入收集管中。
11)将吸附柱放回收集管中,12000 rpm离心2分钟,倒掉废液。将吸附柱置于室温放置数分钟,以彻底晾干吸附材料中残余的漂洗液。
12)将吸附柱转入一个干净的离心管中,向吸附膜的中间部位悬空滴加50 μL洗脱缓冲液TE,室温放置5 min,12000 rpm离心2分钟,将溶液收集到离心管中,测定DNA浓度,保存在-20℃。
实施例2:引物的设计
从NCBI上下载大肠杆菌的22种菌毛抗原的基因序列,针对编码这22种菌毛usher蛋白的基因,设计特异性PCR检测引物,引物序列如下表1所示:
表1. UPEC菌毛抗原基因的特异性扩增引物序列
Figure 779196DEST_PATH_IMAGE001
Figure 777720DEST_PATH_IMAGE002
Figure 648724DEST_PATH_IMAGE003
Figure 927390DEST_PATH_IMAGE004
Figure 592857DEST_PATH_IMAGE005
实施例3:PCR产物的获得与检测
使用实施例2中所列引物,以提取的细菌基因组为模板,进行PCR扩增反应。PCR体系为:10 mM 上下游引物各1 μl、10×buffer 3 μl、10 mM dNTP 0.6 μl、5 U/μl Taq 聚合酶0.2μl及2 μl的待测样品模板加入到0.2 ml的薄壁PCR管中,最后用ddH2O补足至30 μl。PCR条件为:反应循环参数包括DNA的变性、复性、延伸的温度和时间、循环次数,具体为:预变性温度和时间为95℃,5分钟;变性温度和时间为95℃,50秒;复性时间为45秒,复性温度见表1;延伸温度和时间为72℃,1分钟;变性、复性、延伸的循环次数为30个循环;为稳定扩增产物而进行一个循环的温度和时间为72℃,10分钟。扩增产物与6×上样缓冲液以5:1的体积比混合;将混合液上样于1%的琼脂糖凝胶上;将琼脂糖凝胶电泳110v稳压电泳约30分钟,用Trans 2000 plus Ⅱ DNA Marker进行对照分析。
实施例4:聚类分析
聚类就是将相同相似的对象划分到同一个组中。所述的聚类分析,具体方法是根据PCR结果判断每个菌株的这22个菌毛抗原基因的有无,将“有”视为“1”,“无”视为“0”,建立二进制矩阵。通过R语言中的Hcluster函数对这90个UPEC菌株进行22个菌毛抗原基因进行聚类,计算Euclidean距离,并用ward.D方法进行聚类并画树状图,结果显示90个菌株明显分成两组,有31株菌聚在左侧的一组中,而其中有24株菌是来源于上尿路感染病人(77.42%),7株菌来源于下尿路感染病人(22.58%);另59株菌聚在右侧的一组中,而其中有52株菌是来源于下尿路感染病人(88.14%),7株菌来源于上尿路感染病人(11.86%)(图1)。可以认为引起上尿路感染的菌株的22对菌毛抗原基因分布特征和下尿路感染的菌株的22对菌毛抗原基因分布特征是不一样的。因此我们推测这22种菌毛抗原基因的分布特性与其感染部位有一定的相关性。
实施例5:机器学习算法的设计
为证实UPEC菌株的22种菌毛抗原基因的分布特性与其来源于上或下尿路感染具有一定的相关性,我们对90个UPEC菌株进行了5次随机分组,每次分为三组,分别为训练集、验证集和测试集,然后利用Pyhon3.8中的XGBoost算法,对上下尿路两组UPEC菌株的22种菌毛抗原基因进行分类学习。利用ROC曲线下面积这一指标来评估22种菌毛抗原基因对尿路感染部位判断的价值。在训练集中使用XGBoost算法的ROC曲线下面积平均为0.87608±0.081464,验证集中ROC曲线下面积平均为0.84846±0.035726。对数据进行训练后,利用XGBoost算法对于测试集数据进行预测分析,ROC曲线下面积平均为0.84066±0.042216(图2),证明了UPEC菌株的22种菌毛抗原基因分布对于判断该菌株来源于上尿路感染病人或是下尿路感染病人具有重要的价值。
实施例6:热图分析
为了使90个UPEC菌株的22种菌毛抗原基因分布特征可视化,我们进行了热图分析,详细观察每种菌毛抗原基因分布特征。所述热图分析,具体是根据实施例4中所建立的二进制矩阵,利用R语言中的pheatmap函数对这90个UPEC菌株的22个菌毛抗原基因进行热图分析,计算Euclidean距离,并用complete方法聚类画图。从热图上我们可以直观看到,F17-like几乎只存在于上尿路感染中(81.82%),而Ybg、Ycb和Sfm大部分存在于下尿路感染组中(分别为90.91%、88.9% 和 86.96%)(图3)。由此我们可以得出结论,F17-like,Ybg,Ycb和Sfm四种菌毛在指示尿路感染的部位中有一定的价值,可能是鉴别上下尿路感染的关键。此外,CS12这一菌毛特征在90株UPEC菌株中均为阴性,可能提示这种菌毛特征并不存在于引起上下尿路感染的UPEC菌株中。
实施例7:临床实际应用
为了验证上述模型效果,我们又从天津医科大学第二医院收集了10个从尿路感染病人尿液中分离的UPEC菌株。在不知道该菌株来源自上尿路感染或下尿路感染的情况下,我们提取其细菌基因组,进行PCR扩增,根据PCR结果列出这10个菌株的22种菌毛抗原基因的分布特性,然后根据22种菌毛抗原基因的有无,建立由“1”和“0”组成的二进制矩阵,将该矩阵导入已经训练好的机器学习模型中,从而预测这10个UPEC菌株所来源的尿路感染的感染位置。与临床医师根据病人尿路感染症状所作出的诊断比对,我们发现机器学习模型对这10株菌所来源的感染部位的预测准确率可达90%。
SEQUENCE LISTING
<110> 天津医科大学
<120> 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法
<160> 44
<170> PatentIn version 3.5
<210> 1
<211> 19
<212> DNA
<213> 人工序列
<400> 1
gcttgtacaa ccgacaaca 19
<210> 2
<211> 20
<212> DNA
<213> 人工序列
<400> 2
ctctgttcat cctgttcaga 20
<210> 3
<211> 18
<212> DNA
<213> 人工序列
<400> 3
atggacagtt acgcatcc 18
<210> 4
<211> 20
<212> DNA
<213> 人工序列
<400> 4
tccacatcgt aaataccgta 20
<210> 5
<211> 18
<212> DNA
<213> 人工序列
<400> 5
atgccgcagg taatagtg 18
<210> 6
<211> 20
<212> DNA
<213> 人工序列
<400> 6
gaattgctca tcgacattac 20
<210> 7
<211> 21
<212> DNA
<213> 人工序列
<400> 7
cgattgtacc tgaccgttcc t 21
<210> 8
<211> 19
<212> DNA
<213> 人工序列
<400> 8
cagatgccct tcacgttgc 19
<210> 9
<211> 19
<212> DNA
<213> 人工序列
<400> 9
cgacacttgc agatgacac 19
<210> 10
<211> 20
<212> DNA
<213> 人工序列
<400> 10
tgacatactg taactggcgt 20
<210> 11
<211> 19
<212> DNA
<213> 人工序列
<400> 11
gttgagataa cgccagaga 19
<210> 12
<211> 20
<212> DNA
<213> 人工序列
<400> 12
cactcgacga cgtagagtag 20
<210> 13
<211> 20
<212> DNA
<213> 人工序列
<400> 13
ctttcggtaa ctacgggtct 20
<210> 14
<211> 18
<212> DNA
<213> 人工序列
<400> 14
ctggctgtag caccgaat 18
<210> 15
<211> 19
<212> DNA
<213> 人工序列
<400> 15
attagagaat ggcacatcc 19
<210> 16
<211> 18
<212> DNA
<213> 人工序列
<400> 16
atcgccattt gaagatgt 18
<210> 17
<211> 20
<212> DNA
<213> 人工序列
<400> 17
aatagttacg ccacctattc 20
<210> 18
<211> 18
<212> DNA
<213> 人工序列
<400> 18
tgaagagtac gcgatagc 18
<210> 19
<211> 18
<212> DNA
<213> 人工序列
<400> 19
ctccgtgagt tcggtctt 18
<210> 20
<211> 20
<212> DNA
<213> 人工序列
<400> 20
aacaggtgtc tcagcatgat 20
<210> 21
<211> 18
<212> DNA
<213> 人工序列
<400> 21
ctgatggtga taatgcca 18
<210> 22
<211> 20
<212> DNA
<213> 人工序列
<400> 22
actgaggctc agacacacta 20
<210> 23
<211> 18
<212> DNA
<213> 人工序列
<400> 23
atgtctcgcg tcaatgtc 18
<210> 24
<211> 20
<212> DNA
<213> 人工序列
<400> 24
cagcatcgta atagtgttca 20
<210> 25
<211> 21
<212> DNA
<213> 人工序列
<400> 25
gtacctgaag tacaacgtca c 21
<210> 26
<211> 19
<212> DNA
<213> 人工序列
<400> 26
caggacgtac tgtatgacg 19
<210> 27
<211> 20
<212> DNA
<213> 人工序列
<400> 27
agccatgctt tcctacaacc 20
<210> 28
<211> 18
<212> DNA
<213> 人工序列
<400> 28
atatcccagc gaccaacg 18
<210> 29
<211> 19
<212> DNA
<213> 人工序列
<400> 29
caggtcgtag ccatattga 19
<210> 30
<211> 20
<212> DNA
<213> 人工序列
<400> 30
tgattctcgt cataagcatg 20
<210> 31
<211> 20
<212> DNA
<213> 人工序列
<400> 31
ctgcctaagg tgctactaac 20
<210> 32
<211> 19
<212> DNA
<213> 人工序列
<400> 32
tgctgacatc gagatcaga 19
<210> 33
<211> 18
<212> DNA
<213> 人工序列
<400> 33
gtcatggtaa ccctgtgc 18
<210> 34
<211> 18
<212> DNA
<213> 人工序列
<400> 34
tcgcaacatg agcatctc 18
<210> 35
<211> 18
<212> DNA
<213> 人工序列
<400> 35
cctacaacgg ttcctacg 18
<210> 36
<211> 18
<212> DNA
<213> 人工序列
<400> 36
gtagctaccg tcacgcaa 18
<210> 37
<211> 21
<212> DNA
<213> 人工序列
<400> 37
ccacccagac tgcgaggcta t 21
<210> 38
<211> 21
<212> DNA
<213> 人工序列
<400> 38
gtcggcatcc gcattatcaa a 21
<210> 39
<211> 19
<212> DNA
<213> 人工序列
<400> 39
gctgtacacc gtcacactc 19
<210> 40
<211> 18
<212> DNA
<213> 人工序列
<400> 40
tatcagacat ccgcaaca 18
<210> 41
<211> 18
<212> DNA
<213> 人工序列
<400> 41
ccgcaacatc tcctacag 18
<210> 42
<211> 18
<212> DNA
<213> 人工序列
<400> 42
cgcgctttca ctaatgtt 18
<210> 43
<211> 19
<212> DNA
<213> 人工序列
<400> 43
accaaatcag taacggaca 19
<210> 44
<211> 20
<212> DNA
<213> 人工序列
<400> 44
cctgactgtt catggttatc 20

Claims (2)

1.一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法,其特征在于利用特异性PCR引物,对尿路致病性大肠杆菌基因的存在与否进行检测,并利用机器学习XGBoost算法,对这22种菌毛抗原基因特征进行分类,通过分析UPEC菌株的菌毛抗原基因的分布,对尿路感染进行感染部位的预测;主要步骤包括:
细菌基因组提取;
PCR扩增;
PCR产物电泳检测;
22种菌毛抗原基因的检测;
上下尿路感染来源菌株的分组;
聚类分析;
机器学习建模;
所述的聚类分析指的是:根据PCR结果判断每个菌株的这22个菌毛抗原基因的有无,将“有”视为“1”,“无”视为“0”,建立二进制矩阵;通过R语言中的Hcluster函数对这90个UPEC菌株进行22个菌毛抗原基因进行聚类,计算Euclidean距离,并用ward.D方法进行聚类并画树状图;
所述的机器学习建模指的是:对90个UPEC菌株进行了5次随机分组,每次分为三组,分别为训练集、验证集和测试集,然后利用Pyhon3.8中的XGBoost算法,对上下尿路两组UPEC菌株的22种菌毛抗原基因进行分类学习。
2.权利要求1所述的利用机器学习XGBoost算法对UPEC的菌毛抗原基因特征进行分类。
CN202010106384.0A 2020-02-21 2020-02-21 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法 Pending CN111020028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010106384.0A CN111020028A (zh) 2020-02-21 2020-02-21 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010106384.0A CN111020028A (zh) 2020-02-21 2020-02-21 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法

Publications (1)

Publication Number Publication Date
CN111020028A true CN111020028A (zh) 2020-04-17

Family

ID=70199388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010106384.0A Pending CN111020028A (zh) 2020-02-21 2020-02-21 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法

Country Status (1)

Country Link
CN (1) CN111020028A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313257A (zh) * 2021-06-25 2021-08-27 广州市妇女儿童医疗中心 基于质谱分析数据的gbs菌株的克隆复合体分型系统及应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104561326A (zh) * 2015-01-16 2015-04-29 天津医科大学 一种基于菌毛多样性的尿路感染大肠杆菌的分型方法
CN107066791A (zh) * 2016-12-19 2017-08-18 银江股份有限公司 一种基于病人检验结果的辅助疾病诊断方法
US20180172667A1 (en) * 2015-06-17 2018-06-21 Uti Limited Partnership Systems and methods for predicting cardiotoxicity of molecular parameters of a compound based on machine learning algorithms
CN109979599A (zh) * 2017-12-27 2019-07-05 中国科学院沈阳自动化研究所 一种基于机器学习的糖尿病智能预测模型的建立方法
CN110129431A (zh) * 2019-05-29 2019-08-16 上海宝藤生物医药科技股份有限公司 一种ii型糖尿病微生物标志物及其应用
CN110507642A (zh) * 2019-10-10 2019-11-29 天津医科大学 靶向菌毛黏附素YadC的宿主受体ANXA2用于改善急性下尿路感染
US20200005947A1 (en) * 2018-06-29 2020-01-02 Fresenius Medical Care Holdings, Inc. Systems and methods for identifying risk of infection in dialysis patients
AU2019101151A4 (en) * 2019-09-30 2020-01-23 Chen, Ke MISS Classify Mental States from EEG Signal Using Xgboost Algorithm

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104561326A (zh) * 2015-01-16 2015-04-29 天津医科大学 一种基于菌毛多样性的尿路感染大肠杆菌的分型方法
US20180172667A1 (en) * 2015-06-17 2018-06-21 Uti Limited Partnership Systems and methods for predicting cardiotoxicity of molecular parameters of a compound based on machine learning algorithms
CN107066791A (zh) * 2016-12-19 2017-08-18 银江股份有限公司 一种基于病人检验结果的辅助疾病诊断方法
CN109979599A (zh) * 2017-12-27 2019-07-05 中国科学院沈阳自动化研究所 一种基于机器学习的糖尿病智能预测模型的建立方法
US20200005947A1 (en) * 2018-06-29 2020-01-02 Fresenius Medical Care Holdings, Inc. Systems and methods for identifying risk of infection in dialysis patients
CN110129431A (zh) * 2019-05-29 2019-08-16 上海宝藤生物医药科技股份有限公司 一种ii型糖尿病微生物标志物及其应用
AU2019101151A4 (en) * 2019-09-30 2020-01-23 Chen, Ke MISS Classify Mental States from EEG Signal Using Xgboost Algorithm
CN110507642A (zh) * 2019-10-10 2019-11-29 天津医科大学 靶向菌毛黏附素YadC的宿主受体ANXA2用于改善急性下尿路感染

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AMAL A.H.GADALLA等: "Identification of clinical and urine biomarkers for uncomplicated urinary tract infection using machine learning algorithms", 《SCIENTIFIC REPORTS》 *
R.ANDREW TAYLOR等: "Predicting urinary tract infections in the emergency department with machine learning", 《PLOS ONE》 *
REBECCA MUNK VEJBORG等: "Comparative Genomics of Escherichia coli Strains Causing Urinary Tract Infections", 《APPLIED AND ENVIRONMENTAL MICROBIOLOGY》 *
XIAO LI等: "Diagnostic Value of the Fimbriae Distribution Pattern in Localization of Urinary Tract Infection", 《FRONTIERS IN MEDICINE》 *
YI REN等: "A High-resolution Typing Assay for Uropathogeni Escherichia coli based on Fimbrial Diversity.", 《FRONTIERS IN MICROBIOLOGY》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313257A (zh) * 2021-06-25 2021-08-27 广州市妇女儿童医疗中心 基于质谱分析数据的gbs菌株的克隆复合体分型系统及应用

Similar Documents

Publication Publication Date Title
WO2016050111A1 (en) Biomarkers for rheumatoid arthritis and usage thereof
US10036074B2 (en) Gene signatures of inflammatory disorders that relate to the liver
CN114898800B (zh) 一种预测肺炎克雷伯菌对头孢曲松敏感性的方法及系统
KR20200047626A (ko) 미생물과 관련된 여성 생식계통-관련 컨디션에 대한 특성화를 위한 방법 및 시스템
Derakhshani et al. The features of fecal and ileal mucosa-associated microbiota in dairy calves during early infection with Mycobacterium avium subspecies paratuberculosis
CN107034279A (zh) 结核病微生物标志物在制备诊断结核病的试剂中的应用
CN114582429B (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
CN111020028A (zh) 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法
WO2022262491A1 (zh) 基于细菌16S rRNA基因序列的细菌&#34;种&#34;水平检测和分析方法
CN110111841B (zh) 动脉粥样硬化的识别模型的构建方法
WO2022140302A1 (en) Sequencing microbial cell-free nucleic acids to detect inflammation, secondary infection, and disease severity
WO2017156739A1 (zh) 分离的核酸及应用
CN109182502A (zh) 用于便秘风险预测的微生物群及应用
CN112746107A (zh) 胃癌相关生物标志物及其在诊断中的应用
CN110218786A (zh) 用于便秘风险预测的特异性引物及其应用
CN109913526B (zh) 微生物在鉴别和/或区分不同民族个体中的应用
CN113265462A (zh) 与胃癌相关的基因及其应用
CN112680521A (zh) 一种以基因作为诊断标志物的产品及其应用
CN114262743B (zh) 中风标志微生物及其应用
CN113930479B (zh) 系统性红斑狼疮标志微生物及其应用
CN103789422B (zh) 一种以vtaA9基因为靶点的引物组及其在副猪嗜血杆菌鉴别和诊断中的应用
CN114214438B (zh) 胆道菌群检测试剂在制备预测胆道结石术后早期复发的试剂中的应用
CN114317674B (zh) 类风湿性关节炎标志微生物及其应用
CN116656851B (zh) 一种生物标志物及其在慢性阻塞性肺疾病诊断方面的应用
CN113913490B (zh) 非酒精性脂肪肝标志微生物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200417

WD01 Invention patent application deemed withdrawn after publication