CN112863601B

CN112863601B - 病原微生物耐药基因归属模型及其建立方法和应用

Info

Publication number: CN112863601B
Application number: CN202110055195.XA
Authority: CN
Inventors: 许腾; 何福生; 张俊杰; 曾伟奇; 张泽武; 苟雪静; 李永军; 王小锐; 苏杭
Original assignee: Guangzhou Weiyuan Medical Equipment Co ltd; Guangzhou Weiyuan Medical Laboratory Co ltd; Shenzhen Weiyuan Medical Technology Co ltd; Weiyuan Shenzhen Medical Research Center Co ltd; Guangzhou Vision Gene Technology Co ltd
Current assignee: Guangzhou Vision Gene Technology Co ltd; Guangzhou Weiyuan Medical Equipment Co ltd; Guangzhou Weiyuan Medical Laboratory Co ltd; Shenzhen Weiyuan Medical Technology Co ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-03-10
Anticipated expiration: 2041-01-15
Also published as: CN112863601A

Abstract

本发明涉及一种病原微生物耐药基因归属模型及其建立方法和应用，属于基因检测技术领域。该方法包括以下步骤：建立病原微生物基因数据库和耐药基因数据库；获取临床样本的病原微生物宏基因组测序数据，得到每个临床样本中病原微生物和所对应的耐药基因序列数据；对上述病原微生物的序列数据和耐药基因序列数据进行聚类分析，获得单个耐药基因与至少一个疑似来源病原微生物的正态分布模型，选取其中病原微生物丰度高且耐药基因序列数与病原微生物序列数强相关的模型，即得。采用该方法得到的病原微生物耐药基因归属模型，能够判断每种耐药基因究竟来源于哪种细菌，弥补了现有技术的缺陷，且具有适用范围广、准确性高的优点。

Description

病原微生物耐药基因归属模型及其建立方法和应用

技术领域

本发明涉及基因检测技术领域，特别是涉及一种病原微生物耐药基因归属模型及其建立方法和应用。

背景技术

进入20世纪以来，抗生素的发现和应用控制了大部分由细菌引起的感染，明显降低了与感染相关疾病的死亡率。但细菌耐药性的出现和广泛传播为临床抗感染治疗带来极大的挑战。

随着抗菌药物在临床上的广泛应用，细菌常会出现耐药性，造成临床治疗的困难。细菌耐药性可分为：①天然或固有的耐药性，其原因可能由于细菌缺少对药物敏感的靶位，或细菌具有天然屏障致药物无法进入细菌体内有关。②获得耐药性，由于细菌DNA改变而获得耐药性，使原来敏感的细菌变为耐药。其中获得性耐药主要由于耐药基因在可移动原件协助下不同物种间或种内的水平转移，造成细菌耐药，是导致细菌耐药的主要原因。

目前临床细菌耐药检测常采用表型检测法，包括稀释法、扩散法(纸片法)等。其中，稀释法是用含一定量被测菌株的一定培养基将抗菌药物作系列稀释，定量测定抗菌药物抑制或杀灭待测细菌的最小抑菌浓度(minimal inhibitory concentration，MIC)或最低杀菌浓度(minimal bactericidal concentration，MBC)。此方法既有定性，又有定量，可比较准确获得耐药信息，但操作繁琐，时间较长。而扩散法(纸片法)是将含有一定量抗菌药物的纸片贴在涂有被测菌株的MH琼脂平板上，置37℃孵育24h，观察有无抑菌圈及其大小。纸片法虽不能定量但简约，是临床常用的方法。目前，临床上也有应用全自动微生物鉴定及药敏分析系统以分析耐药检测，但仍需要经历培养、分离提纯、鉴定三个步骤，至少需要72h提供药敏结果；而且，药敏结果与病原鉴定结果不同步，不能最大化提高临床精准用药。

即上述传统临床药敏检测方法需要时间长，方法操作繁琐、报告结果慢、通量低，往往仍需要先鉴定出菌种，才能进行药敏等后续试验，而难以适应临床治疗需求。

此外，目前市场上也出现了基于固相芯片和基于聚合酶链反应和微流控载体的耐药基因检测试剂盒，分别是采用耐药基因的引物对扩增和特异性探针进行目标序列检测，与基于微流控芯片技术，结合核酸等温扩增技术提供一种耐药基因微流控芯片快速检测试剂盒。

然而，由于临床样本采集过程不可避免会有皮肤定植菌，例如表皮葡萄球菌，以及核酸提取过程中试剂背景菌存在，这些生态菌或背景菌都可能引入耐药基因；而固相芯片或聚合酶链反应检测病原和耐药基因都属于定性检测，难以建立细菌和耐药基因对应关系，存在假阳性风险，同时，不同耐药基因有同源性，引物设计不合理也容易引入假阳性。

病原宏基因组学(mNGS)是一种不依赖于培养，直接从临床标本提取核酸并检测病原体的高通量测序技术。与传统临床的实验室检测方法相比，病原mNGS是基于核酸水平对序列进行检测，可以突破不同病原体类型的局限性，无偏向性的全面覆盖数千种病原体，同时鉴定细菌、真菌、病毒和寄生虫等多种类型病原微生物，病原mNGS已逐渐成为临床微生物鉴定领域的重要工具。

但目前常规的病原宏基因组学检测分析，虽能无偏差同时检测病原微生物基因组信息和耐药基因信息，但同样无法建立病原微生物和耐药基因的对应关系，难以为临床提供准确且有意义的耐药基因信息。

发明内容

基于此，有必要针对上述问题，提供一种病原微生物耐药基因归属模型的建立方法，采用该方法得到的病原微生物耐药基因归属模型，能够判断每种耐药基因究竟来源于哪种细菌，弥补了现有技术的缺陷，且具有适用范围广、准确性高的优点。

一种病原微生物耐药基因归属模型的建立方法，包括以下步骤：

建立病原微生物基因数据库：获取病原微生物参考基因数据，构建病原微生物基因数据库；

建立耐药基因数据库：获取耐药基因参考数据，以基因为单位进行序列相似性整合，并去除质粒同源性片段，构建耐药基因数据库；

获取病原微生物和耐药基因数据：获取临床样本的病原微生物宏基因组测序数据，分别比对到上述病原微生物基因数据库和耐药基因数据库，得到每个临床样本中病原微生物的序列数据和所对应的耐药基因序列数据；

建立耐药基因-病原微生物归属模型：对上述病原微生物的序列数据和耐药基因序列数据进行聚类分析，获得单个耐药基因与至少一个疑似来源病原微生物的正态分布模型，选取其中病原微生物丰度高，且耐药基因序列数与病原微生物序列数强相关的模型，即为病原微生物耐药基因归属模型。

本发明人基于长期实践经验的基础上，经过调研总结和实验初筛后发现，按照耐药基因来源进行划分：1)如果耐药基因由质粒携带，细菌群体里面携带耐药基因的质粒的占比为一个比较稳定的比例，既不由于携带耐药基因过多造成能量的消耗，又能在有药物刺激时应对，能够有足够比例的菌株能获得生存繁殖空间；2)如果耐药基因位于细菌基因组上，目前大部分感染都是单株型感染，则耐药基因与细菌的比例则更加稳定。

据此，耐药基因与细菌的比例为一个较为稳定的值，反映在病原宏基因组测序序列上，就是两者序列数的比值是较为稳定的一个范围。

基于上述理论和分析，本发明人基于本司已有5万例临床样品宏基因组测序数据展开分析，对细菌和耐药基因进行定量分析，使用高斯混合模型(正态分布)进行聚类获得细菌满足耐药的样品。

由于不同病原体微生物体中包含的耐药基因的比例是不同的，每1000000条微生物序列对应于多少条耐药基因序列，受到不同细菌的基因组特征、细菌种类等因素的影响，反映在序列数比值分布上，就是不同均值、方差的正态分布。

即本发明所述以最大似然概率和期望值最大算法对上述病原微生物的序列数据和耐药基因序列数据进行聚类分析，可获得单个耐药基因与至少一个疑似来源病原微生物的正态分布模型，再挑选丰度高，且耐药基因序列数与病原微生物序列数强相关的正态分布模型，即可推断样品中耐药基因是来源于哪种微生物。

可以理解的，上述病原微生物基因数据库和耐药基因数据库中各病原微生物种类和耐药基因，均可基于目前科学研究进展纳入，优选具有明确临床意义的且重要的病原微生物和耐药基因。对于病原微生物参考基因数据和耐药基因参考数据，可从CARD、NCBI、MEGARes等权威数据库中获取。

可以理解的，本发明的方法可应用于细菌和/或真菌中，由于病毒的耐药多为点突变造成，因此，该方法无法用于病毒中。

在其中一个实施例中，所述建立耐药基因-病原微生物归属模型步骤中，通过以下方法进行聚类分析：

计算耐药基因序列与病原微生物序列的对数比值(即进行了log转换的比值)，对该对数比值用高斯混合模型进行聚类分析，具体过程为：先以期望值最大算法进行迭代，对于每个临床样本分别计算该耐药基因由该混合模型内的每种病原微生物携带的概率，获得每种病原微生物携带该耐药基因的先验概率，并获得每种病原微生物携带该耐药基因时，测序观察到耐药序列的条件概率；然后使用最大似然概率算法计算每个样品在该耐药基因序列和病原微生物序列观察值下，该耐药基因最可能是属于哪种病原微生物分类，从而实现聚类。

在其中一个实施例中，所述建立耐药基因-病原微生物归属模型步骤中，在获得病原微生物耐药基因归属模型后，还对该模型进行筛选质控，保留同时符合以下条件的模型：

1)符合该模型的临床样本数≥30个；

2)该模型中作为来源归属的病原微生物丰度中位数≥1000条序列；

3)所述耐药基因序列数与病原微生物序列数强相关的条件为：pearson相关系数，spearman相关系数，线性系数均具有统计学意义的显著性(即p≤0.05)，且相关系数cor≥0.6；

4)该模型中耐药基因序列数与病原微生物序列数比值密度分布在log维度下为正态分布；

5)模型中耐药基因序列数与病原微生物序列数的比值的中位数，与该耐药基因组长度和所对应病原微生物基因组长度的理论比值相匹配。

上述对各种条件的筛选质控中，由于需要有足够的检出样品数才能保证结果的稳定性，因此限定符合该模型的临床样本数≥30个。由于细菌的平均基因组长度为5000,000bp左右，耐药基因长度平均在1000bp左右，因此有足够丰度的细菌序列检出才能保证耐药基因检出序列是可靠的，因此，可限定作为来源归属的病原微生物丰度中位数应≥1000条。

可以理解的，如耐药基因统一标准化到1000bp，病原微生物基因组长度也为相对固定的范围，比如肺炎克雷伯菌的基因组长度是5333942bp左右，如果观察到某个高斯混合模型(GMM)聚类出来的类(即样品的集合)，耐药基因序列数与细菌序列数的比值的中位数应接近1000/5333942，则认为该类的耐药基因是来源于肺炎克雷伯菌。

优选的，所述模型中耐药基因序列数与病原微生物序列数的比值的中位数，与该耐药基因组长度和所对应病原微生物基因组长度的理论比值相匹配，具体指理论比值范围为参考基因组比值的0.1-50倍。

在其中一个实施例中，所述获取病原微生物和耐药基因数据步骤中，获取临床样本的病原微生物宏基因组测序数据后，先去除低质量测序数据，再比对到人参考基因组，去除人源序列，得到非人基因组序列，按照以下方法分析数据：

分析得到病原微生物的序列数据：将获得的非人基因组序列比对到所述病原微生物基因数据库；根据比对序列数进行病原微生物丰度的定量计算，并解读判断每个临床样本检出的病原体微生物，获得病原微生物的序列数据；

分析得到耐药基因的序列数据：将获得的非人基因组序列比对到所述耐药基因数据库，根据比对序列数进行耐药基因丰度的定量计算，获得耐药基因的序列数据。

在其中一个实施例中，所述获取病原微生物和耐药基因数据步骤中：对于每个耐药基因按基因长度1000±100bp进行标准化处理，如该耐药基因对应多个参考序列版本，则选择标准化后丰度最高的版本作为该耐药基因的丰度。

在其中一个实施例中，所述建立耐药基因-病原微生物归属模型步骤中，还对所得病原微生物耐药基因归属模型按照正态分布95％置信区间的计算方法，获得对应的耐药基因与病原微生物比例的95％置信区间。

在其中一个实施例中，所述耐药基因包括：mecA、mecC、msr(A)、mef(A)、erm(A)、erm(B)、erm(C)、TEM、SHV、CTX-M、DHA、KPC、IMP、NDM、OXA-23、OXA-24、OXA-48、OXA-51、VIM、SIM、DIM、vanA、vanB、vanC、qnrA、qnrB、qnrS、Sul1、Sul2、nimA、nimB、fosA3、mcr-1、tet(A)、aac(6')中的至少一种。

可以理解的，上述模型建立方法适用的样本类型广泛，包括但不限于肺泡灌洗液、痰液、咽拭子，以及血液、脑脊液等，病原宏基因(宏转录)组的样本类型的适用中。

本发明还公开了上述的病原微生物耐药基因归属模型的建立方法得到的病原微生物耐药基因归属模型。

本发明还公开了上述的病原微生物耐药基因归属模型在制备病原微生物耐药基因检测装置中的应用。

将上述病原微生物耐药基因归属模型应用于病原微生物耐药基因检测中，具有明显的优势：与常规细菌培养方法相比，本发明基于病原微生物宏基因(转录)组测序方案，无需培养，样品采样需求很小，只需要几毫升即可；肺泡灌洗液、痰液、血液、脑脊液等各种样品类型只要包含有病原微生物的核酸序列，均可以用于检测，无样品类型限制；一次可以检测所有可能的微生物，不受微生物类型的限制；可以在24小时内同时检出病原菌，以及该份样品里面包含的所有耐药基因。

由于常规基于固相芯片和基于聚合酶链反应和微流控载体的耐药基因检测方案只能检测特定的少量耐药基因，或者是少量细菌类型，并且无法把耐药基因与细菌对应起来，耐药基因可能来源于采样皮肤微生物污染或者由微生态细菌携带，导致结果受限且会带来假阳性。本发明基于病原微生物宏基因(转录)组测序方案，可以一次检测样品里面包含的所有耐药基因，以及所有的细菌，结合模型可以判断每种耐药基因究竟来源于哪种细菌，具有适用范围广且准确性高的优势。

本发明还公开了一种病原微生物耐药基因检测装置，包括：

存储装置，用于存储上述的病原微生物基因数据库和耐药基因数据库；

分析装置，用于获取待测样本的病原微生物宏基因组测序数据，并按照上述方法分析得到该样本中病原微生物的序列数据和所对应的耐药基因序列数据；并对病原微生物耐药基因归属模型按照正态分布95％置信区间的计算方法，获得对应的耐药基因与病原微生物比例的95％置信区间，设为阈值判断区间；将待测样本中耐药基因序列和病原微生物序列的比值与所述阈值判断区间进行比较，如该待测样本中耐药基因序列和病原微生物序列的比值落入所述阈值判断区间，则判断该耐药基因归属于此模型的病原微生物；

输出装置，用于输出上述判断结果。

可以理解的，上述各对应的耐药基因与病原微生物比例的95％置信区间，可以预先根据大样本量的数据计算得到而预存，在进行个别临床样本的耐药基因检测时，直接调用比较即可。

本发明还公开了一种非诊断目的的病原微生物耐药基因检测方法，包括以下步骤：

检测：取待测样本，进行病原微生物宏基因组检测，获得测序数据；

分析：按照上述方法分析得到该样本中病原微生物的序列数据和所对应的耐药基因序列数据；并对病原微生物耐药基因归属模型按照正态分布95％置信区间的计算方法，获得对应的耐药基因与病原微生物比例的95％置信区间，设为阈值判断区间；将待测样本中耐药基因序列和病原微生物序列的比值与所述阈值判断区间进行比较，如该待测样本中耐药基因序列和病原微生物序列的比值落入所述阈值判断区间，则判断该耐药基因归属于此模型的病原微生物。

与现有技术相比，本发明具有以下有益效果：

本发明的一种病原微生物耐药基因归属模型的建立方法所得模型，可用于检测耐药基因，特别是可用于将耐药基因的来源归属明确，建立病原微生物和耐药基因的对应关系，且具有无需培养，采样需求小，样本类型无限制，检出时间短，检出耐药基因全面的优势。

附图说明

图1为实施例1中mecA序列与病原微生物序列比值模型示意图；

图2为标准正态分布的95％置信区间示意图；

图3为实施例2中检出金黄色葡萄球菌的样品的归属模型示意图；

图4为实施例2中mecA基因与金黄色葡萄球菌的比值分布的盒子图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

以下实施例所用试剂，如非特别说明，均为市售可得。

实施例1

1、建立病原微生物基因数据库。

获取参考病原微生物基因组数据，构建病原微生物基因组数据库，可按常规方法进行，本实施例中，采用本司申请号为201910779825.0的中国发明专利所公开技术方案构建得到的病原微生物基因组数据库进行后续分析比对。

可以理解的，本发明的方法并不受限于病原微生物的具体数据库，开源通用的数据库均可。

2、建立耐药基因数据库。

2.1调研获得临床意义明确的耐药基因列表。

基于目前科学研究进展，收集具有明确临床意义的且重要的耐药基因列表，包括mecA、mecC、msr(A)、mef(A)、erm(A)、erm(B)、erm(C)、TEM、SHV、CTX-M、DHA、KPC、IMP、NDM、OXA-23、OXA-24、OXA-48、OXA-51、VIM、SIM、DIM、vanA、vanB、vanC、qnrA、qnrB、qnrS、Sul1、Sul2、nimA、nimB、fosA3、mcr-1、tet(A)、aac(6')。

2.2建立耐药基因数据库

从CARD(https://card.mcmaster.ca/)，NCBI(https://www.ncbi.nlm.nih.gov/pathogens/isolates#/refgene/)，和MEGARes(https://megares.meglab.org/)等耐药数据库下载耐药基因参考序列。

1)获取参考耐药基因序列数据。

本实施例中，从CARD数据库下载核酸序列版本文件nucleotide_fasta_protein_homolog_model.fasta，包含了2632条参考序列；从MEGARes下载megares v2.0耐药基因参考序列，该数据库包含了7126条参考序列；从NCBI下载耐药基因参考序列，该数据库包含了5505条参考序列。

2)以基因为单位进行序列相似性整合，并去除质粒同源性片段。

对耐药基因各个数据库不同命名进行手工整理，统一规范。首先比较CARD、NCBI、MEGARes三个数据库的序列，相同序列名字或者序列碱基的，进行统一命名和去冗余。命名规则主要参考MEGARes的命名规律，有多个序列版本的，比如TEM有296个序列版本名字，最终按TEM基因名来作为单元；或者基因家族的，比如OXA-48-like，包含了OXA-48、OXA-162、OXA-163、OXA-181等基因，则以OXA-48作为最终单元。

对参考序列去冗余和按单元规范分类后，需要去除每个单元里面包含有质粒基因组部分的序列，这些序列一般位于耐药基因的开头或者结尾，据此去除质粒基因片段。

3)通过上述数据处理，最终构建获得耐药数据库ARG v1.0，即为耐药基因数据库。

3、获取病原微生物和耐药基因数据。

3.1数据处理。

获取临床样本的病原微生物宏基因组测序(mNGS)数据，首先使用fastp软件去除接头、低质量或者长度小于35bp的序列；然后用bwa软件比对到人参考基因组，去除比对到人参考基因上的序列；之后，获得非人基因组序列(unHost Reads)

分别比对到上述病原微生物基因数据库和耐药基因数据库，得到每个临床样本中病原微生物的序列数据和所对应的耐药基因序列数据。

3.2病原微生物定量分析流程。

将上述非人基因组序列用bwa比对到上述病原微生物基因数据库(包含18562种微生物的参考序列)；根据比对序列数进行微生物丰度的定量以及解读判断每个临床样品的病原体微生物。

3.3耐药基因定量分析流程。

将上述非人基因组序列(reads)用bwa比对到耐药数据库ARG v1.0；根据比对序列数进行耐药基因的丰度的定量以及覆盖度计算；最后，对于每个耐药基因按基因长度1000bp进行标准化处理，如果一种耐药基因有多个参考序列版本，考虑到每个临床样本里面，每种耐药基因通常只包含其中一种序列版本，表现在样品的比对reads数上，就是丰度最高的那个参考版本，因此选择标准化后丰度最高的版本作为该耐药基因的丰度及覆盖度计算参考，示例说明如下：

用bwa软件将序列比对到耐药数据库ARG v1.0，对于每条序列，如果比对到耐药基因的比对率大于90％且错配率小于8％，则认为该序列比对上了该耐药基因；然后统计每种耐药基因比对到的序列数，以及序列覆盖到耐药基因的区域比例(覆盖度)；最后，由于每种耐药基因有多个版本的参考序列，基因长度不同，为了方便模型计算，统一标准化到1000bp，即以比对符合序列数除以该版本基因长度数值，再乘以1000，比如耐药基因A有两个版本A1和A2，其中A1的长度为600bp，比对到了5条序列，A2的长度为800bp，比对到了7条序列，那么按1000bp标准化来计算，A1比对到的序列值为5/600×1000＝8.33，A2比对到的序列值为7/800×1000＝8.75，因此，A基因最终的丰度为8.75(选择标准化后值最大的版本)。

4、建立耐药基因-病原微生物归属模型。

对上述病原微生物的序列数据和耐药基因序列数据进行聚类分析计算耐药基因序列与病原微生物序列的对数比值，对该对数比值用高斯混合模型进行聚类分析，具体过程为：先以期望值最大算法进行迭代，对于每个样品分别计算该耐药基因由该混合模型内的每种病原微生物携带的概率，获得每种病原微生物携带该耐药基因的先验概率，并获得每种病原微生物携带该耐药基因时，测序观察到耐药序列的条件概率；然后使用最大似然概率算法计算每个样品在该耐药基因序列和病原微生物序列观察值下，该耐药基因最可能是属于哪种病原微生物分类，从而实现聚类。获得单个耐药基因与至少一个疑似来源病原微生物的正态分布模型。

以下以mecA耐药基因为例进行说明。

本实施例中，首先计算耐药基因mecA和病原微生物的序列比例，并进行log转换，然后用R软件mclust包对这个log转换后的比例进行高斯正态分布模型分类。

具体过程为：先以期望值最大算法进行迭代，对于每个样品分别计算该耐药基因由该混合模型内的每种病原微生物携带的概率，获得每种病原微生物携带该耐药基因的先验概率，并获得每种病原微生物携带该耐药基因时，测序观察到耐药序列的条件概率；然后使用最大似然概率算法计算每个样品在该耐药基因序列和病原微生物序列观察值下，该耐药基因最可能是属于哪种病原微生物分类，从而实现聚类。

经过上述分析发现，mecA耐药基因可能来源于金黄色葡萄球菌、头葡萄球菌、表皮葡萄球菌、阴沟肠杆菌等4种不同细菌，如图1所示。

从图中可以看出，mecA-金黄色葡萄球菌归属模型为一个很强的高斯正态分布强相关的类，而归属于其它菌种的均为较小的类，因此，之后挑选其中病原微生物丰度高且耐药基因reads与细菌reads线性最相关(即强相关)的模型，由于可能存在强影响点对线性模型的影响，计算线性相关时使用的是R软件的robustbase稳健回归模型，保证结果的稳健性。

通过上述分析，可认定mecA耐药基因来源于金黄色葡萄球菌，得到mecA-金黄色葡萄球菌归属模型。

对上述获得的类(mecA-金黄色葡萄球菌归属模型)进行质控，符合以下要求：

1)符合该模型的临床样本数≥30个，符合质控要求；

2)该模型中作为来源归属的病原微生物丰度中位数≥1000bp，符合质控要求；

3)所述耐药基因序列数与病原微生物序列数强相关的条件为：pearson相关系数，spearman相关系数，线性系数均显著p≤0.05，且相关系数cor≥0.6，符合质控要求；

4)该模型中耐药基因序列数与病原微生物序列数比值密度分布在log维度下为正态分布。

该模型中样品里面金黄色葡萄球菌的序列reads中位数不能小于1000，耐药基因reads数与金黄色葡萄球菌reads数线性相关显著且pearson和spearman相关系数均大于0.6，为强相关，符合质控要求；

5)模型中耐药基因(mecA)序列数与病原微生物(金黄色葡萄球菌)序列数的比值的中位数为0.000357，而mecA与金黄色葡萄球菌的基因组大小比值为0.000354，非常接近，几乎相等，符合质控要求。

上述mecA-金黄色葡萄球菌归属模型的高斯正态分布图如图1所示，从图上进行观察也可看出比例分布存是正态分布形态。

5、耐药基因与细菌比例置信区间。

按照如图2所示标准正态分布的95％置信区间方式，计算上述mecA-金黄色葡萄球菌归属模型的正态分布95％置信区间，也即是log维度下的均值±1.96倍方差，即为mecA基因与金黄色萄球菌的比例的95％置信区间[8.7e-05，1.9e-3]，对应基因组比值的范围是[0.24，5.3]，也即是耐药株的平均一个金黄色葡萄球菌基因组可以携带不低于0.24个mecA耐药基因至不高于5.3个耐药基因。

实施例2

从5万例临床样品里面，挑选601例检出金黄色葡萄球菌的样品，首先计算耐药基因mecA和金黄色葡萄球菌Staphylococcus_aureus的序列比例，并进行log转换。

以实施例1的mecA-金黄色葡萄球菌归属模型把mecA与金黄色葡萄球菌Staphylococcus aureus的序列比例分为3类(A，B，C)，如图3所示，其中B类是满足模型的样品(来源于金黄色葡萄球菌)，A类可能是来自表皮葡萄球菌、人葡萄球菌等其他种类细菌的样品，C类是无mecA序列检出的样品；

图4为mecA基因与金黄色葡萄球菌的比值分布的盒子图，其中上下两条虚线之间是满足模型的样品比值分布的95％置信区间[8.7e-5，1.9e-3]。我们后续应用时，即可以根据mecA与金黄色葡萄球菌序列的比值是否落在该区间来判断该mecA耐药基因是否来源于金黄色葡萄球菌。

实施例3

临床分离株模型验证。

1、样本来源。

将58例临床分离株样本(S1-S58)从4℃冰箱拿出，待处理。这58例样品临床培养细菌信息以及耐药信息如下表所示，包括抗生素敏感和耐药肺炎克雷伯菌，抗生素敏感和耐药的金黄色葡萄球菌。

表1.临床分离株信息

2、模拟临床样本

对上述临床分离株采用三区划线法接种于血平板上，37℃培养箱孵育。第三天使用无菌Tip头挑选直径大于2mm的单克隆置于100ml LB液体无菌培养基中，37℃摇床230rpm/min振荡过夜。第二天将菌液充分摇匀后，取100μL梯度稀释到900μL LB无菌培养基中，然后取100μL继续按1:10梯度稀释至1:1000万，将最后三个稀释梯度的菌液取100μL滴加到预热的血平板上，使用一次性无菌涂布棒涂布均匀后置于37℃培养过夜，每个浓度涂布三块平板。涂板后第二天对菌落进行计数，推算得到母液病原浓度。

配置2×10⁵cell/ml浓度的Hela细胞溶液作为基质，取900ul Hela细胞基质液，分别加入100ul稀释好的病原溶液，病原终浓度为5×10⁵CFU/ml；得到模拟临床样本。

3、样本提取

所得样本按照以下流程提取核酸：按照北京天根生化有限公司微量样本基因组DNA提取试剂盒(DP316)方法，提取模拟临床样本的DNA,核酸提取步骤包括：

1)上述预处理后得到的600μl样品，加入到含玻璃珠破壁管中，采用物理震荡仪进行物理破壁。

2)短暂离心后，取300μl样品到新的1.5ml管中，加10μl Proteinase K溶液，加入100μl预混Carrier RNA(浓度1μg/μl)的GB，轻轻颠倒混匀，短暂离心以去除管盖内壁的液滴。

3)56℃温浴10min，并不时轻摇样品。

4)在样品中加入从-20℃冻存的无水乙醇。轻轻颠倒混匀样品，室温放置3min。短暂离心以去除管盖内壁的液滴。

5)将上一步所得溶液都加到一个吸附柱CR2中，12000rpm离心30sec，弃废液，将吸附柱CR2放回收集管中。

6)向吸附柱CR2中加入500μl缓冲液GD，12000rpm离心30sec，弃废液，将吸附柱CR2放回收集管中。

7)向吸附柱CR2中加入600μl缓冲液PW，12000rpm离心30sec，弃废液，将吸附柱CR2放回收集管中。

8)重复操作步骤7)。

9)12000rpm离心2min，倒掉废液。将吸附柱CR2置于室温放置2-5min，以彻底晾干吸附材料中残余的漂洗液。

10)将吸附柱CR2转入一个干净的离心管中，向吸附膜中间位置悬空滴加50μl洗脱缓冲液TB，室温放置2-5min，12000rpm离心2min，将溶液收集到离心管中。

11)采用Qubit 3.0荧光定量仪(Thermofisher)准确定量DNA样本浓度。

4、文库构建。

1)预先取出﹣20℃保存的5×TTBL和TTE Mix V1，4℃融化，充分混匀后短暂离心。取出4℃保存的磁珠，室温平衡30min，充分振荡混匀后短暂离心备用。

2)DNA片段化：按照4μl 5xTTBL，1ng DNA，5μl TTE mix V1，补齐ddH₂O至20μl，配置反应体系；在PCR中运行如下反应程序：105℃热盖，55℃10min，10℃保存。

3)反应完成后立即向产物中加入5μl 5xTS，使用移液器轻轻吹打充分混匀，置于室温放置5min。

4)PCR富集：按照如下体系配置，25μl步骤3产物，10μl 5xTAB，上下游引物各5μl，1μl TAE，使用移液器轻轻吹打混匀，将反应管置于PCR仪中，运行如下反应程序：105℃热盖，72℃3min，98℃30sec，此后98℃15sec，60℃30sec，72℃3min进行5-15个循环，72℃5min，4℃保存。

5)PCR反应后进行扩增产物长度分选。

6)产物分选：将提前室温平衡好的磁珠，按照第一轮0.7x，第二轮磁珠用量0.15x分选平均长度为350bp的文库片段。

5、上级测序。

构建好的核酸文库采用Illumina NEXTSEQ550进行测序。每个样本测序20M reads数据量。

6、测序数据分析。

以实施例2建立得到的耐药基因-病原微生物归属模型，判断耐药基因的归属，结果如下表所示：

表2.模拟临床样本耐药基因检出

上述结果说明：58个临床培养样品里面，33个是培养出肺炎克雷伯菌(肺克)，25个是培养出金黄色葡萄球菌(金葡)。

临床耐药培养5株敏感肺克(肺炎克雷伯菌)，mNGS也未检出临床有意义的耐药基因；临床9株肺克(碳青霉烯)，mNGS检出并模型判断为7个KPC和2个NDM；临床19株肺克(头孢)，4例是mNGS检出并模型判断CTX-M耐药，15例是同时模型判断CTX-M，TEM多重耐药；8例临床敏感金葡菌株，有5例无耐药检出，3例mecA检出低于模型阈值，判断为敏感；17例耐甲氧西林金葡菌株，12例检出mecA并模型判断耐药，5例未有mecA耐药序列检出(mNGS灵敏度或者有其他未考虑进模型的耐药基因)，1例耐药但mecA序列检出低于阈值(模型判断错误)。总体mNGS耐药准确样品数是52例，判断错误6例，判断准确率是90％。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种病原微生物耐药基因归属模型的建立方法，其特征在于，包括以下步骤：

获取病原微生物和耐药基因数据：获取临床样本的病原微生物宏基因组测序数据，分别比对到上述病原微生物基因数据库和耐药基因数据库，得到每个临床样本中病原微生物的序列数据和所对应的耐药基因序列数据；具体为：获取临床样本的病原微生物宏基因组测序数据后，先去除低质量测序数据，再比对到人参考基因组，去除人源序列，得到非人基因组序列，按照以下方法分析数据：

1）分析得到病原微生物的序列数据：将获得的非人基因组序列比对到所述病原微生物基因数据库；根据比对序列数进行病原微生物丰度的定量计算，并解读判断每个临床样本检出的病原体微生物，获得病原微生物的序列数据；

2）分析得到耐药基因的序列数据：将获得的非人基因组序列比对到所述耐药基因数据库，根据比对序列数进行耐药基因丰度的定量计算，获得耐药基因的序列数据；

建立耐药基因-病原微生物归属模型：对上述病原微生物的序列数据和耐药基因序列数据进行聚类分析，获得单个耐药基因与至少一个疑似来源病原微生物的正态分布模型，选取其中病原微生物丰度高，且耐药基因序列数与病原微生物序列数强相关的模型，即为病原微生物耐药基因归属模型；

所述建立耐药基因-病原微生物归属模型步骤中，通过以下方法进行聚类分析：

计算耐药基因序列与病原微生物序列的对数比值，对该对数比值用高斯混合模型进行聚类分析，具体过程为：先以期望值最大算法进行迭代，对于每个样品分别计算该耐药基因由该混合模型内的每种病原微生物携带的概率，获得每种病原微生物携带该耐药基因的先验概率，并获得每种病原微生物携带该耐药基因时，测序观察到耐药序列的条件概率；然后在该耐药基因序列和病原微生物序列观察值下使用最大似然概率算法对每个样品进行计算，判断该耐药基因是属于哪种病原微生物分类，从而实现聚类。

2.根据权利要求1所述的病原微生物耐药基因归属模型的建立方法，其特征在于，所述建立耐药基因-病原微生物归属模型步骤中，在获得病原微生物耐药基因归属模型后，还对该模型进行筛选质控，保留同时符合以下条件的模型：

1）符合模型的临床样本数≥30个；

2）模型中作为来源归属的病原微生物丰度中位数≥1000条序列；

3）所述耐药基因序列数与病原微生物序列数强相关的条件为：pearson相关系数，spearman相关系数，线性系数均具有统计学意义的显著性，且相关系数cor≥0.6；

4）模型中耐药基因序列数与病原微生物序列数比值密度分布在log维度下为正态分布；

5）模型中耐药基因序列数与病原微生物序列数的比值的中位数，与该耐药基因组长度和所对应病原微生物基因组长度的理论比值相匹配。

3.根据权利要求2所述的病原微生物耐药基因归属模型的建立方法，其特征在于，所述获取病原微生物和耐药基因数据步骤中：对于每个耐药基因按基因长度1000±100bp进行标准化处理，如果该耐药基因对应多个参考序列版本，则选择标准化后丰度最高的版本作为该耐药基因的丰度。

4.根据权利要求1所述的病原微生物耐药基因归属模型的建立方法，其特征在于，所述建立耐药基因-病原微生物归属模型步骤中，还对所得病原微生物耐药基因归属模型按照正态分布95%置信区间的计算方法，获得对应的耐药基因与病原微生物比例的95%置信区间。

5.根据权利要求1所述的病原微生物耐药基因归属模型的建立方法，其特征在于，所述耐药基因包括：mecA、mecC、msr(A)、mef(A)、erm(A)、erm(B)、erm(C)、TEM、SHV、CTX-M、DHA、KPC、IMP、NDM、OXA-23、OXA-24、OXA-48、OXA-51、VIM、SIM、DIM、vanA、vanB、vanC、qnrA、qnrB、qnrS、Sul1、Sul2、nimA、nimB、fosA3、mcr-1、tet(A)、aac(6')中的至少一种。

6.权利要求1-5任一项所述的病原微生物耐药基因归属模型的建立方法得到的病原微生物耐药基因归属模型。

7.一种病原微生物耐药基因检测装置，其特征在于，包括：

存储装置，用于存储权利要求1所述的病原微生物基因数据库和耐药基因数据库；

分析装置，用于获取待测样本的病原微生物宏基因组测序数据，并按照权利要求1所述方法分析得到该样本中病原微生物的序列数据和所对应的耐药基因序列数据；并对病原微生物耐药基因归属模型按照正态分布95%置信区间的计算方法，获得对应的耐药基因与病原微生物比例的95%置信区间，设为阈值判断区间；将待测样本中耐药基因序列和病原微生物序列的比值与所述阈值判断区间进行比较，如果该待测样本中耐药基因序列和病原微生物序列的比值落入所述阈值判断区间，则判断该耐药基因归属于此模型的病原微生物；

输出装置，用于输出上述判断的结果。

8.一种非诊断目的的病原微生物耐药基因检测方法，其特征在于，包括以下步骤：

分析：按照权利要求1所述方法分析得到该样本中病原微生物的序列数据和所对应的耐药基因序列数据；并对病原微生物耐药基因归属模型按照正态分布95%置信区间的计算方法，获得对应的耐药基因与病原微生物比例的95%置信区间，设为阈值判断区间；将待测样本中耐药基因序列和病原微生物序列的比值与所述阈值判断区间进行比较，如该待测样本中耐药基因序列和病原微生物序列的比值落入所述阈值判断区间，则判断该耐药基因归属于此模型的病原微生物。