CN117106946A

CN117106946A - 用于新型冠状病毒感染患者无创诊断的口腔真菌微生物基因标志物及其应用

Info

Publication number: CN117106946A
Application number: CN202310442340.9A
Authority: CN
Inventors: 胡小波; 王海宇; 任志刚
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-11-24

Abstract

本发明属于生物医药技术领域，具体涉及一种用于新型冠状病毒感染患者无创诊断的口腔真菌微生物基因标志物及其应用。本发明提供了一种用于区别新型冠状病毒感染和非感染者的口腔真菌微生物模型(基因标志物)，由SEQ ID NO:1‑2所示的2种真菌微生物基因组成，所述微生物基因在人体口腔中富集。本发明的真菌微生物基因标志物(模型)在新冠肺炎感染患者和非感染者中实现了良好的区别能力，也验证了该区别模型在中国不同地域中的可行性、适用性和普适性。同时证明了该真菌区别模型能够弥补RT‑PCR检测的不足，将感染新冠病毒的疑似患者从健康人群的鉴定出来。

Description

用于新型冠状病毒感染患者无创诊断的口腔真菌微生物基因标志物及其应用

技术领域

本发明属于生物医药技术领域，具体涉及一种用于新型冠状病毒感染患者无创诊断的口腔真菌微生物基因标志物及其应用。

背景技术

通过逆转录聚合酶链反应(reverse transcription-polymerase chainreaction,RT-PCR)进行核酸检测来判断是否感染新型冠状病毒(Severe AcuteRespiratory Syndrome Coronavirus 2，SARS-CoV-2)，是目前公认的诊断“金标准”。但是，由于病毒窗口期、采样及实验操作失误等各方面的原因，感染新型冠状病毒后，部分患者经RT-PCR检测出现假阴性的结果，且假阴性率高达20％，这极大的增加了疾病的传染源和传播范围。因此，建立一种新的区别健康人和新型冠状病毒感染者的诊断模型，以弥补现有检测方法的不足，对于新型冠状病毒感染防治工作具有重大意义。

正常人体寄居的微生物种类超过1000种，数量高达100万亿。这些数量庞大的微生物和人体内环境相互作用，共同构成了人体微生态系统。口腔微生态系统作为消化系统的起始端，是人体微生态系统的重要组成部分，与人体健康和疾病密切相关。口腔拥有仅次于肠道的人体第二大微生物群落，包括细菌、真菌、病毒等，与人类健康息息相关。许多研究都集中在健康和疾病中的人类细菌组，很少关注人类真菌组。这可能是由于人类微生物组中真菌的比例很小，不到1％。然而，真菌在人类健康和疾病状态中起着关键作用。它维持微生物群落的结构和代谢，与细菌相互作用，参与宿主免疫反应，从而调节炎症反应的程度，影响人体健康和疾病状态，如人类免疫缺陷病毒、炎症肠病、哮喘。现有研究阐明了COVID-19患者的口腔细菌特征，并将口腔细菌与COVID-19的严重程度联系起来。然而，COVID-19患者和康复者的口腔真菌改变情况仍不清楚。

口腔微生态的特征或者基于口腔微生物建立的区别模型作为特定疾病或肿瘤的区分工具正越来越多被广泛报道和认可。口腔菌群可反映人对疾病的易感性，提示口腔菌群具有潜在的预警和诊断作用。Burkhardt F等(Gut，2017年)通过宏基因组学报道了口腔微生态与结直肠癌的相关性，指出16个菌种可能成为区分结直肠癌的口腔微生物标志物。Zhang X等(Nature Medicine,2015年)通过宏基因组测序技术解析了中国人群类风湿性关节炎患者的口腔微生态结果，在微生物基因和功能水平上，鉴定了类风湿性特异性的6个牙齿微生物标志物和2个唾液微生物标志物，创建了两个高准确度的类风湿性关节炎患者区分模型。Richard B等(JAMA Oncology，2018)等指出口腔中共生Corynebacterium和Kingella的丰度越高，头颈部鳞状细胞癌的风险就越低，这对癌症的预防有潜在的意义。我们先前的研究(Gut，2021)指出口腔细菌标志物能够有效诊断新型冠状病毒感染患者，并成功实现跨区域验证。因而，口腔微生物可能是不同疾病诊断的有力工具。然而，用于区别新型冠状病毒感染和非感染者的口腔真菌微生物模型还未曾有人报道过。

发明内容

本发明提供了一种用于区别新型冠状病毒感染和非感染者的口腔真菌微生物模型(基因标志物)，由SEQ ID NO:1-2所示的2种真菌微生物基因组成，所述微生物基因在人体口腔中富集。

2种真菌微生物基因序列如下：

>OTU4

GCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCAACTTGCGCTctctGGTATTCCGGAGAGCATGCCTGTTTGAGTGTCATGATCtctcAACCAATAGAGTTTTCTATTGGCTTGGATCTGGGTGCTGCGAAACAATCGCTCACCTTAAAGGAGTTAGCAACTAAGCGATGTCGTCCGACGTAATAAGTTTCGTCTGGTAATTCGACTGAGCCAATTGCTTCTAATTGTCTTTTGACTTttttGACTCTGG

>OTU925

GCATGATAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCAACTTGCGCTctctGGTATTCCGGAGAGCATGCCTGTTTGAGTGTCATGATCtctcAACCAATAGAGTTTTCTATTGGCTTGGATCTGGGTGCTGCGAAACAATCGCTCACCTTAAAGGAGTTAGCAACTAAGCGATGTCGTCCGACGTAATAAGTTTCGTCTGGTAATTCGACTGAGCCAATTGCTTCTAATTGTCTTTTGACTTttttGACTCTGGCC

另外本发明还提供了一种用于检测试剂，包括用于检测SEQ ID NO:1-2所示的2种真菌微生物基因的引物SEQ ID NO:3-4，序列如下：

引物Primers

测序区域ITS2

上游引物：ITS3F GCATCGATGAAGAACGCAGC

下游引物：ITS4R TCCTCCGCTTATTGATATGC

本发明还提供了检测试剂在建立一种区别新型冠状病毒感染和非感染者的口腔真菌微生物模型中的应用，所述检测试剂适用于检测SEQ ID NO:1-2所示的2种真菌微生物基因。

所述微生物区别模型适用于区别新型冠状病毒感染和非感染者，新型冠状病毒感染者包括RT-PCR检测阳性的确诊患者及RT-PCR检测阴性但IgG抗体阳性的临床诊断患者(疑似患者)。

对所述对象的舌苔进行检测，以便确定该样本是否包含所述的真菌微生物基因，是否可以建立区别新型冠状病毒感染和非感染者的真菌微生物基因模型。

通过收集入组对象的舌苔样本，抽提微生物总DNA，完成微生物DNA的ITS测序，检测是否存在SEQ ID NO:1-2所示的2种微生物基因。

进一步的，通过收集入组对象的舌苔样本，抽提微生物总DNA，进行口腔菌群的ITS测序。基于高通量测序数据，在训练集中建立新型冠状病毒感染和非感染者的真菌微生物区别模型，建立新型冠状病毒感染患病率(probability of disease，POD)指数；POD指数在验证集中计算其区别能力，进行验证；进一步在来自不同地域的独立诊断集中进行独立验证，实现真菌微生物基因区别模型在中国新型冠状病毒感染人群中的普适性；最后在新型冠状病毒感染疑似患者中进行验证，证实真菌微生物基因区别模型弥补RT-PCR检测不足的可能性。

具体包括：

(1)收集入组对象(新型冠状病毒感染和非感染者)的舌苔样本，按照DNA的标准抽提方法完成舌苔样本中真菌微生物总DNA的抽提，在Illumina MiSeq平台完成口腔菌群的ITS高通量测序工作；

(2)基于高通量测序数据，在真菌微生物区别模型的训练集中，在48例新型冠状病毒感染患者和88例健康对照之间，基于一个随机森林模型，通过一个五倍交叉验证的算法，鉴定了用于该模型的最佳的2个真菌微生物基因标志物。

(3)基于2个真菌微生物基因标志物，通过使用随机生成的决策树的比率来计算新型冠状病毒感染患病率的患病率(Probability of disease,POD)指数。

(4)该真菌微生物区别模型在48例新型冠状病毒感染确诊患者和88例健康对照者之间的区别能力达到99.79％，POD指数在新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异(p＝2.8x10^-25)；

(5)在验证集中，该真菌微生物区别模型在23例新型冠状病毒感染确诊患者和44例健康对照之间的区别能力达到99.6％；POD指数在新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异(p＝3.2x10^-12)；

(6)在独立诊断集中，该真菌微生物区别模型在75例来自杭州的新型冠状病毒感染确诊患者和44例健康对照之间的区别能力达到100％；POD指数在杭州地区新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异(p＝4.3x10^-26)。

(7)在验证集中，该真菌微生物区别模型在36例新型冠状病毒感染疑似患者和44例健康对照之间的区别能力达到99.94％；POD指数在疑似患者中明显升高，两组之间有显著性差异(p＝3.7x10^-16)。

因此，本发明的真菌微生物基因区别模型在新型冠状病毒感染和非感染患者中实现了良好的区别能力，也验证了该区别模型能够将核酸检测阴性而IgG抗体阳性的疑似患者从健康人群中鉴别出来。

另外，还提供了一种用于区别新型冠状病毒感染和非感染的口腔真菌微生物模型的试剂盒，包括用于检测SEQ ID NO:1-2所示的2种微生物基因的引物。

本发明的具体操作步骤如下：

(1)按照前瞻性临床试验的设计原则，本发明的研究设计如图1所示。该研究方案得到了郑州大学第一附属医院和光山县人民医院伦理委员会的批准。所有入组的患者签署研究方案知情同意书和临床样本收集知情同意书。

(2)每一个入组的新型冠状病毒感染和非感染患者提供一份新鲜的舌苔样本，研究实验人员将样本在70℃灭活1小时，然后立即冻存于-80℃冰箱。舌苔真菌总DNA的抽提方法按照试剂盒的说明书进行。

(3)完成舌苔真菌总DNA样本的扩增和DNA文库构建，在Illumina Miseq测序平台完成ITS测序。所有的输出序列完成基本的预处理和基本的生物信息学分析。

(4)使用USEARCH(版本11.0.667)从原始数据中提取单次读取的干净数据，并且丢弃每个碱基具有>1个预期错误的读取。根据UPARSE操作分类单元(OTU)分析流程，使用UPARSE将质量过滤后的序列聚类为唯一序列并按丰度递减顺序排序以识别代表性序列。使用UPARSE(7.1版本http://drive5.com/uparse/)去除嵌合序列后，根据98.5％的相似性对OTU进行分类，并使用unite v8.3版本(https://unite.ut.ee/repository.php)进行注释，那些注释为未分类的真菌进一步对ITS_RefSeq_Fungi 1.1版本执行BLAST(ftp://ftp.ncbi.nlm.nih.gov/blast/db/ITS_RefSeq_Fungi.tar.gz)。

(5)基于高通量测序数据产生的代表性序列，计算出微生物基因标志物发现集的OTUs频率文件、验证集的OTUs频率文件和独立诊断集的OTUs频率文件。这些OTUs用于一个相关性研究来鉴定在新型冠状病毒感染和非感染患者之间差异明显的OTUs丰度。使用Wilcoxon检验方法统计分析新型冠状病毒感染和非感染患者之间差异的真菌微生物基因标志物。选择出的2个OTU微生物基因标志物做进一步的分析。

(6)在真菌微生物区别模型的训练集中，包括48例新型冠状病毒感染确诊患者和88例健康对照，使用筛选出的OTUs丰度文件，在一个随机森林模型(R软件3.4.1和随机森林软件包4.6–12)中采用五倍交叉验证的算法(除了设置“importance＝TRUE”之外，软件参数默认)进行真菌微生物基因标志物的筛选。采用五倍交叉验证的5次试验，获得了交叉验证错误曲线，其中最小的交叉验证错误点作为cut-off值使用。最小的交叉验证错误值加上对应值的标准差为cut-off值。筛选出小于cut-off值的错误率的8个以下的OTU标志物的集合，选择最小数目OTU的集合作为最佳的真菌微生物基因标志物的集合，最终鉴定了用于该模型的最佳的2个真菌微生物基因标志物(图2)。选择出的2个真菌微生物OTU标志物的基因序列见SEQ ID NO:1-2。

(7)通过使用随机生成的决策树的比率来计算患病率(Probability of disease,POD)指数。决策树预测样本为“COVID-19”，设置的参数预测为：proximity＝T,norm.votes＝T,predict.all＝TRUE。在LOO模式中构建的随机森林模型用于预测验证集中每一个样本的POD指数，最终计算每一个样本的平均预测的POD指数。

(8)使用R 3.3.0程序包中的pROC工具计算受试者工作曲线(ROC)，用来评估微生物区别模型，曲线下面积(AUC)用于指定ROC的效应值。

(9)该微生物区别模型在48例新冠病毒确诊患者和88例健康对照之间的区别能力达到99.79％(图4)，POD指数在新冠病毒确诊患者中明显升高，两组之间有显著性差异(p＝p＝2.8x10^-25)(图3)。

(10)在验证集中，POD指数在23例新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异(p＝3.2x10^-12)(图5)，该微生物区别模型在23例新型冠状病毒感染确诊患者和44例健康对照之间的区别能力达到99.6％(图6)。

(11)在独立诊断集中，POD指数在来自杭州地区的75例新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异(p＝4.3x10^-26)(图7)，该微生物区别模型在75例杭州地区新型冠状病毒感染确诊患者和44例健康对照之间的区别能力达到100％(图8)

(12)在验证集中，POD指数在36例中新型冠状病毒感染疑似患者中明显升高，两组之间有显著性差异(p＝3.7x10^-16)(图9)，该微生物区别模型在在36例新型冠状病毒感染疑似患者和44例健康对照之间的区别能力达到99.94％(图10)。

因此，本发明的真菌微生物基因标志物(模型)在新型冠状病毒感染感染患者和非感染者中实现了良好的区别能力，也验证了该区别模型在中国不同地域中的可行性、适用性和普适性。同时证明了该真菌区别模型能够弥补RT-PCR检测的不足，将感染新冠病毒的疑似患者从健康人群的鉴定出来。

附图说明

图1.一种用于区别新型冠状病毒感染感染和非感染的口腔真菌微生物模型的研究设计和临床应用。

图2.基于随机森林模型采用五倍交叉验证法鉴定的最佳的口腔真菌微生物基因标志物。

图3.在48例新型冠状病毒感染确诊患者和88例健康对照的训练集中，患病率(POD)指数在两组之间的表达差异；

图4.在48例新型冠状病毒感染确诊患者和88例健康对照的训练集中，真菌微生物基因区别模型实现的区别效能；

图5.在验证集中，与44例健康对照人群相比，患病率(POD)指数在23例新型冠状病毒感染确诊患者的表达差异；

图6.在验证集中，患病率(POD)指数在44例健康对照和23例新型冠状病毒感染确诊患者之间的区别能力；

图7.在独立诊断集中，与44例健康对照人群相比，患病率(POD)指数在75例杭州地区新型冠状病毒感染确诊患者的表达差异；

图8.在独立诊断集中，患病率(POD)指数在44例健康对照和75例杭州地区新型冠状病毒感染确诊患者之间的区别能力；

图9.在验证集中，与44例健康对照人群相比，患病率(POD)指数在36例新型冠状病毒感染疑似患者的表达差异；

图10.在验证集中，患病率(POD)指数在44例健康对照和36例新型冠状病毒感染疑似患者之间的区别能力。

具体实施方式

下面结合实施例对本发明作进一步的阐述，但本发明的保护内容不仅限于这些实施例。

下列实施例中所用方法如无特别说明，均为常规方法。下列实施例中所需要的材料或试剂，如无特殊说明均为公开商业途径获得。

本发明通过收集入组对象的舌苔样本，抽提微生物总DNA，进行口腔真菌菌群的ITS测序。基于高通量测序数据，在训练集中建立新型冠状病毒感染和非感染者的真菌微生物区别模型，建立新型冠状病毒感染患病率(probability of disease，POD)指数；POD指数在验证集中计算其区别能力，进行验证；进一步在来自不同地域的独立诊断集中进行独立验证，实现真菌微生物基因区别模型在中国新型冠状病毒感染人群中的普适性；最后在新型冠状病毒感染疑似患者中进行验证，以证明微生物基因区别模型弥补RT-PCR的可能性。

其操作步骤如下：

(2)每一个入组的新型冠状病毒感染患者和非感染患者提供一份新鲜的舌苔样本，研究实验人员将样本在70℃灭活1小时，然后立即冻存于-80℃冰箱。舌苔真菌总DNA的抽提方法按照试剂盒的说明书进行。

(4)使用USEARCH(版本11.0.667)从原始数据中提取单次读取的干净数据，并且丢弃每个碱基具有>1个预期错误的读取。根据UPARSE操作分类单元(OTU)分析流程，使用UPARSE将质量过滤后的序列聚类为唯一序列并按丰度递减顺序排序以识别代表性序列。使用UPARSE(7.1版本http://drive5.com/uparse/)去除嵌合序列后，根据98.5％的相似性对OTU进行分类，并使用unite v8.3版本(https://unite.ut.ee/repository.php)进行注释，那些注释为未分类的真菌进一步对ITS_RefSeq_Fungi 1.1版本执行BLAST

(ftp://ftp.ncbi.nlm.nih.gov/blast/db/ITS_RefSeq_Fungi.tar.gz)。

(6)在微生物区别模型的训练集中，包括48例新型冠状病毒感染确诊患者和88例健康对照，使用筛选出的OTUs丰度文件，在一个随机森林模型(R软件3.4.1和随机森林软件包4.6–12)中采用五倍交叉验证的算法(除了设置“importance＝TRUE”之外，软件参数默认)进行真菌微生物基因标志物的筛选。采用五倍交叉验证的5次试验，获得了交叉验证错误曲线，其中最小的交叉验证错误点作为cut-off值使用。最小的交叉验证错误值加上对应值的标准差为cut-off值。筛选出小于cut-off值的错误率的8个以下的OTU标志物的集合，选择最小数目OTU的集合作为最佳的真菌微生物基因标志物的集合，最终鉴定了用于该模型的最佳的2个真菌微生物基因标志物(图2)。选择出的2个真菌微生物OTU标志物的基因序列见SEQ ID NO:1-2。(7)通过使用随机生成的决策树的比率来计算患病率(Probabilityof disease,POD)指数。决策树预测样本为“COVID-19”，设置的参数预测为：proximity＝T,norm.votes＝T,predict.all＝TRUE。在LOO模式中构建的随机森林模型用于预测验证集中每一个样本的POD指数，最终计算每一个样本的平均预测的POD指数。

(9)该微生物区别模型在48例新冠病毒确诊患者和88例健康对照之间的区别能力达到99.79％(图4)，POD指数在新冠病毒确诊患者中明显升高，两组之间有显著性差异(p＝

p＝2.8x10^-25)(图3)。

因此，本发明的真菌微生物基因区别模型在新型冠状病毒感染患者和非感染者中实现了良好的区别能力，也验证了该区别模型在中国不同地域中的可行性、适用性和普适性。同时证明了该区别模型能够弥补RT-PCR检测的不足，将核酸检测阴性的新型冠状病毒感染者从健康人群中鉴别出来。

Claims

1.一种用于区别新型冠状病毒感染和非感染者的口腔真菌微生物基因标志物，其特征在于：由SEQ ID NO:1-2所示的2种真菌微生物基因组成，所述微生物在口腔中富集。

2.一种用于检测权利要求1所述口腔真菌微生物模型的检测试剂，包括用于检测权利要求1所述的SEQ ID NO:1-2所示的2种真菌微生物基因的引物。

3.根据权利要求1所述的检测试剂，其特征在于：所述引物序列为SEQ ID NO:3-4。

4.权利要求2所述检测试剂在制备新型冠状病毒感染和非感染的区分检测试剂盒中的应用，所述检测试剂适用于检测权利要求1所述的口腔真菌微生物基因。

5.根据权利要求4所述的应用，其特征在于：所述区分检测试剂盒适用于区分新型冠状病毒感染和非感染者，其中新型冠状病毒感染者包括RT-PCR检测阳性的确诊患者及RT-PCR检测阴性但IgG抗体阳性的临床诊断患者。

6.根据权利要求2所述的应用，其特征在于：对所述对象的舌苔进行检测，以便确定该样本是否包含所述的真菌微生物基因，是否可以建立区别新型冠状病毒感染和非感染的真菌微生物基因模型。

7.根据权利要求6所述的应用，其特征在于：通过收集入组对象的舌苔样本，抽提微生物总DNA，完成微生物DNA的ITS测序，检测是否存在权利要求1所述的2种真菌微生物基因。

8.根据权利要求7所述的应用，其特征在于：通过收集入组对象的舌苔样本，抽提微生物总DNA，进行口腔真菌的ITS测序；基于高通量测序数据，在训练集中建立新型冠状病毒感染和非感染者的真菌微生物区别模型，建立新型冠状病毒感染患病率(probabilityofdisease，POD)指数；POD指数在验证集中计算其区别能力，进行验证；进一步在来自不同地域的独立诊断集中进行独立验证，实现微生物基因区别模型在中国新型冠状病毒感染人群中的普适性；最后在新型冠状病毒感染疑似患者中进行验证，实现微生物基因区别模型弥补RT-PCR检测不足的可能性。

9.根据权利要求4所述的应用，其特征在于，具体包括：

(1)收集入组对象的舌苔样本，入组对象包括71例来自河南的新型冠状病毒感染确诊患者、75例杭州地区的新型冠状病毒感染确诊患者、36例新型冠状病毒感染疑似患者和132例健康对照，按照DNA的标准抽提方法完成舌苔样本中微生物总DNA的抽提，在IlluminaMiSeq平台完成口腔菌群的ITS高通量测序工作；

(2)基于高通量测序数据，在微生物区别模型的训练集中，在48例新型冠状病毒感染确诊患者和88例健康对照者之间，基于一个随机森林模型，通过一个五倍交叉验证的算法，鉴定了用于该模型的最佳的2个真菌微生物基因标志物；

(3)基于2个真菌微生物基因标志物，通过使用随机生成的决策树的比率来计算新型冠状病毒感染的患病率POD指数；

(4)该真菌微生物区别模型在48例新型冠状病毒感染确诊患者和88例健康对照者之间的区别能力达到99.79％，POD指数在新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异；

(5)在验证集中，该真菌微生物区别模型在23例新型冠状病毒感染确诊患者和44例健康对照之间的区别能力达到99.6％；POD指数在新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异；

(6)在独立诊断集中，该真菌微生物区别模型在75例来自杭州的新型冠状病毒感染确诊患者和44例健康对照之间的区别能力达到100％；POD指数在杭州地区新型冠状病毒感染确诊患者中明显升高，两组之间有显著性差异；

(7)在验证集中，该真菌微生物区别模型在36例新型冠状病毒感染疑似患者和44例健康对照之间的区别能力达到99.94％；POD指数在疑似患者中明显升高，两组之间有显著性差异。

10.一种用于区别新型冠状病毒感染和非感染者的口腔真菌微生物模型的试剂盒，包括用于检测权利要求1所述的SEQ ID NO:1-2所示的2种真菌微生物基因的引物。