CN116068193A

CN116068193A - 结核病分子标志物组合及其用途

Info

Publication number: CN116068193A
Application number: CN202211031891.8A
Authority: CN
Inventors: 金奇; 张笑冰; 刘立国
Original assignee: Institute of Pathogen Biology of CAMS
Current assignee: Institute of Pathogen Biology of CAMS
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2023-05-05
Anticipated expiration: 2042-08-26
Also published as: CN116068193B

Abstract

本发明属于生物医药领域，涉及结核病分子标志物组合及其用途。具体地本发明涉及一种分子标志物组合，包括：分子标志物组合，包括：(1)MYL12A蛋白、E1F1蛋白、GBP5蛋白和SRSF5蛋白，或者(2)编码上述四种蛋白的四种核酸。本发明的分子标志物组合能够有效地区分结核病潜伏感染和活动性肺结核，具有较高的灵敏度和特异性。

Description

结核病分子标志物组合及其用途

技术领域

本发明属于生物医药领域，涉及结核病分子标志物组合及其用途。

背景技术

结核病是严重威胁人类健康的传染病，据世界卫生组织的统计结果，全球每年有近千万的新发病例。结核分枝杆菌是结核病的主要病原体，人作为其唯一宿主，若感染可引起肺部及全身多个组织及脏器的病变。结核发病机制复杂，潜伏感染是结核病疾病进程中特有的阶段，这个阶段持续的时间长短以及最终是否发病因人而异，给结核的防控带来了巨大挑战。

目前，临床结核病诊断一直是领域内研究的难题。首先，病原学检测仍是现有结核诊断的金标准，但临床病患中有相当比例的菌阴患者并不能通过现有的病原学方法检出。其次，潜伏感染到活动性结核没有明确的区分界限，而两类人群的确定对疾病防控和临床治疗至关重要。尽管近年来广泛应用的结核菌素皮肤试验(tuberculin skin test，TST)和γ干扰素释放试验(interferon gamma release assays，IGRA)能够快速的发现结核感染者，但无法确定其是潜伏感染或活动性结核，不利于疾病防控和临床治疗；与此同时，影像学方法也常应用于临床结核的辅助诊断，但容易与其它肺部感染疾病混淆。

潜伏感染群体是活动性结核的主要来源，当机体免疫力降低、或有其他诱因时，潜伏感染有可能转变为活动性结核。近年来，本领域的专家已达成共识：即针对潜伏感染人群进行干预性治疗，是控制结核，降低发病率的关键。另外，针对活动性结核和潜伏感染个体，须采用不同的治疗方案，不仅用药种类不同，而且治疗周期也不一样。在结核菌感染人群(IGRA阳性)中，准确区分活动性肺结核(ATB)和结核病潜伏感染(LTBI)，对结核病的防控至关重要。

GBP5(鸟嘌呤核苷酸结合蛋白5)属于TRAFAC类动力蛋白样GTPase超家族。编码蛋白作为NLRP3炎性小体组装的激活体，并在先天免疫和炎症中发挥作用。研究显示，外周血中GBP5表达量的升高与多种肿瘤相关，如口腔鳞癌，卵巢癌等，并显示出作为诊断标志物的潜力。于此同时，GBP5在肺部感染及活动性结核患者的外周血中也有高水平的表达，但由于宿主遗传背景的复杂性，宿主基因的表达量变化受到多因素的调控，因此单一基因无法作为疾病的诊断标识。

MYL12A(肌球蛋白轻链12A)被磷酸化激活并调节平滑肌和非肌肉细胞的收缩。该蛋白还可能通过隔离作为p53驱动的细胞凋亡抑制因子的转录调节因子凋亡拮抗转录因子(AATF)/Che-1参与DNA损伤修复。

EIF1(真核翻译起始因子1)能够启用RNA结合活性，参与调控翻译起始。EIF1位于细胞质和细胞核中。

SRSF5(Serine And Arginine Rich Splicing Factor 5)蛋白是剪接体构成的一部分，参与mRNA从细胞核输出和翻译。既往研究表明，该家族剪接因子的异常表达可以引起RNA的非正常剪接，将有助于肿瘤细胞的迁移、细胞增殖以及凋亡抗性。有研究报道，SRSF5具有作为小细胞肺癌和胸膜转移性癌细胞的新型检测标志物的潜力。

迄今未见MYL12A、EIF1和SRSF5与活动性结核关联的报道。

宿主转录组学研究能够反映宿主免疫应答状态，不仅有利于理解结核病的发生发展过程，而且对提高结核病临床诊断、指示从潜伏性感染到临床疾病进展等有巨大潜力。近年来也有许多基于全血或PBMC样本的宿主转录组学研究，但存在一定局限性。

目前，迫切需要新的诊断手段，实现结核病的早期和快速诊断，特别是有效区分活动性结核与潜伏感染，从而达到有效治疗个体，控制、消灭结核传播的目标。

发明内容

本发明人经过深入的研究和创造性的劳动，发现MYL12A、E1F1、GBP5和SRSF5(简称为MEGS或MEGS组合)这四种蛋白或者其编码基因能够有效地区分活动性肺结核患者(ATB)和结核病潜伏感染者(LTBI)，具有作为分子标识或者分子标志物的潜力。由此提供了下述发明：

本发明的一个方面涉及分子标志物组合，包括：

(1)MYL12A蛋白、E1F1蛋白、GBP5蛋白和SRSF5蛋白，或者

(2)编码上述四种蛋白的四种核酸，即MYL12A核酸、EIF1核酸、GBP5核酸和SRSF5核酸。

在本发明的一些实施方式中，所述的分子标志物组合，其为结核病的分子标志物组合。

在本发明的一些实施方式中，所述的分子标志物组合，其用于诊断活动性肺结核或结核潜伏感染，或用于区分活动性肺结核和结核潜伏感染。

在本发明的一些实施方式中，所述的分子标志物组合，(1)中四种蛋白的氨基酸序列分别如SEQ ID NOs:1-4所示。

在本发明的一些实施方式中，所述的分子标志物组合，(2)中所述核酸为DNA或RNA。

在本发明的一些实施方式中，所述的分子标志物组合，其中，(2)中所述核酸的序列分别如SEQ ID NOs:5-8所示。

根据本发明任一项所述的分子标志物组合，其用于诊断活动性肺结核或结核潜伏感染，或用于区分活动性肺结核和结核潜伏感染。

本发明的再一方面涉及本发明中任一项所述的分子标志物组合或者检测所述分子标志物组合的试剂在制备药物中的用途，所述药物用于诊断活动性肺结核或结核潜伏感染，或用于区分活动性肺结核和结核潜伏感染。

在本发明的一些实施方式中，所述的用途，其中，检测所述分子标志物组合的试剂为(1)中四种蛋白的特异性抗体，或者为(2)中所述核酸的特异性引物。

在本发明的一些实施方式中，所述的用途，其中，通过qPCR检测(2)中四种核酸的相对表达量。

在本发明的一些实施方式中，所述的用途，其中，内参基因采用ACTB、GAPDH或MYO1F作为内参基因，优选地采用MYO1F作为内参基因。

在本发明的一些实施方式中，所述的用途，其中，样本为外周血样本、PBMC样本或中性粒细胞样本；优选地，所示中性粒细胞样本为外周血中性粒细胞样本；更优选地，为外周血中性粒细胞提取总RNA后反转录的cDNA样本。

在本发明的一些实施方式中，所述的用途，其中，

计算四种核酸各自的相对表达量，并进一步通过样本的四种核酸的组合表达量，判断样本是ATB或LTBI。

在本发明的一些实施方式中，所述的用途，其中，按照如下公式计算四种核酸的组合表达量，用S_TB表示：

其中：

g_GBP5指GBP5核酸的表达值，c_GBP5指GBP5核酸的阈值，

指示GBP5核酸的表达值是否大于阈值，如果表达值大于阈值，则

否则

g_EIF1指EIF1核酸的表达值，c_EIF1指EIF1核酸的阈值，

指示EIF1核酸的表达值是否大于阈值，如果表达值大于阈值，则

否则

g_MYL12A指MYL12A核酸的表达值，c_MYL12A指MYL12A核酸的阈值，

指示MYL12A核酸的表达值是否大于阈值，如果表达值大于阈值，则

否则

g_SRSF5指SRSF5核酸的表达值，c_SRSF5指SRSF5核酸的阈值，

指示SRSF5核酸的表达值是否大于阈值，如果表达值大于阈值，则

否则

“max”表示三者求最大，x表示乘法；

当GBP5核酸的表达值大于阈值，且EIF1核酸、MYL12A核酸和SRSF5核酸中至少一个的表达值大于阈值时，S_TB＝1，即诊断为ATB，否则S_TB＝0，即诊断为LTBI。

在本发明的一些实施方式中，所述的用途，其中：

核酸的表达值是qPCR反应测得CT值后，经计算获得的核酸相对表达量，用2^-ΔΔCT表示；

2^-ΔΔCT＝2^-(ΔCT _待检样本 ^-ΔCT _对照样本 ⁾，或者2^-ΔΔCT＝2^-[(CT _{待检者目的核酸} ^-CT _{待检者内参基因} ^)-(CT _{对照目的核酸} ^-CT _{对照内参基因} ^)]；

其中：

内参基因是MYO1F，

对照样本是正常人或正常人群的样本，

对照目的核酸是正常人或正常人群的目的核酸，

对照内参基因是正常人或正常人群的内参基因。

在本发明的一些实施方式中，所述的用途，其中：

GBP5核酸的阈值为2.685，

MYL12A核酸的阈值为1.287，

EIF1核酸的阈值为1.706，

SRSF5核酸的阈值为1.244。

本发明的再一方面涉及一种诊断活动性肺结核或结核潜伏感染的方法，或一种区分活动性肺结核和结核潜伏感染的方法，包括检测待检样本中的本发明中任一项所述的分子标志物组合的水平的步骤；优选地，还包括检测正常人或正常人群中的本发明中任一项所述的分子标志物组合的水平的步骤。

在本发明的一些实施方式中，所述的方法，其中，检测所述分子标志物组合的试剂为(1)中四种蛋白的特异性抗体，或者为(2)中所述核酸的特异性引物。

在本发明的一些实施方式中，所述的方法，其中，通过qPCR检测(2)中四种核酸的相对表达量。

在本发明的一些实施方式中，所述的方法，其中，内参基因采用ACTB、GAPDH或MYO1F作为内参基因，优选地采用MYO1F作为内参基因。

在本发明的一些实施方式中，所述的方法，其中，样本为外周血样本、PBMC样本或中性粒细胞样本；优选地，所示中性粒细胞样本为外周血中性粒细胞样本；更优选地，为外周血中性粒细胞提取总RNA后反转录的cDNA样本。

在本发明的一些实施方式中，所述的方法，其中，

在本发明的一些实施方式中，所述的方法，其中，按照如下公式计算四种核酸的组合表达量，用S_TB表示：

其中：

g_GBP5指GBP5核酸的表达值，c_GBP5指GBP5核酸的阈值，

否则

g_EIF1指EIF1核酸的表达值，c_EIF1指EIF1核酸的阈值，

否则

g_MYL12A指MYL12A核酸的表达值，c_MYL12A指MYL12A核酸的阈值，

否则

g_SRSF5指SRSF5核酸的表达值，c_SRSF5指SRSF5核酸的阈值，

否则

“max”表示三者求最大，x表示乘法；

在本发明的一些实施方式中，所述的方法，其中：

2^-ΔΔCT＝2^-[(ΔCT _待检样本 ^-ΔCT _对照样本 ⁾，或者2^-ΔΔCT＝2^-[(CT _{待检者目的核酸} ^-CT _{待检者内参基因} ^)-(CT _{对照目的核酸} ^-CT _{对照内参基因} ^)]；

其中：

内参基因是MYO1F，

对照样本是正常人或正常人群的样本，

对照目的核酸是正常人或正常人群的目的核酸，

对照内参基因是正常人或正常人群的内参基因。

在本发明的一些实施方式中，所述的方法，其中：

GBP5核酸的阈值为2.685，

MYL12A核酸的阈值为1.287，

EIF1核酸的阈值为1.706，

SRSF5核酸的阈值为1.244。

宿主外周血中性粒细胞是重要免疫调节和效应细胞，不仅参与机体的抗感染免疫，同时也参与调节机体获得性免疫；中性粒细胞具趋化作用、吞噬作用和杀菌作用。以前的多项研究表明，中性粒细胞与活动性结核病的病理反应密切相关，近期研究也显示在结核病中，内源性凋亡主要作用是消除中性粒细胞，抑制中性粒细胞聚集，控制感染和炎症，因此考虑可作为宿主靶向诊断标识。此外，结核病患者在完成6个月的治疗后，中性粒细胞数量有所下降。尽管中性粒细胞在结核病的发病过程中发挥重要作用，但近年来有关结核的转录组学研究仍是基于全血或PBMC样本。然而，全血细胞成分复杂，不同细胞亚群之间会存在相互干扰，PBMC去除了中性粒细胞和嗜酸性粒细胞在内的多形核细胞。因此，现有的转录组学研究并不能提供中性粒细胞在活动性结核病及潜伏感染状态下基因表达谱变化的信息。本发明人创造性地将研究的对象选择了中性粒细胞，试图通过更精细和深入研究，发现与活动性结核发病密切关联的差异表达基因，作为潜在的可应用于结核诊断的分子标识。

本发明以RNA-seq技术，聚焦人体重要免疫细胞-外周血中性粒细胞转录组分析，通过对临床活动性结核病人及潜伏感染者、正常对照组的比较，筛选出与活动性结核状态密切相关的一组可用于鉴别活动性肺结核与潜伏感染的差异表达基因组合。在此基础上建立了可利用外周血中性粒细胞基因表达变化，进行ATB与LTBI区分鉴别实时定量分析体系。并通过临床及现场流行性调查队列样本，对该基因组合体系的鉴别诊断能力进行了进一步的评价，证实该体系中的MEGS组合可作为活动性肺结核的鉴别诊断标识。

本发明中，如果没有特别说明，术语“正常人”或“正常人群”是指非活动性肺结核且非潜伏感染的健康人或健康人群。

本发明中，如果没有特别说明，术语“目的核酸”是指编码MYL12A蛋白、E1F1蛋白、GBP5蛋白或SRSF5蛋白的核酸，分别命名为MYL12A核酸、EIF1核酸、GBP5核酸或SRSF5核酸。

本发明中，如果没有特别说明，当通过qPCR反应测得CT值后计算目的核酸的相对表达量时，被扩增的核酸分子可以是MYL12A核酸、EIF1核酸、GBP5核酸或SRSF5核酸的全长，也可以是MYL12A核酸、EIF1核酸、GBP5核酸或SRSF5核酸的部分片段，这与具体使用的引物有关；无论是全长还是部分片段，本发明中均用来计算或者视为目的核酸的相对表达量。

本发明中，术语“错误发现率”(False Discovery Rate，FDR)是一般分析表达谱时用的必要参数，错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝的原假设个数的比例的期望值。FDR具有以下优点:(1)可以灵活调整其取值，作为假设检验错误率的控制指标,其控制值可以根据需要灵活选取,而传统的假设检验(FWER)的取值则较为固定，通常定为0.05；(2)FDR的意义明确，可以作为筛选出的差异变量的评价指标，而FWER则主要是用来控制I类错误的。

术语“log2Fold change”是两组样本基因表达水平差异倍数取log2值，为了更好的展示差异倍数；如果不换算差异倍数非常大的和非常小的一起作图不好展示。

术语“FPKM”(Fragments Per Kilobase of exon model per Million mappedfragments)是每千个碱基的转录每百万映射读取的fragments。使用FPKM值来衡量并统计每个基因在不同组所有样本中的表达量。其计算公式如下：

其中N代表唯一比对到整个参考基因组的总Fragments数目，C代表唯一比对到该基因的外显子上的Fragments数目，L代表该基因所有外显子长度(碱基数目)。FPKM算法对总数据量和基因长度都做了校正，可用于后续转录组差异表达的分析。

发明的有益效果

本发明的分子标志物组合能够有效地区分结核病潜伏感染和活动性肺结核，具有较高的灵敏度和特异性。

附图说明

图1：不同结核感染状态下中性粒细胞差异表达基因聚类热图。图中每一列代表一个样本并按照性别分组进行标注，每行代表一个基因并分别标注在不同比较组中的上下调关系。每一个格子的颜色代表每一个基因的在不同样本中标准化后的表达量，红色表示高表达，蓝色表示低表达。

图2A至图2J：三组样本的10个基因的相对表达量散点图。图中纵坐标为基因的相对表达量(无单位)，每个点对应的纵坐标为该样本的该基因相对表达水平。

图3A至图3E：单个基因与MEGS组合鉴别诊断评价，ATB和LTB相比做出操作特征曲线(receiver operating characteristic curve，ROC曲线)和曲线下面积(AUC)。

本发明涉及的部分序列如下：

1.MYL12A蛋白

MSSKRTKTKTKKRPQRATSNVFAMFDQSQIQEFKEAFNMIDQNRDGFIDKEDLHDMLASLGKNPTDEYLDAMMNEAPGPINFTMFLTMFGEKLNGTDPEDVIRNAFACFDEEATGTIQEDYLRELLTTMGDRFTDEEVDELYREAPIDKKGNFNYIEFTRILKHGAKDKDD(SEQ ID NO:1)

2.EIF1蛋白

MSAIQNLHSFDPFADASKGDDLLPAGTEDYIHIRIQQRNGRKTLTTVQGIADDYDKKKLVKAFKKKFACNGTVIEHPEYGEVIQLQGDQRKNICQFLVEIGLAKDDQLKVHGF(SEQ ID NO:2)

3.GBP5蛋白

MALEIHMSDPMCLIENFNEQLKVNQEALEILSAITQPVVVVAIVGLYRTGKSYLMNKLAGKNKGFSVASTVQSHTKGIWIWCVPHPNWPNHTLVLLDTEGLGDVEKADNKNDIQIFALALLLSSTFVYNTVNKIDQGAIDLLHNVTELTDLLKARNSPDLDRVEDPADSASFFPDLVWTLRDFCLGLEIDGQLVTPDEYLENSLRPKQGSDQRVQNFNLPRLCIQKFFPKKKCFIFDLPAHQKKLAQLETLPDDELEPEFVQQVTEFCSYIFSHSMTKTLPGGIMVNGSRLKNLVLTYVNAISSGDLPCIENAVLALAQRENSAAVQKAIAHYDQQMGQKVQLPMETLQELLDLHRTSEREAIEVFMKNSFKDVDQSFQKELETLLDAKQNDICKRNLEASSDYCSALLKDIFGPLEEAVKQGIYSKPGGHNLFIQKTEELKAKYYREPRKGIQAEEVLQKYLKSKESVSHAILQTDQALTETEKKKKEAQVKAEAEKAEAQRLAAIQRQNEQMMQERERLHQEQVRQMEIAKQNWLAEQQKMQEQQMQEQAAQLSTTFQAQNRSLLSELQHAQRTVNNDDPCVLL(SEQ ID NO:3)

4.SRSF5蛋白

MSGCRVFIGRLNPAAREKDVERFFKGYGRIRDIDLKRGFGFVEFEDPRDADDAVYELDGKELCSERVTIEHARARSRGGRGRGRYSDRFSSRRPRNDRRNAPPVRTENRLIVENLSSRVSWQDLKDFMRQAGEVTFADAHRPKLNEGVVEFASYGDLKNAIEKLSGKEINGRKIKLIEGSKRHSRSRSRSRSRTRSSSRSRSRSRSRSRKSYSRSRSRSRSRSRSKSRSVSRSPVPEKSQKRGSSSRSKSPASVDRQRSRSRSRSRSVDSGN(SEQ ID NO:4)

5.编码MYL12A蛋白的核酸序列

ATGTCGAGCAAAAGAACAAAGACCAAGACCAAGAAGCGCCCTCAGCGTGCAACATCCAATGTGTTTGCTATGTTTGACCAGTCACAGATTCAGGAGTTCAAAGAGGCCTTCAACATGATTGATCAGAACAGAGATGGTTTCATCGACAAGGAAGATTTGCATGATATGCTTGCTTCATTGGGGAAGAATCCAACTGATGAGTATCTAGATGCCATGATGAATGAGGCTCCAGGCCCCATCAATTTCACCATGTTCCTCACCATGTTTGGTGAGAAGTTAAATGGCACAGATCCTGAAGATGTCATCAGAAATGCCTTTGCTTGCTTTGATGAAGAAGCAACTGGCACCATACAGGAAGATTACTTGAGAGAGCTGCTGACAACCATGGGGGATCGGTTTACAGATGAGGAAGTGGATGAGCTGTACAGAGAAGCACCTATTGATAAAAAGGGGAATTTCAATTACATCGAGTTCACACGCATCCTGAAACATGGAGCCAAAGACAAAGATGACTGA(SEQ IDNO:5)

6.编码EIF1蛋白的核酸序列

ATGTCCGCTATCCAGAACCTCCACTCTTTCGACCCCTTTGCTGATGCAAGTAAGGGTGATGACCTGCTTCCTGCTGGCACTGAGGATTATATCCATATAAGAATTCAACAGAGAAACGGCAGGAAGACCCTTACTACTGTCCAAGGGATCGCTGATGATTACGATAAAAAGAAACTAGTGAAGGCGTTTAAGAAAAAGTTTGCCTGCAATGGTACTGTAATTGAGCATCCGGAATATGGAGAAGTAATTCAGCTACAGGGTGACCAACGCAAGAACATATGCCAGTTCCTCGTAGAGATTGGACTGGCTAAGGACGATCAGCTGAAGGTTCATGGGTTTTAA(SEQ ID NO:6)

7.编码GBP5蛋白的核酸序列

ATGGCTTTAGAGATCCACATGTCAGACCCCATGTGCCTCATCGAGAACTTTAATGAGCAGCTGAAGGTTAATCAGGAAGCTTTGGAGATCCTGTCTGCCATTACGCAACCTGTAGTTGTGGTAGCGATTGTGGGCCTCTATCGCACTGGCAAATCCTACCTGATGAACAAGCTGGCTGGGAAGAACAAGGGCTTCTCTGTTGCATCTACGGTGCAGTCTCACACCAAGGGAATTTGGATATGGTGTGTGCCTCATCCCAACTGGCCAAATCACACATTAGTTCTGCTTGACACCGAGGGCCTGGGAGATGTAGAGAAGGCTGACAACAAGAATGATATCCAGATCTTTGCACTGGCACTCTTACTGAGCAGCACCTTTGTGTACAATACTGTGAACAAAATTGATCAGGGTGCTATCGACCTACTGCACAATGTGACAGAACTGACAGATCTGCTCAAGGCAAGAAACTCACCCGACCTTGACAGGGTTGAAGATCCTGCTGACTCTGCGAGCTTCTTCCCAGACTTAGTGTGGACTCTGAGAGATTTCTGCTTAGGCCTGGAAATAGATGGGCAACTTGTCACACCAGATGAATACCTGGAGAATTCCCTAAGGCCAAAGCAAGGTAGTGATCAAAGAGTTCAAAATTTCAATTTGCCCCGTCTGTGTATACAGAAGTTCTTTCCAAAAAAGAAATGCTTTATCTTTGACTTACCTGCTCACCAAAAAAAGCTTGCCCAACTTGAAACACTGCCTGATGATGAGCTAGAGCCTGAATTTGTGCAACAAGTGACAGAATTCTGTTCCTACATCTTTAGCCATTCTATGACCAAGACTCTTCCAGGTGGCATCATGGTCAATGGATCTCGTCTAAAGAACCTGGTGCTGACCTATGTCAATGCCATCAGCAGTGGGGATCTGCCTTGCATAGAGAATGCAGTCCTGGCCTTGGCTCAGAGAGAGAACTCAGCTGCAGTGCAAAAGGCCATTGCCCACTATGACCAGCAAATGGGCCAGAAAGTGCAGCTGCCCATGGAAACCCTCCAGGAGCTGCTGGACCTGCACAGGACCAGTGAGAGGGAGGCCATTGAAGTCTTCATGAAAAACTCTTTCAAGGATGTAGACCAAAGTTTCCAGAAAGAATTGGAGACTCTACTAGATGCAAAACAGAATGACATTTGTAAACGGAACCTGGAAGCATCCTCGGATTATTGCTCGGCTTTACTTAAGGATATTTTTGGTCCTCTAGAAGAAGCAGTGAAGCAGGGAATTTATTCTAAGCCAGGAGGCCATAATCTCTTCATTCAGAAAACAGAAGAACTGAAGGCAAAGTACTATCGGGAGCCTCGGAAAGGAATACAGGCTGAAGAAGTTCTGCAGAAATATTTAAAGTCCAAGGAGTCTGTGAGTCATGCAATATTACAGACTGACCAGGCTCTCACAGAGACGGAAAAAAAGAAGAAAGAGGCACAAGTGAAAGCAGAAGCTGAAAAGGCTGAAGCGCAAAGGTTGGCGGCGATTCAAAGGCAGAACGAGCAAATGATGCAGGAGAGGGAGAGACTCCATCAGGAACAAGTGAGACAAATGGAGATAGCCAAACAAAATTGGCTGGCAGAGCAACAGAAAATGCAGGAACAACAGATGCAGGAACAGGCTGCACAGCTCAGCACAACATTCCAAGCTCAAAATAGAAGCCTTCTCAGTGAGCTCCAGCACGCCCAGAGGACTGTTAATAACGATGATCCATGTGTTTTACTCTAA(SEQ ID NO:7)

编码SRSF5蛋白的核酸序列

ATGAGTGGCTGTCGGGTATTCATCGGGAGACTAAATCCAGCGGCCAGGGAGAAGGACGTGGAAAGATTCTTCAAGGGATATGGACGGATAAGAGATATTGATCTGAAAAGAGGCTTTGGTTTTGTGGAATTTGAGGATCCAAGGGATGCAGATGATGCTGTGTATGAGCTTGATGGAAAAGAACTCTGTAGTGAAAGGGTTACTATTGAACATGCTAGGGCTCGGTCACGAGGTGGAAGAGGTAGAGGACGATACTCTGACCGTTTTAGTAGTCGCAGACCTCGAAATGATAGACGAAATGCTCCACCTGTAAGAACAGAAAATCGTCTTATAGTTGAGAATTTATCCTCAAGAGTCAGCTGGCAGGATCTCAAAGATTTCATGAGACAAGCTGGGGAAGTAACGTTTGCGGATGCACACCGACCTAAATTAAATGAAGGGGTGGTTGAGTTTGCCTCTTATGGTGACTTAAAGAATGCTATTGAAAAACTTTCTGGAAAGGAAATAAATGGGAGAAAAATAAAATTAATTGAAGGCAGCAAAAGGCACAGTAGGTCAAGAAGCAGGTCTCGATCCCGGACCAGAAGTTCCTCTAGGTCTCGTAGCCGATCCCGTTCCCGTAGTCGCAAATCTTACAGCCGGTCAAGAAGCAGGAGCAGGAGCCGGAGCCGGAGCAAGTCCCGTTCTGTTAGTAGGTCTCCCGTGCCTGAGAAGAGCCAGAAACGTGGTTCTTCAAGTAGATCTAAGTCTCCAGCATCTGTGGATCGCCAGAGGTCCCGGTCCCGATCAAGGTCCAGATCAGTTGACAGTGGCAATTAA(SEQ IDNO:8)

9.MYO1F蛋白

MGSKERFHWQSHNVKQSGVDDMVLLPQITEDAIAANLRKRFMDDYIFTYIGSVLISVNPFKQMPYFTDREIDLYQGAAQYENPPHIYALTDNMYRNMLIDCENQCVIISGESGAGKTVAAKYIMGYISKVSGGGEKVQHVKDIILQSNPLLEAFGNAKTVRNNNSSRFGKYFEIQFSRGGEPDGGKISNFLLEKSRVVMQNENERNFHIYYQLLEGASQEQRQNLGLMTPDYYYYLNQSDTYQVDGTDDRSDFGETLSAMQVIGIPPSIQQLVLQLVAGILHLGNISFCEDGNYARVESVDLLAFPAYLLGIDSGRLQEKLTSRKMDSRWGGRSESINVTLNVEQAAYTRDALAKGLYARLFDFLVEAINRAMQKPQEEYSIGVLDIYGFEIFQKNGFEQFCINFVNEKLQQIFIELTLKAEQEEYVQEGIRWTPIQYFNNKVVCDLIENKLSPPGIMSVLDDVCATMHATGGGADQTLLQKLQAAVGTHEHFNSWSAGFVIHHYAGKVSYDVSGFCERNRDVLFSDLIELMQTSEQAFLRMLFPEKLDGDKKGRPSTAGSKIKKQANDLVATLMRCTPHYIRCIKPNETKRPRDWEENRVKHQVEYLGLKENIRVRRAGFAYRRQFAKFLQRYAILTPETWPRWRGDERQGVQHLLRAVNMEPDQYQMGSTKVFVKNPESLFLLEEVRERKFDGFARTIQKAWRRHVAVRKYEEMREEASNILLNKKERRRNSINRNFVGDYLGLEERPELRQFLGKRERVDFADSVTKYDRRFKPIKRDLILTPKCVYVIGREKVKKGPEKGQVCEVLKKKVDIQALRGVSLSTRQDDFFILQEDAADSFLESVFKTEFVSLLCKRFEEATRRPLPLTFSDTLQFRVKKEGWGGGGTRSVTFSRGFGDLAVLKVGGRTLTVSVGDGLPKSSKPTRKGMAKGKPRRSSQAPTRAAPAPPRGMDRNGVPPSARGGPLPLEIMSGGGTHRPPRGPPSTSLGASRRPRARPPSEHNTEFLNVPDQGMAGMQRKRSVGQRPVPGVGRPKPQPRTHGPRCRALYQYVGQDVDELSFNVNEVIEILMEDPSGWWKGRLHGQEGLFPGNYVEKI(SEQ ID NO:9)

10.编码MYO1F蛋白的核酸序列

ATGGGCAGCAAGGAGCGCTTCCACTGGCAGAGCCACAACGTGAAGCAGAGCGGCGTGGATGACATGGTGCTTCTTCCCCAGATCACCGAAGACGCCATTGCCGCCAACCTCCGGAAGCGCTTCATGGACGACTACATCTTCACCTACATCGGCTCTGTGCTCATCTCTGTAAACCCCTTCAAGCAGATGCCCTACTTCACCGACCGTGAGATCGACCTCTATCAGGGCGCGGCCCAGTATGAGAATCCCCCGCACATCTACGCCCTCACGGACAACATGTACCGGAACATGCTTATCGACTGTGAGAACCAGTGTGTCATCATTAGTGGAGAGAGTGGAGCTGGGAAGACAGTGGCAGCCAAATATATCATGGGCTACATCTCCAAGGTGTCTGGCGGAGGCGAGAAGGTCCAGCACGTCAAAGATATCATCCTGCAGTCCAACCCGCTGCTCGAGGCCTTCGGCAACGCCAAGACTGTGCGCAACAACAATTCCAGCCGCTTTGGCAAGTACTTTGAGATCCAGTTCAGCCGAGGTGGGGAGCCAGATGGGGGCAAGATCTCCAACTTCTTGCTGGAGAAGTCCCGCGTGGTCATGCAAAATGAAAATGAGAGGAACTTCCACATCTACTACCAGCTGCTGGAAGGGGCCTCCCAGGAGCAAAGGCAGAACCTGGGCCTCATGACACCGGACTACTATTACTACCTCAACCAATCGGACACCTACCAGGTGGACGGCACGGACGACAGAAGCGACTTTGGTGAGACTCTGAGTGCTATGCAGGTTATTGGGATCCCGCCCAGCATCCAGCAGCTGGTCCTGCAGCTCGTGGCGGGGATCTTGCACCTGGGGAACATCAGTTTCTGTGAAGACGGGAATTACGCCCGAGTGGAGAGTGTGGACCTCCTGGCCTTTCCCGCCTACCTGCTGGGCATTGACAGCGGGCGACTGCAGGAGAAGCTGACCAGCCGCAAGATGGACAGCCGCTGGGGCGGGCGCAGCGAGTCCATCAATGTGACCCTCAACGTGGAGCAGGCAGCCTACACCCGTGATGCCCTGGCCAAGGGGCTCTATGCCCGCCTCTTCGACTTCCTCGTGGAGGCCATCAACCGTGCTATGCAGAAACCCCAGGAAGAGTACAGCATCGGTGTGCTGGACATTTACGGCTTCGAGATCTTCCAGAAAAATGGCTTCGAGCAGTTTTGCATCAACTTCGTCAATGAGAAGCTGCAGCAAATCTTTATCGAACTTACCCTGAAGGCCGAGCAGGAGGAGTATGTGCAGGAAGGCATCCGCTGGACTCCAATCCAGTACTTCAACAACAAGGTCGTCTGTGACCTCATCGAAAACAAGCTGAGCCCCCCAGGCATCATGAGCGTCTTGGACGACGTGTGCGCCACCATGCACGCCACGGGCGGGGGAGCAGACCAGACACTGCTGCAGAAGCTGCAGGCGGCTGTGGGGACCCACGAGCATTTCAACAGCTGGAGCGCCGGCTTCGTCATCCACCACTACGCTGGCAAGGTCTCCTACGACGTCAGCGGCTTCTGCGAGAGGAACCGAGACGTTCTCTTCTCCGACCTCATAGAGCTGATGCAGACCAGTGAGCAGGCCTTCCTCCGGATGCTCTTCCCCGAGAAGCTGGATGGAGACAAGAAGGGGCGCCCCAGCACCGCCGGCTCCAAGATCAAGAAACAAGCCAACGACCTGGTGGCCACACTGATGAGGTGCACACCCCACTACATCCGCTGCATCAAACCCAACGAGACCAAGAGGCCCCGAGACTGGGAGGAGAACAGAGTCAAGCACCAGGTGGAATACCTGGGCCTGAAGGAGAACATCAGGGTGCGCAGAGCCGGCTTCGCCTACCGCCGCCAGTTCGCCAAATTCCTGCAGAGGTATGCCATTCTGACCCCCGAGACGTGGCCGCGGTGGCGTGGGGACGAACGCCAGGGCGTCCAGCACCTGCTTCGGGCGGTCAACATGGAGCCCGACCAGTACCAGATGGGGAGCACCAAGGTCTTTGTCAAGAACCCAGAGTCGCTTTTCCTCCTGGAGGAGGTGCGAGAGCGAAAGTTCGATGGCTTTGCCCGAACCATCCAGAAGGCCTGGCGGCGCCACGTGGCTGTCCGGAAGTACGAGGAGATGCGGGAGGAAGCTTCCAACATCCTGCTGAACAAGAAGGAGCGGAGGCGCAACAGCATCAATCGGAACTTCGTCGGGGACTACCTGGGGCTGGAGGAGCGGCCCGAGCTGCGTCAGTTCCTGGGCAAGAGGGAGCGGGTGGACTTCGCCGATTCGGTCACCAAGTACGACCGCCGCTTCAAGCCCATCAAGCGGGACTTGATCCTGACGCCCAAGTGTGTGTATGTGATTGGGCGAGAGAAAGTGAAGAAGGGACCTGAGAAGGGCCAGGTGTGTGAAGTCTTGAAGAAGAAAGTGGACATCCAGGCTCTGCGGGGAGTCTCCCTCAGCACGCGACAGGACGACTTCTTCATCCTCCAAGAGGATGCCGCCGACAGCTTCCTGGAGAGCGTCTTCAAGACCGAGTTTGTCAGCCTTCTGTGCAAGCGCTTCGAGGAGGCGACGCGGAGGCCCCTGCCCCTCACCTTCAGCGACACACTACAGTTTCGGGTGAAGAAGGAGGGCTGGGGCGGTGGCGGCACCCGCAGCGTCACCTTCTCCCGCGGCTTCGGCGACTTGGCAGTGCTCAAGGTTGGCGGTCGGACCCTCACGGTCAGCGTGGGCGATGGGCTGCCCAAGAGCTCCAAGCCTACGCGGAAGGGAATGGCCAAGGGAAAACCTCGGAGGTCGTCCCAAGCCCCTACCCGGGCGGCCCCTGCGCCCCCCAGAGGCATGGATCGCAATGGGGTGCCCCCCTCTGCCAGAGGGGGCCCCCTGCCCCTGGAGATCATGTCTGGAGGGGGCACCCACAGGCCTCCCCGGGGCCCTCCGTCCACATCCCTGGGAGCCAGCAGACGACCCCGGGCACGTCCGCCCTCAGAGCACAACACAGAATTCCTCAACGTGCCTGACCAGGGCATGGCCGGCATGCAGAGGAAGCGCAGCGTGGGGCAACGGCCAGTGCCTGGTGTGGGCCGACCCAAGCCCCAGCCTCGGACACATGGTCCCAGGTGCCGGGCCCTATACCAGTACGTGGGCCAAGATGTGGACGAGCTGAGCTTCAACGTGAACGAGGTCATTGAGATCCTCATGGAAGATCCCTCGGGCTGGTGGAAGGGCCGGCTTCACGGCCAGGAGGGCCTTTTCCCAGGAAACTACGTGGAGAAGATCTGA(SEQ ID NO:10)

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1：对宿主活动性结核的分子标识的研究

(一)研究对象纳入与排除标准

本研究入选的活动性肺结核患者(ATB)诊断标准依据《中华人民共和国卫生行业标准(WS288—2017)肺结核诊断》且痰或支气管肺泡灌洗液标本病原学检测阳性(涂片/培养/核酸检测三者至少1项为阳性)，无既往结核病史(问诊及X射线胸片检查无陈旧性结核病灶)，初次抗结核治疗，用药少于7天。

本发明人利用γ-干扰素释放试验对活动性肺结核病人(ATB)、结核病潜伏感染者和健康对照者(非活动性肺结核且非潜伏感染的健康对照)进行筛查，根据德国QIAGEN公司的QuantiFERON-ATBplusGold试剂盒说明书进行检测。结核病潜伏感染者(LTBI)是指既往无结核病史，无结核相关临床症状，X射线胸片正常但γ-干扰素释放试验阳性；非活动性肺结核/非潜伏感染健康对照者其既往无结核病史，无结核相关临床症状，γ-干扰素释放试验阴性，X射线胸片正常。

以上研究对象均排除：年龄大于60岁或小于18岁，妊娠或哺乳期妇女，恶性肿瘤患者，免疫系统疾病或接受免疫治疗者，人类免疫缺陷病毒感染者。本研究经中国医学科学院病原生物学研究所伦理委员会批准，获得入组对象知情同意后，本发明人对其外周血进行抽取进行后续试验。

表1：样本人口统计学资料

(二)外周血中性粒细胞转录组分析：

1.外周血中性粒细胞分选及富集(使用试剂盒Dynabeads^TMCD15,Invitrogen,货号:11137D)

以EDTA抗凝管采集研究对象外周全血0.8ml，将中性粒细胞从全血中分选出来，具体操作步骤如下：

1)颠倒混匀血液，吸取0.8ml至对应编号CD15流式管，吹吸混匀；

2)涡旋混匀磁珠，并迅速向稀释好的血液中加入40μl/样；

3)盖紧盖子，将流式管妥善安置在Hula Mixer上，8rpm旋转孵育20min；

4)取出孵育好的细胞，瞬时离心，在磁力架上静置2min，小心吸去上清；

5)取下流式管，加入1.6ml分离buffer，轻轻吹匀后转移至对应2ml蛋白低吸附管。磁力架上静置2min，吸去上清；

6)从磁力架上取下，加入1.6ml分离buffer，轻轻吹匀。磁力架上静置2min，吸去上清。重复1次；加入350μl的BufferRLT裂解细胞，涡旋震荡1min，4℃放置备用。用于下面的步骤2。

2.总RNA提取

采用德国QIAGEN公司商品化RNA提取试剂盒RNeasy Plus Mini Kit，按照说明书对经过处理的样本进行RNA提取纯化，具体步骤如下：

1)将上一步骤中，细胞裂解液在磁力架上静置2min，吸取细胞裂解液转移至gDNA去除柱中，12000rpm离心30s，收集流穿液；

2)向流穿液中加入350μl 70％乙醇，混匀。转移700μl至RNeasyMini柱中，12000rpm离心15s，弃去流穿液；

3)加入700μl Buffer RW1，轻轻盖上盖子后，12000rpm，离心15s，弃去废液；

4)加入500μl Buffer RPE，轻轻盖上盖子后，12000rpm，离心15s，弃去废液；

5)加入500μl Buffer RPE，轻轻盖上盖子后，12000rpm，离心2min；

6)更换新的收集管，最大转速，离心1min，去除残余液体，开盖1min使残余液体充分挥发；

7)将RNeasy Mini柱放入1.5mL的EP管，向柱膜中心加入30μl RNase free的水，静置1min；

8)轻轻盖上盖子后12000rpm，离心1min，收集RNA后冰上放置，用于下面的文库制备和第一链cDNA合成。

3.cDNA合成

细胞总RNA采用美国Thermofisher公司的SuperScript^TMIVVILO^TMMaster Mix试剂盒进行RNA逆转录，获得cDNA。以下列反应体系配制反应液。将配好的反应液置于PCR仪中，以反应条件为25℃10分钟，50℃10分钟，85℃5分钟合成第一链。cDNA合成后，于-80℃保存备用。

4.转录组建库与测序

用

Stranded Total RNA-SeqKitv2(Takara)制备RNAseq测序文库，参照试剂盒流程说明书的具体步骤，以步骤3中合成的cDNA第一链为模板，添加Illumina Adapters和Indexes、并以AMPure磁珠纯化；再经ZapRv2和R-Probesv2去除核糖体cDNA、Final PCR文库扩增、AMPure磁珠纯化等步骤获得RNA-seq测序文库，经Agilent2100质检合格后上机测序。

经质检合格的文库采用Illumina Novaseq 6000平台进行测序，测序策略为双端测序，长度为150bp。

5.转录组数据分析

数据质控和比对分析：采用Trimmomatic软件对原始下机数据进行质量过滤，主要参数采用默认参考值，包括去除测序序列(read)中的接头序列(建库过程中引入)、低质量序列(由于测序仪本身的误差造成的)、较短序列(<30bp的序列)。

基因表达量统计及标准化分析：本研究采用双端测序，将mapping到基因组上的片段数目用来统计基因的原始表达量，使用HTSeq-count统计每个基因的原始表达量，然后使用DESeq2方法对所有样本的每个基因的原始表达量进行归一化(normalization)处理，从而获得一个表达矩阵。在衡量基因表达量时，本发明人采用FPKM值作为基因表达量的衡量指标，统计基因在不同样本中的表达量。

差异表达基因分析及候选分子标识的筛选：使用DESeq2算法进行两两比较计算基因表达差异倍数(fold change，FC)，并计算P-value和错误发现率(FDR)进行显著性分析。本研究中显著差异表达基因(Differentially expressed gene，DEGs)的筛选标准为：FDR<0.05，和|log2FC|>1。

通过对这三组样本进行两两比较计算差异倍数(Fold Change，FC)来筛选差异表达基因，并计算出p值(p-value)和错误发现率(False Discovery Rate，FDR)进行显著性分析。本发明人在活动性肺结核组与健康对照组比较中鉴定出183个显著性差异表达基因，包括114个上调基因和69个下调基因；在活动性肺结核组与潜伏性肺结核感染组比较中检测到271个显著性差异表达基因，包括139个上调基因和132个下调基因。其中ATB与HC和ATB与LTBI之间有109个基因重叠，并且调控方向(上调或下调)是一致的。

通过差异表达基因聚类分析，可见上调基因和下调基因有明显的组内聚集和组间差异现象(图1)。

(三)候选分子标识的确定

PCA分析和差异表达基因集功能富集分析结果，结合基因在ATB、LTBI和HC组间差异显著性、差异倍数和表达量范围综合分析，本发明人进一步筛选出10个基因(GBP5、CSRNP1、PIM2、CCNL1、SRSF5、RBM3、SHKBP1、ITM2B、EIF1、MYL12A)作为后续验证靶基因，通过实时定量分析方法，已验证其在ATB、LTBI及正常对照个体内基因表达量变化情况。靶基因的RNA-seq分析结果如表2所示。

表2：RNA-seq测序分析的靶基因表达量及统计分析结果

表2展示了10个基因转录组测序得到的两组之间(ATB和HC以及ATB和LTBI)比较得到的差异倍数(log2Fold change)，差异显著性(FDR)和各组样本的平均表达量(FPKM均值)情况。

从转录组数据分析结果看，GBP5、EIF1、MYL12A和SRSF5，以及CSRNP1、PIM2、CCNL1和RBM3这8个基因在ATB、LTBI及HC的组间差异明显，且表达量较高，具备成为临床检测指标的潜力，最有可能作为分子标识。

实施例2：临床样本qPCR检测体系的建立及ATB分子标识的验证

通过转录组学分析，本发明人筛选出与活动性结核状态存在显著关联的8个差异表达基因(实施例1)。以此为线索，建立可用于临床检测的qPCR实时定量分析体系。ATB鉴别分子标识的验证分为两个阶端：差异表达基因的qPCR验证及诊断诊断效果的评价。

(一)中性粒细胞基因表达量定量分析体系：

1.内参基因的选择

在qPCR实时定量分析体系中，内参基因的作用至关重要。其作用是进行系统标化，减少个体差异对群体分析的干扰。在本发明人对临床样本转录组分析中发现，常规的内参基因在中性粒细胞的基因表达谱中有明显的个体差异，不适合本发明人检测体系的要求。因此，本发明人利用临床样本转录组数据分析，筛选出适合中性粒细胞实时定量分析的内参基因。

根据中性粒细胞RNA-seq分析结果，将各个样本的转录组基因表达量进行log转换使其符合正态分布。通过TB和LTBI、HC组样本合并，计算各基因表达量log值的标准差及变异系数。对所有入组样本的转录组所包含的基因表达量进行统计方法处理，选取在标准差和变异系数中位于前20的基因，既在所有样本中均稳定表达的基因作为候选的内参基因，与公认内参基因ACTB和GAPDH一起进行后续分析。使用GeNorm和NormFinder软件分析所选基因表达稳定性，进一步筛选出表达水平与目的基因相近、功能与TB感染无关、表达稳定且可获得商业化引物与探针的基因作为候选内参基因。以通用内参基因ACTB、GAPDH为对照，在进行临床样本的qPCR检测后，发现在中性粒细胞中，MYO1F具有较通用内参基因更稳定的表现，因此作为本检测体系的作为内参基因。

2.操作步骤

1)全血样本处理及细胞磁性分选和富集：按照商业化试剂实验说明书操作，吸取0.8ml混匀全血到5ml流式管中，已1：2的比例向流式管中加入1.6mL的4℃预冷的分离液，吹吸混匀；加入CD15+磁珠(Invitrogen，US)并迅速向稀释好的血液中加入一份磁珠，盖紧盖子，进行孵育和细胞收集；

2)细胞总RNA提取：采用RNeasy Plus Mini Kit(Qiagen,Germany)对磁珠分选的中性粒细胞总RNA进行提取，具体操作见实验手册；

3)cDNA合成：取细胞总RNA，采用SuperScript^TMIVVILO^TMMaster Mix(Invitrogen，US)进行反转录，得到细胞样本cDNA。

4)基因表达量检测：利用实施荧光定量PCR反应(TaqMan系统)，对宿主体内目标基因的真实表达情况进行检测。采用qPCR-TaqMan^TMGene Expression Assay(ThermoFisher,US)，以步骤3)中制备的cDNA为模板，加入特异引物对或内参引物对进行实时定量PCR，获取各个样本来源模板中的各基因及内参基因扩增常数，按照下式计算各个目标基因相对表达量：

目标基因相对表达量＝2-^ΔΔCT＝2^-(ΔCT _待测者 ^-ΔCT _对照 ^的均值)＝2^-[(CT _{待测者目的基因} ^-CT _{待测者内参基因} ^)-(CT _{对照目的基因} ^-CT _{对照内参基因} ^)的均值]。

上面公式中的目的基因分别为GBP5、CSRNP1、PIM2、CCNL1、SRSF5、RBM3、SHKBP1、ITM2B、EIF1或MYL12A；内参基因为MYO1F。

a)配制反应体系1和反应体系2

反应体系1(目的基因)：为20μL，由qPCR反应多聚酶

Fast AdvancedMasterMix，目的基因

Assayprimer，及样本cDNA和无核酸酶水组成。

反应体系2(内参基因)：为20μL，由

Fast Advanced Master Mix，

Assay primer，及样本cDNA和无核酸酶水组成。

b)实时定量PCR检测：

将步骤(1)配制的各个反应体系在Quant Studio^TM6and 7Flex实时荧光定量PCR仪(Applied Biosystems，US)上进行实时定量PCR检测。使用2^-ΔΔCt法计算各个模板中目的基因的相对表达量。反应条件：95℃20s；95℃1s，60℃20sec，40个循环，荧光信号在延伸阶段采集。

(二)差异表达基因的qPCR验证：

本研究中，首先选取76例验证人群(包括ATB组24例，LTBI组24例和HC组28例)对目的基因的表达量进行定量分析和组间差异统计。以MYO1F作为内参基因，采用2^-ΔΔCt算法对目的基因相对表达量进行统计计算。采用Kruskal-Wallis单因素方差分析进行三组间统计，多组间两两比较采用Dunn检验方法，当组间总的有统计学差异，进一步采用Dunn法(也可以是其它方法)进行多重比较。

图2A至2J中显示了各基因表达量在不同类型样本中的组间比较结果。其中，GBP5(图2A)、SRSF5(图2B)、CSRNP1(图2C)、RBM3(图2D)、MYL12A(图2G)、EIF1(图2H)和CCNL1(图2E)基因在ATB组表达都显著增高，且差异有统计学意义。PIM2(图2F)基因ATB组与其他无统计学差异。阴性对照基因ITM2B(图2I)和SHKBP1(图2J)在各组间均无统计学差异，各个基因的具体相关参数见表3和表4。整体上看qPCR结果与转录组测序数据结果一致，表明RNA-seq的分析结果准确可靠。

qPCR基因表达定量分析，证实了转录组学分析所筛选的差异表达基因与活动性结核发病状态之间的关联。进一步使用GraphPad Prism 7软件绘制接受者操作特征曲线(receiver operating characteristic curve，ROC曲线)，并计算出曲线下面积(AUC)、灵敏度(Spensitivity)、特异度(Specificity)。上述统计分析结果均以P<0.05为有统计学意义。

表3：ATB vs.HC ROC分析结果

表4：ATB vs.LTBI ROC分析结果

从表3和表4中的数据可以看出，以单个基因的AUC、灵敏度和特异性参数进行比较，MYL12A、E1F1、GBP5和SRSF5这4个基因对区分ATB与HC、ATB与LTBI样本的效果最好。

实施例3：结核分子标识的诊断效果评价

由于宿主的遗传背景复杂，在分析基因表达量变化时，理论上检测目标越多，对疾病相关的不同类型样本的区分效果越好。但在实际应用中，过多的检测基因数目会导致工作量增加，以及操作和质控难度的增加。因此，发现一个有效的多基因组合，兼顾诊断效果和可操作性是疾病诊断标识筛选的必经之路。

在本研究中，依据候选分子标识qPCR验证结果，通过计算机模型模拟分析，从候选的基因中筛选出基因差异表达量变化最显著的4个基因(MYL12A、E1F1、GBP5和SRSF5，简称为MEGS或MEGS组合)。与LTBI相比，它们的表达量在ATB中显著上升，且差异显著，组间比较p<0.0001，具有统计学意义。说明它们具有区分ATB与LTBI的鉴别能力。本发明人以前述入组条件收取ATB和LTBI临床样本，重新进行随机编号后做为评价队列，对分子标识物的鉴别诊断效果进行评价。

为了验证的目的基因是否具有作为诊断或辅助诊断结核病的基因表达生物标志物，本发明人选取了差异表达最显著的4个基因(MYL12A、E1F1、GBP5和SRSF5)，以样本基因表达量组合检测指标为诊断标识，进行诊断效果评价。通过扩大验证样本量，并作受试者操作特征曲线(receiver operating characteristic curve，ROC曲线)分析。纳入评价组的样本共84例(如表5，包括ATB组31例、LTBI组53例)。利用本研究建立的qPCR检测体系对每个样本的4基因进行相对表达量的定量分析，并算出MEGS的组合表达量(也称为合并表达量)进行定量分析，并通过组合表达量的cutoff值进行ATB与LTBI的区分。组合表达量(S_TB)的计算与评判公式如下：

这里g_GBP5指基因GBP5的表达值，c_GBP5指基因GBP5的阈值，

指示GBP5的表达值是否大于阈值，如果表达值大于阈值，则

否则

其它三个基因同理，即：g_EIF1指基因EIF1的表达值，c_EIF1指基因EIF1的阈值，

指示EIF1的表达值是否大于阈值，如果表达值大于阈值，则

否则

g_MYL12A指基因MYL12A的表达值，c_MYL12A指基因MYL12A的阈值，

指示MYL12A的表达值是否大于阈值，如果表达值大于阈值，则

否则

g_SRSF5指基因SRSF5的表达值，c_SRSF5指基因SRSF5的阈值，

指示SRSF5的表达值是否大于阈值，如果表达值大于阈值，则

否则

“max”表示三者求最大，x表示乘法。当GBP5的表达值大于阈值，且EIF1、MYL12A、SRSF5三个基因中至少一个基因的表达值大于阈值时，S_TB＝1,即诊断为ATB，否则S_TB＝0，即诊断为LTBI。

注：

1.基因表达值指qPCR反应测得CT值经推算获得的基因相对表达量，其中对照内参基因为MYO1F；目标基因相对表达量＝2^-ΔΔCT＝2^{-(ΔCT待测者-ΔCT对照的均值)}＝2^{-[(CT待测者目的基因-CT待测者内参基因)-(CT对照目的基因-CT对照内参基因)的均值]}。

2.4个基因的阈值分别为：GBP5:2.685；MYL12A:1.287；EIF1:1.706；SRSF5:1.244。

表5：样本人口统计学资料

针对4基因组合验证，当本发明人将ATB与LTBI(84例)混合并重新编号，分别进行ATB检出率测算，以此评价该分子标识的鉴别诊断效果。在这两组中，分别依据之前模型预测的cutoff值(针对每个基因有效区分鉴别ATB与LTBI组的差异值：MYL12A:1.287；EIF1:1.706；GBP5:2.685；SRSF5:1.244)，在评价组中针对每个样本，首先单独获得各基因的相对表达量，然后算出该样本的4基因组合表达量，以评判公式和标准预测样本属于ATB或LTBI。

结果如图3A至图3E所示。

结果显示，在评价组中，以本发明检测体系预测的ATB和LTBI样本与真实TB和LTBI进行对比，算出灵敏度(预测ATB在实际ATB中的比例)和特异度(预测LTBI在真实LTBI中的比例)，以此进行标识物鉴别效果评价，经统计学分析软件graphpad分析，获得评价参数AUC为0.9763(95％CI：0.9498-1.003)，p<0.0001。其特异度为0.9623，敏感度为0.871。因此，具有作为结核诊断标识的临床应用价值。

另外，从图3A至图3E中可以看出，以单个基因表达量变化区分ATB和LTBI的AUC、特异度和灵敏度并不理想(见图3A、图3B、图3C、图3D)。例如GBP5在4个单基因中表现最好，但其特异度只有0.92，说明有8％的几率出现假阳性。而当用4基因组合对样本基因表达值进行综合评判时，其特异性提高到0.96，同时AUC值、似然比(likehood ratio)等参数都有明显提高(图3E)。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。