CN111850016A

CN111850016A - 免疫组库标准物质序列及其设计方法和应用

Info

Publication number: CN111850016A
Application number: CN202010639577.2A
Authority: CN
Inventors: 王谢; 苏政; 杨凡
Original assignee: Shenzhen Fanyin Medical Co Ltd
Current assignee: Shenzhen Fanyin Medical Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-30
Anticipated expiration: 2040-07-06
Also published as: CN111850016B

Abstract

本发明涉及一种免疫组库标准物质序列及其设计方法和应用，属于免疫组库检测技术领域。该免疫组库标准物质序列，由5’端到3’依次包括：V基因参考序列、CDR3模拟序列、J基因参考序列和C基因参考序列；所述CDR3模拟序列在真实样本中出现的概率≤0.01％，所述CDR3模拟序列包括1‑3段识别标签序列以及0‑1段水印序列；所述标签序列用于识别区分所述免疫组库标准物质序列，所述水印序列用于标识所述免疫组库标准物质序列的来源。该序列通过人工设计合成，为模拟淋巴细胞受体基因的免疫组库标准物质，可通过该标准物质作为模拟样品，进行多重PCR引物体系的调整和验证，从而减小多重PCR带来的偏差，更精准的反应样本的免疫组库各克隆分布情况。

Description

免疫组库标准物质序列及其设计方法和应用

技术领域

本发明涉及免疫组库检测技术领域，特别是涉及一种免疫组库标准物质序列及其设计方法和应用。

背景技术

免疫组库(Immune Repertoire，IR)被定义为在任何特定时间下，机体适应性免疫系统的T淋巴细胞表面受体和B淋巴细胞表面受体(抗体)的总和。机体的适应性免疫主要是由淋巴细胞(包括T淋巴细胞和B淋巴细胞)发挥功能，具备抗原特异性的特点，这种抗原特异性是由淋巴细胞表面的抗原受体所决定的。

T细胞主要参与细胞免疫，其特异性由T细胞受体(T cell receptor，TCR)编码基因的特异性决定；B细胞主要通过抗体参与体液免疫，其特异性由B细胞受体(B cellreceptor，BCR)或称抗体(immunoglubin，IG)编码基因的特异性决定。

BCR由两条重链和两条轻链构成，TCR由含量占绝大部分的α、β链(95％～99％)和含量较低的γ、δ链(1％～5％)组成，每条链又由多个V、D、J、C基因共同编码。在人体细胞的染色体上，每条链都有数十种V基因、D基因和J基因的编码基因，在T/B细胞成熟过程中，会发生VDJ基因的重排，在重排过程中随机选取一种V、D和J基因串联在一起，组成TCR/BCR的可变区，同时还会在接合部位发生碱基的随机的插入和删除，因此几乎每个新产生的T/B细胞的TCR/BCR基因都各不相同，组成数量庞大的TCR/BCR免疫组库，赋予机体识别各种不同抗原的能力。

通过高通量测序(HTS)对TCR/BCR的编码基因进行分析，可以对免疫组库进行解码，用于对免疫系统的多样性和特异性进行分析，已经广泛的用于基础研究及转化研究，在个别领域也已经转化成临床检测产品。目前，分析免疫组库的主要的两种方法是5’RACE和多重PCR，5’RACE方法只适用于RNA样品，而多重PCR既适用于RNA，也适用于DNA。

上述多重PCR是指在一管反应中使用多对引物对多个目标片段同时进行扩增的技术，为实验研究节约了大量时间和成本，被广泛应用于核酸诊断、基因缺失分析、突变和多态性分析、定量分析等研究，同时在病原学研究中包括病毒、细菌、真菌和寄生虫鉴定表现出了巨大的潜力。

通过多重PCR技术对免疫组库进行分析，同时适用于DNA和RNA，且与5’RACE相比成本相对低廉，是用于免疫组库研究的最常见方法。该技术通过针对V区家族和J区/C区家族设计的多条引物直接对DNA或者RNA逆转录的cDNA进行目标区域扩增，然后测序获得样本中的所有TCR/BCR基因编码序列。

多重PCR作为免疫组库的重要研究方法，虽然具有高效、低成本的优势，但是多重PCR扩增由于在同一个反应体系中多对引物的结合效率差异及引物间可能存在的相互作用，会带来不同模板的扩增效率的偏差，这种偏差使得得到的数据不能真实反映样品中每个T细胞或B细胞克隆的真实情况。

发明内容

基于此，有必要针对问题，提供一种免疫组库标准物质序列，以TCR及BCR编码基因参考序列以及健康人群中的TCR/BCR分布规律为基准进行设计，使用此标准物质模拟T/B细胞受体库，对多重PCR引物体系进行比例调整优化，以达到减小偏差的目的。

一种免疫组库标准物质序列，由5’端到3’依次包括：V基因参考序列、CDR3模拟序列、J基因参考序列和C基因参考序列；所述CDR3模拟序列在真实样本中出现的概率≤0.01％，所述CDR3模拟序列包括1-3段识别标签序列以及0-1段水印序列；所述标签序列用于识别区分所述免疫组库标准物质序列，所述水印序列用于标识所述免疫组库标准物质序列的来源。

本发明的免疫组库标准物质序列，以TCR(TRA、TRB、TRG和TRD)及BCR(IGH、IGK和IGL)编码基因参考序列以及健康人群中的TCR/BCR分布规律为基准，对免疫组库标准物质序列进行设计。通过对CDR3序列进行人工模拟设计，再配合不同排列组合的V基因，J基因和C基因，从而使用此标准物质模拟T/B细胞受体库，对多重PCR引物体系进行比例调整优化，以达到减小偏差的目的。

可以理解的，设计CDR3模拟序列在真实样本中出现的概率为越小越佳，但本发明人经过试验和综合考虑实操性和使用效果，发现将CDR3模拟序列在真实样本中出现的概率确定为0.01％以下，即可避免由于和真实样本混同导致检测失真，又具有对检测系统较好的校准优化作用。

在其中一个实施例中，每段所述识别标签序列的长度为6-50bp，所述水印序列的长度为为9-30bp。以上述长度的识别标签序列和水印序列配合，可较好的模拟真实样本CDR3。

在其中一个实施例中，所述CDR3模拟序列前、中、后段的GC含量均趋近于真实样本中的GC含量。可以理解的，所述前、中、后段的划分以CDR3序列的整体长度平均分为3段为标准定义前、中、后段。

在其中一个实施例中，当所述免疫组库标准物质序列为IGH序列，则所述CDR3模拟序列前、中、后段的GC含量分别是0.60±0.04、0.54±0.04和0.48±0.05；

当所述免疫组库标准物质序列为TRB序列，则所述CDR3模拟序列前、中、后段的GC含量分别是0.64±0.04，0.61±0.03和0.52±0.04。

在其中一个实施例中，所述CDR3模拟序列由5’端到3’端依次为C(Z)i(X)jNEQIMW或C(Z)i(X)jNEQIMF；

其中，C表示CDR3起始保守氨基酸半胱氨酸所对应密码子的核苷酸；

W表示CDR3终止保守氨基酸色氨酸所对应密码子的核苷酸；

F表示CDR3终止保守氨基酸苯丙氨酸所对应密码子的核苷酸；

NEQIM分别表示天冬酰胺、谷氨酸、谷氨酰胺、异亮氨酸、甲硫氨酸所对应密码子的核苷酸；

Z、X独立地任选自：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶；

i、j选自：6-50的自然数。

上述CDR3模拟序列中，(Z)i和(X)j分别为两段识别标签序列，表示每条免疫组库标准物质序列模板对应的唯一分子识别标签(UMI)，以两段识别标签序列配合，具有以下优势：1)识别标签(Z)i或(X)j在C基因的末端可以再次添加，便于人工模拟序列的设计和分析；2)两段GC含量有差异，更为贴近真实样本情况；3)(Z)i和(X)j的组合可以产生不同长度的CDR3，以配合不同链的CDR3长度不一样的特点。

其中的水印序列选自天冬酰胺、谷氨酸、谷氨酰胺、异亮氨酸、甲硫氨酸所对应密码子的核苷酸，上述设计与真实样本终止保守氨基酸之前的氨基酸序列差异大(统计1万例样本均未出现)，可以更好的区分模拟序列和真实样本。可以理解的，上述水印序列也可以由其他长度为3-10个氨基酸或长度为9-30个核苷酸的序列来代替，仅需达到区分真实样本与模拟样本，或称区分序列来源即可。

上述(Z)i和(X)j两端识别标签序列，以及水印序列的配合，共同保证这些人工合成的模板在真实样品中出现的概率极低，可将真实样本与模拟样本区分。

本领域技术人员可以理解的，上述(Z)i或(X)j的表示中，“Z”或“X”仅表示任选自腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶的核苷酸。

在其中一个实施例中，所述C基因参考序列之后还设有识别标签序列，所述识别标签序列为(Z)i序列或(X)j序列。采用此设计，具有在数据分析中利用较短的测序读长迅速定位到某条标准物质序列的优势。

在其中一个实施例中，所述CDR3模拟序列中，包括两段识别标签序列(Z)i(X)j；

当所述免疫组库标准物质序列为IGH序列，所述(Z)i(X)j序列选自SEQ ID No:1-SEQ ID No:53所示序列；

当所述免疫组库标准物质序列为TRB序列，所述(Z)i(X)j序列选自SEQ ID No:54-SEQ ID No:100所示序列。

上述免疫组库标准物质序列的设计，需要较大的真实样本数据积累作为设计原则的设定基础，特别是其中模拟CDR3区的设置，要求与真实样本CDR3接近但是又不能重复，包括模拟CDR3的起始和终止保守氨基酸，CDR3的长度，CDR3的核苷酸序列和氨基酸序列，都需要在大量真实数据中进行检索和判断。上述得到的免疫组库标准物质序列，用于对多重PCR引物体系进行比例调整优化，可以很大程度减小偏差，具有非常好的效果。

在其中一个实施例中，所述V基因参考序列、J基因参考序列和C基因参考序列由IMGT数据库获取。

可以理解的，可从IMGT数据库获取V、J、C参考基因，但该基因也可以从其它可实现同样目的的标准数据库获取，不影响本案免疫组库标准物质序列的设计。

在其中一个实施例中，所述C基因参考序列保留5’端的前100-1500bp，删除后续核苷酸。具有在有限长度内能精确定位到参考序列C基因的优势。

在其中一个实施例中，对所述V基因参考序列和J基因参考序列进行排列组合，得到若干免疫组库标准物质序列。

在其中一个实施例中，所述免疫组库标准物质序列由至少32条标准物质序列组成，每一条免疫组库标准物质序列的CDR3模拟序列均具有唯一识别标签。

在其中一个实施例中，所述免疫组库标准物质序列两端还设有限制性内切酶的酶切位点。

在其中一个实施例中，所述V基因参考序列的5’端还设有用于体外转录形成RNA的T7启动子序列。

本发明还公开了上述的免疫组库标准物质序列的设计方法，包括以下步骤：

1)获取TCR和/或BCR的编码基因，所述编码基因包括V基因、D基因、J基因和C基因的参考序列；

2)对所述V基因的参考序列进行处理，保留V基因参考序列5’端到3’端的CDR3起始保守氨基酸密码子，删除所述CDR3起始保守氨基酸密码子之后序列；

3)在所述CDR3起始保守氨基酸密码子之后接入所述CDR3模拟序列；

4)对所述J基因参考序列进行处理，保留J基因参考序列3’端到5’端的CDR3终止保守氨基酸密码子，删除所述CDR3终止保守氨基酸密码子之后到5’端的序列；

5)对上述处理后的V基因参考序列、J基因参考序列进行排列组合，中间加入所述CDR3模拟序列，再在J基因参考序列3’端随机加上C基因参考序列，即得。

在其中一个实施例中，步骤5)中，先对所述C基因参考序列进行处理，保留5’端的前100-1500bp碱基，再在J基因参考序列3’端随机加上经处理的C基因参考序列，随后在C基因3’端再加上所述模拟CDR3序列中的至少一段识别标签序列。

在其中一个实施例中，还包括步骤6)，在步骤5)得到的序列两端添加限制性内切酶的酶切位点，并在V基因参考序列酶切位点的5’端再加上T7启动子序列(如5’-TAATACGACTCACTATAG)，用于体外转录形成RNA。

本发明还公开了上述的免疫组库标准物质序列所对应的免疫组库标准物质。

本发明还公开了上述的免疫组库标准物质的制备方法，包括以下步骤：

1)在上述的免疫组库标准物质序列两端加上载体同源臂序列，合成基因；

2)对上述得到的基因产物进行电泳，回收正确产物，并同源组装连接至载体上；

3)将组装环状产物转化进基因工程菌，培养；

4)挑取上述工程菌中测序正确的单克隆，扩大培养后提取质粒DNA，即得。

在其中一个实施例中，步骤1)中，将上述的免疫组库标准物质序列两端加上载体同源臂序列后，拆成有20bp重叠序列的多条上下游交替的80bp引物，引物合成完成后通过PCA法合成基因；

步骤2)中，通过载体同源臂进行Gibson同源组装连接至载体上；

步骤3)中，将组装环状产物转化进DH5α大肠杆菌感受态，37℃摇菌两小时后涂布于对应抗性平板，置于37℃烘箱倒置培养过夜：

步骤4)中，隔天挑取培养得到的单克隆摇菌后进行sanger测序，对测序正确的单克隆进行扩大培养后提取质粒DNA，并将该单克隆菌液加入50％甘油放置于-80℃保存。

本发明还公开了一种上述的免疫组库标准物质的在用于制备免疫组库检测设备和/或试剂中的应用。

本发明还公开了一种免疫组库检测试剂盒，包括上述的免疫组库标准物质。

在其中一个实施例中，所述免疫组库标准物质以环状或者线性DNA形式存在，含有所述免疫组库标准物质的质粒总浓度为10³-10¹³个/μL。

可以理解的，其中不同序列的各免疫组库标准物质可以以等摩尔数混合，也可以根据具体的需要，选择不等摩尔数混合。

本发明还公开了上述的免疫组库检测试剂盒的制备方法，包括以下步骤：

1)取上述得到的免疫组库标准物质，定量后按照等摩尔比混合各不同序列的免疫组库标准物质的质粒；

2)对混合后的免疫组库标准物质质粒用SbfI酶切，去除质粒DNA，回收合成的免疫组库标准物质混合物。然后对免疫组库标准物质混合物连接上高通量测序平台的测序接头，进行测序，将测序数据中每条免疫组库标准物质的比例作为真实浓度；

3)通过ddPCR的方法检测带有免疫组库标准物质的质粒拷贝数，并稀释成预定浓度，备用。

与现有技术相比，本发明具有以下有益效果：

本发明的一种免疫组库标准物质序列，通过人工设计合成，为模拟淋巴细胞受体基因的免疫组库标准物质，可通过该标准物质作为模拟样品，进行多重PCR引物体系的调整和验证，从而减小多重PCR带来的偏差，更精准的反应样本的免疫组库各克隆分布情况。亦可作为内参(spike-in)加入免疫组库文库构建过程中，矫正样本免疫组库数据偏差以及估算样本中淋巴细胞数量。

本发明提供了一种免疫组库标准物质，根据真实生物标本中淋巴细胞抗原受体编码基因的特征进行设计，最大化的模拟了抗原受体基因的序列特征，可以评估易产生偏差的免疫组库多重PCR实验系统的偏差，进而对实验系统进行调整和优化，从而尽可能真实的反应各克隆的真实水平。标准物质亦可作为免疫组库文库构建过程中的内标物质(spike-in)，监控及评判整个过程的稳定性及后续测序数据的质量，同时可以用于校正每个标本的残留偏差。

附图说明

图1为实施例1中免疫组库标准物质的标准模版设计示意图；

图2为实施例2中IGH标准模版设计示意图；

图3为实施例3中TRB标准模版设计示意图；

图4为实施例4中实验体系优化前(A)和优化后(B)IGHV基因的扩增偏差示意图；

图5为实施例4中实验体系优化前(A)和优化后(B)IGHJ基因的扩增偏差示意图；

图6为实施例5中实验体系优化前(A)和优化后(B)TRBV基因的扩增偏差示意图；

图7为实施例5中实验体系优化前(A)和优化后(B)TRBJ基因的扩增偏差示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

一种免疫组库标准物质，通过以下方法得到。

1、免疫组库标准物质序列的设计。

免疫组库标准物质是多条标准模板的混合物，每条标准模版的设计如图1所示，说明如下：

1)从IMGT下载TCR(TRA、TRB、TRG和TRD)及BCR(IGH、IGK和IGL)的编码基因，包括V、D、J和C的参考序列，筛选留下其中有功能(Functional)的基因。

2)对IMGT下载的V基因进行处理，保留V基因参考序列5’端到3’的CDR3起始保守氨基酸密码子-半胱氨酸(缩写为C)，删除半胱氨酸密码子及后面序列部分；

3)CDR3区为图示中的C(Z)i(X)jNEQIMW，即为CDR3模拟序列。其中(Z)i是长度为6-50个核苷酸的一段识别标签序列，表示每条标准模板对应的唯一分子识别标签(UMI)，每条模板的(Z)i都不相同；(X)j也是长度为6-50个核苷酸的一段识别标签序列，表示第二个唯一分子识别标签，每条模板的(X)j也都不相同。

NEQIM是氨基酸序列，为NEOIMMUNE的缩写谐形水印，也可以由其他长度为3-10个氨基酸或长度为9-30个核苷酸的序列来代替，以起到水印的作用。

CDR3模拟序列C(Z)i(X)jNEQIMW或C(Z)i(X)jNEQIMF，开头的C为CDR3的起始保守氨基酸；末尾的W(针对IGH)/F(针对IGK、IGL、TRA、TRB、TRG和TRD)为CDR3的终止保守氨基酸。

(Z)i和(X)j二者共同保证可以将不同模板区分开来；(Z)i、(X)j和NEQIM水印三者共同保证这些人工合成的模板在真实样品中出现的概率极低，如0.01％以下。

4)根据大人群数据的的CDR3区域GC含量分布，挑选(Z)i和(X)j，设置模拟CDR3区域每个碱基的信息，使其尽量接近真实样品CDR3前中后段的GC含量。

当所述免疫组库标准物质序列为IGH序列，则所述CDR3模拟序列前、中、后段的GC含量分别是0.60±0.04、0.54±0.04和0.48±0.05；当所述免疫组库标准物质序列为TRB序列，则所述CDR3模拟序列前、中、后段的GC含量分别是0.64±0.04，0.61±0.03和0.52±0.04。

5)对IMGT下载的J基因进行处理，保留J基因参考序列3’端CDR3终止保守氨基酸密码子-色氨酸/苯丙氨酸(缩写为W/F)序列之后的部分，直到参考序列的末端，删除色氨酸/苯丙氨酸密码子及其5’端序列部分。

6)对IMGT下载的C基因进行处理，保留C基因参考序列5’端前100bp；

7)对处理后的V、J基因进行排列组合，中间加入模拟的唯一CDR3序列，在J基因3’端随机加上处理后的C基因，在C基因3’端再加上该条模拟CDR3序列中的(Z)i。

8)在上步的模板序列两端添加统一的限制性内切酶的酶切位点，并在V基因的酶切位点5’端再加上T7启动子序列5’-TAATACGACTCACTATAG，用于体外转录形成RNA。

2、标准物质的合成和保存。

1)在设计好的合成基因两端加上载体同源臂序列后，将其拆成有20bp重叠序列的多条上下游交替的80bp引物，引物合成完成后通过PCA法合成基因；

2)对PCA产物进行电泳后，判断得到大小正确的序列后将产物回收，通过载体同源臂进行Gibson同源组装连接至载体上；

3)将组装环状产物转化进DH5α大肠杆菌感受态，37℃摇菌两小时后涂布于对应抗性平板，置于37℃烘箱倒置培养过夜：

4)隔天挑取单克隆摇菌后进行Sanger测序，对测序完全正确的单克隆进行扩大培养后提取质粒DNA，并将该单克隆菌液加入50％甘油放置于-80℃保存。

3、混合各模板形成免疫组库标准物质试剂盒

1)混合：对每条含有免疫组库标准物质模板序列的质粒DNA用Qubit进行定量，两次定量后如数值差异不大则取平均值，如数值差异较大则进行第三次定量，使用三次中较接近的两次取平均值；按照等摩尔比混合所有含有标准物质的质粒；

2)标准物质真实混合比例测定：对混合后的质粒用添加的统一限制性内切酶酶切，去除质粒DNA，回收合成的标准模板混合物。然后对混合模板连接上高通量测序平台的测序接头，进行测序，将测序数据中每条模板的比例作为真实浓度；

3)标准物质的稀释定量：通过ddPCR的方法检测带有合成模板的质粒的拷贝数，并稀释成10⁶/μL的浓度，然后分装成1mL/管包装成试剂盒。

实施例2

一种免疫组库(抗体重链，IGH)标准物质序列，参照实施例1的方法得到，其序列设计如图2所示。

其中，CDR3模拟序列为C(Z)₁₄(X)₁₂NEQIMW，长度为47bp，与真实样本IGH CDR3长度中位数一致。

本实施例中，限制性内切酶酶切位点为SbfI(cctgcagg)。所得标准物质部分序列(Z)₁₄(X)₁₂如下表SEQ ID No:1-SEQ ID No:53所示。

表1.IGH标准物质(Z)₁₄(X)₁₂序列

以下述一条完整免疫组库标准物质序列为例进行说明：

TAATACGACTCACTATAGCCTGCAGGcaggttcagctggtgcagtctggagctgaggtgaagaagcct ggggcctcagtgaaggtctcctgcaaggcttctggttacacctttaccagctatggtatcagctgggtgcgacagg cccctggacaagggcttgagtggatgggatggatcagcgcttacaatggtaacacaaactatgcacagaagctcca gggcagagtcaccatgaccacagacacatccacgagcacagcctacatggagctgaggagcctgagatctgacgac acggccgtgtattac(tgtAACCAGGCCGTGGTaaccgtctgcgc

tgg)ggccagggcaccctggtcaccgtctcctcaggtgagGCTTCCACCAAGGGCCCATCCGTCTTCCCCCTGGCGCCCTGCTCCAGGAGCACCTCCGAGAGCACAGCCGCCCTGGGCTGCCTGGTCAAGGACTACTTCC

CCTGCAGG(SEQID No:157)

其中，“TAATACGACTCACTATAG”为T7启动子序列；“CCTGCAGG”为限制性内切酶的酶切位点；“caggttcagctggtgcagtctggagctgaggtgaagaagcctggggcctcagtgaaggtctcctgcaa ggcttctggttacacctttaccagctatggtatcagctgggtgcgacaggcccctggacaagggcttgagtggatg ggatggatcagcgcttacaatggtaacacaaactatgcacagaagctccagggcagagtcaccatgaccacagaca catccacgagcacagcctacatggagctgaggagcctgagatctgacgacacggccgtgtattac”为V基因序列；“tgt”为半胱氨酸C所对应密码子；“AACCAGGCCGTGGT”为(Z)₁₄序列；“aaccgtctgcgc”为(X)₁₂序列；

为氨基酸NEQIM所对应密码子；“tgg”为色氨酸W所对应密码子；“ggccagggcaccctggtcaccgtctcctcaggtgag”为J基因序列；“GCTTCCACCAAGGGCCCATCCGTCTTCCCCCTGGCGCCCTGCTCCAGGAGCACCTCCGAGAGCACAGCCGCCCTGGGCTGCCTGGTCAAGGACTACTTCC”为C基因序列；

为(Z)₁₄序列；“CCTGCAGG”为限制性内切酶的酶切位点。

实施例3

一种免疫组库(T细胞重链，TRB)标准物质序列，参照实施例1的方法得到，其序列设计如图2所示。

其中，CDR3模拟序列为C(Z)₁₄(X)₈NEQIMF，长度为43bp，与真实样本TRB CDR3长度中位数一致。

本实施例中，限制性内切酶酶切位点为SbfI(cctgcagg)。所得标准物质部分序列(Z)₁₄(X)₈如下表SEQ ID No:54-SEQ ID No:100所示。

表2.TRB标准物质(Z)₁₄(X)₈序列

实施例4

以实施例2的标准物质，评价IGH多重PCR实验体系的偏差。

一、标准物质标定。

1、混合。

对实施例2得到的每条含有IGH标准物质模板的质粒DNA用Qubit进行定量，两次定量后如数值差异不大则取平均值，如数值差异较大则进行第三次定量，使用三次中较接近的两次取平均值；按照等摩尔比混合所有含有IGH标准物质的质粒。

2、标准物质真实混合比例测定。

对混合后的IGH模板质粒用SbfI酶切，去除质粒DNA，回收合成的IGH标准模板混合物。然后对IGH混合模板连接上高通量测序平台的测序接头，进行测序，将测序数据中每条IGH模板的比例作为真实浓度。

3、多重PCR检测测定浓度。

通过多重PCR对含有合成IGH模板的混合质粒进行扩增，并通过第二步PCR加上高通量测序平台的测序接头，对测序数据进行分析，得出测定浓度。

二、IGH多重PCR扩增

1、IGH多重PCR扩增目标区域，所用引物及原始比例见表3所示。

表3.IGH引物及比例

2、多重PCR扩增体系。

2.1试剂。

表4.多重PCR扩增体系

2.2扩增条件

在0.2mLPCR管中按上表加完各组分后置于PCR仪中，按以下程序进行PCR：

3、片段纯化。

PCR结束反应后取出PCR管，使用Agencourt AMPure XP Reagent(BeckmanCoulter，A63882)进行0.8X+0.2X磁珠片段选择：

3.1取出4℃保存的Ampure XP Beads，室温放置30min平衡；使用前振荡均匀，按照样品体积0.8倍体积加入磁珠(40μL)并吹打混匀，静置5min；

3.2瞬时离心3秒后，将1.5mL离心管放置在磁力架(Invitrogen，Dynamag TM-2)上,静置3-5min至澄清；

3.3小心吸取上清至新的1.5mL离心管中，加入0.2倍体积的磁珠(10μL)并吹打混匀，静置5min；

3.4瞬时离心3秒后，将1.5mL离心管放置在磁力架上,静置3-5min至澄清；

3.5小心吸去上清后，加入500μL新配制的80％乙醇，等待30秒，弃上清；重复本步骤一次；

3.6室温干燥3-5min左右,观察磁珠表面没有水分(表面呈哑光并有细微裂痕)即可；

3.7往1.5mL离心管中加入22.5μL Nuclease-Free H2O，吹打混匀后静置5min，然后置于磁力架约3-5min至澄清。

3.8将22μL上清液转移至新1.5mL离心管中。

4、加测序接头

加测序接头反应体系如下表所示。

表5.加测序接头反应体系

5、纯化。

PCR结束反应后取出PCR管，使用Agencourt AMPure XP Reagent进行1X磁珠纯化：

5.1取出4℃保存的Ampure XP Beads，室温放置30min平衡；使用前振荡均匀，按照样品体积1倍体积加入磁珠(50μL)并吹打混匀，静置5min；

5.2瞬时离心3秒后，将1.5mL离心管放置在磁力架上,静置3-5min至澄清；

5.3小心吸去上清后，加入500μL新配制的80％乙醇，等待30秒，弃上清；重复本步骤一次；

5.4室温干燥3-5min左右,观察磁珠表面没有水分(表面呈哑光并有细微裂痕)即可；

5.5往1.5mL离心管中加入22.5μL Nuclease-Free H₂O，吹打混匀后静置5min，然后置于磁力架约3-5min至澄清。

5.6将22μL澄清液转移至新1.5mL离心管中。

5.7、使用Qubit^TM dsDNA HS Assay Kit(INVITROGEN，Q32854)对纯化产物进行定量。

6、环化定量和上机。

6.1使用MGIEasy环化试剂盒(MGI，1000005259)对定量文库进行环化，环化后使用Qubit^TM ssDNA Assay Kit(INVITROGEN，Q10212)对单链环化产物进行定量。

6.2将环化文库在BGISEQ-500平台上机测序，测序类型为PE100

7、下机数据分析。

对下机数据进行分析，统计各模板比例，即测定浓度。

8、计算偏差。

偏差＝测定浓度/真实浓度，当比值在0.5和2之间视为合格，即上下偏差不超过1倍。

9、最小化试验体系偏差。

随后，根据上述结果，对多重PCR的引物比例作出相应调整，对偏差大于2的基因相对应的引物比例下调，偏差小于0.5的基因相对应的引物比例上调，最小化实验体系的偏差。调整后引物和比例如上表1所示。

再重复上述实验流程，结果如图4和图5所示，其中，图4为实验体系优化前(A)和优化后(B)IGHV基因的扩增偏差。横坐标为IGHV基因名称，纵坐标为各基因的扩增偏差，图中实心横线为偏差2(上)和0.5(下)。图5为实验体系优化前(A)和优化后(B)IGHJ基因的扩增偏差。横坐标为IGHJ基因名称，纵坐标为各基因的扩增偏差，图中实心横线为偏差2(上)和0.5(下)。

从上述结果可以看出，使用本发明的IGH标准物质对多重PCR实验体系进行优化调整后，IGHV(图4)和IGHJ(图5)的扩增偏差都得到了较大的改善(调整后引物比例见附表3)，使用调整后的实验体系对真实样品进行多重PCR免疫组库建库测序，可以更真实的反应个体免疫细胞受体分布情况。

实施例5

以实施例3的标准物质，评价TRB多重PCR实验体系的偏差。

一、标准物质标定。

1、混合。

对实施例2得到的每条含有TRB标准物质模板的质粒DNA用Qubit进行定量，两次定量后如数值差异不大则取平均值，如数值差异较大则进行第三次定量，使用三次中较接近的两次取平均值；按照等摩尔比混合所有含有TRB标准物质的质粒。

2、标准物质真实混合比例测定。

对混合后的TRB模板质粒用SbfI酶切，去除质粒DNA，回收合成的TRB标准模板混合物。然后对TRB混合模板连接上高通量测序平台的测序接头，进行测序，将测序数据中每条TRB模板的比例作为真实浓度。

3、多重PCR检测测定浓度。

通过多重PCR对含有合成TRB模板的混合质粒进行扩增，并通过第二步PCR加上高通量测序平台的测序接头，对测序数据进行分析，得出测定浓度。

二、TRB多重PCR扩增

具体操作见实施例4，引物及原始比例见表6。

表6.TRB引物及比例

参照实施例4的方法计算偏差，偏差＝测定浓度/真实浓度，比值在0.5和2之间视为合格，即上下偏差不超过1倍。

随后，根据上述结果，对多重PCR的引物比例作出相应调整，对偏差大于2的基因相对应的引物比例下调，偏差小于0.5的基因相对应的引物比例上调，最小化实验体系的偏差；调整后引物和比例如上表1所示。

重复上述实验流程，结果如图6和图7所示，其中，图6为实验体系优化前(A)和优化后(B)TRBV基因的扩增偏差示意。横坐标为TRBV基因名称，纵坐标为各基因的扩增偏差，图中实心横线为偏差2(上)和0.5(下)。图7为实验体系优化前(A)和优化后(B)TRBJ基因的扩增偏差示意。横坐标为TRBJ基因名称，纵坐标为各基因的扩增偏差，图中实心横线为偏差2(上)和0.5(下)。

从上述结果可以看出，使用本发明的TRB标准物质对多重PCR实验体系进行优化调整后，TRBV(图6)和TRBJ(图7)的扩增偏差都得到了较大的改善，使用调整后的实验体系对真实样品进行多重PCR免疫组库建库测序，可以更真实的反应个体免疫细胞受体分布情况。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

序列表

<110> 深圳泛因医学有限公司

<120> 免疫组库标准物质序列及其设计方法和应用

<160> 157

<170> SIPOSequenceListing 1.0

<210> 1

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

aaccaggccg tggtaaccgt ctgcgc 26

<210> 2

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

aacgcgctgc gtgtacaggt tgcgcc 26

<210> 3

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

aaggaggtgt cgcgacctcc agagcg 26

<210> 4

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

aatcgtggcc gaggactcgg acagcg 26

<210> 5

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

acacgcgttg tccgagcttg gacgcg 26

<210> 6

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

acatccggct ccacagtgca ctcggc 26

<210> 7

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

acatcgtcag cgcgagtgcg atccgg 26

<210> 8

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

accgcgtccg gttaatcagg ctggcc 26

<210> 9

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

acctacggcg atcgattcgc cgtgcc 26

<210> 10

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

accttcggcc tgcacaagtg tgcggc 26

<210> 11

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

acgctacggc atgccagagt caccgg 26

<210> 12

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

acgtcatcca ggcgcagtca acggcc 26

<210> 13

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

acgtcgctca acggcagtcg agtcgg 26

<210> 14

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

actcagcctc cggtcatgca gcacgc 26

<210> 15

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

actctgcgcc gacaccaatg cctcgg 26

<210> 16

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

acttccgcac cgacccgtac caacgg 26

<210> 17

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

agataccgcc tggccgagta cctgcg 26

<210> 18

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

agcacgcgat cctgcgcgat ctacgg 26

<210> 19

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

agcacgtgga ggctcgctac atgcgc 26

<210> 20

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

agccggagat ggtccgtcaa gtggcc 26

<210> 21

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

agcgactcgg ttcccgttat ccggcg 26

<210> 22

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

agcgctggtc acagctatgc ctcgcc 26

<210> 23

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

agctctccag cgtgctcgat ccagcg 26

<210> 24

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

aggatggtac cgcgctggaa gaccgg 26

<210> 25

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

aggcacgatc tgccctggtc agagcg 26

<210> 26

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

aggctccagt ccgacttgga cacggc 26

<210> 27

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

aggtggtggc gcatgacgat ggtgcc 26

<210> 28

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

agtcgcctcg atgggaggat tcggcc 26

<210> 29

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

agtgccactc ggtcgcacga tctgcc 26

<210> 30

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

agttccgtcg cacggccacg tatcgc 26

<210> 31

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

agttcggcag cggagccatt ggtgcc 26

<210> 32

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

atccatgtgc ggccgctcat acgcgg 26

<210> 33

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

atcggctgcg tcgaggcgtc aatcgg 26

<210> 34

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

atgctaccgg agccggttgt ggacgg 26

<210> 35

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

atggcctcgg ccatgtcctc aagcgg 26

<210> 36

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

attcaccggc gtgggtggac tcacgg 26

<210> 37

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

attccgaacg gcgggtggag atgcgc 26

<210> 38

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

caacggttgg agcggttcgg agacgg 26

<210> 39

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

caagtcgcgc agtgtacgca ggagcg 26

<210> 40

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

cacactgctt cgcctcagaa cgcgcg 26

<210> 41

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

caccagcgag tctgtccagt cgtggc 26

<210> 42

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

caccggttgt ccgatcgact ggaccg 26

<210> 43

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

cacctacgac ggtctcgcac aagcgg 26

<210> 44

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

cacgccttgt cgactctcag tccgcg 26

<210> 45

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

cacggctgga ttggtgccag acaggc 26

<210> 46

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

cactgccgaa gctgtggaca ccagcg 26

<210> 47

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

cagagtggcc agtctgtcgc agtggc 26

<210> 48

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

cagctcatac gcggttacgc gcaggc 26

<210> 49

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

cagctcggat cgtcttcagt ccggcg 26

<210> 50

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

caggcgcaat gtggaagacg ctccgc 26

<210> 51

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

catcagcgtc cgagaccaga aggcgg 26

<210> 52

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

catgtccgca gtccacgaag tgcgcg 26

<210> 53

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

ccaacggtct cggaactgtg caccgc 26

<210> 54

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 54

ccaaggctcg agtgaacgcg cc 22

<210> 55

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 55

ccaccttact gcggacctcg gc 22

<210> 56

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 56

ccataccgat ggccagagcc gg 22

<210> 57

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 57

ccgacactct gtgcaggtgc gc 22

<210> 58

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 58

ccgcacgttc cgaacacagg cg 22

<210> 59

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 59

ccggccacta tacgcacggt gc 22

<210> 60

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 60

cctatggcag gtggcaggcc tg 22

<210> 61

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 61

cctgcgatca ctccccgaac cg 22

<210> 62

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 62

ccttggcagg actgccggca ga 22

<210> 63

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 63

cgacggcact gtctcctgga cg 22

<210> 64

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 64

cgatcgcttg cgagcgatcc gg 22

<210> 65

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 65

cgcaggagca cttgcgccaa gg 22

<210> 66

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 66

cgcctcacat ggctcgcgag ct 22

<210> 67

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 67

cgcctcgaag actgcgcgag tc 22

<210> 68

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 68

cgcgtgtcgg actacgcttg cg 22

<210> 69

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 69

cgcttctacg ccaccggcgc ta 22

<210> 70

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 70

cggcaaccat ctgccgtcct gg 22

<210> 71

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 71

cggcggcttc acaactcgac gg 22

<210> 72

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 72

cggttgcaca cgcactgcgg ag 22

<210> 73

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 73

cgtctggacc gtacgacagg cc 22

<210> 74

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 74

cgttcacgct cagggagtcc gc 22

<210> 75

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 75

ctcagcaacg cctcgcacgg tg 22

<210> 76

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 76

ctcgagtcgg aagcgccacg ac 22

<210> 77

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 77

ctcgtgcaag aggcgccgcg aa 22

<210> 78

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 78

ctgcgaatct ccgcgcgaac gg 22

<210> 79

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 79

ctggcagatc ggacgcgcag tg 22

<210> 80

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 80

ctggcagccg gtatgcgcca tc 22

<210> 81

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 81

ctgtccggac aacggcggtc ga 22

<210> 82

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 82

cttgcacagg ccgtgctccg ag 22

<210> 83

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 83

gacactctgc accgggaacc gc 22

<210> 84

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 84

gacgacctgt cggaggatcg cg 22

<210> 85

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 85

gactgctgtc cggaggccgg aa 22

<210> 86

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 86

gagccgagtc ttgcggcgta cg 22

<210> 87

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 87

gaggcgcgtg tcatggctgc gt 22

<210> 88

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 88

gatacgtgcc ggaggtcagc gc 22

<210> 89

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 89

gatgtggcaa cggcgtgcca gg 22

<210> 90

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 90

gcacgatcac cggttcagcc gc 22

<210> 91

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 91

gcaggagtat ccgctcgccg gt 22

<210> 92

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 92

gccacgactc atgctgccga cc 22

<210> 93

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 93

gccacgatcg tgtctgccgc tg 22

<210> 94

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 94

gccgacgatt caggtggccg gt 22

<210> 95

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 95

gcctcgacat ggcaaacgcg cc 22

<210> 96

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 96

gcgacctgcc atcaacctcg gc 22

<210> 97

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 97

gcgctcatcc tccaagagcc gg 22

<210> 98

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 98

gcggcagttg gagtaggtgc gc 22

<210> 99

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 99

gctcaggatc gcgacacagg cg 22

<210> 100

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 100

gctggagaac ctggcacggt gc 22

<210> 101

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 101

gaccgcttgg cctccgactt cgcagaccct ctcactcac 39

<210> 102

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 102

gaccgcttgg cctccgactt tggagctgag gtgaagaagc 40

<210> 103

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 103

gaccgcttgg cctccgactt tgcaatctgg gtctgagttg 40

<210> 104

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 104

gaccgcttgg cctccgactt ggctcaggac tggtgaagc 39

<210> 105

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 105

gaccgcttgg cctccgactt tggagcagag gtgaaaaagc 40

<210> 106

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 106

gaccgcttgg cctccgactt ggtgcagctg ttggagtct 39

<210> 107

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 107

gaccgcttgg cctccgactt actgttgaag ccttcggaga 40

<210> 108

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 108

gaccgcttgg cctccgactt gtctggtcct acgctggtga aaccc 45

<210> 109

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 109

gaccgcttgg cctccgactt agtctggggc tgaggtgaag 40

<210> 110

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 110

gaccgcttgg cctccgactt ggcccaggac tggtgaag 38

<210> 111

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 111

gaccgcttgg cctccgactt ggtgcagctg gtggagtc 38

<210> 112

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 112

acatggctac gatccgactt ctgaggagac agtgaccagg gt 42

<210> 113

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 113

acatggctac gatccgactt ctgaggagac ggtgaccagg gt 42

<210> 114

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 114

acatggctac gatccgactt ctgaagagac ggtgaccatt gt 42

<210> 115

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 115

acatggctac gatccgactt ctgaggagac ggtgaccgtg gt 42

<210> 116

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 116

gaccgcttgg cctccgactt atttcactct gaagatccgg tccac 45

<210> 117

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 117

gaccgcttgg cctccgactt gcttggtgac tctgctgtgt atttc 45

<210> 118

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 118

gaccgcttgg cctccgactt caagtcgctt ctcacctgaa tg 42

<210> 119

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 119

gaccgcttgg cctccgactt gccagttctc taactctcgc tct 43

<210> 120

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 120

gaccgcttgg cctccgactt tcaggtcgcc agttccctaa ctat 44

<210> 121

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 121

gaccgcttgg cctccgactt cacgttggcg tctgctgtac cct 43

<210> 122

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 122

gaccgcttgg cctccgactt caggctggtg tcggctgctc cct 43

<210> 123

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 123

gaccgcttgg cctccgactt gggatccgtc tccactctga cgat 44

<210> 124

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 124

gaccgcttgg cctccgactt gggatccgtc tctactctga agat 44

<210> 125

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 125

gaccgcttgg cctccgactt gggatctttc tccaccttgg agat 44

<210> 126

<211> 46

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 126

gaccgcttgg cctccgactt cctgacttgc actctgaact aaacct 46

<210> 127

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 127

gaccgcttgg cctccgactt cctcactctg gagtctgctg cc 42

<210> 128

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 128

gaccgcttgg cctccgactt cctcactctg gagtcagcta cc 42

<210> 129

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 129

gaccgcttgg cctccgactt gcagagaggc tcaaaggagt agact 45

<210> 130

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 130

gaccgcttgg cctccgactt gaagatccag ccctcagaac ccag 44

<210> 131

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 131

gaccgcttgg cctccgactt tcgattctca gctcaacagt tc 42

<210> 132

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 132

gaccgcttgg cctccgactt ggagggacgt attctactct gaagg 45

<210> 133

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 133

gaccgcttgg cctccgactt ttcttgacat ccgctcacca gg 42

<210> 134

<211> 46

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 134

gaccgcttgg cctccgactt ctgtagcctt gagatccagg ctacga 46

<210> 135

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 135

gaccgcttgg cctccgactt tagatgagtc aggaatgcca aag 43

<210> 136

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 136

gaccgcttgg cctccgactt ctgtgacatc ggcccaaaag aac 43

<210> 137

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 137

gaccgcttgg cctccgactt aaccatgcaa gcctgacctt 40

<210> 138

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 138

gaccgcttgg cctccgactt ctccctgtcc ctagagtctg ccat 44

<210> 139

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 139

gaccgcttgg cctccgactt gccctcacat acctctcagt acctc 45

<210> 140

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 140

gaccgcttgg cctccgactt gatcctggag tcgcccagc 39

<210> 141

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 141

gaccgcttgg cctccgactt attctggagt ccgccagc 38

<210> 142

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 142

gaccgcttgg cctccgactt aactctgact gtgagcaaca tgag 44

<210> 143

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 143

gaccgcttgg cctccgactt tccttctcag tgactctggc ttctatc 47

<210> 144

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 144

acatggctac gatccgactt cttacctaca actgtgagtc tggtg 45

<210> 145

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 145

acatggctac gatccgactt acccccagcc ttacctaca 39

<210> 146

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 146

acatggctac gatccgactt cttacctaca acagtgagcc aactt 45

<210> 147

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 147

acatggctac gatccgactt aagacagaga gctgggttcc act 43

<210> 148

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 148

acatggctac gatccgactt cttacctagg atggagagtc gagtc 45

<210> 149

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 149

acatggctac gatccgactt cgagtcaaga gtggagccc 39

<210> 150

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 150

acatggctac gatccgactt ccttcttacc tagcacggtg a 41

<210> 151

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 151

acatggctac gatccgactt cttacccagt acggtcagcc t 41

<210> 152

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 152

acatggctac gatccgactt ccgcttaccg agcactgtca g 41

<210> 153

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 153

acatggctac gatccgactt agcactgaga gccgggtcc 39

<210> 154

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 154

acatggctac gatccgactt cgagcaccag gagccgcgt 39

<210> 155

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 155

acatggctac gatccgactt ctcgcccagc acggtcagcc t 41

<210> 156

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 156

acatggctac gatccgactt cttacctgtg accgtgagcc tg 42

<210> 157

<211> 170

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 157

taatacgact cactatagcc tgcaggcagg ttcagctggt gcagtctgga gctgaggtga 60

agaagcctgg ggcctcagtg aaggtctcct gcaaggcttc tggttacacc tttaccagct 120

atggtatcag ctgggtgcga caggcccctg gacaagggct tgagtggatg 170

Claims

1.一种免疫组库标准物质序列，其特征在于，由5’端到3’依次包括：V基因参考序列、CDR3模拟序列、J基因参考序列和C基因参考序列；所述CDR3模拟序列在真实样本中出现的概率≤0.01％，所述CDR3模拟序列包括1-3段识别标签序列以及0-1段水印序列；所述标签序列用于识别区分所述免疫组库标准物质序列，所述水印序列用于标识所述免疫组库标准物质序列的来源。

2.根据权利要求1所述的免疫组库标准物质序列，其特征在于，每段所述识别标签序列的长度为6-50bp，所述水印序列的长度为为9-30bp。

3.根据权利要求1所述的免疫组库标准物质序列，其特征在于，所述CDR3模拟序列前、中、后段的GC含量均趋近于真实样本中的GC含量。

4.根据权利要求3所述的免疫组库标准物质序列，其特征在于，当所述免疫组库标准物质序列为IGH序列，则所述CDR3模拟序列前、中、后段的GC含量分别是0.60±0.04、0.54±0.04和0.48±0.05；

5.根据权利要求1所述的免疫组库标准物质序列，其特征在于，所述CDR3模拟序列由5’端到3’端依次为C(Z)i(X)jNEQIMW或C(Z)i(X)jNEQIMF；

W表示CDR3终止保守氨基酸色氨酸所对应密码子的核苷酸；

F表示CDR3终止保守氨基酸苯丙氨酸所对应密码子的核苷酸；

Z、X独立地任选自：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶；

i、j选自：6-50的自然数。

6.根据权利要求5所述的免疫组库标准物质序列，其特征在于，所述C基因参考序列之后还设有识别标签序列，所述识别标签序列为(Z)i序列或(X)j序列。

7.根据权利要求1所述的免疫组库标准物质序列，其特征在于，所述CDR3模拟序列中，包括两段识别标签序列(Z)i(X)j；

当所述免疫组库标准物质序列为IGH序列，所述(Z)i(X)j序列选自SEQ ID No:1-SEQID No:53所示序列；

当所述免疫组库标准物质序列为TRB序列，所述(Z)i(X)j序列选自SEQ ID No:54-SEQID No:100所示序列。

8.根据权利要求1所述的免疫组库标准物质序列，其特征在于，所述C基因参考序列保留5’端的前100-1500bp，删除后续核苷酸。

9.根据权利要求1所述的免疫组库标准物质序列，其特征在于，对所述V基因参考序列和J基因参考序列进行排列组合，得到若干免疫组库标准物质序列。

10.根据权利要求1所述的免疫组库标准物质序列，其特征在于，所述免疫组库标准物质序列两端还设有限制性内切酶的酶切位点。

11.根据权利要求12所述的免疫组库标准物质序列，其特征在于，所述V基因参考序列的5’端还设有用于体外转录形成RNA的T7启动子序列。

12.权利要求1-11任一项所述的免疫组库标准物质序列的设计方法，其特征在于，包括以下步骤：

2)对所述V基因的参考序列进行处理，保留V基因参考序列5’端到3’端的CDR3起始保守氨基酸密码子，删除所述CDR3起始氨基酸密码子之后序列；

13.根据权利要求12所述的免疫组库标准物质序列的设计方法，其特征在于，步骤5)中，先对所述C基因参考序列进行处理，保留5’端的前100-1500bp碱基，再在J基因参考序列3’端随机加上经处理的C基因参考序列，随后在C基因3’端再加上所述模拟CDR3序列中的至少一段识别标签序列。

14.根据权利要求1所述的免疫组库标准物质序列的设计方法，其特征在于，还包括步骤6)，在步骤5)得到的序列两端添加限制性内切酶的酶切位点，并在V基因参考序列酶切位点的5’端再加上T7启动子序列，用于体外转录形成RNA。

15.权利要求1-14任一项所述的免疫组库标准物质序列所对应的免疫组库标准物质。

16.权利要求15所述的免疫组库标准物质的制备方法，其特征在于：包括以下步骤：

1)在权利要求1-11任一项所述的免疫组库标准物质序列两端加上载体同源臂序列，合成基因；

3)将组装环状产物转化进基因工程菌，培养；

17.权利要求15所述的免疫组库标准物质的在用于制备免疫组库检测设备和/或试剂中的应用。

18.一种免疫组库检测试剂盒，其特征在于，包括权利要求15所述的免疫组库标准物质。

19.根据权利要求18所述的免疫组库检测试剂盒，其特征在于，所述免疫组库标准物质以环状或者线性DNA形式存在，含有所述免疫组库标准物质的质粒总浓度为10³-10¹³个/μL。