血液宏基因组测序数据的分析方法、装置及其应用
技术领域
本申请涉及血流感染检测领域,特别是涉及一种血液宏基因组测序数据的分析方法、装置及其应用。
背景技术
血流感染是一种严重的全身性感染疾病,包括败血症和菌血症,临床发病率高,病死率高。传统的血流感染检测方法为血培养,即通过对患者血液进行采集并装入含有培养基的瓶中进行培养,以此来确定导致患者感染的微生物。通常血培养发现阳性后,还需要进一步进行病原体分离鉴定,确定所感染的病原体并进行指导用药。血培养目前仍然是诊断血流感染的金标准。
但是,血培养存在以下不足:1)需要的采血量较大,一般成人需要20-30ml,婴儿需要2ml以上;2)血培养周期较长,最少需要3-4天时间;3)血培养只能针对部分细菌或真菌进行培养,对于病毒以及一些较难培养的细菌无法获得培养结果;4)血培养阳性率较低,仅有30%-40%的血培养结果为阳性,即仅有30-40%的血流感染可通过培养发现致病菌,从而实现检测;5)血培养假阳性率较高,虽然部分样本可以得到血培养阳性结果,但由于皮肤消毒不彻底或采血操作不规范常常会引起培养的假阳性,影响临床判断。
随着分子生物学的研究和发展,基于核酸序列的病原体检测技术也被逐渐应用于血流感染检测中,目前主要有荧光PCR方法,该技术通过对待检测病毒序列设计特异性荧光标记探针,实现对病毒序列的定量检测。这类技术已经有成熟的产品,包括上海之江生物科技股份有限公司生产的巨细胞病毒(CMV)核酸定量测定试剂盒(荧光PCR法)、广州华银医药科技有限公司生产的EB病毒(EBV)核酸检测试剂盒(PCR-荧光探针法)等等;这些试剂盒可以通过对血浆或血清样本中的病毒含量进行检测来辅助诊断患者是否有病毒感染。但是,基于荧光定量PCR的检测试剂盒,只针对病毒引起的血流感染,且一次只能检测一种病原体。
国外也有部分针对血流感染病原体检测的相关技术,例如法国梅里埃的FilmArray血流感染检测试剂盒,该技术是针对血培养物进行病原体鉴定。以多重实时PCR为基础,根据不同靶标反应过程中熔解温度的不同实现病原体的鉴定,该技术可在1个小时内出报告。但该方法的鉴定依赖于温度的改变,因此对设备的温度敏感性要求很高,且物种判断依赖于温度改变,因此鉴定物种的种类可扩展性低。FilmArray血流感染检测试剂盒只能针对血培养物进行检测,无法直接对样本进行检测;并且,单次只能检测1例样本,通量低;由于技术本身局限性,可拓展性较低。
此外,还有基于16S序列的细菌鉴定技术,即通过对细菌的16S全长或特异性片段进行扩增,将得到的序列进行测序,测序结果与细菌数据库进行比对,确定对应的细菌种类。该技术只适用于细菌靶标的检测,无法检测病毒、真菌和寄生虫等病原体,而且该方法对PCR扩增要求较高,常常会用血培养物来进行鉴定,以提高模板量。此外,该方法对于细菌鉴定也存在一定的局限性,比如对于部分细菌,无法完全通过16S序列进行菌株鉴定。
总的来说,作为血流感染检测金标准的血培养方法耗时长、阳性率低、假阳性率高,并且仅能对部分细节和真菌进行检测;而基于核酸序列的病原体检测技术,其应用于血流感染检测的案例较少,绝大部分只针对血液中的病毒进行检测,并且,一次也只能检测一个或几个病原体,检测灵敏度有限,对于临床应用具有很大局限。因此,亟需一种能够更全面、有效、准确、快速的检测病毒、细菌、真菌和寄生虫等病原体的血流感染检测方法或相关技术。
宏基因组测序(Metagenomics Sequencing)是对环境样品中的微生物群落的基因组进行高通量测序,主要研究微生物种群结构、基因功能活性、微生物之间的相互协作关系以及微生物与环境之间的关系。宏基因组测序研究摆脱了微生物分离纯培养的限制,扩展了微生物资源的利用空间,为环境微生物群落的研究提供了有效工具。目前,宏基因组测序基本上只应用于环境微生物群落的研究,尚未有将其用于血液检测的相关研究和报道。并且,血流感染检测对象的复杂性不同于环境微生物群落;因此,直接用于环境微生物群落检测的宏基因组测序无法简单的直接应用于血流感染检测和分析。
发明内容
本申请的目的是提供一种新的血液宏基因组测序数据的分析方法、装置及其应用。
本申请具体采用了以下技术方案:
本申请的第一方面公开了一种血液宏基因组测序数据的分析方法,包括以下步骤,
数据质控统计和拆分步骤,包括对血液宏基因组测序的下机数据进行低质量reads占比和含N的reads占比统计,根据统计结果拆分测序数据;
人源序列去除步骤,包括将数据质控统计和拆分步骤拆分的测试数据中的每个子文件数据与人源序列数据库进行比对,去除比对结果中比对率大于等于50%的序列;并过滤去除低质量reads、高含N的reads以及重复序列,获得非人源序列文件;其中,子文件数据是指按照不同的低质量reads占比和含N的reads占比进行拆分或分类的子文件数据库;其中人源序列数据库即各种人基因组序列数据;
质粒序列去除和内参比对步骤,包括将人源序列去除步骤获得的非人源序列文件与质粒序列库进行比对,去除结果中比对率大于等于80%且碱基错配率小于等于10%的序列,获得进一步处理后的非人源序列;将进一步处理后获得的非人源序列与内参数据库进行比对,统计比对上内参数据库的序列;其中,内参数据库是指试验设计的内参序列所对应的数据库;质粒序列库来源于NCBI等公共数据库整理所得;
病原基因组序列库比对步骤,包括将质粒序列去除和内参比对步骤获得的进一步处理后的非人源序列分别与四个病原库比对,获得四个病原库的比对结果;其中,四个病原包括细菌序列库、病毒序列库、真菌序列库和寄生虫序列库;本申请中,不同数据库中的序列来源于NCBI等公共数据库,经整理后形成新的数据库;
病原参数注释步骤,包括根据病原基因组序列库比对步骤的比对结果,统计比对获得的各病原微生物的检测参数,包括比对序列数、严格比对序列数、覆盖率、覆盖深度和相对丰度;并对比对序列数和严格比对序列数利用有效数据进行归一化处理,得到标准化比对序列数和标准化严格比对序列数。
需要说明的是,采用本申请的血液宏基因组测序数据分析方法,可以对血液的宏基因组测序数据进行更有效的深度挖掘,从而实现基于血液宏基因组测序的血流感染检测,具体来说,根据本申请分析方法的结果,可以进一步依据具体检测情况,以及具体的阈值设定,实现对每个样本检测到的病原进行解读分析,进而获得血流感染检测结果。
优选的,本申请的分析方法中,低质量reads是指序列中质量值小于5的碱基数占序列总碱基数的比值大于等于30%的reads。
优选的,高含N的reads是指序列中N的个数大于10或者N的占比大于等于6%的reads。
优选的,人源序列去除步骤中,人源序列数据库包括人类参考基因组hg38以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列。
优选的,病原基因组序列库比对步骤中,非人源序列分别与四个病原库比对,具体包括,过滤去除序列比对长度占比小于80%、碱基错配率大于10%的序列;然后对高频位点进行过滤;最后去除比对结果中的重复序列,获得四个病原库的比对结果。其中,高频位点是指通过分析历史临床样本数据,统计的比对结果中出现频率比较高的病原体参考序列比对位置。通过高频位点过滤,可以降低样本中病原体检出序列的假阳性。本申请的一种实现方式中,具体使用samtools去除比对结果中的重复序列。
优选的,病原参数注释步骤中,比对序列数是指,按照比对长度占比大于或等于80%且碱基错配率小于或等于10%,统计比对结果中比对上每个病原微生物的序列数。
优选的,病原参数注释步骤中,严格比对序列数是指,在满足比对序列数条件的基础上,统计比对结果中同时满足比对长度占比大于或等于90%,碱基错配率小于或等于4%或病毒碱基错配率小于或等于8%,比对最优得分大于或等于30,序列比对频率为1,并且满足以下任一条件的序列数:
(a)次优比对得分比最优比对得分的比值小于0.8,且比对质量值大于或等于30;
(b)次优比对得分比最优比对得分的比值大于或等于0.8,且多比对结果输出的结果中比对上的病原和最优比对上的病原相同。
可以理解,本申请的血液宏基因组测序数据分析方法,其全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现本申请方法。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现本申请方法。当本申请的方法中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现本申请血液宏基因组测序数据分析方法的全部或部分功能。
因此,本申请的第二方面公开了一种血液宏基因组测序数据分析的装置,包括数据质控统计和拆分模块、人源序列去除模块、质粒序列去除和内参比对模块、病原基因组序列库比对模块和病原参数注释模块;
数据质控统计和拆分模块,包括用于对血液宏基因组测序的下机数据进行低质量reads占比和含N的reads占比统计,根据统计结果拆分测序数据;
人源序列去除模块,包括用于将数据质控统计和拆分模块拆分的测试数据中的每个子文件数据与人源序列数据库进行比对,去除比对结果中比对率大于等于50%的序列;并过滤去除低质量reads、高含N的reads以及重复序列,获得非人源序列文件;
质粒序列去除和内参比对模块,包括用于将人源序列去除模块获得的非人源序列文件与质粒序列库进行比对,去除结果中比对率大于等于80%且碱基错配率小于等于10%的序列,获得进一步处理后的非人源序列;将进一步处理后获得的非人源序列与内参数据库进行比对,统计比对上内参数据库的序列;
病原基因组序列库比对模块,包括用于将质粒序列去除和内参比对模块获得的进一步处理后的非人源序列分别与四个病原库比对,获得四个病原库的比对结果;其中,四个病原包括细菌序列库、病毒序列库、真菌序列库和寄生虫序列库;
病原参数注释模块,包括用于根据病原基因组序列库比对模块的比对结果,统计比对获得的各病原微生物的检测参数,包括比对序列数、严格比对序列数、覆盖率、覆盖深度和相对丰度;并对比对序列数和严格比对序列数利用有效数据进行归一化处理,得到标准化比对序列数和标准化严格比对序列数。
可以理解,本申请的血液宏基因组测序数据分析装置,实际上就是通过各模块的组合实现本申请的血液宏基因组测序数据分析方法,因此,其各步骤的详细参数和技术术语定义,例如低质量reads、高含N的reads、人源序列数据库、与四个病原库比对、比对序列数和严格比对序列数等都可以参考本申请的血液宏基因组测序数据分析方法。
需要说明的是,本申请的血液宏基因组测序数据分析装置,可以根据获得的血液宏基因组测序的下机数据,直接输出各病原微生物的检测参数;这些检测参数,可为后续的血流感染检测结果的解读提供重要的参考依据。
本申请的第三方面公开了本申请的血液宏基因组测序数据分析方法或者本申请的血液宏基因组测序数据分析装置在制备血流感染检测试剂盒或装置中的应用。
可以理解,本申请的血液宏基因组测序数据分析方法和装置,实际上就是为了实现基于血液宏基因组测序的血流感染检测而研发的,因此,基于本申请的血液宏基因组测序数据分析方法和装置,可以进一步的研发和制备血流感染检测试剂盒或装置。其中,血流感染检测试剂盒,例如基于本申请的血液宏基因组测序数据分析方法所采用的试剂,为了方便使用,而将各试剂组合在一起,形成专门用于血流感染检测的试剂盒。血流感染检测装置,例如在本申请的血液宏基因组测序数据分析装置的基础上,进一步的引入血液样本核酸提取模块、血液宏基因组测序模块、解读模块和检测报告输出模块,最终形成可以直接用于血流感染检测的装置。
本申请的第四方面公开了一种血流感染检测的试剂盒,包括血液样本核酸提取试剂和血液宏基因组测序试剂。
优选的,本申请的血流感染检测试剂盒用于根据以下检测方法实现血流感染检测:血液样本核酸提取步骤,包括采用血液样本核酸提取试剂对血液样本的游离核酸进行提取;其中,游离核酸为DNA或者RNA;血液宏基因组测序步骤,包括采用血液宏基因组测序试剂对提取的DNA或者提取的RNA处理获得的DNA依序进行以下处理,末端修复和加“A”处理、接头连接处理、连接产物纯化处理和文库扩大处理,获得测序文库,对测序文库进行质控后上机测序,获得血液宏基因组测序数据。
优选的,本申请试剂盒中还包括血液宏基因组测序数据分析软件;该血液宏基因组测序数据分析软件用于执行以下步骤,
血液宏基因组测序数据分析步骤,包括采用本申请的血液宏基因组测序数据分析方法或者本申请的血液宏基因组测序数据分析装置对血液宏基因组测序步骤获得的血液宏基因组测序数据进行分析,获得各病原微生物的检测参数,包括比对序列数、严格比对序列数、覆盖率、覆盖深度、相对丰度,以及归一化处理得到的标准化比对序列数和标准化严格比对序列数;
解读步骤,包括用于根据血液宏基因组测序数据分析步骤的分析结果,按照如下规则对每个样本检测到的病原进行解读分析:
a)对检测到的病原体与背景微生物数据库进行比较,过滤背景微生物数据库中的物种,得到检测样本的候选病原体列表;
b)对过滤背景微生物后的病原体标准化严格比对序列数进行判断,看检测值是否满足设定阈值;
c)对于达到设定阈值的病原体,根据检测参数判断该病原体是否存在同源物种检测的干扰,若存在干扰,则需进行干扰处理后进行下一步解读,若不存在干扰,则直接进行下一步解读;
d)对同批次中不同样本检测到相同的病原体,根据不同样本中该病原体对应的检测参数进一步判断是否存在样本之间的相互干扰,若存在干扰,则根据过滤参数对异常检测值进行过滤,若不存在干扰,则进行下一步解读;
e)对同批次的阴性对照样本的检测参数进行分析,若阴性对照样本中存在满足阈值的病原体检出,则先按照c)和d)流程进行过滤,排除同源物种检测的干扰和样本之间的相互干扰后,将测试样本中该病原体的检测值与阴性对照样本中的检测值进行对比分析,满足设定阈值差异的情况,判断为阳性,否则不予判断阳性;
检测报告输出步骤,包括根据解读步骤的判断结果,最终输出包含受检者基本信息、临床信息、样本信息、检测结果和结果说明的文件。
优选的,本申请的试剂盒中血液宏基因组测序数据分析软还用于执行检测结果总结步骤,包括根据血液宏基因组测序数据分析步骤和解读步骤的结果,输出本次检测总结和建议,具体内容包括:
a)同批次检测中,阴性对照品、阳性对照品、内参检测值,样本之间的干扰以及病原体同源性的影响均在可控范围内时,判断本批次检测结果有效;
b)同批次样本中,阳性对照品所添加靶标未检出阳性,判断为阳性对照失控,则重复检测该批次全部样本;
c)同批次样本中,阴性对照品检测到病原体阳性,该病原体的检出经判断不是由样本间干扰引起,当该病原体的检测值与其他待测样本的检测值不满足区分条件时,判断为阴性对照失控,则重复检测该批次样本;
d)同批次样本中,所有样本都检测到相同的病原体,且判断存在样本之间的相互干扰,则去除批次中检出值最高的样本重新进行检测。
需要说明的是,本申请试剂盒中的血液宏基因组测序数据分析软件是以存储于一种计算机可读存储介质中的形式存在,例如存储于只读存储器、随机存储器、磁盘、光盘、硬盘等中,并且可以在一般的电脑系统中运行以实现其各步骤。可以理解,本申请的血液宏基因组测序数据分析软件可以直接以计算机可读存储介质的形式存在于试剂盒中;出于成本或者其它因素考虑,试剂盒中也可以不包含该血液宏基因组测序数据分析软件,使用时,直接从指定的网站或共享数据库中下载即可。
还需要说明的是,本申请试剂盒中的血液宏基因组测序数据分析软件,实际上就是综合了本申请的血液宏基因组测序数据的分析方法以及解读步骤、检测报告输出步骤和检测结果总结步骤等形成的一个综合功能的软件或程序。
本申请的第五方面公开了一种血流感染检测的装置,包括血液样本核酸提取模块、血液宏基因组测序模块、血液宏基因组测序数据分析模块、解读模块和检测报告输出模块;
血液样本核酸提取模块,包括用于对血液样本的游离核酸进行提取;其中,游离核酸为DNA或者RNA;
血液宏基因组测序模块,包括用于对提取的DNA或者提取的RNA处理获得的DNA依序进行以下处理,末端修复和加“A”处理、接头连接处理、连接产物纯化处理和文库扩大处理,获得测序文库,对测序文库进行质控后上机测序,获得血液宏基因组测序数据;其中,末端修复和加“A”、接头连接、连接产物纯化都可以参考现有的文库构建过程,文库扩大处理通常是指采用PCR扩增对加接头产物进行扩大,从而获得能够满足测序需求的测序文库;测序文库质控和上机测序都可以参考常规的高通量测序;
血液宏基因组测序数据分析模块,包括采用本申请的血液宏基因组测序数据分析方法或本申请的血液宏基因组测序数据分析装置对血液宏基因组测序模块获得的血液宏基因组测序数据进行分析,获得各病原微生物的检测参数,包括比对序列数、严格比对序列数、覆盖率、覆盖深度、相对丰度,以及归一化处理得到的标准化比对序列数和标准化严格比对序列数;
解读模块,包括用于根据血液宏基因组测序数据分析模块的分析结果,按照如下规则对每个样本检测到的病原进行解读分析:
a)对检测到的病原体与背景微生物数据库进行比较,过滤背景微生物数据库中的物种,得到检测样本的候选病原体列表;
b)对过滤背景微生物后的病原体标准化严格比对序列数进行判断,看检测值是否满足设定阈值;
c)对于达到设定阈值的病原体,根据检测参数判断该病原体是否存在同源物种检测的干扰,若存在干扰,则需进行干扰处理后进行下一步解读,若不存在干扰,则直接进行下一步解读;
d)对同批次中不同样本检测到相同的病原体,根据不同样本中该病原体对应的检测参数进一步判断是否存在样本之间的相互干扰,若存在干扰,则根据过滤参数对异常检测值进行过滤,若不存在干扰,则进行下一步解读;
e)对同批次的阴性对照样本的检测参数进行分析,若阴性对照样本中存在满足阈值的病原体检出,则先按照c)和d)流程进行过滤,排除同源物种检测的干扰和样本之间的相互干扰后,将测试样本中该病原体的检测值与阴性对照样本中的检测值进行对比分析,满足设定阈值差异的情况,判断为阳性,否则不予判断阳性;
检测报告输出模块,包括用于根据解读模块的判断结果,最终输出包含受检者基本信息、临床信息、样本信息、检测结果和结果说明的文件。
需要说明的是,本申请的血流感染检测装置,在获得待测血液样本后,通过各模块可以直接输出最终的血流感染检测结果,相比现有的血流感染检测方法,本申请的血流感染检测装置具有如下优点:
1)无需进行血培养操作,可直接对血液样本中的病原体进行检测,最快可在24h得到检测结果,大大缩短了检测周期;
2)与传统检测方法相比,极大的减少了检测所需采血量,减少对患者的伤害;本申请的一种实现方式中,仅仅采用300μL的血液样本即可实现检测;
3)在减少采血量的同时,扩大了病原体检测范围,无需额外的检测技术,可同时对细菌、病毒、真菌和寄生虫等8000余种病原微生物进行检测;
4)适用于高通量检测,可以同时对多个样本进行检测,提高检测效率,满足临床需求;
5)采用分子生物学方法对病原体核酸序列进行检测,可以有效提高病原体的检测灵敏度;
6)基于宏基因组测序方式进行病原体检测,对病原体基因组序列进行随机检测,通过生物信息学分析比对后,可有效提高病原体检测的准确性。
优选的,本申请的血流感染检测装置还包括检测结果总结模块,包括用于根据血液宏基因组测序数据分析模块和解读模块的结果,输出本次检测总结和建议,具体内容包括:
a)同批次检测中,阴性对照品、阳性对照品、内参检测值,样本之间的干扰以及病原体同源性的影响均在可控范围内时,判断本批次检测结果有效;
b)同批次样本中,阳性对照品所添加靶标未检出阳性,判断为阳性对照失控,则重复检测该批次全部样本;
c)同批次样本中,阴性对照品检测到病原体阳性,该病原体的检出经判断不是由样本间干扰引起,当该病原体的检测值与其他待测样本的检测值不满足区分条件时,判断为阴性对照失控,则重复检测该批次样本;
d)同批次样本中,所有样本都检测到相同的病原体,且判断存在样本之间的相互干扰,则去除批次中检出值最高的样本重新进行检测。
本申请的第六方面公开了一种血流感染检测的装置,包括存储器和处理器;存储器用于存储程序;处理器用于通过执行存储器存储的程序实现本申请的血液宏基因组测序数据分析方法以及解读步骤和检测报告输出步骤;
解读步骤,包括本申请的血液宏基因组测序数据分析方法的分析结果,按照如下规则对每个样本检测到的病原进行解读分析:
a)对检测到的病原体与背景微生物数据库进行比较,过滤背景微生物数据库中的物种,得到检测样本的候选病原体列表;其中,病原体背景微生物数据库是指实验室环境或检测试剂中稳定存在的微生物,可以会根据具体的实验环境的改变而变化;
b)对过滤背景微生物后的病原体标准化严格比对序列数进行判断,看检测值是否满足设定阈值;其中,阈值的设定是通过接受者操作特性曲线,如ROC曲线,进行确定的,对一定数量的相应病原体明确阳性样本和阴性样本根据ROC曲线确定其最优阈值;本申请中,已明确确定阈值的病原体包括肺炎克雷伯菌、大肠埃希菌、鲍曼不动杆菌、金黄色葡萄球菌和屎肠球菌,其它病原体随着样本的积累按照类似的方式进行阈值确定;对于暂未确定阈值的病原体,可先根据其检测到的标准化严格比对序列数多少排序进行优先怀疑判断;
c)对于达到设定阈值的病原体,根据检测参数判断该病原体是否存在同源物种检测的干扰,若存在干扰,则需进行干扰处理后进行下一步解读,若不存在干扰,则直接进行下一步解读;其中,干扰处理可以参考常规的测序数据分析中的同源物种干扰数据处理方法,在此不作具体限定;
d)对同批次中不同样本检测到相同的病原体,根据不同样本中该病原体对应的检测参数进一步判断是否存在样本之间的相互干扰,若存在干扰,则根据过滤参数对异常检测值进行过滤,若不存在干扰,则进行下一步解读;其中,根据过滤参数对异常检测值进行过滤可以参考常规的测序数据分析中的样本之间相互干扰数据处理方法和参数,在此不作具体限定;
e)对同批次的阴性对照样本的检测参数进行分析,若阴性对照样本中存在满足阈值的病原体检出,则先按照c)和d)流程进行过滤,排除同源物种检测的干扰和样本之间的相互干扰后,将测试样本中该病原体的检测值与阴性对照样本中的检测值进行对比分析,满足设定阈值差异的情况,判断为阳性,否则不予判断阳性;其中,满足设定阈值差异是指经过同源物种干扰处理和样本之间相互干扰数据过滤后的阴性对照样本,其检测参数符合设定阈值的要求,能够与同批次的非阴性样本区分开;
检测报告输出步骤,包括根据解读步骤的判断结果,最终输出包含受检者基本信息、临床信息、样本信息、检测结果和结果说明的文件。
优选的,本申请的血流感染检测装置中,处理器还用于通过执行存储器存储的程序实现检测结果总结步骤;其中,检测结果总结步骤,包括根据本申请的血液宏基因组测序数据分析方法的分析结果以及解读步骤的结果,输出本次检测总结和建议,具体内容包括:
a)同批次检测中,阴性对照品、阳性对照品、内参检测值,样本之间的干扰以及病原体同源性的影响均在可控范围内时,判断本批次检测结果有效;
b)同批次样本中,阳性对照品所添加靶标未检出阳性,判断为阳性对照失控,则重复检测该批次全部样本;
c)同批次样本中,阴性对照品检测到病原体阳性,该病原体的检出经判断不是由样本间干扰引起,当该病原体的检测值与其他待测样本的检测值不满足区分条件时,判断为阴性对照失控,则重复检测该批次样本;
d)同批次样本中,所有样本都检测到相同的病原体,且判断存在样本之间的相互干扰,则去除批次中检出值最高的样本重新进行检测。
本申请的第七方面公开了一种计算机可读存储介质,包括存储于其中的程序,程序能够被处理器执行以实现本申请的血液宏基因组测序数据分析方法以及解读步骤、检测报告输出步骤和检测结果总结步骤。其中,解读步骤、检测报告输出步骤和检测结果总结步骤参考本申请的血流感染检测装置。
本申请的有益效果在于:
本申请的血液宏基因组测序数据的分析方法和血流感染检测试剂盒及装置,可以实现基于血液宏基因组测序的血流感染检测,能够采用少量的血液样本实现包括细菌、病毒、真菌和寄生虫在内的8000余种病原微生物的同时检测;并且,最快可以在24小时内对多个血液样本进行检测,大大提高了血流感染检测速度和效率。此外,本申请的血流感染检测采用分子生物学方法对病原体核酸序列进行检测,可以有效提高病原体的检测灵敏度和准确性。
附图说明
图1是本申请实施例中血液宏基因组测序数据分析方法的流程框图;
图2是本申请实施例中血液宏基因组测序数据分析装置的结构示意图;
图3是本申请实施例中血流感染检测方法的流程框图;
图4是本申请实施例中血流感染检测装置的结构示意图;
图5是本申请实施例中测序文库的2100质控检测结果图。
具体实施方式
现有的血流感染检测方法存在检测对象受限,灵敏度低,检测通量低等缺陷。在血流感染的过程中,由于细菌、病毒等微生物感染病人进入血液后,病原体会进行繁殖代谢或被白细胞吞噬,使其细胞被破坏后会将胞内的DNA释放到血液中成为血液游离DNA。因此,可以通过检测血液中游离的微生物DNA片段鉴定病原体微生物的种类。
基于以上研究和认识,本申请创造性的将宏基因组测序引入血流感染检测中,并创造性的研发了一种新的对血液宏基因组测序数据进行分析的方法,以使基于宏基因组测序的血流感染检测得以实现。本申请的血液宏基因组测序数据的分析方法,如图1所示,包括数据质控统计和拆分步骤11、人源序列去除步骤12、质粒序列去除和内参比对步骤13、病原基因组序列库比对步骤14和病原参数注释步骤15。
数据质控统计和拆分步骤11,包括对血液宏基因组测序的下机数据进行低质量reads占比和含N的reads占比统计,根据统计结果拆分测序数据。该步骤不对数据进行过滤,只统计低质量和含N的reads占比,按照设定的每个子文件reads数拆分原数据文件。
人源序列去除步骤12,包括将数据质控统计和拆分步骤拆分的测试数据中的每个子文件数据与人源序列数据库比对,去除比对结果中比对率大于等于50%的序列;并过滤去除低质量reads、高含N的reads及重复序列,获得非人源序列文件。本申请的一种实现方式中,人源序列数据库包括人类参考基因组(hg38)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
质粒序列去除和内参比对步骤13,包括将人源序列去除步骤获得的非人源序列文件与质粒序列库进行比对,去除结果中比对率大于等于80%且碱基错配率小于等于10%的序列,获得进一步处理后的非人源序列;将进一步处理后获得的非人源序列与内参数据库进行比对,统计比对上内参数据库的序列。
病原基因组序列库比对步骤14,包括将质粒序列去除和内参比对步骤获得的进一步处理后的非人源序列分别与四个病原库比对,获得四个病原库的比对结果;四个病原包括细菌序列库、病毒序列库、真菌序列库和寄生虫序列库。
本申请的一种实现方式中,首先对序列比对长度占比小于80%,碱基错配率大于10%的序列进行过滤,然后对历史比对的高频位点进行过滤,最后使用samtools去除比对结果中的重复序列,得到4个病原库最终比对结果。
病原参数注释步骤15,包括根据病原基因组序列库比对步骤的比对结果,统计比对获得的各病原微生物的检测参数,包括比对序列数、严格比对序列数、覆盖率、覆盖深度和相对丰度;并对比对序列数和严格比对序列数利用有效数据进行归一化处理,得到标准化比对序列数和标准化严格比对序列数。
本申请的一种实现方式中,比对序列数是指,按照比对长度占比大于或等于80%且碱基错配率小于或等于10%,统计比对结果中比对上每个病原微生物的序列数。严格比对序列数是指,在满足比对序列数条件的基础上,统计比对结果中同时满足比对长度占比大于或等于90%,碱基错配率小于或等于4%或病毒碱基错配率小于或等于8%,比对最优得分大于或等于30,序列比对频率为1,并且满足以下任一条件的序列数:
(a)次优比对得分比最优比对得分的比值小于0.8,且比对质量值大于或等于30;
(b)次优比对得分比最优比对得分的比值大于或等于0.8,且多比对结果输出的结果中比对上的病原和最优比对上的病原相同。
基于本申请的血液宏基因组测序数据分析方法,本申请进一步研发并提出了一种血液宏基因组测序数据分析装置,如图2所示,包括数据质控统计和拆分模块21、人源序列去除模块22、质粒序列去除和内参比对模块23、病原基因组序列库比对模块24和病原参数注释模块25。各模块分别用于实现本申请血液宏基因组测序数据分析方法中的各步骤,使得本申请的血液宏基因组测序数据分析方法能够实现自动化分析。
需要说明的是,本申请的血液宏基因组测序数据分析方法和装置,其最终目的是为了能实现基于宏基因组测序的血流感染检测。因此,本申请进一步研究并提出了一种血流感染检测方法,如图3所示,包括血液样本核酸提取步骤31、血液宏基因组测序步骤32、血液宏基因组测序数据分析步骤33、解读步骤34和检测报告输出步骤35,并且,进一步的还可以包括检测结果总结步骤36。
血液样本核酸提取步骤31,包括对血液样本的游离核酸进行提取;其中,游离核酸为DNA或者RNA。
本申请的一种实现方式中,具体是提取了血液样本即血浆中的游离DNA进行试验,并且,具体采用的是TIANamp Micro DNA Kit试剂盒。
血液宏基因组测序步骤32,包括对提取的DNA或者提取的RNA处理获得的DNA依序进行以下处理,末端修复和加“A”处理、接头连接处理、连接产物纯化处理和文库扩大处理,获得测序文库,对测序文库进行质控后上机测序,获得血液宏基因组测序数据。
血液宏基因组测序数据分析步骤33,包括采用本申请的血液宏基因组测序数据分析方法对血液宏基因组测序模块获得的血液宏基因组测序数据进行分析,获得各病原微生物的检测参数,包括比对序列数、严格比对序列数、覆盖率、覆盖深度、相对丰度,以及归一化处理得到的标准化比对序列数和标准化严格比对序列数。
解读步骤34,包括用于根据血液宏基因组测序数据分析步骤的分析结果,按照如下规则对每个样本检测到的病原进行解读分析:
a)对检测到的病原体与背景微生物数据库进行比较,过滤背景微生物数据库中的物种,得到检测样本的候选病原体列表;
b)对过滤背景微生物后的病原体标准化严格比对序列数进行判断,看检测值是否满足设定阈值;
c)对于达到设定阈值的病原体,根据检测参数判断该病原体是否存在同源物种检测的干扰,若存在干扰,则需进行干扰处理后进行下一步解读,若不存在干扰,则直接进行下一步解读;
d)对同批次中不同样本检测到相同的病原体,根据不同样本中该病原体对应的检测参数进一步判断是否存在样本之间的相互干扰,若存在干扰,则根据过滤参数对异常检测值进行过滤,若不存在干扰,则进行下一步解读;
e)对同批次的阴性对照样本的检测参数进行分析,若阴性对照样本中存在满足阈值的病原体检出,则先按照c)和d)流程进行过滤,排除同源物种检测的干扰和样本之间的相互干扰后,将测试样本中该病原体的检测值与阴性对照样本中的检测值进行对比分析,满足设定阈值差异的情况,判断为阳性,否则不予判断阳性。
检测报告输出步骤35,包括根据解读步骤的判断结果,最终输出包含受检者基本信息、临床信息、样本信息、检测结果和结果说明的文件。
检测结果总结步骤36,包括根据血液宏基因组测序数据分析步骤和解读步骤的结果,输出本次检测总结和建议,具体内容包括:
a)同批次检测中,阴性对照品、阳性对照品、内参检测值,样本之间的干扰以及病原体同源性的影响均在可控范围内时,判断本批次检测结果有效;
b)同批次样本中,阳性对照品所添加靶标未检出阳性,判断为阳性对照失控,则重复检测该批次全部样本;
c)同批次样本中,阴性对照品检测到病原体阳性,该病原体的检出经判断不是由样本间干扰引起,当该病原体的检测值与其他待测样本的检测值不满足区分条件时,判断为阴性对照失控,则重复检测该批次样本;
d)同批次样本中,所有样本都检测到相同的病原体,且判断存在样本之间的相互干扰,则去除批次中检出值最高的样本重新进行检测。
基于本申请的血流感染检测方法,本申请进一步提出了一种血流感染检测装置,如图4所示,包括血液样本核酸提取模块41、血液宏基因组测序模块42、血液宏基因组测序数据分析模块43、解读模块44、检测报告输出模块45和检测结果总结模块46。各模块分别用于实现本申请的血流感染检测方法中的各步骤,使得本申请的血流感染检测方法能够实现自动化。其中,血液样本核酸提取模块可以参考并整合现有的核酸自动化提取平台,例如,在输入血液样本后,可以通过自动添加试剂、提取和纯化核酸,实现核酸的自动化提取。血液宏基因组测序模块可以参考并整合现有的高通量测序平台,例如可以自动获取血液样本核酸提取模块获得的核酸样本,并自动添加文库构建试剂和测序试剂进行自动化的高通量测序。
下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
一、试剂、接头和引物
本例所用到的所有试剂和核酸序列片段,均可由市场购得,其中所用到的试剂及对应厂家信息如表1所示。
表1试剂名称及生产厂家
试剂名称 |
生产厂家 |
T4 DNA Polymerase |
Enzymatics |
T4 PNK |
Enzymatics |
10×T4 PNK buffer |
Enzymatics |
rTaq |
TaKaRa |
dATP(100mM) |
Enzymatics |
dNTP(25mM) |
Enzymatics |
ATP(100mM) |
Thermo Fisher |
T4 DNA Ligase |
Enzymatics |
50%PEG 8000 |
Rigaku |
KaPa HiFi Ready Mix |
Kapa biosystems |
本例所使用的接头和引物序列如表2所示。
表2接头序列和引物序列
二、血流感染检测
本例具体按照以下步骤进行血流感染的检测:
1)取300μL血浆样本,按照TIANamp Micro DNA Kit试剂盒操作说明进行血浆游离DNA提取。
2)DNA末端修复及加A反应
反应体系50μL包括:提取的DNA 43μL、10×PNK Buffer 5μL、dATP:dNTP为20:1的混合液1.2μL、T4 DNA Polymerase 0.4μL、T4 PNK 0.2μL、rTaq 0.2μL。
反应条件为:37℃30min,65℃15min,然后4℃待机。
3)接头连接反应
反应体系80μL包括:100mM的ATP 0.8μL、末端修复的DNA 50μL、10×PNK Buffer 3μL、T4 DNA Ligase 1μL、12μL的50%PEG 8000、2μL的Ad153,以及H2O 11.2μL。
反应条件为:23℃20min,然后4℃hold。
4)纯化
本例用0.5倍体积,即40μL,的Agencourt AMPure XP磁珠,对接头连接产物进行纯化,操作流程按照AMPure XP Beads纯化说明书进行,纯化产物回融至21μL用于后续反应。
5)PCR扩增反应
反应体系50μL包括:纯化DNA 21μL、kapahifi ready mix 25μL、20μM的AD153-F 2μL、20μM的AD153-R 2μL。
反应条件为:98℃2min;然后进入10个循环:98℃15s、56℃15s、72℃30s;循环结束后,72℃5min,4℃待机。
6)纯化
用1倍体积,即50μL,的Agencourt AMPure XP磁珠,对PCR扩增产物进行纯化,操作流程按照AMPure XP Beads纯化说明书进行。
7)PCR纯化产物进行Qubit定量
按Qubit dsDNA HS Assaykit2.0Fluorometer说明书操作。
8)文库质量检测
本例用Agilent 2100 Bioanalyzer检测文库产量,操作流程按照Agilent 2100Bioanalyzer说明书进行。2100检测结果如图5所示。
9)上机测序
本例将质控合格的文库按照MGISEQ-200或BGISEQ-50上机流程进行上机测序,详细流程参考相应试剂盒操作说明书。
10)下机数据分析
按照上述流程完成测序反应后得到原始数据,按如下步骤进行数据分析,得到病原的各项基本检测参数信息。具体步骤如下:
a)数据质控统计和拆分
本步骤不对数据进行过滤,只统计低质量和含N的reads占比,按照设定的每个子文件reads数拆分原数据文件。低质量reads:序列中质量值小于5的碱基数占序列总碱基数的比值大于等于30%的序列;含N reads:序列中N的个数大于10或者N的占比大于等于6%的序列。
b)人源序列去除
将上述步骤生成的每个子文件数据与人源序列数据库进行比对,去除比对结果中比对率大于等于50%的序列,剩余序列按照步骤a)定义的低质量序列和含N序列进行过滤,然后对简单重复序列进行过滤,从而得到非人源序列文件。其中,人源序列数据库包括人类参考基因组(hg38)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
c)质粒序列去除和内参比对
将上述步骤得到的非人源序列与质粒序列库进行比对,去除结果中比对率大于等于80%且碱基错配率小于等于10%的序列,得到进一步处理后的非人源序列。将得到的非人源序列与内参数据库进行比对,统计比对上内参的序列数。
d)病原基因组序列库比对
将上述步骤得到的非人源序列分别与细菌序列库、DNA病毒序列库、真菌序列库和寄生虫序列库比对,首先对序列比对长度占比小于80%,碱基错配率大于10%的序列进行过滤,然后对历史比对的高频位点进行过滤,最后使用samtools去除比对结果中的重复序列,得到4个病原库最终比对结果。
e)病原检测参数注释
基于步骤d)得到的4个病原库的最终比对结果,统计检测到的各病原微生物的检测参数,包括比对序列数(MRN)、严格比对序列数(SMRN)、覆盖率、覆盖深度、相对丰度等,并对比对序列数和严格比对序列数利用有效数据进行归一化处理,得到标准化比对序列数(SDMRN)和标准化严格比对序列数(SDSMRN)。重要参数比对算法如下:
比对序列数(MRN):按照比对长度占比(maprate)>=80%且碱基错配率(errorrate)<=10%,统计比对结果中比对上每个病原微生物的序列数。
严格比对序列数(SMRN):在满足MRN条件的基础上,统计比对结果中同时满足maprate>=90%,errorrate<=4%(病毒碱基错配率满足viruserate<=8%),比对最优得分AS>=30,序列比对频率read.freq=1,且满足以下任一条件的序列数:
(1)次优比对得分XS/最优比对得分AS<0.8且比对质量值mapq>=30;
(2)次优比对得分/最优比对得分>=0.8且多比对结果(XA)输出的结果中比对上的病原和最优比对上的病原相同。
11)病原检测结果解读
根据解读规则,去除环境背景微生物以后,依次判断各样本中满足阈值的病原体列表,对这些病原体首先排除同源物种之间的干扰和同批次相同病原体检测值的干扰,并确定该批次样本中阴性对照品无病原体检出,确定最终报告病原体物种。具体如下:
a)对检测到的病原体与背景微生物数据库进行比较,过滤背景微生物数据库中的物种,得到检测样本的候选病原体列表;
b)对样本中过滤背景微生物后检测到的病原体标准化严格比对序列数(SDSMRN)进行判断,看检测值是否满足设定阈值;
c)对于达到阈值以上的病原体,根据检测参数判断该病原体是否存在同源物种检测的干扰,若存在,需进行干扰处理后进行下一步解读,若不存在,可直接进行下一步解读;
d)对同批次中不同样本检测到相同的病原体,需要根据不同样本中该病原体对应的检测参数进一步判断是否存在样本之间的相互干扰,若存在,则根据过滤参数对异常检测值进行过滤,若不存在,则进行下一步解读;
e)对同批次的阴性对照样本检测参数进行分析,若阴性对照样本中存在满足阈值以上的病原体检出,先按照c)和d)流程进行过滤,排除同源物种干扰和样本之间的相互干扰后,将测试样本中该病原体的检测值与阴性对照样本中的检测值进行对比分析,满足设定阈值差异的情况,可判断为阳性,否则不予判断阳性
12)输出检测报告
基于latex语言自动化生成tex格式文件并转换成pdf文档格式的检测分析报告,报告展示内容包含受检者基本信息、临床信息、样本信息、检测结果和结果说明。
13)输出检测总结
为保证每批次检测的可控性和准确性,根据上述信息分析结果和解读结果,输出本次检测总结及建议,主要包括以下几方面:
a)同批次检测中,阴阳性对照品,内参检测值,样本之间的干扰以及病原体同源性的影响均在可控范围内时,判断本批次检测结果有效;
b)同批次样本中,阳性对照品所添加靶标未检出阳性,判断为阳性对照失控,建议重复检测该批次全部样本;
c)同批次样本中,阴性对照品检测到病原体阳性,该病原体的检出经判断不是由样本间干扰引起,当该病原体的检测值与其他待测样本的检测值不满足区分条件时,判断为阴性对照失控,建议重复检测该批次样本;
d)同批次样本中,所有样本都检测到相同的病原体,且判断存在样本之间的相互干扰,建议去除批次中检出值最高的样本重新进行检测。
输出检测总结的格式参考如下:
本批次检测中,阴性对照品无病原体检出,阳性对照品中所添加靶标病原体检测值满足检测阈值,检测结果为阳性。本批次所有样本中,内参检测值均满足内参检测阈值,确定内参正常检出。样本中检测到的阳性病原体已排除样本之间的干扰以及病原体同源性的影响,所有检测结果均在可控范围内时,本批次检测结果有效。
试验例
按照以上方法和步骤,对同时添加了不同病原体DNA片段的血浆样本作为模拟感染样本进行试验,所添加病原体分别为肺炎克雷伯菌、大肠埃希菌、鲍曼不动杆菌、金黄色葡萄球菌和屎肠球菌。具体实施方案如下:
1)取内参分别添加至上述模拟血浆样本(缩写S1)和阴性对照样本(缩写N1)、阳性对照样本(缩写P1)中,其中,阳性对照品中所加病原体为肺炎克雷伯菌,阴性对照品为健康人血浆样本。按照TIANamp Micro DNA Kit核酸提取试剂盒操作说明进行核酸提取。
2)对提取的核酸按照如下体系进行末端修复和加“A”反应
反应体系50μL包括:提取的DNA 43μL、10×PNK Buffer 5μL、dATP:dNTP为20:1的混合液1.2μL、T4 DNA Polymerase 0.4μL、T4 PNK 0.2μL、rTaq 0.2μL。
反应条件为:37℃30min,65℃15min,然后4℃待机。
3)接头连接反应体系如下:
反应体系80μL包括:100mM的ATP 0.8μL、末端修复的DNA 50μL、10×PNK Buffer 3μL、T4 DNA Ligase 1μL、12μL的50%PEG 8000、2μL的Ad153,以及H2O 11.2μL。反应条件为:23℃20min,然后4℃hold
4)纯化:用0.5倍体积,即40μL的Agencourt AMPure XP磁珠进行纯化,操作流程按照AMPure XP Beads纯化说明书进行,纯化产物回融至21μL用于后续反应。
5)PCR扩增反应体系如下:
反应体系50μL包括:纯化DNA 21μL、kapahifi ready mix 25μL、20μM的AD153-F 2μL、20μM的AD153-R 2μL。
反应条件为:98℃2min;然后进入10个循环:98℃15s、56℃15s、72℃30s;循环结束后,72℃5min,4℃待机。
6)纯化:用1倍体积,即50μL,的Agencourt AMPure XP磁珠进行纯化,操作流程按照AMPure XP Beads纯化说明书进行。
7)PCR纯化产物进行Qubit定量:按Qubit dsDNA HS Assay kit2.0Fluorometer说明书操作。
8)检测文库质量:用Agilent 2100 Bioanalyzer检测文库产量,操作流程按照Agilent 2100 Bioanalyzer说明书进行。
9)上机测序:将质控合格的文库按照MGISEQ-200上机流程进行上机测序,详细流程参考相应试剂盒操作说明书。
10)下机数据分析
a)统计下机数据中的低质量和含N的reads占比
本例分别统计了模拟血浆样本(缩写S1)、阴性对照样本(缩写N1)、阳性对照样本(缩写P1)的低质量和含N的reads占比,结果如表3所示。
表3低质量和含N的reads占比统计结果
样本名称 |
下机序列数 |
低质量及含N序列占比 |
S1 |
34602264 |
0.09% |
P1 |
29876342 |
0.10% |
N1 |
26456735 |
0.10% |
b)将每个样本的数据与人源序列数据库进行比对,去除比对结果中比对率大于等于50%的序列,剩余序列再进行低质量序列和含N序列进行过滤,从而得到过滤后的非人源序列,过滤后结果如表4所示。
表4人源序列过滤后的结果
样本名称 |
下机序列数 |
去除人源序列占比 |
过滤后的非人源序列 |
S1 |
34602264 |
96.48% |
1211271 |
P1 |
29876342 |
98.68% |
386156 |
N1 |
26456735 |
98.75% |
223882 |
c)将过滤后的非人源序列进一步与质粒数据库对比,去除质粒序列后与内参序列库比对,得到内参比对序列数,结果如表5所示。
表5质粒序列去除和内参比对结果
样本名称 |
内参序列 |
S1 |
850560 |
P1 |
141287 |
N1 |
133536 |
d)将上述步骤得到的非人源序列分别与细菌序列库、病毒序列库、真菌序列库和寄生虫序列库比对,结果如表6所示。
表6四个病原微生物数据库比对结果
样本名称 |
细菌库比对 |
病毒库比对 |
真菌库比对 |
寄生虫库比对 |
S1 |
28005 |
262 |
2554 |
14094 |
P1 |
9939 |
1551 |
2359 |
11947 |
N1 |
3200 |
1330 |
1715 |
9730 |
e)根据上述比对结果,统计检测到的各病原微生物的检测参数,包括比对序列数、严格比对序列数、覆盖率、覆盖深度、相对丰度等信息用于后续解读。
11)检测结果解读
首先,对检测结果中的病原体列表与背景微生物序列库进行比对,过滤背景微生物后,确定阴性对照品检测结果为阴性。对于样本S1,其检测列表中所列病原体检测值均满足对应病原检测阈值,如表7所示,并且所检测病原体中并不存在同源物种的干扰情况。进一步对同批次样本检测到的相同靶标进行干扰分析,本例中同批内检测相同靶标为肺炎克雷伯菌,按照同批次过滤参数不能过滤掉S1中的肺炎克雷伯菌检出值,因此该检测有效,可用于后续报告输出。
表7标准化严格比对数结果
12)输出检测报告
根据上述解读结果进行检测报告输出,对于已有阈值的检测病原体,在报告中提示阴阳性、对于暂未确定阈值的检测病原体,报告中列出标准化严格比对序列数,临床医生可根据序列数的高低,结合临床症状进行提示。
13)输出检测总结
本批次检测中,阴性对照品无靶标病原体检出,阳性对照品中所添加靶标病原体检测值满足检测阈值,检测结果为阳性。本批次所有样本中,内参检测值均满足内参检测阈值,判断内参正常检出。样本中检测到的阳性病原体已排除样本之间的干扰以及病原体同源性的影响,所有检测结果均在可控范围内时,本批次检测结果有效。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
SEQUENCE LISTING
<110> 天津华大医学检验所有限公司
华大生物科技(武汉)有限公司
<120> 血液宏基因组测序数据的分析方法、装置及其应用
<130> 18I27725
<160> 4
<170> PatentIn version 3.3
<210> 1
<211> 58
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (32)..(41)
<223> n is a, c, g, or t
<400> 1
agtcggaggc caagcggtct taggaagaca annnnnnnnn ncaactcctt ggctcaca 58
<210> 2
<211> 38
<212> DNA
<213> 人工序列
<400> 2
ttgtcttcct aaggaacgac atggctacga tccgactt 38
<210> 3
<211> 17
<212> DNA
<213> 人工序列
<400> 3
gaacgacatg gctacga 17
<210> 4
<211> 17
<212> DNA
<213> 人工序列
<400> 4
tgtgagccaa ggagttg 17