CN114464253B

CN114464253B - 基于长读长测序进行实时病原检测的方法、系统和应用

Info

Publication number: CN114464253B
Application number: CN202210203436.5A
Authority: CN
Inventors: 夏涵; 胡龙; 刘广建; 官远林; 梁晓雪; 宋雅丽; 邓勇; 曾敏俊; 李长诚; 佟斯垚
Original assignee: Yuguo Microcode Biotechnology Co ltd Of Xixian New Area; Yuguo Zhizao Technology Beijing Co ltd; Yuguo Biotechnology Beijing Co ltd
Current assignee: Yuguo Microcode Biotechnology Co ltd Of Xixian New Area; Yuguo Zhizao Technology Beijing Co ltd; Yuguo Biotechnology Beijing Co ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-03-10
Anticipated expiration: 2042-03-03
Also published as: CN114464253A

Abstract

本发明提供了一种基于长读长测序进行实时病原检测的方法、系统和应用，包括(1)测序下机数据监测及定时分析启动；(2)获取测序fastq数据，并对数据进行质控；(3)质控后的数据与人的参考基因组比对，并去除比对上的reads；(4)去除人源reads的数据与微生物数据库进行比对和统计，检测报出测序数据中的病原微生物种类；(5)到达设定间隔时间后，新产生的数据顺序执行步骤(2)至(3)，并与前一个时间间隔步骤(3)产生的数据合并，执行步骤(4)。本发明能够应用长读长测序数据实时、快速、准确完成临床样本病原微生物检测，具有重要的应用价值。

Description

基于长读长测序进行实时病原检测的方法、系统和应用

技术领域

本发明涉及生物信息学技术领域，具体涉及病原微生物检测方法及系统技术领域。

背景技术

感染是威胁人类健康的重要因素之一，进一步产生不同的临床症状，甚至危及生命。病原微生物检测是感染类疾病的诊断治疗中不可缺少的重要环节，临床微生物培养是病原检测的“金标准”。但是，常规的培养鉴定不仅流程复杂、培养周期长，同时还需要辅助进行镜检和各类各式特异性染色等鉴定方法，造成诊断时间成本高，检出不及时。培养还存在较大偏倚，对苛养菌培养效果不佳，较难通过培养检出，对于不典型或少见、变异微生物，真菌及病毒，大多数临床微生物室缺少检出能力，容易发生错检、漏检。

随着测序技术的发展，临床微生物与感染诊断逐步进入以基因组测序为代表的分子检测阶段，基于高通量基因测序技术的宏基因组检测技术(Metagenomic nextgeneration sequencing，mNGS)不依赖于培养，直接对临床样本中靶标核酸进行无偏倚、光谱性测序筛查，经与严格校验、组织的微生物基因组数据库进行比对分析，能够特异性鉴定人体微生物组种属，快速发现病原、同时对条件致病性微生物进行鉴别，并与人体共生微生物进行区分。

目前，mNGS检测技术主要基于二代测序平台，测序读长一般在几十到几百个碱基(核糖核苷酸)，较短的测序读长在一定程度上限制了病原物种的精确鉴定，并且无法直接获得可能的耐药基因序列，阻碍了耐药基因检出。

发明内容

针对上述内容中所记载的技术问题中的一种，本发明提出了一种基于长读长测序进行实时病原检测的方法、系统和应用，解决了短读长数据病原检测的不足的问题。本发明监测测序数据下机并按预设的间隔时间节点循环启动分析，每次启动分析后对新获取的测序数据进行质控和去除人源reads(并可合并已用于分析的数据)，将得到的clean reads与微生物数据库比对及结果评估和筛选，确定数据中病原微生物的物种信息并报出，使得本发明方法可兼容不同测序精度的长读长数据。同时由于长读长测序可以获得更长的reads，甚至对天然DNA和RNA直接测序，减少了扩增带来的实验偏差。由于本发明的系统解决了快速检出的问题，结合便携测序仪器能够进行实时检测和分析，使得本发明方法、系统能够应用于更多、更复杂的场景，为临床检测和研究带来了变革。

第一方面，本发明提供了基于长读长测序进行实时病原检测的方法，包括如下步骤：

(1)测序下机数据监测及定时分析启动；

(2)获取测序fastq数据，并对数据进行质控；

(3)质控后的数据与人的参考基因组比对，并去除比对上的reads；

(4)去除人源reads的数据与微生物数据库进行比对和统计，检测报出测序数据中的病原微生物种类；

(5)到达设定间隔时间后，新产生的数据顺序执行步骤(2)至(3)，并与前一个时间间隔步骤(3)产生的数据合并，执行步骤(4)。

优选的，本发明所述步骤(1)定时分析启动时间包括初始等待启动时间和间隔时间，初始等待启动时间和间隔时间是根据使用测序仪器的测序生产速度、临床样本对于病原检测时效的需求、生产数据量满足分析设置。

优选的，本发明所述步骤(2)对测序数据的质控包含接头过滤、低质量过滤和reads长度过滤。本发明所述测序数据的质控可通过适用于所用测序平台的软件或自行编写的shell、python、perl、R等文本处理程序完成。

优选的，本发明所述步骤(3)clean reads与人的参考基因组比对用于去除人源的数据，使用minimap2、BWA、BLAST中任一软件完成。

优选的，本发明所述步骤(4)中，微生物数据库选用Refseq、NT、Kraken2中的任一数据库。

优选的，本发明所述步骤(5)中，所述间隔时间根据仪器生产和临床需求设定。

本发明步骤(4)中报出结果包括物种中文名、物种拉丁名、支持物种分类的reads数目、丰度、基因组覆盖长度和覆盖比例等。

具体的，本发明所述初始等待启动时间为0.5-2小时，当经过一次间隔时间后相对丰度占比最高的物种A小于80％，且相对丰度占比最高的物种A基因组覆盖比例小于10％时，将间隔时间调整为原间隔时间的6倍，当相对丰度占比最高的物种A的相对丰度大于80％时，将间隔时间调为原来的1/3-2/3；A物种的相对丰度如下式计算：

其中A、B、C···N代表了待检测样品中包括病毒、细菌、放线菌在内的所有微生物。

第二方面，本发明提供了基于长读长测序进行实时病原检测的系统，包括：

数据存储模块，用于获得测序fastq数据，调取存储人的参考基因组和微生物数据库；

数据分析模块，用于对测序fastq数据进行质控，质控后的数据与人的参考基因组比对，并去除比对上的reads；

数据反馈模块，用于对去除人源reads的数据与微生物数据库进行比对和统计，检测报出测序数据中的病原微生物种类；

计时控制模块，用于记录输出初始等待启动时间和间隔时间，控制分析启动时机。

第三方面，本发明提供了基于长读长测序进行实时病原检测的电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的计算机指令，所述计算机指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明上述方法。

第四方面，本发明提供了基于长读长测序进行实时病原检测的计算机可读存储介质，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行本发明上述的方法。

通过实施本发明的技术方案，可以达到以下有益效果:

本发明提供的方法、系统、电子设备和计算机可读存储介质能够兼容各种测序精度的长读长测序平台，实时完成测序数据质控和去人源，并将clean reads与微生物数据库比对和筛选，确定样本微生物物种组成并报出。

本发明提供的方法能够应用长读长测序数据实时、快速、准确完成临床样本病原微生物检测，具有重要的应用价值。

本发明通过采用长读长测序使得检测不再依赖于培养，甚至可以对天然DNA和RNA直接测序，减少了扩增带来的实验偏差，而且使得原本需要几天的培养检测时间缩短到数小时之类完成，甚至能够根据需要在一小时内获得需要初步检测数据，解决了现有技术针对病毒检测周期长，导致病情延误或者难以及时采取针对性治疗使得很多治疗方法难以迅速展开的情况。

本发明通过制定时间设定依据，既保证了结果输出的参考性，也能够后续修正及时调整治疗方案，保证了时效性和准确性。

附图说明

图1为本发明基于长读长测序进行实时病原检测的方法的技术路线图。

图2为实施例1中病原检测结果的部分展示，从左到右列分别为：物种拉丁名、比对到该物种的reads总数、唯一比对的reads总数、比对基因组的覆盖长度、覆盖率。

图3为实施例1中每个物种的模拟数据在分析中实际唯一比对到该物种的数目及占cleanreads中该物种reads的百分比。

具体实施方式

下面将结合说明书附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合以下本发明的优选实施方法的详述以及包括的实施例可进一步地理解本发明的内容。

如附图1所示，本发明提供了基于长读长测序进行实时病原检测的方法，包括如下步骤：

(1)测序下机数据监测及定时分析启动；

(2)获取测序fastq数据，并对数据进行质控；

实施例1本发明基于长读长测序进行实时病原检测的系统

本发明提供了基于长读长测序进行实时病原检测的系统，包括：

实施例2本发明基于长读长测序进行实时病原检测的电子设备

本发明提供了基于长读长测序进行实时病原检测的电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的计算机指令，所述计算机指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明上述方法。

实施例3本发明基于长读长测序进行实时病原检测的计算机可读存储介质

本发明提供了基于长读长测序进行实时病原检测的计算机可读存储介质，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行本发明上述的方法。

实施例4627种病原微生物模拟长读长测序数据检测

本实施例以353种临床重要致病细菌、支原体、衣原体、立克次氏体、螺旋体、214种临床重要致病病毒、50种临床重要致病真菌及10种临床重要致病寄生虫为代表，从NCBI下载每个物种代表性Refseq基因组fasta序列，构建微生物数据库。同时，以基因组序列为参考，使用长读长测序数据模拟软件DeepSimulator进行测序数据模拟，每个物种产生100条模拟reads，最后合并形成总的fastq文件。

完成数据库构建和模拟测序数据fastq合并后，开始进行分析：

(1)获取本实施例为模拟数据后，对fastq数据进行质控，首先使用porechop软件去除测序接头，然后过滤质量值低于8、长度不足500碱基的reads。

(2)质控后的fastq数据与人的参考基因Hg38进行比对，保留未比对上的reads作为clean reads。

(3)使用BLAST软件将clean reads与构建的数据库进行比对，并根据比对长度、序列一致性对结果进行筛选，统计比对结果中每个物种比对上的reads数目、唯一比对上的readds数目、比对覆盖长度和相对于基因组的覆盖率等参数，如图2。

本实施例的分析结果显示，共627个物种中，582种微生物(92.8％)唯一比对上的reads完全来自于自身模拟数据，未出现其他物种reads的错误筛选(假阳性)。其他45例存在丢失真实reads(假阴性)的物种中，最高的丢失率仅为5.5％，如图3。可见本发明基于长读长测序进行实时病原检测的方法整体检测准确性高，假阴性发生率低，丢失真实reads(假阴性)的物种丢失率低，这为设定初始等待启动时间和间隔时间进行分阶段输出提高输出时效性和兼顾准确性提供了理论依据。

实施例5病原血培养样本长读长测序数据分析

本实施例具体的实施方法包括：

(1)测序开始后，设定1小时初始等待时间，1小时后启动分析，设定间隔分析时间为30分钟。

(2)对fastq数据进行质控，采用自行编写的shell文本处理程序首先将测序reads与接头序列库比对，去除测序接头，然后过滤质量值低于8、长度不足500碱基的reads。

(3)质控后的fastq数据与人的参考基因Hg38进行比对，保留未比对上的reads作为clean reads。

(4)使用BWA软件将clean reads与NT库进行比对，并根据比对长度、序列一致性对结果进行筛选，统计比对结果。

(5)初始分析完成后，每间隔30分钟对新产生的数据执行步骤(2)和(3)，然后合并之前产生的clean reads共同执行步骤(4)。

测试数据如下所示：

表1：经过1小时初始等待时间后报出的病原微生物信息

物种名称	中文名称	reads数目	丰度	基因组覆盖长度	覆盖比例
						Klebsiellapneumoniae	肺炎克雷伯菌	1432	84.96％	832183	14.64％
Enterococcusfaecium	屎肠球菌	120	13.86％	143145	4.90％
						Escherichiacoli	大肠杆菌	5	0.36％	32412	0.70％
Staphylococcusepidermidis	表皮葡萄球菌	6	0.81％	35576	1.40％

表2：经过1小时初始等待时间和0.5小时间隔分析时间后报出的病原微生物信息

物种名称	中文名称	reads数目	丰度	基因组覆盖长度	覆盖比例
						Klebsiellapneumoniae	肺炎克雷伯菌	2133	86.87％	954831	16.80％
Enterococcusfaecium	屎肠球菌	153	12.13％	186593	6.39％
						Escherichiacoli	大肠杆菌	7	0.35％	24356	0.52％
Staphylococcusepidermidis	表皮葡萄球菌	7	0.65％	35487	1.42％

表3：经过1小时初始等待时间和6个半小时间隔分析时间以上报出的病原微生物信息

物种名称	中文名称	reads数目	丰度	基因组覆盖长度	覆盖比例
						Klebsiellapneumoniae	肺炎克雷伯菌	287653	99.81％	3786735	66.64％
Enterococcusfaecium	屎肠球菌	239	0.16％	224536	7.69％
						Escherichiacoli	大肠杆菌	12	0.00％	36547	0.79％
Staphylococcusepidermidis	表皮葡萄球菌	32	0.03％	56486	2.27％

从上述数据可以看出，经过1小时初始等待时间后，虽然后面随着每次间隔时间结束报出的病原微生物信息中reads数目持续增加，基因组覆盖长度和覆盖比例也在不断增加，但是病原微生物的丰度顺序已经不再变化，换句话说，本实施例在初始等待时间为1小时时，已经能够对丰度最大的病原微生物进行把握，这已经给临床治疗提供了足够的信息进行前期诊疗。本实施例也尝试了初始等待时间小于0.5小时，多个病原微生物丰度接近时就会出现排序变化的情况，也就是说时间特别短由于可供分析的数据太少，当出现极个别其他物种reads的错误筛选(假阳性)或者存在丢失真实reads(假阴性)的情况时，就会出现误判，输出的结果不能支撑做成临床诊疗决定，但是当初始等待时间达到2小时以上后，可供分析的数据已经具有完全具备参考意义，本实施例通过多组病原微生物组合测试发现其他物种reads的错误筛选(假阳性)或者存在丢失真实reads(假阴性)已经对利用输出结果得出临床诊疗方案没有影响：

实施例6病原肺泡灌洗液培养样本长读长测序数据分析

本实施例具体的实施方法包括：

(1)测序开始后，设定半小时初始等待时间，半小时后启动分析，设定间隔分析时间为60分钟。

(2)对fastq数据进行质控，首先将测序reads与接头序列库比对，去除测序接头，然后过滤质量值低于8、长度不足500碱基的reads。

(4)使用minimap2软件将clean reads与Refseq库进行比对，并根据比对长度、序列一致性对结果进行筛选，统计比对结果。

(5)初始分析完成后，每间隔60分钟对新产生的数据执行步骤(2)和(3)，然后合并之前产生的clean reads共同执行步骤(4)。

表1：经过0.5小时初始等待时间后报出的病原微生物信息

物种名称	中文名称	reads数目	丰度	基因组覆盖长度	覆盖比例
						Streptococcuspneumoniae	肺炎链球菌	421	80.60％	114357	5.31％
Pseudomonasaeruginosa	铜绿假单胞菌	236	15.54％	93548	1.49％
						Acinetobacterbaumannii	鲍曼不动杆菌	13	1.35％	13596	0.34％
Staphylococcusaureus	金黄色葡萄球菌	8	1.17％	2443	0.09％
						Haemophilusparainfluenzae	副流感嗜血杆菌	7	1.34％	4577	0.21％

表2：经过0.5小时初始等待时间和0.5小时间隔分析时间后报出的病原微生物信息

物种名称	中文名称	reads数目	丰度	基因组覆盖长度	覆盖比例
						Streptococcuspneumoniae	肺炎链球菌	668	79.15％	168764	7.83％
Pseudomonasaeruginosa	铜绿假单胞菌	435	17.73％	211398	3.37％
						Acinetobacterbaumannii	鲍曼不动杆菌	15	0.96％	15539	0.39％
Staphylococcusaureus	金黄色葡萄球菌	12	1.09％	3572	0.13％
						Haemophilusparainfluenzae	副流感嗜血杆菌	9	1.07％	5312	0.25％

表3：经过0.5小时初始等待时间和2.5小时间隔分析时间后报出的病原微生物信息

物种名称	中文名称	reads数目	丰度	基因组覆盖长度	覆盖比例
						Streptococcuspneumoniae	肺炎链球菌	1243	76.12％	343857	15.96％
Pseudomonasaeruginosa	铜绿假单胞菌	1056	22.24％	552348	8.82％
						Acinetobacterbaumannii	鲍曼不动杆菌	16	0.53％	15897	0.40％
Staphylococcusaureus	金黄色葡萄球菌	12	0.56％	3572	0.13％
						Haemophilusparainfluenzae	副流感嗜血杆菌	9	0.55％	5312	0.25％

表4：经过0.5小时初始等待时间和3小时以上间隔分析时间后报出的病原微生物信息

物种名称	中文名称	reads数目	丰度	基因组覆盖长度	覆盖比例
						Streptococcuspneumoniae	肺炎链球菌	4885	80.95％	1557748	72.31％
Pseudomonasaeruginosa	铜绿假单胞菌	3243	18.48％	2328766	37.17％
						Acinetobacterbaumannii	鲍曼不动杆菌	20	0.18％	18862	0.47％
Staphylococcusaureus	金黄色葡萄球菌	15	0.19％	4734	0.17％
						Haemophilusparainfluenzae	副流感嗜血杆菌	12	0.20％	6548	0.30％

从上述实施例尝试进行调整的初始等待时间数据看，如果初始等待时间小于0.5小时，如果病原微生物的组成复杂而且丰度接近时就会出现排序变化的情况，也就是说时间特别短由于可供分析的数据太少，当出现极个别其他物种reads的错误筛选(假阳性)或者存在丢失真实reads(假阴性)的情况时，就会出现误判。本实施例的实验数据进一步验证了上述实施例5的结论，当本实施例初始等待时间为0.5小时时，鲍曼不动杆菌、金黄色葡萄球菌、副流感嗜血杆菌是会发现顺序变化，相对丰度占比最高的物种A肺炎链球菌的丰度也是先降低随着间隔时间增加升高，经过多轮实验发现当整个间隔时间达到3小时以上时，丰度值变化相对稳定。所以本实施例进一步实验发现，当经过0.5小时间隔时间后相对丰度占比最高的物种A小于80％，且相对丰度占比最高的物种A基因组覆盖比例小于10％时，如果将间隔时间调整为原间隔时间的6倍各个病原微生物的丰度变化相对稳定，当相对丰度占比最高的物种A的相对丰度大于80％，将间隔时间调为原来的1/3-2/3，如果间隔时间太长失去了提前获得临床参考数据的意义，如果间隔时间太短增加的reads数目太少不足以支撑获得进一步的分析结果。

按照本发明的规则结合长读长的测序技术，调整初始等待时间和间隔分析时间能最大限度的缩短输出时间，保证结果输出的效率，为实时、快速、准确完成临床样本病原微生物检测提供了一个可靠、可行和准确的技术方案。

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

Claims

1.基于长读长测序进行实时病原检测的方法，其特征在于，包括如下步骤：

(1)测序下机数据监测及定时分析启动；定时分析启动时间包括初始等待启动时间和间隔时间，初始等待启动时间和间隔时间是根据使用测序仪器的测序生产速度、临床样本对于病原检测时效的需求、生产数据量满足分析设置；

(2)获取测序fastq数据，并对数据进行质控；对测序数据的质控包含接头过滤、过滤质量值低于8、长度不足500碱基的reads；

(3)使用minimap2、BWA、BLAST中任一软件完成质控后的数据与人的参考基因组比对，并去除比对上的reads；比对到人基因组的reads去除使用samtools软件完成；

(4)去除人源reads的数据与微生物数据库进行比对和统计，检测报出测序数据中的病原微生物种类；微生物数据库选用Refseq、NT、Kraken2中的任一数据库；

(5)到达设定间隔时间后，新产生的数据顺序执行步骤(2)至(3)，并与前一个时间间隔步骤(3)产生的数据合并，执行步骤(4)；所述间隔时间根据仪器生产和临床需求设定；

所述初始等待启动时间为0.5-2小时，当经过一次间隔时间后相对丰度占比最高的物种A小于80％，且相对丰度占比最高的物种A基因组覆盖比例小于10％时，将间隔时间调整为原间隔时间的6倍，当相对丰度占比最高的物种A的相对丰度大于80％时，将间隔时间调为原来的1/3-2/3；A物种的相对丰度如下式计算：

2.应用权利要求1所述方法的系统，其特征在于，包括：

3.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的计算机指令，所述计算机指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1所述的方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行权利要求1所述的方法。