CN113327646A - 测序序列的处理方法及装置、存储介质、电子设备 - Google Patents

测序序列的处理方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN113327646A
CN113327646A CN202110733835.8A CN202110733835A CN113327646A CN 113327646 A CN113327646 A CN 113327646A CN 202110733835 A CN202110733835 A CN 202110733835A CN 113327646 A CN113327646 A CN 113327646A
Authority
CN
China
Prior art keywords
sequencing
sequence
reference genome
processed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110733835.8A
Other languages
English (en)
Other versions
CN113327646B (zh
Inventor
岳伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yiji Cloud Medical Data Research Institute Co ltd
Original Assignee
Nanjing Yiji Cloud Medical Data Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yiji Cloud Medical Data Research Institute Co ltd filed Critical Nanjing Yiji Cloud Medical Data Research Institute Co ltd
Priority to CN202110733835.8A priority Critical patent/CN113327646B/zh
Publication of CN113327646A publication Critical patent/CN113327646A/zh
Application granted granted Critical
Publication of CN113327646B publication Critical patent/CN113327646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开是关于一种测序序列的处理方法及装置、存储介质、电子设备,涉及基因测序技术领域,该方法包括:根据目标病毒参考基因组序列、其他近源病毒参考基因组序以及目标病毒的宿主参考基因组序列,列构建目标参考基因组序列;将待处理测序序列比对到目标参考基因组序列中,得到比对结果,并对比对到目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;根据排序结果以及比对结果计算待处理测序序列的唯一比对数据;根据唯一比对数据计算待处理测序序列在不同测序深度下,在目标病毒参考基因组序列中的覆盖比例,并根据覆盖比例确定与待处理测序序列对应的目标对象是否为确诊患者。本公开提高了测序序列的处理效率。

Description

测序序列的处理方法及装置、存储介质、电子设备
技术领域
本公开实施例涉及基因测序技术领域,具体而言,涉及一种测序序列的处理方法、测序序列的处理装置、计算机可读存储介质以及电子设备。
背景技术
在现有的病毒基因组测序方法中,可以通过如下两种方法进行实现:
一类是,高深度测序,即根据测序数据组装出样本中毒株的序列,与参考序列进行比较和计算相似度,根据相似度判断是否为同一种毒株;
另一种是,是低深度测序,即将测序数据比对到参考序列上,根据覆盖参考序列的序列数量、比例及被覆盖的长度,综合进行判断是否含有病毒;或者基于kmer算法,对测序数据直接取固定长度,与参考序列进行比较,计算相似度,来判断是否含有病毒序列;
但是,上述方法存在如下缺陷:一方面,高深度测序需要的数据量比较大,组装需要耗费大量时间和计算资源,进而使得测序序列的处理效率较低;另一方面,低深度测序没有排除宿主基因组序列或近源毒株基因组序列的干扰,进而使得确诊结果的准确率较低。
因此,需要提供一种新的测序序列的处理方法及装置。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种测序序列的处理方法、测序序列的处理装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的确诊结果的准确率较低的问题。
根据本公开的一个方面,提供一种测序序列的处理方法,包括:
根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及所述目标病毒的宿主参考基因组序列,列构建目标参考基因组序列;
将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;
根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据;
根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
在本公开的一种示例性实施例中,所述测序序列的处理方法还包括:
获取待检测样本的高通量测序数据,并基于预设的过滤规则对所述高通量测序数据进行预处理,得到所述待处理测序序列;
其中,所述预设的过滤规则包括如下至少一项:
对测序接头序列进行过滤;
对碱基质量值小于第一预设阈值、在所述高通量测序数据中占比超过第二预设阈值的读长、长度小于第三预设阈值的读长的高通量测序数据进行过滤。
在本公开的一种示例性实施例中,将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,包括:
基于预设的比对算法,将所述待处理测序序列分别比对到所述目标参考基因组序列中的目标病毒参考基因组序列、宿主参考基因组序列以及其他近源病毒参考基因组序列中,得到第一子比对结果、第二子比对结果以及第三子比对结果;
根据所述第一子比对结果、第二子比对结果以及第三子比对结果,生成所述比对结果。
在本公开的一种示例性实施例中,对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果,包括:
根据所述目标病毒参考基因组序列中包括的各个碱基的坐标,对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到所述排序结果。
在本公开的一种示例性实施例中,根据所述排序结果以及比对结果计算所述目标测序序列的唯一比对数据,包括:
根据所述比对结果,判断所述待处理测序序列的测序读长是否被唯一比对到所述目标病毒参考基因组序列上;
若是,则在所述排序结果中对所述测序读长的标识进行匹配,并根据匹配结果生成所述目标测序序列的唯一比对数据。
在本公开的一种示例性实施例中,根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,包括:
根据所述位唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中所覆盖的位点数目之和;其中,所述不同测序深度包括1X、5X、10X、20X、50X以及100X中的多种;
根据所述位点数目之和以及所述目标病毒参考基因组序列的序列长度,计算所述覆盖比例。
在本公开的一种示例性实施例中,根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者,包括:
当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于等于第四预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者;以及
当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例小于第四预设阈值时,且在10X/20X/50X/100X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于第五预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者。
在本公开的一种示例性实施例中,所述测序序列的处理方法还包括:
在确定与所述待处理测序序列对应的目标对象为确诊患者确定是确诊患者时,根据所述唯一比对结果以及目标病毒参考基因组序列,生成所述待处理测序序列的一致性序列;
对所述一致性序列进行分析,得到变异结果,并对所述变异结果进行过滤,得到所述待处理测序序列的变异信息。
在本公开的一种示例性实施例中,所述测序序列的处理方法还包括:
根据所述唯一比对数据计算所述待处理测序序列的多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目;
根据所述多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目,计算总比对读长的数目,并根据所述总比对读长的数目以及唯一比对读长的数目,计算所述待处理测序序列的唯一比对率;
根据所述唯一比对数据计算所述待处理测序序列的平均测序深度,并根据所述唯一比对率、平均测序深度以及变异信息,生成分析结果。
根据本公开的一个方面,提供一种测序序列的处理装置,包括:
参考基因组序列构建模块,用于根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序列以及所述目标病毒的宿主参考基因组序列,构建目标参考基因组序列;
比对模块,用于将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;
第一计算模块,用于根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据;
覆盖比例计算模块,用于根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的测序序列的处理方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的测序序列的比对方法。
本公开实施例提供的测序序列的处理方法,一方面,由于可以直接根据目标病毒参考基因组序列、与目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及目标病毒的宿主参考基因组序列,列构建目标参考基因组序列,进而将待处理测序序列比对到该目标参考基因组序列中得到比对结果,并对比对到目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果,进而根据比对结果以及排序结果构建唯一比对数据,以通过唯一比对数据计算覆盖比例,解决了现有技术中由于高深度测序需要的数据量比较大,组装需要耗费大量时间和计算资源,进而使得测序序列的处理效率较低的问题,提高了处理效率;另一方面,由于在目标参考基因组序列的构建中,还同时考虑到了与目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及目标病毒的宿主参考基因组序列,并且,在计算唯一比对数据时,仅提取的是比对到目标病毒参考基因组序列上的待处理测序序列,既避免了低深度测序没有排除宿主基因组序列或近源毒株基因组序列的干扰,进而使得确诊结果的准确率较低的问题,也避免了由于宿主和其他近源病毒基因组序列对待测序序列造成干扰,进一步导致的确诊结果的准确率较低的问题,进一步的提高了确诊结果的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出根据本公开示例实施例的一种测序序列的处理方法的流程图。
图2示意性示出示意性示出根据本公开示例实施例的一种排序结果的示例图。
图3示意性示出根据本公开示例实施例的一种根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例的方法流程图。
图4示意性示出根据本公开示例实施例的一种位点深度的示例图。
图5示意性示出根据本公开示例实施例的另一种测序序列的处理方法的流程图。
图6示意性示出根据本公开示例实施例的另一种测序序列的处理方法的流程图。
图7示意性示出根据本公开示例实施例的一种多次比对读长的应用场景示例图。
图8示意性示出根据本公开示例实施例的另一种测序序列的处理方法的流程图。
图9示意性示出根据本公开示例实施例的一种测序序列的处理装置的框图。
图10示意性示出根据本公开示例实施例的一种用于实现上述测序序列的处理方法的电子设备。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
新型冠状病毒(Severe acute respiratory syndrome coronavirus 2,SARS-CoV-2),是一种有包膜的单股正链RNA病毒,RNA单链稳定性低,复制过程中没有校正机制,病毒变异快,该病毒目前已在全球出现多种类型的变异毒株,变异后的毒株,其传播能力和致病能力更强,给疫情的防控和疫苗的开发,带来更多的挑战。
随着测序技术的发展,在新型冠状病毒疫情爆发之际,通过高通量测序(Next-generation sequencing,NGS)方法,新型冠状病毒的基因组序列被率先组装出来,作为参考序列,用于病毒的变异监测、疫苗开发、临床核酸检测、病毒毒株鉴定等场景。
在进行病毒检测时,所采用的病毒基因组测序方法,包括两类,一类是高深度测序,即根据测序数据组装出样本中毒株的序列,与参考序列进行比较和计算相似度,根据相似度判断是否为同一种毒株,以及确定相应的变异信息;另一类是低深度测序,包括两种技术路线,第一种是将测序数据比对到参考序列上,根据覆盖参考序列的序列数量、比例及被覆盖的长度,综合进行判断是否含有病毒,并进行常规变异分析;第二种是基于kmer算法,对测序数据直接取固定长度,与参考序列进行比较,计算相似度,来判断是否含有病毒序列。
但是,对于高深度测序来说,高深度测序,需要的数据量比较大,组装需要耗费大量时间和计算资源,组装后序列的质量受测序数据量和文库大小影响;并且,变异分析结果严重依赖组装序列的完整程度;
对于低深度测序来说,没有排除宿主基因组序列或近源毒株基因组序列的干扰,判断样本中是否含有病毒时,没有量化指标,结果准确度较低;并且,在进行变异分析时,未考虑新型冠状病毒单链的特性,变异分析结果存在较高的假阳性。
基于此,本示例实施方式中首先提供了一种测序序列的处理方法,该方法可以运行于服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本公开的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该测序序列的处理方法可以包括以下步骤:
步骤S110.根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及所述目标病毒的宿主参考基因组序列,列构建目标参考基因组序列;
步骤S120.将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;
步骤S130.根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据;
步骤S140.根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
上述测序序列的处理方法中,一方面,由于可以直接根据目标病毒参考基因组序列、与目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及目标病毒的宿主参考基因组序列,列构建目标参考基因组序列,进而将待处理测序序列比对到该目标参考基因组序列中得到比对结果,并对比对到目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果,进而根据比对结果以及排序结果构建唯一比对数据,以通过唯一比对数据计算覆盖比例,解决了现有技术中由于高深度测序需要的数据量比较大,组装需要耗费大量时间和计算资源,进而使得测序序列的处理效率较低的问题,提高了处理效率;另一方面,由于在目标参考基因组序列的构建中,还同时考虑到了与目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及目标病毒的宿主参考基因组序列,并且,在计算唯一比对数据时,仅提取的是比对到目标病毒参考基因组序列上的待处理测序序列,既避免了低深度测序没有排除宿主基因组序列或近源毒株基因组序列的干扰,进而使得确诊结果的准确率较低的问题,也避免了由于宿主和其他近源病毒基因组序列对待测序序列造成干扰,进一步导致的确诊结果的准确率较低的问题,进一步的提高了确诊结果的准确率。
以下,将结合附图对本公开示例实施例测序序列的处理方法进行详细的解释以及说明。
首先,对本公开示例实施例中所涉及到的名词进行解释以及说明。
读长,是指测序反应所能测得的序列的长度,长度单位为bp;
序列比对,指将两个或多个序列排列在一起,标明其相似之处;
测序深度,测序得到的碱基总量与基因组大小的比值,它是评价测序量的指标之一;
单倍体,指单套遗传物质;
碱基质量值,最初Sanger中心用Phred Quality Score来衡量该读长中每个碱基的质量,Q=-10logP,其中P代表该碱基被测序错误的概率,Q值越高,表示测序结果越可靠。
其次,对本公开示例实施例的发明目的进行解释以及说明。
本公开主要针对在病毒检测过程中,如何准确的根据高通量测序数据进行新型冠状病毒检测以及阳性样本的变异分析,主要解决的技术问题可以包括:一方面,排除宿主及其他近源病毒基因组序列的干扰;另一方面,根据参考基因组序列的不同测序深度的覆盖比例,直接进行是否含有病毒的判断;并且,还可以根据病毒的单链特性,进行单倍体变异分析。
在本公开示例实施例的一种测序序列的处理方法中:
在步骤S110中,根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及所述目标病毒的宿主参考基因组序列,列构建目标参考基因组序列。
具体的,可以通过NCBI网站,下载目标病毒参考基因组序列(NC_045512.2),并通过软件BWA index构建目标病毒参考基因组序列的index序列;下载目标病毒的宿主参考基因组序列(GRCh38.p13)、以及与目标病毒对应的其他近源病毒参考基因组序列,具体可以如下表1所示;然后,将目标病毒参考基因组序列、宿主参考基因组序列和其他近源病毒参考基因组序列合并成新的参考序列,并通过软件BWA index构建新的参考序列的index序列;
表1不同物种参考基因组序列名称及对应版本
Figure BDA0003140755200000101
在步骤S120中,将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果。
在本示例实施例中,为了提高比对结果的准确率,首先需要对测序数据进行预处理,进而得到待处理测序序列。具体的,预处理过程可以包括:获取待检测样本的高通量测序数据,并基于预设的过滤规则对所述高通量测序数据进行预处理,得到所述待处理测序序列;其中,所述预设的过滤规则包括如下至少一项:对测序接头序列进行过滤;对碱基质量值小于第一预设阈值、在所述高通量测序数据中占比超过第二预设阈值的读长、长度小于第三预设阈值的读长的高通量测序数据进行过滤。
具体的,首先,可以通过接收外部上传或者拷贝的方式获取待检测样本的高通量测序数据,该待检测样本可以是双端测序数据,也可以是单端测序数据,本示例对此不做特殊限制;同时,为了提高比对结果的准确率,该待检测样本的测序读长不小于75bp;其次,将上述得到的待检测样本的高通量测序数据,依次识别和去除(过滤掉)测序接头序列、过滤掉碱基质量值小于20且占比超过40%的读长、长度小于50bp的读长、超过5个N碱基的读长的高通量测序数据等,从而得到高质量的待处理测序序列。
其次,当得到待处理测序序列以后,可以将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果。具体的,首先,基于预设的比对算法,将所述待处理测序序列分别比对到所述目标参考基因组序列中的目标病毒参考基因组序列、宿主参考基因组序列以及其他近源病毒参考基因组序列中,得到第一子比对结果、第二子比对结果以及第三子比对结果;其次,根据所述第一子比对结果、第二子比对结果以及第三子比对结果,生成所述比对结果。具体的,可以采用软件BWA MEM算法,将待处理测序序列分别比对到目标参考基因组序列中的目标病毒参考基因组序列、宿主参考基因组序列以及其他近源病毒参考基因组序列中,得到第一子比对结果、第二子比对结果以及第三子比对结果,然后根据第一子比对结果、第二子比对结果以及第三子比对结果得到BAM格式的比对结果。其中,在具体的比对过程中,首先需要使用索引命令构建目标参考基因组序列的索引,再使用BWA MEM进行比对,进而到比对结果。
进一步的,当得到比对结果以后,可以对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果。具体的可以包括:根据所述目标病毒参考基因组序列中包括的各个碱基的坐标,对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到所述排序结果。
详细来说,可以抽取比对到目标参考基因组序列上的待处理测序序列,按照目标病毒参考基因组序列的参考序列坐标,将比对到目标参考基因组序列上的待处理测序序列进行排序,并对排序后的结果,用软件BWAindex构建排序结果index序列。其中,具体的排序结果可以参考图2所示。在图2中,以第一行至第二行为例,比对到目标病毒参考基因组序列的第一个参考序列坐标的待处理测序序列为SRR10903401.4805以及SRR10903401.9897,其分别从第一个参考序列坐标比对到了第76个参考序列坐标以及第74个参考序列坐标;继续参考图2所示,第五行表示待处理测序序列的第一个碱基与目标病毒参考基因组序列的第二参考序列坐标匹配;第九行表示待处理测序序列的第一个碱基与目标病毒参考基因组序列的第17个参考序列坐标匹配,其他的以此类推,本示例不再一一赘述。
在步骤S130中,根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据。
在本示例实施例中,首先,根据所述比对结果,判断所述待处理测序序列的测序读长是否被唯一比对到所述目标病毒参考基因组序列上;其次,若是,则在所述排序结果中对所述测序读长的标识进行匹配,并根据匹配结果生成所述目标测序序列的唯一比对数据。
具体的,根据上述具有BAM文件格式的比对结果,判断测序读长是否唯一比对到目标病毒参考基因组序列上,若是,则记录唯一比对的测序读长的ID(标识),并根据排序结果,匹配该唯一比对的测序读长的标识,若匹配成功,则根据比对结果以及排序结果生成唯一比对数据,以排除宿主和其他近源病毒基因组序列的干扰;当然,若待处理测序序列的测序读长没有被唯一比对到目标病毒参考基因组序列上,则对该待处理测序序列进行标识,并采用其他方式进行判断。
此处需要进一步补充说明的是,所谓的唯一比对数据,是指待处理测序序列的测序读长是唯一被比对到目标病毒参考基因组序列上,并未被比对到其他近源病毒参考基因组序以及宿主参考基因组序列上,此其一唯一,进而可以排除宿主和其他近源病毒基因组序列的干扰;在此基础上,再在排序结果中匹配唯一比对的测序读长的标识,此其二唯一,该方法可以进一步的避免宿主和其他近源病毒基因组序列的干扰,进而提高确诊结果的准确率。
在步骤S140中,根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
在本示例性实施例中,首先,根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例。具体的,参考图3所示,可以包括以下步骤:
步骤S310,根据所述位唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中所覆盖的位点数目之和;其中,所述不同测序深度包括1X、5X、10X、20X、50X以及100X中的多种;
步骤S320,根据所述位点数目之和以及所述目标病毒参考基因组序列的序列长度,计算所述覆盖比例。
以下,将对步骤S310以及步骤S320进行解释以及说明。首先,根据唯一比对数据以及目标病毒参考基因组序列,用软件samtools depth生成目标病毒参考基因组序列所有位点的测序深度(其中碱基质量值不低于20,比对质量值不低于5);其中,各位点的测序深度可以参考图4所示,然后,分别统计所有位点的测序深度总和、目标病毒参考基因组序列的序列长度、不同测序深度覆盖的目标病毒参考基因组序列的位点数目之和(测序深度包括1X、5X、10X、20X、50X、100X);进一步的,平均测序深度=所有位点测序深度总和÷参考基因组序列长度,不同测序深度下参考基因组序列覆盖比例=(不同测序深度覆盖的参考基因组序列的位点数目之和÷参考基因组序列长度)×100%。
此处需要补充说明的是,在图4所示出的各位点的测序深度的示例图中,以3'端的第一序列坐标的碱基为例,可以得知有3条待处理测序序列在该位点覆盖了该碱基,则该位点的测序深度为3,其他位点的测序深度依次类推,此处不再一一赘述。
其次,当得到覆盖比例以后,可以根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。具体的可以包括:当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于等于第四预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者;以及当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例小于第四预设阈值时,且在10X/20X/50X/100X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于第五预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者。
具体的,当得到不同测序深度下目标病毒参考基因组序列覆盖比例后,选择1X测序深度的覆盖比例为20%(第四预设阈值)作为临界值,来判断样本是否为SARS-CoV-2阳性样本,具体方法如下:
当1X测序深度的覆盖比例大于等于20%时,判断为阳性;
当1X测序深度的覆盖比例小于20%时,且100X测序深度的覆盖比例大于0(第五预设阈值)时,判断为阳性;
当1X测序深度的覆盖比例小于20%时,且50X测序深度的覆盖比例大于0时,判断为阳性;
当1X测序深度的覆盖比例小于20%时,且20X测序深度的覆盖大于0时,判断为阳性;
当1X测序深度的覆盖比例小于20%时,且10X测序深度的覆盖比例大于0时,判断为阳性;
其他情况下为阴性。
此处需要补充说明的是,参考附表1中所示出的结果可以得出,由于目标病毒参考基因组序列的相似性,在5X测序深度下,不能完全排除其他近源病毒参考基因组序列的干扰,因此,此处并不对1X比例小于20%,5X比例大于零的情况进行考虑。
图5示意性示出根据本公开示例实施例的另一种测序序列的处理方法。参考图5所示,该测序序列的处理方法可以包括以下步骤:
步骤S510,在确定与所述待处理测序序列对应的目标对象为确诊患者确定是确诊患者时,根据所述唯一比对结果以及目标病毒参考基因组序列,生成所述待处理测序序列的一致性序列;
步骤S520,对所述一致性序列进行分析,得到变异结果,并对所述变异结果进行过滤,得到所述待处理测序序列的变异信息。
以下,将对步骤S510以及步骤S520进行解释以及说明。具体的,在判断是确诊患者(样本为阳性)时,根据唯一比对数据以及目标病毒参考基因组序列,采用软件bcftoolsmpileup功能,生成阳性样本的目标病毒参考基因组序列的一致性序列,其中最小的比对质量值为10,最小的碱基质量值为20,候选indel变异中允许有空缺的读长的数目为2,有空缺的读长的最小比例为0.002,不进行比对质量值的校正;根据目标病毒单链的特征,采用bcftools call算法对一致性序列进行变异分析,并将其调整为单倍型分析模式,即ploidy1,输出vcf格式文件;对输出变异结果,进行过滤,过滤条件为QUAL值小于5,DP小于10,SnpGap为5,得到最终的变异信息。
图6示意性示出根据本公开示例实施例的另一种测序序列的处理方法。参考图6所示,该测序序列的处理方法可以包括以下步骤:
步骤S610,根据所述唯一比对数据计算所述待处理测序序列的多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目;
步骤S620,根据所述多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目,计算总比对读长的数目,并根据所述总比对读长的数目以及唯一比对读长的数目,计算所述待处理测序序列的唯一比对率;
步骤S630,根据所述唯一比对数据计算所述待处理测序序列的平均测序深度,并根据所述唯一比对率、平均测序深度以及变异信息,生成分析结果。
以下,将对步骤S610-步骤S630进行解释以及说明。首先,根据比对结果,统计多次比对读长的数目、唯一比对读长的数目和未比对读长的数目,这三者之和记作总的比对读长的数目;其中,多次比对读长的应用场景可以参考图7所示;然后,唯一比对数据,统计唯一比对读长的数目,则唯一比对率计算方式为:唯一比对率=(唯一比对读长的数目÷总的比对读长的数目)×100%;进一步的,再根据前述所得到的平均测序深度、唯一比对率、平均测序深度以及变异信息(如果是阴性,则没有变异信息),生成分析结果;进而可以将该分析结果发送至用户终端,以供用户进行查看。
此处需要补充说明的是,图7所示出的多次比对读长的应用场景中,标黑部分所显示的即为被比对两次的应用场景,当然也存在比对多次或者唯一被比对一次的情况,此处不再一一示出。
以下,结合图8对本公开示例实施例测序序列的处理方法进行进一步的解释以及说明。参考图8所示,该测序序列的处理方法可以包括以下步骤:
步骤S801,获取待检测样本的高通量测序数据;
步骤S802,对高通量测序数据进行质控,得到待处理测序序列;
步骤S803,构建目标参考基因组序列,并将待处理测序序列比对到目标参考基因组序列上,得到比对结果;
步骤S804,对比对到目标病毒基因组序列上的待处理测序序列进行排序,得到排序结果,并根据排序结果以及比对结果计算唯一比对数据;
步骤S805,根据唯一比对数据计算在不同测序深度下,待处理测序序列在目标病毒基因组序列中的覆盖比例;
步骤S806,根据覆盖比例确定是否为确诊患者(阳性);若是,跳转至步骤S807;若否,跳转至步骤S809;
步骤S807,根据唯一比对数据对待处理测序序列进行单倍体变异分析,得到变异信息;
步骤S808,根据唯一比对数据计算待处理测序序列的平均测序深度以及唯一比对率;
步骤S809,根据平均测序深度、唯一比对率和/或变异信息生成分析报告。
本公开所提供的测序序列的处理方法,在进行目标病毒检测时,与已知的Kmer方法相比,有较高的准确性,阳性符合率为97.92%(具体可以参考附表1);并且,只需要低深度的测序数据,能够准确的对高通量测序样本进行目标病毒的检测,可排除宿主及近源病毒基因组序列的干扰,不需要进行病毒序列组装;同时,能够适用于疑似患者、复阳患者等多场景,能够有效的对患者进行筛选和区分;
进一步的,本公开在进行变异分析时,其变异分析结果与测试样本的变异结果、复阳患者的变异结果一致,有较高的准确性(具体可以参附表2),可用于监测毒株变异;相比于高深度测序后进行序列组装,能够节省大量计算时间和数据量。
本公开示例实施例还提供了一种测序序列的处理装置。参考图9所示,该测序序列的处理装置可以包括参考基因组序列构建模块910、比对模块920、第一计算模块930以及覆盖比例计算模块940。其中:
参考基因组序列构建模块910可以用于根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序列以及所述目标病毒的宿主参考基因组序列,构建目标参考基因组序列;
比对模块920可以用于将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;
第一计算模块930可以用于根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据;
覆盖比例计算模块940可以用于根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
在本公开的一种示例性实施例中,所述测序序列的处理装置还包括:
预处理模块,可以用于获取待检测样本的高通量测序数据,并基于预设的过滤规则对所述高通量测序数据进行预处理,得到所述待处理测序序列;
其中,所述预设的过滤规则包括如下至少一项:
对测序接头序列进行过滤;
对碱基质量值小于第一预设阈值、在所述高通量测序数据中占比超过第二预设阈值的读长、长度小于第三预设阈值的读长的高通量测序数据进行过滤。
在本公开的一种示例性实施例中,将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,包括:
基于预设的比对算法,将所述待处理测序序列分别比对到所述目标参考基因组序列中的目标病毒参考基因组序列、宿主参考基因组序列以及其他近源病毒参考基因组序列中,得到第一子比对结果、第二子比对结果以及第三子比对结果;
根据所述第一子比对结果、第二子比对结果以及第三子比对结果,生成所述比对结果。
在本公开的一种示例性实施例中,对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果,包括:
根据所述目标病毒参考基因组序列中包括的各个碱基的坐标,对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到所述排序结果。
在本公开的一种示例性实施例中,根据所述排序结果以及比对结果计算所述目标测序序列的唯一比对数据,包括:
根据所述比对结果,判断所述待处理测序序列的测序读长是否被唯一比对到所述目标病毒参考基因组序列上;
若是,则在所述排序结果中对所述测序读长的标识进行匹配,并根据匹配结果生成所述目标测序序列的唯一比对数据。
在本公开的一种示例性实施例中,根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,包括:
根据所述位唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中所覆盖的位点数目之和;其中,所述不同测序深度包括1X、5X、10X、20X、50X以及100X中的多种;
根据所述位点数目之和以及所述目标病毒参考基因组序列的序列长度,计算所述覆盖比例。
在本公开的一种示例性实施例中,根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者,包括:
当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于等于第四预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者;以及
当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例小于第四预设阈值时,且在10X/20X/50X/100X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于第五预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者。
在本公开的一种示例性实施例中,所述测序序列的处理装置还包括:
一致性序列生成模块,可以用于在确定与所述待处理测序序列对应的目标对象为确诊患者确定是确诊患者时,根据所述唯一比对结果以及目标病毒参考基因组序列,生成所述待处理测序序列的一致性序列;
一致性序列分析模块,可以用于对所述一致性序列进行分析,得到变异结果,并对所述变异结果进行过滤,得到所述待处理测序序列的变异信息。
在本公开的一种示例性实施例中,所述测序序列的处理装置还包括:
第二计算模块,可以用于根据所述唯一比对数据计算所述待处理测序序列的多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目;
第三计算模块,可以用于根据所述多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目,计算总比对读长的数目,并根据所述总比对读长的数目以及唯一比对读长的数目,计算所述待处理测序序列的唯一比对率;
分析结果生成模块,可以用于根据所述唯一比对数据计算所述待处理测序序列的平均测序深度,并根据所述唯一比对率、平均测序深度以及变异信息,生成分析结果。
上述测序序列的生成装置中各模块的具体细节已经在对应的测序序列的生成方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030以及显示单元1040。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1010执行,使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1010可以执行如图1中所示的步骤S110:根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及所述目标病毒的宿主参考基因组序列,列构建目标参考基因组序列;步骤S120:将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;步骤S130:根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据;步骤S140:根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202,还可以进一步包括只读存储单元(ROM)10203。
存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204,这样的程序模块10205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
附表1
Figure BDA0003140755200000231
Figure BDA0003140755200000241
Figure BDA0003140755200000251
Figure BDA0003140755200000261
附表2
Figure BDA0003140755200000262
Figure BDA0003140755200000271

Claims (12)

1.一种测序序列的处理方法,其特征在于,包括:
根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序以及所述目标病毒的宿主参考基因组序列,列构建目标参考基因组序列;
将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;
根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据;
根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
2.根据权利要求1所述的测序序列的处理方法,其特征在于,所述测序序列的处理方法还包括:
获取待检测样本的高通量测序数据,并基于预设的过滤规则对所述高通量测序数据进行预处理,得到所述待处理测序序列;
其中,所述预设的过滤规则包括如下至少一项:
对测序接头序列进行过滤;
对碱基质量值小于第一预设阈值、在所述高通量测序数据中占比超过第二预设阈值的读长、长度小于第三预设阈值的读长的高通量测序数据进行过滤。
3.根据权利要求1所述的测序序列的处理方法,其特征在于,将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,包括:
基于预设的比对算法,将所述待处理测序序列分别比对到所述目标参考基因组序列中的目标病毒参考基因组序列、宿主参考基因组序列以及其他近源病毒参考基因组序列中,得到第一子比对结果、第二子比对结果以及第三子比对结果;
根据所述第一子比对结果、第二子比对结果以及第三子比对结果,生成所述比对结果。
4.根据权利要求1所述的测序序列的处理方法,其特征在于,对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果,包括:
根据所述目标病毒参考基因组序列中包括的各个碱基的坐标,对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到所述排序结果。
5.根据权利要求1所述的测序序列的处理方法,其特征在于,根据所述排序结果以及比对结果计算所述目标测序序列的唯一比对数据,包括:
根据所述比对结果,判断所述待处理测序序列的测序读长是否被唯一比对到所述目标病毒参考基因组序列上;
若是,则在所述排序结果中对所述测序读长的标识进行匹配,并根据匹配结果生成所述目标测序序列的唯一比对数据。
6.根据权利要求1所述的测序序列的处理方法,其特征在于,根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,包括:
根据所述位唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中所覆盖的位点数目之和;其中,所述不同测序深度包括1X、5X、10X、20X、50X以及100X中的多种;
根据所述位点数目之和以及所述目标病毒参考基因组序列的序列长度,计算所述覆盖比例。
7.根据权利要求1所述的测序序列的处理方法,其特征在于,根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者,包括:
当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于等于第四预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者;以及
当所述待处理测序序列在1X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例小于第四预设阈值时,且在10X/20X/50X/100X测序深度下,在所述目标病毒参考基因组序列中的覆盖比例大于第五预设阈值时,确定与所述待处理测序序列对应的目标对象为确诊患者。
8.根据权利要求7所述的测序序列的处理方法,其特征在于,所述测序序列的处理方法还包括:
在确定与所述待处理测序序列对应的目标对象为确诊患者确定是确诊患者时,根据所述唯一比对结果以及目标病毒参考基因组序列,生成所述待处理测序序列的一致性序列;
对所述一致性序列进行分析,得到变异结果,并对所述变异结果进行过滤,得到所述待处理测序序列的变异信息。
9.根据权利要求8所述的测序序列的处理方法,其特征在于,所述测序序列的处理方法还包括:
根据所述唯一比对数据计算所述待处理测序序列的多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目;
根据所述多次比对读长的数目、唯一比对读长的数目以及未比对读长的数目,计算总比对读长的数目,并根据所述总比对读长的数目以及唯一比对读长的数目,计算所述待处理测序序列的唯一比对率;
根据所述唯一比对数据计算所述待处理测序序列的平均测序深度,并根据所述唯一比对率、平均测序深度以及变异信息,生成分析结果。
10.一种测序序列的处理装置,其特征在于,包括:
参考基因组序列构建模块,用于根据目标病毒参考基因组序列、与所述目标病毒参考组基因序列对应的其他近源病毒参考基因组序列以及所述目标病毒的宿主参考基因组序列,构建目标参考基因组序列;
比对模块,用于将待处理测序序列比对到所述目标参考基因组序列中,得到比对结果,并对比对到所述目标病毒参考基因组序列上的待处理测序序列进行排序,得到排序结果;
第一计算模块,用于根据所述排序结果以及比对结果计算所述待处理测序序列的唯一比对数据;
覆盖比例计算模块,用于根据所述唯一比对数据计算所述待处理测序序列在不同测序深度下,在所述目标病毒参考基因组序列中的覆盖比例,并根据所述覆盖比例确定与所述待处理测序序列对应的目标对象是否为确诊患者。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的测序序列的处理方法。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任一项所述的测序序列的比对方法。
CN202110733835.8A 2021-06-30 2021-06-30 测序序列的处理方法及装置、存储介质、电子设备 Active CN113327646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733835.8A CN113327646B (zh) 2021-06-30 2021-06-30 测序序列的处理方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733835.8A CN113327646B (zh) 2021-06-30 2021-06-30 测序序列的处理方法及装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN113327646A true CN113327646A (zh) 2021-08-31
CN113327646B CN113327646B (zh) 2024-04-23

Family

ID=77423556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733835.8A Active CN113327646B (zh) 2021-06-30 2021-06-30 测序序列的处理方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN113327646B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116646010A (zh) * 2023-07-27 2023-08-25 深圳赛陆医疗科技有限公司 人源性病毒检测方法及装置、设备、存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270533A1 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法
US20170058365A1 (en) * 2015-09-01 2017-03-02 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US20170218465A1 (en) * 2016-01-29 2017-08-03 Washington University Compositions and methods for detecting viruses in a sample
US20180137238A1 (en) * 2016-11-15 2018-05-17 Sap Se Genomic-based virus detection
US20190080045A1 (en) * 2017-09-13 2019-03-14 The Jackson Laboratory Detection of high-resolution structural variants using long-read genome sequence analysis
WO2019047181A1 (zh) * 2017-09-08 2019-03-14 深圳华大生命科学研究院 基于低深度基因组测序进行基因分型的方法、装置及其用途
CN111009286A (zh) * 2018-10-08 2020-04-14 深圳华大因源医药科技有限公司 对宿主样本进行微生物分析的方法和装置
CN111455102A (zh) * 2020-04-09 2020-07-28 上海符贝基因科技有限公司 用于新冠病毒SARS-CoV-2基因组靶向测序的捕获探针制备方法
CN111462821A (zh) * 2020-04-10 2020-07-28 广州微远基因科技有限公司 病原微生物分析鉴定系统及应用
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
US20210102197A1 (en) * 2019-10-07 2021-04-08 The Broad Institute, Inc. Designing sensitive, specific, and optimally active binding molecules for diagnostics and therapeutics
US20210142868A1 (en) * 2019-11-12 2021-05-13 Regeneron Pharmaceuticals, Inc. Methods and systems for identifying, classifying, and/or ranking genetic sequences

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270533A1 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法
US20170058365A1 (en) * 2015-09-01 2017-03-02 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US20170218465A1 (en) * 2016-01-29 2017-08-03 Washington University Compositions and methods for detecting viruses in a sample
US20180137238A1 (en) * 2016-11-15 2018-05-17 Sap Se Genomic-based virus detection
WO2019047181A1 (zh) * 2017-09-08 2019-03-14 深圳华大生命科学研究院 基于低深度基因组测序进行基因分型的方法、装置及其用途
US20190080045A1 (en) * 2017-09-13 2019-03-14 The Jackson Laboratory Detection of high-resolution structural variants using long-read genome sequence analysis
CN111009286A (zh) * 2018-10-08 2020-04-14 深圳华大因源医药科技有限公司 对宿主样本进行微生物分析的方法和装置
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
US20210102197A1 (en) * 2019-10-07 2021-04-08 The Broad Institute, Inc. Designing sensitive, specific, and optimally active binding molecules for diagnostics and therapeutics
US20210142868A1 (en) * 2019-11-12 2021-05-13 Regeneron Pharmaceuticals, Inc. Methods and systems for identifying, classifying, and/or ranking genetic sequences
CN111455102A (zh) * 2020-04-09 2020-07-28 上海符贝基因科技有限公司 用于新冠病毒SARS-CoV-2基因组靶向测序的捕获探针制备方法
CN111462821A (zh) * 2020-04-10 2020-07-28 广州微远基因科技有限公司 病原微生物分析鉴定系统及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GAROFALO, ANDREA,等: "Deep Sequencing of Viral Cell-Free DNA for Noninvasive Detection of Immunosuppression-Related Lymphoid Malignancies", 《BLOOD》, vol. 134, pages 885, XP086664574, DOI: 10.1182/blood-2019-131602 *
孙强: "高通量测序数据中病毒基因组的生物信息学分析方法探索", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 02, pages 059 - 88 *
范航: "新发病毒性传染病病原体高通量测序数据分析", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 08, pages 078 - 1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116646010A (zh) * 2023-07-27 2023-08-25 深圳赛陆医疗科技有限公司 人源性病毒检测方法及装置、设备、存储介质
CN116646010B (zh) * 2023-07-27 2024-03-29 深圳赛陆医疗科技有限公司 人源性病毒检测方法及装置、设备、存储介质

Also Published As

Publication number Publication date
CN113327646B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
Rakocevic et al. Fast and accurate genomic analyses using genome graphs
Liu et al. CUSHAW3: sensitive and accurate base-space and color-space short-read alignment with hybrid seeding
CN107111693A (zh) 用于确定高同源性区域中的基因型的方法
CN107229841B (zh) 一种基因变异评估方法及系统
Firtina et al. BLEND: a fast, memory-efficient and accurate mechanism to find fuzzy seed matches in genome analysis
Kremer et al. Approaches for in silico finishing of microbial genome sequences
Ockendon et al. Optimization of next‐generation sequencing transcriptome annotation for species lacking sequenced genomes
CN116386718B (zh) 检测拷贝数变异的方法、设备和介质
Marchant et al. De novo transcriptome assembly for a non-model species, the blood-sucking bug Triatoma brasiliensis, a vector of Chagas disease
Govender et al. Benchmarking taxonomic classifiers with Illumina and Nanopore sequence data for clinical metagenomic diagnostic applications
US20190259468A1 (en) System and Method for Correlated Error Event Mitigation for Variant Calling
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
CN113327646B (zh) 测序序列的处理方法及装置、存储介质、电子设备
Alfonsi et al. Data-driven recombination detection in viral genomes
KR20190136765A (ko) 유전자 분석 장치 및 이를 이용한 유전자 분석 방법
Connor et al. Towards increased accuracy and reproducibility in SARS-CoV-2 next generation sequence analysis for public health surveillance
JPWO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
JP5946277B2 (ja) アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出)
Sobkowiak et al. Comparing transmission reconstruction models with Mycobacterium tuberculosis whole genome sequence data
CN110570908B (zh) 测序序列多态识别方法及装置、存储介质、电子设备
Tetikol et al. Population-specific genome graphs improve high-throughput sequencing data analysis: A case study on the Pan-African genome
KR101907650B1 (ko) 비침습적 태아 염색체 이수성 판별 방법
CN114420204B (zh) 用于预测待测基因的拷贝数的方法、计算设备和存储介质
CN110648718B (zh) 变异检测方法及装置、存储介质及电子设备
CN114708906B (zh) 用于预测体细胞变异真假的方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant