CN112687339B - 一种统计血浆dna片段测序数据中序列错误的方法和装置 - Google Patents

一种统计血浆dna片段测序数据中序列错误的方法和装置 Download PDF

Info

Publication number
CN112687339B
CN112687339B CN202110081405.2A CN202110081405A CN112687339B CN 112687339 B CN112687339 B CN 112687339B CN 202110081405 A CN202110081405 A CN 202110081405A CN 112687339 B CN112687339 B CN 112687339B
Authority
CN
China
Prior art keywords
umi
sequence
counting
error
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110081405.2A
Other languages
English (en)
Other versions
CN112687339A (zh
Inventor
刘涛
方欢
崔添毓
李敏
王科
易鑫
杨玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Guiinga Medical Laboratory
Original Assignee
Shenzhen Guiinga Medical Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Guiinga Medical Laboratory filed Critical Shenzhen Guiinga Medical Laboratory
Priority to CN202110081405.2A priority Critical patent/CN112687339B/zh
Publication of CN112687339A publication Critical patent/CN112687339A/zh
Application granted granted Critical
Publication of CN112687339B publication Critical patent/CN112687339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种统计血浆DNA片段测序数据中序列错误的方法和装置。本申请方法包括,读取建库过程中真实的UMI,将其作为UMI参考序列集合;统计测序数据中所有reads cycles的reads UMI错误次数以及错误碱基占当前cycle碱基的比例;统计完全测通模板的reads的序列错误信息,通过识别完全测通模板的reads的5’端UMI序列和3’端UMI序列统计每个cycle错误率。本申请方法统计的cycle错误率,可用于评估数据质量,还能在后续的聚簇纠错过程中提供数据校正碱基和碱基的质量值,给聚簇纠错和质量值校正提供先验概率,大大提高了低频突变检测准确性。

Description

一种统计血浆DNA片段测序数据中序列错误的方法和装置
技术领域
本申请涉及DNA测序数据分析技术领域,特别是涉及一种统计血浆DNA片段测序数据中序列错误的方法和装置。
背景技术
随着二代测序技术出现以来,迄今为止已经发展了十余年。在这期间技术的不断成熟,使测序向着高通量、低成本、高安全性和商业化的方向发展。在针对临床肿瘤测序应用场景中,二代测序足以满足常规全外显子和panel测序的需求。但是,对于血浆样本中高深度检测DNA片段中低频率突变还是因通量的限制和时间的制约而无法普及。近年来以NovaSeq平台和MGI平台代表的国内外高水平测序仪进一步提高了测序的通量,缩短了测序时间。这些技术上的进步为高深度血浆DNA片段低频突变提供了可能。
高深度血浆DNA片段测序检测低频突变依赖于二代测序技术,这项技术的应用场景是肿瘤的测序。由于肿瘤是高度异质性的,其中致病突变可能以极低比例存在,某些突变的比例小于0.1%-0.01%。但是,以MGISEQ-T7和NovaSeq-6000为例,在reads特定测序读长上会达到0.001%-0.002%的随机错误率,并且PCR扩增也会引入一些错误。这些错误如果不加以记录和处理会导致变异检测效果极大地降低。
为了校正这些错误的碱基,一般会引入分子条形码技术(下文称UMI)。根据每条read上的UMI标签可以把带有相同标签的reads聚簇到一起进行纠错。Reads根据比对位置和UMI序列进行聚簇,聚到一起的reads可以相互校正错误,对于reads数量较多的簇来说,效果较好。但是对于reads数量较小的簇,可能会出现难以正确纠错的情况。并且,UMI序列本身也会有测序错误的情况出现。
因此,亟需研发一种新的能够更好的进行测序数据的序列错误识别或统计的方法。
发明内容
本申请的目的是提供一种新的统计血浆DNA片段测序数据中序列错误的方法和装置。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种统计血浆DNA片段测序数据中序列错误的方法,包括以下步骤:
UMI参考序列集合构建步骤,包括读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合;
统计UMI错误步骤,包括统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例;
统计模板序列错误步骤,包括统计完全测通模板的reads的序列错误信息,根据统计UMI错误步骤的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。
本申请的血浆DNA片段是指循环核酸(cell free DNA),以下简称cfDNA。cfDNA是指循环血中游离于细胞外的部分降解了的机体内源性DNA。
需要说明的是,本申请基于高深度血浆DNA片段检测低频率突变的需求,读取建库过程中真实的UMI,将其作为UMI参考序列集合;然后,分别对UMI错误信息和模板序列错误信息进行统计,获得的序列错误信息,即真实cycle的错误率;采用本申请方法获得的序列错误信息,不仅可以用于评估数据质量,而且还能在后续的聚簇纠错过程中提供数据来校正碱基和碱基的质量值,给聚簇纠错和质量值校正提供先验概率,即,将本申请获得的真实cycle的错误率用于计算已知模板序列下观测到某种碱基的条件概率,从而使其可以更加准确地进行计算,因此本申请的方法能够大大提高变异检测的准确性,特别是提高低频突变检测的准确性。
还需要说明的是,在变异检测过程中,碱基质量值是一个十分重要的指标,对于高深度血浆DNA低频突变检测,区分测序、PCR错误和真实突变尤其重要。本申请的方法能够获得的真实cycle的错误率,采用本申请方法获得的真实cycle的错误率校正质量值之后的reads,相比未经过校正的reads更能精确地区分突变和其他错误;因此,本申请的方法能够提高低频突变检测的准确性。
本申请的一种实现方式中,统计UMI错误步骤,具体包括,先识别测序数据上5’端的UMI序列,通过另一条read的5’端的UMI序列识别3’端的UMI序列,将每个识别出来的UMI序列分类到对应的UMI参考序列中,根据每个UMI参考序列对应的reads UMI个数和错误碱基的个数计算错误率。
本申请的一种实现方式中,通过另一条read的5’端的UMI序列识别3’端的UMI序列,具体包括,通过read1的5’端的UMI序列得到read2的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read2的3’端进行识别和比较,最终得到read2的3’端的UMI序列错误信息;read1的3’端的UMI序列错误信息采用类似的方法获得,即通过read2的5’端的UMI序列得到read1的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read1的3’端进行识别和比较。
需要说明的是,本申请的测序数据类型为带有UMI序列的双端测序数据;因此,本申请是通过另一条read的5’端的UMI序列识别3’端的UMI序列,即通过read1的5’端的UMI序列得到read2的3’端的UMI序列所对应的UMI参考序列,这样可以很方便的获得3’端的UMI参考序列;当然,不排斥还可以采用其它方式获得3’端的UMI序列,在此不作具体限定。
本申请的一种实现方式中,统计模板序列错误步骤,具体包括,统计所有3’端的UMI序列的错误信息,作为整体cycle的错误率;并采用多项式曲线拟合的方式推导错误率作为补充。
需要说明的是,本申请之所以采用多项式曲线拟合的方式推导错误率作为补充,主要是考虑cycle数较小的区域。模板序列最短为20bp左右,因此采用统计所有3’端的UMI序列的错误信息作为整体cycle的错误率的方法无法得到cycle数较小的区域的错误信息,例如小于20bp的cycle无法通过统计3’端UMI的方法直接获得数据;为了应对这种情况,本申请特别通过多项式曲线拟合的方式推导cycle数较小区域的错误率。其中,多项式曲线拟合是用已知观测点来推导出未知区域的数值的方法;具体的,通过统计3’端UMI序列错误率得到的真实错误率,推导小于20bp的cycle区域的错误率。
本申请的第二方面公开了一种统计血浆DNA片段测序数据中序列错误的装置,包括UMI参考序列集合构建模块、统计UMI错误模块和统计模板序列错误模块;
UMI参考序列集合构建模块,包括用于读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合;
统计UMI错误模块,包括用于统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例;
统计模板序列错误模块,包括用于统计完全测通模板的reads的序列错误信息,根据统计UMI错误模块的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。
需要说明的是,本申请统计血浆DNA片段测序数据中序列错误的装置,实际上就是通过各模块分别实现本申请统计血浆DNA片段测序数据中序列错误的方法中的各步骤;因此,各模块的具体限定可以参考本申请统计血浆DNA片段测序数据中序列错误的方法,在此不累述。
本申请的第三方面公开了一种统计血浆DNA片段测序数据中序列错误的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请的统计血浆DNA片段测序数据中序列错误的方法。
本申请的第四方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请单的统计血浆DNA片段测序数据中序列错误的方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请统计血浆DNA片段测序数据中序列错误的方法,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率,不仅可以用于评估数据质量,而且还能在后续的聚簇纠错过程中提供数据来校正碱基和碱基的质量值,给聚簇纠错和质量值校正提供先验概率,从而使其可以更加准确地进行计算,大大提高了变异检测特别是提高低频突变检测的准确性。
附图说明
图1是本申请实施例中统计血浆DNA片段测序数据中序列错误的方法的流程框图;
图2是本申请实施例中统计血浆DNA片段测序数据中序列错误的装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
现有的错误检测或校正方法存在对reads数量较小的簇难以正确纠错,以及UMI序列本身也会有测序错误的问题。因此,本申请发明人认为,统计UMI序列的错误个数和错误率十分必要。
为了更好地处理以上问题,本申请引入当前cycle的错误率作为先验概率,用于帮助通过统计学的方法进行计算,并确定最后的碱基以及校正这个碱基的质量值。具体的,统计测序数据中所有reads cycles的错误模式,每种错误模式发生的次数以及发生错误的碱基占当前cycle碱基的比例。本发明面向的测序数据类型为带有UMI序列的双端测序数据,统计结果分为reads UMI的错误统计和reads模板序列的错误统计两个部分。其中reads模板序列的错误统计除了用于评估数据质量之外,还在下游的聚簇纠错的过程中提供数据来校正碱基和碱基的质量值,由于在变异检测过程中,碱基质量值是一个十分重要的指标,因此可以大大提高变异检测特别是低频突变检测的准确性。
基于以上研究和认识,本申请创造性的提出了一种新的统计血浆DNA片段测序数据中序列错误的方法,如图1所示,包括UMI参考序列集合构建步骤11、统计UMI错误步骤12和统计模板序列错误步骤13。
其中,UMI参考序列集合构建步骤11,包括读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合。需要说明的是,UMI参考序列集合实际上就是在测序文库构建过程中具体真实使用的UMI序列,将这些UMI序列作为参考序列,可以评估测序获得的reads UMI序列是否正确。
统计UMI错误步骤12,包括统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例。具体的,本申请的一种实现方式中,是先识别测序数据上5’端的UMI序列,通过另一条read的5’端的UMI序列识别3’端的UMI序列,将每个识别出来的UMI序列分类到对应的UMI参考序列中,根据每个UMI参考序列对应的reads UMI个数和错误碱基的个数计算错误率。其中,通过另一条read的5’端的UMI序列识别3’端的UMI序列,具体是通过read1的5’端的UMI序列得到read2的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read2的3’端进行识别和比较,最终得到read2的3’端的UMI序列错误信息;read1的3’端的UMI序列错误信息采用类似的方法获得,即通过read2的5’端的UMI序列得到read1的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read1的3’端进行识别和比较,最终得到read1的3’端的UMI序列错误信息。
统计模板序列错误步骤13,包括统计完全测通模板的reads的序列错误信息,根据统计UMI错误步骤的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。本申请的一种实现方式中,具体是统计所有3’端的UMI序列的错误信息,作为整体cycle的错误率;但是这种方法无法得到cycle数较小的区域的错误信息,因此,本申请采用多项式曲线拟合的方式推导cycle数较小区域的错误率,以此方法作为补充。
本申请基于高深度血浆DNA片段检测低频率突变的需求,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。本申请方法统计出来的错误率为下游的reads聚簇纠错以及质量值校正提供了先验概率,大大提高了低频突变检测的准确性。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的方法,本申请提出了一种统计血浆DNA片段测序数据中序列错误的装置,如图2所示,包括UMI参考序列集合构建模块21、统计UMI错误模块22和统计模板序列错误模块23。
其中,UMI参考序列集合构建模块21,包括用于读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合。
统计UMI错误模块22,包括用于统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例。
统计模板序列错误模块23,包括用于统计完全测通模板的reads的序列错误信息,根据统计UMI错误模块22的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。
本申请的装置,利用各模块相互协调作用,能够实现本申请的统计血浆DNA片段测序数据中序列错误的方法,特别是通过本申请装置的各模块能够实现本申请方法中的相应的各个步骤,从而实现自动化的统计血浆DNA片段测序数据中序列错误。
本申请的另一实现方式中还提供了一种统计血浆DNA片段测序数据中序列错误的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:UMI参考序列集合构建步骤,包括读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合;统计UMI错误步骤,包括统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例;统计模板序列错误步骤,包括统计完全测通模板的reads的序列错误信息,根据统计UMI错误步骤的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:UMI参考序列集合构建步骤,包括读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合;统计UMI错误步骤,包括统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例;统计模板序列错误步骤,包括统计完全测通模板的reads的序列错误信息,根据统计UMI错误步骤的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。
本申请的术语及其缩写含义如下:
reads数:基因组序列片段。
UMI:即Unique Molecular indentifier的缩写,是指分子条形码。
实施例
本例通过读取建库过程中真实的UMI序列文件得到测序数据可能出现的UMI,根据这些UMI构建参考序列集合。对于测序数据上5’端的UMI序列,进行识别和分类,每个识别出来的UMI会被分类到对应的参考UMI类别中,最后根据每个参考UMI所对应的reads UMI个数和错误碱基的个数计算错误率,得到的错误统计示例如表1和表2所示。
表1每种UMI分别在read1和read2的出现次数
UMI\Info R1Occurrences R2Occurrences Rate
UMI_1 100000 100000 20%
UMI_2 100000 100000 20%
UMI_3 100000 100000 20%
UMI_4 100000 100000 20%
others(没有正确匹配UMI) 100000 100000 20%
表2其中一种UMI的错误统计详细结果
Figure BDA0002909443610000071
Figure BDA0002909443610000081
表1统计了每种UMI分别在read1和read2的出现次数,其中第一列是参考UMI序列的信息,第二列和第三列分别是对应的UMI在read1和read2中出现的次数,第四列是这种UMI出现的次数占总UMI的百分数。本例仅仅展示了具有四种UMI的情况,实际的测序文库构建中可能采用更多的UMI,在此不作具体限定。
表2展示了其中一种UMI的错误统计,第一列表示参考UMI序列的碱基组成;第一行表示有可能观测到的碱基;表格里面展示的是实际观测到的碱基次数,以第二行为例:参考UMI第一个碱基为T,假设总共有1000条reads带有这个UMI并且可以有1bp容错,表格中第二行数据的意思是A、G、C、N、del分别观测到了1次,T观测到了995次。每种参考UMI都会有这样的一个表格。
3’端的UMI序列的错误统计和5’端UMI错误统计类似,只不过3’端UMI序列的识别是通过另一条read的5’端UMI完成的。具体的,通过read1的5’端UMI序列得到read2的3’端UMI所对应的参考UMI,之后根据参考UMI的长度截取read2的3’端进行识别和比较,最终得到read2的3’端UMI错误信息。对于read1的3’端错误统计来说,就是把上述步骤重复一遍,只通过识别read2的5’端UMI确定参考UMI。Reads的3’端UMI统计内容和表1和表2相同。
本例除了统计UMI错误信息之外,更加核心的功能是统计模板序列的错误,模板序列的错误统计可以给聚簇纠错和质量值校正提供先验概率来更加准确地进行计算。本例统计完全测通模板的reads的序列错误信息,对于没有测通模板的reads,不纳入本方法的统计中。对于测通模板的read1和read2,由于模板长度的不同,3’端UMI所在的cycle数不同,因此通过统计所有3’端UMI的错误信息来得到整体cycle的错误率,但是由于模板序列最短为20bp左右,因此用这种方法无法得到cycle数较小的区域的错误信息。为了应对这种情况,本例通过多项式曲线拟合的方式推导出来cycle数较小区域的错误率,具体的,通过统计3’端UMI序列错误率得到的真实错误率,推导小于20bp的cycle区域的错误率。最终统计结果的示例如表3所示。
表3整体cycle的错误率统计结果
真实\观测 A G C T N del
真实为A 0.995 0.001 0.001 0.001 0.001 0.001
真实为G 0.001 0.995 0.001 0.001 0.001 0.001
真实为C 0.001 0.001 0.995 0.001 0.001 0.001
真实为T 0.001 0.001 0.001 0.995 0.001 0.001
表3中第一列是当前cycle可能出现的碱基;第一行是当前cycle的观测到的碱基;以第二行为例:表格中展示的信息为,在这个cycle为A的情况下,观测到的数据是G、C、T、N、del的比例是0.1%,观测到A的比例是99.5%。
本例基于高深度血浆DNA片段检测低频率突变的需求,通过识别已经测通模板的reads的5’UMI序列和3’端UMI序列来统计每个cycle的错误率。本例统计出来的错误率为下游的reads聚簇纠错以及质量值校正提供了先验概率,有助于提高低频突变检测的准确性。
聚簇纠错的整个步骤分为两个步骤,第一步是将有相同比对位置以及带有相同UMI标签的序列聚集在一起。第二步是比较这一簇中所有的reads,并最终生成一条consensus read作为这一簇的聚簇结果,同时计算consensus read每一个cycle的错误率并换算成质量值。本例的方法统计出来的真实cycle的错误率会被用于聚簇纠错的第二部分。本例统计出来的cycle错误率用于计算已知模板序列下观测到某种碱基的条件概率,但是纠错的过程除了需要本例统计出来的cycle错误率之外,还需要测序数据本身的碱基质量值,参考基因组的碱基以及公共数据库的数据共同参与聚簇纠错。引入cycle错误率的目的是为了针对不同的样本进行校正。综上所述,本例方法实现的是聚簇纠错前统计真实cycle错误率的过程。
因此从理论上来说,经过质量值校正后的reads在进行突变检测过程中,相比较未经过质量值校正的reads可以为突变检测软件提供更加真实的碱基质量值。由于本例方法的目标应用场景是高深度血浆DNA低频突变检测,区分测序、PCR错误和真实突变是非常重要的。通过本例方法校正质量值之后的reads相比未经过本例方法质量值校正的reads更能精确地区分突变和其他错误。进而提高低频突变检测的准确性。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (8)

1.一种统计血浆DNA片段测序数据中序列错误的方法,其特征在于:包括以下步骤,
UMI参考序列集合构建步骤,包括读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合;
统计UMI错误步骤,包括统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例;具体包括,先识别测序数据上5’端的UMI序列,通过另一条read的5’端的UMI序列识别3’端的UMI序列,将每个识别出来的UMI序列分类到对应的UMI参考序列中,根据每个UMI参考序列对应的reads UMI个数和错误碱基的个数计算错误率;
统计模板序列错误步骤,包括统计完全测通模板的reads的序列错误信息,根据所述统计UMI错误步骤的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。
2.根据权利要求1所述的方法,其特征在于:所述统计UMI错误步骤,通过另一条read的5’端的UMI序列识别3’端的UMI序列,具体包括,通过read1的5’端的UMI序列得到read2的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read2的3’端进行识别和比较,最终得到read2的3’端的UMI序列错误信息;read1的3’端的UMI序列错误信息采用类似的方法获得,即通过read2的5’端的UMI序列得到read1的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read1的3’端进行识别和比较。
3.根据权利要求1或2所述的方法,其特征在于:所述统计模板序列错误步骤,具体包括,统计所有3’端的UMI序列的错误信息,作为整体cycle的错误率;并采用多项式曲线拟合的方式推导错误率作为补充。
4.一种统计血浆DNA片段测序数据中序列错误的装置,其特征在于:包括UMI参考序列集合构建模块、统计UMI错误模块和统计模板序列错误模块;
所述UMI参考序列集合构建模块,包括用于读取建库过程中真实的UMI序列文件,获得测序数据可能出现的UMI,根据这些UMI构建参考序列集合;
所述统计UMI错误模块,包括用于统计测序数据中所有reads cycles的reads UMI发生错误的次数以及发生错误的碱基占当前cycle碱基的比例;所述统计UMI错误模块,具体包括用于,先识别测序数据上5’端的UMI序列,通过另一条read的5’端的UMI序列识别3’端的UMI序列,将每个识别出来的UMI序列分类到对应的UMI参考序列中,根据每个UMI参考序列对应的reads UMI个数和错误碱基的个数计算错误率;
所述统计模板序列错误模块,包括用于统计完全测通模板的reads的序列错误信息,根据所述统计UMI错误模块的结果,通过识别完全测通模板的reads的5’端的UMI序列和3’端的UMI序列统计每个cycle的错误率。
5.根据权利要求4所述的装置,其特征在于:所述统计UMI错误模块,通过另一条read的5’端的UMI序列识别3’端的UMI序列,具体包括,通过read1的5’端的UMI序列得到read2的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read2的3’端进行识别和比较,最终得到read2的3’端的UMI序列错误信息;read1的3’端的UMI序列错误信息采用类似的方法获得,即通过read2的5’端的UMI序列得到read1的3’端的UMI序列所对应的UMI参考序列,然后根据UMI参考序列的长度截取read1的3’端进行识别和比较。
6.根据权利要求4或5所述的装置,其特征在于:所述统计模板序列错误模块,具体包括用于,统计所有3’端的UMI序列的错误信息,作为整体cycle的错误率;并采用多项式曲线拟合的方式推导错误率作为补充。
7.一种统计血浆DNA片段测序数据中序列错误的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-3任一项所述的方法。
8.一种计算机可读存储介质,其特征在于:所述存储介质中存储有程序,所述程序能够被处理器执行以实现权利要求1-3任一项所述的方法。
CN202110081405.2A 2021-01-21 2021-01-21 一种统计血浆dna片段测序数据中序列错误的方法和装置 Active CN112687339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110081405.2A CN112687339B (zh) 2021-01-21 2021-01-21 一种统计血浆dna片段测序数据中序列错误的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110081405.2A CN112687339B (zh) 2021-01-21 2021-01-21 一种统计血浆dna片段测序数据中序列错误的方法和装置

Publications (2)

Publication Number Publication Date
CN112687339A CN112687339A (zh) 2021-04-20
CN112687339B true CN112687339B (zh) 2021-12-14

Family

ID=75458799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110081405.2A Active CN112687339B (zh) 2021-01-21 2021-01-21 一种统计血浆dna片段测序数据中序列错误的方法和装置

Country Status (1)

Country Link
CN (1) CN112687339B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937475A (zh) * 2022-04-12 2022-08-23 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
EP3642357A1 (en) * 2017-06-20 2020-04-29 Ubiome, Inc. Method and system for library preparation with unique molecular identifiers
US11447818B2 (en) * 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
US11414656B2 (en) * 2017-12-15 2022-08-16 Grail, Inc. Methods for enriching for duplex reads in sequencing and error correction
AU2019269742A1 (en) * 2018-05-18 2020-12-03 Grail, Llc Inferring selection in white blood cell matched cell-free DNA variants and/or in RNA variants
CN109486811B (zh) * 2018-09-25 2021-07-27 华大数极生物科技(深圳)有限公司 双端分子标签接头及其用途和带有该接头的测序文库
CN110004210A (zh) * 2019-04-02 2019-07-12 杭州进一生物科技有限公司 一种用于构建细菌16S rDNA全长高通量测序文库的方法
CN110305945A (zh) * 2019-07-09 2019-10-08 中国人民解放军第四军医大学 一种基于二代测序技术的游离线粒体dna突变检测技术
CN111321209A (zh) * 2020-03-26 2020-06-23 杭州和壹基因科技有限公司 一种用于循环肿瘤dna测序数据双端矫正的方法
CN111724860B (zh) * 2020-06-18 2021-03-16 深圳吉因加医学检验实验室 一种基于测序数据识别染色质开放区域的方法及装置

Also Published As

Publication number Publication date
CN112687339A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN108690871B (zh) 基于二代测序的插入缺失突变检测方法、装置和存储介质
US20120197533A1 (en) Identifying rearrangements in a sequenced genome
CN110491441A (zh) 一种模拟人群背景信息的基因测序数据仿真系统及方法
CN108595915B (zh) 一种基于dna变异检测的三代数据校正方法
WO2017127741A1 (en) Methods and systems for high fidelity sequencing
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
IL258999A (en) Methods for detecting copy-number variations in next-generation sequencing
US20150178446A1 (en) Iterative clustering of sequence reads for error correction
CN112687339B (zh) 一种统计血浆dna片段测序数据中序列错误的方法和装置
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
CN117253539B (zh) 基于胚系突变检测高通量测序中样本污染的方法和系统
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN111210873B (zh) 基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质
CN116469462A (zh) 一种基于双重测序的超低频dna突变识别方法和装置
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
CN107688727B (zh) 生物序列聚类和全长转录组中转录本亚型识别方法和装置
CN113628682B (zh) 一种t790m和c797s顺反式突变类型识别及计算方法
CN114566214A (zh) 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用
Gong et al. SAW: An efficient and accurate data analysis workflow for Stereo-seq spatial transcriptomics
CN115331733B (zh) 空间转录组芯片的测序数据的分析方法及装置
CN104239749A (zh) 碱基序列对准系统及方法
CN115410649B (zh) 一种同时检测甲基化和突变信息的方法及装置
CN115579054B (zh) 单细胞拷贝数变异探测方法、装置、设备及介质
CN113793641B (zh) 一种从fastq文件中快速判断样本性别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant