CN109935275B - 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备 - Google Patents

序列变异校验方法和装置、生产变异序列的方法和装置及电子设备 Download PDF

Info

Publication number
CN109935275B
CN109935275B CN201910202271.8A CN201910202271A CN109935275B CN 109935275 B CN109935275 B CN 109935275B CN 201910202271 A CN201910202271 A CN 201910202271A CN 109935275 B CN109935275 B CN 109935275B
Authority
CN
China
Prior art keywords
sequence
variant
variation
original
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910202271.8A
Other languages
English (en)
Other versions
CN109935275A (zh
Inventor
周淼
荆瑞琳
杜洋
李大为
玄兆伶
王海良
肖飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anouta Gene Technology Beijing Co ltd
Beijing Annoroad Medical Laboratory Co ltd
Original Assignee
Anouta Gene Technology Beijing Co ltd
Beijing Annoroad Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anouta Gene Technology Beijing Co ltd, Beijing Annoroad Medical Laboratory Co ltd filed Critical Anouta Gene Technology Beijing Co ltd
Publication of CN109935275A publication Critical patent/CN109935275A/zh
Application granted granted Critical
Publication of CN109935275B publication Critical patent/CN109935275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

公开了一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备。该序列变异校验方法包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。这样,增加了变异模拟过程的可靠性。

Description

序列变异校验方法和装置、生产变异序列的方法和装置及电 子设备
技术领域
本申请涉及序列变异数据处理领域,且更为具体地,涉及一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备。
背景技术
当前研究基因组序列之间的差异,主要基于fasta和fastq两种格式数据。对于fasta来说,有例如blast等工具,将序列比对之后进行可视化展示,便于查看两段序列之间的差异;对于fastq来说,有基于二代测序的多种变异检测工具,而此类工具的结果大多以vcf格式进行保存。
基于二代测序检测变异应用广泛,但其检测结果难以确定一个标准,所以fastq数据的模拟是很有必要的。目前已有多种变异模拟工具,其中一部分工具实现模拟fasta序列的功能,另一部分工具基于在模拟生成fasta之后,会继续基于此fasta模拟fastq数据。
因此,期望提供改进的对于序列变异检查的处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备,其能够基于原始序列和变异信息对于已变异的待校验序列进行校验或者直接生成变异序列,增加了变异模拟过程的可靠性。
根据本申请的一个方面,提供了一种序列变异校验方法,包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。在上述序列变异校验方法中,所述确定所述待校验序列的变异是否正确包括:顺序读取所述原始序列;基于所述变异信息确定所述原始序列上的每一变异区域;基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
在上述序列变异校验方法中,所述第一比对和所述第二比对均是以字符串为单位进行的。
在上述序列变异校验方法中,进一步包括:基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及,基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。
在上述序列变异校验方法中,所述第二比对进一步包括:响应于确定变异错误,记录错误序列的信息。
在上述序列变异校验方法中,所述第二比对进一步包括:确定是否存在变异相邻和/或变异重叠;以及,响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息。
在上述序列变异校验方法中,所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。
在上述序列变异校验方法中,所述第二比对包括:基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及变异指示符;基于所述变异区域的变异类型是删除型变异,以删除指示符补充所述待校验序列中与删除部分对应的区域,并与所述原始序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是插入型变异,以删除指示符补充所述原始序列中与插入部分对应的区域,并与所述待校验序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是倒序型变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及倒序指示符;以及,基于所述变异区域的变异类型是串联重复型变异,以删除指示符补充所述原始序列中与串联重复部分对应的区域,并与所述待校验序列中的相应区域以及串联重复指示符一一对应地显示。
在上述序列变异校验方法中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
根据本申请的另一方面,提供了一种生成变异序列的方法,包括:获取原始序列;获取变异信息;基于所述变异信息确定所述原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及,顺序读取所述原始序列,并生成所述变异序列,其中,针对所述原始序列上的各非变异区域段,一致地生成所述变异序列上对应的非变异字符串;针对所述原始序列上的各变异区域,基于所述变异段的变异类型生成所述变异序列上对应的变异字符串。
在上述生成变异序列的方法中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
在上述生成变异序列的方法中,所述延长段的长度不小于所述变异信息记录的所记录的删除变异中长度最长的删除变异的长度。
在上述生成变异序列的方法中,所述原始序列的序列信息包括以下的至少其中之一:目标序列段计数、目标序列段所在染色体、目标序列的起始位置与结束位置、所述原始序列的延长段的序列长度。
在上述生成变异序列的方法中,所述变异信息包括以下的至少其中之一:变异位点所在染色体、变异起始位置、变异终止位置、原始序列信息、变异后序列信息和变异类型。
根据本申请的再一方面,提供了一种序列变异校验装置,包括:原始序列获取单元,用于获取原始序列;变异信息获取单元,用于获取变异信息;待校验序列获取单元,用于获取已变异的待校验序列;以及,变异校验单元,用于基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。
在上述序列变异校验装置中,所述变异校验单元包括:序列读取子单元,用于顺序读取所述原始序列;区域确定子单元,用于基于所述变异信息确定所述原始序列上的每一变异区域;字符串确定子单元,用于基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;序列变异子单元,用于按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
在上述序列变异校验装置中,所述第一比对和所述第二比对均是以字符串为单位进行的。
在上述序列变异校验装置中,所述变异校验单元进一步包括:空位占位子单元,用于基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及,基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。
在上述序列变异校验装置中,所述序列变异子单元进行所述第二比对进一步包括:响应于确定变异错误,记录错误序列的信息。
在上述序列变异校验装置中,所述序列变异子单元进行所述第二比对进一步包括:确定是否存在变异相邻和/或变异重叠;以及,响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息。
在上述序列变异校验装置中,所述序列变异子单元进行所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。
在上述序列变异校验装置中,所述序列变异子单元进行所述第二比对包括:基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及变异指示符;基于所述变异区域的变异类型是删除型变异,以删除指示符补充所述待校验序列中与删除部分对应的区域,并与所述原始序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是插入型变异,以删除指示符补充所述原始序列中与插入部分对应的区域,并与所述待校验序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是倒序型变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及倒序指示符;以及,基于所述变异区域的变异类型是串联重复型变异,以删除指示符补充所述原始序列中与串联重复部分对应的区域,并与所述待校验序列中的相应区域以及串联重复指示符一一对应地显示。
在上述序列变异校验装置中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
根据本申请的又一方面,提供了一种生成变异序列的装置,包括:原始序列获取单元,用于获取原始序列;变异信息获取单元,用于获取变异信息;变异区域确定单元,用于基于所述变异信息确定所述原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及,变异序列生成单元,用于顺序读取所述原始序列,并生成所述变异序列,其中,针对所述原始序列上的各非变异区域段,一致地生成所述变异序列上对应的非变异字符串;针对所述原始序列上的各变异区域,基于所述变异段的变异类型生成所述变异序列上对应的变异字符串。
在上述生成变异序列的装置中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
在上述生成变异序列的装置中,所述延长段的长度不小于所述变异信息记录的所记录的删除变异中长度最长的删除变异的长度。
在上述生成变异序列的装置中,所述原始序列的序列信息包括以下的至少其中之一:目标序列段计数、目标序列段所在染色体、目标序列的起始位置与结束位置、所述原始序列的延长段的序列长度。
在上述生成变异序列的装置中,所述变异信息包括以下的至少其中之一:变异位点所在染色体、变异起始位置、变异终止位置、原始序列信息、变异后序列信息和变异类型。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的序列变异校验方法。
根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的生成变异序列的方法。
根据本申请的再一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的序列变异校验方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的生成变异序列的方法。
与现有技术相比,本申请提供的序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备可以基于原始序列和变异信息对于已变异的待校验序列进行校验或者直接生成变异序列,从而增加了变异模拟过程的可靠性。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的序列变异校验方法的流程图。
图2图示了标准格式的原始fasta序列的示意图。
图3图示了记录变异信息的标准格式文件的示意图。
图4图示了标准格式的已变异的模拟fasta序列的示意图。
图5图示了根据本申请实施例的序列变异校验方法中的校验过程的流程图。
图6图示了根据本申请实施例的序列变异校验方法中的可视化展示的示意图。
图7图示了根据本申请实施例的生成变异序列的方法的流程图。
图8图示了根据本申请实施例的序列变异校验装置的框图。
图9图示了根据本申请实施例的生成变异序列的装置的框图。
图10图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,在当前的序列模拟工具中,均是从参考基因组序列模拟变异的fasta序列。并且,在模拟变异的过程中,需要在fasta序列模拟步骤便进行校验,以保障此步骤模拟的正确性。
但是,目前不存在在模拟变异工具中单独校检模拟fasta序列的方法,也不存在以类序列比对方式可视化展示校检结果的方法。
基于上述技术问题,本申请的基本构思是基于原始序列和变异信息,直接对已变异的待校验序列进行校验,并且,通过原始序列和变异信息而可以直接进行变异模拟以生成变异序列。
具体地,本申请提供的序列变异校验方法、装置和电子设备首先获取原始序列,再获取变异信息,然后获取已变异的待校验序列,最后基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。
并且,本申请提供的生成变异序列的方法、装置和电子设备首先获取原始序列,再获取变异信息,然后基于所述变异信息确定所述原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段,最后顺序读取所述原始序列,并生成所述变异序列,其中,针对所述原始序列上的各非变异区域段,一致地生成所述变异序列上对应的非变异字符串;针对所述原始序列上的各变异区域,基于所述变异段的变异类型生成所述变异序列上对应的变异字符串。
也就是说,本申请所提供的方案可基于已知变异信息,参考原始序列和待校验序列将序列变异还原并进行检查,从而应用于模拟变异后的序列校验;另外,如果仅基于已知变异信息,可将原始序列进行变异后输出,以作为生成变异序列的方案。
值得注意的是,在本申请提供的序列变异校验方法和装置,生成变异序列的方法和装置及电子设备中,所述原始序列可以是各种类型的参考基因组序列,本申请并不意在对此进行任何限制。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性序列变异校验方法
图1图示了根据本申请实施例的序列变异校验方法的流程图。
如图1所示,根据本申请实施例的序列变异校验方法包括:S110,获取原始序列;S120,获取变异信息;S130,获取已变异的待校验序列;以及S140,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。
在步骤S110中,获取原始序列。如上所述,在本申请实施例中,所述原始序列可以是参考基因组序列,例如,基于参考基因组序列和目标BED文件截取的原始fasta序列。
图2图示了标准格式的原始fasta序列的示意图。如图2所示,fasta格式的原始序列保存未添加变异信息的原始碱基序列,范围包括模拟变异的目标区域以及其向两侧延伸的固定长度区域。Fasta文件的ID行示例为:>1:chr1:11848702:11848803:1200:102:2。
其中,ID行以>开头,以:分隔,保存信息依次为:排序完毕的目标区域计数,目标区域所在染色体,起始位置,结束位置,原始序列的侧翼碱基长度,目标区域片段长度,基因型标记(1代表仅含纯合突变的fa序列,2代表含纯合杂合突变的fa序列)。
并且,序列行以大小写区分目标区域和侧翼序列,目标区域序列全部大写,侧翼序列小写,且左右两侧的侧翼序列长度必须保持相等。序列和坐标对应,第一个大写的碱基就对应着目标区域的起始坐标。值得注意的是,如果在输入文件预处理步骤就将目标区域与侧翼序列以大小写区分输出,则无需在校验步骤再次读取目标区域BED文件,将简化后续的处理。
在步骤S120中,获取变异信息。
图3图示了记录变异信息的标准格式文件的示意图。如图3所示,所述记录变异信息的标准格式文件按照变异类型存储有针对原始fasta序列的全部变异位点信息,也就是说,提取原始fasta序列每一段目标区域上的所有变异位点并按照位置排序存储。
在图3中,chr表示字符,pos表示位置,ref表示参考,alt表示变异,varante type表示变异类型,此五列信息的值不可为空。
以下表1示出了变异类型的字符含义:
【表1】
Figure BDA0001997866340000081
以下表2示出了与图3类似的变异信息的记录文件
【表2】
Figure BDA0001997866340000091
因此,可以看到,表2中chr1发生单碱基突变,具体的,染色体1的位置1的碱基由碱基A突变为碱基T,chr2发生短插入,具体地,染色体2的位置2处的碱基C后插入了碱基“TAA”,而chr3发生短删除,具体地,染色体3的位置3处A碱基后的“TAA”删除,chr4发生倒置,也就是,位置3-6处的碱基“ATCC”发生倒置,生成GGAT序列。
在步骤S130中,获取已变异的待校验序列。
图4图示了标准格式的已变异的模拟fasta序列的示意图。如图4所示,已变异的fasta序列的ID行示例为:>1:chr1:11848702:11848803:199:1,格式和原始fasta序列的ID行一致,并且,此部分的侧翼延伸长度可缩减,无需和原始fsta保持一致。
在步骤S140中,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。
具体地,因为变异信息包括原始序列按照位置存储的所有变异区域的变异信息,在顺序读取所述原始序列时,可以基于所述变异信息确定所述原始序列上的每一变异区域。并且,由于所述变异区域在所述原始序列上分段排列,针对如上所述的以字符串形式的原始序列,可以基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串。也就是说,字符串的长度可以是根据突变位点进行分隔得到的,例如,两段突变序列之间的为非突变序列为一段字符串,两段突变序列分别为两段独立的字符串,从而,通过突变位点将一段序列分隔为非变异区域的非变异字符串和对应于变异区域的变异字符串。接下来,可以按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
图5图示了根据本申请实施例的序列变异校验方法中的校验过程的流程图。如图5所示,所述校验过程基于如图1所示的步骤S140,具体包括:S210,顺序读取所述原始序列;S220,基于所述变异信息确定所述原始序列上的每一变异区域;S230,基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;S240,按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:S250,对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及S260,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
也就是说,针对如图2和图4所示的原始序列和变异序列,对于变异区域的检查,是基于变异区域的起始和结束进行每一段目标序列字符串的切分和检查,即直接比较两个字符串是否相等,字符串的长度等于待检测变异区域的序列长度,变异检查是沿着待检测序列的碱基序列顺序,按照模拟变异信息对对应区域的序列进行检查。
因此,所述第一比对和所述第二比对均是以字符串为单位进行的。由此,相当于碱基的逐一比对,本发明通过对非变异字符串和变异字符串分别按照字符串进行比较,其中,非变异字符串直接将原始序列上的对应位置的序列与待校验序列上的相应非变异字符串进行比较,而变异字符串需要先将原始序列上的对应位置的序列添加变异信息,生成变异序列,再将生成的变异序列与变异字符串进行比较。由此,基于每个变异起始结束位点切割并处理每条序列为多字符串,再基于字符串比较的方式,将最大效率的快速检查每条序列上每个位置的碱基的正确性。
当然,本领域技术人员可以理解,如果所述原始序列和所述变异序列以其它格式的文件存储,则可以基于其它存储格式进行校验,本申请实施例并不仅限于字符串形式的比对。
另外,针对原始fasta序列和已变异的模拟fasta序列,其序列长度不同,因此需要考虑对于所有删除变异和插入变异,需要添加空位进行占位。
也就是说,在根据本申请实施例的序列变异校验方法中,进一步包括:基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及,基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。
并且,针对第二比对,还需要记录相关信息。具体地,如果确定变异错误,则需要记录错误序列的信息,以及如果确定存在变异相邻和/或变异重叠,则需要记录所述变异相邻和/或变异重叠的信息。
因此,根据本申请实施例的序列变异校验方法是通过以标准格式输入的变异信息查找到对应的参考序列和已变异序列,逐一进行比较来确定变异是否成功。
如上所述,由于序列变异包含多种变异类型,为了使得序列变异的校验更加直观,根据本申请实施例的序列变异校验方法进一步包括序列变异可视化的功能,从而对于序列比对方式可视化地展示校检结果。
具体地,针对序列中变异区域所在位置的坐标,根据坐标生成标记不同变异类型的标志,即对于不同变异类型,生成不同的标记并保存,以便输出可视化展示结果。
图6图示了根据本申请实施例的序列变异校验方法中的可视化展示的示意图。
如图6的(A)所示,针对非变异区域,可以显示为“|”的一致性指示符,以显示所述原始序列和所述已变异序列上的对应碱基一致。
也就是说,在根据本申请实施例的序列变异校验方法中,所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。
如图6的(B)所示,针对已变异区域,如果变异类型为SNV变异,可以显示为“∨”的变异指示符。这里,为了清楚,在图6的(B)中,显示了SNV变异的碱基两旁的未变异碱基。
如图6的(C)所示,针对已变异区域,如果变异类型为删除型变异,则以特定标记,例如“-”补充已变异序列中的删除部分。
如图6的(D)所示,针对已变异区域,如果变异类型为插入型变异,则以特定标记,例如“-”补充原始序列中的删除部分。
如图6的(E)所示,针对已变异区域,如果变异类型为倒序型变异,则以例如为“<=>”的标记来标识倒序区域。
如图6的(F)所示,针对已变异区域,如果变异类型为串联重复型变异,则在以特定标记,例如“-”补充原始序列中的重复部分的同时,进一步以例如为“[]”的标记来标识重复区域。
因此,在根据本申请实施例的序列变异校验方法中,所述第二比对包括:基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及变异指示符;基于所述变异区域的变异类型是删除型变异,以删除指示符补充所述待校验序列中与删除部分对应的区域,并与所述原始序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是插入型变异,以删除指示符补充所述原始序列中与插入部分对应的区域,并与所述待校验序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是倒序型变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及倒序指示符;以及,基于所述变异区域的变异类型是串联重复型变异,以删除指示符补充所述原始序列中与串联重复部分对应的区域,并与所述待校验序列中的相应区域以及串联重复指示符一一对应地显示。
这样,针对字符串形式的序列,首先对容易导致错位的插入、缺失进行标记,并同步生成对应的单独的变异标记。根据变异标记逐一比对,如果没有变异则要求相等,如果有变异则要求按规则转换后的参考序列与变异后序列相等,依据此规则操作直至序列末尾,最后生成可视化对比文件,例如,为了便于展示,每个序列按100字符/行的形式输出。
此外,还可以输出其它校验文件,例如记录是否通过校验的文件,和记录其它特定事项,例如是否存在变异相邻或者变异重叠的文件。
综上所述,根据本申请实施例的序列变异校验方法可以基于变异信息对已变异序列,例如模拟fasta序列进行检查,确认是否和变异信息对应,可应用于变异模拟时的校验。
另外,如果已变异序列以特定格式的文件,例如vcf文件形式提供,根据本申请实施例的序列变异校验方法也可以直接支持该特定格式文件下的检查,并可以将vcf文件转换为变异校检时的标准格式的变异信息文件,只是对于输入的fasta序列的ID行有一定的格式要求。
示例性生成变异序列的方法
图7图示了根据本申请实施例的生成变异序列的方法的流程图。
如图7所示,根据本申请实施例的生成变异序列的方法包括:S310,获取原始序列;S320,获取变异信息;S330,基于所述变异信息确定所述原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及S340,顺序读取所述原始序列,并生成所述变异序列,其中,针对所述原始序列上的各非变异区域段,一致地生成所述变异序列上对应的非变异字符串;针对所述原始序列上的各变异区域,基于所述变异段的变异类型生成所述变异序列上对应的变异字符串。
在一个示例中,在上述生成变异序列的方法中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
在一个示例中,在上述生成变异序列的方法中,所述延长段的长度不小于所述变异信息记录的所记录的删除变异中长度最长的删除变异的长度。
在一个示例中,在上述生成变异序列的方法中,所述原始序列的序列信息包括以下的至少其中之一:目标序列段计数、目标序列段所在染色体、目标序列的起始位置与结束位置、所述原始序列的延长段的序列长度。
在一个示例中,在上述生成变异序列的方法中,所述变异信息包括以下的至少其中之一:变异位点所在染色体、变异起始位置、变异终止位置、原始序列信息、变异后序列信息和变异类型。
这里,本领域技术人员可以理解,根据本申请实施例的生成变异序列的方法中的其它细节已经在之前的“示例性序列变异校验方法”部分中进行了说明,在此不再赘述。
示例性序列变异校验装置
图8图示了根据本申请实施例的序列变异校验装置的框图。
如图8所示,根据本申请实施例的序列变异校验装置400包括:原始序列获取单元410,用于获取原始序列;变异信息获取单元420,用于获取变异信息;待校验序列获取单元430,用于获取已变异的待校验序列;以及,变异校验单元440,用于基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。
在一个示例中,在上述序列变异校验装置400中,所述变异校验单元440包括:序列读取子单元,用于顺序读取所述原始序列;区域确定子单元,用于基于所述变异信息确定所述原始序列上的每一变异区域;字符串确定子单元,用于基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;序列变异子单元,用于按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
在一个示例中,在上述序列变异校验装置400中,所述第一比对和所述第二比对均是以字符串为单位进行的。
在一个示例中,在上述序列变异校验装置400中,所述变异校验单元440进一步包括:空位占位子单元,用于基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及,基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。
这里,本领域技术人员可以理解,所述空位占位子单元也可以不作为所述变异校验单元440的子单元,而是直接作为所述序列变异校验装置400的子单元进行空位占位。
在一个示例中,在上述序列变异校验装置400中,所述序列变异子单元进行所述第二比对进一步包括:响应于确定变异错误,记录错误序列的信息。
在一个示例中,在上述序列变异校验装置400中,所述序列变异子单元进行所述第二比对进一步包括:确定是否存在变异相邻和/或变异重叠;以及,响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息。
在一个示例中,在上述序列变异校验装置400中,所述序列变异子单元进行所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。
在一个示例中,在上述序列变异校验装置400中,所述序列变异子单元进行所述第二比对包括:基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及变异指示符;基于所述变异区域的变异类型是删除型变异,以删除指示符补充所述待校验序列中与删除部分对应的区域,并与所述原始序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是插入型变异,以删除指示符补充所述原始序列中与插入部分对应的区域,并与所述待校验序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是倒序型变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及倒序指示符;以及,基于所述变异区域的变异类型是串联重复型变异,以删除指示符补充所述原始序列中与串联重复部分对应的区域,并与所述待校验序列中的相应区域以及串联重复指示符一一对应地显示。
同样,本领域技术人员可以理解,所述序列变异校验装置400可直接包括用于可视化展示的单元,以在进行所述第一比对和所述第二比对的同时进行可视化展示。
在一个示例中,在上述序列变异校验装置400中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
这里,本领域技术人员可以理解,上述序列变异校验装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的序列变异校验方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的序列变异校验装置400可以实现在各种终端设备中,例如用于模拟序列变异的计算机等。在一个示例中,根据本申请实施例的序列变异校验装置400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该序列变异校验装置400可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该序列变异校验装置400同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该序列变异校验装置400与该终端设备也可以是分立的设备,并且该序列变异校验装置400可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性生成变异序列的装置
图9图示了根据本申请实施例的生成变异序列的装置的框图。
如图9所示,根据本申请实施例的生成变异序列的装置500包括:原始序列获取单元510,用于获取原始序列;变异信息获取单元520,用于获取变异信息;变异区域确定单元530,用于基于所述变异信息确定所述原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及,变异序列生成单元540,用于顺序读取所述原始序列,并生成所述变异序列,其中,针对所述原始序列上的各非变异区域段,一致地生成所述变异序列上对应的非变异字符串;针对所述原始序列上的各变异区域,基于所述变异段的变异类型生成所述变异序列上对应的变异字符串。
在一个示例中,在上述生成变异序列的装置500中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
在一个示例中,在上述生成变异序列的装置500中,所述延长段的长度不小于所述变异信息记录的所记录的删除变异中长度最长的删除变异的长度。
在一个示例中,在上述生成变异序列的装置500中,所述原始序列的序列信息包括以下的至少其中之一:目标序列段计数、目标序列段所在染色体、目标序列的起始位置与结束位置、所述原始序列的延长段的序列长度。
在一个示例中,在上述生成变异序列的装置500中,所述变异信息包括以下的至少其中之一:变异位点所在染色体、变异起始位置、变异终止位置、原始序列信息、变异后序列信息和变异类型。
这里,本领域技术人员可以理解,根据本申请实施例的生成变异序列的装置的其它细节与“示例性序列变异校验装置”部分中的相应细节完全相同,为了避免冗余在此不再赘述。
同样,根据本申请实施例的生成变异序列的装置500可以实现在各种终端设备中,例如用于模拟序列变异的计算机等。在一个示例中,根据本申请实施例的生成变异序列的装置500可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该生成变异序列的装置500可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该生成变异序列的装置500同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该生成变异序列的装置500与该终端设备也可以是分立的设备,并且该生成变异序列的装置500可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图10来描述根据本申请实施例的电子设备。
图10图示了根据本申请实施例的电子设备的框图。
如图10所示,电子设备10包括一个或多个处理器11和存储器12。
处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的序列变异校验方法和生成变异序列的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如原始序列、待校验序列、变异信息等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括待校验序列的校验信息以及生成的变异序列等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性序列变异校验方法”和“示例性生成变异序列的方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性序列变异校验方法”和“示例性生成变异序列的方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (16)

1.一种序列变异校验方法,其特征在于,包括:
获取原始序列,所述原始序列是未添加变异信息的原始参考基因组序列;
获取变异信息,所述变异信息包括按照变异类型的针对原始参考基因组序列的全部变异位点信息;
获取已变异的待校验序列;以及
基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确;
其中,所述确定所述待校验序列的变异是否正确包括:
顺序读取所述原始序列;
基于所述变异信息确定所述原始序列上的每一变异区域;
基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;
按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列;
其中,按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:
对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及
对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
2.根据权利要求1所述的序列变异校验方法,其特征在于,所述第一比对和所述第二比对均是以字符串为单位进行的。
3.根据权利要求1所述的序列变异校验方法,其特征在于,进一步包括:
基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及
基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。
4.根据权利要求1所述的序列变异校验方法,其特征在于,所述第一比对进一步包括:
一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。
5.根据权利要求1所述的序列变异校验方法,其特征在于,所述第二比对进一步包括:
响应于确定变异错误,记录错误序列的信息。
6.根据权利要求1所述的序列变异校验方法,其特征在于,所述第二比对进一步包括:
确定是否存在变异相邻和/或变异重叠;以及
响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息。
7.根据权利要求1所述的序列变异校验方法,其特征在于,所述第二比对包括:
基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及变异指示符;
基于所述变异区域的变异类型是删除型变异,以删除指示符补充所述待校验序列中与删除部分对应的区域,并与所述原始序列中的相应区域一一对应地显示;
基于所述变异区域的变异类型是插入型变异,以删除指示符补充所述原始序列中与插入部分对应的区域,并与所述待校验序列中的相应区域一一对应地显示;
基于所述变异区域的变异类型是倒序型变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及倒序指示符;以及
基于所述变异区域的变异类型是串联重复型变异,以删除指示符补充所述原始序列中与串联重复部分对应的区域,并与所述待校验序列中的相应区域以及串联重复指示符一一对应地显示。
8.根据权利要求2所述的序列变异校验方法,其特征在于,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
9.根据权利要求2所述的序列变异校验方法,其特征在于,获取已变异的待校验序列包括:
获取待变异的原始序列,所述待变异的原始序列是未添加变异信息的原始参考基因组序列;
获取待变异的变异信息,所述待变异的变异信息包括按照变异类型的针对原始参考基因组序列的全部变异位点信息;
基于所述待变异的变异信息确定所述待变异的原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及
顺序读取所述待变异的原始序列,并生成所述已变异的待校验序列,其中,
针对所述待变异的原始序列上的各非变异区域段,一致地生成所述已变异的待校验序列上对应的非变异字符串;
针对所述待变异的原始序列上的各变异区域,基于所述变异段的变异类型生成所述已变异的待校验序列上对应的变异字符串。
10.根据权利要求9所述的序列变异校验方法,其特征在于,所述待变异的原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。
11.根据权利要求10所述的序列变异校验方法,其特征在于,所述延长段的长度不小于所述变异信息记录的所记录的删除变异中长度最长的删除变异的长度。
12.根据权利要求9所述的序列变异校验方法,其特征在于,所述待变异的原始序列的序列信息包括以下的至少其中之一:目标序列段计数、目标序列段所在染色体、目标序列的起始位置与结束位置、所述原始序列的延长段的序列长度。
13.根据权利要求9所述的序列变异校验方法,其特征在于,所述待变异的变异信息包括以下的至少其中之一:变异位点所在染色体、变异起始位置、变异终止位置、原始序列信息、变异后序列信息和变异类型。
14.一种用于如权利要求1所述的序列变异校验方法的序列变异校验装置,其特征在于,包括:
原始序列获取单元,用于获取原始序列,所述原始序列是未添加变异信息的原始参考基因组序列;
变异信息获取单元,用于获取变异信息,所述变异信息包括按照变异类型的针对原始参考基因组序列的全部变异位点信息;
待校验序列获取单元,用于获取已变异的待校验序列;以及
变异校验单元,用于基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确;
其中,所述变异校验单元包括:
序列读取子单元,用于顺序读取所述原始序列;
区域确定子单元,用于基于所述变异信息确定所述原始序列上的每一变异区域;
字符串确定子单元,用于基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;
序列变异子单元,用于按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:
对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及
对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
15.根据权利要求14所述的序列变异校验装置,其特征在于,所述待校验序列获取单元包括:
原始序列获取子单元,用于获取待变异的原始序列,所述待变异的原始序列是未添加变异信息的原始参考基因组序列;
变异信息获取子单元,用于获取待变异的变异信息,所述待变异的变异信息包括按照变异类型的针对原始参考基因组序列的全部变异位点信息;
变异区域确定子单元,用于基于所述待变异的变异信息确定所述待变异的原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及
变异序列生成子单元,用于顺序读取所述待变异的原始序列,并生成所述已变异的待校验序列,其中,
针对所述待变异的原始序列上的各非变异区域段,一致地生成所述已变异的待校验序列上对应的非变异字符串;
针对所述待变异的原始序列上的各变异区域,基于所述变异段的变异类型生成所述已变异的待校验序列上对应的变异字符串。
16. 一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-13中任一项所述的序列变异校验方法。
CN201910202271.8A 2018-12-29 2019-03-18 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备 Active CN109935275B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018116352579 2018-12-29
CN201811635257 2018-12-29

Publications (2)

Publication Number Publication Date
CN109935275A CN109935275A (zh) 2019-06-25
CN109935275B true CN109935275B (zh) 2021-09-07

Family

ID=66987504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910202271.8A Active CN109935275B (zh) 2018-12-29 2019-03-18 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备

Country Status (1)

Country Link
CN (1) CN109935275B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112019009830A2 (pt) * 2016-11-16 2019-08-13 Illumina Inc métodos para realinhamento de leitura de dados de sequenciamento
KR102638152B1 (ko) * 2016-11-16 2024-02-16 일루미나, 인코포레이티드 서열 변이체 호출을 위한 검증 방법 및 시스템
CN108251520A (zh) * 2018-01-31 2018-07-06 杭州同欣基因科技有限公司 一种基于高通量测序技术的吸烟成瘾风险预测方法及戒烟指导方法
CN108595915B (zh) * 2018-04-16 2021-06-22 北京化工大学 一种基于dna变异检测的三代数据校正方法
CN108573125B (zh) * 2018-04-19 2022-05-13 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置

Also Published As

Publication number Publication date
CN109935275A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
Garrison et al. Variation graph toolkit improves read mapping by representing genetic variation in the reference
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
Sundquist et al. Whole-genome sequencing and assembly with high-throughput, short-read technologies
CN107944228B (zh) 一种基因测序变异位点的可视化方法
CN113496760B (zh) 基于第三代测序的多倍体基因组组装方法和装置
CN104272311A (zh) Dna序列的数据分析
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN107798216A (zh) 采用分治法进行高相似性序列的比对方法
CN108710782B (zh) 基因型转换方法、装置及电子设备
CN110310702B (zh) 一种基因组测序组装结果修复的方法、装置和存储介质
CN109935275B (zh) 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备
Bzikadze et al. Fast and accurate mapping of long reads to complete genome assemblies with VerityMap
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
US20140229114A1 (en) Genomic/proteomic sequence representation, visualization, comparison and reporting using bioinformatics character set and mapped bioinformatics font
KR102004177B1 (ko) 질병 유전자 발병 확률 보정 방법 및 그 장치
CN115831222A (zh) 一种基于三代测序的全基因组结构变异鉴定方法
Mc Cartney et al. An international virtual hackathon to build tools for the analysis of structural variants within species ranging from coronaviruses to vertebrates
CN110021357B (zh) 模拟癌症基因组测序数据生成装置
CN109920485B (zh) 对测序序列进行变异模拟的方法及其应用
CN112017731A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN111627492A (zh) 癌症基因组Hi-C数据仿真方法、装置和电子设备
CN109754845B (zh) 模拟目标疾病仿真测序文库的方法及其应用
WO2016143062A1 (ja) 配列データ解析装置、dna解析システムおよび配列データ解析方法
JPWO2021163592A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant