CN115862735B - 一种核酸序列检测方法、装置、计算机设备及存储介质 - Google Patents

一种核酸序列检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115862735B
CN115862735B CN202211702249.8A CN202211702249A CN115862735B CN 115862735 B CN115862735 B CN 115862735B CN 202211702249 A CN202211702249 A CN 202211702249A CN 115862735 B CN115862735 B CN 115862735B
Authority
CN
China
Prior art keywords
sequence
nucleic acid
sequences
compared
acid sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211702249.8A
Other languages
English (en)
Other versions
CN115862735A (zh
Inventor
肖勇杰
蔡克亚
崔若鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Sikun Biological Engineering Co ltd
Original Assignee
Zhengzhou Sikun Biological Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Sikun Biological Engineering Co ltd filed Critical Zhengzhou Sikun Biological Engineering Co ltd
Priority to CN202211702249.8A priority Critical patent/CN115862735B/zh
Publication of CN115862735A publication Critical patent/CN115862735A/zh
Application granted granted Critical
Publication of CN115862735B publication Critical patent/CN115862735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开提供了一种核酸序列检测方法、装置、计算机设备及存储介质,包括:获取待比对序列;将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;其中,所述模板核酸序列是基于基因组数据库中的基因组序列确定的,所述容错核酸序列为根据各模板核酸序列确定的包含预设数量个错误碱基的核酸序列;基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果。

Description

一种核酸序列检测方法、装置、计算机设备及存储介质
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种核酸序列检测方法、装置、计算机设备及存储介质。
背景技术
二代核酸测序过程中,在完成一定数量的序列的实验后,需要将已测的序列与基因组序列进行比对,通过比对找到测得的序列在基因组序列中的位置,并计算测得的序列中所包含碱基的错误率以及比对率,实际应用中,由于同一物种的基因也有可能会存在部分变异的情况,因此在进行比对时需要考虑到容错率,这样就大大增加了比对过程中的难度,比对的速度决定了最终确定核酸测序结果的速度,因此如何实现核酸序列的快速比对显得尤为重要。
发明内容
本公开实施例至少提供一种核酸序列检测方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种核酸序列检测方法,包括:
获取待比对序列;
将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;其中,所述模板核酸序列是基于基因组数据库中的基因组序列确定的,所述容错核酸序列为根据各模板核酸序列确定的包含预设数量个错误碱基的核酸序列;
基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果。
一种可能的实施方式中,所述方法还包括根据以下方法构建所述第一数据库:
获取所述基因组数据库中的基因组序列;
按照预设步长,以及预设长度,从所述基因组序列中截取所述模板核酸序列,所述预设长度为所述模板核酸序列所包含的碱基个数。
一种可能的实施方式中,所述方法还包括根据以下方法确定所述容错核酸序列:
针对任一模板核酸序列,将该模板核酸序列中的预设数量个碱基位置的碱基分别替换为,除该碱基位置当前对应的第一碱基类型外的其他碱基类型,得到该模板核酸序列对应的容错核酸序列。
一种可能的实施方式中,所述第一数据库中的模板核酸序列通过第一哈希表中的第一编码序列表示,所述第一哈希表中存储有所述第一编码序列与序列位置信息的对应关系,所述序列位置信息用于表示在所述基因组序列中的位置;所述第二数据库中的容错核酸序列通过第二哈希表中的第二编码序列表示,所述第二哈希表存储有所述第二序列编码与序列位置信息的对应关系,所述序列位置信息用于表示所述第二编码序列对应的模板核酸序列在所述基因组序列中的位置,对应同一模板核酸序列的多个容错核酸序列的第二编码序列,在所述第二哈希表中对应的序列位置信息相同。
一种可能的实施方式中,在获取待比对序列之后,所述方法还包括:
对所述待比对序列进行编码,确定所述待比对序列对应的第三编码序列;
所述将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对,包括:
基于所述第三编码序列查询所述第一哈希表;
所述将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对,包括:
基于所述第三编码序列查询所述第二哈希表。
一种可能的实施方式中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,包括:
在查找所述第二哈希表查找成功的情况下,将查找到的第二编码序列对应的序列位置信息作为所述待比对序列在所述基因组序列中的位置信息。
一种可能的实施方式中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述方法还包括:
获取在所述待比对序列之后测序得到的待匹配碱基;
按照所述位置信息,将所述待匹配碱基与所述基因组序列进行比对确定第三比对结果,并基于所述第三比对结果对所述目标检测结果进行更新。
第二方面,本公开实施例还提供一种核酸序列检测装置,包括:
获取模块,用于获取待比对序列;
比对模块,用于将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;其中,所述模板核酸序列是基于基因组数据库中的基因组序列确定的,所述容错核酸序列为根据各模板核酸序列确定的包含预设数量个错误碱基的核酸序列;
确定模块,用于基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果。
一种可能的实施方式中,所述比对模块,还用于根据以下方法构建所述第一数据库:
获取所述基因组数据库中的基因组序列;
按照预设步长,以及预设长度,从所述基因组序列中截取所述模板核酸序列,所述预设长度为所述模板核酸序列所包含的碱基个数。
一种可能的实施方式中,所述比对模块,还用于根据以下方法确定所述容错核酸序列:
针对任一模板核酸序列,将该模板核酸序列中的预设数量个碱基位置的碱基分别替换为,除该碱基位置当前对应的第一碱基类型外的其他碱基类型,得到该模板核酸序列对应的容错核酸序列。
一种可能的实施方式中,所述第一数据库中的模板核酸序列通过第一哈希表中的第一编码序列表示,所述第一哈希表中存储有所述第一编码序列与序列位置信息的对应关系,所述序列位置信息用于表示在所述基因组序列中的位置;所述第二数据库中的容错核酸序列通过第二哈希表中的第二编码序列表示,所述第二哈希表存储有所述第二序列编码与序列位置信息的对应关系,所述序列位置信息用于表示所述第二编码序列对应的模板核酸序列在所述基因组序列中的位置,对应同一模板核酸序列的多个容错核酸序列的第二编码序列,在所述第二哈希表中对应的序列位置信息相同。
一种可能的实施方式中,在获取待比对序列之后,所述获取模块,还用于:
对所述待比对序列进行编码,确定所述待比对序列对应的第三编码序列;
所述比对模块,在将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对时,用于:
基于所述第三编码序列查询所述第一哈希表;
所述比对模块,在将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对时,用于:
基于所述第三编码序列查询所述第二哈希表。
一种可能的实施方式中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述确定模块,在基于所述第二比对结果,确定所述待比对序列对应的目标检测结果时,用于:
在查找所述第二哈希表查找成功的情况下,将查找到的第二编码序列对应的序列位置信息作为所述待比对序列在所述基因组序列中的位置信息。
一种可能的实施方式中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述确定模块,还用于:
获取在所述待比对序列之后测序得到的待匹配碱基;
按照所述位置信息,将所述待匹配碱基与所述基因组序列进行比对确定第三比对结果,并基于所述第三比对结果对所述目标检测结果进行更新。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开提供的方法,可以预先构建仅包含正确的模板核酸序列的第一数据库,以及构建包含容错核酸序列的第二数据库,容错核酸序列中包含错误碱基,在进行比对时,先将待比对序列与第一数据库中的模板核酸序列进行比对,在第一比对结果不满足第一预设条件的情况下,再与第二数据库中的容错核酸序列进行比对,这样相比较直接将所述待比对序列与正确的核酸序列和容错的核酸序列相比,提升了比对精度和比对速度。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种核酸序列检测方法的流程图;
图2示出了本公开实施例所提供的核酸序列检测方法中,构建第一数据库的方法的流程图;
图3示出了本公开实施例所提供的一种核酸序列检测装置的示意图;
图4示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
相关技术中,在将测得的序列与基因组序列进行比对时,需要预估基因组序列对应的所有可能的错误序列,然后将所述基因组序列与预估的错误序列存放至同一数据库中,然后在获得测得的序列之后,再与数据库中存放的序列进行比对。然而这种方式,在进行比对时,由于比对顺序是无法确定的,这样可能会存在测得的序列与错误的序列比对成功,但是测得的序列可能并不包含错误的碱基,从而影响比对精度。
示例性的,若a为测得的序列,a1为正确的序列,a2为错误的序列,a可能会先与a2进行比对,然后再与a1进行比对,与a2比对成功之后,则会停止比对,因此这种方式可能会影响比对精度。
基于此,本公开提供了一种核酸序列检测方法、装置、计算机设备及存储介质,可以预先构建仅包含正确的模板核酸序列的第一数据库,以及构建包含容错核酸序列的第二数据库,容错核酸序列中包含错误碱基,在进行比对时,先将待比对序列与第一数据库中的模板核酸序列进行比对,在第一比对结果不满足第一预设条件的情况下,再与第二数据库中的容错核酸序列进行比对,这样相比较直接将所述待比对序列与正确的核酸序列和容错的核酸序列相比,提升了比对精度和比对速度。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种核酸序列检测方法进行详细介绍,参见图1所示,为本公开实施例提供的核酸序列检测方法的流程图,所述方法包括步骤101~步骤103,其中:
步骤101、获取待比对序列;
步骤102、将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;
步骤103、基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果。
以下是对上述步骤的详细说明。
针对步骤101、
所述待比对序列可以是指通过基因测序方法获得的待比对序列,所述基因测序方法包括但不仅限于一代基因测序方法、二代基因测序方法、三代基因测序方法等。
所述待比对序列中可以包括多个碱基,所述多个碱基中可能包括个别错误碱基或变异碱基,因此需要将所述待比对序列进行比对,确定所述待比对序列中错误识别的碱基或变异碱基。
一种可能的实施方式中,本公开所提供的方法的执行主体可以为与测序仪相连的上位机,所述测序仪在检测到所述待比对序列之后,可以将所述待比对序列发送至所述上位机;或者本公开所提供的方法的执行主体可以为测序仪,所述测序仪在检测到所述待比对序列之后,可以直接通过本公开所提供的方法进行比对。
或者,在另外一种可能的实施方式中,所述测序仪在检测到任一碱基之后,可以将检测到的碱基发送至所述上位机,所述上位机可以根据接收的碱基类型,以及接收顺序,确定所述待比对序列。
需要说明的是,所述待比对序列可以是所述测序仪所测序列的部分序列,例如所述测序仪所测序列可能包括60个碱基,所述待比对序列可能是所述测序仪所测得的前30个碱基,所述测序仪测量所述待比对序列之后的碱基的过程,与本公开所提供的比对的过程,可以是同步进行的。
一种可选的实施方式,所述待比对序列中可以包括预设个数的碱基,当所述测序仪测量至所述预设数量的碱基之后,再执行本公开所提供的方法。
针对步骤102和103、
所述基因组数据库为包含多个物种的基因序列的数据库,所述基因组序列为所述基因组数据库中的序列,所述基因组序列可能是多个基因序列的组合,例如可以是将多个基因序列首尾连接的长序列。
实际应用中,由于基因可能会发生变异,因此测得的待比对序列可能会包含部分碱基与基因组序列中的碱基不同,但是该不同的碱基并非是由于错误检测导致的(错误检测例如可能是因为仪器误差导致的),而是由于基因变异导致的,因此,在将所述待比对序列与基因组序列进行比对时,可以允许存在部分不同的碱基。
基于此,可以预先构建第二数据库,所述第二数据库中包括多个容错核酸序列,所述容错核酸序列可以是指预估的所有可能出现的在错误允许范围内的错误序列,所述错误允许范围例如可以是指包含的错误碱基数量,例如所述容错核酸序列所包含的错误碱基的数量为预设数量。
一种可能的实施方式中,在构建所述第一数据库时,可以通过滑窗法,示例性的可以通过如图2所示的步骤:
步骤201、获取所述基因组数据库中的基因组序列。
步骤202、按照预设步长,以及预设长度,从所述基因组序列中截取所述模板核酸序列,所述预设长度为所述模板核酸序列所包含的碱基个数。
其中,所述预设步长为窗口移动时移动的碱基个数,所述预设长度可以理解为所述窗口的长度,即窗口所能包含的碱基个数。
所述第一数据库中的各模板核酸序列所包含的碱基个数,可以与所述待比对序列中所包含的碱基个数相同。
在另外一种可能的实施方式中,所述在确定所述第一比对结果时,可以将所述待比对序列直接与所述基因组序列进行比对,例如可以利用开源软件Burrows-WheelerAligner进行比对。
在将所述待比对序列与所述模板核酸序列进行比对时,示例性的可以采用字符串精准匹配算法。
构建第二数据库的过程可以理解为确定各容错核酸序列的过程。一种可能的实施方式中,在确定所述容错核酸序列时,针对任一模板核酸序列,可以将该模板核酸序列中的预设数量个碱基位置的碱基分别替换为,除该碱基位置当前对应的第一碱基类型外的其他碱基类型,得到该模板核酸序列对应的容错核酸序列。
示例性的,若模板核酸序列所包含的碱基个数为30个,预设数量为1,则该模板核酸序列可能有30个碱基位置有容错,每个位置可能的错误种类为3类,因此每个模板核酸序列所对应的容错核酸序列的个数为N*3,其中,N为模板核酸序列所包含的碱基个数。
示例性的,若模板核酸序列为ATACGA,则容错核酸序列的第一个碱基位置可能为除了A碱基外的另外三种碱基中的任意一种碱基,例如可能为TTACGA,CTACGA,GTACGA,其与碱基位置与此类似。
在一种可能的实施方式中,为了提高比对速度,可以通过查找哈希表的方式来进行比对。具体的,所述第一数据库中的模板核酸序列可以通过第一编码序列表示;所述第二数据库中的容错核酸序列可以通过第二编码序列表示;所述第一编码序列可以存储在第一哈希表中,所述第二编码序列可以存储在第二哈希表中。
具体的,在确定所述模板核酸序列对应的第一编码序列和所述容错核酸序列的第二编码序列时,可以通过预先构建的数字编码模型。
示例性的,所述数字编码模型可以将输入的核酸序列编码为编码序列,具体的编码方式示例性的可以为:分别确定各个碱基对应的编码,然后按照各个碱基在核酸序列中的位置,将各个碱基对应的编码连接,得到所述编码序列。
示例性的,若碱基类型包括腺嘌呤(A)、鸟嘌呤(T)、胞嘧啶(C)、胸腺嘧啶(G)四种类型,A用00表示,T用01表示,C用10表示,G用11表示,则核酸序列对应的编码结果可以如下表1所示:
表1
00 00 01 10 11 10 00 01 11 10
A A T C G C A T G C
即核酸序列“AATCGCATGC”对应的编码序列为“00000110111000011110”。
所述第一哈希表示例性的可以如下表2所示:
表2
Key value
seq1 pos1
seq2 pos2
seq3 pos3
Seqn posn
其中,seqk(k=1,2…n)表示在基因组序列中顺序第k个模板核酸序列的编码值。由此可知,所述第一哈希表中存储有所述第一编码序列与序列位置信息的对应关系,所述序列位置信息用于表示在所述基因组序列中的位置(所述序列位置信息如上表中posk(k1,2…n))。
所述第二哈希表示例性的可以如下表3所示:
表3
其中,seqk_j表示与第k个模板核酸序列对应的第j个容错核酸序列的编码值。由此可知,所述第二哈希表存储有所述第二序列编码与序列位置信息的对应关系,所述序列位置信息用于表示所述第二编码序列对应的模板核酸序列在所述基因组序列中的位置,对应同一模板核酸序列的多个容错核酸序列的第二编码序列,在所述第二哈希表中对应的序列位置信息相同。
通过上表3可知,所述第二哈希表为多对一的哈希表,多个核酸序列可能对应同一个位置信息。所述第二哈希表的长度由三方面决定:基因组序列的长度、模板核酸序列的长度及容错核酸序列中所包含的错误碱基个数。
相应的,在获取待比对序列之后,可以对所述待比对序列进行编码,确定所述待比对序列对应的第三编码序列,其编码方式与上述相同,在将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对时,可以基于所述第三编码序列查询所述第一哈希表,在将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对时,可以基于所述第三编码序列查询所述第二哈希表。
使用这种基于哈希表的比对方法,可以实现较高性能的基因对比。
步骤103中,所述目标检测结果可以用于表征本次比对结果是否成功,若比对成功,所述目标检测结果可以包括所述待比对序列在所述基因组序列中的位置信息,或者,所述目标检测结果还可以包括基于多个待比对序列对应的第一比对结果和/或第二比对结果确定的比对率、错误率等。
一种可能的实施方式中,在基于所述第二比对结果,确定所述待比对序列对应的目标检测结果时,示例性的可以在查找所述第二哈希表查找成功的情况下,将查找到的第二编码序列对应的序列位置信息作为所述待比对序列在所述基因组序列中的位置信息。
这里,所述第二比对结果例如可以是指是否查找成功。
由于所述第二数据库中存储的容错核酸序列已经提前预估了所有可能发生变异的碱基,因此若查找不成功,则说明待比对序列中所包含的碱基除了发生变异的碱基外,还可能包含错误识别的碱基,所述待比对序列的误差较大。在另外一种可能的实施方式中,在将所述待比对序列与所述第一数据库中的各模板核酸序列进行比对确定第一比对结果之后,所述第一比对结果可能满足所述第一预设条件。在这种情况下,则可以直接基于所述第一比对结果确定所述目标检测结果。
具体的,所述第一比对结果可以表示所述第一哈希表是否查找成功,若查找成功,则可以直接将查找到的序列位置信息作为所述目标检测结果中的位置信息,若查找不成功,则可以再确定第二比对结果。
一种可能的场景中,测序过程和上述比对过程可能是同步进行的,因此在另外一种可能的实施方式中,在确定所述待比对序列在所述基因组序列中的位置信息之后,还可以获取在所述比对序列之后测序得到的待匹配碱基,然后按照所述位置信息,将所述待匹配碱基与所述基因组序列进行比对确定第三比对结果,并基于所述第三比对结果对所述目标检测结果进行更新。
所述确定第三比对结果,可以是指将所述待匹配碱基与所述基因组序列中所述位置信息之后的碱基进行比对,在一种可能的实施方式中,所述第三比对结果可以是指所述待比对序列之后测序得到的M个待匹配碱基与所述基因组序列中所述位置信息之后的M个碱基之间的比对结果,M为素数待比对序列中所包含的碱基个数。
所述基于所述第三比对结果对所述目标检测结果进行更新,示例性的,可以是指对所述在所述第三比对结果中,错误碱基的个数超过所述预设数量之后,确定所述目标检测结果为比对失败。
或者,在另外一种可能的实施方式中,在确定所述待比对序列之后,可以获取所述待比对序列之后的另一待比对序列,所述待比对序列与所述待比对序列之后的序列来源于同一序列。
这样,在对所述另一待比对序列进行比对时,可以延续所述位置信息,与所述基因组序列的所述位置信息之后的序列进行比对。
本公开提供的方法,可以预先构建仅包含正确的模板核酸序列的第一数据库,以及构建包含容错核酸序列的第二数据库,容错核酸序列中包含错误碱基,在进行比对时,先将待比对序列与第一数据库中的模板核酸序列进行比对,在第一比对结果不满足第一预设条件的情况下,再与第二数据库中的容错核酸序列进行比对,这样相比较直接将所述待比对序列与正确的核酸序列和容错的核酸序列相比,提升了比对精度。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与核酸序列检测方法对应的核酸序列检测装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述核酸序列检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图3所示,为本公开实施例提供的一种核酸序列检测装置的架构示意图,所述装置包括:获取模块301、比对模块302、确定模块303;其中,
获取模块301,用于获取待比对序列;
比对模块302,用于将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;其中,所述模板核酸序列是基于基因组数据库中的基因组序列确定的,所述容错核酸序列为根据各模板核酸序列确定的包含预设数量个错误碱基的核酸序列;
确定模块303,用于基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果。
一种可能的实施方式中,所述比对模块302,还用于根据以下方法构建所述第一数据库:
获取所述基因组数据库中的基因组序列;
按照预设步长,以及预设长度,从所述基因组序列中截取所述模板核酸序列,所述预设长度为所述模板核酸序列所包含的碱基个数。
一种可能的实施方式中,所述比对模块302,还用于根据以下方法确定所述容错核酸序列:
针对任一模板核酸序列,将该模板核酸序列中的预设数量个碱基位置的碱基分别替换为,除该碱基位置当前对应的第一碱基类型外的其他碱基类型,得到该模板核酸序列对应的容错核酸序列。
一种可能的实施方式中,所述第一数据库中的模板核酸序列通过第一哈希表中的第一编码序列表示,所述第一哈希表中存储有所述第一编码序列与序列位置信息的对应关系,所述序列位置信息用于表示在所述基因组序列中的位置;所述第二数据库中的容错核酸序列通过第二哈希表中的第二编码序列表示,所述第二哈希表存储有所述第二序列编码与序列位置信息的对应关系,所述序列位置信息用于表示所述第二编码序列对应的模板核酸序列在所述基因组序列中的位置,对应同一模板核酸序列的多个容错核酸序列的第二编码序列,在所述第二哈希表中对应的序列位置信息相同。
一种可能的实施方式中,在获取待比对序列之后,所述获取模块301,还用于:
对所述待比对序列进行编码,确定所述待比对序列对应的第三编码序列;
所述比对模块302,在将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对时,用于:
基于所述第三编码序列查询所述第一哈希表;
所述比对模块302,在将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对时,用于:
基于所述第三编码序列查询所述第二哈希表。
一种可能的实施方式中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述确定模块303,在基于所述第二比对结果,确定所述待比对序列对应的目标检测结果时,用于:
在查找所述第二哈希表查找成功的情况下,将查找到的第二编码序列对应的序列位置信息作为所述待比对序列在所述基因组序列中的位置信息。
一种可能的实施方式中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述确定模块303,还用于:
获取在所述待比对序列之后测序得到的待匹配碱基;
按照所述位置信息,将所述待匹配碱基与所述基因组序列进行比对确定第三比对结果,并基于所述第三比对结果对所述目标检测结果进行更新。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图4所示,为本公开实施例提供的计算机设备400的结构示意图,包括处理器401、存储器402、和总线403。其中,存储器402用于存储执行指令,包括内存4021和外部存储器4022;这里的内存4021也称内存储器,用于暂时存放处理器401中的运算数据,以及与硬盘等外部存储器4022交换的数据,处理器401通过内存4021与外部存储器4022进行数据交换,当计算机设备400运行时,处理器401与存储器402之间通过总线403通信,使得处理器401在执行以下指令:
获取待比对序列;
将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;其中,所述模板核酸序列是基于基因组数据库中的基因组序列确定的,所述容错核酸序列为根据各模板核酸序列确定的包含预设数量个错误碱基的核酸序列;
基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果。
一种可能的实施方式中,处理器401执行的指令中,所述方法还包括根据以下方法构建所述第一数据库:
获取所述基因组数据库中的基因组序列;
按照预设步长,以及预设长度,从所述基因组序列中截取所述模板核酸序列,所述预设长度为所述模板核酸序列所包含的碱基个数。
一种可能的实施方式中,处理器401执行的指令中,还包括根据以下方法确定所述容错核酸序列:
针对任一模板核酸序列,将该模板核酸序列中的预设数量个碱基位置的碱基分别替换为,除该碱基位置当前对应的第一碱基类型外的其他碱基类型,得到该模板核酸序列对应的容错核酸序列。
一种可能的实施方式中,处理器401执行的指令中,所述第一数据库中的模板核酸序列通过第一哈希表中的第一编码序列表示,所述第一哈希表中存储有所述第一编码序列与序列位置信息的对应关系,所述序列位置信息用于表示在所述基因组序列中的位置;所述第二数据库中的容错核酸序列通过第二哈希表中的第二编码序列表示,所述第二哈希表存储有所述第二序列编码与序列位置信息的对应关系,所述序列位置信息用于表示所述第二编码序列对应的模板核酸序列在所述基因组序列中的位置,对应同一模板核酸序列的多个容错核酸序列的第二编码序列,在所述第二哈希表中对应的序列位置信息相同。
一种可能的实施方式中,处理器401执行的指令中,在获取待比对序列之后,所述方法还包括:
对所述待比对序列进行编码,确定所述待比对序列对应的第三编码序列;
所述将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对,包括:
基于所述第三编码序列查询所述第一哈希表;
所述将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对,包括:
基于所述第三编码序列查询所述第二哈希表。
一种可能的实施方式中,处理器401执行的指令中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,包括:
在查找所述第二哈希表查找成功的情况下,将查找到的第二编码序列对应的序列位置信息作为所述待比对序列在所述基因组序列中的位置信息。
一种可能的实施方式中,处理器401执行的指令中,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
处理器401执行的指令中,还包括:
获取在所述待比对序列之后测序得到的待匹配碱基;
按照所述位置信息,将所述待匹配碱基与所述基因组序列进行比对确定第三比对结果,并基于所述第三比对结果对所述目标检测结果进行更新。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的核酸序列检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的核酸序列检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种核酸序列检测方法,其特征在于,包括:
获取待比对序列,所述待比对序列为所测序列的部分序列;
将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;其中,所述模板核酸序列是基于基因组数据库中的基因组序列确定的,所述容错核酸序列为根据各模板核酸序列确定的包含预设数量个错误碱基的核酸序列;
基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果;所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
获取在所述待比对序列之后测序得到的待匹配碱基;
按照所述位置信息,将所述待匹配碱基与所述基因组序列进行比对确定第三比对结果,并基于所述第三比对结果对所述目标检测结果进行更新。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括根据以下方法构建所述第一数据库:
获取所述基因组数据库中的基因组序列;
按照预设步长,以及预设长度,从所述基因组序列中截取所述模板核酸序列,所述预设长度为所述模板核酸序列所包含的碱基个数。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括根据以下方法确定所述容错核酸序列:
针对任一模板核酸序列,将该模板核酸序列中的预设数量个碱基位置的碱基分别替换为,除该碱基位置当前对应的第一碱基类型外的其他碱基类型,得到该模板核酸序列对应的容错核酸序列。
4.根据权利要求1所述的方法,其特征在于,所述第一数据库中的模板核酸序列通过第一哈希表中的第一编码序列表示,所述第一哈希表中存储有所述第一编码序列与序列位置信息的对应关系,所述序列位置信息用于表示在所述基因组序列中的位置;所述第二数据库中的容错核酸序列通过第二哈希表中的第二编码序列表示,所述第二哈希表存储有所述第二编码序列与序列位置信息的对应关系,所述序列位置信息用于表示所述第二编码序列对应的模板核酸序列在所述基因组序列中的位置,对应同一模板核酸序列的多个容错核酸序列的第二编码序列,在所述第二哈希表中对应的序列位置信息相同。
5.根据权利要求4所述的方法,其特征在于,在获取待比对序列之后,所述方法还包括:
对所述待比对序列进行编码,确定所述待比对序列对应的第三编码序列;
所述将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对,包括:
基于所述第三编码序列查询所述第一哈希表;
所述将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对,包括:
基于所述第三编码序列查询所述第二哈希表。
6.根据权利要求4或5所述的方法,其特征在于,所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;
所述基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,包括:
在查找所述第二哈希表查找成功的情况下,将查找到的第二编码序列对应的序列位置信息作为所述待比对序列在所述基因组序列中的位置信息。
7.一种核酸序列检测装置,其特征在于,包括:
获取模块,用于获取待比对序列,所述待比对序列为所测序列的部分序列;
比对模块,用于将所述待比对序列与预先构建的第一数据库中的模板核酸序列进行比对确定第一比对结果,在所述第一比对结果不满足第一预设条件的情况下,将所述待比对序列与预先构建的第二数据库中的容错核酸序列进行比对确定第二比对结果;其中,所述模板核酸序列是基于基因组数据库中的基因组序列确定的,所述容错核酸序列为根据各模板核酸序列确定的包含预设数量个错误碱基的核酸序列;
确定模块,用于基于所述第二比对结果,确定所述待比对序列对应的目标检测结果,所述目标检测结果用于表征测序结果;所述目标检测结果包括所述待比对序列在所述基因组序列中的位置信息;获取在所述待比对序列之后测序得到的待匹配碱基;按照所述位置信息,将所述待匹配碱基与所述基因组序列进行比对确定第三比对结果,并基于所述第三比对结果对所述目标检测结果进行更新。
8.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一项所述的核酸序列检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一项所述的核酸序列检测方法的步骤。
CN202211702249.8A 2022-12-28 2022-12-28 一种核酸序列检测方法、装置、计算机设备及存储介质 Active CN115862735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211702249.8A CN115862735B (zh) 2022-12-28 2022-12-28 一种核酸序列检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211702249.8A CN115862735B (zh) 2022-12-28 2022-12-28 一种核酸序列检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115862735A CN115862735A (zh) 2023-03-28
CN115862735B true CN115862735B (zh) 2024-02-27

Family

ID=85655684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211702249.8A Active CN115862735B (zh) 2022-12-28 2022-12-28 一种核酸序列检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115862735B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201237223A (en) * 2011-03-04 2012-09-16 Hsueh-Ting Chu System and method of assembling DNA reads
CN103810402A (zh) * 2014-02-25 2014-05-21 北京诺禾致源生物信息科技有限公司 用于基因组的数据处理方法和装置
EP2759952A1 (en) * 2013-01-28 2014-07-30 Hasso-Plattner-Institut für Softwaresystemtechnik GmbH Efficient genomic read alignment in an in-memory database
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN105671150A (zh) * 2016-01-29 2016-06-15 江汉大学 一种人体微生物定性与定量的检测方法
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060286566A1 (en) * 2005-02-03 2006-12-21 Helicos Biosciences Corporation Detecting apparent mutations in nucleic acid sequences

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201237223A (en) * 2011-03-04 2012-09-16 Hsueh-Ting Chu System and method of assembling DNA reads
EP2759952A1 (en) * 2013-01-28 2014-07-30 Hasso-Plattner-Institut für Softwaresystemtechnik GmbH Efficient genomic read alignment in an in-memory database
CN103810402A (zh) * 2014-02-25 2014-05-21 北京诺禾致源生物信息科技有限公司 用于基因组的数据处理方法和装置
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN105671150A (zh) * 2016-01-29 2016-06-15 江汉大学 一种人体微生物定性与定量的检测方法
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统

Also Published As

Publication number Publication date
CN115862735A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
Tofigh et al. Simultaneous identification of duplications and lateral gene transfers
CN105243297A (zh) 一种参考基因组上基因序列片段的快速比对定位方法
US20150178446A1 (en) Iterative clustering of sequence reads for error correction
CN106485261A (zh) 一种图像识别的方法和装置
CN107015952B (zh) 一种后缀数组和最长公共前缀的正确性验证方法及系统
Pan et al. OMGS: optical map-based genome scaffolding
CN115862735B (zh) 一种核酸序列检测方法、装置、计算机设备及存储介质
CN109074429A (zh) 基因组变异检测方法、装置及终端
Chung et al. FADU: a quantification tool for prokaryotic transcriptomic analyses
Esser et al. A faster algorithm for finding closest pairs in hamming metric
CN111949641B (zh) 一种多级平台间数据清洗与同步方法及系统
US20130041593A1 (en) Method for fast and accurate alignment of sequences
US10971249B2 (en) Systems and methods for off-target sequence detection
CN112669902B (zh) 检测基因组结构变异的方法、计算设备和存储介质
He et al. Inference of RNA structural contacts by direct coupling analysis
Wang et al. EARRINGS: an efficient and accurate adapter trimmer entails no a priori adapter sequences
Zhao et al. An efficient hybrid approach to correcting errors in short reads
US20120330563A1 (en) Assembly Error Detection
WO2009067823A1 (en) Method and computer system for assessing classification annotations assigned to dna sequences
CN109495333B (zh) 检测处理的方法、设备及网络设备
Alatabbi et al. Querying highly similar structured sequences via binary encoding and word level operations
WO2019199218A1 (en) Determination of frequency distribution of nucleotide sequence variants
CN109739864B (zh) 人社数据采集及共享方法、计算机存储介质及计算机设备
CN113257363B (zh) 一种系谱的校正方法及装置
CN118335203A (zh) 面向大规模基因组数据的冠状病毒重组检测方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant