CN110517727B - 序列比对方法及系统 - Google Patents

序列比对方法及系统 Download PDF

Info

Publication number
CN110517727B
CN110517727B CN201910796168.0A CN201910796168A CN110517727B CN 110517727 B CN110517727 B CN 110517727B CN 201910796168 A CN201910796168 A CN 201910796168A CN 110517727 B CN110517727 B CN 110517727B
Authority
CN
China
Prior art keywords
seeds
positions
seed
sequence
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910796168.0A
Other languages
English (en)
Other versions
CN110517727A (zh
Inventor
赵健
史宏志
崔星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910796168.0A priority Critical patent/CN110517727B/zh
Priority to US17/615,580 priority patent/US20220238186A1/en
Priority to PCT/CN2019/114531 priority patent/WO2021035940A1/zh
Publication of CN110517727A publication Critical patent/CN110517727A/zh
Application granted granted Critical
Publication of CN110517727B publication Critical patent/CN110517727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种序列比对方法及系统,查找待比对序列中所有种子的候选比对位置,并在对所有种子的候选比对位置进行归一化处理后,通过位图的方式获取各种类的最长种子,然后过滤掉所有被最长种子覆盖的种子,以此减少后续需要比对的候选对比位置数量,从而极大的减少了后续比对工作的工作量,提高序列比对速度的同时保证了对比精度。

Description

序列比对方法及系统
技术领域
本发明涉及计算机技术领域,具体为一种序列比对方法及系统。
背景技术
随着生物基因检测技术的愈发成熟,已经可以实现通过提取个人基因进行基因序列比对,来预测罹患多种疾病的可能性,并锁定个人病变的基因,提前进行预防和治疗。
现有的序列比对方法包括种子查找和种子比对两个阶段,提取待比对序列read上的一系列子序列,也就是种子seed,然后查找候选比对位置(Candidate AlignmentLocation,CAL)表,找到各个seed在参考序列reference上能够精确匹配的位置,然后读取匹配位置处的碱基与read进行对比。而为了提高序列比对的精度,需要尽可能的找到待比对序列read的seed在参考序列中出现的位置,因此seed的长度通常较短。但是,这样的seed在参考序列上命中次数就会很多,现有的处理器序列比对的性能有限,序列比对速度慢,无法满足快速或实时获取基因比对结果的需求。
发明内容
本发明提供了一种序列比对方法及系统,可以解决现有技术中由于seed在参考序列上命中次数多,现有的处理器序列比对的性能有限,导致序列比对速度慢,无法满足快速或实时获取基因比对结果的需求问题。
为达到上述目的,本发明提供了如下技术方案:
一种序列比对方法,包括:
查找待比对序列中的所有种子,并根据所述种子查找候选比对位置表,确定所述所有种子在参考序列上的候选对比位置;
根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置;
根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子;
过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子;
将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果。
可选的,所述根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子,包括:
根据所述归一化的候选对比位置,通过位图的方式将所有种子在参考序列上的候选对比位置设置为1,将参考序列上除所述候选对比位置之外的位置设置为0,选取位图中不同起始位置的最长的连续1对应的种子,得到所有种类的最长种子。
可选的,在所述过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子之后,还包括:
统计各最长种子在参考序列中出现的次数;
判断所述各最长种子在参考序列中出现的次数是否小于第一预设阈值;
若判定任一最长种子在参考序列中出现的次数小于第一预设阈值,则从该最长种子拆分出包含该最长种子的中间位置碱基的种子;
若判定所述各最长种子在参考序列中出现的次数均大于或等于第一预设阈值,则执行将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果这一步骤。
可选的,所述根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置,包括:
根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置,归一化至在参考序列上与所述待比对序列的起始位置对应的候选对比位置,得到所有种子的归一化的候选对比位置。
可选的,在所述确定所述所有种子在参考序列上的候选对比位置之后,还包括:
判断各个种子在参考序列上的候选对比位置的数量是否超过第二预设阈值;
若判定任一种子在参考序列上的候选对比位置的数量超过第二预设阈值,则按照预设的间隔数从该种子的所有候选对比位置选取用于后续比对的候选对比位置;
若判定各个种子在参考序列上的候选对比位置的数量均超过第二预设阈值,则执行根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置这一步骤。
一种序列比对系统,包括:
确定单元,用于查找待比对序列中的所有种子,并根据所述种子查找候选比对位置表,确定所述所有种子在参考序列上的候选对比位置;
处理单元,用于根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置;
选取单元,用于根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子;
过滤单元,用于过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子;
比对单元,用于将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果。
可选的,所述选取单元,用于根据所述归一化的候选对比位置,通过位图的方式将所有种子在参考序列上的候选对比位置设置为1,将参考序列上除所述候选对比位置之外的位置设置为0,选取位图中不同起始位置的最长的连续1对应的种子,得到所有种类的最长种子。
可选的,所述序列比对系统,还包括:
统计单元,用于统计各最长种子在参考序列中出现的次数;
第一判断单元,用于判断所述各最长种子在参考序列中出现的次数是否小于第一预设阈值;
若判定任一最长种子在参考序列中出现的次数小于第一预设阈值,则从该最长种子拆分出包含该最长种子的中间位置碱基的种子;
若判定所述各最长种子在参考序列中出现的次数均大于或等于第一预设阈值,则执行将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果这一步骤。
可选的,所处理单元,用于根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置,归一化至在参考序列上与所述待比对序列的起始位置对应的候选对比位置,得到所有种子的归一化的候选对比位置。
可选的,所述序列比对系统,还包括:
第二判断单元,用于判断各个种子在参考序列上的候选对比位置的数量是否超过第二预设阈值;
若判定任一种子在参考序列上的候选对比位置的数量超过第二预设阈值,则按照预设的间隔数从该种子的所有候选对比位置选取用于后续比对的候选对比位置;
若判定各个种子在参考序列上的候选对比位置的数量均超过第二预设阈值,则执行根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置这一步骤。
经由上述技术方案可知,本发明公开了一种序列比对方法及系统,查找待比对序列中所有种子的候选比对位置,并在对所有种子的候选比对位置进行归一化处理后,通过位图的方式获取各种类的最长种子,然后过滤掉所有被最长种子覆盖的种子,以此减少后续需要比对的候选对比位置数量,从而极大的减少了后续比对工作的工作量,提高序列比对速度的同时保证了对比精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种序列比对方法的流程图;
图2为本发明实施例中待比对序列中的种子在参考序列上的候选对比位置的示意图;
图3为本发明实施例中被过滤掉的种子的示意图;
图4为本发明实施例中从最终种子中拆分出的包含最长种子的中间位置碱基的种子的示意图;
图5为本发明实施例公开的一种序列比对系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由背景技术可知,现有的序列比对方法包括种子查找和种子比对两个阶段,提取待比对序列read上的一系列子序列,也就是种子seed,然后查找候选比对位置(CandidateAlignment Location,CAL)表,找到各个seed在参考序列reference上能够精确匹配的位置,然后读取匹配位置处的碱基与read进行对比。而为了提高序列比对的精度,需要尽可能的找到待比对序列read的seed在参考序列中出现的位置,因此seed的长度通常较短。但是,这样的seed在参考序列上命中次数就会很多,现有的处理器序列比对的性能有限,序列比对速度慢,无法满足快速或实时获取基因比对结果的需求。
有鉴于此,本发明提供了一种序列比对方法及系统,可以解决现有技术中由于seed在参考序列上命中次数多,现有的处理器序列比对的性能有限,导致序列比对速度慢,无法满足快速或实时获取基因比对结果的需求问题。
如图1所示,本发明实施例公开了一种序列比对方法,包括以下步骤:
S101、查找待比对序列中的所有种子,并根据所述种子查找候选比对位置表,确定所述所有种子在参考序列上的候选对比位置。
需要说明的是,候选对比位置表是在序列对比过程前预先建立好的,具体方式是按照种子的长度在参考序列上逐位移位并记录其在参考序列上的相应位置,并进行哈希运算建立的,可以反映出种子在参考序列上的位置。
其中,在基因比对领域,所述参考序列是有多年积累建立的基因碱基序列样版,又称标准基因库,代表着目前已知的基因与基因效果的对应关系,通过将待比对序列与参考序列的对比可以预测待比对序列的基因效果,例如某一段基因碱基序列代表着罹患某种皮肤疾病的几率较高,而经过对比得知待比对序列与该段基因碱基序列完全相同或者相似度高于一定水平,则可以认为具有所述待比对序列的人罹患所述皮肤疾病的几率较高。
可选的,在所述确定所述所有种子在参考序列上的候选对比位置之后,还包括:
判断各个种子在参考序列上的候选对比位置的数量是否超过第二预设阈值。
若判定任一种子在参考序列上的候选对比位置的数量超过第二预设阈值,则按照预设的间隔数从该种子的所有候选对比位置选取用于后续比对的候选对比位置。
若判定各个种子在参考序列上的候选对比位置的数量均超过第二预设阈值,则执行步骤S102。
需要说明的是,在基因序列的比对工作中,如果发现任一种子在参考序列上的候选对比位置的数量过多,一般以1024个位置作为第二预设阈值,此时说明该种子代表的基因碱基序列的功能是某种基础的功能,因此会多次出现,这类种子对于疾病排查的作用很小,本身数量却很多,因此需要减少这类种子的候选比对位置的数量,以提高后续比对工作的效率。
S102、根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置。
可选的,所述根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置,包括:
根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置,归一化至在参考序列上与所述待比对序列的起始位置对应的候选对比位置,得到所有种子的归一化的候选对比位置。
需要说明的是,通过归一化运算,可以将复杂的候选对比位置关系,以待比对序列的起始位置的候选对比位置转换成相对关系,便于后续位图化处理。
具体的,若某一种子在待比对序列中的位置为n,则将该种子对应的候选对比位置减去n后,得到归一化的候选对比位置。
S103、根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子。
可选的,所述根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子,包括:
根据所述归一化的候选对比位置,通过位图的方式将所有种子在参考序列上的候选对比位置设置为1,将参考序列上除所述候选对比位置之外的位置设置为0,选取位图中不同起始位置的最长的连续1对应的种子,得到所有种类的最长种子。
需要说明的是,位图bitmap,是一种像素阵列的表示图像,可以直观的根据位深度颜色表现差别,其中,本发明才用位深度为1的位图进行处理,位深度为1的位图只有1和0两个值,分别对应着黑色和白色,可以将种子在参考序列上对应的候选对比位置设置为1,参考序列上没有对应种子的位置设置为0,这样可以通过连续的1判断出最长种子。
进一步需要说明的是,种子的类别是指以不同位置作为起始点的种子,其中,某一类种子中的最长种子是指待比对序列上以某一位置作为起始点的所有种子中最长的种子。
S104、过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子。
需要说明的是,由于序列比对的目的是在参考序列上找到与待比对序列相似度最高的序列,而同在参考序列上查找到候选比对位置的待比对序列上的种子中,较长的种子相比于较短的种子一定是能够体现更高的相似度的,因此在同起始位置,最长种子覆盖下的所有种子都是无需进行比对的,因此将最长种子覆盖下的所有种子都过滤掉,以提高后续比对工作的效率。
如图2所示,为待比对序列中的种子在参考序列上的候选对比位置的示意图,其中,CAL为候选比对序列,Seed为种子,从图中可以看到,种子在参考对比序列上能够找到相比配的候选对比位置,而其中Seed0、Seed1和Seed2由于完全被最长种子覆盖,因此将Seed0、Seed1和Seed2及它们对应的候选对比位置过滤掉,以提高后续比对效率。
具体的,如图3所示,为被过滤掉的种子的示意图。
可选的,在所述过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子之后,还包括:
统计各最长种子在参考序列中出现的次数。
判断所述各最长种子在参考序列中出现的次数是否小于第一预设阈值。
若判定任一最长种子在参考序列中出现的次数小于第一预设阈值,则从该最长种子拆分出包含该最长种子的中间位置碱基的种子。
如图4所示,为从最终种子中拆分出的包含最长种子的中间位置碱基的种子的示意图。
若判定所述各最长种子在参考序列中出现的次数均大于或等于第一预设阈值,则执行步骤S105。
需要说明的是,当发现任一最长种子在参考序列中的出现次数过少,那么可能存在两种情况,一种是确实在参考序列中就存在较少数量的候选对比位置,另一种是该最长种子是由于基因突变等因素,恰好错误的匹配到了一些候选对比位置。若是第二种情况,按照错误匹配的候选对比位置进行后续的比对工作会造成序列比对结果不准确的问题。
因此,针对第二种情况,设置第一预设阈值,一般为20次到30次之间,若判断任一最长种子在参考序列中出现的次数小于第一预设阈值,则认为该最长种子属于上述第二种情况,对该最长种子进行拆分,得到多个包含该最长种子的中间位置碱基的种子,以这些种子在参考序列上的候选对比位置进行序列比对,以保证比对工作的准确度。
其中,关于从最长种子中拆分的种子必须包含最长种子的中间位置碱基的原因,是因为根据检验,位于种子中间位置的碱基序列越能体现出基因序列的功能效果,因此为了更准确的得到比对结果,选择从最长种子中拆分的种子必须包含最长种子的中间位置碱基的方式进行拆分。
可选的,设置一个长度阈值,用于确定各种类的最长种子是否过长,若判定某一最长种子大于所述长度阈值,且在参考序列中出现的次数小于第一预设阈值,则判定该最长种子属于上述第二种情况,从该最长种子拆分出包含该最长种子的中间位置碱基的种子。
需要说明的是,在一般情况下,能够代表一个功能的基因序列段的长度都是不会超过一个长度阈值的,如果超过了该长度阈值则很大可能是发生了上述第二种情况,即发生了基因突变等情况,因此同时根据最长种子的长度和在参考序列上出现的次数判断是否对最长种子进行拆分,可以进一步保证比对工作的准确度。
S105、将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果。
本实施例公开的序列比对方法,查找待比对序列中所有种子的候选比对位置,并在对所有种子的候选比对位置进行归一化处理后,通过位图的方式获取各种类的最长种子,然后过滤掉所有被最长种子覆盖的种子,以此减少后续需要比对的候选对比位置数量,从而极大的减少了后续比对工作的工作量,提高序列比对速度的同时保证了对比精度。
基于上述本发明实施例公开的序列比对方法,图5具体公开了应用该序列比对方法的序列比对系统。
如图5所示,本发明另一实施例公开了一种序列比对系统,该系统包括:
一种序列比对系统,包括:
确定单元501,用于查找待比对序列中的所有种子,并根据所述种子查找候选比对位置表,确定所述所有种子在参考序列上的候选对比位置。
处理单元502,用于根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置。
选取单元503,用于根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子。
过滤单元504,用于过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子。
比对单元505,用于将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果。
可选的,所述选取单元503,用于根据所述归一化的候选对比位置,通过位图的方式将所有种子在参考序列上的候选对比位置设置为1,将参考序列上除所述候选对比位置之外的位置设置为0,选取位图中不同起始位置的最长的连续1对应的种子,得到所有种类的最长种子。
可选的,所述序列比对系统,还包括:
统计单元,用于统计各最长种子在参考序列中出现的次数;
第一判断单元,用于判断所述各最长种子在参考序列中出现的次数是否小于第一预设阈值。
若判定任一最长种子在参考序列中出现的次数小于第一预设阈值,则从该最长种子拆分出包含该最长种子的中间位置碱基的种子。
若判定所述各最长种子在参考序列中出现的次数均大于或等于第一预设阈值,则执行过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子这一步骤。
可选的,所处理单元502,用于根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置,归一化至在参考序列上与所述待比对序列的起始位置对应的候选对比位置,得到所有种子的归一化的候选对比位置。
可选的,所述序列比对系统,还包括:
第二判断单元,用于判断各个种子在参考序列上的候选对比位置的数量是否超过第二预设阈值。
若判定任一种子在参考序列上的候选对比位置的数量超过第二预设阈值,则按照预设的间隔数从该种子的所有候选对比位置选取用于后续比对的候选对比位置。
若判定各个种子在参考序列上的候选对比位置的数量均超过第二预设阈值,则执行根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置这一步骤。
以上本发明实施例公开的序列比对系统中的确定单元501、处理单元502、选取单元503、过滤单元504和比对单元505的具体工作过程,可参见本发明上述实施例公开的序列比对方法中的对应内容,这里不再进行赘述。
本实施例公开的序列比对系统,查找待比对序列中所有种子的候选比对位置,并在对所有种子的候选比对位置进行归一化处理后,通过位图的方式获取各种类的最长种子,然后过滤掉所有被最长种子覆盖的种子,以此减少后续需要比对的候选对比位置数量,从而极大的减少了后续比对工作的工作量,提高序列比对速度的同时保证了对比精度。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种序列比对方法,其特征在于,包括:
查找待比对序列中的所有种子,并根据所述种子查找候选比对位置表,确定所述所有种子在参考序列上的候选对比位置;
根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置,包括:根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置,归一化至在参考序列上与所述待比对序列的起始位置对应的候选对比位置,得到所有种子的归一化的候选对比位置;
根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子;
过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子;
将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果。
2.根据权利要求1所述的序列比对方法,其特征在于,所述根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子,包括:
根据所述归一化的候选对比位置,通过位图的方式将所有种子在参考序列上的候选对比位置设置为1,将参考序列上除所述候选对比位置之外的位置设置为0,选取位图中不同起始位置的最长的连续1对应的种子,得到所有种类的最长种子。
3.根据权利要求1所述的序列比对方法,其特征在于,在所述过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子之后,还包括:
统计各最长种子在参考序列中出现的次数;
判断所述各最长种子在参考序列中出现的次数是否小于第一预设阈值;
若判定任一最长种子在参考序列中出现的次数小于第一预设阈值,则从该最长种子拆分出包含该最长种子的中间位置碱基的种子;
若判定所述各最长种子在参考序列中出现的次数均大于或等于第一预设阈值,则执行将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果这一步骤。
4.根据权利要求1所述的序列比对方法,其特征在于,在所述确定所述所有种子在参考序列上的候选对比位置之后,还包括:
判断各个种子在参考序列上的候选对比位置的数量是否超过第二预设阈值;
若判定任一种子在参考序列上的候选对比位置的数量超过第二预设阈值,则按照预设的间隔数从该种子的所有候选对比位置选取用于后续比对的候选对比位置;
若判定各个种子在参考序列上的候选对比位置的数量均超过第二预设阈值,则执行根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置这一步骤。
5.一种序列比对系统,其特征在于,包括:
确定单元,用于查找待比对序列中的所有种子,并根据所述种子查找候选比对位置表,确定所述所有种子在参考序列上的候选对比位置;
处理单元,用于根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置;
选取单元,用于根据所述归一化的候选对比位置,通过位图的方式选取所有种类的最长种子;
过滤单元,用于过滤掉所有被所述所有种类的最长种子覆盖的种子,得到过滤后的种子;
比对单元,用于将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果;
所处理单元,具体用于根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置,归一化至在参考序列上与所述待比对序列的起始位置对应的候选对比位置,得到所有种子的归一化的候选对比位置。
6.根据权利要求5所述的序列比对系统,其特征在于,所述选取单元,用于根据所述归一化的候选对比位置,通过位图的方式将所有种子在参考序列上的候选对比位置设置为1,将参考序列上除所述候选对比位置之外的位置设置为0,选取位图中不同起始位置的最长的连续1对应的种子,得到所有种类的最长种子。
7.根据权利要求5所述的序列比对系统,其特征在于,还包括:
统计单元,用于统计各最长种子在参考序列中出现的次数;
第一判断单元,用于判断所述各最长种子在参考序列中出现的次数是否小于第一预设阈值;
若判定任一最长种子在参考序列中出现的次数小于第一预设阈值,则从该最长种子拆分出包含该最长种子的中间位置碱基的种子;
若判定所述各最长种子在参考序列中出现的次数均大于或等于第一预设阈值,则执行将所述过滤后的种子与所述过滤后的种子中各个种子相对应的候选对比位置进行比对,得到序列比对结果这一步骤。
8.根据权利要求5所述的序列比对系统,其特征在于,还包括:
第二判断单元,用于判断各个种子在参考序列上的候选对比位置的数量是否超过第二预设阈值;
若判定任一种子在参考序列上的候选对比位置的数量超过第二预设阈值,则按照预设的间隔数从该种子的所有候选对比位置选取用于后续比对的候选对比位置;
若判定各个种子在参考序列上的候选对比位置的数量均超过第二预设阈值,则执行根据所述所有种子在所述待比对序列中的位置,将所述所有种子在参考序列上的候选对比位置进行归一化处理,得到所有种子的归一化的候选对比位置这一步骤。
CN201910796168.0A 2019-08-23 2019-08-23 序列比对方法及系统 Active CN110517727B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910796168.0A CN110517727B (zh) 2019-08-23 2019-08-23 序列比对方法及系统
US17/615,580 US20220238186A1 (en) 2019-08-23 2019-10-31 Sequence Alignment Method and System
PCT/CN2019/114531 WO2021035940A1 (zh) 2019-08-23 2019-10-31 序列比对方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910796168.0A CN110517727B (zh) 2019-08-23 2019-08-23 序列比对方法及系统

Publications (2)

Publication Number Publication Date
CN110517727A CN110517727A (zh) 2019-11-29
CN110517727B true CN110517727B (zh) 2022-03-08

Family

ID=68628191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910796168.0A Active CN110517727B (zh) 2019-08-23 2019-08-23 序列比对方法及系统

Country Status (3)

Country Link
US (1) US20220238186A1 (zh)
CN (1) CN110517727B (zh)
WO (1) WO2021035940A1 (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793627A (zh) * 2012-10-29 2014-05-14 三星Sds株式会社 碱基序列比对系统及方法
CN105989249A (zh) * 2014-09-26 2016-10-05 叶承羲 用于组装基因组序列的方法、系统及装置
CN106599615A (zh) * 2016-11-30 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种预测miRNA靶基因的序列特征分析方法
CN107038349A (zh) * 2016-02-03 2017-08-11 深圳华大基因研究院 确定重排前v/j基因序列的方法和装置
CN107256335A (zh) * 2017-06-02 2017-10-17 肖传乐 一种基于全局种子打分优选的三代测序序列比对方法
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统
CN107798216A (zh) * 2016-09-07 2018-03-13 中央研究院 采用分治法进行高相似性序列的比对方法
CN108710784A (zh) * 2018-05-16 2018-10-26 中科政兴(上海)医疗科技有限公司 一种基因转录变异几率及变异方向的算法
CN108985008A (zh) * 2018-06-29 2018-12-11 郑州云海信息技术有限公司 一种快速比对基因数据的方法和比对系统
CN109411020A (zh) * 2018-11-01 2019-03-01 中国水产科学研究院 利用长测序读段进行全基因组序列补洞的方法
CN109841264A (zh) * 2019-01-31 2019-06-04 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
CN109887547A (zh) * 2019-03-06 2019-06-14 苏州浪潮智能科技有限公司 一种基因序列比对滤波加速处理方法、系统及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734284B2 (en) * 2013-03-15 2017-08-15 Micron Technology, Inc. Hardware acceleration of short read mapping for genomic and other types of analyses
CN109326325B (zh) * 2018-07-25 2022-02-18 郑州云海信息技术有限公司 一种基因序列比对的方法、系统及相关组件

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793627A (zh) * 2012-10-29 2014-05-14 三星Sds株式会社 碱基序列比对系统及方法
CN105989249A (zh) * 2014-09-26 2016-10-05 叶承羲 用于组装基因组序列的方法、系统及装置
CN107038349A (zh) * 2016-02-03 2017-08-11 深圳华大基因研究院 确定重排前v/j基因序列的方法和装置
CN107798216A (zh) * 2016-09-07 2018-03-13 中央研究院 采用分治法进行高相似性序列的比对方法
CN106599615A (zh) * 2016-11-30 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种预测miRNA靶基因的序列特征分析方法
CN107256335A (zh) * 2017-06-02 2017-10-17 肖传乐 一种基于全局种子打分优选的三代测序序列比对方法
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统
CN108710784A (zh) * 2018-05-16 2018-10-26 中科政兴(上海)医疗科技有限公司 一种基因转录变异几率及变异方向的算法
CN108985008A (zh) * 2018-06-29 2018-12-11 郑州云海信息技术有限公司 一种快速比对基因数据的方法和比对系统
CN109411020A (zh) * 2018-11-01 2019-03-01 中国水产科学研究院 利用长测序读段进行全基因组序列补洞的方法
CN109841264A (zh) * 2019-01-31 2019-06-04 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
CN109887547A (zh) * 2019-03-06 2019-06-14 苏州浪潮智能科技有限公司 一种基因序列比对滤波加速处理方法、系统及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《A comparison of seed-and-extend techniques in modern DNA readalignment algorithms》;Nauman Ahmed等;《2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20161231;第1421-1428页 *
《Adaptive seeds tame genomic sequence comparison》;Szymon M Kielbasa等;《GENOME RESEARCH》;20110228;第21卷(第3期);第487-493页 *
《Speeding up subset seed algorithm for intensive protein sequence comparison》;Van Hoa Nguyen等;《2008 IEEE International Conference on Research, Innovation and Vision for the Future in Computing and Communication Technologies》;20081231;第57-63页 *
《深度测序鉴定玉米病毒及感病玉米组织中小RNA分析》;陈莎;《中国博士学位论文数据库 农业科技辑》;20150815(第8期);第D046-14页 *

Also Published As

Publication number Publication date
WO2021035940A1 (zh) 2021-03-04
US20220238186A1 (en) 2022-07-28
CN110517727A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
US8881286B2 (en) Clustering processing method and device for virus files
CA2566540A1 (en) Device and method for analyzing an information signal
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN112052154A (zh) 一种测试用例的处理方法、装置
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN110889118A (zh) 异常sql语句检测方法、装置、计算机设备和存储介质
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
JP5049965B2 (ja) データ処理装置及び方法
US20220215966A1 (en) Mining method for sample grouping
CN110019762B (zh) 一种问题定位方法、存储介质和服务器
CN110517727B (zh) 序列比对方法及系统
US10776420B2 (en) Fingerprint clustering for content-based audio recognition
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN111125329A (zh) 一种文本信息筛选方法、装置及设备
CN112765118B (zh) 一种日志查询方法、装置、设备及存储介质
US20230229683A1 (en) Document search device, document search system, document search program, and document search method
JP2002024251A (ja) 時系列データの分類方法及び装置並びに時系列データの分類プログラムを記録した記録媒体
CN114816518A (zh) 基于simhash的源代码中开源成分筛选识别方法及系统
CN110837494B (zh) 一种识别病历首页未特指诊断编码错误的方法及装置
US11210605B1 (en) Dataset suitability check for machine learning
CN113268419A (zh) 测试用例优化信息的生成方法、装置、设备和存储介质
CN112733966A (zh) 一种聚类采集与识别方法、系统及存储介质
CN108563950B (zh) 基于SVM的Android恶意软件检测方法
CN106650443B (zh) 一种基于增量dbscan算法的恶意代码家族识别方法
CN111538669A (zh) 一种基于历史问题回溯分析的测试案例抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant