CN107844684A - 基因序列比对方法和装置 - Google Patents

基因序列比对方法和装置 Download PDF

Info

Publication number
CN107844684A
CN107844684A CN201610826144.1A CN201610826144A CN107844684A CN 107844684 A CN107844684 A CN 107844684A CN 201610826144 A CN201610826144 A CN 201610826144A CN 107844684 A CN107844684 A CN 107844684A
Authority
CN
China
Prior art keywords
sequence
compared
subsequence
index
index value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610826144.1A
Other languages
English (en)
Other versions
CN107844684B (zh
Inventor
陈建平
熊军
支朋超
刘凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MGI Tech Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN201610826144.1A priority Critical patent/CN107844684B/zh
Publication of CN107844684A publication Critical patent/CN107844684A/zh
Application granted granted Critical
Publication of CN107844684B publication Critical patent/CN107844684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基因序列比对方法和装置,该基因序列比对方法包括获取待比对序列中预设长度子序列的索引值;根据索引值从参考基因序列中读取对应的比对序列;判断待比对序列和比对序列是否相同,得到判断结果;根据判断结果对待比对序列进行比对。通过本发明能够有效提升基因序列比对效率,提升用户体验。

Description

基因序列比对方法和装置
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基因序列比对方法和装置。
背景技术
基因序列是包含ACGT四种碱基的长字符串,例如,人的基因序列有大概30亿个碱基。短基因序列只包含几十到几百个碱基,短基因序列是由基因序列打碎用测序仪测量得到的。在基因序列比对的一些应用场景下,需要将短基因序列回帖到参考基因序列中去,找出短基因序列在参考基因序列中的位置,及两者间差异(例如,测量误差以及短基因序列和参考基因序列存在的差异)。
相关技术中,通过高通量测序序列比对软件对参考基因序列建立预设索表引来提高搜索速度,将参考基因序列中各个子序列和对应的位置信息存入预设索表引,然后提取出相应的参考基因序列与短基因序列进行比较,筛选差异程度在允许范围内的最佳比对结果。由于测序生成的短基因序列的长度较早期增加显著,比对结果允许的差异程度较大,包含多个缺失碱基和插入碱基,现有的比对软件,例如,BWA-MEM,BOWTIE2,SOAP3-dp均采用计算机指令集加速的动态规划匹配算法来进行比对。
这种方式下,采用计算机指令集加速的动态规划匹配算法相比传统的动态规划算法,虽然速度有很大的提升,但耗时较多,基因序列比对效率较低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基因序列比对方法,能够有效提升基因序列比对效率,提升用户体验。
本发明的另一个目的在于提出一种基因序列比对装置。
为达到上述目的,本发明第一方面实施例提出的基因序列比对方法,包括:获取待比对序列中预设长度子序列的索引值;根据所述索引值从参考基因序列中读取对应的比对序列;判断所述待比对序列和所述比对序列是否相同,得到判断结果;根据所述判断结果对所述待比对序列进行比对。
本发明第一方面实施例提出的基因序列比对方法,通过获取待比对序列中预设长度子序列的索引值,根据所述索引值从参考基因序列中读取对应的比对序列,判断所述待比对序列和所述比对序列是否相同,得到判断结果,根据所述判断结果对所述待比对序列进行比对,能够有效提升基因序列比对效率,提升用户体验。
为达到上述目的,本发明第二方面实施例提出的基因序列比对装置,包括:第一获取模块,用于获取待比对序列中预设长度子序列的索引值;读取模块,用于根据所述索引值从参考基因序列中读取对应的比对序列;判断模块,用于判断所述待比对序列和所述比对序列是否相同,得到判断结果;对比模块,用于根据所述判断结果对所述待比对序列进行比对。
本发明第二方面实施例提出的基因序列比对装置,通过获取待比对序列中预设长度子序列的索引值,根据所述索引值从参考基因序列中读取对应的比对序列,判断所述待比对序列和所述比对序列是否相同,得到判断结果,根据所述判断结果对所述待比对序列进行比对,能够有效提升基因序列比对效率,提升用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的基因序列比对方法的流程示意图;
图2是本发明另一实施例提出的基因序列比对方法的流程示意图;
图3为本发明实施例中Quickaligner与BWA-MEM的运行结果示意图;
图4是本发明一实施例提出的基因序列比对装置的结构示意图;
图5是本发明另一实施例提出的基因序列比对装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的基因序列比对方法的流程示意图。
参见图1,该方法包括:
S11:获取待比对序列中预设长度子序列的索引值。
在本发明的实施例中,待比对序列例如为由基因序列打碎用测序仪测量得到的短基因序列,待比对序列例如为CTATTATACCTGGA,或者GACAAAAAATAGTT。
其中,预设长度可以例如为5。
在本发明的实施例中,索引值可以用于标记待比对序列中预设长度子序列在参考基因序列中的位置。
进一步地,可以从待比对序列的首个碱基起始,获取待比对序列中预设长度的子序列,例如,获取待比对序列CTATTATACCTGGA中预设长度为5的子序列CTATT。
可选地,可以从预设索引表中获取待比对序列中预设长度子序列的索引值。
其中,预设索引表可以是预先建立的。
例如,可以从预设索引表中获取待比对序列中预设长度子序列CTATT的索引值为16,或者,可以从预设索引表中获取待比对序列中预设长度子序列GACAA的索引值为44。
S12:根据索引值从参考基因序列中读取对应的比对序列。
参考基因序列可以例如:
TTCAGTTTGCTCACTATTATACCTGGAAATTGTAGATTCATATGATGACAAAAAAATAGTTTCGATCTT;
在本发明的实施例中,对应的比对序列为上述参考基因序列中,以预设长度子序列的索引值为起始,以预设长度子序列为首的比对序列。
例如,可以根据预设长度子序列CTATT的索引值16,从参考基因序列中获取对应的比对序列为CTATTATACCTGGA,根据预设长度子序列GACAA的索引值44,从参考基因序列中获取对应的比对序列为GACAAAAAAATAGTT。
S13:判断待比对序列和比对序列是否相同,得到判断结果。
例如,可以将待比对序列CTATTATACCTGGA和比对序列CTATTATACCTGGA中的碱基逐一进行比对,判断出待比对序列CTATTATACCTGGA和比对序列CTATTATACCTGGA中的碱基对应相同,或者,也可以将待比对序列GACAAAAAATAGTT和比对序列GACAAAAAAATAGTT中的碱基逐一进行比对,判断出待比对序列GACAAAAAATAGTT和比对序列GACAAAAAAATAGTT不完全相同。
S14:根据判断结果对待比对序列进行比对。
可选地,根据判断结果对待比对序列进行比对,包括:若判断结果为待比对序列和比对序列相同,则将索引值作为待比对序列的位置信息;若判断结果为待比对序列和比对序列不同,则判定待比对序列中存在插入缺失。
本实施例中,通过获取待比对序列中预设长度子序列的索引值,根据索引值从参考基因序列中读取对应的比对序列,判断待比对序列和比对序列是否相同,得到判断结果,根据判断结果对待比对序列进行比对,能够有效提升基因序列比对效率,提升用户体验。
图2是本发明另一实施例提出的基因序列比对方法的流程示意图。
参见图2,该方法包括:
S201:获取参考基因序列中所有的预设长度的子序列,并获取所有的预设长度的子序列中每个子序列在参考基因序列中的对应的位置。
具体地,可以例如采用哈希算法建立预设索引表。
例如,参考基因序列例如:
TTCAGTTTGCTCACTATTATACCTGGAAATTGTAGATTCATATGATGACAAAAAAATAGTTTCGATCTT;
则可以以预设长度对参考基因序列进行分割,并采用哈希算法建立哈希索引,例如,TTCAG对应的位置为1,TCAGT对应的位置为2,CAGTT对应的位置为3,…,ATCTT对应的位置为62,以此类推。
或者,也可以采用其它算法建立预设索引表,对此不作限制。
S202:将所有的预设长度的子序列和对应的位置对应存储,以生成预设索引表。
进一步地,在标记出预设长度的子序列和对应的位置之后,可以建立子序列和位置之间的一一对应关系,并将根据对应关系建立数据表,以生成预设索引表。
通过预先建立参考基因序列的预设索引表,可以快速在参考基因序列中定位出待比对序列的位置信息,有效提升基因序列比对的效率。
S203:从预设索引表中获取待比对序列中预设长度子序列的索引值。
S204:根据索引值从参考基因序列中读取对应的比对序列。
通过从预设索引表中获取待比对序列中预设长度子序列的索引值,可以根据索引值在参考基因序列中定位出待比对序列的位置信息,且由于该方法应用于基因序列比对的软件中,提升软件运行效率,缩短数据分析时间,节省了计算机资源和相应的能耗。
S205:判断待比对序列和比对序列是否相同,若是,则执行S206,否则,执行S207。
例如,可以将待比对序列CTATTATACCTGGA和比对序列CTATTATACCTGGA中的碱基逐一进行比对,判断出待比对序列CTATTATACCTGGA和比对序列CTATTATACCTGGA中的碱基对应相同,或者,也可以将待比对序列GACAAAAAATAGTT和比对序列GACAAAAAAATAGTT中的碱基逐一进行比对,判断出待比对序列GACAAAAAATAGTT和比对序列GACAAAAAAATAGTT不完全相同。
通过将待比对序列和从参考基因序列中获取到的比对序列进行比对,进行搜索比对,待比对序列的每个碱基位点最多只遍历两次,算法的时间复杂度为O(N),提升算法运算效率。
S206:将索引值作为待比对序列的位置信息。
在基因序列比对的一些应用场景下,需要在将短基因序列回帖到参考基因序列中去,找出短基因序列在参考基因序列中的位置,及两者间差异(例如,测量误差以及短基因序列和参考基因序列存在的差异)。
S207:判定待比对序列中存在插入缺失。
在本步骤中,通过在判断待比对序列和比对序列相同时,将索引值作为待比对序列的位置信息,即待比对序列和参考基因序列比对准确。通过在判断待比对序列和比对序列不同时,判定待比对序列中存在插入缺失,能够有效保证该方法的比对精确性。
可选地,在判定待比对序列中存在插入缺失后,可以进一步确定与插入缺失相关的信息。
S208:获取待比对序列的第一子序列和第二子序列。
其中,第一子序列为待比对序列的首部预设长度的子序列,第二子序列为待比对序列的尾部预设长度的子序列。
例如,在判断出待比对序列GACAAAAAATAGTT和比对序列GACAAAAAAATAGTT不完全相同时,判定待比对序列GACAAAAAATAGTT相对于参考基因序列存在插入缺失,可以进一步确定与插入缺失相关的信息。
可以进一步例如,获取待比对序列GACAAAAAATAGTT的第一子序列GACAA,以及第二子序列TAGTT。
S209:分别获取第一子序列的第一索引值和第二子序列的第二索引值。
例如,可以从预设索引表中读取第一子序列GACAA的第一索引值为44,第二子序列TAGTT的第二索引值为54。
S210:获取第一子序列和第二子序列在待比对序列中的位置差值。
例如,可以获取在待比对序列GACAAAAAATAGTT中,第一子序列GACAA,以及第二子序列TAGTT之间的位置差值。即,在待比对序列GACAAAAAATAGTT中,第一子序列GACAA和第二子序列TAGTT的位置分别为1和10,位置差值为9。
S211:将第一索引值和第二索引值作差,得到索引差值。
例如,可以将第一索引值44和第二索引值54作差,得到索引差值为10。
S212:将索引差值和位置差值作比对,得到比对结果。
S213:在比对结果为索引差值大于位置差值时,判定待比对序列相比于参考基因序列缺失碱基。
S214:在比对结果为索引差值小于位置差值时,判定待比对序列相比于参考基因序列插入碱基。
作为一种示例,将待比对序列GACAAAAAATAGTT和比对序列GACAAAAAAATAGTT进行比对,通过确定待比对序列GACAAAAAATAGTT的索引差值10大于位置差值9,判定待比对序列相比于参考基因序列缺失碱基。若索引差值小于位置差值,则判定待比对序列相比于参考基因序列插入碱基。
进一步地,通过将待比对序列GACAAAAAATAGTT和比对序列GACAAAAAAATAGTT中的碱基逐位进行比对,确定出待比对序列GACAAAAAATAGTT相比于参考基因序列缺失碱基A。
通过从预设索引表中获取待比对序列中首部和尾部的预设长度子序列的索引值,可以根据索引差值定位出待比对序列中插入缺失相关的信息,且由于该方法应用于基因序列比对的软件中,提升软件运行效率,缩短数据分析时间,节省了计算机资源和相应的能耗。
可选地,该基因序列的比对方法可以例如应用在基因序列比对软件Quickaligner中,对此不作限制。
作为一种示例,利用本发明对一套80乘的人类基因序列(240G)进行了比对分析,并用通用的变异检测软件GATK进行了变异分析,与相关技术中的比对软件BWA进行比对,再用GATK进行变异分析得到的结果相近,且数据处理速度是BWA的7倍。参见图3,图3为本发明实施例中Quickaligner与BWA-MEM的运行结果示意图。本发明(Quickaligner)和BWA-MEM的比对运行结果比较。80X的人类基因序列(240G),用20个线程运行,Quickaligner实际用时1.88小时,BWA-MEM用时13.27小时,CPU时间分别为35.94小时和257.13小时,占用内存峰值为9.37G(Quickaligner)和28.29G(BWA-MEM)。可以看出Quickaligner的运行效率显著高于BWA-MEM(7倍)。两者的比对结果都用GATK进行变异检测,所得的SNP(单核苷酸多态性位点)和Indel(插入缺失位点)的结果相近,Quickaligner的灵敏度(sensitivity)略高,BMA-MEM的特异度略高。
此外,待比对序列相比于参考基因序列还允许错配,例如,参考基因序列为ACAACCGGTTAGCCCCCT,短基因序列为AGAA,将短基因序列匹配至参考基因序列中的位置1,可知,AGAA和ACAA之间相差一个碱基,即短基因序列中的第二个碱基G和参考基因序列中的第二个碱基C不一致,表明短基因序列相比于参考基因序列含有错配的比对结果。参见图3,SNP为单核苷酸多态性,即单个碱基和参考基因序列不一致,SNP可以从含错配的比对结果中利用模型进行计算得到,Indel为插入缺失,包括insertion插入和deletion缺失。将待比对序列和参考基因序列从头至尾扫描对比,即能计算两者是否一致,以及含多少个错配。
本实施例中,通过预先建立参考基因序列的预设索引表,可以快速在参考基因序列中定位出待比对序列的位置信息,有效提升基因序列比对的效率。通过从预设索引表中获取待比对序列中预设长度子序列的索引值,可以根据索引值在参考基因序列中定位出待比对序列的位置信息,且由于该方法应用于基因序列比对的软件中,提升软件运行效率,缩短数据分析时间,节省了计算机资源和相应的能耗。通过将待比对序列和从参考基因序列中获取到的比对序列进行比对,进行搜索比对,待比对序列的每个碱基位点最多只遍历两次,算法的时间复杂度为O(N),提升算法运算效率。通过在判断待比对序列和比对序列相同时,将索引值作为待比对序列的位置信息,即待比对序列和参考基因序列比对准确。通过在判断待比对序列和比对序列不同时,判定待比对序列中存在插入缺失,能够有效保证该方法的比对精确性。通过获取待比对序列中预设长度子序列的索引值,根据索引值从参考基因序列中读取对应的比对序列,判断待比对序列和比对序列是否相同,得到判断结果,根据判断结果对待比对序列进行比对,能够有效提升基因序列比对效率,提升用户体验。
图4是本发明一实施例提出的基因序列比对装置的结构示意图。该基因序列比对装置400可以通过软件、硬件或者两者的结合实现。
参见图4,该基因序列比对装置400可以包括:第一获取模块401、读取模块402、判断模块403,以及对比模块404。其中,
第一获取模块401,用于获取待比对序列中预设长度子序列的索引值。
读取模块402,用于根据索引值从参考基因序列中读取对应的比对序列。
判断模块403,用于判断待比对序列和比对序列是否相同,得到判断结果。
对比模块404,用于根据判断结果对待比对序列进行比对。
一些实施例中,参见图5,该基因序列比对装置400还可以包括:
可选地,比对模块404具体用于:在判断结果为待比对序列和比对序列相同时,将索引值作为待比对序列的位置信息;在判断结果为待比对序列和比对序列不同时,判定待比对序列中存在插入缺失。
第二获取模块405,用于获取待比对序列的第一子序列和第二子序列,其中,第一子序列为待比对序列的首部预设长度的子序列,第二子序列为待比对序列的尾部预设长度的子序列。
第三获取模块406,用于分别获取第一子序列的第一索引值和第二子序列的第二索引值。
第四获取模块407,用于获取第一子序列和第二子序列在待比对序列中的位置差值。
检测模块408,用于根据第一索引值、第二索引值及位置差值检测插入缺失。
可选地,检测模块408包括:
作差子模块4081,用于将第一索引值和第二索引值作差,得到索引差值。
对比子模块4082,用于将索引差值和位置差值作比对,得到比对结果。
判定子模块4083,用于在比对结果为索引差值大于位置差值时,判定待比对序列相比于参考基因序列缺失碱基。
判定子模块4083还用于:在比对结果为索引差值小于位置差值时,判定待比对序列相比于参考基因序列插入碱基。
第五获取模块409,用于从预设索引表中获取待比对序列中预设长度子序列的索引值。
第六获取模块410,用于获取参考基因序列中所有的预设长度的子序列,并获取所有的预设长度的子序列中每个子序列在参考基因序列中的对应的位置。
存储模块411,用于将所有的预设长度的子序列和对应的位置对应存储,以生成预设索引表。
需要说明的是,前述图1-图3实施例中对基因序列比对方法实施例的解释说明也适用于该基因序列比对装置,其实现原理类似,此处不再赘述。
本实施例中,通过获取待比对序列中预设长度子序列的索引值,根据索引值从参考基因序列中读取对应的比对序列,判断待比对序列和比对序列是否相同,得到判断结果,根据判断结果对待比对序列进行比对,能够有效提升基因序列比对效率,提升用户体验。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种基因序列比对方法,其特征在于,包括以下步骤:
获取待比对序列中预设长度子序列的索引值;
根据所述索引值从参考基因序列中读取对应的比对序列;
判断所述待比对序列和所述比对序列是否相同,得到判断结果;
根据所述判断结果对所述待比对序列进行比对。
2.如权利要求1所述的基因序列比对方法,其特征在于,所述根据所述判断结果对所述待比对序列进行比对,包括:
若所述判断结果为所述待比对序列和所述比对序列相同,则将所述索引值作为所述待比对序列的位置信息;
若所述判断结果为所述待比对序列和所述比对序列不同,则判定所述待比对序列中存在插入缺失。
3.如权利要求2所述的基因序列比对方法,其特征在于,所述判定所述待比对序列中存在插入缺失之后,还包括:
获取所述待比对序列的第一子序列和第二子序列,其中,所述第一子序列为所述待比对序列的首部预设长度的子序列,所述第二子序列为所述待比对序列的尾部预设长度的子序列;
分别获取所述第一子序列的第一索引值和所述第二子序列的第二索引值;
获取所述第一子序列和所述第二子序列在所述待比对序列中的位置差值;
根据所述第一索引值、所述第二索引值及所述位置差值检测所述插入缺失。
4.如权利要求3所述的基因序列比对方法,其特征在于,所述根据所述第一索引值、所述第二索引值及所述位置差值检测所述插入缺失,包括:
将所述第一索引值和所述第二索引值作差,得到索引差值;
将所述索引差值和所述位置差值作比对,得到比对结果;
在所述比对结果为所述索引差值大于所述位置差值时,判定所述待比对序列相比于所述参考基因序列缺失碱基;
在所述比对结果为所述索引差值小于所述位置差值时,判定所述待比对序列相比于所述参考基因序列插入碱基。
5.如权利要求1所述的基因序列比对方法,其特征在于,在所述获取待比对序列中预设长度子序列的索引值之前,还包括:
从预设索引表中获取待比对序列中预设长度子序列的索引值。
6.如权利要求5所述的基因序列比对方法,其特征在于,通过以下步骤建立所述预设索引表:
获取所述参考基因序列中所有的预设长度的子序列,并获取所述所有的预设长度的子序列中每个子序列在所述参考基因序列中的对应的位置;
将所述所有的预设长度的子序列和所述对应的位置对应存储,以生成所述预设索引表。
7.一种基因序列比对装置,其特征在于,包括:
第一获取模块,用于获取待比对序列中预设长度子序列的索引值;
读取模块,用于根据所述索引值从参考基因序列中读取对应的比对序列;
判断模块,用于判断所述待比对序列和所述比对序列是否相同,得到判断结果;
对比模块,用于根据所述判断结果对所述待比对序列进行比对。
8.如权利要求7所述的基因序列比对装置,其特征在于,所述比对模块具体用于:
在所述判断结果为所述待比对序列和所述比对序列相同时,将所述索引值作为所述待比对序列的位置信息;
在所述判断结果为所述待比对序列和所述比对序列不同时,判定所述待比对序列中存在插入缺失。
9.如权利要求8所述的基因序列比对装置,其特征在于,还包括:
第二获取模块,用于获取所述待比对序列的第一子序列和第二子序列,其中,所述第一子序列为所述待比对序列的首部预设长度的子序列,所述第二子序列为所述待比对序列的尾部预设长度的子序列;
第三获取模块,用于分别获取所述第一子序列的第一索引值和所述第二子序列的第二索引值;
第四获取模块,用于获取所述第一子序列和所述第二子序列在所述待比对序列中的位置差值;
检测模块,用于根据所述第一索引值、所述第二索引值及所述位置差值检测所述插入缺失。
10.如权利要求9所述的基因序列比对装置,其特征在于,所述检测模块包括:
作差子模块,用于将所述第一索引值和所述第二索引值作差,得到索引差值;
对比子模块,用于将所述索引差值和所述位置差值作比对,得到比对结果;
判定子模块,用于在所述比对结果为所述索引差值大于所述位置差值时,判定所述待比对序列相比于所述参考基因序列缺失碱基;
所述判定子模块还用于:在所述比对结果为所述索引差值小于所述位置差值时,判定所述待比对序列相比于所述参考基因序列插入碱基。
11.如权利要求7所述的基因序列比对装置,其特征在于,还包括:
第五获取模块,用于从预设索引表中获取待比对序列中预设长度子序列的索引值。
12.如权利要求11所述的基因序列比对装置,其特征在于,通过以下模块建立所述预设索引表:
第六获取模块,用于获取所述参考基因序列中所有的预设长度的子序列,并获取所述所有的预设长度的子序列中每个子序列在所述参考基因序列中的对应的位置;
存储模块,用于将所述所有的预设长度的子序列和所述对应的位置对应存储,以生成所述预设索引表。
CN201610826144.1A 2016-09-18 2016-09-18 基因序列比对方法和装置 Active CN107844684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610826144.1A CN107844684B (zh) 2016-09-18 2016-09-18 基因序列比对方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610826144.1A CN107844684B (zh) 2016-09-18 2016-09-18 基因序列比对方法和装置

Publications (2)

Publication Number Publication Date
CN107844684A true CN107844684A (zh) 2018-03-27
CN107844684B CN107844684B (zh) 2022-02-08

Family

ID=61656423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610826144.1A Active CN107844684B (zh) 2016-09-18 2016-09-18 基因序列比对方法和装置

Country Status (1)

Country Link
CN (1) CN107844684B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033755A (zh) * 2018-07-27 2018-12-18 泰山医学院 基于大数据的融合基因数据检测方法、计算机程序、终端
CN109326325A (zh) * 2018-07-25 2019-02-12 郑州云海信息技术有限公司 一种基因序列比对的方法、系统及相关组件
CN110534158A (zh) * 2019-08-16 2019-12-03 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
CN110879782A (zh) * 2019-11-08 2020-03-13 浪潮电子信息产业股份有限公司 一种基因比对软件的测试方法、装置、设备及介质
WO2020078341A1 (zh) * 2018-10-15 2020-04-23 智慧芽信息科技(苏州)有限公司 基因序列的权利范围标注、检索及信息标注方法、系统
CN111584007A (zh) * 2020-05-25 2020-08-25 北京理工大学 基因功能序列权利范围认定、检索及侵权判定方法与系统
CN112825268A (zh) * 2019-11-21 2021-05-21 深圳华大基因科技服务有限公司 测序结果比对方法及其应用
CN116665772A (zh) * 2023-05-30 2023-08-29 之江实验室 一种基于内存计算的基因组图分析方法、装置和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005068089A2 (en) * 2004-01-16 2005-07-28 Solexa Limited Multiple inexact pattern matching
US20060136144A1 (en) * 2004-12-21 2006-06-22 Helicos Biosciences Corporation Nucleic acid analysis
CN1829805A (zh) * 2003-05-23 2006-09-06 冷泉港实验室 核苷酸序列的虚拟代表
JP2007148991A (ja) * 2005-11-30 2007-06-14 National Institute Of Advanced Industrial & Technology 生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラム
CN101278295A (zh) * 2005-08-01 2008-10-01 454生命科学公司 对核酸进行扩增和测序的方法
CN102682226A (zh) * 2012-04-18 2012-09-19 盛司潼 一种核酸测序信息处理系统及方法
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN103617256A (zh) * 2013-11-29 2014-03-05 北京诺禾致源生物信息科技有限公司 待变异检测文件的处理方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1829805A (zh) * 2003-05-23 2006-09-06 冷泉港实验室 核苷酸序列的虚拟代表
WO2005068089A2 (en) * 2004-01-16 2005-07-28 Solexa Limited Multiple inexact pattern matching
US20060136144A1 (en) * 2004-12-21 2006-06-22 Helicos Biosciences Corporation Nucleic acid analysis
CN101278295A (zh) * 2005-08-01 2008-10-01 454生命科学公司 对核酸进行扩增和测序的方法
JP2007148991A (ja) * 2005-11-30 2007-06-14 National Institute Of Advanced Industrial & Technology 生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラム
CN102682226A (zh) * 2012-04-18 2012-09-19 盛司潼 一种核酸测序信息处理系统及方法
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN103617256A (zh) * 2013-11-29 2014-03-05 北京诺禾致源生物信息科技有限公司 待变异检测文件的处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王文迪 等: "基于Hash索引的高通量基因序列比对并行加速技术研究", 《计算机研究与发展》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326325B (zh) * 2018-07-25 2022-02-18 郑州云海信息技术有限公司 一种基因序列比对的方法、系统及相关组件
CN109326325A (zh) * 2018-07-25 2019-02-12 郑州云海信息技术有限公司 一种基因序列比对的方法、系统及相关组件
CN109033755A (zh) * 2018-07-27 2018-12-18 泰山医学院 基于大数据的融合基因数据检测方法、计算机程序、终端
WO2020078341A1 (zh) * 2018-10-15 2020-04-23 智慧芽信息科技(苏州)有限公司 基因序列的权利范围标注、检索及信息标注方法、系统
CN110534158A (zh) * 2019-08-16 2019-12-03 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
CN110534158B (zh) * 2019-08-16 2023-08-04 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
CN110879782A (zh) * 2019-11-08 2020-03-13 浪潮电子信息产业股份有限公司 一种基因比对软件的测试方法、装置、设备及介质
CN110879782B (zh) * 2019-11-08 2022-06-17 浪潮电子信息产业股份有限公司 一种基因比对软件的测试方法、装置、设备及介质
CN112825268A (zh) * 2019-11-21 2021-05-21 深圳华大基因科技服务有限公司 测序结果比对方法及其应用
CN112825268B (zh) * 2019-11-21 2024-05-14 深圳华大基因科技服务有限公司 测序结果比对方法及其应用
CN111584007A (zh) * 2020-05-25 2020-08-25 北京理工大学 基因功能序列权利范围认定、检索及侵权判定方法与系统
CN116665772A (zh) * 2023-05-30 2023-08-29 之江实验室 一种基于内存计算的基因组图分析方法、装置和介质
CN116665772B (zh) * 2023-05-30 2024-02-13 之江实验室 一种基于内存计算的基因组图分析方法、装置和介质

Also Published As

Publication number Publication date
CN107844684B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN107844684B (zh) 基因序列比对方法和装置
Criscuolo et al. AlienTrimmer: a tool to quickly and accurately trim off multiple short contaminant sequences from high-throughput sequencing reads
US10192026B2 (en) Systems and methods for genomic pattern analysis
CN104700033A (zh) 病毒检测的方法及装置
Upchurch et al. Variant: a malware similarity testing framework
KR20200107774A (ko) 표적화 핵산 서열 분석 데이터를 정렬하는 방법
CN107229839B (zh) 一种基于新一代测序数据的Indel检测方法
JP2016206950A (ja) マルウェア判定のための精査教師データ出力装置、マルウェア判定システム、マルウェア判定方法およびマルウェア判定のための精査教師データ出力プログラム
Kearse et al. The Geneious 6.0. 3 read mapper
WO2016119279A1 (zh) 移动终端中恶意代码的检测方法和装置
JP2024129032A (ja) データ記録及び分析システム
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
Amin et al. NanoBLASTer: Fast alignment and characterization of Oxford Nanopore single molecule sequencing reads
CN116682492A (zh) 一种宏病毒组数据的分析方法
Faucon et al. SNaResim: synthetic nanopore read simulator
KR102349023B1 (ko) 뉴클레오티드 서열 변이의 빈도 분포 결정
Heo et al. Comprehensive evaluation of error-correction methodologies for genome sequencing data
WO2020082224A1 (zh) 基于fpga的重测序分析方法和装置
Chen et al. CGAP-align: a high performance DNA short read alignment tool
JP2012235723A (ja) 大規模塩基配列解析方法、プログラム及び装置
CN114420204B (zh) 用于预测待测基因的拷贝数的方法、计算设备和存储介质
Guerra-Assunção et al. AYUKA: a toolkit for fast viral genotyping using whole genome sequencing
CN114708906B (zh) 用于预测体细胞变异真假的方法、电子设备和存储介质
Rumpf et al. SequenceLab: A Comprehensive Benchmark of Computational Methods for Comparing Genomic Sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518083 Yantian District, Yantian District, Shenzhen, Guangdong.

Applicant after: BGI SHENZHEN

Address before: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Shenzhen, Guangdong

Applicant before: BGI SHENZHEN

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180524

Address after: 518083 the comprehensive building of Beishan industrial zone and 11 2 buildings in Yantian District, Shenzhen, Guangdong.

Applicant after: MGI TECH Co.,Ltd.

Address before: 518083 Yantian District, Yantian District, Shenzhen, Guangdong.

Applicant before: BGI SHENZHEN

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1247368

Country of ref document: HK

CB02 Change of applicant information

Address after: 518083 the comprehensive building of Beishan industrial zone and 11 2 buildings in Yantian District, Shenzhen, Guangdong.

Applicant after: Shenzhen Huada Zhizao Technology Co.,Ltd.

Address before: 518083 the comprehensive building of Beishan industrial zone and 11 2 buildings in Yantian District, Shenzhen, Guangdong.

Applicant before: MGI TECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant