CN103930569B - 碱基序列对准装置及其方法 - Google Patents

碱基序列对准装置及其方法 Download PDF

Info

Publication number
CN103930569B
CN103930569B CN201280055343.7A CN201280055343A CN103930569B CN 103930569 B CN103930569 B CN 103930569B CN 201280055343 A CN201280055343 A CN 201280055343A CN 103930569 B CN103930569 B CN 103930569B
Authority
CN
China
Prior art keywords
sequence
fragment
reference sequences
short
benchmark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280055343.7A
Other languages
English (en)
Other versions
CN103930569A (zh
Inventor
朴旻壻
吕润九
朴商贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IND ACADEMIC COOP
Samsung SDS Co Ltd
Original Assignee
IND ACADEMIC COOP
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IND ACADEMIC COOP, Samsung SDS Co Ltd filed Critical IND ACADEMIC COOP
Publication of CN103930569A publication Critical patent/CN103930569A/zh
Application granted granted Critical
Publication of CN103930569B publication Critical patent/CN103930569B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开一种碱基序列对准装置及其方法,用于从参考序列中寻找与作为短片段序列的一部分的基准片段一致的基准位置,并以基准位置为基准而将参考序列与所述短片段序列相互映射。据此,可实现允许短片段序列中可能存在的所有变异和误差的对准,并能够在短片段序列的整个区域中寻找变异和误差,而且,与现有技术中的碱基序列对准技术不同而不允许反向跟踪(back tracking),且可以用更少的计算量执行对准。

Description

碱基序列对准装置及其方法
技术领域
本发明涉及一种碱基序列对准装置及其方法,尤其涉及一种可实现允许短片段序列中可能存在的所有变异和误差的对准,并能够在短片段序列的整个区域中寻找变异和误差,还能够在不允许反向跟踪(back tracking)的条件下用更少的计算量执行对准的碱基序列对准装置及其方法。
背景技术
碱基序列对准技术为整个生物学领域中最为广泛使用的技术之一。例如,可通过利用参考配位(Reference assembly)方法而将短片段序列映射于已知的参考序列的过程而完成针对各对象(individual)的基因组序列,进而可以分析各对象之间的碱基序列差异(variation)。目前1,000genome project之类的大型测序项目正在执行,如果这种发展持续下去,则最终有望实现个人基因组分析以及基于遗传信息的量身型医疗系统等服务。
发明内容
技术问题
根据本发明概念的一个以上的示例性实施例,提供一种可实现允许短片段序列中可能存在的所有变异和误差的对准,且可以在短片段序列的整个区域中寻找变异和误差的碱基序列对准装置及其方法。
并且,根据本发明概念的一个以上的示例性实施例,提供一种与现有技术中的碱基序列对准技术不同而不允许反向跟踪(back tracking)并能够用更少的计算量执行对准的碱基序列对准装置及其方法。
技术方案
根据本发明概念的一个以上的示例性实施例,提供一种碱基序列对准方法,用于将短片段序列对准于参考序列,包括如下步骤:基准位置选择步骤,在参考序列上找出与作为短片段序列的一部分的基准片段一致的位置;以所述基准位置为基准而将所述参考序列与所述短片段序列相互映射。
基准片段可从短片段序列的任意位置开始而由预定长度的序列构成。
基准片段的预定长度可基于在所述参考序列中出现所述基准片段的平均频率值而确定。
平均频率值可根据所述参考序列的长度和碱基序列的数量而确定。
基准位置选择步骤可以是从所述参考序列中与基准片段完全一致的位置、以及在所述参考序列中在已设定的误差允许值E范围内使基准片段与参考序列一致的位置中选择至少一种位置的步骤。
基准位置选择步骤可包括如下步骤中的至少一个步骤:在所述参考序列中找出一个以上的与基准片段完全一致的位置;在已设定的误差允许值E范围内针对构成所述基准片段的序列进行插入、删除和/或置换之后找出一个以上的与所述参考序列一致的位置。
以基准位置为基准而将所述参考序列与所述短片段序列相互映射的步骤可以是将所述短片段序列中的基准片段之后的残余序列与所述参考序列中的所述基准位置之后的序列进行映射的步骤。
本碱基序列对准方法还可以包括如下步骤:判断在已设定的误差允许值E范围内,针对构成所述短片段序列中除了基准片段以外的残余序列的序列进行了插入、删除和/或置换的序列与所述参考序列是否一致。
所述误差允许值E可以是针对所述基准序列而设定的误差允许值。
当基准位置之后的参考序列与所述短片段序列中基准片段之后的残余序列存在不相一致的部分时,可将始于在已设定的误差允许值E范围内进行跳跃的位置的参考序列与所述基准片段之后的残余序列进行映射。
本序列对准方法还可以包括如下步骤:当所述基准片段与所述参考序列一致时,将所述基准片段作为映射片段进行存储;当所述基准片段之后的残余序列中具有在已设定的误差允许值E内与所述基准位置之后的参考序列一致的部分时,将该一致的部分作为映射片段进行存储。
本碱基序列对准方法还可以包括在映射片段满足数学式|Dr(M1,M2)-DR(M1,M2)|<E-E0时予以相互连接的步骤,其中,M1、M2为需要相互连接的映射片段,Dr(M1,M2)为短片段序列上的映射片段M1、M2之间的距离,DR(M1,M2)为参考序列上的映射片段M1、M2之间的距离,E是对短片段序列允许的误差允许值,E0为包含于映射片段中的误差值的总和,|Dr(M1,M2)-DR(M1,M2)|是对Dr(M1,M2)与DR(M1,M2)的距离差的绝对值。
根据本发明概念的另一示例性实施例,提供一种记录有用于在计算机上执行根据权利要求1~12中的任意一项的方法的程序的计算机可读介质。
根据本发明概念的另一示例性实施例,可包括:基准位置选择单元,在参考序列中找出与作为短片段序列的一部分的基准片段一致的位置;映射单元,以所述基准位置为基准而将所述参考序列与所述短片段序列相互映射;对准单元,当以所述基准位置为基准而使所述参考序列与所述短片段序列相互一致时,将所述短片段序列对准于所述基准位置。
基准位置选择单元可从所述参考序列中与基准片段完全一致的位置、以及在所述参考序列中在已设定的误差允许值E范围内使基准片段与参考序列一致的位置中选择至少一种位置。
映射单元可将所述短片段序列中的基准片段之后的残余序列与所述参考序列中的所述基准位置之后的序列进行映射,或者可将所述短片段序列中的基准片段前后的残余序列与所述参考序列中的基准位置前后的序列进行映射。
误差允许值E可以是针对所述基准序列而定的误差允许值。
映射单元还可以判断所述基准位置之后的参考序列与所述短片段序列中的基准片段之后的残余序列是否相互一致,且可以在所述基准位置之后的参考序列与所述短片段序列中基准片段之后的残余序列存在不相一致的部分时,将始于在已设定的误差允许值E范围内进行跳跃的位置的参考序列与所述基准片段之后的残余序列进行映射。
本碱基序列对准装置还可以包括存储单元,且所述映射单元可在所述基准片段与所述参考序列一致时,将所述基准片段作为映射片段存储于所述存储单元,而在所述基准片段之后的残余序列中具有在已设定的误差允许值E内与所述基准位置之后的参考序列一致的部分时,可将该一致的部分作为映射片段存储于所述存储单元。
对准单元在所述映射片段满足数学式|Dr(M1,M2)-DR(M1,M2)|<E-E0时予以相互连接,其中,M1、M2为需要相互连接的映射片段,Dr(M1,M2)为短片段序列上的映射片段M1、M2之间的距离,DR(M1,M2)为参考序列上的映射片段M1、M2之间的距离,E是对短片段序列允许的误差允许值,E0为包含于映射片段中的误差值的总和,|Dr(M1,M2)-DR(M1,M2)|是对Dr(M1,M2)与DR(M1,M2)的距离差的绝对值。
有益效果
根据本发明概念的一个以上的示例性实施例,可实现允许短片段序列中可能存在的所有变异和误差的对准,并能够在短片段序列的整个区域中寻找变异和误差。
而且,根据本发明概念的一个以上的示例性实施例,与现有技术中的碱基序列对准技术不同,其不允许反向跟踪(back tracking),且能够用更少的计算量执行对准,因此对准速度可以加快。
附图说明
图1为用于说明记录有用于执行根据本发明概念的示例性实施例的碱基序列对准方法的程序的计算机可读记录介质的图,。
图2为根据本发明概念的示例性实施例的碱基序列对准装置的构成图,
图3为用于说明根据本发明概念的示例性实施例的碱基序列对准方法的流程图,以及
图4和图5是为了说明根据本发明概念的示例性实施例的基准片段映射方法而提供的图。
符号说明:
10:测序仪 100、200:碱基序列对准装置
201:基准位置选择单元 203:映射单元
205:对准单元 207:存储单元
具体实施方式
通过附图和相关的以下优选实施例而使以上的本发明的目的、其他目的、特征以及优点容易被理解。然而本发明并不局限于在此说明的实施例而也可以具体化为其他形态。在此介绍的实施例只是为了能够彻底而完全地公开内容,并为了将本发明的思想充分地传递给本领域技术人员而提供的。在本说明书中,所谓的某一构成要素在另一构成要素上,表示该构成要素可以直接形成于另一构成要素上,或者它们之间也可以夹设有第三个构成要素。
并且,所谓的某一元素(或构成要素)在另一元素(或构成要素)上(ON)操作或执行,应当理解为该元素(或构成要素)在另一元素(或构成要素)操作或执行的环境中操作或执行,或者通过与其他元素(或构成要素)的直接或间接的相互作用而操作或执行。
所谓的某一元素、构成要素、装置或系统包括由程序或软件构成的构成要素,即使没有明确的说明也应当理解为该元素、构成要素、装置或系统包括该程序或软件的执行或操作所需的硬件(例如,存储器、CPU等)或者其他程序或软件(例如,驱动操作系统或硬件所需的驱动器等)。
而且,在实现某一元素(或构成要素)时如果没有特别说明,则应当理解为该元素(或构成要素)可以由软件、硬件、或者软件和硬件中的任何形态实现。
在本说明书中使用的术语是用于说明实施例,而不是用于限定本发明。在本说明书中,只要没有在文中特别说明,则单数型也包括复数型。在说明书中使用的“包括(comprises)”和/或“包含(comprising)的”并不排除所述的构成要素中存在或者还有一个以上其他构成要素的可能。
以下,参照附图详细说明本发明。在对以下的特定实施例进行叙述时,各种特定内容是为了有助于更加具体地说明本发明和理解本发明而编入的。然而具备足以理解本发明的程度的本领域知识的人员应当能够明白即使没有这些多种特定内容也可以使用本发明。在有些情况下,在记载本发明时对公知的与本发明没有太大关系的部分则为了防止对说明本发明带来不必要的混乱而不予记载。
图1为用于说明记录有用于执行根据本发明概念的示例性实施例的碱基序列对准方法的程序的计算机可读记录介质的图。
参照图1,碱基序列对准装置100包括记录有用于执行根据本发明概念的示例性实施例的碱基序列对准方法的程序的计算机可读记录介质110。另外,出于为了说明本发明概念的目的,额外图示了测序仪10。
测序仪10从样品中生成短片段序列(Read Sequence),碱基序列对准装置100将测序仪10所生成的短片段序列映射于已知的参考序列(Reference Sequence)而进行对准。
包含记录有用于执行根据本实施例的碱基序列对准方法的程序的计算机可读记录介质110的碱基序列对准装置100(以下称为碱基序列装置100)不仅执行基于碱基序列的同源性(homology)的精确匹配(exact matching),而且还可以执行允许与误差允许值(E)一样多的不匹配的非精确匹配。
根据本实施例的碱基序列对准装置100针对短片段序列的一部分区间(以下称为“基准片段”)考虑可能组合的所有变异(删除、置换或者增加)而在参考序列中检索可映射的所有位置并确定为基准位置。在此,碱基序列对准装置100可使用现有技术中公知的映射方法(例如,利用BWT和Suffix排列的方法)而检索与基准片段相一致的位置。
根据本发明概念的示例性实施例,基准片段的起始位置可确定为短片段序列的第一个位置。与此不同,基准片段的起始位置可以确定为短片段序列的第二个位置。还可以不同地,基准片段的起始位置可以确定为短片段序列的第三个位置。又可以不同地,基准片段的起始位置可以确定为从短片段序列的第一个位置到短片段序列长度的50%处的位置中的任意位置。其中,基准片段的位置是在确定为从短片段序列的第一个序列开始的预定长度的区间时准确率较高,然而要知道本发明概念并不仅仅局限于这样的位置。
参照图4说明,基准片段的位置选定为从短片段序列的第一位开始,且示例性地图示出三处(M1、M2、M3)与基准片段精确匹配或者在误差允许值以内非精确匹配的基准位置。
碱基序列对准装置100以基准位置为基准而将短片段序列的残余序列与参考序列进行比较。例如,碱基序列对准装置100将紧跟基准位置M1之后的参考序列R1与短片段序列的残余序列相互映射,并将紧跟基准位置M2之后的参考序列R2与短片段序列的残余序列相互映射,并将紧跟基准位置R3之后的参考序列R3与短片段序列的残余序列相互映射。
另外,如果基准片段不是从短片段序列的第一个位置开始选择而是从接下来的位置中的某一位置开始选择,则残余序列将位于基准片段的前后。在这种情况下,碱基序列对准装置100不仅将紧跟基准位置之后的参考序列与残余序列进行映射,而且还会将基准位置之前的参考序列与残余序列进行映射。
碱基序列对准装置100在执行短片段序列的残余序列与基准位置M1、M2、M3的参考序列之间的映射操作的过程中如果不能进行匹配(例如,无法完成误差允许值以内的非精确匹配的情况),则可以跳跃预定距离之后继续执行映射。在此,跳跃距离可以成为对短片段序列给定的最大误差允许值E以下的值。例如,如果将已经选定的基准位置的误差允许值之和记为“k”,则所述跳跃距离可以是(E-k)以下。
或者(alternatively),碱基序列对准装置100在执行短片段序列的残余序列与基准位置的参考序列之间的映射操作的过程中如果不能进行匹配,则并不直接跳跃,而是只有在先前映射的结果满足最小匹配距离的情况下才跳跃。参照图5说明,假设碱基序列对准装置100将短片段序列的残余序列与参考序列R1进行映射,当碱基序列对准装置100在判断为参考序列位置E上不能进行匹配的情况下,只有在先前映射的区域S1的长度大于最小匹配距离时才会跳跃位置E而继续执行映射操作。如果区域S1的长度小于最小匹配距离,则碱基序列对准装置100将R1区域从短片段序列的对准位置中除外。
碱基序列对准装置100在短片段序列的残余序列与基准位置M1之间映射的结果如果有最小匹配长度mS以上的一致,便将该一致部分作为映射片段进行存储(在图5中S1、S2、S3可以成为映射片段,而基准位置的序列也可以成为映射片段)。
如果一直到短片段序列末尾,映射片段全部得到存储,则碱基序列对准装置100尝试存储的映射片段的连接。例如,碱基序列对准装置100将映射片段在短片段序列与参考序列上的位置信息、作为参数值而接收的最大误差允许值作为基准而判断映射片段的连接与否。
例如,碱基序列对准装置100在满足如下数学式1的情况下连接映射片段。
[数学式1]
|Dr(M1,M2)-DR(M1,M2)|<E-E0
其中,M1、M2为需要相互连接的映射片段;
Dr(M1,M2)为短片段序列上的映射片段M1、M2之间的距离;
DR(M1,M2)为参考序列上的映射片段M1、M2之间的距离;
E是对短片段序列允许的误差允许值;
E0为包含于映射片段中的误差值的总和;
|Dr(M1,M2)-DR(M1,M2)|是对Dr(M1,M2)与DR(M1,M2)的距离差的绝对值。
碱基序列对准装置100对映射片段的可连接的组合应用现有技术中公知的技术手段(例如,内德勒曼-文施(Needleman-Wunsch)算法)或将来会被发现的技术手段而将映射片段之间予以连接。
另外,基准片段的长度可基于基准片段出现于参考序列的平均频率值而确定,其中,平均频率值可根据参考序列的长度和碱基序列(即A、G、C、T)的数量而确定。而且,映射片段的最小匹配长度也可以确定为等于基准片段的长度。
虽然没有图示,然而本碱基序列对准装置100可以额外地包括用于执行根据本发明概念的示例性实施例的碱基序列对准方法的程序运行所需的H/W和S/W资源。例如,作为硬件资源可以举出CPU(Central Processing Unit)、存储器(MEMORY)、硬盘、网卡等,作为软件资源可以举出操作系统(OS:Operating System)、用于驱动硬件的驱动器(driver)。例如,基准位置的选择或映射操作的执行等是在CPU的控制下被加载于存储器而进行操作。似此,为了执行存储于记录介质110的程序,需要硬件资源和/或软件资源,关于这些资源与存储于记录介质110中的程序之间的相互作用,只要是本发明概念所属的技术领域的人员就会轻易地理解。
图2为根据本发明概念的示例性实施例的碱基序列对准装置的构成图。
参照图2,本碱基序列对准装置200包括:基准位置选择单元201、映射单元203、对准单元205、以及存储单元207。在图2中,为了说明的目的而额外图示了测序仪10。
碱基序列对准装置200的基准位置选择单元201、映射单元203、对准单元205、以及存储单元207可相互有机地操作而执行与图1中说明的碱基序列对准装置100相同或类似的操作。只要是本发明概念所属技术领域的人员就能够将基准位置选择单元201、映射单元203、以及对准单元205通过软件和/或硬件来实现。
测序仪10从样品中生成短片段序列(Read Sequence),碱基序列对准装置200将测序仪10所生成的短片段序列映射于已知的参考序列(Reference Sequence)而进行对准。
基准位置选择单元201针对基准片段考虑可能组合的所有变异(删除、置换、或者增加)而在参考序列中检索可映射的所有位置并确定为基准位置。
如上所述,基准片段的位置是在确定为从短片段序列的第一个序列开始的预定长度的区间时准确率较高,然而本发明概念并不仅仅局限于这样的位置。并且,与在图1的实施例中说明的一样,基准片段的长度可基于基准片段出现于参考序列的平均频率值而确定,其中,平均频率值可根据参考序列的长度和碱基序列(即A、G、C、T)的数量而确定。
映射单元203以基准位置作为基准而将短片段序列的残余序列与参考序列进行映射。参照图4的示例进行说明,映射单元203将紧跟基准位置M1之后的参考序列R1与短片段序列的残余序列相互映射,并将紧跟基准位置M2之后的参考序列R2与短片段序列的残余序列相互映射,并将紧跟基准位置R3之后的参考序列R3与短片段序列的残余序列相互映射。
映射单元203在执行短片段序列的残余序列与基准位置M1、M2、M3的参考序列之间的映射操作的过程中如果不能进行匹配(例如,无法完成误差允许值以内的非精确匹配的情况),则可以跳跃预定距离之后继续执行映射。在此,跳跃距离可以成为对短片段序列给定的最大误差允许值E以下的值。例如,如果将已经选定的基准位置的误差允许值之和记为“k”,则所述跳跃距离可以是(E-k)以下。
或者(alternatively),映射单元203在执行短片段序列的残余序列与基准位置的参考序列之间的映射操作的过程中如果不能进行匹配,则并不直接跳跃,而是只有在先前映射的结果满足最小匹配距离的情况下才跳跃。参照图5说明,假设将短片段序列的残余序列与参考序列R1进行映射,则映射单元203在判断为参考序列位置E上不能进行匹配的情况下,只有在先前映射的区域S1的长度大于最小匹配距离时才会跳跃位置E而继续执行映射操作。如果区域S1的长度小于最小匹配距离,则映射单元203对R1区域不再执行映射操作。
映射单元203在短片段序列的残余序列与基准位置M1之间映射的结果如果有最小匹配长度mS以上的一致,便将该一致部分作为映射片段存储于存储单元207(在图5中S1、S2、S3可以成为映射片段,而基准位置的序列也可以成为映射片段)。
如果一直到短片段序列末尾,映射片段全部得到存储,则对准单元205将存储的映射片段予以连接。例如,对准单元205将映射片段在短片段序列与参考序列上的位置信息、作为参数值而接收的最大误差允许值作为基准而判断映射片段的连接与否。
例如,对准单元205可在满足上述数学式1的情况下连接映射片段,且对映射片段的可连接的组合可应用现有技术中公知的技术手段(例如,内德勒曼-文施(Needleman-Wunsch)算法)或将来会被发现的技术手段而将映射片段之间予以连接。
图3为用于说明根据本发明概念的示例性实施例的碱基序列对准方法的流程图。
参照图3,碱基序列对准装置100或200从由测序仪10生成的短片段序列中选择基准片段(S101)。
关于基准片段的位置,虽然短片段序列的第一个位置的准确率较高,然而没有必要非要局限于第一个位置。而且,关于基准片段的长度虽然也是基于基准片段出现于参考序列的平均频率值进行确定会进一步提高碱基序列的对准速度,然而也没有必要非要局限于此。
碱基序列对准装置100或200将在步骤S101中选择的基准片段与参考序列进行映射(S103),并选择精确匹配或者在误差允许值以内匹配的基准位置(S105)。
碱基序列对准装置100或200以步骤S105中选择的基准位置作为基准而将短片段序列的残余序列与参考序列进行映射(S107)。
在步骤S107中,碱基序列对准装置100或200在无法映射的情况下,可在最大误差允许值以内跳跃。
碱基序列对准装置100或200连接满足上述数学式1的映射片段(S109)。在S109中,碱基序列对准装置100或200可使用现有技术中公知的技术手段或将来会开发出的技术手段而填充映射片段的空白空间。
如上所述的根据本发明概念的碱基序列装置及方法可利用于SNP(SingleNucleotide Polymorphism,单核苷酸多态性)、MNP(Multiple Nucleotide Polymorphism,多核苷酸多态性)、结构多样性(Structural variations)、CNV(Copy Number Variation,拷贝数变异)等的探索,并可以跨越转录组(transcriptome)分析、用于开发新药物的蛋白质结合位点(binding site)掌握等整个生物学领域而得到应用。
虽然已通过有限的实施例和附图说明了如上所述的本发明概念,然而本发明概念并不局限于所述的实施例,只要是本发明概念所属的领域中具有普通知识的人员就能够通过这样的记载实现多种多样的修改和变形。因此,本发明概念的范围不应局限于所述的实施例而确定,而是要根据权利要求书及其等价内容来确定。

Claims (19)

1.一种碱基序列对准方法,用于将短片段序列对准于参考序列,包括如下步骤:
基准位置选择步骤,在参考序列上找出与包含基准片段和残余序列的短片段序列中的所述基准片段一致的基准位置;
以所述基准位置为基准而将所述参考序列与所述残余序列相互映射;
当所述基准片段与所述参考序列一致时,将所述基准片段作为映射片段进行存储,
当所述映射片段满足数学式|Dr(M1,M2)-DR(M1,M2)|<E-E0时予以相互连接的步骤,其中,M1、M2为需要相互连接的映射片段,Dr(M1,M2)为短片段序列上的映射片段M1、M2之间的距离,DR(M1,M2)为参考序列上的映射片段M1、M2之间的距离,E是对短片段序列允许的误差允许值,E0为包含于映射片段中的误差值的总和,|Dr(M1,M2)-DR(M1,M2)|是对Dr(M1,M2)与DR(M1,M2)的距离差的绝对值。
2.如权利要求1所述的碱基序列对准方法,其特征在于,所述基准片段从短片段序列的任意位置开始而由预定长度的序列构成。
3.如权利要求1所述的碱基序列对准方法,其特征在于,所述基准片段的预定长度为基于在所述参考序列中出现所述基准片段的平均频率值而确定。
4.如权利要求3所述的碱基序列对准方法,其特征在于,所述平均频率值为根据所述参考序列的长度和碱基序列的数量而确定。
5.如权利要求1所述的碱基序列对准方法,其特征在于,所述基准位置选择步骤为从所述参考序列中与基准片段完全一致的位置、以及在所述参考序列中在已设定的误差允许值E范围内使基准片段与参考序列一致的位置中选择至少一种位置的步骤。
6.如权利要求1所述的碱基序列对准方法,其特征在于,所述基准位置选择步骤包括如下步骤中的至少一个步骤:
在所述参考序列中找出一个以上的与基准片段完全一致的位置;
在已设定的误差允许值E范围内针对构成所述基准片段的序列进行插入、删除和/或置换之后找出一个以上的与所述参考序列一致的位置。
7.如权利要求6所述的碱基序列对准方法,其特征在于,以所述基准位置为基准而将所述参考序列与所述残余序列相互映射的步骤为将所述短片段序列中的基准片段之后的残余序列与所述参考序列中的所述基准位置之后的序列进行映射的步骤。
8.如权利要求7所述的碱基序列对准方法,其特征在于,还包括如下步骤:
判断在已设定的误差允许值E范围内,针对构成所述短片段序列中除了基准片段以外的残余序列的序列进行了插入、删除和/或置换的序列与所述参考序列是否一致。
9.如权利要求8所述的碱基序列对准方法,其特征在于,所述误差允许值E为针对所述基准序列而设定的误差允许值。
10.如权利要求9所述的碱基序列对准方法,其特征在于,当所述基准位置之后的参考序列与所述短片段序列中基准片段之后的残余序列存在不相一致的部分时,将始于在已设定的误差允许值E范围内进行跳跃的位置的参考序列与所述基准片段之后的残余序列进行映射。
11.如权利要求9所述的碱基序列对准方法,其特征在于,还包括如下步骤:
当所述基准片段之后的残余序列中具有在已设定的误差允许值E内与所述基准位置之后的参考序列一致的部分时,将该一致的部分作为映射片段进行存储。
12.一种碱基序列对准装置,用于将短片段序列对准于参考序列,包括:
基准位置选择单元,在参考序列中找出与包含基准片段和残余序列的短片段序列中的所述基准片段一致的基准位置;
映射单元,以所述基准位置为基准而将所述参考序列与所述残余序列相互映射;
对准单元,当以所述基准位置为基准而使所述参考序列与所述残余序列相互一致时,将所述短片段序列对准于所述基准位置;
存储单元,
所述映射单元在所述基准片段与所述参考序列一致时,将所述基准片段作为映射片段存储于所述存储单元,
所述对准单元在所述映射片段满足数学式|Dr(M1,M2)-DR(M1,M2)|<E-E0时予以相互连接,其中,M1、M2为需要相互连接的映射片段,Dr(M1,M2)为短片段序列上的映射片段M1、M2之间的距离,DR(M1,M2)为参考序列上的映射片段M1、M2之间的距离,E是对短片段序列允许的误差允许值,E0为包含于映射片段中的误差值的总和,|Dr(M1,M2)-DR(M1,M2)|是对Dr(M1,M2)与DR(M1,M2)的距离差的绝对值。
13.如权利要求12所述的碱基序列对准装置,其特征在于,所述基准片段从短片段序列的任意位置开始而由预定长度的序列构成。
14.如权利要求12所述的碱基序列对准装置,其特征在于,所述基准片段的预定长度为基于在所述参考序列中出现所述基准片段的平均频率值而确定,而所述平均频率值为根据所述参考序列的长度和碱基序列的数量而确定。
15.如权利要求12所述的碱基序列对准装置,其特征在于,所述基准位置选择单元从所述参考序列中与基准片段完全一致的位置、以及在所述参考序列中在已设定的误差允许值E范围内使基准片段与参考序列一致的位置中选择至少一种位置。
16.如权利要求12所述的碱基序列对准装置,其特征在于,所述映射单元将所述短片段序列中的基准片段之后的残余序列与所述参考序列中的所述基准位置之后的序列进行映射,或者将所述短片段序列中的基准片段前后的残余序列与所述参考序列中的基准位置前后的序列进行映射。
17.如权利要求15所述的碱基序列对准装置,其特征在于,所述误差允许值E为针对所述基准序列而设定的误差允许值。
18.如权利要求17所述的碱基序列对准装置,其特征在于,所述映射单元还判断所述基准位置之后的参考序列与所述短片段序列中的基准片段之后的残余序列是否相互一致,且在所述基准位置之后的参考序列与所述短片段序列中基准片段之后的残余序列存在不相一致的部分时,将始于在已设定的误差允许值E范围内进行跳跃的位置的参考序列与所述基准片段之后的残余序列进行映射。
19.如权利要求12所述的碱基序列对准装置,其特征在于,在所述基准片段之后的残余序列中具有在已设定的误差允许值E内与所述基准位置之后的参考序列一致的部分时,将该一致的部分作为映射片段存储于所述存储单元。
CN201280055343.7A 2011-11-30 2012-11-23 碱基序列对准装置及其方法 Expired - Fee Related CN103930569B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020110126965A KR101337094B1 (ko) 2011-11-30 2011-11-30 염기 서열 정렬 장치 및 그 방법
KR10-2011-0126965 2011-11-30
PCT/KR2012/009981 WO2013081333A1 (ko) 2011-11-30 2012-11-23 염기 서열 정렬 장치 및 그 방법

Publications (2)

Publication Number Publication Date
CN103930569A CN103930569A (zh) 2014-07-16
CN103930569B true CN103930569B (zh) 2017-02-15

Family

ID=48535730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280055343.7A Expired - Fee Related CN103930569B (zh) 2011-11-30 2012-11-23 碱基序列对准装置及其方法

Country Status (4)

Country Link
US (1) US20140309945A1 (zh)
KR (1) KR101337094B1 (zh)
CN (1) CN103930569B (zh)
WO (1) WO2013081333A1 (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
CA2865575C (en) 2012-02-27 2024-01-16 Cellular Research, Inc. Compositions and kits for molecular counting
KR101522087B1 (ko) * 2013-06-19 2015-05-28 삼성에스디에스 주식회사 미스매치를 고려한 염기 서열 정렬 시스템 및 방법
KR101525303B1 (ko) * 2013-06-20 2015-06-02 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
SG10201806890VA (en) 2013-08-28 2018-09-27 Cellular Res Inc Massively parallel single cell analysis
EP3055676A1 (en) 2013-10-07 2016-08-17 Cellular Research, Inc. Methods and systems for digitally counting features on arrays
KR101538852B1 (ko) * 2013-10-31 2015-07-22 삼성에스디에스 주식회사 정확도를 고려한 염기 서열 정렬 장치 및 방법
US20160289669A1 (en) * 2015-01-22 2016-10-06 Becton, Dickinson And Company Devices and systems for molecular barcoding of nucleic acid targets in single cells
CN107250379B (zh) 2015-02-19 2021-12-28 贝克顿迪金森公司 结合蛋白质组信息和基因组信息的高通量单细胞分析
EP3262192B1 (en) 2015-02-27 2020-09-16 Becton, Dickinson and Company Spatially addressable molecular barcoding
ES2934982T3 (es) 2015-03-30 2023-02-28 Becton Dickinson Co Métodos para la codificación con códigos de barras combinatorios
WO2016172373A1 (en) 2015-04-23 2016-10-27 Cellular Research, Inc. Methods and compositions for whole transcriptome amplification
US11124823B2 (en) 2015-06-01 2021-09-21 Becton, Dickinson And Company Methods for RNA quantification
US10619186B2 (en) 2015-09-11 2020-04-14 Cellular Research, Inc. Methods and compositions for library normalization
EP4269616A3 (en) 2016-05-02 2024-02-14 Becton, Dickinson and Company Accurate molecular barcoding
US10301677B2 (en) 2016-05-25 2019-05-28 Cellular Research, Inc. Normalization of nucleic acid libraries
EP3465502B1 (en) 2016-05-26 2024-04-10 Becton, Dickinson and Company Molecular label counting adjustment methods
US10640763B2 (en) 2016-05-31 2020-05-05 Cellular Research, Inc. Molecular indexing of internal sequences
US10202641B2 (en) 2016-05-31 2019-02-12 Cellular Research, Inc. Error correction in amplification of samples
EP3516400B1 (en) 2016-09-26 2023-08-16 Becton, Dickinson and Company Measurement of protein expression using reagents with barcoded oligonucleotide sequences
EP3539035B1 (en) 2016-11-08 2024-04-17 Becton, Dickinson and Company Methods for expression profile classification
JP7228510B2 (ja) 2016-11-08 2023-02-24 ベクトン・ディキンソン・アンド・カンパニー 細胞標識分類の方法
US10722880B2 (en) 2017-01-13 2020-07-28 Cellular Research, Inc. Hydrophilic coating of fluidic channels
WO2018144240A1 (en) 2017-02-01 2018-08-09 Cellular Research, Inc. Selective amplification using blocking oligonucleotides
JP2020522262A (ja) 2017-06-05 2020-07-30 ベクトン・ディキンソン・アンド・カンパニーBecton, Dickinson And Company 単一細胞用のサンプルインデックス付加
CN111492068A (zh) 2017-12-19 2020-08-04 贝克顿迪金森公司 与寡核苷酸相关联的颗粒
US11773441B2 (en) 2018-05-03 2023-10-03 Becton, Dickinson And Company High throughput multiomics sample analysis
EP3788170A1 (en) 2018-05-03 2021-03-10 Becton, Dickinson and Company Molecular barcoding on opposite transcript ends
US11639517B2 (en) 2018-10-01 2023-05-02 Becton, Dickinson And Company Determining 5′ transcript sequences
JP2022506546A (ja) 2018-11-08 2022-01-17 ベクトン・ディキンソン・アンド・カンパニー ランダムプライミングを使用した単一細胞の全トランスクリプトーム解析
CN113195717A (zh) 2018-12-13 2021-07-30 贝克顿迪金森公司 单细胞全转录组分析中的选择性延伸
WO2020150356A1 (en) 2019-01-16 2020-07-23 Becton, Dickinson And Company Polymerase chain reaction normalization through primer titration
EP4242322A3 (en) 2019-01-23 2023-09-20 Becton, Dickinson and Company Oligonucleotides associated with antibodies
WO2020214642A1 (en) 2019-04-19 2020-10-22 Becton, Dickinson And Company Methods of associating phenotypical data and single cell sequencing data
US11939622B2 (en) 2019-07-22 2024-03-26 Becton, Dickinson And Company Single cell chromatin immunoprecipitation sequencing assay
JP2023500679A (ja) 2019-11-08 2023-01-10 ベクトン・ディキンソン・アンド・カンパニー 免疫レパートリーシーケンシングのための完全長v(d)j情報を得るためのランダムプライミングの使用
EP4090763A1 (en) 2020-01-13 2022-11-23 Becton Dickinson and Company Methods and compositions for quantitation of proteins and rna
EP4150118A1 (en) 2020-05-14 2023-03-22 Becton Dickinson and Company Primers for immune repertoire profiling
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
CN116635533A (zh) 2020-11-20 2023-08-22 贝克顿迪金森公司 高表达的蛋白和低表达的蛋白的谱分析

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173631A1 (en) * 2004-12-14 2006-08-03 New York University Methods, software arrangements and systems for aligning sequences which utilizes non-affine gap penalty procedure

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100681795B1 (ko) 2006-11-30 2007-02-12 한국정보통신대학교 산학협력단 그리드 컴퓨팅 환경에서의 유전체 서열 정렬 방법 및프로그램 저장 매체
KR101201626B1 (ko) * 2009-11-04 2012-11-14 삼성에스디에스 주식회사 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173631A1 (en) * 2004-12-14 2006-08-03 New York University Methods, software arrangements and systems for aligning sequences which utilizes non-affine gap penalty procedure

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A metagenome Binning Method using Genome Assembly and Reference Alignment;Yunku Yeo et al;《Yonei Univesity Master"s thesis》;20101231;摘要 *
基于新测序技术的比对与组装方法;牛北方等;《计算机工程》;20091030;第35卷(第20期);对比文件1第4-5页以及图1 *

Also Published As

Publication number Publication date
KR20130060744A (ko) 2013-06-10
US20140309945A1 (en) 2014-10-16
KR101337094B1 (ko) 2013-12-05
WO2013081333A1 (ko) 2013-06-06
CN103930569A (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
CN103930569B (zh) 碱基序列对准装置及其方法
Hounkpe et al. HRT Atlas v1. 0 database: redefining human and mouse housekeeping genes and candidate reference transcripts by mining massive RNA-seq datasets
Heo et al. Modeling of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) proteins by machine learning and physics-based refinement
Jauch et al. Assessment of CASP7 structure predictions for template free targets
Fang et al. Getting started in gene orthology and functional analysis
Glaser et al. A method for localizing ligand binding pockets in protein structures
Kinch et al. Evaluation of free modeling targets in CASP11 and ROLL
Rychlewski et al. LiveBench‐8: the large‐scale, continuous assessment of automated protein structure prediction
US10734117B2 (en) Apparatuses and methods for determining a patient&#39;s response to multiple cancer drugs
Kihara et al. The PDB is a covering set of small protein structures
MacCallum et al. Assessment of protein structure refinement in CASP9
Yang et al. Template‐based protein structure prediction in CASP11 and retrospect of I‐TASSER in the last decade
Hosur et al. iWRAP: an interface threading approach with application to prediction of cancer-related protein–protein interactions
Lin et al. AGORA: assembly guided by optical restriction alignment
Hovan et al. Assessment of the model refinement category in CASP12
Zhang et al. IsRNA1: de novo prediction and blind screening of RNA 3D structures
Venclovas Comparative modeling in CASP5: progress is evident, but alignment errors remain a significant hindrance
EP2923293B1 (en) Efficient comparison of polynucleotide sequences
Jones et al. A verified genomic reference sample for assessing performance of cancer panels detecting small variants of low allele frequency
KR102425673B1 (ko) 시퀀싱 데이터 리드 재정렬 방법
US8731843B2 (en) Oligomer sequences mapping
Salter et al. Biomarkers: refining diagnosis and expediting drug development–reality, aspiration and the role of open innovation
Heo et al. Improved sampling strategies for protein model refinement based on molecular dynamics simulation
Moult Rigorous performance evaluation in protein structure modelling and implications for computational biology
Kundrotas et al. Modeling CAPRI targets 110‐120 by template‐based and free docking using contact potential and combined scoring function

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20191123

CF01 Termination of patent right due to non-payment of annual fee