CN104239748A - 考虑失配的碱基序列对准系统及方法 - Google Patents

考虑失配的碱基序列对准系统及方法 Download PDF

Info

Publication number
CN104239748A
CN104239748A CN201410275667.2A CN201410275667A CN104239748A CN 104239748 A CN104239748 A CN 104239748A CN 201410275667 A CN201410275667 A CN 201410275667A CN 104239748 A CN104239748 A CN 104239748A
Authority
CN
China
Prior art keywords
movie section
short
error
permissible value
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410275667.2A
Other languages
English (en)
Inventor
朴旻壻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of CN104239748A publication Critical patent/CN104239748A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种考虑失配的碱基序列对准系统及方法。根据本发明的一个实施例的一种碱基序列对准系统,包括:误差允许值计算单元,根据所接收的短片段的长度而计算所述短片段的误差允许值;比较单元,计算所述短片段的误差个数估计值,并将计算出的所述误差个数估计值与所述误差允许值进行比较;对准单元,当所述比较的结果为计算出的所述误差个数估计值在所述误差允许值以下时,执行所接收的所述短片段的针对所述参考序列的全局对准(global alignment)。

Description

考虑失配的碱基序列对准系统及方法
技术领域
本发明的实施例涉及一种利用于遗传信息解读作业的碱基序列对准(alignment)技术。
背景技术
碱基序列对准算法是指将由用于生产碱基序列的测序机(或测序仪)产生的短片段(read)映射(mapping)于已知的参考序列(Reference Sequence)的算法。
参考序列与短片段序列之间的碱基序列对准基本上基于利用碱基序列的同源性(homology)的精确匹配(exact matching)。然而由于测序过程中的误差以及生命体的遗传信息上的变异(polymorphism)等,允许一定程度的误差(失配:mismatch)的对准方法在碱基序列对准算法中实为必要,据此现有的碱基序列对准算法被构成为在分别规定的范围内允许误差。
另外,近来随着下一代测序技术的发展,制造出短片段的成本减为之前的一半以下,据此可供使用的数据的量增加的同时生产出的短片段的长度也趋于多样化。即,不仅每一个测序仪所生产出的短片段的长度不同,而且在一个测序仪中也在生成出不同长度的短片段(短片段序列)。并且由于测序仪的发达而使测序仪中生产出的短片段的长度亦逐渐增加,而对于以后要开发出的第三代测序仪来说,短片段的长度预计将会增加到5000bp。然而对于现有技术中的碱基序列对准算法而言,仅仅是根据测序仪制造商或者用户设定的值(固定值)而机械地应用误差允许值,却未能考虑产生的短片段的特性而可变地采用误差允许值,于是存在不能反映输出的短片段的长度趋于多样化且其长度也在增加的状况的问题。
发明内容
本发明的实施例的目的在于根据从测序仪接收的短片段的特性而按短片段分别计算最优的误差允许值以提高碱基序列分析的准确度。
根据本发明的一个实施例的一种碱基序列对准系统,包括:误差允许值计算单元,根据接收的短片段的长度而计算所述短片段的误差允许值;比较单元,计算所述短片段的误差个数估计值,并将计算出的所述误差个数估计值与所述误差允许值进行比较;对准单元,当所述比较的结果为计算出的所述误差个数估计值为所述误差允许值以下时,执行所接收的所述短片段的针对所述参考序列的全局对准(global alignment)。
可将所述误差允许值设定为与所述短片段的长度成比例。
所述误差允许值可通过如下的数学式进行计算:
0<误差允许值≤ceil(A×Rlength+B)+K
其中,Rlength为短片段的长度,A为0.02与0.05之间的实数,B为2.2以上且2.6以下的实数,K为0以上且2以下的实数,ceil(X)为大于或等于X的整数中最小的整数。
所述比较单元可从所述短片段的第一个碱基开始每次移动至少一个碱基而将所述短片段精确匹配于所述参考序列,且如果在所述短片段的特定位置上无法实现精确匹配,则从相关位置的下一个碱基开始每次移动至少一个碱基而重新执行精确匹配,当到达所述短片段的最后一个碱基时,所述比较单元可将被判断为无法精确匹配的位置的个数设定为所述短片段的误差个数估计值。
所述比较单元在所述比较的结果为计算出的所述误差个数估计值超过所述误差允许值的情况下,可废弃所述短片段。
另一方面,根据本发明的一个实施例的一种碱基序列对准方法,包括如下步骤:在误差允许值计算单元中,根据接收的短片段的长度而计算所述短片段的误差允许值;在比较单元中,计算所述短片段的误差个数估计值;在所述比较单元中,将计算出的所述误差个数估计值与所述误差允许值进行比较;在对准单元中,当所述比较的结果为计算出的所述误差个数估计值为所述误差允许值以下时,执行所接收的所述短片段的针对所述参考序列的全局对准(global alignment)。
可将所述误差允许值设定为与所述短片段的长度成比例。
所述误差允许值可通过如下的数学式进行计算:
0<误差允许值≤ceil(A×Rlength+B)+K
其中,Rlength为短片段的长度,A为0.02与0.05之间的实数,B为2.2以上且2.6以下的实数,K为0以上且2以下的实数,ceil(X)为大于或等于X的整数中最小的整数。
在计算所述误差个数估计值的步骤中,可从所述短片段的第一个碱基开始每次移动至少一个碱基而将所述短片段精确匹配于所述参考序列,且如果在所述短片段的特定位置上无法实现精确匹配,则从相关位置的下一个碱基开始每次移动至少一个碱基而重新执行精确匹配,当到达所述短片段的最后一个碱基时,可将被判断为无法精确匹配的位置的个数设定为所述短片段的误差个数估计值。
进行所述比较的步骤还可以包括如下步骤:当所述比较的结果为计算出的所述误差个数估计值超过所述误差允许值时,废弃所述短片段。
根据本发明的实施例,根据从测序仪接收的短片段的特性而按短片段分别采用最优的误差允许值,从而具有不论由测序仪生产出的短片段的特性如何均可维持碱基序列分析的准确率的优点。据此,根据本发明的实施例,与测序仪的种类无关而能够分析由多种测序仪生产出的所有种类的短片段。
附图说明
图1为用于说明根据本发明的一个实施例的碱基序列对准系统100的模块图。
图2为用于举例表示在根据本发明的一个实施例的碱基序列对准系统100的比较单元104中的mEB计算过程的图。
图3为用于说明根据本发明的一个实施例的碱基序列对准方法300的顺序图。
符号说明:
100:碱基序列对准系统 102:误差允许值计算单元
104:比较单元         106:对准单元
具体实施方式
以下,参照附图而对本发明的具体实施方式进行说明。然而这仅仅是示例,本发明并不局限于此。
在对本发明进行说明时,如果认为对有关本发明的公知技术的具体说明有可能对本发明的主旨造成不必要的混乱,则省略其详细说明。另外,后述的术语为考虑到在本发明中的功能而定义的术语,其可能因使用者、运用者的意图或惯例等而不同。因此,要以整个说明书的内容为基础而对其进行定义。
本发明的技术思想由权利要求书确定,以下的实施例只是用于将本发明的技术思想有效地说明给本发明所属技术领域中具有普通知识的人员的一种手段。
在对本发明的实施例进行详细说明之前,先对本发明中使用的术语进行如下说明。首先,“短片段(read)”是指由基因组测序仪(genome sequencer)输出的短小长度的碱基序列数据。短片段的长度通常为根据测序仪的类型而多样地构成为35~500bp(base pair,碱基对)左右,通常对于DNA碱基而言是用字母A、C、G、T来表示。
“参考序列(reference sequence)”是指从所述短片段生成整个碱基序列时作为参照的碱基序列。在碱基序列分析中,是通过参照参考序列而将基因组测序仪中输出的大量短片段进行映射以完成整个碱基序列。在本发明中,所述参考序列既可以是在碱基序列分析时预先设定的序列(例如,人类的整个碱基序列等),也可以将在基因组测序仪中制作出的碱基序列使用为参考序列。
“碱基(base)”为构成参考序列和短片段的最小单位。如前所述,对于DNA碱基而言可以由A、C、G、T这四种字母构成,将这些分别称为碱基。即,对于DNA碱基而言,通过四个碱基来表达,这对于短片段也一样。只是对于参考序列而言,由于多种多样的原因(测序错误、样本错误等),可能会出现特定位置的碱基不知该用A、C、G或T中的哪种碱基去表示的情形,对于这种不明确的碱基通常是用N等专门的文字进行标记。
“种子(seed)”是指为了短片段的映射而将短片段与参考序列进行比较时成为单位的序列。理论上,为了将短片段映射于参考序列,需要将整个短片段从参考序列的起始部分开始依次比较下去并计算短片段的映射位置。然而对于这种方法而言,映射一个短片段需要太长的时间和超强的计算能力,因此实际上是首先将作为由短片段的一部分构成的片段的种子映射于参考序列而寻找出整个短片段的映射候选位置,并将整个短片段映射于对应的候选位置(Global Alignment,全局对准)。
图1为用于说明根据本发明的一个实施例的碱基序列对准系统100的模块图。如图所示,根据本发明的一个实施例的碱基序列对准系统100包括:误差允许值计算单元102、比较单元104、以及对准单元106。
误差允许值计算单元102从测序仪等接收短片段,并根据所接收的短片段的长度而计算所述短片段的误差允许值。
比较单元104计算所接收的所述短片段的误差个数估计值,并将计算出的所述误差个数允许值与由误差允许值计算单元102计算出的误差允许值进行比较。
对准单元106针对在比较单元104中进行比较的结果为误差个数估计值在所述误差允许值以下的短片段,执行针对所述参考序列的全局对准(globalalignment)。
以下对如上所述构成的根据本发明的一个实施例的碱基序列对准系统100的构成进行详细说明。
计算误差允许值
如前所述,误差允许值计算单元102根据从测序仪等接收的短片段的长度而计算所述短片段的误差允许值(MaxError)。此时,所述误差允许值是指相关短片段内可存在的误差的最大值。在本发明的实施例中,可将所述误差允许值设定为与输入的短片段的长度成比例。即,随着短片段的长度增加,由于测序错误、遗传信息上的变异(polymorphism)等而使短片段中包含误差的可能性增加。因此,如果不论短片段的长度如何而采用统一的误差允许值,则可能出现特别是长度较长的短片段在碱基序列分析中被过多地排除的问题。因此,本发明的实施例构成为,根据输入的短片段的长度而可变地采用误差允许值,从而能够在短片段中应用最优的误差允许值。
在一个实施例中,所述误差允许值可通过如下的数学式1而进行计算。
[数学式]
0<误差允许值≤ceil(A×Rlength+B)+K
在此,Rlength表示短片段的长度,A表示0.02与0.05之间的实数,B表示2.2以上且2.6以下的实数,K表示0以上且2以下的实数,ceil(X)表示大于或等于X的整数中最小的整数。
例如在设定成A=0.037、B=2.399、K=2的情况下,长度为100bp的短片段的误差允许值为ceil(0.037×100+2.399)+2=9。
计算误差个数估计值
然后对比较单元104中的误差个数估计值计算过程进行说明。在本发明的实施例中,误差个数的估计可通过计算将所述短片段对准于所述参考序列时可能出现的误差的最小值(mEB:minimum Error Bound)而实现。具体而言,可将比较单元104构成为从短片段的第一个碱基开始每次移动一个碱基而将所述短片段精确匹配于参考序列,且如果在所述短片段的特定位置上无法实现精确匹配,则从相关位置的下一个碱基开始每次移动一个碱基而重新执行精确匹配。当经过这样的过程而到达所述短片段的最后一个碱基时,比较单元104可将移动过程中被判断为无法精确匹配的位置的个数设定为所述短片段的误差个数估计值。
图2为用于举例表示比较单元104中的mEB计算过程的图。首先,如图2的(a)所示,起初将mEB设定为0,并从短片段的第一个碱基开始朝短片段的末尾方向每次至少移动一个碱基(在本实施例中为每次移动一个碱基)而尝试精确匹配。此时,如图2的(b)所示,假设从短片段的特定碱基(在图中以箭头表示的部分)开始无法再进行精确匹配。这一情况表示从短片段的匹配起始位置到当前位置之间的区间某处出现了误差。因此在这一情况下便将mEB增加1,并在下一个位置上重新开始精确匹配(图中以(c)表示)。此后如果在特定位置上再次判断为无法精确匹配,则说明从重新开始精确匹配的位置到当前位置之间的区间某处又出现了误差,因此再将mEB增加1,并在下一个位置重新开始精确匹配(图中以(d)表示)。经过这样的过程而到达短片段的末尾时的mEB成为相关短片段中可能存在的误差个数的最小值。
比较误差允许值(MaxError)与误差个数估计值(mEB)
如果经过如上所述的过程而计算出误差允许值(MaxError)和误差个数估计值(mEB),比较单元104接着就会比较计算出的所述误差个数估计值与误差允许值。如果所述比较的结果为误差个数估计值超过误差允许值(mEB>MaxError),则比较单元104判断相关短片段不再是对准的考虑对象,从而废弃相关短片段。
但如果所述比较结果为误差个数估计值在误差允许值以下(mEB≤MaxError),则比较单元104向对准单元106请求相关短片段的对准,而对准单元106执行相关短片段的针对所述参考序列的全局对准(globalalignment)。
在本发明的实施例中,对准单元106中的短片段对准方法并不特别受限,本发明所属技术领域中公知的方法均可不加限制地使用。在一个实施例中,对准单元106可以由短片段生成一个以上的种子,并将生成的种子映射于参考序列,然后在种子的映射位置上执行短片段的其余碱基的全局对准,从而将短片段对准于参考序列。此外,对准单元106还可以考虑短片段的特性等而根据多种多样的算法将短片段对准于参考序列。
图3为用于说明根据本发明的一个实施例的碱基序列对准方法300的顺序图。
当有短片段从测序仪输入时(302),首先由误差允许值计算单元102根据所输入的短片段的长度而计算所述短片段的误差允许值(MaxError)(304)。如前所述,可将所述误差允许值设定为与所述短片段的长度成比例,例如可以像前述的数学式1一样计算误差允许值。
另外,虽然没有图示,然而在执行所述误差允许值计算步骤(步骤304)之前,还可以包括尝试相关短片段对参考序列的精确匹配(exact matching)的步骤。在此情况下,如果所述短片段精确匹配于参考序列,则可以不用经过以下的步骤而直接判断为相关短片段对准成功。
如果计算出误差允许值,比较单元104接着就会计算所述短片段的误差个数估计值(mEB)(306)。关于所述误差个数估计值的具体计算过程已在前面阐述。
然后,比较单元104将计算出的所述误差个数估计值(mEB)与所述误差允许值(MaxError)进行比较(308)。如果所述步骤308的比较结果为误差个数估计值超过误差允许值(mEB>MaxError),则比较单元104判断相关短片段不再是对准的考虑对象,从而废弃相关短片段(310)。然而,与此不同地,如果所述比较结果为误差个数估计值在误差允许值以下(mEB≤MaxError),则对准单元106执行相关短片段的针对所述参考序列的全局对准(global alignment)(312)。
另外,本发明的实施例可以包括记录有用于在计算机上执行本说明书中记载的方法的程序的计算机可读记录介质。所述计算机可读记录介质可将程序命令、本地数据文件、本地数据结构等单独或组合而包含在内。所述介质可以是为了本发明而特别设计并构成的,也可以是被计算机软件领域中具有普通知识的人员所公知而可以使用的。计算机可读记录介质的例中有硬盘、软盘、磁带之类的磁介质;CD-ROM、DVD之类的光记录介质;软盘之类的磁光介质以及ROM、RAM、闪存等为了存储并执行程序命令而特别构成的硬件装置。程序命令的例中不仅包括通过编译器制作的机器语言代码,而且还可以包括利用解释器并通过计算机而得以执行的高级语言代码。
以上已通过代表性实施例而对本发明进行了详细说明,然而本发明所属技术领域中具有普通知识的人员应该会理解可以在不脱离本发明范围的限度内对所述的实施例进行多种多样的变形。
因此,本发明的权利范围不应局限于所述的实施例而确定,而是要根据权利要求书及其等价内容来确定。

Claims (10)

1.一种碱基序列对准系统,包括:
误差允许值计算单元,根据所接收的短片段的长度而计算所述短片段的误差允许值;
比较单元,计算所述短片段的误差个数估计值,并将计算出的所述误差个数估计值与所述误差允许值进行比较;
对准单元,当所述比较的结果为计算出的所述误差个数估计值在所述误差允许值以下时,执行所接收的所述短片段的针对所述参考序列的全局对准。
2.如权利要求1所述的碱基序列对准系统,其中,所述误差允许值被设定为与所述短片段的长度成比例。
3.如权利要求2所述的碱基序列对准系统,其中,所述误差允许值通过如下的数学式进行计算:
0<误差允许值≤ceil(A×Rlength+B)+K,
其中,Rlength为短片段的长度,A为0.02与0.05之间的实数,B为2.2以上且2.6以下的实数,K为0以上且2以下的实数,ceil(X)为大于或等于X的整数中最小的整数。
4.如权利要求1所述的碱基序列对准系统,其中,所述比较单元从所述短片段的第一个碱基开始每次移动至少一个碱基而将所述短片段精确匹配于所述参考序列,且如果在所述短片段的特定位置上无法实现精确匹配,则从相关位置的下一个碱基开始每次移动至少一个碱基而重新执行精确匹配,当到达所述短片段的最后一个碱基时,所述比较单元将被判断为无法精确匹配的位置的个数设定为所述短片段的误差个数估计值。
5.如权利要求1所述的碱基序列对准系统,其中,所述比较单元在所述比较的结果为计算出的所述误差个数估计值超过所述误差允许值的情况下,废弃所述短片段。
6.一种碱基序列对准方法,包括如下步骤:
在误差允许值计算单元中,根据所接收的短片段的长度而计算所述短片段的误差允许值;
在比较单元中,计算所述短片段的误差个数估计值;
在所述比较单元中,将计算出的所述误差个数估计值与所述误差允许值进行比较;
在对准单元中,当所述比较的结果为计算出的所述误差个数估计值为所述误差允许值以下时,执行所输入的所述短片段的针对所述参考序列的全局对准。
7.如权利要求6所述的碱基序列对准方法,其中,所述误差允许值被设定为与所述短片段的长度成比例。
8.如权利要求7所述的碱基序列对准方法,其中,所述误差允许值为通过如下的数学式进行计算:
0<误差允许值≤ceil(A×Rlength+B)+K,
其中,Rlength为短片段的长度,A为0.02与0.05之间的实数,B为2.2以上且2.6以下的实数,K为0以上且2以下的实数,ceil(X)为大于或等于X的整数中最小的整数。
9.如权利要求6所述的碱基序列对准方法,其中,在计算所述误差个数估计值的步骤中,从所述短片段的第一个碱基开始每次移动至少一个碱基而将所述短片段精确匹配于所述参考序列,且如果在所述短片段的特定位置上无法实现精确匹配,则从相关位置的下一个碱基开始每次移动至少一个碱基而重新执行精确匹配,当到达所述短片段的最后一个碱基时,将被判断为无法精确匹配的位置的个数设定为所述短片段的误差个数估计值。
10.如权利要求6所述的碱基序列对准方法,其中,进行所述比较的步骤还包括如下步骤:
当所述比较的结果为计算出的所述误差个数估计值超过所述误差允许值时,废弃所述短片段。
CN201410275667.2A 2013-06-19 2014-06-19 考虑失配的碱基序列对准系统及方法 Pending CN104239748A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130070454A KR101522087B1 (ko) 2013-06-19 2013-06-19 미스매치를 고려한 염기 서열 정렬 시스템 및 방법
KR10-2013-0070454 2013-06-19

Publications (1)

Publication Number Publication Date
CN104239748A true CN104239748A (zh) 2014-12-24

Family

ID=52111581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410275667.2A Pending CN104239748A (zh) 2013-06-19 2014-06-19 考虑失配的碱基序列对准系统及方法

Country Status (3)

Country Link
US (1) US20140379270A1 (zh)
KR (1) KR101522087B1 (zh)
CN (1) CN104239748A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480897B1 (ko) * 2012-10-29 2015-01-12 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
CA3040057A1 (en) 2016-10-11 2018-04-19 Genomsys Sa Method and apparatus for the access to bioinformatics data structured in access units
EP3526694A4 (en) * 2016-10-11 2020-08-12 Genomsys SA PROCEDURE AND SYSTEM FOR SELECTIVE ACCESS TO STORED OR SENT BIOINFORMATICS DATA
CN118412041A (zh) * 2024-07-03 2024-07-30 齐鲁工业大学(山东省科学院) 一种dna测序数据匹配增强方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328601A (zh) * 1998-08-25 2001-12-26 斯克利普斯研究院 预测蛋白质功能的方法和系统
CN101065397A (zh) * 2004-09-28 2007-10-31 詹森药业有限公司 一种细菌atp合酶的结合结构域
CN101680872A (zh) * 2007-04-13 2010-03-24 塞昆纳姆股份有限公司 序列比较分析方法和系统
US20110136686A1 (en) * 2009-12-09 2011-06-09 Oracle International Corporation Sequence matching allowing for errors
CN102625347A (zh) * 2011-02-01 2012-08-01 中兴通讯股份有限公司 多点协作信息交互、切换及CoMP传输恢复方法和系统
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101201626B1 (ko) * 2009-11-04 2012-11-14 삼성에스디에스 주식회사 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법
KR101337094B1 (ko) * 2011-11-30 2013-12-05 삼성에스디에스 주식회사 염기 서열 정렬 장치 및 그 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328601A (zh) * 1998-08-25 2001-12-26 斯克利普斯研究院 预测蛋白质功能的方法和系统
CN101065397A (zh) * 2004-09-28 2007-10-31 詹森药业有限公司 一种细菌atp合酶的结合结构域
CN101680872A (zh) * 2007-04-13 2010-03-24 塞昆纳姆股份有限公司 序列比较分析方法和系统
US20110136686A1 (en) * 2009-12-09 2011-06-09 Oracle International Corporation Sequence matching allowing for errors
CN102625347A (zh) * 2011-02-01 2012-08-01 中兴通讯股份有限公司 多点协作信息交互、切换及CoMP传输恢复方法和系统
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统

Also Published As

Publication number Publication date
KR101522087B1 (ko) 2015-05-28
KR20140147360A (ko) 2014-12-30
US20140379270A1 (en) 2014-12-25

Similar Documents

Publication Publication Date Title
Limasset et al. Read mapping on de Bruijn graphs
US10192026B2 (en) Systems and methods for genomic pattern analysis
Numanagić et al. Fast characterization of segmental duplications in genome assemblies
Behr et al. MITIE: Simultaneous RNA-Seq-based transcript identification and quantification in multiple samples
Lin et al. AGORA: assembly guided by optical restriction alignment
Marschall et al. Efficient exact motif discovery
CN103793627B (zh) 碱基序列比对系统及方法
CN104239748A (zh) 考虑失配的碱基序列对准系统及方法
CN114420215B (zh) 基于生成树的大规模生物数据聚类方法及系统
CN103793628A (zh) 考虑整个短片段的碱基序列比对系统及方法
US20170017717A1 (en) Sequence Data Analyzer, DNA Analysis System and Sequence Data Analysis Method
Wei et al. CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data
WO2014034557A1 (ja) テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
US20150142328A1 (en) Calculation method for interchromosomal translocation position
EP4038614A1 (en) System and methods for the efficient identification and extraction of sequence paths in genome graphs
Marić Long read RNA-seq mapper
Otto From sequence mapping to genome assemblies
CN104239749A (zh) 碱基序列对准系统及方法
US20120330563A1 (en) Assembly Error Detection
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법
Winters-Hilt et al. A metastate HMM with application to gene structure identification in eukaryotes
CN111326216B (zh) 一种针对大数据基因测序文件的快速划分方法
Bloniarz et al. Changepoint analysis for efficient variant calling
CN103793623A (zh) 碱基序列重组系统及方法
Greenberg et al. Improving bacterial genome assembly using a test of strand orientation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141224