CN111899791A - 一种基于基因序列相似的病毒源头筛选方法 - Google Patents

一种基于基因序列相似的病毒源头筛选方法 Download PDF

Info

Publication number
CN111899791A
CN111899791A CN202010551838.5A CN202010551838A CN111899791A CN 111899791 A CN111899791 A CN 111899791A CN 202010551838 A CN202010551838 A CN 202010551838A CN 111899791 A CN111899791 A CN 111899791A
Authority
CN
China
Prior art keywords
gene
virus
retgene
gene sequence
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010551838.5A
Other languages
English (en)
Other versions
CN111899791B (zh
Inventor
刘杨
刘子超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010551838.5A priority Critical patent/CN111899791B/zh
Publication of CN111899791A publication Critical patent/CN111899791A/zh
Application granted granted Critical
Publication of CN111899791B publication Critical patent/CN111899791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于基因序列相似的病毒源头筛选方法,属于生物基因数据处理技术领域。本发明先获取目前已知病毒的基因序列及其对应的病毒源头信息,组建病毒基因数据库;接着对病毒基因序列进行切片,得到基因片段;对待测病毒基因序列也按照相同切片手段切割成若干基因片段,根据基因序列相似算法在数据库中检索其相似的病毒基因片段,以实现查找病毒源头的目的。本发明与现有技术相比,主要解决了现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等现象,在保证对比效率的同时优化了匹配的准确度,实现了高质量的病毒源头筛选工作。

Description

一种基于基因序列相似的病毒源头筛选方法
技术领域
本发明涉及一种基于基因序列相似的病毒源头筛选方法,属于生物基因数据处理技术领域。
背景技术
在当今生物基因数据处理领域,已经有成熟的动态规划算法用于基因序列相似比对中,如BlasT和FASTA。通过动态规划算法,可以有效地计算待测基因序列与数据库中现有基因序列的相似程度。
然而,就病毒基因而言,在现有动态规划算法的实际应用中,因病毒变异而导致的匹配失败现象非常多,从而拉低了整体的匹配准确度。现有技术公开了申请号为201910807357.3的一种基因序列比对方法及装置,可以根据待检测的基因序列生成第一哈希值序列;将第一哈希值序列分别与标准哈希值序列中的各哈希值子序列进行比对,确定第一哈希值序列分别相对于各哈希值子序列的比对结果,比对结果为相同或不相同,其中,标准哈希值序列根据标准基因序列生成;根据比对结果确定第一数量和第二数量,根据第一数量和第二数量确定待检测的基因序列与标准基因序列的匹配程度,其中,各比对结果中为不相同的比对结果的数量为第一数量,各比对结果中为相同的比对结果对应的各哈希值子序列中相邻的哈希值子序列的数量为第二数量。该技术同样可造成因病毒变异而导致的匹配失败现象,为了提高病毒基因的匹配,发现病毒源头信息,还是需要一种高准确度的基因序列相似算法。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于基因序列相似的病毒源头筛选方法,以解决现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等问题。
本发明的技术方案是:一种基于基因序列相似的病毒源头筛选方法,具体步骤为:
Step1:获取目前已知病毒virusi,i∈[1,D]的基因序列genei,i∈[1,D]及其对应的病毒源头信息infoi,i∈[1,D],组建病毒基因数据库,其中D为病毒基因数据库中病毒的个数。
Step2:对病毒基因数据库中的病毒基因序列genei,i∈[1,D]进行M段切片,如公式(1)所示,其中genei,j,i∈[1,D],j∈[1,M]为病毒基因序列genei,i∈[1,D]的基因片段。
genei=[genei,1,genei,2,…,genei,M],i∈[1,D] (1)
Step3:对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段,如公式(2)所示,其中retgenej,j∈[1,M]为待测病毒基因序列retgene的基因片段。
retgene=[retgene1,retgene2,…,retgeneM] (2)
Step4:根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]相似的病毒基因片段genei,j,i∈[1,D],j∈[1,M],若两者的相似度sim≥α,则将病毒基因片段genei,j,i∈[1,D],j∈[1,M]所对应的病毒virusi,i∈[1,D]、病毒基因序列genei,i∈[1,D]以及病毒源头信息infoi,i∈[1,D]输出。
进一步地,所述Step1中,所述病毒通常指DNA病毒,且病毒有明确的源头信息。
进一步地,所述Step2中,M段切片通常是均等分切片,切片后的基因片段无交叉重复部分;也可以使用滑动窗口的方式切片,切片后的基因片段有交叉重复部分;两者均可进行接下来步骤的工作。
进一步地,所述Step4中,基因序列相似算法的具体实施步骤如下:
为描述方便,接下来将待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]记为X,将数据库中的病毒基因片段genei,j,i∈[1,D],j∈[1,M]记为Y。
Step4.1:通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx,以及数据库中的病毒基因片段Y的基因长度leny,并生成检测矩阵I(X,Y)lenx×leny
Step4.2:根据公式(3)计算匹配窗口值MW。
Figure BDA0002542814360000021
Step4.3:由检测矩阵I(X,Y)lenx×leny及匹配窗口值MW,计算匹配基因数m和匹配基因换位数n。
对于匹配基因数m的计算,若基因片段X和Y中相同基因相差距离小于匹配窗口值MW,则视为该基因匹配,但应注意在匹配过程中,需排除被匹配过的基因,若找到匹配基因,则需跳出此次匹配,进行下一基因的匹配。
而对于匹配基因换位数n的计算,则需看基因片段X和Y中对于匹配基因集的顺序是否一致,若不一致,则换位数目的一半即为匹配基因换位数n。
另外,匹配基因数m和匹配基因换位数n理应满足公式(4)的要求。
Figure BDA0002542814360000022
Step4.4:由上述步骤所得匹配基因数m和匹配基因换位数n,根据公式(5)计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的初步相似度fsim:
Figure BDA0002542814360000031
Step4.5:获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY,并得到其长度lenxy。
Step4.6:根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim。
其中,b为是否需要进一步计算的阈值,p为缩放因子。
Figure BDA0002542814360000032
Step4.7:定义相似阈值α,若待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim≥α,则将病毒基因片段Y所对应的病毒、病毒基因序列以及病毒源头信息输出。
所述Step4中,基因序列相似算法使用基因窗口值匹配方法,可以很好地克服因基因变异而导致的匹配失败现象,从而提高匹配的准确度。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等现象,在保证对比效率的同时优化了匹配的准确度,实现了高质量的病毒源头筛选工作。
附图说明
图1是本发明的步骤流程图;
图2是本发明基因序列均等分切片图;
图3是本发明基因序列滑动窗口切片图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于基因序列相似的病毒源头筛选方法,首先获取目前已知病毒的基因序列及其对应的病毒源头信息,组建病毒基因数据库;接着对病毒基因序列进行切片,得到基因片段;对待测病毒基因序列也按照相同切片手段切割成若干基因片段,根据基因序列相似算法在数据库中检索其相似的病毒基因片段,以实现查找病毒源头的目的。
具体步骤为:
Step1:获取目前已知病毒virusi,i∈[1,D]的基因序列genei,i∈[1,D]及其对应的病毒源头信息infoi,i∈[1,D],组建病毒基因数据库,其中D为病毒基因数据库中病毒的个数;
Step2:对病毒基因数据库中的病毒基因序列genei,i∈[1,D]进行M段切片,如公式(1)所示,其中genei,j,i∈[1,D],j∈[1,M]为病毒基因序列genei,i∈[1,D]的基因片段;
genei=[genei,1,genei,2,…,genei,M],i∈[1,D] (1)
Step3:对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段,如公式(2)所示,其中retgenej,j∈[1,M]为待测病毒基因序列retgene的基因片段;
retgene=[retgene1,retgene2,…,retgeneM] (2)
Step4:根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]相似的病毒基因片段genei,j,i∈[1,D],j∈[1,M],若两者的相似度sim≥α,则将病毒基因片段genei,j,i∈[1,D],j∈[1,M]所对应的病毒virusi,i∈[1,D]、病毒基因序列genei,i∈[1,D]以及病毒源头信息infoi,i∈[1,D]输出,通常令α=0.9。
所述Step1中,所述病毒通常指DNA病毒,且病毒有明确的源头信息。
所述Step2中,如图2所示,M段切片通常是均等分切片,切片后的基因片段无交叉重复部分。
如图3所示,也可以使用滑动窗口的方式切片,切片后的基因片段有交叉重复部分;两者均可进行接下来步骤的工作。
所述Step4中,基因序列相似算法的具体实施步骤如下:
为描述方便,接下来将待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]记为X,将数据库中的病毒基因片段genei,j,i∈[1,D],j∈[1,M]记为Y;
Step4.1:通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx,以及数据库中的病毒基因片段Y的基因长度leny,并生成检测矩阵I(X,Y)lenx×leny
Step4.2:根据公式(3)计算匹配窗口值MW;
Figure BDA0002542814360000041
Step4.3:由检测矩阵I(X,Y)lenx×leny及匹配窗口值MW,计算匹配基因数m和匹配基因换位数n;
对于匹配基因数m的计算,若基因片段X和Y中相同基因相差距离小于匹配窗口值MW,则视为该基因匹配,但应注意在匹配过程中,需排除被匹配过的基因,若找到匹配基因,则需跳出此次匹配,进行下一基因的匹配;
而对于匹配基因换位数n的计算,则需看基因片段X和Y中对于匹配基因集的顺序是否一致,若不一致,则换位数目的一半即为匹配基因换位数n;
另外,匹配基因数m和匹配基因换位数n理应满足公式(4)的要求;
Figure BDA0002542814360000051
Step4.4:由上述步骤所得匹配基因数m和匹配基因换位数n,根据公式(5)计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的初步相似度fsim:
Figure BDA0002542814360000052
Step4.5:获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY,并得到其长度lenxy;
Step4.6:根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim;
其中,b为是否需要进一步计算的阈值,通常取值为0.7,可根据实际检测结果作小幅度调整,主要是为了提高检测准确性;p为缩放因子,通常取值为0.1,可根据实际检测结果做小幅度调整,主要是为了避免最终计算结果大于1的情况发生。
Figure BDA0002542814360000053
Step4.7:定义相似阈值α,若待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim≥α,则将病毒基因片段Y所对应的病毒、病毒基因序列以及病毒源头信息输出。
所述Step4中,基因序列相似算法使用基因窗口值匹配方法,可以很好地克服因基因变异而导致的匹配失败现象,从而提高匹配的准确度。
若M=10,则每个病毒基因序列切分成10段基因片段,相应地,待测病毒基因序列也是切分成10段基因片段,在进行相似匹配时要计算10段基因片段中每个基因片段的相似度,只要有某一基因片段符合相似阈值的要求即将该基因片段所对应的病毒、病毒基因序列以及病毒源头信息输出。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于基因序列相似的病毒源头筛选方法,其特征在于:
Step1:获取目前已知病毒virusi,i∈[1,D]的基因序列genei,i∈[1,D]及其对应的病毒源头信息infoi,i∈[1,D],组建病毒基因数据库,其中D为病毒基因数据库中病毒的个数;
Step2:对病毒基因数据库中的病毒基因序列genei,i∈[1,D]进行M段切片,如公式(1)所示,其中genei,j,i∈[1,D],j∈[1,M]为病毒基因序列genei,i∈[1,D]的基因片段;
genei=[genei,1,genei,2,…,genei,M],i∈[1,D] (1)
Step3:对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段,如公式(2)所示,其中retgenej,j∈[1,M]为待测病毒基因序列retgene的基因片段;
retgene=[retgene1,retgene2,…,retgeneM] (2)
Step4:根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]相似的病毒基因片段genei,j,i∈[1,D],j∈[1,M],若两者的相似度sim≥α,则将病毒基因片段genei,j,i∈[1,D],j∈[1,M]所对应的病毒virusi,i∈[1,D]、病毒基因序列genei,i∈[1,D]以及病毒源头信息infoi,i∈[1,D]输出。
2.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法,其特征在于:所述Step4中,基因序列相似算法的具体实施步骤如下:
为描述方便,接下来将待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]记为X,将数据库中的病毒基因片段genei,j,i∈[1,D],j∈[1,M]记为Y;
Step4.1:通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx,以及数据库中的病毒基因片段Y的基因长度leny,并生成检测矩阵I(X,Y)lenx×leny
Step4.2:根据公式(3)计算匹配窗口值MW;
Figure FDA0002542814350000011
Step4.3:由检测矩阵I(X,Y)lenx×leny及匹配窗口值MW,计算匹配基因数m和匹配基因换位数n;
对于匹配基因数m的计算,若基因片段X和Y中相同基因相差距离小于匹配窗口值MW,则视为该基因匹配,在匹配过程中,需排除被匹配过的基因,若找到匹配基因,则需跳出此次匹配,进行下一基因的匹配;
而对于匹配基因换位数n的计算,则需看基因片段X和Y中对于匹配基因集的顺序是否一致,若不一致,则换位数目的一半即为匹配基因换位数n;
另外,匹配基因数m和匹配基因换位数n理应满足公式(4)的要求;
Figure FDA0002542814350000021
Step4.4:由上述步骤所得匹配基因数m和匹配基因换位数n,根据公式(5)计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的初步相似度fsim:
Figure FDA0002542814350000023
Step4.5:获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY,并得到其长度lenxy;
Step4.6:根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim;
其中,b为是否需要进一步计算的阈值,p为缩放因子;
Figure FDA0002542814350000022
Step4.7:定义相似阈值α,若待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim≥α,则将病毒基因片段Y所对应的病毒、病毒基因序列以及病毒源头信息输出。
3.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法,其特征在于:所述Step1中,所述病毒为DNA病毒,且病毒有明确的源头信息。
4.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法,其特征在于:所述Step2中,M段切片均等分切片,切片后的基因片段无交叉重复部分。
5.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法,其特征在于:所述Step2中,M段切片为滑动窗口的方式切片,切片后的基因片段有交叉重复部分。
CN202010551838.5A 2020-06-17 2020-06-17 一种基于基因序列相似的病毒源头筛选方法 Active CN111899791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010551838.5A CN111899791B (zh) 2020-06-17 2020-06-17 一种基于基因序列相似的病毒源头筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010551838.5A CN111899791B (zh) 2020-06-17 2020-06-17 一种基于基因序列相似的病毒源头筛选方法

Publications (2)

Publication Number Publication Date
CN111899791A true CN111899791A (zh) 2020-11-06
CN111899791B CN111899791B (zh) 2023-11-24

Family

ID=73206765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010551838.5A Active CN111899791B (zh) 2020-06-17 2020-06-17 一种基于基因序列相似的病毒源头筛选方法

Country Status (1)

Country Link
CN (1) CN111899791B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR446701A0 (en) * 2001-04-18 2001-05-17 Gene Stream Pty Ltd Transgenic mammals for pharmacological and toxicological studies
BR102016005404A2 (pt) * 2015-03-13 2016-09-20 Dow Agrosciences Llc moléculas de ácido nucléico de rna polimerase ii33 para controlar as pragas de inseto
CN107532167A (zh) * 2015-03-13 2018-01-02 美国陶氏益农公司 控制昆虫害虫的rna聚合酶ii215核酸分子
CN108197434A (zh) * 2018-01-16 2018-06-22 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN110517728A (zh) * 2019-08-29 2019-11-29 苏州浪潮智能科技有限公司 一种基因序列比对方法及装置
CN111180014A (zh) * 2020-01-03 2020-05-19 中国检验检疫科学研究院 一种基于低深度siRNA数据的病毒序列组装方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR446701A0 (en) * 2001-04-18 2001-05-17 Gene Stream Pty Ltd Transgenic mammals for pharmacological and toxicological studies
BR102016005404A2 (pt) * 2015-03-13 2016-09-20 Dow Agrosciences Llc moléculas de ácido nucléico de rna polimerase ii33 para controlar as pragas de inseto
CN107532167A (zh) * 2015-03-13 2018-01-02 美国陶氏益农公司 控制昆虫害虫的rna聚合酶ii215核酸分子
CN108197434A (zh) * 2018-01-16 2018-06-22 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN110517728A (zh) * 2019-08-29 2019-11-29 苏州浪潮智能科技有限公司 一种基因序列比对方法及装置
CN111180014A (zh) * 2020-01-03 2020-05-19 中国检验检疫科学研究院 一种基于低深度siRNA数据的病毒序列组装方法

Also Published As

Publication number Publication date
CN111899791B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
US10192026B2 (en) Systems and methods for genomic pattern analysis
Patruno et al. A review of computational strategies for denoising and imputation of single-cell transcriptomic data
WO2015081754A1 (en) Genome compression and decompression
US20240312567A1 (en) Efficient payload extraction from polynucleotide sequence reads
KR101313087B1 (ko) Ngs를 위한 서열 재조합 방법 및 장치
MY190643A (en) Determination of microorganism operational taxonomic unit and sequence-assisted separation
CN116486910B (zh) 纳米孔测序碱基识别的深度学习训练集建立方法及其应用
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
CN107944225A (zh) 基因高通量测序数据突变检测方法
US20220359039A1 (en) Electronic Methods And Systems For Microorganism Characterization
Dutta et al. Parameterized syncmer schemes improve long-read mapping
CN107493641B (zh) 一种利用音乐驱动的灯光控制方法和装置
CN111899791A (zh) 一种基于基因序列相似的病毒源头筛选方法
CN106557668B (zh) 基于lf熵的dna序列相似性检验方法
US8189931B2 (en) Method and apparatus for matching of bracketed patterns in test strings
EP3663890B1 (en) Alignment method, device and system
Flouri et al. GapMis: a tool for pairwise sequence alignment with a single gap
Lindegger et al. RawAlign: Accurate, fast, and scalable raw nanopore signal mapping via combining seeding and alignment
US20210020268A1 (en) Determination of frequency distribution of nucleotide sequence variants
KR100537636B1 (ko) 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법
CN111724858B (zh) 利用软件运行基因组序列比对修补gap的方法
Chen et al. A survey on de novo assembly methods for single-molecular sequencing
Sun et al. Splice site prediction based on characteristic of sequential motifs and C4. 5 algorithm
Ahmed et al. Cliffy: robust 16S rRNA classification based on a compressed LCA index
Low-Kam et al. Detection of sequential outliers using a variable length markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant