CN111899791B - 一种基于基因序列相似的病毒源头筛选方法 - Google Patents
一种基于基因序列相似的病毒源头筛选方法 Download PDFInfo
- Publication number
- CN111899791B CN111899791B CN202010551838.5A CN202010551838A CN111899791B CN 111899791 B CN111899791 B CN 111899791B CN 202010551838 A CN202010551838 A CN 202010551838A CN 111899791 B CN111899791 B CN 111899791B
- Authority
- CN
- China
- Prior art keywords
- gene
- virus
- retgene
- viral
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 224
- 241000700605 Viruses Species 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012216 screening Methods 0.000 title claims abstract description 15
- 239000012634 fragment Substances 0.000 claims abstract description 50
- 101150077555 Ret gene Proteins 0.000 claims description 45
- 108700005077 Viral Genes Proteins 0.000 claims description 29
- 230000017105 transposition Effects 0.000 claims description 15
- 230000003612 virological effect Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 108010069898 fibrinogen fragment X Proteins 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于基因序列相似的病毒源头筛选方法,属于生物基因数据处理技术领域。本发明先获取目前已知病毒的基因序列及其对应的病毒源头信息,组建病毒基因数据库;接着对病毒基因序列进行切片,得到基因片段;对待测病毒基因序列也按照相同切片手段切割成若干基因片段,根据基因序列相似算法在数据库中检索其相似的病毒基因片段,以实现查找病毒源头的目的。本发明与现有技术相比,主要解决了现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等现象,在保证对比效率的同时优化了匹配的准确度,实现了高质量的病毒源头筛选工作。
Description
技术领域
本发明涉及一种基于基因序列相似的病毒源头筛选方法,属于生物基因数据处理技术领域。
背景技术
在当今生物基因数据处理领域,已经有成熟的动态规划算法用于基因序列相似比对中,如BlasT和FASTA。通过动态规划算法,可以有效地计算待测基因序列与数据库中现有基因序列的相似程度。
然而,就病毒基因而言,在现有动态规划算法的实际应用中,因病毒变异而导致的匹配失败现象非常多,从而拉低了整体的匹配准确度。现有技术公开了申请号为201910807357.3的一种基因序列比对方法及装置,可以根据待检测的基因序列生成第一哈希值序列;将第一哈希值序列分别与标准哈希值序列中的各哈希值子序列进行比对,确定第一哈希值序列分别相对于各哈希值子序列的比对结果,比对结果为相同或不相同,其中,标准哈希值序列根据标准基因序列生成;根据比对结果确定第一数量和第二数量,根据第一数量和第二数量确定待检测的基因序列与标准基因序列的匹配程度,其中,各比对结果中为不相同的比对结果的数量为第一数量,各比对结果中为相同的比对结果对应的各哈希值子序列中相邻的哈希值子序列的数量为第二数量。该技术同样可造成因病毒变异而导致的匹配失败现象,为了提高病毒基因的匹配,发现病毒源头信息,还是需要一种高准确度的基因序列相似算法。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于基因序列相似的病毒源头筛选方法,以解决现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等问题。
本发明的技术方案是:一种基于基因序列相似的病毒源头筛选方法,具体步骤为:
Step1:获取目前已知病毒virusi,i∈[1,D]的基因序列genei,i∈[1,D]及其对应的病毒源头信息infoi,i∈[1,D],组建病毒基因数据库,其中D为病毒基因数据库中病毒的个数。
Step2:对病毒基因数据库中的病毒基因序列genei,i∈[1,D]进行M段切片,如公式(1)所示,其中genei,j,i∈[1,D],j∈[1,M]为病毒基因序列genei,i∈[1,D]的基因片段。
genei=[genei,1,genei,2,…,genei,M],i∈[1,D] (1)
Step3:对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段,如公式(2)所示,其中retgenej,j∈[1,M]为待测病毒基因序列retgene的基因片段。
retgene=[retgene1,retgene2,…,retgeneM] (2)
Step4:根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]相似的病毒基因片段genei,j,i∈[1,D],j∈[1,M],若两者的相似度sim≥α,则将病毒基因片段genei,j,i∈[1,D],j∈[1,M]所对应的病毒virusi,i∈[1,D]、病毒基因序列genei,i∈[1,D]以及病毒源头信息infoi,i∈[1,D]输出。
进一步地,所述Step1中,所述病毒通常指DNA病毒,且病毒有明确的源头信息。
进一步地,所述Step2中,M段切片通常是均等分切片,切片后的基因片段无交叉重复部分;也可以使用滑动窗口的方式切片,切片后的基因片段有交叉重复部分;两者均可进行接下来步骤的工作。
进一步地,所述Step4中,基因序列相似算法的具体实施步骤如下:
为描述方便,接下来将待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]记为X,将数据库中的病毒基因片段genei,j,i∈[1,D],j∈[1,M]记为Y。
Step4.1:通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx,以及数据库中的病毒基因片段Y的基因长度leny,并生成检测矩阵I(X,Y)lenx×leny。
Step4.2:根据公式(3)计算匹配窗口值MW。
Step4.3:由检测矩阵I(X,Y)lenx×leny及匹配窗口值MW,计算匹配基因数m和匹配基因换位数n。
对于匹配基因数m的计算,若基因片段X和Y中相同基因相差距离小于匹配窗口值MW,则视为该基因匹配,但应注意在匹配过程中,需排除被匹配过的基因,若找到匹配基因,则需跳出此次匹配,进行下一基因的匹配。
而对于匹配基因换位数n的计算,则需看基因片段X和Y中对于匹配基因集的顺序是否一致,若不一致,则换位数目的一半即为匹配基因换位数n。
另外,匹配基因数m和匹配基因换位数n理应满足公式(4)的要求。
Step4.4:由上述步骤所得匹配基因数m和匹配基因换位数n,根据公式(5)计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的初步相似度fsim:
Step4.5:获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY,并得到其长度lenxy。
Step4.6:根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim。
其中,b为是否需要进一步计算的阈值,p为缩放因子。
Step4.7:定义相似阈值α,若待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim≥α,则将病毒基因片段Y所对应的病毒、病毒基因序列以及病毒源头信息输出。
所述Step4中,基因序列相似算法使用基因窗口值匹配方法,可以很好地克服因基因变异而导致的匹配失败现象,从而提高匹配的准确度。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等现象,在保证对比效率的同时优化了匹配的准确度,实现了高质量的病毒源头筛选工作。
附图说明
图1是本发明的步骤流程图;
图2是本发明基因序列均等分切片图;
图3是本发明基因序列滑动窗口切片图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于基因序列相似的病毒源头筛选方法,首先获取目前已知病毒的基因序列及其对应的病毒源头信息,组建病毒基因数据库;接着对病毒基因序列进行切片,得到基因片段;对待测病毒基因序列也按照相同切片手段切割成若干基因片段,根据基因序列相似算法在数据库中检索其相似的病毒基因片段,以实现查找病毒源头的目的。
具体步骤为:
Step1:获取目前已知病毒virusi,i∈[1,D]的基因序列genei,i∈[1,D]及其对应的病毒源头信息infoi,i∈[1,D],组建病毒基因数据库,其中D为病毒基因数据库中病毒的个数;
Step2:对病毒基因数据库中的病毒基因序列genei,i∈[1,D]进行M段切片,如公式(1)所示,其中genei,j,i∈[1,D],j∈[1,M]为病毒基因序列genei,i∈[1,D]的基因片段;
genei=[genei,1,genei,2,…,genei,M],i∈[1,D] (1)
Step3:对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段,如公式(2)所示,其中retgenej,j∈[1,M]为待测病毒基因序列retgene的基因片段;
retgene=[retgene1,retgene2,…,retgeneM] (2)
Step4:根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]相似的病毒基因片段genei,j,i∈[1,D],j∈[1,M],若两者的相似度sim≥α,则将病毒基因片段genei,j,i∈[1,D],j∈[1,M]所对应的病毒virusi,i∈[1,D]、病毒基因序列genei,i∈[1,D]以及病毒源头信息infoi,i∈[1,D]输出,通常令α=0.9。
所述Step1中,所述病毒通常指DNA病毒,且病毒有明确的源头信息。
所述Step2中,如图2所示,M段切片通常是均等分切片,切片后的基因片段无交叉重复部分。
如图3所示,也可以使用滑动窗口的方式切片,切片后的基因片段有交叉重复部分;两者均可进行接下来步骤的工作。
所述Step4中,基因序列相似算法的具体实施步骤如下:
为描述方便,接下来将待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]记为X,将数据库中的病毒基因片段genei,j,i∈[1,D],j∈[1,M]记为Y;
Step4.1:通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx,以及数据库中的病毒基因片段Y的基因长度leny,并生成检测矩阵I(X,Y)lenx×leny;
Step4.2:根据公式(3)计算匹配窗口值MW;
Step4.3:由检测矩阵I(X,Y)lenx×leny及匹配窗口值MW,计算匹配基因数m和匹配基因换位数n;
对于匹配基因数m的计算,若基因片段X和Y中相同基因相差距离小于匹配窗口值MW,则视为该基因匹配,但应注意在匹配过程中,需排除被匹配过的基因,若找到匹配基因,则需跳出此次匹配,进行下一基因的匹配;
而对于匹配基因换位数n的计算,则需看基因片段X和Y中对于匹配基因集的顺序是否一致,若不一致,则换位数目的一半即为匹配基因换位数n;
另外,匹配基因数m和匹配基因换位数n理应满足公式(4)的要求;
Step4.4:由上述步骤所得匹配基因数m和匹配基因换位数n,根据公式(5)计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的初步相似度fsim:
Step4.5:获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY,并得到其长度lenxy;
Step4.6:根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim;
其中,b为是否需要进一步计算的阈值,通常取值为0.7,可根据实际检测结果作小幅度调整,主要是为了提高检测准确性;p为缩放因子,通常取值为0.1,可根据实际检测结果做小幅度调整,主要是为了避免最终计算结果大于1的情况发生。
Step4.7:定义相似阈值α,若待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim≥α,则将病毒基因片段Y所对应的病毒、病毒基因序列以及病毒源头信息输出。
所述Step4中,基因序列相似算法使用基因窗口值匹配方法,可以很好地克服因基因变异而导致的匹配失败现象,从而提高匹配的准确度。
若M=10,则每个病毒基因序列切分成10段基因片段,相应地,待测病毒基因序列也是切分成10段基因片段,在进行相似匹配时要计算10段基因片段中每个基因片段的相似度,只要有某一基因片段符合相似阈值的要求即将该基因片段所对应的病毒、病毒基因序列以及病毒源头信息输出。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.一种基于基因序列相似的病毒源头筛选方法,其特征在于:
Step1:获取目前已知病毒virusi,i∈[1,D]的基因序列genei,i∈[1,D]及其对应的病毒源头信息infoi,i∈[1,D],组建病毒基因数据库,其中D为病毒基因数据库中病毒的个数;
Step2:对病毒基因数据库中的病毒基因序列genei,i∈[1,D]进行M段切片,如公式(1)所示,其中genei,j,i∈[1,D],j∈[1,M]为病毒基因序列genei,i∈[1,D]的基因片段;
genei=[genei,1,genei,2,…,genei,M],i∈[1,D] (1)
Step3:对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段,如公式(2)所示,其中retgenej,j∈[1,M]为待测病毒基因序列retgene的基因片段;
retgene=[retgene1,retgene2,…,retgeneM] (2)
Step4:根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]相似的病毒基因片段genei,j,i∈[1,D],j∈[1,M],若两者的相似度sim≥α,则将病毒基因片段genei,j,i∈[1,D],j∈[1,M]所对应的病毒virusi,i∈[1,D]、病毒基因序列genei,i∈[1,D]以及病毒源头信息infoi,i∈[1,D]输出;
所述Step4中,基因序列相似算法的具体实施步骤如下:
为描述方便,接下来将待测病毒基因序列retgene的基因片段retgenej,j∈[1,M]记为X,将数据库中的病毒基因片段genei,j,i∈[1,D],j∈[1,M]记为Y;
Step4.1:通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx,以及数据库中的病毒基因片段Y的基因长度leny,并生成检测矩阵I(X,Y)lenx×leny;
Step4.2:根据公式(3)计算匹配窗口值MW;
Step4.3:由检测矩阵I(X,Y)lenx×leny及匹配窗口值MW,计算匹配基因数m和匹配基因换位数n;
对于匹配基因数m的计算,若基因片段X和Y中相同基因相差距离小于匹配窗口值MW,则视为该基因匹配,在匹配过程中,需排除被匹配过的基因,若找到匹配基因,则需跳出此次匹配,进行下一基因的匹配;
而对于匹配基因换位数n的计算,则需看基因片段X和Y中对于匹配基因集的顺序是否一致,若不一致,则换位数目的一半即为匹配基因换位数n;
另外,匹配基因数m和匹配基因换位数n理应满足公式(4)的要求;
Step4.4:由上述步骤所得匹配基因数m和匹配基因换位数n,根据公式(5)计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的初步相似度fsim:
Step4.5:获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY,并得到其长度lenxy;
Step4.6:根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim;
其中,b为是否需要进一步计算的阈值,p为缩放因子;
Step4.7:定义相似阈值α,若待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim≥α,则将病毒基因片段Y所对应的病毒、病毒基因序列以及病毒源头信息输出。
2.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法,其特征在于:所述Step1中,所述病毒为DNA病毒,且病毒有明确的源头信息。
3.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法,其特征在于:所述Step2中,M段切片均等分切片,切片后的基因片段无交叉重复部分。
4.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法,其特征在于:所述Step2中,M段切片为滑动窗口的方式切片,切片后的基因片段有交叉重复部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010551838.5A CN111899791B (zh) | 2020-06-17 | 2020-06-17 | 一种基于基因序列相似的病毒源头筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010551838.5A CN111899791B (zh) | 2020-06-17 | 2020-06-17 | 一种基于基因序列相似的病毒源头筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899791A CN111899791A (zh) | 2020-11-06 |
CN111899791B true CN111899791B (zh) | 2023-11-24 |
Family
ID=73206765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010551838.5A Active CN111899791B (zh) | 2020-06-17 | 2020-06-17 | 一种基于基因序列相似的病毒源头筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899791B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR102016005404A2 (pt) * | 2015-03-13 | 2016-09-20 | Dow Agrosciences Llc | moléculas de ácido nucléico de rna polimerase ii33 para controlar as pragas de inseto |
CN107532167A (zh) * | 2015-03-13 | 2018-01-02 | 美国陶氏益农公司 | 控制昆虫害虫的rna聚合酶ii215核酸分子 |
CN108197434A (zh) * | 2018-01-16 | 2018-06-22 | 深圳市泰康吉音生物科技研发服务有限公司 | 去除宏基因组测序数据中人源基因序列的方法 |
CN110517728A (zh) * | 2019-08-29 | 2019-11-29 | 苏州浪潮智能科技有限公司 | 一种基因序列比对方法及装置 |
CN111180014A (zh) * | 2020-01-03 | 2020-05-19 | 中国检验检疫科学研究院 | 一种基于低深度siRNA数据的病毒序列组装方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPR446701A0 (en) * | 2001-04-18 | 2001-05-17 | Gene Stream Pty Ltd | Transgenic mammals for pharmacological and toxicological studies |
-
2020
- 2020-06-17 CN CN202010551838.5A patent/CN111899791B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR102016005404A2 (pt) * | 2015-03-13 | 2016-09-20 | Dow Agrosciences Llc | moléculas de ácido nucléico de rna polimerase ii33 para controlar as pragas de inseto |
CN107532167A (zh) * | 2015-03-13 | 2018-01-02 | 美国陶氏益农公司 | 控制昆虫害虫的rna聚合酶ii215核酸分子 |
CN108197434A (zh) * | 2018-01-16 | 2018-06-22 | 深圳市泰康吉音生物科技研发服务有限公司 | 去除宏基因组测序数据中人源基因序列的方法 |
CN110517728A (zh) * | 2019-08-29 | 2019-11-29 | 苏州浪潮智能科技有限公司 | 一种基因序列比对方法及装置 |
CN111180014A (zh) * | 2020-01-03 | 2020-05-19 | 中国检验检疫科学研究院 | 一种基于低深度siRNA数据的病毒序列组装方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111899791A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jain et al. | A fast approximate algorithm for mapping long reads to large reference databases | |
US10192026B2 (en) | Systems and methods for genomic pattern analysis | |
Bernaola-Galván et al. | Finding borders between coding and noncoding DNA regions by an entropic segmentation method | |
JP5985040B2 (ja) | データ解析装置、及びその方法 | |
Yanovsky | ReCoil-an algorithm for compression of extremely large datasets of DNA data | |
KR101313087B1 (ko) | Ngs를 위한 서열 재조합 방법 및 장치 | |
Pham et al. | Pathset graphs: a novel approach for comprehensive utilization of paired reads in genome assembly | |
Dutta et al. | Parameterized syncmer schemes improve long-read mapping | |
WO2017000859A1 (zh) | 字符序列相似子串的跨越式查找算法及其在生物序列数据库上的查找应用 | |
Cao et al. | Indexing DNA sequences using q-grams | |
CN111899791B (zh) | 一种基于基因序列相似的病毒源头筛选方法 | |
Vaddadi et al. | Read mapping on genome variation graphs | |
CN116665772B (zh) | 一种基于内存计算的基因组图分析方法、装置和介质 | |
CN106557668B (zh) | 基于lf熵的dna序列相似性检验方法 | |
Xie et al. | Similarity evaluation of DNA sequences based on frequent patterns and entropy | |
CN106022000A (zh) | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 | |
Kececioglu et al. | Aligning protein sequences with predicted secondary structure | |
Chen et al. | CGAP-align: a high performance DNA short read alignment tool | |
Chen et al. | Non-coding rna identification with pseudo rna sequences and feature representation learning | |
Ng et al. | Blocked pattern matching problem and its applications in proteomics | |
Pizzi et al. | Efficient algorithms for sequence analysis with entropic profiles | |
Chen et al. | A survey on de novo assembly methods for single-molecular sequencing | |
Junyan et al. | Sequence pattern mining based on markov chain | |
Tapinos et al. | Alignment by the numbers: sequence assembly using reduced dimensionality numerical representations | |
Wang et al. | LocPatcH: An efficient long-read hybrid error correction algorithm based on local pHMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |