CN114550820B - 一种基于WFA算法的第三代测序RNA-seq比对方法 - Google Patents
一种基于WFA算法的第三代测序RNA-seq比对方法 Download PDFInfo
- Publication number
- CN114550820B CN114550820B CN202210186243.3A CN202210186243A CN114550820B CN 114550820 B CN114550820 B CN 114550820B CN 202210186243 A CN202210186243 A CN 202210186243A CN 114550820 B CN114550820 B CN 114550820B
- Authority
- CN
- China
- Prior art keywords
- anchor point
- anchor
- sequence
- algorithm
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000003559 RNA-seq method Methods 0.000 title claims abstract description 24
- 238000007671 third-generation sequencing Methods 0.000 title claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 3
- 238000002864 sequence alignment Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 241000255601 Drosophila melanogaster Species 0.000 description 3
- 108091092195 Intron Proteins 0.000 description 3
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 2
- 101800000863 Galanin message-associated peptide Proteins 0.000 description 2
- 102100028501 Galanin peptides Human genes 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241000894007 species Species 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241001599018 Melanogaster Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 210000003917 human chromosome Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 125000006850 spacer group Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于WFA算法的第三代测序RNA‑seq比对方法,该方法通过获取包含目标序列和查询序列的数据集;然后对参考基因组进行索引;以及区域选择和图映射;查找k长子字符串的最长公共子序列LCSk,再进行锚点过滤和锚点比对;引入注释文件获得比对结果,最后对比对结果进行评估。实验证明,本发明的方法有效地提高了序列比对的准确性,尤其是剪接位点比对的准确率,同时一定程度减少比对时间。
Description
技术领域
本发明涉及生物信息学中序列比对技术领域,具体是一种基于WFA算法的第三代测序RNA-seq比对方法。
背景技术
第三代RNA测序技术能确定几万到十几万碱基长度的RNA序列,因而被广泛地应用到转录体的检测、基因表达量估计以及剪接异构体的识别等转录组的相关研究中。然而第三代测序技术测序长度太长,且RNA-seq存在剪接位点,这都为算法设计带来了挑战。
现有的第三代RNA-seq比对算法主要有STAR、BBMap、GMAP、Minimap2、GraphMap2。这些方法都使用种子-扩展策略,且都有处理剪接连接的能力。但是,大多数算法准确率较低,不能很好地处理短外显子,且剪接识别准确率较低。因此,我们提出一种新的针对第三代测序技术的RNA-seq的比对算法,使用WFA算法进行精确比对,该算法利用序列相似性,沿对角线进行比对,从而提高比对的效率;同时,引入注释文件准确识别剪接位点,进而提高剪接位点识别准确率。
发明内容
本发明的目的在于解决三代测序RNA-seq比对算法准确率问题,而提供一种基于WFA算法的第三代测序RNA-seq比对方法,该方法通过WFA算法降低算法时间成本,通过引入注释文件提高比对算法准确率,尤其是在剪接位点方面。
实现本发明目的的技术方案是:
一种基于WFA算法的第三代测序RNA-seq比对方法,包括如下步骤:
1)获取数据集,数据集包括4个模拟数据集和3个真实数据集,每个数据集包括目标序列和查询序列,其中目标序列为参考基因组序列,记为ref;查询序列为第三代测序的RNA-seq读段,记为reads;
2)参考基因组ref为DNA序列,采用minimizer索引方法对参考基因组ref进行索引,将参考基因组序列ref的minimizer存储到哈希表中,其中minimizer为一段读段内最小哈希值的种子,然后将第三代测序RNA-seq序列与参考基因组的minimizer进行比对找到其所有的minimizer,通过哈希表找到其在参考基因组的位置,记为锚点;minimizer种子的最小哈希值计算公式如下:
其中序列s=a1a2…an,长度|s|=n,序列s的反补 函数π:∑*×{0,1}→∑*,使得π(s,0)=s,/>
假设且对于k-mer s=a1…ak的哈希函数/>定义为:
3)根据步骤2)产生的索引位置,将读段reads与ref的索引进行比对,初步确定读段reads在参考基因组ref上的比对区域,并将比对的结果聚类成候选区域;
4)通过读段reads的种子匹配构建对比链或锚点细化步骤3)得到的候选区域;
5)查找k长子字符串的最长公共子序列LCSk:每个锚点表示目标ref与查询序列reads之间的共享段,两个序列的起始和结束位置都是已知的,由于重复锚点的存在,步骤4)获得的锚点集不一定是单调递增的,因此选择满足单调性条件的锚点子集表示为在长度为k的子字符串中寻找最长公共子序列;
6)对步骤5)产生的锚点子集中的每个锚点进行过滤,使用背包算法的变体寻找最优锚点集合,具体是:
将参考基因组锚的起始和结束位置分别表示为xs和xe,读段起始和结束位置分别表示为ys和ye,把每一个锚点看作一条二维的直线,直线的起点在这条直线上表示为Ts(xs,ys),终点表示为Te(xe,ye),且每个锚点都有其适度f,即锚覆盖的碱基d的数量,将寻找最优锚点集的问题形式化如下:
从N锚点的集合C中,Ci=(Tsi,Tei,di)∈C,目标是找到k锚点的最优集合C′={(Ts1,Te1,d1),(Ts2,Te2,d2),…,(Tsk,Tek,dk)},其中Te1≤Ts2,Te2≤Ts3,…,Te(k-1)≤Tsk,且最大化/>
该问题等价于0-1背包问题,用相同的算法求解,0-1背包问题描述为:
对于给定的N元素集合E,其中每个元素e都有其权重w和适应度f,且有最大权重T的限制,需要找到其权重和不大于T,适应度和存在最大值,公式:
对于当前的锚点集,元素的权重是在锚点|ye-ys|中的查询长度,锚的适应度是覆盖碱基d的数量,总权重T是处理过的读段的总长度,通过优化问题和寻找到构建读段比对的锚的结果集xi.N∈{0,1};
7)使用WFA算法对步骤6)得到的最优锚点集中的锚点进行比对,将动态规划对角线得分递增的思想扩展到间隙-放射模型中,利用序列之间的同源性优化比对过程;具体是:
最远到达f.r.点表示在对角线为k和分数为s时的动态规划单元,距离对角线的起点更远,对于三个SWG(Smith Waterman Gotoh,SWG)矩阵I、D、M,定义/>为在对角线上到f.r.点/>的偏移;因此,对于给定的分数,定义s-波前WFs为在分数为s时,所有f.r.点的集合,目标是计算最小s,使得WFs的任何f.r.点到达(m,n),对于每个s,分数只能来自s-o,s-e,s-x或沿对角线的前一个匹配分数;/>的表达式为:
只考虑插入、删除和不匹配,定义到f.r.点的偏移公式如(4)所示,且初始化
8)在步骤7)进行序列比对时,引入注释文件,进一步识别剪接位点,得到比对结果。
9)利用步骤1)中的4个模拟数据集和3个真实数据集对步骤8)得到的比对结果进行评估,模拟数据集主要使用了比对率(Aligned)、匹配率(Match rate)、正确率(Correct)、外显子全部覆盖率(HitAll)、至少覆盖一个外显子率(HitOne)、剪接读段(Split reads)、正确的剪接读段(Correct,split)、外显子全部覆盖的剪接读段(Splithit all)、至少覆盖一个外显子的剪接读段(Split hit one)评估指标进行评估;真实数据集主要使用了比对率(Aligned)、匹配率(Match rate)、表达基因数量(No.expressedgenes)、外显子覆盖率(Exon hit)、连续的比对率(Contiguous alignment)评估指标进行评估。
本发明提供的一种基于WFA算法的第三代测序RNA-seq比对方法,该方法通过WFA精确的空位仿射算法,利用序列之间的同源区域来加速比对过程,此算法在使用较少内存的同时,性能优于其他最先进的方法。
(2)引入注释文件可以更为精确地识别剪接位点,从而提高比对的准确率,尤其是剪接位点识别的准确率。
附图说明
图1为一种基于WFA算法的第三代测序RNA-seq比对方法的流程图;
图2为WFA算法流程图;
图3为识别剪接位点流程图;
图4为酿酒酵母比对结果图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。
实施例:
一种基于WFA算法的第三代测序RNA-seq比对方法,包括如下步骤:
(1)获取评估所需数据集,包括4个模拟数据集和3个真实数据集,4个模拟数据集使用PBSIM工具模拟生成,分别模拟了PacBio ROI酿酒酵母、黑腹果蝇、人类第19号染色体和ONT R2 2D黑腹果蝇数据;3个真实数据集包括RacBio ROI黑腹果蝇、纠错后的PacBioROI黑腹果蝇和PacBio子读段的黑腹果蝇。这里,使用不同物种、不同技术下的数据,更为全面地评估算法的性能。表1表示的是第三代测序RNA-seq读段reads的信息,针对不同物种,每一个物种对应一个参考基因组ref,使用ref和reads进行比对,找到reads在ref中的位置;
表1数据集
(2)使用minimizer的索引方法对参考基因组进行索引。基于minimizer的索引方法是将参考基因组序列的minimizer存储到哈希表中,其中,minimizer是一段读段内最小哈希值的种子。minimizer计算公式如(1)所示:
其中,对于序列s=a1a2…an,长度|s|=n,序列s的反补 函数π:∑*×{0,1}→∑*,使得π(s,0)=s,/>
假设且对于k-mer s=a1…ak的哈希函数/>定义为:
(3)区域选择。区域选择依赖于在查询序列reads和参考序列ref之间找到种子,然后将它们聚类为候选区域。种子查找采用了一种间隔种子的形式,类似于Levenshtein距离的空位q-gram滤波器。空位q-gram是一种播种策略,它允许对不精确匹配进行快速和敏感的查找,并允许在预定义的种子“不关心”(DC)位置上进行变化。有空位的q-gram允许形状中的DC位置也包含插入和删除。实现Levenshtein空位q-gram是基于构建参考序列的散列索引,其中q-gram位置通过形状布局所构造的关键字进行散列,仅仅包含构建关键的碱基,而简单地跳过DC碱基。
为了推导出种子命中的一般方法,借鉴了Hough变换(HT)的概念,这是图像处理中常用的一种方法,用于检测线、圆和椭圆等形状。HT定义了从图像点到累加器空间的映射,形成霍夫空间。在直线检测的情况下,如果笛卡尔空间中给定的一组点是共线的,那么它们之间的关系可以用具有公共斜率m和截距c的线性方程来表示:
y=mx+c (5)
其中(x,y)是点在2D空间中的坐标。HT尝试确定描述给定点集合直线的参数m和c。然而,HT不是只检测一条最佳的线,公式(6)可以在参数空间中转化为它的对偶:
c=-mx+y (6)
HT定义了一个累加器空间,在该空间中,其中m和c被栅格化,以便只取有限范围的值。然后,HT通过追踪笛卡尔空间中每个点的所有对偶线,并增加每个(m,c)坐标的投票计数,简单地计算累加空间中的所有潜在解。所有在定义阈值以上的HT空间坐标都可以被认为是原始笛卡尔空间中的候选线。
由于c对应于参考序列上的坐标,一个简单的整数数组的参考长度可用于计票计数。对于每个k点(单粒种子命中),它的c参数值是用一个简单的表达式确定的:
c=t-q (7)
(4)图映射。这一步骤,通过从段种子匹配中构建比对链或锚点来细化上一步的候选区域。我们使用了“kmer图映射”的概念。给定一序列(目标和查询序列),首先从目标序列构造一个kmer映射图。对于图的构建,使用从目标动态构建的索引,为了灵敏度使用较小的连续种子。
(5)查找k长子字符串的最长公共子序列。每个锚表示目标和查询序列之间的一个共享段,两个序列的起始和结束位置都是已知的。由于重复锚点的存在,所获得的锚的集合在目标坐标和查询坐标中并不一定是单调递增的。因此,需要选择满足单调性条件的锚的子集。识别一个这样子集的问题可以表示为k长子字符串的最长公共子序列。在算法中,允许可变长度的子字符串,而不是使用固定大小k的子字符串,每个子串的大小等于两个序列中对应锚的长度。
(6)锚点过滤。完成步骤5)LCSk后,对生成的锚点进行处理,以获得用于构建比对的最优锚点集合。参考基因组锚的起始和结束位置分别表示为xs和xe,读段起始和结束位置分别表示为ys和ye,我们把每一个锚点看作一条二维的直线,直线的起点在这条直线上表示为Ts(xs,ys),终点表示为Te(xe,ye)。且每个锚点都有其适度f,最简单的形式就说锚覆盖的碱基d的数量。将寻找最优锚点集的问题形式化如下:从N锚点的集合C中,Ci=(Tsi,Tei,di)∈C,目标是找到k锚点的最优集合
C′={(Ts1,Te1,d1),(Ts2,Te2,d2),…,(Tsk,Tek,dk)},
这里,Te1≤Ts2,Te2≤Ts3,…,Te(k-1)≤Tsk, (8)
且尝试最大化
这样定义的问题等价于0-1背包问题,可以用相同的算法求解。0-1背包问题可以描述为:对于给定的N元素集合E,其中每个元素e都有其权重w和适应度f,且有最大权重T的限制,需要找到其权重和不大于T,适应度和存在最大值,公式:
对于当前的锚点集,元素的权重是在锚点|ye-ys|中的查询长度,锚的适应度是覆盖剪辑d的数量。总权重T是处理过的读段的总长度。通过解决这个优化问题和寻找,我们找到了构建读段比对的锚的结果集xi.N∈{0,1}。
(7)锚点比对。在找到读段在参考基因组上的大概位置后,需要进一步对其进行更精细的比对,从而得到更为精确的结果。这里主要使用WFA(wavefront alignment)算法进行更为精细的比对,但是由于RNA-seq存在剪接位点的问题,因此,引入注释文件识别剪接位点,从而提高比对的准确性。
WFA算法是将动态规划对角线得分递增等思想扩展到间隙-仿射模型中,利用序列之间的同源性来达到更好的比对结果。
最远到达(furthest-reaching,表示为f.r.)点表示在对角线为k和分数为s时的动态规划单元,距离对角线的起点更远。对于三个SWG(Smith-Waterman-Gotoh)矩阵I,D,M,定义/>为在对角线上到f.r.点/>的偏移。因此,对于给定的分数,定义s-波前(WFs)为在分数为s时,所有f.r.点的集合。我们的目标是计算最小s,使得WFs的任何f.r.点到达(m,n)。对于每个s,分数只能来自s-o,s-e,s-x或沿对角线的前一个匹配分数。
这里,只考虑插入、删除和不匹配,定义到f.r.的偏移公式如(4)所示,且初始化
WFA算法逐步计算增长分数的波前,直到到达(n,m)。算法流程图如图2所示,首先,对于每个分数s,使用波前扩展算法,沿着对角线跟踪匹配字符来扩展点然后,检查波前WFs的每个f.r.点是否到达(n,m)。如果没有,继续计算下一个波前WFs+1,然后再一次迭代。最后,通过波前的偏移来进行回溯,从而得到比对结果。
(8)引入注释文件由于剪接位点的存在,增加了读段与参考基因组进行比对的难度。因此,引入注释文件来识别剪接位点,从而提高比对准确率。识别剪接位点流程如图3所示。注释文件中包含参考基因组外显子起始和终止的位置信息,由此,可以找到剪接位点的位置与内含子的起始和终止位置。在两个锚点进行比对时,根据注释文件提供的信息,识别是否含有内含子,如果存在,就跳过内含子,使用WFA算法进行比对;如果没有,就直接使用WFA算法进行比对。这样,可以更准确地进行比对。
(9)评估结果
在模拟数据集上将我们的算法与四个现有的表现较好的算法(BBMap、GMAP、Minimap2和GraphMap2)进行比较,并生成评估结果。评估主要使用了比对率(Aligned)、正确率(Correct)、外显子全部覆盖率(HitAll)和至少覆盖一个外显子率(HitOne)四个指标进行评估。这里使用酿酒酵母数据作为例子,可以从图4中看出我们的算法表现出了较好的结果,四个指标分别达到98.08%、85.41%、95.56%和96.83%。说明算法在数据集上可以表现出比较好的比对结果。
将四个模拟数据集按照表1顺序分别编号为S1、D2、H3和D4,表2我们的算法在这四个数据机上与GraphMap2、GraphMap2_origin和Minimap2的运行时间比较结果,其中GraphMap2_origin是GraphMap2算法中的ksw_extd2_sse函数未使用SSE加速的情况。从结果可以看出,我们的方法在S1数据集上比GraphMap2运行时间短,在H3数据集上比GraphMap2_origin运行时间短,但是在D2和D4数据集上运行时间较长。同时,可以清楚地看出Minimap2在运行时间上仍然具有很大的优势。
表2算法运行时间
Claims (1)
1.一种基于WFA算法的第三代测序RNA-seq比对方法,其特征在于,包括如下步骤:
1)获取数据集,数据集包括4个模拟数据集和3个真实数据集,每个数据集包括目标序列和查询序列,其中目标序列为参考基因组序列,记为ref;查询序列为第三代测序的RNA-seq读段,记为reads;
2)参考基因组ref为DNA序列,采用minimizer索引方法对参考基因组ref进行索引,将参考基因组序列ref的minimizer存储到哈希表中,其中minimizer为一段读段内最小哈希值的种子,然后将第三代测序RNA-seq序列与参考基因组的minimizer进行比对找到其所有的minimizer,通过哈希表找到其在参考基因组的位置,记为锚点;minimizer种子的最小哈希值计算公式如下:
其中序列s=a1a2…an,长度|s|=n,序列s的反补 函数π:∑*×{0,1}→∑*,使得π(s,0)=s,/>
假设且对于k-mer s=a1…ak的哈希函数定义为:
3)根据步骤2)产生的索引位置,将读段reads与ref的索引进行比对,初步确定读段reads在参考基因组ref上的比对区域,并将比对的结果聚类成候选区域;
4)通过读段reads的种子匹配构建对比链或锚点细化步骤3)得到的候选区域;
5)查找k长子字符串的最长公共子序列LCSk:每个锚点表示目标ref与查询序列reads之间的共享段,两个序列的起始和结束位置都是已知的,由于重复锚点的存在,步骤4)获得的锚点集不一定是单调递增的,因此选择满足单调性条件的锚点子集表示为在长度为k的子字符串中寻找最长公共子序列;
6)对步骤5)产生的锚点子集中的每个锚点进行过滤,使用背包算法的变体寻找最优锚点集合,具体是:
将参考基因组锚的起始和结束位置分别表示为xs和xe,读段起始和结束位置分别表示为ys和ye,把每一个锚点看作一条二维的直线,直线的起点在这条直线上表示为Ts(xs,ys),终点表示为Te(xe,ye),且每个锚点都有其适度f,即锚覆盖的碱基d的数量,将寻找最优锚点集的问题形式化如下:
从N锚点的集合C中,Ci=(Tsi,Tei,di)∈C,目标是找到k锚点的最优集合其中Te1≤Ts2,Te2≤Ts3,…,Te(k-1)≤Tsk,且最大化/>
该问题等价于0-1背包问题,用相同的算法求解,0-1背包问题描述为:
对于给定的N元素集合E,其中每个元素e都有其权重w和适应度f,且有最大权重T的限制,需要找至其权重和不大于T,适应度和存在最大值,公式:
对于当前的锚点集,元素的权重是在锚点|ye-ys|中的查询长度,锚的适应度是覆盖碱基d的数量,总权重T是处理过的读段的总长度,通过优化问题和寻找到构建读段比对的锚的结果集xi.N∈{0,1};
7)使用WFA算法对步骤6)得到的最优锚点集中的锚点进行比对,将动态规划对角线得分递增的思想扩展到间隙-放射模型中,利用序列之间的同源性优化比对过程;具体是:
最远到达f.r.点表示在对角线为k和分数为s时的动态规划单元,距离对角线的起点更远,对于三个SWG(Smith Waterman Gotoh,SWG)矩阵I、D、M,定义/>为在对角线上到f.r.点/>的偏移;因此,对于给定的分数,定义s-波前WFs为在分数为s时,所有f.r.点的集合,目标是计算最小s,使得WFs的任何f.r.点到达(m,n),对于每个s,分数只能来自s-o,s-e,s-x或沿对角线的前一个匹配分数;/>的表达式为:
只考虑插入、删除和不匹配,定义到f.r.点的偏移公式如(4)所示,且初始化
8)在步骤7)进行序列比对时,引入注释文件,进一步识别剪接位点,得到比对结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210186243.3A CN114550820B (zh) | 2022-02-28 | 2022-02-28 | 一种基于WFA算法的第三代测序RNA-seq比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210186243.3A CN114550820B (zh) | 2022-02-28 | 2022-02-28 | 一种基于WFA算法的第三代测序RNA-seq比对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114550820A CN114550820A (zh) | 2022-05-27 |
CN114550820B true CN114550820B (zh) | 2024-05-03 |
Family
ID=81680355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210186243.3A Active CN114550820B (zh) | 2022-02-28 | 2022-02-28 | 一种基于WFA算法的第三代测序RNA-seq比对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550820B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015000284A1 (zh) * | 2013-07-05 | 2015-01-08 | 中国科学院数学与系统科学研究院 | 一种测序序列映射方法及系统 |
CN105989249A (zh) * | 2014-09-26 | 2016-10-05 | 叶承羲 | 用于组装基因组序列的方法、系统及装置 |
CN108710784A (zh) * | 2018-05-16 | 2018-10-26 | 中科政兴(上海)医疗科技有限公司 | 一种基因转录变异几率及变异方向的算法 |
CN112735528A (zh) * | 2021-01-08 | 2021-04-30 | 华中农业大学 | 一种基因序列比对方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140129152A1 (en) * | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
US10847251B2 (en) * | 2013-01-17 | 2020-11-24 | Illumina, Inc. | Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis |
US20180067992A1 (en) * | 2016-09-07 | 2018-03-08 | Academia Sinica | Divide-and-conquer global alignment algorithm for finding highly similar candidates of a sequence in database |
US11728007B2 (en) * | 2017-11-30 | 2023-08-15 | Grail, Llc | Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly |
-
2022
- 2022-02-28 CN CN202210186243.3A patent/CN114550820B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015000284A1 (zh) * | 2013-07-05 | 2015-01-08 | 中国科学院数学与系统科学研究院 | 一种测序序列映射方法及系统 |
CN105989249A (zh) * | 2014-09-26 | 2016-10-05 | 叶承羲 | 用于组装基因组序列的方法、系统及装置 |
CN108710784A (zh) * | 2018-05-16 | 2018-10-26 | 中科政兴(上海)医疗科技有限公司 | 一种基因转录变异几率及变异方向的算法 |
CN112735528A (zh) * | 2021-01-08 | 2021-04-30 | 华中农业大学 | 一种基因序列比对方法及系统 |
Non-Patent Citations (1)
Title |
---|
通过区域筛选和简洁de Bruijn图比对高重复短序列;黎瑶;钟诚;;小型微型计算机系统;20200904(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114550820A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2424031C (en) | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map | |
US9177227B2 (en) | Method and device for finding nearest neighbor | |
US8972415B2 (en) | Similarity search initialization | |
CN109545283B (zh) | 一种基于序列模式挖掘算法的系统发生树构建方法 | |
Chehreghani et al. | Information theoretic model validation for spectral clustering | |
CN114550820B (zh) | 一种基于WFA算法的第三代测序RNA-seq比对方法 | |
Denisova et al. | Using hierarchical histogram representation for the EM clustering algorithm enhancement | |
CN114564306B (zh) | 一种基于GPU并行计算的第三代测序RNA-seq比对方法 | |
Carlson et al. | BEAM: a beam search algorithm for the identification of cis-regulatory elements in groups of genes | |
CN103793626A (zh) | 碱基序列比对系统及方法 | |
Li et al. | Efficient matching of substrings in uncertain sequences | |
Ndiaye et al. | When less is more: sketching with minimizers in genomics | |
Kriege et al. | SAHN clustering in arbitrary metric spaces using heuristic nearest neighbor search | |
CN111261228B (zh) | 计算保守核酸序列的方法及系统 | |
Mahony et al. | Self-organizing maps of position weight matrices for motif discovery in biological sequences | |
Buckingham | K-mer based algorithms for biological sequence comparison and search | |
Lv | $\ell m_p $: A Novel Similarity Measure for Matching Local Image Descriptors | |
Hundia et al. | Genotype Imputation Using K-Nearest Neighbors and Levenshtein Distance Metric | |
Zhu et al. | GMAlign: a new network aligner for revealing large conserved functional components | |
Xiang et al. | EdtClust: A fast homologous protein sequences clustering method based on edit distance | |
CN112071367B (zh) | 一种流形进化图构建方法、装置、设备及可存储介质 | |
CN116343923B (zh) | 一种基因组结构变异同源性识别方法 | |
Wang et al. | Computational discovery of motifs using hierarchical clustering techniques | |
Deorowicz | A cover-merging-based algorithm for the longest increasing subsequence in a sliding window problem | |
Bauer | Gene Profiling using Suffix Trie Hidden Markov Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |