CN114520024A - 一种基于k-mer的序列联配方法 - Google Patents

一种基于k-mer的序列联配方法 Download PDF

Info

Publication number
CN114520024A
CN114520024A CN202210050014.9A CN202210050014A CN114520024A CN 114520024 A CN114520024 A CN 114520024A CN 202210050014 A CN202210050014 A CN 202210050014A CN 114520024 A CN114520024 A CN 114520024A
Authority
CN
China
Prior art keywords
sequence
unit
value
subseq2
subseq1
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210050014.9A
Other languages
English (en)
Other versions
CN114520024B (zh
Inventor
王庭璋
李樱红
张力
孙玲莉
洪烨
庞襄伟
刘洋
邱晓力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tianke High And New Technology Development Co ltd
Original Assignee
Zhejiang Tianke High And New Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Tianke High And New Technology Development Co ltd filed Critical Zhejiang Tianke High And New Technology Development Co ltd
Priority to CN202210050014.9A priority Critical patent/CN114520024B/zh
Publication of CN114520024A publication Critical patent/CN114520024A/zh
Application granted granted Critical
Publication of CN114520024B publication Critical patent/CN114520024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于k‑mer的序列联配方法。本发明通过对seq1序列和seq2序列进行k‑mer分析,获得两条序列的k‑mer集合,筛选出一致性片段。然后利用所述的一致性片段进行序列划分,进而对不同差异性片段序列进行全局联配。最后把联配的结果从5’端到3’端合并得到完整序列的联配结果。本发明利用k‑mer方法可以大大缩短序列联配时间以及联配过程中占用的计算内存。本发明建立了全新的序列联配的核心思想,并为序列联配提供了一个新的高效的技术手段。

Description

一种基于k-mer的序列联配方法
技术领域
本发明属于生物信息领域,具体地,本发明涉及一种基于k-mer的序列比对方法。
背景技术
随着新一代测序技术454 (Roche 公司)、Solexa (Illumina 公司)和 SOLiD(ABI公司)的诞生,测序通量得到迅速提升,而测序成本急剧下降,这种突破极大地推动了基因组科学的发展。通过一代测序技术进行菌种鉴定是比传统生化鉴定更加快速、准确的鉴定方法。一代测序菌种鉴定的一般步骤就是通过检测荧光信号得到整条序列信息,然后将序列与数据库比对从而获得菌种鉴定信息。通过转录物组学和蛋白质组学等相关技术对基因表达谱、基因突变等进行匹配分析,可获得与疾病相关基因的信息。通过序列信息与基因组序列或特定基因序列(参考序列)进行联配、分析,并揭秘患病的根源。如何准确快速的从浩瀚的测序结果数据中得到基因信息的关键是序列比对。
序列比对是指通过一定算法对两条DNA或蛋白质序列进行比较,找出两者之间的最大相似性匹配。它已经成为序列比对问题和数据库搜索的基础。在现有技术中,最具有代表性的比对算法有点阵图法和动态规划算法,但是这些算法在面对大量数据时存在着处理速度慢、占用内存大等缺点。因此,对于核苷酸序列的联配方法仍需要进一步地开放和改进。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种基于k-mer的序列联配方法,该方法应用于核苷酸序列联配中,能明显提高序列联配效率并减少程序运算量,快速获得两条序列的联配信息。
一种基于k-mer的序列联配方法,包括以下步骤:
步骤一,分别对输入的seq1序列和seq2序列根据第一预定长度进行k-mer分析,获得k-mer序列集合,所述k-mer第一预定长度大于联配所允许的错配数;
步骤二,比较步骤一所述的k-mer序列集合,获得两条序列公共的k-mer,以此来寻找一致性片段;如果同一k-mer在同一条序列中有多个,则取第一个位置作为一致性片段;如果两条序列有多个连续k-mer共有,则将多个连续k-mer合并以作为一致性片段;
步骤三,利用步骤二所述的一致性片段将序列划分成若干段差异性片段,进行差异性片段序列全局联配获得最优联配结果;如果差异性片段序列长度小于第一预定长度,则向前或向后截取一个第一预定长度的碱基并入一起联配分析;
步骤四,根据步骤三所述的最优联配结果,从5’端到3’端输出最终完整序列联配结果。
所述第一预定长度为奇数。
所述差异性片段序列全局联配包括全局比对模块和回溯模块。
所述全局比对模块实行步骤如下:
1)初始化阶段:获取待联配的subseq1序列和subseq2序列各位置上的单元信息;构建(m+1)×(n+1)的得分矩阵M,其中,m为subseq1的单元数目,n为subseq2的单元数目,subseq1序列沿顶部展开,subseq2序列沿左侧展开,得分矩阵初始化值全填充为 0;
2)计算单元得分值:用于计算得分矩阵中的单元值通过以下三个途径到达每个单元:a.来自上面的单元,代表将左侧的字符与空格比对;b.来自左侧的单元,代表将上面的字符与空格比对;c.来自左上侧的单元,代表与左侧和上面的字符比对,可能匹配也可能不匹配;即当矩阵M(i-1,j-1)、M(i,j-1)和M(i-1,j)值计算结束后,M(i,j)值才能计算;该单元的值来自于以下4个中的最大值:a. 上面单元的值-空格罚分预定值;b. 左侧单元的值-空格罚分预定值;c. 左上侧单元值+相应单元打分;d. 0;其中,所述单元值计算公式如下:
Figure DEST_PATH_IMAGE002
其中,
M(i-1,j-1)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i ,j-1)表示所述subseq1序列中第i个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i-1 ,j)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j个单元的比对得分;
g表示空格罚分预定值;
E(Qi,Sj)是基于所述subseq1序列中第i个单元Qi与所述subseq2序列中第j个单元Sj确定的数值,该数值根据自定义打分矩阵获得;其中,当Qi与Sj相同时,E(Qi,Sj)为第一预定打分值,当Qi与Sj不相同时,E(Ri,Sj)为第二预定打分值,所述第二预定打分值小于所述第一预定打分值。
所述空格罚分预定值为-50。
所述第一预定打分值和第二预定打分值依据自定义打分矩阵。
所述单元为碱基。
所述回溯模块是根据下列步骤确定的:
(a) 确定回溯起始位置模块,所述确定回溯起始位置模块用于确定矩阵M((m+1)×(n+1))中最右侧或最下方得分最大值所对应的回溯起始位置;如果所述回溯起始位置在最右侧而不是最右下方,subseq1序列前端引入GAP ("-"),GAP 个数由subseq2序列起始位置决定;如果所述回溯起始位置在最下方而不是最右下方,subseq2序列前端引入GAP("-"),GAP 个数由subseq1序列起始位置决定;
(b) 确定下一回溯位置模块,所述确定下一回溯位置模块用于确定基于所述回溯位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;如果所述最大值出现在该单元上方,则subseq1序列引入一个GAP ("-"),subseq2序列取该处碱基;如果所述最大值出现在左侧,则subseq2序列引入一个GAP ("-"),subseq1序列取该处碱基; 如果所述最大值出现在左上方,则不引入GAP,subseq1和subseq2均取相应的碱基;
(c) 重复步骤(b),直到步骤(b)中所确定的所述下一回溯位置的行号和列号的至少之一为0;
(d) 比对结果输出模块,所述比对结果输出模块用于基于步骤(a)-(c)中所确定的回溯路线,确定所述subseq1序列与所述subseq2序列的比对结果。
所述回溯模块与所述得分矩阵单元相关联,用于基于所述得分矩阵M((m+1)×(n+1))的数值,进行回溯处理,以便获得所述的subseq1序列和subseq2序列的比对结果,其中,所述单元M(i ,j)计算公式如下:
Figure DEST_PATH_IMAGE004
其中,
M(i-1,j-1)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i ,j-1)表示所述subseq1序列中第i个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i-1 ,j)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j个单元的比对得分;
g表示空格罚分预定值;
E(Qi,Sj)是基于所述subseq1序列中第i个单元Qi与所述subseq2序列中第j个单元Sj确定的数值,该数值根据自定义打分矩阵获得。其中,当Qi与Sj相同时,E(Qi,Sj)为第一预定打分值,当Qi与Sj不相同时,E(Ri,Sj)为第二预定打分值,所述第二预定打分值小于所述第一预定打分值。
所述联配结果采用三行结构输出,第一行为seq1序列,包含引入的GAP;第二行为联配结果,其中“*”表示碱基匹配,“N”表示碱基不匹配,“-”表示引入GAP;第一行为seq2序列,包含引入的GAP。
本发明的有益效果在于:
1)通过采取k-mer算法模式,大大的减少了比对运算量,节约了计算资源和时间成本。
2)通过全局比对,极大地满足了两条分段序列的最佳比对结果。
3)提升了序列联配的效率和准确性。
附图说明
图1为本发明实施例中的序列联配示意图。
图2 为本发明实施例中的序列分段示意图。
图3为本发明实施例中的打分矩阵和回溯模块示意图。
图4为本发明实施例中的比对结果图。
具体实施方式
为了更好的说明本发明,下面结合实施例做进一步说明,所述实施例的示例在附图中展示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提供的序列联配方法基于全局比对的核心思想,在此基础上进一步引入k-mer思想,依照自定义打分和特定的回溯规则,实现序列的联配。如图1所示,具体的核心步骤如下:第一步,分别对输入的seq1序列和seq2序列根据第一预定长度进行k-mer分析,获得k-mer序列集合,所述k-mer预定长度大于联配所允许的错配数;第二步,比较步骤一所述的k-mer序列集合,获得两条序列公共的k-mer,以此来寻找一致性片段。如果同一k-mer在同一条序列中有多个,则取第一个位置作为一致性片段;如果两条序列有多个连续k-mer共有,则会将多个连续k-mer合并以作为一致性片段;第三步,利用步骤二所述的一致性片段将序列划分成若干段差异性片段,进行分段全局联配获得最优联配结果。如果差异性片段序列长度小于第一预定长度,则会向前或向后截取一个k-mer长度的碱基并入一起联配分析;第四步,根据步骤三所述的最优联配结果,从5’端到3’端输出最终完整序列联配结果。根据本发明实施例的上述联配方法通过k-mer分割模式,减少了比对的运算量,极大提高了比对速度。
根据本发明的实施例,上述方法进一步包括如下技术特征:
根据本发明的实施例,所述全局比对是通过如下方式进行的:获取待联配的subseq1序列和subseq2序列各位置上的单元信息;基于所述单元信息,构建(m+1)×(n+1)的得分矩阵M,其中,m为subseq1的单元数目,n为subseq2的单元数目。subseq1序列沿顶部展开,subseq2序列沿左侧展开,得分矩阵第一行和第一列数值全填充为 0;其中所述得分矩阵中的单元M(i,j)表示所述subseq1序列中第i个单元与所述subseq2序列中第j个单元的比对得分;基于所述得分矩阵的数值,进行回溯处理,以便获得所述的subseq1序列和subseq2序列的比对结果,其中单元M(i,j)是基于以下计算公式确定:
Figure DEST_PATH_IMAGE005
其中,M(i-1,j-1)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j-1个单元的比对得分;M(i ,j-1)表示所述subseq1序列中第i个单元与所述subseq2序列中第j-1个单元的比对得分;M(i-1 ,j)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j个单元的比对得分;g表示空格罚分预定值;E(Qi,Sj)是基于所述subseq1序列中第i个单元Qi与所述subseq2序列中第j个单元Sj确定的数值,该数值根据自定义打分矩阵获得。其中,当Qi与Sj相同时,E(Qi,Sj)为第一预定打分值,当Qi与Sj不相同时,E(Ri,Sj)为第二预定打分值,所述第二预定打分值小于所述第一预定打分值。
需要说明的是,本申请所述的“比对所允许的错配数”是指在具体比对时,所允许的容错碱基数。
根据本发明的实施例,所述第一预定长度为奇数。通过模拟数据测试,发明人发现,所述第一预定长度数值并不是所有序列联配设置为统一值是最佳的,可以根据序列长度和实际情况进行选择;所述第一预定长度过长,可能会因为碱基错配导致获取不到共有k-mer,从而增加比对运算时长,比对速度较慢,也可能会影响比对结果准确性。
根据本发明的实施例,所述空格罚分预定值为-50。
根据本发明的实施例,所述第一预定打分值和第二预定打分值依据自定义 打分矩阵,如图3所示。
根据本发明的实施例,所述单元为碱基。
根据本发明的实施例,所述回溯模块(如图3所示)是根据下列步骤确定的:确定回溯起始位置模块,所述确定回溯起始位置模块用于确定矩阵M((m+1)×(n+1))中最右侧或最下方得分最大值所对应的回溯起始位置;如果所述回溯起始位置在最右侧而不是最右下方,subseq1序列前端引入GAP ("-"),GAP 个数由subseq2序列起始位置决定。如果所述回溯起始位置在最下方而不是最右下方,subseq2序列前端引入GAP ("-"),GAP 个数由subseq1序列起始位置决定;确定下一回溯位置模块,所述确定下一回溯位置模块用于确定基于所述回溯位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;如果所述最大值出现在该单元上方,则subseq1序列引入一个GAP ("-"),subseq2序列取该处碱基;如果所述最大值出现在左侧,则subseq2序列引入一个GAP ("-"),subseq1序列取该处碱基; 如果所述最大值出现在左上方,则不引入GAP,subseq1和subseq2均取相应的碱基。重复确定下一回溯位置,直到所确定的所述下一回溯位置的行号和列号的至少之一为0;比对结果输出模块,所述比对结果输出模块用于基于所确定的回溯路线,确定所述subseq1序列与所述subseq2序列的比对结果。
根据本发明的实施例,所述方法可描述为:
1) 输入序列seq1和seq2进行k-mer切分,构建k-mer序列集合;
2) 根据k-mer序列集合获取共有的k-mer序列并记录位置,如果同一k-mer在同一条序列中有多个,则取第一个位置作为一致性片段;如果两条序列有多个连续k-mer共有,则会将多个连续k-mer合并以作为一致性片段,如图2所示;
3) 根据一致性片段将序列划分成若干段差异性片段,并对分段序列进行全局比对以便获得最优联配结果。如果差异性片段序列长度小于第一预定长度,则会向前或向后截取一个k-mer长度的碱基并入一起联配分析,如图2所示;
4) 根据分段最优联配结果,从5’端到3’端输出最终完整序列联配结果,如图4所示。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本领域技术人员而言,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,均属于本发明要求保护的范围。

Claims (10)

1.一种基于k-mer的序列联配方法,其特征在于,包括以下步骤:
步骤一,分别对输入的seq1序列和seq2序列根据第一预定长度进行k-mer分析,获得k-mer序列集合,所述k-mer第一预定长度大于联配所允许的错配数;
步骤二,比较步骤一所述的k-mer序列集合,获得两条序列公共的k-mer,以此来寻找一致性片段;如果同一k-mer在同一条序列中有多个,则取第一个位置作为一致性片段;如果两条序列有多个连续k-mer共有,则将多个连续k-mer合并以作为一致性片段;
步骤三,利用步骤二所述的一致性片段将序列划分成若干段差异性片段,进行差异性片段序列全局联配获得最优联配结果;如果差异性片段序列长度小于第一预定长度,则向前或向后截取一个第一预定长度的碱基并入一起联配分析;
步骤四,根据步骤三所述的最优联配结果,从5’端到3’端输出最终完整序列联配结果。
2.如权利要求1所述的方法,其特征在于:所述第一预定长度为奇数。
3.如权利要求1所述的方法,其特征在于:所述差异性片段序列全局联配包括全局比对模块和回溯模块。
4.如权利要求3所述的方法,其特征在于:所述全局比对模块实行步骤如下:
1)初始化阶段:获取待联配的subseq1序列和subseq2序列各位置上的单元信息;构建(m+1)×(n+1)的得分矩阵M,其中,m为subseq1的单元数目,n为subseq2的单元数目,subseq1序列沿顶部展开,subseq2序列沿左侧展开,得分矩阵初始化值全填充为 0;
2)计算单元得分值:用于计算得分矩阵中的单元值通过以下三个途径到达每个单元:a.来自上面的单元,代表将左侧的字符与空格比对;b.来自左侧的单元,代表将上面的字符与空格比对;c.来自左上侧的单元,代表与左侧和上面的字符比对,可能匹配也可能不匹配;即当矩阵M(i-1,j-1)、M(i,j-1)和M(i-1,j)值计算结束后,M(i,j)值才能计算;该单元的值来自于以下4个中的最大值:a. 上面单元的值-空格罚分预定值;b. 左侧单元的值-空格罚分预定值;c. 左上侧单元值+相应单元打分;d. 0;其中,所述单元值计算公式如下:
Figure 810040DEST_PATH_IMAGE002
其中,
M(i-1,j-1)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i ,j-1)表示所述subseq1序列中第i个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i-1 ,j)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j个单元的比对得分;
g表示空格罚分预定值;
E(Qi,Sj)是基于所述subseq1序列中第i个单元Qi与所述subseq2序列中第j个单元Sj确定的数值,该数值根据自定义打分矩阵获得;其中,当Qi与Sj相同时,E(Qi,Sj)为第一预定打分值,当Qi与Sj不相同时,E(Ri,Sj)为第二预定打分值,所述第二预定打分值小于所述第一预定打分值。
5.如权利要求4所述的方法,其特征在于,所述空格罚分预定值为-50。
6.如权利要求4所述的方法,其特征在于,所述第一预定打分值和第二预定打分值依据自定义打分矩阵。
7.如权利要求4所述的方法,其特征在于,所述单元为碱基。
8.如权利要求3所述的方法,其特征在于,所述回溯模块是根据下列步骤确定的:
确定回溯起始位置模块,所述确定回溯起始位置模块用于确定矩阵M((m+1)×(n+1))中最右侧或最下方得分最大值所对应的回溯起始位置;如果所述回溯起始位置在最右侧而不是最右下方,subseq1序列前端引入GAP ("-"),GAP 个数由subseq2序列起始位置决定;如果所述回溯起始位置在最下方而不是最右下方,subseq2序列前端引入GAP ("-"),GAP 个数由subseq1序列起始位置决定;
确定下一回溯位置模块,所述确定下一回溯位置模块用于确定基于所述回溯位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;如果所述最大值出现在该单元上方,则subseq1序列引入一个GAP ("-"),subseq2序列取该处碱基;如果所述最大值出现在左侧,则subseq2序列引入一个GAP ("-"),subseq1序列取该处碱基; 如果所述最大值出现在左上方,则不引入GAP,subseq1和subseq2均取相应的碱基;
重复步骤(b),直到步骤(b)中所确定的所述下一回溯位置的行号和列号的至少之一为0;
比对结果输出模块,所述比对结果输出模块用于基于步骤(a)-(c)中所确定的回溯路线,确定所述subseq1序列与所述subseq2序列的比对结果。
9.如权利要求8所述的方法,其特征在于,所述回溯模块与所述得分矩阵单元相关联,用于基于所述得分矩阵M((m+1)×(n+1))的数值,进行回溯处理,以便获得所述的subseq1序列和subseq2序列的比对结果,其中,所述单元M(i ,j)计算公式如下:
Figure 992759DEST_PATH_IMAGE004
其中,
M(i-1,j-1)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i ,j-1)表示所述subseq1序列中第i个单元与所述subseq2序列中第j-1个单元的比对得分;
M(i-1 ,j)表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j个单元的比对得分;
g表示空格罚分预定值;
E(Qi,Sj)是基于所述subseq1序列中第i个单元Qi与所述subseq2序列中第j个单元Sj确定的数值,该数值根据自定义打分矩阵获得;
其中,当Qi与Sj相同时,E(Qi,Sj)为第一预定打分值,当Qi与Sj不相同时,E(Ri,Sj)为第二预定打分值,所述第二预定打分值小于所述第一预定打分值。
10.如权利要求1所述的方法,其特征在于:所述联配结果采用三行结构输出,第一行为seq1序列,包含引入的GAP;第二行为联配结果,其中“*”表示碱基匹配,“N”表示碱基不匹配,“-”表示引入GAP;第一行为seq2序列,包含引入的GAP。
CN202210050014.9A 2022-01-17 2022-01-17 一种基于k-mer的序列联配方法 Active CN114520024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210050014.9A CN114520024B (zh) 2022-01-17 2022-01-17 一种基于k-mer的序列联配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210050014.9A CN114520024B (zh) 2022-01-17 2022-01-17 一种基于k-mer的序列联配方法

Publications (2)

Publication Number Publication Date
CN114520024A true CN114520024A (zh) 2022-05-20
CN114520024B CN114520024B (zh) 2024-03-22

Family

ID=81595882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210050014.9A Active CN114520024B (zh) 2022-01-17 2022-01-17 一种基于k-mer的序列联配方法

Country Status (1)

Country Link
CN (1) CN114520024B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
KR20140029788A (ko) * 2012-08-30 2014-03-11 한국생명공학연구원 Fga 알고리즘을 이용하는 서열 유사도 측정 시스템 및 이를 이용한 서열 유사도 측정 방법
CN107256335A (zh) * 2017-06-02 2017-10-17 肖传乐 一种基于全局种子打分优选的三代测序序列比对方法
CN110246545A (zh) * 2019-06-06 2019-09-17 武汉未来组生物科技有限公司 一种序列的校正方法及其校正装置
CN112017729A (zh) * 2020-08-10 2020-12-01 浙江大学 一种细菌dna序列快速注释方法及装置
CN112825268A (zh) * 2019-11-21 2021-05-21 深圳华大基因科技服务有限公司 测序结果比对方法及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355605B (zh) * 2016-08-25 2018-12-28 深圳先进技术研究院 群体运动一致性过滤方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
KR20140029788A (ko) * 2012-08-30 2014-03-11 한국생명공학연구원 Fga 알고리즘을 이용하는 서열 유사도 측정 시스템 및 이를 이용한 서열 유사도 측정 방법
CN107256335A (zh) * 2017-06-02 2017-10-17 肖传乐 一种基于全局种子打分优选的三代测序序列比对方法
CN110246545A (zh) * 2019-06-06 2019-09-17 武汉未来组生物科技有限公司 一种序列的校正方法及其校正装置
CN112825268A (zh) * 2019-11-21 2021-05-21 深圳华大基因科技服务有限公司 测序结果比对方法及其应用
CN112017729A (zh) * 2020-08-10 2020-12-01 浙江大学 一种细菌dna序列快速注释方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADRIANO DONATO COUTO 等: "Theoretical Basis of a New Method for DNA Fragment Assembly in k-mer Graphs", 《2012 31ST INTERNATIONAL CONFERENCE OF THE CHILEAN COMPUTER SCIENCE SOCIETY》, pages 69 - 77 *
唐勇;卢锡城;胡华平;朱培栋;: "基于多序列联配的攻击特征自动提取技术研究", 计算机学报, no. 09, pages 23 - 31 *
张旭初: "多序列比对算法族的构件组装研究", 《中国优秀硕士论文电子期刊网》, pages 006 - 34 *

Also Published As

Publication number Publication date
CN114520024B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
US10078724B2 (en) Methods and systems for genotyping genetic samples
EP3053073B1 (en) Methods and system for detecting sequence variants
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
US20160259886A1 (en) Method and system of mapping sequencing reads
US20040117130A1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
WO2017143585A1 (zh) 对分隔长片段序列进行组装的方法和装置
KR20160068953A (ko) 질환-유도된 돌연변이를 확인하기 위한 방법 및 시스템
CN107133493B (zh) 基因组序列的组装方法、结构变异探测方法和相应的系统
NZ759420A (en) Process for aligning targeted nucleic acid sequencing data
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN114708910B (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN108388772B (zh) 一种利用文本比对分析高通量测序基因表达水平的方法
CN114520024A (zh) 一种基于k-mer的序列联配方法
CN114566215B (zh) 一种双端成对的剪接位点预测方法
CN105069325A (zh) 一种对核酸序列信息进行匹配的方法
JPH1040257A (ja) 文字配列比較方法、およびそれを用いたアセンブル方法
CN109097458A (zh) 基于ngs读段搜索实现序列延伸的虚拟pcr方法
JP5403563B2 (ja) 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
CN113380326B (zh) 一种基于pam聚类算法的基因表达数据分析方法
CN114373502A (zh) 一种基于甲基化的肿瘤数据分析系统
CN110544510B (zh) 基于邻接代数模型及质量等级评估的contig集成方法
CN112825267B (zh) 确定小核酸序列集合的方法及其应用
Cawley Statistical models for DNA sequencing and analysis
KR100537636B1 (ko) 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법
CN112599251B (zh) 疾病筛查模型的构建方法、疾病筛查模型及筛查装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant