CN106557668A - 基于lf熵的dna序列相似性检验方法 - Google Patents

基于lf熵的dna序列相似性检验方法 Download PDF

Info

Publication number
CN106557668A
CN106557668A CN201610970981.1A CN201610970981A CN106557668A CN 106557668 A CN106557668 A CN 106557668A CN 201610970981 A CN201610970981 A CN 201610970981A CN 106557668 A CN106557668 A CN 106557668A
Authority
CN
China
Prior art keywords
sequence
dna
entropy
value
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610970981.1A
Other languages
English (en)
Other versions
CN106557668B (zh
Inventor
林劼
魏静
徐彭娜
江育娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN201610970981.1A priority Critical patent/CN106557668B/zh
Publication of CN106557668A publication Critical patent/CN106557668A/zh
Application granted granted Critical
Publication of CN106557668B publication Critical patent/CN106557668B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于LF熵的DNA序列相似性检验方法,通过对原始的DNA序列按着L‑Gram模型进行映射,得到一个新的数值序列。通过计算N条序列的LF熵值构成的矩阵,进而得出其标准熵,并投影到hamming空间进行序列相似性比对。本发明综合考虑到在转换后的特征空间包含足够的原始DNA信息,避免DNA信息的丢失;将每一段DNA序列转为一个新的空间,可以提高运算速度和精确度。

Description

基于LF熵的DNA序列相似性检验方法
技术领域
本发明涉及生物信息处理领域,尤其涉及基于LF熵的DNA序列相似性检验方法。
背景技术
DNA序列的相似性作为生物信息学中的基本度量,在许多场合中都会有应用,包括预测一段未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等。
随着生物科学技术的高速发展,生物科学领域的数据资源急剧的膨胀,因此需要寻找出一种高效快速的方法来处理庞大的生物数据正成为生物信息领域越来越严峻的问题。生物信息数据的收集已是庞然大物。对大量的生物学序列数据进行分类、分析是一项极具挑战的工作。
现有的DNA序列相似性搜寻方法存在很多的缺陷。基于碱基排列的方法是直接比较两个DNA序列字符串的匹配,如算法BLAST,FASTA,UCLUST和CD-HIT等。这些方法运算过程非常耗时,在大型的数据库中匹配是很消耗时间的。K-tuple算法是十分常用的序列相似性搜寻的方法,DNA序列通过一个长度为K的滑动窗口,在窗口的每一段DNA序列是一个元组,但是它已被证明在许多研究中,简单的K-tuple算法并不能完全的描述DNA序列中所包含的信息。
发明内容
本发明的目的在于克服现有技术的不足,提供基于LF熵的DNA序列相似性检验方法。
本发明采用的技术方案是:
基于LF熵的DNA序列相似性检验方法,其包括以下步骤:
(1)从DNA片段中获取原始DNA序列;
(2)将原始DNA序列按L-Gram模型进行映射得到对应的数字序列,预处理字长为L,获得|∑|L个待处理字;
(3)计算数字序列中每个待处理字的LF值,进而获得每个待处理字的LF值序列X={X1,X2……Xn}其中n为LF值序列的长度;所述LF值为待处理字在数字序列中两次出现时对应的两个位置间的距离的倒数,其计算公式如下:
其中W表示待处理字,t表示待处理字出现的位置顺序,m代表待处理字出现的频数;
(4)计算N条LF值序列的LF熵值h:LF熵值h反映的是待处理字在DNA序列分布中位置的重要性;
(5)基于LF熵值计算N条序列的标准熵值HLF,标准熵值HLF的计算公式如下:
h(Wt)是字Wt的熵,t表示待处理字出现的位置顺序,m代表待处理字出现的频数;
(6)将N条序列的标准熵值HLF采用K-means聚类方法进行聚类并投影至Hamming空间,得到数值序列;
(7)将每条数值序列均分为d+1序列段,d为大于零的整数,并将任一数值序列与其他数值序列的段进行一一比较,将与该任一数值序列存在相等序列段的序列均作为该任一数值序列的候选序列;
(8)计算该任一数值序列与其所有候选序列的海明距离;
(9)从该任一数值序列的候选序列中删除与该任一数值序列的海明距离大于d的候选序列;
(10)确定最邻近序列查询结果:
候选序列的个数不大于k时,k为大于零的整数,则候选序列作为最近邻序列查询结果;候选序列的个数大于k时,则将候选序列按对应海明距离从小到大排序保留k个候选序列,并以该k条候选序列作为最近邻序列查询结果。
进一步地,所述步骤(4)中LF值序列的LF熵值的计算方法如下:
a.计算LF值序列的部分和S,S={S1,S2……,Sn}={X1,X1+X2,X1+X2+X3,……,};
其中:
S1=X1
S2=X1+X2
S3=X1+X2+X3
……
Sn=X1+X2+…+Xm
b.计算LF值序列部分和S的总和Z,Z=S1+S2+...+Sn
c.计算序列每个位置的离散概率P,St为对应的第t个部分和,Z为序列的总和;
d.计算LF值序列的LF熵值h,P[t]为离散概率P的第t个离散概率。
本发明采用以上技术方案,在众多的DNA序列分析方法中,我们通过对原始的DNA序列按着L-Gram模型进行映射,即由于DNA序列是由{A,T,C,G}四个字母组成,预处理字长为L,从而获得|∑|L个待处理字;从而原始DNA序列经过映射得到一个新的数值序列。通过计算N条序列的Local Frequency(简称LF)熵值构成N*|∑|L的矩阵,进而得出其标准熵,投影到hamming空间进行序列相似性比对。采用Local Frequency综合考虑到在转换后的特征空间包含足够的原始DNA信息,避免DNA序列信息的丢失;以Local Frequency为基础的计算而得的熵值更能精细的反应DNA序列的结构信息。DNA序列的相似性作为生物信息学中的基本度量,在许多场合中都会有应用,包括预测一段未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等。对于判定两个DNA序列间的相似性,基于LF熵的DNA序列相似性检验,这种方法将每一段DNA序列转为一个新的空间,可以提高运算速度和精确度。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明基于LF熵的DNA序列相似性检验方法的流程图。
具体实施方式
如图1所示,本发明基于LF熵的DNA序列相似性检验方法,其包括以下步骤:
(1)从DNA片段中获取原始DNA序列;
(2)将原始DNA序列按L-Gram模型进行映射得到对应的数字序列,预处理字长为L,获得|Σ|L个待处理字;
(3)计算数字序列中每个待处理字的LF值,获得每个待处理字的LF值序列X={X1,X2……Xn},其中n为LF值序列的长度;X1为当前序列中字W出现的第二个位置与第一个位置差的倒数,Xn为当前序列中字W出现的第n+1个位置与第n位置差的倒数;所述LF值为待处理字在数字序列中两次出现时对应的两个位置间的距离的倒数,其计算公式如下:
其中W表示待处理字,t表示待处理字出现的位置顺序,m代表待处理字出现的频数;
(4)计算N条LF值序列的LF熵值h:LF熵值h反映的是待处理字在DNA序列分布中位置的重要性;
(5)基于LF熵值计算N条序列的标准熵值HLF,标准熵值HLF的计算公式如下:
h(Wt)是字Wt的熵,t表示待处理字出现的位置顺序,m代表待处理字出现的频数;
(6)将N条序列的标准熵值HLF采用K-means聚类方法进行聚类并投影至Hamming空间,得到数值序列;
(7)将每条数值序列均分为d+1序列段,d为大于零的整数,并将任一数值序列与其他数值序列的段进行一一比较,将与该任一数值序列存在相等序列段的序列均作为该任一数值序列的候选序列;
(8)计算该任一数值序列与其所有候选序列的海明距离;
(9)从该任一数值序列的候选序列中删除与该任一数值序列的海明距离大于d的候选序列;
(10)确定最邻近序列查询结果:
候选序列的个数不大于k时,k为大于零的整数,则候选序列作为最近邻序列查询结果;候选序列的个数大于k时,则将候选序列按对应海明距离从小到大排序保留k个候选序列,并以该k条候选序列作为最近邻序列查询结果。
进一步地,所述步骤(4)中LF值序列的LF熵值的计算方法如下:
a.计算获取LF值序列的部分和序列S,S={S1,S2……,Sn}={X1,X1+X2,X1+X2+
X3,……,};
其中:
S1=X1
S2=X1+X2
S3=X1+X2+X3
……
Sn=X1+X2+…+Xm
b.计算序列的总和Z,Z=S1+S2+...+Sn
部分和S的和为总和Z;
c.计算序列每个位置的离散概率P,St为对应的第t个部分和,Z为序列的总和;
d.计算LF值序列的LF熵值h,P[t]为前一个步骤中所计算的离散概率P的第t个离散概率。
下面就本发明的处理过程做详细的说明:
为了更清楚描述本专利中DNA序列的处理过程,随机抽取2条DNA编码序列作为分析对象,以这些DNA序列为样例对专利实施过程进行详细的描述。基于LF熵的DNA序列相似性检验方法步骤如下:
(1)从DNA序列数据库中随机选择2条待测DNA序列;
(2)对于步骤(1)中所得的原始序列按L-Gram模型进行映射,预处理字长L,从而获得|Σ|L个待处理字,经过映射得到原始序列对应的新的数字序列;在映射过程中,按字处理,获得每个字在序列中的位置信息和每个字的频数,并将位置信息存储在list表格对应位置中,以便于在下面的运算中进行调用。
例如字长L=2时获得个待处理字:AA,AC,AG,AT,CA,CC,CG,CT,
GA,GC,GG,GT,TA,TC,TG,TT,
随机抽取的原始DNA序列为:
TACATCGAGAACATCCAGAATTTGTTTGATAACCAACTGGCAAGCAA
CACAGGCAAAATACAAACATCCACCAGGCCAGCGCCTTTCGGACAAA
经过L=2字长的映射,A=0,C=1,G=2,T=3,并得出每个字对应的位置信息,如表一;
表一:每个字在两个序列中的位置
(3)计算数字序列中每个待处理字的LF值,一个字对应计算出的LF值产生一个数值序列X={X1,X2……Xn}其中n为LF值序列的长度,则本例中字长为L=2所以每条DNA序列将会产生16个LF值序列。;通过计算每个字出现两次时两个位置间的距离,距离的倒数即为LF值;LF值计算公式为
其中W表示待处理字,t表示待处理字出现的位置顺序;m代表待处理字出现的频数,LF值如表二所示。
表二:序列中每个字对应的LF值
(4)根据公式计算出映射后每个字对应的累积和,离散概率和熵值,计算N条LF值序列的LF熵值h:LF熵值h反映的是待处理字在DNA序列分布中位置的重要性;对于每一个序列将产生|Σ|L个LF熵计算值,计算|Σ|L个LF熵值得到一个2*|Σ|L的矩阵,具体如表3所示。其中,LF值序列的LF熵值的计算方法具体包括以下步骤:
a.计算LF值序列的部分和S,S={S1,S2……,Sn}={X1,X1+X2,X1+X2+X3,……,},
S为部分和序列,其计算公式如下:
S1=X1
S2=X1+X2
S3=X1+X2+X3
……
Sn=X1+X2+…+Xm
b.计算LF值序列的部分和S的和总和Z,Z=S1+S2+...+Sn;部分和S的和为总和Z;
c.计算序列每个位置的离散概率P,St为对应的第t个部分和,Z为序列的总和;
d.计算LF值序列的LF熵值h,P[t]为前一个步骤中所计算的离散概率P的第t个离散概率。
表三:每个字对应的LF熵值
(5)进一步根据步骤4计算出的LF熵值,计算标准熵值,标准熵值HLF的计算公式为:h(Wt)是字Wt的熵,m是该字出现的频数;
表四:每个字对应的LF标准熵值
(6)进一步的通过对步骤5得出的LF标准熵结果运用K-means聚类方法进行聚类,对2条的字进行K-means,分为K类,聚类后的结果投影到Hamming空间;得到全新的数值序列。
K-means聚类是对LF标准熵进行离散化的过程,将离散化后的结果投影到Hamming空间,经过聚类后,标准熵被分为k类,每个字对应的标准熵被归入1,2……,k中的某一类,例如为聚类为1,则投影为00…001,聚类为3则投影为0…0111,总共有k位。将每一列进行K-means聚类,由于是一维数据聚类,可以将聚类中心按照顺序定义为1,2,……,K,k为聚类个数,然后将各个聚类号作为值填入表格中。如表五所示,将两条序列的标准熵聚为五类。投影到Hamming空间,通过使用Hamming Distance对序列进行相似性的检验。HammingDistance值越大,代表两个序列相似度越低,Hamming Distance值越小,代表两个序列相似度越高。对于所举例子经过计算的出两条序列的Hamming Distance为18。
表五:对标准熵进行离散化的结果
(7)对投影到Hamming空间的聚类后的数值序列进行预处理,每条数值序列分为d+1段,将当前数值序列与其他数值序列的段进行一一比较,并把搜寻的对应段的候选序列存放在list表中,用list表来存储每段相似的序列号信息,存储在search中。
(8)计算当前数值序列与其所有候选序列的海明距离;存储在另一个名为HM_distance的list表中。
(9)从当前数值序列的候选序列中删除与当前数值序列的海明距离大于d的候选序列;
(10)确定最邻近序列查询结果,按照hamming距离从小到大的顺序,在。候选序列中查找出几条与当前序列最相似的DNA序列。候选序列的个数不大于k时,k为大于零的整数,则候选序列作为最近邻序列查询结果;候选序列的个数大于k时,则将候选序列按对应海明距离从小到大排序保留k个候选序列,并以该k条候选序列作为最近邻序列查询结果。即判断search中候选序列的个数n(search),如果n(search)≤k,则search为序列k条海明距离小于d的最近邻序列的查找结果;如果n(search)>k,将HM_distance从小到大排序,保留k个结果,search保留HM_distance对应的候选序列,则search为序列k条海明距离小于d的最近邻序列的查找结果。
本发明采用以上技术方案,在众多的DNA序列分析方法中,我们通过对原始的DNA序列按着L-Gram模型进行映射,即由于DNA序列是由{A,T,C,G}四个字母组成,预处理字长为L,从而获得|∑|L个待处理字;从而原始DNA序列经过映射得到一个新的数值序列。通过计算N条序列的Local Frequency(简称LF)熵值构成N*|∑|L的矩阵,进而得出其标准熵,投影到hamming空间进行序列相似性比对。采用Local Frequency综合考虑到在转换后的特征空间包含足够的原始DNA信息,避免DNA序列信息的丢失;以Local Frequency为基础的计算而得的熵值更能精细的反应DNA序列的结构信息。DNA序列的相似性作为生物信息学中的基本度量,在许多场合中都会有应用,包括预测一段未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等。对于判定两个DNA序列间的相似性,基于LF熵的DNA序列相似性检验,这种方法将每一段DNA序列转为一个新的空间,可以提高运算速度和精确度。

Claims (2)

1.基于LF熵的DNA序列相似性检验方法,其特征在于:其包括以下步骤:
(1)从DNA片段中获取原始DNA序列;
(2)将原始DNA序列按L-Gram模型进行映射得到对应的数字序列,预处理字长为L,获得|∑|L个待处理字;
(3)计算数字序列中每个待处理字的LF值Xt,进而获得LF值序列X={X1,X2……Xn}其中n为LF值序列的长度;所述LF值Xt为待处理字在数字序列中两次出现时对应的两个位置间的距离的倒数,LF值Xt的计算公式如下:
X t = 1 LF t W - LF t - 1 W , ( t = 1 , 2 , ... ... , m )
其中W表示待处理字,t表示待处理字出现的位置顺序;m代表待处理字出现的频数;
(4)计算N条LF值序列的LF熵值h:LF熵值h反映的是待处理字在DNA序列分布中位置的重要性;
(5)基于LF熵值计算N条序列的标准熵值HLF,标准熵值HLF的计算公式如下:
H L F = h ( W t ) - 1 m * log 2 1 m
h(Wt)是字Wt的熵,t表示待处理字出现的位置顺序,m代表待处理字出现的频数;
(6)将N条序列的标准熵值HLF采用K-means聚类方法进行聚类并投影至Hamming空间,得到数值序列;
(7)将每条数值序列均分为d+1序列段,d为大于零的整数,并将任一数值序列与其他数值序列的段进行一一比较,将与该任一数值序列存在相等序列段的序列均作为该任一数值序列的候选序列;
(8)计算该任一数值序列与其所有候选序列的海明距离;
(9)从该任一数值序列的候选序列中删除与该任一数值序列的海明距离大于d的候选序列;
(10)确定最邻近序列查询结果:
候选序列的个数不大于k时,k为大于零的整数,则候选序列作为最近邻序列查询结果;候选序列的个数大于k时,则将候选序列按对应海明距离从小到大排序保留k个候选序列,并以该k条候选序列作为最近邻序列查询结果。
2.根据权利要求1所述基于LF熵的DNA序列相似性检验方法,其特征在于:所述步骤(4)中LF值序列的LF熵值的计算方法如下:
a.计算获取LF值序列的部分和序列S,S={S1,S2……,Sn}={X1,X1+X2,X1+X2+X3,……,};其中:
S1=X1
S2=X1+X2
S3=X1+X2+X3
……
Sn=X1+X2+…+Xm
b.计算LF值序列的部分和S的总和Z,Z=S1+S2+...+Sn
c.计算序列每个位置的离散概率P,即为(t=1,2,……,n);St为对应的第t个部分和;
d.计算LF值序列的LF熵值h,P[t]为离散概率P的第t个离散概率。
CN201610970981.1A 2016-11-04 2016-11-04 基于lf熵的dna序列相似性检验方法 Expired - Fee Related CN106557668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610970981.1A CN106557668B (zh) 2016-11-04 2016-11-04 基于lf熵的dna序列相似性检验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610970981.1A CN106557668B (zh) 2016-11-04 2016-11-04 基于lf熵的dna序列相似性检验方法

Publications (2)

Publication Number Publication Date
CN106557668A true CN106557668A (zh) 2017-04-05
CN106557668B CN106557668B (zh) 2019-04-05

Family

ID=58443881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610970981.1A Expired - Fee Related CN106557668B (zh) 2016-11-04 2016-11-04 基于lf熵的dna序列相似性检验方法

Country Status (1)

Country Link
CN (1) CN106557668B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103206A (zh) * 2017-04-27 2017-08-29 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107480471A (zh) * 2017-07-19 2017-12-15 福建师范大学 基于小波变换为特征的序列相似性分析的方法
CN109903812A (zh) * 2019-02-22 2019-06-18 哈尔滨工业大学(深圳) 一种基于信息熵的基因序列数字化实现方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200967A (zh) * 2011-03-30 2011-09-28 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于dna序列的文本处理方法和系统
CN105229651A (zh) * 2013-05-23 2016-01-06 皇家飞利浦有限公司 Dna序列的快速并且安全的检索

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200967A (zh) * 2011-03-30 2011-09-28 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于dna序列的文本处理方法和系统
CN105229651A (zh) * 2013-05-23 2016-01-06 皇家飞利浦有限公司 Dna序列的快速并且安全的检索

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUN LI 等: "Relative entropy of DNA andits application", 《WWW.ELSEVIER.COM/LOCATE/PHYSA》 *
JUNPENG BAO 等: "An improved alignment-free model for dna sequence similarity metric", 《BMC BIOINFORMATICS》 *
杨希武: "DNA序列比较的K-词非频率模型研究及应用", 《中国博士学位论文全文数据库 基础科学辑》 *
黄玉娟: "基于k词的DNA序列分析的模型研究及应用", 《中国博士学位论文全文数据库 基础科学辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103206A (zh) * 2017-04-27 2017-08-29 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107103206B (zh) * 2017-04-27 2019-10-18 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107480471A (zh) * 2017-07-19 2017-12-15 福建师范大学 基于小波变换为特征的序列相似性分析的方法
CN107480471B (zh) * 2017-07-19 2020-09-01 福建师范大学 基于小波变换为特征的序列相似性分析的方法
CN109903812A (zh) * 2019-02-22 2019-06-18 哈尔滨工业大学(深圳) 一种基于信息熵的基因序列数字化实现方法及系统

Also Published As

Publication number Publication date
CN106557668B (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
Soueidan et al. Machine learning for metagenomics: methods and tools
US7640256B2 (en) Data collection cataloguing and searching method and system
US9372959B2 (en) Assembly of metagenomic sequences
JP5183155B2 (ja) 大量配列の一括検索方法及び検索システム
CN112259167B (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
CN109545283B (zh) 一种基于序列模式挖掘算法的系统发生树构建方法
CN106557668A (zh) 基于lf熵的dna序列相似性检验方法
CN107103206B (zh) 基于标准熵的局部敏感哈希的dna序列聚类
Bao et al. A wavelet-based feature vector model for DNA clustering
Comin et al. Fast entropic profiler: An information theoretic approach for the discovery of patterns in genomes
Wang et al. Kernel design for RNA classification using support vector machines
CN110060735B (zh) 一种基于k-mer组群分割的生物序列聚类方法
Prezza et al. Detecting mutations by eBWT
Chen et al. Emerging Patterns and Classification Algorithms for DNA Sequence.
Park et al. UPP2: Fast and Accurate Alignment Estimation of Datasets with Fragmentary Sequences
Bhattacharya et al. Progress: Simultaneous searching of protein databases by sequence and structure
Priscilla et al. A semi-supervised hierarchical approach: Two-dimensional clustering of microarray gene expression data
Aleb et al. An improved K-means algorithm for DNA sequence clustering
Esmat et al. A parallel hash‐based method for local sequence alignment
CN107607723A (zh) 一种基于随机投影集成分类的蛋白质间相互作用测定方法
JP7173821B2 (ja) 生物学的配列フィンガープリント
CN106529212B (zh) 基于序列依赖频率矩阵的生物序列进化信息提取方法
Tapinos et al. Alignment by numbers: sequence assembly using compressed numerical representations
Das et al. Biclustering of gene expression data using a two-phase method
Rao et al. Evaluating distance functions for clustering tandem repeats

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190405

CF01 Termination of patent right due to non-payment of annual fee