CN101950326A - 基于Hurst指数的DNA序列相似性检测方法 - Google Patents
基于Hurst指数的DNA序列相似性检测方法 Download PDFInfo
- Publication number
- CN101950326A CN101950326A CN2010102777191A CN201010277719A CN101950326A CN 101950326 A CN101950326 A CN 101950326A CN 2010102777191 A CN2010102777191 A CN 2010102777191A CN 201010277719 A CN201010277719 A CN 201010277719A CN 101950326 A CN101950326 A CN 101950326A
- Authority
- CN
- China
- Prior art keywords
- sequence
- dna
- hurst index
- similarity
- hurst
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息处理领域,具体涉及一种基于Hurst指数的DNA序列相似性检测方法,能够同时对多个DNA序列进行相似性检测,简化了计算复杂性,提高了运算效率,并能提高较近进化距离的分析对象间的区别度;包括如下步骤:1)获取不同物种相同功能区域的DNA编码序列作为初始序列;2)对步骤1)所得的初始序列进行数字转换,得到初始序列对应的数值序列;3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数;4)利用步骤3)所得的Hurst指数构建距离矩阵。5)从步骤4)获得的距离矩阵获得序列相似性信息。
Description
技术领域
本发明涉及生物信息处理领域,具体涉及一种DNA序列相似性检测方法。
背景技术
生物信息学的一个重要内容是序列分析,通过对核酸和蛋白质的序列进行分析,得到它们的结构和功能信息,以了解核酸和蛋白质在生物体中的作用,并研究它们的进化起源。序列数据库中序列数据的快速扩增,促使研究人员对序列分析方法进行了大量研究。
基于不同序列表达方式,研究人员使用多种算法从数字化的序列中提取可以有效反映序列生物信息的特征参数,例如各种矩阵的最大特征值和拓扑类指数等,然后构建分析序列对应的多维向量。广泛使用的序列相似性判断是通过计算向量端点之间的欧几里得距离或者向量之间的夹角来判定的,若向量端点之间的欧几里得距离越小或者向量之间夹角越小,则两序列越相似。而宋杰、骆嘉伟等基于信息离散性量度采用离散度函数对DNA序列的相似性进行分析,李梅等则通过计算动态时间弯曲距离分析DNA序列相似性。但上述方法一方面分析过程均较复杂,往往需要构建多维向量,计算量较大,这促使我们寻找一种更简洁的分析方法。另一方面,上述分析方法所的分析结果给出的不同物种之间的相对差异值有不大,这又促使我们寻找一种能提供更显著结果的分析方法。
已有的大量研究表明,DNA序列具有长程相关性,这使我们可以从另一个角度对序列进行分析。其中,研究人员将Hurst指数作为一个重要的特征参数,对DNA序列蕴含的相关性进行了分析。例如,赵小杰等在利用功率谱分析编码DNA序列基础上,用Hurst指数对人的DNA序列的自相似性进行描述,结果反映出人DNA序列中的长程相似性。Boekhorst等利用Hurst指数区分编码DNA、调控DNA和非编码非调控DNA。Yu等利用Hurst指数对DNA序列的分形和统计特征进行分析,研究了部分分析对象外显子和内含子的Hurst指数、部分对象完全基因组的编码序列的平均Hurst指数和相关维数,对利用平均Hurst指数和相关维数进行分类和进化关系进行了研究。但是Hurst指数并没有应用于DNA序列进行相似性分析。基于现有研究,我们在本方法中将Hurst指数作为指标参数用于DNA序列相似性检测。
发明内容
有鉴于此,为了解决上述问题,本发明提出了一种基于Hurst指数的DNA序列相似性检测方法,能够同时对多个DNA序列进行相似性检测,简化了计算复杂性,提高了运算效率,并能提高较近进化距离的分析对象间的区别度。
本发明的目的是这样实现的:基于Hurst指数的DNA序列相似性检测方法,包括如下步骤:
1)获取不同物种相同功能区域的DNA编码序列作为初始序列;
2)对步骤1)所得的初始序列进行数字转换,得到初始序列对应的数值序列;
3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数;
4)利用步骤3)所得的Hurst指数构建距离矩阵;
5)从步骤4)获得的距离矩阵获得序列相似性信息,即:距离数值越小的Hurst指数对应的DNA编码序列,其对应物种相似性越大,反之,其对应物种相似性越小。
进一步,所述步骤2)中,采用2D图形表示法对初始序列进行数字化;
b)通过下式,获得累计离差:
c)通过下式,获得极差:R(n)=maxu(i,n)-minu(i,n);
e)若存在常数H使得则H为该序列的Hurst指数;
以上步骤中,3≤n≤N;
进一步,步骤e)中,通过在双对数坐标ln(n)-ln(R(s)/S(n))系下得到N-2个点,利用最小二乘法对N-2个点进行拟合得到Hurst指数;
进一步,所述步骤4)中的距离矩阵是所有初始序列对应的Hurst指数两两比较所得差值构成的数值矩阵;
进一步,所述数值矩阵为上三角矩阵。
本发明基于Hurst指数的DNA序列相似性检测方法,利用R/S算法求取待分析序列的Hurst指数作为特征参量,能够对多个DNA序列进行相似性检测,检测效果有效地反映出分析对象的生物特性,方法较为简洁,无需多维向量的构建和比较,简化了计算复杂性,提高了运算效率,同时检测结果相对差异值较大,有助于提高较近进化距离的分析对象间的区别度。同时,由于DNA序列具有长程相关性,Hurst指数作为特征参数可以描述序列的重要进化特征,可以获得良好的准确度。
本发明的其他优点、目标,和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述:
图1示出了本发明基于Hurst指数的DNA序列相似性检测方法的流程示意图;
图2示出了本发明实施例的人β-球蛋白第一个外显子编码序列R/S分析示例图。
具体实施方式
以下将参照附图,对采用本发明的方法用于11个物种的β-球蛋白第一个外显子编码序列作为分析对象为例进行详细的描述,包括以下步骤:参见图1,本实施例的基于Hurst指数的DNA序列相似性检测方法包括如下步骤:
1)选择了在序列相似性的分析中广泛使用的11个物种的β-球蛋白第一个外显子编码序列作为初始序列;参见表1。
2)对步骤1)所得的初始序列进行数字转换,得到初始序列所对应的数值序列;本方法采用2D图形表示法对DNA序列进行数字化(参见M,M,N,et al.Chemical Physics Letters[J].,2003,368:1-6.)。此方法的特点是4个碱基的表达取决于在分析序列中出现的顺序,最先出现者赋值为3,随后依次为2、1、0。例如,序列片段TACCTG表示为321130,序列片段ATACCT则表示为323112。
3)对步骤2)所得数值序列进行R/S分析(中文名重标极差分析法,参见Craciun D,Isvoran A,Avram N M.Physica A-Statistical Mechanics and ItsApplication[J].,2009,388(21):4609-4618.),具体地,对任一数值序列通过如下步骤获得数值序列的Hurst指数:
a)通过下式,获得均值序列:
c)通过下式,获得极差:R(n)=maxu(i,n)-minu(i,n);
e)若存在常数H使得则H为该序列的Hurst指数,具体的,可在双对数坐标ln(n)-ln(R(s)/S(n))系下得到N-2个点,利用最小二乘法对N-2个点进行拟合得到Hurst指数;
以上步骤中,3≤n≤N;
本发明与现有R/S分析方法不同的是:从n=3对应的数据开始,这样可以得到有意义的相似性检测结果。以图2为示例,图2绘出了人β-球蛋白第一个外显子编码序列R/S分析结果,图中横轴ln(n),n从3变化到92(人β-球蛋白第一个外显子编码序列长度),纵轴为ln(R(s)/S(n)),拟合直线斜率为0.0752;所有分析对象对应的Hurst指数参见表2;
4)利用步骤3)所得的Hurst指数构建距离矩阵,距离矩阵是所有初始序列对应的Hurst指数两两比较所得差值构成的数值矩阵,通常可列为上三角矩阵,参见表3。观察可以发现表3中最小的元素是与3种灵长类相关联的物种(人,黑猩猩,大猩猩),这反映了他们之间由于进化关系而存在的强相似性。另一方面,矩阵最大的元素出现在属于负鼠(距现存哺乳动物最远物种)和鸡(唯一非哺乳动物代表)的行中,这表明本方法可以展现所分析的DNA序列的重要信息。
5)对步骤4)所得的距离矩阵中的数值进行分析,两数值距离越小表示两序列对应的物种进化距离越近,反之两数值距离越大表示两序列对应的物种进化距离越远;亦即:距离数值越小的Hurst指数对应的DNA编码序列,其对应物种相似性越大,反之,其对应物种相似性越小。与相关文献中其他分析方法获得的结果进行对比,可了解本方法检测结果的有效性:将人——黑猩猩相似性设定为1进行归一化,以人与其他10个物种的相似性进行比较,结果参见表4;由表4可见,本文所采用基于Hurst指数的检测方法表现出良好的有效性,且本方法具有较高的敏感性,即不同物种间相对数据差别较为明显,这有助于提高较近进化距离的分析对象间的区别度。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
表1 11个物种的β-球蛋白第一个外显子编码序列
表4 采用不同算法人与其他物种β-球蛋白第一个外显子基因相似性/不相似性比较
注:A数据来源于表3,算法基于Hurst指数比较;B数据来源于文献(LiuX,Tian F C,Wang S Y.Nucleosides Nucleotides & Nucleic Acids[J].2010,29(2):123-131)表4,算法基于8分量向量之间欧几里得距离;C数据来源于文献(Wang S Y,Tian F C,Feng W J,et al.Journal of Molecular Structure:THEOCHEM[J].,2009,909(1-3):33-42.)表3,算法基于3分量向量之间欧几里得距离;D数据来源于文献(M,M,N,et al.Chemical Physics Letters [J].,2003,371(1-2):202-207.)表III,算法基于12分量向量之间欧几里得距离;E数据来源于文献(Liao B,Wang T M.Chemical Physics Letters[J].,2004,388(1-3):195-200.)表VII,算法基于15分量向量之间欧几里得距离;F数据来源于文献(Liao B,Tan M S,Ding K Q.Chemical Physics Letters[J].2005,402(4-6):380-383.)表IV,算法基于4分量向量之间欧几里得距离;G数据来源于文献(Liu Y Z,Wang T M.ChemicalPhysics Letters[J].2006,417(1-3):173-178.)表III,算法基于8分量向量之间欧几里得距离。
Claims (6)
1.基于Hurst指数的DNA序列相似性检测方法,其特征在于:包括如下步骤:
1)获取不同物种相同功能区域的DNA编码序列作为初始序列;
2)对步骤1)所得的初始序列进行数字转换,得到初始序列对应的数值序列;
3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数;
4)利用步骤3)所得的Hurst指数构建距离矩阵;
5)从步骤4)获得的距离矩阵获得序列相似性信息,即:距离数值越小的Hurst指数对应的DNA编码序列,其对应物种相似性越大,反之,其对应物种相似性越小。
2.如权利要求1所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于:所述步骤2)中,采用2D图形表示法对初始序列进行数字化。
4.如权利要求3所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于:步骤e)中,通过在双对数坐标ln(n)-ln(R(s)/S(n))系下得到N-2个点,利用最小二乘法对N-2个点进行拟合得到Hurst指数。
5.如权利要求1至4中任一项所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于:所述步骤4)中的距离矩阵是所有初始序列对应的Hurst指数两两比较所得差值构成的数值矩阵。
6.如权利要求5所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于:所述数值矩阵为上三角矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010277719.1A CN101950326B (zh) | 2010-09-10 | 2010-09-10 | 基于Hurst指数的DNA序列相似性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010277719.1A CN101950326B (zh) | 2010-09-10 | 2010-09-10 | 基于Hurst指数的DNA序列相似性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101950326A true CN101950326A (zh) | 2011-01-19 |
CN101950326B CN101950326B (zh) | 2015-10-21 |
Family
ID=43453826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010277719.1A Expired - Fee Related CN101950326B (zh) | 2010-09-10 | 2010-09-10 | 基于Hurst指数的DNA序列相似性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101950326B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699961A (zh) * | 2015-02-13 | 2015-06-10 | 中国海洋大学 | 基于Hurst律的自仿射分形的多年一遇波高的推算方法 |
CN105007094A (zh) * | 2015-07-16 | 2015-10-28 | 北京中宸泓昌科技有限公司 | 一种指数对扩频编码解码方法 |
TWI594143B (zh) * | 2016-04-11 | 2017-08-01 | Univ Nat Taiwan Normal | Method for Correcting Gene Interaction Network Map with Node Exclusion and Attraction Summation Vectors to Present Gene Chip Analysis Result |
CN109615215A (zh) * | 2018-12-06 | 2019-04-12 | 西安理工大学 | 一种区域植被恢复的特征分析方法 |
CN112599190A (zh) * | 2020-12-17 | 2021-04-02 | 重庆大学 | 一种基于混合分类器来识别耳聋相关基因的方法 |
WO2022062114A1 (zh) * | 2020-09-25 | 2022-03-31 | 齐鲁工业大学 | 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1702175A (zh) * | 2005-04-22 | 2005-11-30 | 江汉大学 | 基于基因组rapd分析的豇豆品种分子鉴定方法 |
US20070288452A1 (en) * | 2006-06-12 | 2007-12-13 | D&S Consultants, Inc. | System and Method for Rapidly Searching a Database |
WO2008043149A1 (en) * | 2006-10-12 | 2008-04-17 | Simons Haplomics Limited | Methods for obtaining information from genetic material |
CN101680872A (zh) * | 2007-04-13 | 2010-03-24 | 塞昆纳姆股份有限公司 | 序列比较分析方法和系统 |
-
2010
- 2010-09-10 CN CN201010277719.1A patent/CN101950326B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1702175A (zh) * | 2005-04-22 | 2005-11-30 | 江汉大学 | 基于基因组rapd分析的豇豆品种分子鉴定方法 |
US20070288452A1 (en) * | 2006-06-12 | 2007-12-13 | D&S Consultants, Inc. | System and Method for Rapidly Searching a Database |
WO2008043149A1 (en) * | 2006-10-12 | 2008-04-17 | Simons Haplomics Limited | Methods for obtaining information from genetic material |
CN101680872A (zh) * | 2007-04-13 | 2010-03-24 | 塞昆纳姆股份有限公司 | 序列比较分析方法和系统 |
Non-Patent Citations (2)
Title |
---|
刘法利,赵熙强: "一种基于氨基酸物理化学性质上的DNA序列图形表示及相似性分析", 《中国海洋大学学报》 * |
白凤兰: "DNA序列的特征数值及相似性分析", 《科学的实践与认识》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699961A (zh) * | 2015-02-13 | 2015-06-10 | 中国海洋大学 | 基于Hurst律的自仿射分形的多年一遇波高的推算方法 |
CN105007094A (zh) * | 2015-07-16 | 2015-10-28 | 北京中宸泓昌科技有限公司 | 一种指数对扩频编码解码方法 |
CN105007094B (zh) * | 2015-07-16 | 2017-05-31 | 北京中宸泓昌科技有限公司 | 一种指数对扩频编码解码方法 |
TWI594143B (zh) * | 2016-04-11 | 2017-08-01 | Univ Nat Taiwan Normal | Method for Correcting Gene Interaction Network Map with Node Exclusion and Attraction Summation Vectors to Present Gene Chip Analysis Result |
CN109615215A (zh) * | 2018-12-06 | 2019-04-12 | 西安理工大学 | 一种区域植被恢复的特征分析方法 |
CN109615215B (zh) * | 2018-12-06 | 2022-11-29 | 西安理工大学 | 一种区域植被恢复的特征分析方法 |
WO2022062114A1 (zh) * | 2020-09-25 | 2022-03-31 | 齐鲁工业大学 | 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质 |
CN112599190A (zh) * | 2020-12-17 | 2021-04-02 | 重庆大学 | 一种基于混合分类器来识别耳聋相关基因的方法 |
CN112599190B (zh) * | 2020-12-17 | 2024-04-05 | 重庆大学 | 一种基于混合分类器来识别耳聋相关基因的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101950326B (zh) | 2015-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
CN101950326A (zh) | 基于Hurst指数的DNA序列相似性检测方法 | |
Talavera et al. | Covariation is a poor measure of molecular coevolution | |
JP2018533143A (ja) | ゲノム分析のためのシステムおよび方法 | |
CN110016497B (zh) | 一种检测肿瘤单细胞基因组拷贝数变异的方法 | |
CN110111843B (zh) | 对核酸序列进行聚类的方法、设备及存储介质 | |
Arrigoni et al. | Analysis RNA-seq and Noncoding RNA | |
Haimovich et al. | Wavelet analysis of DNA walks | |
CN105483210A (zh) | 一种rna编辑位点的检测方法 | |
CN103348350A (zh) | 核酸信息处理装置及其处理方法 | |
Gunasinghe et al. | Extraction of high quality k-words for alignment-free sequence comparison | |
WO2006064631A1 (ja) | 遺伝子発現量規格化方法、プログラム、並びにシステム | |
Walsh et al. | Feature selection using co-occurrence correlation improves cell clustering and embedding in single cell rnaseq data | |
JP2012155715A (ja) | アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) | |
CN106555008A (zh) | 一种微生物的检测识别方法和系统 | |
Stukenbrock et al. | Comparing fungal genomes: Insight into functional and evolutionary processes | |
Doğan et al. | Statistical tests for neutrality | |
CN115662519B (zh) | 一种基于机器学习预测癌症的cfDNA片段特征组合及系统 | |
Messer et al. | Effects of long-range correlations in DNA on sequence alignment score statistics | |
Hu et al. | Accurate estimation of intrinsic biases for improved analysis of bulk and single-cell chromatin accessibility sequencing data using SELMA | |
Kaisers et al. | Hierarchical clustering of DNA k-mer counts in RNA-seq fastq files reveals batch effects | |
CN111128305B (zh) | 对具有已知序列的生物序列进行分析的方法和系统 | |
Esim et al. | Determination of malignant melanoma by analysis of variation values | |
RUTHS et al. | RECOMP: A parsimony-based method for detecting recombination | |
CN118116462A (zh) | 基于tdfps算法针对纳米孔测序中条形码的设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151021 Termination date: 20180910 |