CN103150491A - 基于核苷酸位差的频谱3-周期性信噪比计算方法 - Google Patents
基于核苷酸位差的频谱3-周期性信噪比计算方法 Download PDFInfo
- Publication number
- CN103150491A CN103150491A CN201310112959XA CN201310112959A CN103150491A CN 103150491 A CN103150491 A CN 103150491A CN 201310112959X A CN201310112959X A CN 201310112959XA CN 201310112959 A CN201310112959 A CN 201310112959A CN 103150491 A CN103150491 A CN 103150491A
- Authority
- CN
- China
- Prior art keywords
- sequence
- potential difference
- dna
- noise ratio
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种基于核苷酸位差的频谱3-周期性信噪比计算方法,属于生物信息学中的基因识别领域。所述信噪比计算方法首先要将DNA序列映射为4个指示序列,然后分别统计并记录4个指示序列里任意两个“1”出现位置之差,并把这些不同的距离值所出现的次数累积存储到一维数组中,再利用余弦函数的周期性,根据诱导公式,最终计算出该DNA序列的信噪比。本发明解决了对于给定的DNA序列,计算其信噪比效率不高的问题。
Description
技术领域
本发明涉及一种基于核苷酸位差的频谱3-周期性信噪比计算方法,包含DNA序列频谱计算、信噪比计算,属于生物信息学中的基因识别技术领域。
背景技术
DNA是生物遗传信息的载体,是一种长链聚合物,由腺嘌呤(Adenine,A),鸟嘌呤(Guanine,G),胞嘧啶(Cytosine,C),胸腺嘧啶(Thymine,T)这四种核苷酸(nucleo tide)符号按一定的顺序连接而成。其中带有遗传讯息的DNA片段称为基因(Gene)(见图1第一行)。在真核生物的DNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence)片段,称为外显子(Exon),不编码的部分称为内含子(Intron)。外显子在DNA序列剪接(Spli cing)后仍然会被保存下来,并可在蛋白质合成过程中被转录(transcri ption)、复制(replica tion)而合成为蛋白质。DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(pro tein)上去并实现各种生命功能。
对给定的DNA序列,怎么去识别出其中的编码序列,也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。
基因预测问题的一类方法是基于统计学的。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站http://genes.mit.edu/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。
因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视。图2是基于序列频谱3-周期性的基因识别方法流程图:在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。
令I={A,T,G,C},长度(即核苷酸符号个数)为N的任意DNA序列,可表达为
S={S[n]|S[n]∈I,n=0,1,2,…N-1}
即A、T、G、C的符号序列S:S[0],S[1],…,S[N-1]。现对于任意确定的b∈I,令
称之为Voss映射,于是生成相应的0-1序列(即二进制序列){ub[n]}:
ub[0],ub[1],…,,
ub[N-1](b∈I),称为指示序列。对指示序列分别做离散Fourier变换(DFT)
以此可得到四个长度均为N的复数序列{Ub[k]},b∈I。计算每个复序列{Ub[k]}的平方功率谱,并相加则得到整个DNA序列S的功率谱序列{P[k]}:
记DNA序列S的总功率谱的平均值为
信噪比R大于某个适当选定的阈值R0(比如R0=2),是DNA序列上编码序列片段(外显子)通常满足的特性,而内含子则一般不具有该性质。由此作为判断外显子和内含子的重要区别。
由于这种方法基于DNA序列的功率谱P[k]和信噪比R,因此,研究如何提高计算功率谱P[k]和信噪比R的计算速度,进而提升此类方法的整体效率,将会是一个高度重视的问题。
发明内容
发明目的:本发明针对现有DNA序列方法中计算功率谱和信噪比效率低下的问题,提出了一种基于核苷酸位差的频谱3-周期性信噪比计算方法,通过先将DNA序列进行Voss映射得到4个指示序列,然后分别统计并记录4个指示序列里任意两个“1”出现位置之差,并把这些不同的距离值所出现的次数累积存储到一维数组中,再利用余弦函数的周期性,根据诱导公式,最终计算出该DNA序列的信噪比,同时提高了计算效率。
技术方案:一种基于核苷酸位差的频谱3-周期性信噪比计算方法,主要包括记录各个核苷酸出现位置之差(以下简称位差)并累积统计到数组d[i]中和计算余弦函数周期并通过取余操作把数组d[i]进行重新归并两部分,其中:所述记录位差包括对DNA序列进行Voss映射、对指示序列中任何两个“1”之间的位差的记录、以及位差值的累积次数的统计,所述计算余弦函数周期t包括通过取余操作使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中;
包括如下步骤:
步骤1,记录DNA序列长度N;
步骤2,进行Voss映射,得到四个序列{uA[n]}、{uG[n]}、{uC[n]}、{uC[n]},分别记录每两个“1”在该序列中的位置之间的距离,并把所有距离值出现的累积次数保存在数组d[i]中,如d[2]=8表示进行Voss映射之后,得到的四个序列中数字“1”之间距离为2的总次数为8次;
步骤3,计算当k=0时直接转到第4步即可),对于数组d[i]的下标只要不落入[1,t]范围内,都要进行取余操作,使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值(称为修正值)当中,例如,经计算t=4,取余前d[2]=8,d[6]=2,进行取余归并操作之后,则变成d[2]=10;
步骤4,k≠0时,构造行向量和列向量
步骤5,利用公式P[k]=N+2LQ计算整个DNA序列S的功率谱序列P[k](k=1,…,N-1);
步骤7,计算信噪比
所述对DNA序列进行Voss映射定义如下:
在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。
令I={A,T,G,C},长度(即核苷酸符号个数)为N的任意DNA序列,可表达为
S={S[n]|S[n]∈I,n=0,1,2,...,N-1}
即A、T、G、C的符号序列S:S[0],S[1],…,S[N-1]。现对于任意确定的b∈I,令
称之为Voss映射,于是生成相应的0-1序列(即二进制序列){ub[n]}:
ub[0],ub[1],…,,ub[N-1](b∈I),也称为指示序列。
所述对指示序列中任何两个“1”之间的位差进行记录为分别在4个序列{uA[n]}、{uG[n]}、{uC[n]}、{uC[n]}中进行;
所述位差值的累积次数的统计定义为把4个指示序列里所有距离值出现的累积次数保存在数组d[i]中;
所述通过取余操作把使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中定义为:对于数组d[i],,只要,则令i2=i1modt,d[i2]=d[i2]+d[i1],例如,经计算t=4,取余前d[2]=8,d[6]=2,进行取余归并操作之后,则变成d[2]=8+2=10。
本发明采用上述技术方案,具有以下有益效果:对于给定的DNA序列,采用核苷酸位置差,避免了DFT运算中的复数运算;利用余弦函数的周期性,大大减少了计算量,减少了计算该DNA序列的功率谱和信噪比所需时间,从而提高了计算效率。
附图说明
图1为现有技术中真核生物DNA序列(基因序列)结构示意图;
图2为现有技术中基于序列频谱3-周期性的基因识别方法
图3为本发明实施例的方法流程图;
图4为基于核苷酸位差的频谱3-周期性信噪比算法与信噪比FFT算法时间性能对比图(其中,*表示FFT算法,o表示核苷酸位差的频谱3-周期性信噪比算法)。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图2所示,基于核苷酸位差的频谱3-周期性信噪比计算方法分为七个步骤:
步骤1,记录DNA序列长度N;
步骤2,进行Voss映射,得到四个序列{uA[n]}、{uG[n]}、{uC[n]}、{uC[n]},分别记录每两个“1”在该序列中的位置之间的距离,并把所有距离值出现的累积次数保存在数组d[i]中,如d[2]=8表示进行Voss映射之后,得到的四个序列中数字“1”之间距离为2的总次数为8次;
步骤3,计算当k=0时直接转到第4步即可),对于数组d[i]的下标只要不落入[1,t]范围内,都要进行取余操作,使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值(称为修正值)当中,例如,经计算t=4,取余前d[2]=8,d[6]=2,进行取余归并操作之后,则变成d[2]=10;
步骤5,利用公式P[k]=N+2LQ计算整个DNA序列S的功率谱序列P[k](k=1,…,N-1);
下面举例(为方便叙述,截取一段人类线粒体基因NC_012920_1.fasta上的长度为200的DNA序列进行)说明以上7个步骤:
步骤1,记录N=200;
步骤2,对DNA序列进行Voss映射,得到4个指示序列{uA[n]}、{uG[n]}、{uC[n]}、{uC[n]},分别在每个序列里求任意两个“1”的位置差,并把所有距离值出现的次数累积存储到d[i]中,如下表所示
表14个指示序列中所有距离值累积次数
则进行令j=imod100d[j]=d[j]+d[i],其结果如下表所示
表2k=2时4个指示序列中所有距离值累积次数修正值
而当k=3,4…N-1时,情况与上类似;
步骤4,k=1时,构造行向量L=[47,55,50,51…,0,0,0]和列向量
k=2时,构造行向量L=[74,78,70,67…,30,23,31]和列向量
而当k=3,4…N-1时,情况与上类似;
步骤5,k=1时,P[1]=N+2LQ=10226,k=2时,P[1]=N+2LQ=164.0716,
对于k=3,4…N-1时,情况类似;
如图4所示,为使用本计算方法与使用信噪比FFT算法运行效率对比图(其中,*表示FFT算法,o表示本算法),实验结果表明,本方法比传统的FFT算法所需时间较少,而且DNA长度越大,本方法在时间效率上的优势越明显。
Claims (3)
1.一种基于核苷酸位差的频谱3-周期性信噪比计算方法,其特征在于:主要包括记录各个核苷酸出现位置之差并累积统计到数组d[i]中和计算余弦函数周期并通过取余操作把数组d[i]进行重新归并两部分,其中:所述记录位差包括对DNA序列进行Voss映射、对指示序列中任何两个“1”之间的位差的记录、以及位差值的累积次数的统计,所述计算余弦函数周期t包括通过取余操作把使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中;
具体包括如下步骤:
步骤1,记录DNA序列长度N;
步骤2,对DNA序列进行Voss映射,得到四个指示序列{uA[n]}、{uG[n]}、{uC[n]}、{uC[n]},分别记录每两个“1”在所述序列中的位置之间的距离,并把所有距离值出现的累积次数保存在数组d[i]中;
步骤3,计算当k=0时直接转到第4步即可),对于数组d[i]的下标只要不落入[1,t]范围内,都要进行取余操作,使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中;
步骤4,k≠0时,构造行向量L=[d[1],d[2],…d[t]]和列向量 k=0时,构造行向量 和列向量
步骤5,利用公式P[k]=N+2LQ计算整个DNA序列S的功率谱序列P[k](k=1,…,N-1);
步骤6,计算总功率谱的平均值为
步骤7,计算信噪比
2.如权利要求1所述的基于核苷酸位差的频谱3-周期性信噪比计算方法,其特征在于:所述对DNA序列进行Voss映射定义如下:
在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,映射成相应的数值序列;
令I={A,T,G,C},长度为N的任意DNA序列,可表达为
S={S[n]|S[n]∈I,n=0,1,2,…N-1}
即A、T、G、C的符号序列S:S[0],S[1],…,S[N-1];现对于任意确定的b∈I,令
称之为Voss映射,于是生成相应的0-1序列{ub[n]}:ub[0],ub[1],…,,ub[N-1](b∈I),也称为指示序列;
所述对指示序列中任何两个“1”之间的位差进行记录为分别在4个序列{uA[n]}、{uG[n]}、{uC[n]}、{uC[n]}中进行;
所述位差值的累积次数的统计定义为把4个指示序列里所有距离值出现的累积次数保存在数组d[i]中。
3.如权利要求2所述的基于核苷酸位差的频谱3-周期性信噪比计算方法,其特征在于:所述通过取余操作使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中定义为:对于数组d[i],只要则令i2=i1modt,d[i2]=d[i2]+d[i1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112959.XA CN103150491B (zh) | 2013-04-03 | 2013-04-03 | 基于核苷酸位差的频谱3-周期性信噪比获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112959.XA CN103150491B (zh) | 2013-04-03 | 2013-04-03 | 基于核苷酸位差的频谱3-周期性信噪比获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103150491A true CN103150491A (zh) | 2013-06-12 |
CN103150491B CN103150491B (zh) | 2016-03-16 |
Family
ID=48548565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310112959.XA Active CN103150491B (zh) | 2013-04-03 | 2013-04-03 | 基于核苷酸位差的频谱3-周期性信噪比获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103150491B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615913A (zh) * | 2014-12-31 | 2015-05-13 | 深圳先进技术研究院 | 一种标志物相关性检测方法以及装置 |
CN109859802A (zh) * | 2019-01-10 | 2019-06-07 | 中国石油大学(华东) | 一种基于功率谱的桑黄蛋白质区域预测阈值方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030073078A1 (en) * | 2000-07-21 | 2003-04-17 | Rosnick David Ian | Method for the recognition of translating genetic coding sequences |
WO2003078582A2 (en) * | 2002-03-11 | 2003-09-25 | Athenix Corporation | Integrated system for high throughput capture of genetic diversity |
-
2013
- 2013-04-03 CN CN201310112959.XA patent/CN103150491B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030073078A1 (en) * | 2000-07-21 | 2003-04-17 | Rosnick David Ian | Method for the recognition of translating genetic coding sequences |
WO2003078582A2 (en) * | 2002-03-11 | 2003-09-25 | Athenix Corporation | Integrated system for high throughput capture of genetic diversity |
Non-Patent Citations (5)
Title |
---|
CHANGCHUAN YIN ET AL.: "A Fourier Characteristic of Coding Sequences: Origins and a Non-Fourier Approximation", 《JOURNAL OF COMPUTATIONAL BIOLOGY》, vol. 12, no. 9, 30 November 2005 (2005-11-30) * |
DIMITTRIS ANASTASSIOU: "Frequency-domain analysis of biomolecular sequences", 《BIOINFORMATICS》, vol. 16, no. 12, 31 December 2000 (2000-12-31), XP002498577, DOI: doi:10.1093/bioinformatics/16.12.1073 * |
万芷君: "基因预测中的信噪比计算问题", 《广西计算机学会2012年学术年会论文集》, 7 November 2012 (2012-11-07) * |
邵建峰: "DNA序列信号3-周期特性", 《南京工业大学学报(自然科学版)》, vol. 34, no. 4, 15 July 2012 (2012-07-15), pages 133 - 137 * |
邵建峰: "不同DNA序列映射对频谱3-周期性的影响", 《南京工业大学学报(自然科学版)》, vol. 34, no. 5, 15 September 2012 (2012-09-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615913A (zh) * | 2014-12-31 | 2015-05-13 | 深圳先进技术研究院 | 一种标志物相关性检测方法以及装置 |
CN109859802A (zh) * | 2019-01-10 | 2019-06-07 | 中国石油大学(华东) | 一种基于功率谱的桑黄蛋白质区域预测阈值方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103150491B (zh) | 2016-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Friedman et al. | Regularization paths for generalized linear models via coordinate descent | |
CN103440313A (zh) | 基于音频指纹特征的音乐检索系统 | |
Liu et al. | Identification of protein coding regions in the eukaryotic DNA sequences based on Marple algorithm and wavelet packets transform | |
CN104572993A (zh) | 一种基于遗传算法的分类算法参数优化方法 | |
JP2010157214A (ja) | 遺伝子クラスタリングプログラム、遺伝子クラスタリング方法及び遺伝子クラスター解析装置 | |
CN102063643B (zh) | 一种基于dna计算的智能优化仿真方法 | |
CN103605793A (zh) | 基于遗传算法的异构社会网络社区检测方法 | |
Chen et al. | MSClust: a multi-seeds based clustering algorithm for microbiome profiling using 16S rRNA sequence | |
CN110532297A (zh) | 一种基于层次聚类的符号化水文时间序列异常模式检测方法 | |
CN111275193A (zh) | 一种国家电网雷击预测方法 | |
Willi et al. | Demographic processes linked to genetic diversity and positive selection across a species' range | |
CN110956248A (zh) | 一种基于隔离森林的海量数据异常值检测算法 | |
CN103150491B (zh) | 基于核苷酸位差的频谱3-周期性信噪比获取方法 | |
CN101826070A (zh) | 一种基于关键点的数据序列线性拟合方法 | |
Lamurias et al. | Metagenomic binning using connectivity-constrained variational autoencoders | |
CN102201882A (zh) | 一种线性分组码编码参数的盲识别方法 | |
Wu et al. | COPP-Miner: Top-k contrast order-preserving pattern mining for time series classification | |
CN110534154B (zh) | 基于和声搜索的鲸鱼dna序列优化方法 | |
CN101540610B (zh) | 一种二维非隔离位约束编解码方法及编解码器 | |
CN112348154A (zh) | 基于混沌优化鲸鱼算法的dna序列设计方法 | |
CN105160357A (zh) | 基于全局一致性和局部拓扑的多模态数据子空间聚类方法 | |
CN107908853A (zh) | 基于先验信息和大数据的汽车运行工况设计方法 | |
Haws et al. | A support vector machine based test for incongruence between sets of trees in tree space | |
JP5790006B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Li et al. | Multi-scale RNA comparison based on RNA triple vector curve representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |