CN103106353B - 一种基因组序列的指纹特征曲线的构造方法 - Google Patents
一种基因组序列的指纹特征曲线的构造方法 Download PDFInfo
- Publication number
- CN103106353B CN103106353B CN201310049589.XA CN201310049589A CN103106353B CN 103106353 B CN103106353 B CN 103106353B CN 201310049589 A CN201310049589 A CN 201310049589A CN 103106353 B CN103106353 B CN 103106353B
- Authority
- CN
- China
- Prior art keywords
- base
- value
- dimensional space
- genome sequence
- space coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000002585 base Substances 0.000 claims description 182
- 239000003513 alkali Substances 0.000 claims description 9
- 241000208340 Araliaceae Species 0.000 claims description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 235000008434 ginseng Nutrition 0.000 claims description 4
- FZNCGRZWXLXZSZ-CIQUZCHMSA-N Voglibose Chemical compound OCC(CO)N[C@H]1C[C@](O)(CO)[C@@H](O)[C@H](O)[C@H]1O FZNCGRZWXLXZSZ-CIQUZCHMSA-N 0.000 claims 1
- 230000001580 bacterial effect Effects 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000011105 stabilization Methods 0.000 description 3
- 241000204946 Halobacterium salinarum Species 0.000 description 2
- 241000204942 Halobacterium sp. Species 0.000 description 2
- 241000906459 Halobacterium salinarum NRC-1 Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。该构造方法包括三个步骤:建立基因组序列中的每个碱基所对应的三维空间坐标值;利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线;利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线。本发明的优点是:对于给定的基因组序列,可构造可重复的、唯一的、有效的指纹特征曲线。本发明在基因组序列的个性化指纹特征识别与分析方面有应用前景。
Description
技术领域
本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。
背景技术
如何利用全基因组序列开展比较辨识和身份识别,是亟待解决的技术问题。
建立一种新方法,利用基因组序列快速构造直观图像显示“指纹”图像特征,有广泛应用前景。
本发明中用作对比技术的Zplotter软件来自于Z-curve方法。简言之,Z-curve方法是采用几何学途径研究离散型的基因组序列信息,它首先通过Zplotter软件计算获得基因组序列的三维空间坐标值,然后利用坐标值进一步开展数值计算。Zplotter软件计算三维空间坐标值只是一种初始数值化技术,是为Z-curve方法的其他计算服务的,原本没有考虑到提出构造和展示基因组序列的“指纹”的概念。虽然可以利用三维空间坐标值绘制曲线,但是只能展示粗略轮廓图,而缺乏“指纹”特征的细节。另外,由于Zplotter软件的计算方法存在缺陷,它不能处理在基因组序列中可能存在的切割点错误。换言之,即使是同一个基因组序列因为首尾连接环状化之后再重新切割为线状时有可能导致切割点不同,由它计算出来的三维空间坐标值就完全不同;而事实上却完全是同一个基因组序列。因此,利用Zplotter软件计算三维空间坐标值的结果在可重复性、唯一性和有效性方面都存在问题。
发明内容
本发明要解决的技术问题是克服现有技术的不足而提供一种提高可重复性、唯一性、有效性的关于基因组序列的指纹特征曲线的构造方法。
为解决上述技术问题,本发明的技术方案是:一种基因组序列的指纹特征曲线的构造方法,包括以下有秩序的三个步骤:
第一步骤:建立基因组序列中的每个碱基所对应的三维空间坐标值(xn,yn,zn),按照以下有秩序的四个环节执行。注意:N为基因组序列的总长度,n=1,2,…,N;m=1,2,…,N;但为了记载简要,下文中将省略冗余的相同注释。
环节1:考察给定的基因组序列中的每个碱基,建立它与其余所有碱基之间的相对距离RD值的集合。数学公式如下:
公式(1)采用离散数学符号化定义形式来“定义”基因组序列中的单个碱基的赋值规则,其技术特征在于:假想将基因组序列环状化首尾相连之后,随机选定一个参照碱基TB记作指针n,考察滑动碱基FB记作指针m,将指针n和指针m同时指向参照碱基TB;固定指针n而滑动指针m轮转一遍,计算滑动碱基FB与参照碱基TB之间的一套相对距离RD值的集合;再经过如下所述的公式(2)、公式(3)和公式(4)转换之后,生成该参照碱基TB的三维空间坐标值(xn,yn,zn);具体执行过程是:
环节1假想将基因组序列环状化后再计算,是本发明方法的核心技术。具体说明如下。
首先,随机选定1个参照碱基TB记作指针n。这样假想将基因组序列环状化首尾相连之后再随机选择1个参照碱基开始的方法,可以保证任何碱基都有可能作为被考察的“第一个碱基”。那么,无论是环状形式存在的、还是线状形式存在的、还是由线状形式存在却被环化之后再切割为线状形式存在的序列,都不会因为“第一个碱基”的不同而不同。因为无论从何处开始,都要轮转和穷尽所有的碱基以完成对每一个碱基的考察。
其次,选定滑动碱基FB记作指针m。将指针n固定在[0008]段随机所选定的那个参照碱基TB的位置上,同时将指针m也指向该参照碱基TB位置上,再逐次滑动指针m(不妨以顺时针方向滑动),滑动第1次直至第N次(m=1,2,…,N),共计算N次。
然后,按照公式(1)定义的规则给每个滑动碱基赋值。为了方便叙述和理解公式(1)的技术特征,不妨假设[0008]段所选定的参照碱基TB就是原线性序列中第1个碱基,同时不妨假设该参照碱基TB此时此刻正好对应于环状化序列中第n个碱基,即n=1。固定指针n在该第1个碱基上,同时将指针m也指向该第1个碱基上,从此碱基出发,逐次滑动指针m(不妨以顺时针方向滑动)。那么,(1)当指针m滑动第1次,指向参照碱基TB之后的下一个碱基(可能是A,T,G,C中任意一种,以下均同)位置上即when m=n+1位置,则该滑动碱基FB与参照碱基TB之间的相对距离RD值记为1,该滑动碱基赋值1;(2)当指针m滑动第2次,指向参照碱基TB之后的再下一个碱基位置上即when m=n+2位置,则该滑动碱基FB与参照碱基TB之间的相对距离RD值记为2,该滑动碱基赋值2;依此类推,......;(N-1)当指针m滑动第N-1次,指向参照碱基TB之后的倒数第一个碱基位置上即when m=n+(N-1)位置,则该滑动碱基FB与参照碱基TB之间的相对距离RD值记为N-1,该滑动碱基赋值N-1;(N)当指针m滑动第N次,即转过了一圈之后又回到参照碱基TB位置上与之重合即when m=n+N位置,则该滑动碱基FB与参照碱基TB之间的相对距离RD值记为N(注意此时RD值是总长度N,而不是0),该滑动碱基赋值N。简言之,考察当时当刻由指针m指向的滑动碱基FB(可能是A,T,G,C中任意一种)与所选定且固定的指针n指向的参照碱基TB之间的相对位置关系,并赋值当时当刻该滑动碱基(可能是A,T,G,C中任意一种)与那个参照碱基TB之间的相对距离RD值。公式(1)实际上定义了RD值的集合,RD值的总个数有N个。
再经过如下所述的公式(2)、公式(3)和公式(4)转换之后,生成该第1个参照碱基TB的三维空间坐标值(x1,y1,z1);具体做法是:
环节2:进一步的,再将相对距离RD值转化成为权重相对距离WRD值,并且建立权重相对距离WRD值的集合。具体做法是将每个RD值除以基因组序列的总长度值N,得到权重相对距离WRD值。目的是把相对距离RD值的绝对数字缩小N倍,由此提高后续计算过程的计算效率。公式如下:
公式(2)实际上给出了WRD值的集合。WRD值的总个数还是N。
环节3:再进一步的,从WRD值集合中提取关于A、T、G、C四大类别碱基的权重相对距离之和SWRD值。公式如下:
公式(3)实际上给出了SWRD值的集合。SWRD值的总个数是N。
上述SWRD值的总集合又分解为四个亚集合,分别是:由碱基A构成的亚集合,由碱基G构成的亚集合,由碱基T构成的亚集合,由碱基C构成的亚集合。换言之,公式(3)同时决定了关于碱基A的SWRD值之和、关于碱基G的SWRD值之和、关于碱基T的SWRD值之和、关于碱基C的SWRD值之和。
环节4:更进一步的,建立基因组序列中每个碱基所对应的三维空间坐标值(xn,yn,zn)。公式如下:
将由公式(3)决定的关于四大类别碱基A、G、T、C的SWRD值之和带入公式(4),可求出由环节1中所选定的参照碱基TB的三维空间坐标值。此时,正如所假设的参照碱基TB是第1个碱基,即n=1,所对应的第1个碱基的三维空间坐标值(x1,y1,z1);
那么,基因组序列共有N个碱基n=1,2,…,N,重复以上环节,依次选定第2个碱基为参照碱基TB,重新计算第2套RD值的集合,随后生成该第2个参照碱基TB的三维空间坐标值(x2,y2,z2);依此类推,......;直至选定第N个碱基为参照碱基TB,重新计算第N套RD值的集合,随后生成该第N个参照碱基TB的三维空间坐标值(xn,yn,zn);最终生成一个基因组序列(共N个碱基)的三维空间坐标值向量(Xn,Yn,Zn);本领域技术人员不难理解,本发明所公布的公式(1)的算法原理假想序列环状化首尾相连之后再计算滑动碱基FB与参照碱基TB之间的相对距离RD值的集合,不受随机切点的影响,由此确保绘制给定的基因组序列的曲线特征是可重复的(可完全重叠的)和唯一的。
第二步骤:根据如上所述的基因组序列(共N个碱基)的三维空间坐标值向量(Xn,Yn,Zn)中每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,
利用第一步骤所建立的三维空间坐标值,采用绘图软件绘制三维空间曲线,将基因组序列中的每一个碱基看作是在三维空间中的一个点(xn,yn,zn),将每个点逐一连接起来形成三维空间曲线。是本发明中所称谓的三维空间曲线(xn~yn~zn)。它是体现基因组序列的唯一的三维空间曲线,并且具有清晰可辨的稳定的指纹特征。
第三步骤:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线,
利用由第一步骤建立的三维空间坐标值,进行六种不同组合(xn~n),(yn~n),(zn~n),(yn~xn),(zn~yn),(zn~xn),分别选择相应的纵坐标与横坐标从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线。是本发明所称谓的基因组序列的一组二维平面轨迹曲线(xn~n,yn~n,zn~n,yn~xn,zn~xn,zn~yn)。具有稳定的清晰可辨的指纹特征。分别描述如下:
(1)本发明中所称谓的二维平面轨迹曲线(xn~n)。从所述的每个碱基的三维空间坐标值中取出xn值作为纵坐标与对应的碱基数n作为横坐标,绘制二维平面曲线;
(2)本发明中所称谓的二维平面轨迹曲线(yn~n)。从所述的每个碱基的三维空间坐标值中取出yn值作为纵坐标与对应的碱基数n作为横坐标,绘制二维平面曲线;
(3)本发明中所称谓的二维平面轨迹曲线(zn~n)。从所述的每个碱基的三维空间坐标值中取出zn值作为纵坐标与对应的碱基数n作为横坐标,绘制二维平面曲线;
(4)本发明中所称谓的二维平面轨迹曲线(yn~xn)。从所述的每个碱基的三维空间坐标值中取出yn值作为纵坐标与xn值作为横坐标,绘制二维平面曲线;
(5)本发明中所称谓的二维平面轨迹曲线(zn~yn)。从所述的每个碱基的三维空间坐标值中取出zn值作为纵坐标与yn值作为横坐标,绘制二维平面曲线;
(6)本发明中所称谓的二维平面轨迹曲线(zn~xn)。从所述的每个碱基的三维空间坐标值中取出zn值作为纵坐标与xn值作为横坐标,绘制二维平面曲线。
优化的,上述方案中第一步骤所述的建立基因组序列中每个碱基的三维空间坐标值,对于所给定的基因组序列而言是唯一的确定值,绝对不会因为将基因组的环状序列改写为线状序列之过程中可能发生的切割点差异而导致构造出不同的指纹特征曲线。因此,本发明方法中由第一步骤建立的唯一的确定值进一步决定了第二步骤和第三步骤绘制的基因组序列的指纹特征曲线是可重复的、唯一的、有效的。
与现有技术相比,本发明相对于现有技术的有益效果是:
与对比技术软件Zplotter相比,采用本发明方法构造的基因组序列的指纹特征曲线的可重复(稳定)性、唯一性、有效性更好。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1是本发明基因组序列的指纹特征曲线的构造方法的具体实现框图。
图2~图8是由本发明方法实例分析二个基因组序列所构造的指纹特征曲线。一组共七个,每一个指纹特征曲线都有可重复(稳定)的、唯一的、有效的指纹特征。
图2是三维空间曲线(xn~yn~zn)。
图3是二维平面轨迹曲线(xn~n)。
图4是二维平面轨迹曲线(yn~n)。
图5是二维平面轨迹曲线(zn~n)。
图6是二维平面轨迹曲线(yn~xn)。
图7是二维平面轨迹曲线(zn~xn)。
图8是二维平面轨迹曲线(zn~yn)。
图9~图10是本发明方法与对比技术软件实例分析二个基因组序列的结果比较。
图9是本发明方法实例分析二个基因组序列的结果。
图10是对比技术软件实例分析二个基因组序列的结果。
具体实施方式
本发明的应用实例1:将结合应用实例1来详细说明本发明的具体实施过程。图1为本发明的基因组序列的指纹特征曲线的构造方法的具体实现框图。本发明公开了一种基因组序列的指纹特征曲线的构造方法,包括以下有秩序的三个步骤,
第一步骤:建立基因组序列中的每个碱基所对应的三维空间坐标值(xn,yn,zn)。按照以下有秩序的四个环节计算:
环节1:从给定的基因组序列中任意选定1个碱基用作参照,建立它与其他所有碱基之间的两两相对距离RD值的集合;根据本发明的公式(1)计算,
例如,作为实例1分析,我们选择基因组序列Halobacterium sp.NRC-1NC_002607(NCBI-GENEBANK中的登记号)有2,014,239个碱基,利用上述公式(1)计算获得的RD值有2,014,239个。相对距离RD值的集合中最小值是1,然后是2,…,最大值是2,014,239。类似的,另一个基因组序列Halobacteriumsalinarum R1NC_010364(NCBI-GENEBANK中的登记号)有2,000,962个碱基,计算获得的RD值有2,000,962个。相对距离RD值的集合中最小值是1,然后是2,…,最大值是2,000,962。
环节2:进一步的,将相对距离RD值转化成为权重相对距离WRD值,并且建立权重相对距离WRD值的集合。根据本发明的公式(2)计算;
例如,作为实例1分析,Halobacterium sp.NRC-1NC_002607相对距离RD值的集合中共有2,014,239个,最小值是1/2,014,239,然后是2/2,014,239,……,最大值是1。类似的,另一个Halobacteriumsalinarum R1NC_010364相对距离RD值的集合中共有2,000,962个,最小值是1/2,000,962,然后是2/2,000,962,……,最大值是1。
环节3:再进一步的,从WRD值集合中分别提取出关于A、T、G、C四大类别碱基的权重相对距离值之和(SWRD值)。也就是按照碱基类别来分别归类求和:把关于A的WRD值集中求和(对A碱基的SWRD值),把关于T的WRD值集中求和(对T碱基的SWRD值),……,依次类推。根据本发明的公式(3)计算;
例如,作为实例1分析,基因组序列NC_002607中WRD值的总个数是2,014,239个,其中A碱基类有323335个,T碱基类有322973个,G碱基类有682933个,C碱基类有684998个;基因组序列NC_010364中WRD值的总个数是2,000,962个,其中A碱基类WRD值有320206个,T碱基类WRD值有319805个,G碱基类WRD值有679401个,C碱基类WRD值有681550个。
环节4:更进一步的,建立基因组序列中每个碱基所对应的三维空间坐标值(xn,yn,zn)。根据本发明的公式(4)计算,
例如,作为实例1分析,基因组序列NC_002607中碱基数有2,014,239个,则有2,014,239组三维空间坐标值,对应在三维空间中的2,014,239个点。类似的,基因组序列NC_010364有2,000,962组三维空间坐标值,对应在三维空间中的2,000,962个点。
以此类推,重复上述的环节1至环节4,重新选择1个碱基作为参照,例如将基因组序列NC_002607中在700kb处切割,把第701个碱基当作“第1个碱基”来考察,当基因组序列被环状化后,就能够计算出第2套三维空间坐标值(xn,yn,zn);但是碱基数依然有2,014,239个,则有2,014,239组三维空间坐标值,对应在三维空间中的2,014,239个点。
第二步骤:利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,
利用第一步骤所建立的三维空间坐标值,采用绘图软件绘制三维空间曲线,是本发明中所称谓的三维空间曲线(xn~yn~zn)。对所给定的基因组序列而言,是唯一的三维空间曲线,并且具有清晰可辨的稳定的指纹特征;
例如,作为实例1分析,基因组序列NC_002607有2,014,239个三维空间坐标值点,而NC_010364有2,000,962个三维空间坐标值点,将它们的三维坐标值同步绘制三维空间曲线(xn~yn~zn)(如图2所示的'NC_002607.fpr'using 1:2:3和'NC_010364.fpr'using 1:2:3)。可见两个菌株的基因组序列的指纹特征曲线很相似,并且各自的曲线是可重复(稳定)的、唯一的。
第三步骤:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线,
利用由第一步骤建立的三维空间坐标值,进行六种不同组合(xn~n),(yn~n),(zn~n),(yn~xn),(zn~yn),(zn~xn)分别选择相应的纵坐标与横坐标,从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线,即是所给定的基因组序列的一组二维平面轨迹曲线(xn~n,yn~n,zn~n,yn~xn,zn~xn,zn~yn),具有稳定的清晰可辨的指纹特征。分别描述如下:
(1)二维平面轨迹曲线(xn~n):以xn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制二维平面轨迹曲线(xn~n)(如图3所示的'NC_002607.fpr'using 1和'NC_010364.fpr'using 1),可见两个菌株的指纹特征曲线很相似;
(2)二维平面轨迹曲线(yn~n):以yn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制二维平面轨迹曲线(yn~n)(如图4所示的'NC_002607.fpr'using 2和'NC_010364.fpr'using 2),可见两个菌株的指纹特征曲线很相似;
(3)二维平面轨迹曲线(zn~n):以zn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制二维平面轨迹曲线(zn~n)(如图5所示的'NC_002607.fpr'using3和'NC_010364.fpr'using 3),可见两个菌株的指纹特征曲线有明显差别;
(4)二维平面轨迹曲线(yn~xn):以yn值作为纵坐标与xn值作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制二维平面轨迹曲线(yn~xn)(如图6所示的'NC_002607.fpr'using1:2和'NC_010364.fpr'using 1:2),可见两个菌株的指纹特征曲线很相似;
(5)二维平面轨迹曲线(zn~xn):以zn值作为纵坐标与xn值作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制二维平面轨迹曲线(zn~xn)(如图7所示的'NC_002607.fpr'using1:3和'NC_010364.fpr'using 1:3),可见两个菌株的指纹特征曲线有明显差别;
(6)二维平面轨迹曲线(zn~yn):以zn值作为纵坐标与yn值作为横坐标,绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制二维平面轨迹曲线(zn~yn)(如图8所示的'NC_002607.fpr'using2:3和'NC_010364.fpr'using 2:3),可见两个菌株的指纹特征曲线有明显差别。
本发明的应用实例2:采用不同方法分析给定的基因组序列的结果比较。
选择2个基因组序列Halobacterium sp.NRC-1的NC_002607(NCBI-GENEBANK中的登记号)及其变体NC_002607_Rc做比较分析。所谓变体NC_002607_Rc,是指对NC_002607基因组序列进行先环状化连接之后再切割(例如在本说明书第[0037]段所述的在相当于原序列中700kb处切割)断开为线状改造而成的,记为NC_002607_Rc。因为人为设计环状化后再次切割时的切割点不同,所以作为线状形式存在的序列的“第一个”碱基则会因为切割点的不同而不同。但是,根据本发明的公式(1)的算法,当把它重新首尾相连环状化之后每个碱基的实际相对顺序并没有发生任何改变,还是原来的那个序列。简言之,NC_002607及其变体NC_002607_Rc在环状化后实际上都是代表着同一个基因组序列,因此在三维空间中应该具有相同的指纹特征曲线。构造一个已知的人工改造体,便于检验本发明方法的使用效果。
分别采用本发明方法与对比技术软件Zplotter进行计算,计算结果分别获得了上述2个基因组序列NC_002607及其变体NC_002607_Rc的三维空间坐标值。然后利用三维坐标值绘制空间曲线。比较分析的结果如图9和图10所示。可见,由本发明方法构造的基因组序列的指纹特征曲线(图9所示的'NC_002607.fpr'u 1:2:3和'NC_002607_RC.fpr'u 1:2:3)是完全重叠的,是可重复(稳定)的、唯一的、有效的,没有因为对原有基因组序列的再切割之后所引起的切割点不同而变化。换言之,本发明方法对来自同一个基因组序列的具有不同切割点的线状形式的序列变体,依然都能构造出可重复的、唯一的、有效的指纹特征曲线。与之相反,根据对比技术软件Zplotter计算出来的三维空间坐标值绘制的两条三维空间曲线则完全不同了(图10所示的'NC_002607.ZCV'u 1:2:4和'NC_002607_RC.ZCV'u 1:2:4),在基因组序列被重新切割的前后,本来应该是同一个基因组序列却变成了两个完全不同的曲线。因此对比技术软件Zplotter计算出来的三维空间坐标值前后是变化的,都不能准确地构造实际代表着同一个基因组序列的曲线,即没有可重复性、没有唯一性。
Claims (1)
1.一种基因组序列的指纹特征曲线的构造方法,其特征在于:包括以下步骤:
第一步骤建立基因组序列中的每个碱基所对应的三维空间坐标值(xn,yn,zn):具体过程是按照以下有秩序的四个环节执行;N为基因组序列的总长度,n=1,2,…,N;m=1,2,…,N;
环节1:考察给定的基因组序列中的每个碱基,建立它与其余所有碱基之间的相对距离RD值的集合;数学公式(1):
公式(1)采用离散数学符号化定义形式来“定义”基因组序列中的单个碱基的赋值规则,其技术特征在于:将基因组序列环状化首尾相连之后,随机选定一个参照碱基TB记作指针n,考察滑动碱基FB记作指针m,将指针n和指针m同时指向参照碱基TB;固定指针n而滑动指针m轮转一遍,计算滑动碱基FB与参照碱基TB之间的一套相对距离RD值的集合;再经过如下所述的公式(2)、公式(3)和公式(4)转换之后,生成该参照碱基TB的三维空间坐标值(xn,yn,zn);具体执行过程是:
当选定的参照碱基TB就是原线性序列中第1个碱基,该碱基此时此刻正好对应于环状化序列中第n个碱基,即n=1;固定指针n在该第1个碱基上,同时将指针m也指向该第1个碱基上,从此碱基出发,逐次滑动指针m;那么,(1)当指针m滑动第1次,指向参照碱基TB之后的下一个碱基的位置上即when m=n+1位置,则此时此刻该滑动碱基FB与参照碱基TB之间的相对距离RD值记为1,该滑动碱基赋值1;(2)当指针m滑动第2次,指向参照碱基TB之后的再下一个碱基位置上即when m=n+2位置,则此时此刻该滑动碱基FB与参照碱基TB之间的相对距离RD值记为2,该滑动碱基赋值2;依此类推;(N-1)当指针m滑动第N-1次,指向参照碱基TB之后的倒数第一个碱基位置上即when m=n+(N-1)位置,则此时此刻该滑动碱基FB与参照碱基TB之间的相对距离RD值记为N-1,该滑动碱基赋值N-1;(N)当指针m滑动第N次,即转过一圈之后又回到参照碱基TB位置上并与之重合即whenm=n+N位置,则此时此刻该滑动碱基FB与参照碱基TB之间的相对距离RD值记为N,该滑动碱基赋值N;
再经过如下所述的公式(2)、公式(3)和公式(4)转换之后,生成该第1个参照碱基TB的三维空间坐标值(x1,y1,z1);具体做法是:
环节2:进一步的,再将相对距离RD值转化成为权重相对距离WRD值,并且建立权重相对距离WRD值的集合;具体做法是将每个RD值除以基因组序列的总长度值N,得到权重相对距离WRD值;目的是把相对距离RD值的绝对数字缩小N倍,由此提高后续计算过程的计算效率;数学公式(2):
环节3:再进一步的,从WRD值集合中提取关于A、T、G、C四大类别碱基的权重相对距离之和SWRD值;数学公式(3):
环节4:更进一步的,建立基因组序列中每个碱基所对应的三维空间坐标值(xn,yn,zn);数学公式(4):
将由公式(3)决定的关于四大类别碱基A、G、T、C的SWRD值带入公式(4),求出三维空间坐标值;此时,参照碱基TB是第1个碱基,即n=1,所对应的第1个碱基的三维空间坐标值(x1,y1,z1);
那么,基因组序列共有N个碱基n=1,2,…,N,重复以上环节,依次选定第2个碱基为参照碱基TB,重新计算第2套RD值的集合,随后生成该第2个参照碱基TB的三维空间坐标值(x2,y2,z2);依此类推;直至选定第N个碱基为参照碱基TB,重新计算第N套RD值的集合,随后生成该第N个参照碱基TB的三维空间坐标值(xn,yn,zn);最终生成一个基因组序列共N个碱基的三维空间坐标值向量(Xn,Yn,Zn);
第二步骤利用所述的三维空间坐标值向量(Xn,Yn,Zn),逐点(xn,yn,zn)绘制基因组序列的三维空间曲线(xn~yn~zn):具体过程是将所述的每个碱基都看作是在所对应的三维空间中的一个点(xn,yn,zn),将每个点逐一连接起来形成三维空间曲线;
第三步骤利用所述的三维空间坐标值(xn,yn,zn)进行不同组合后绘制基因组序列的二维平面轨迹曲线(xn~n,yn~n,zn~n,yn~xn,zn~xn,zn~yn):具体过程包括:
绘制二维平面轨迹曲线(xn~n),其特征在于:从所述的每个碱基的三维空间坐标值中取出xn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线;
绘制二维平面轨迹曲线(yn~n),其特征在于:从所述的每个碱基的三维空间坐标值中取出yn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线;
绘制二维平面轨迹曲线(zn~n),其特征在于:从所述的每个碱基的三维空间坐标值中取出zn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线;
绘制二维平面轨迹曲线(yn~xn),其特征在于:从所述的每个碱基的三维空间坐标值中取出yn值作为纵坐标与xn值作为横坐标绘制二维平面曲线;
绘制二维平面轨迹曲线(zn~xn),其特征在于:从所述的每个碱基的三维空间坐标值中取出zn值作为纵坐标与xn值作为横坐标绘制二维平面曲线;
绘制二维平面轨迹曲线(zn~yn),其特征在于:从所述的每个碱基的三维空间坐标值中取出zn值作为纵坐标与yn值作为横坐标绘制二维平面曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310049589.XA CN103106353B (zh) | 2013-02-07 | 2013-02-07 | 一种基因组序列的指纹特征曲线的构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310049589.XA CN103106353B (zh) | 2013-02-07 | 2013-02-07 | 一种基因组序列的指纹特征曲线的构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103106353A CN103106353A (zh) | 2013-05-15 |
CN103106353B true CN103106353B (zh) | 2018-11-23 |
Family
ID=48314207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310049589.XA Expired - Fee Related CN103106353B (zh) | 2013-02-07 | 2013-02-07 | 一种基因组序列的指纹特征曲线的构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106353B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559428A (zh) * | 2013-10-11 | 2014-02-05 | 南方医科大学 | 一种基于dna测序峰形图定量分析碱基变异比例的方法 |
WO2015123444A2 (en) * | 2014-02-13 | 2015-08-20 | Illumina, Inc. | Integrated consumer genomic services |
CA2978950C (en) * | 2015-03-12 | 2023-08-29 | Sitharthan Kamalakaran | Infection management and control |
CN106570347B (zh) * | 2016-09-09 | 2019-03-26 | 安徽师范大学 | 基因序列的可视化处理方法 |
CN106874711A (zh) * | 2017-03-05 | 2017-06-20 | 艾云灿 | 一种基因组序列的指纹图谱的景观分析方法及用途 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130332081A1 (en) * | 2010-09-09 | 2013-12-12 | Omicia Inc | Variant annotation, analysis and selection tool |
-
2013
- 2013-02-07 CN CN201310049589.XA patent/CN103106353B/zh not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
促进真菌染色体重组的MCB共诱导平板的构建和应用;艾云灿;《生物工程学报》;19980723;第14卷(第3期);第265-269页 * |
基于Z曲线的核酸序列可视化分析平台研究;陆王红等;《生物信息学》;20080615(第2期);第80-89页 * |
基因序列Z曲线的生成和显示;徐永安等;《计算机工程与应用》;20090111;第45卷(第2期);第229-239页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103106353A (zh) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106353B (zh) | 一种基因组序列的指纹特征曲线的构造方法 | |
Li | Digital map generalization at the age of enlightenment: a review of the first forty years | |
CN110536257B (zh) | 一种基于深度自适应网络的室内定位方法 | |
CN105654483A (zh) | 三维点云全自动配准方法 | |
CN106600537A (zh) | 一种反距离权重的异向性三维空间插值方法 | |
CN109359333A (zh) | 一种包含多尺度形貌特征的体模型构建方法 | |
CN108230452A (zh) | 一种基于纹理合成的模型补洞方法 | |
CN103593869A (zh) | 一种扫描设备及其图像显示方法 | |
CN103854015B (zh) | 基于联合稀疏描述的多姿态三维人脸识别方法 | |
CN103679764B (zh) | 一种图像生成方法及装置 | |
CN105302874A (zh) | 基于地理云数据的空间匹配方法 | |
CN106815607B (zh) | 一种基于反距离权重插值反函数的等值线图像数据提取方法 | |
CN106446499A (zh) | 一种基于三维链码的空间曲线识别方法 | |
CN107464272A (zh) | 基于关键点的中心扩散式气象传真图等值线的插值方法 | |
KR101091061B1 (ko) | 수치지도 상 공간객체의 위치유사도 측정방법 및 이를 이용한 지도 매칭방법 | |
Hemphill | Foreign elites from the Oxus civilization? A craniometric study of anomalous burials from Bronze Age Tepe Hissar | |
CN110210576A (zh) | 一种地图数据的图斑相似性计算方法及系统 | |
CN110809284A (zh) | 基于mr数据的定位方法、系统、设备、可读存储介质 | |
Ma et al. | Complex buildings orientation recognition and description based on vector reconstruction | |
CN112884790B (zh) | 一种图形分析方法、系统及存储介质 | |
CN111241221A (zh) | 一种受损地形坐标数据的自动化匹配及高精度修复方法 | |
CN112070892B (zh) | 一种用于地球物理勘探的等值线遍历构建三维模型的方法 | |
CN112053437B (zh) | 一种基于等值线的地球物理勘探三维建模方法 | |
CN113592926B (zh) | 一种3d激光雷达点云数据预测点的快速选取配准方法 | |
CN104713564B (zh) | 高精度地图背景转换到低精度地图背景的形状维持方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181123 |
|
CF01 | Termination of patent right due to non-payment of annual fee |