CN103106353A - 一种基因组序列的指纹特征曲线的构造方法 - Google Patents

一种基因组序列的指纹特征曲线的构造方法 Download PDF

Info

Publication number
CN103106353A
CN103106353A CN201310049589XA CN201310049589A CN103106353A CN 103106353 A CN103106353 A CN 103106353A CN 201310049589X A CN201310049589X A CN 201310049589XA CN 201310049589 A CN201310049589 A CN 201310049589A CN 103106353 A CN103106353 A CN 103106353A
Authority
CN
China
Prior art keywords
genome sequence
base
value
dimensional space
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310049589XA
Other languages
English (en)
Other versions
CN103106353B (zh
Inventor
艾云灿
孟繁梅
赵磊
艾汉南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310049589.XA priority Critical patent/CN103106353B/zh
Publication of CN103106353A publication Critical patent/CN103106353A/zh
Application granted granted Critical
Publication of CN103106353B publication Critical patent/CN103106353B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。该构造方法包括三个步骤:建立基因组序列中的每个碱基所对应的三维空间坐标值;利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线;利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线。本发明的优点是:对于给定的基因组序列,可构造可重复的、唯一的、有效的指纹特征曲线。本发明在基因组序列的个性化指纹特征识别与分析方面有应用前景。

Description

一种基因组序列的指纹特征曲线的构造方法
技术领域
本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。
背景技术
微生物感染引起新发或突发的全球公共卫生问题和食品安全问题日益突出。高通量测序技术可在第一时间测定新发或突发微生物的全基因组序列。但是,如何进一步利用测定的全基因组序列开展大规模比较辨识、促进追踪朔源和指导应急策略,是亟待解决的技术问题。
目前,国际和国内开展两个全基因组序列比较分析时使用的方法是基于逐个碱基的两两比对办法(如BLASTZ软件),存在难以克服的技术缺陷,例如不能开展两个以上的全基因组序列之间大规模比较;或者因为全基因组序列太大而现有计算机和软件不能实现含有数百万个碱基的逐个碱基的两两比对;或者虽然可以完成两个基因组序列之间的逐个碱基的两两比对却不能直观展示比对结果。因此,建立一种新方法,利用微生物基因组序列快速构造直观图像显示类似于人类“指纹”的图像特征,是解决上述问题所急需的关键技术之一。
本发明中用作比对技术的Zplotter软件来自于Z-curve方法。简言之,Z-curve方法是采用几何学途径研究离散型的基因组序列信息,它首先通过Zplotter软件计算获得基因组序列的三维空间坐标值,然后利用坐标值进一步开展数值计算。Zplotter软件计算三维空间坐标值只是一种初始数值化技术,是为Z-curve方法的其他计算服务的,原本没有考虑到提出构造和展示基因组序列的“指纹”的概念。虽然可以利用三维空间坐标值绘制曲线,但是只能展示粗略轮廓图,而缺乏“指纹”特征的细节。另外,由于Zplotter软件的计算方法存在缺陷,它不能处理在基因组序列中可能存在的切割点错误。换言之,即使是同一个基因组序列因为首尾连接环状化之后再重新切割为线状时有可能导致切割点不同,由它计算出来的三维空间坐标值就完全不同;而事实上却完全是同一个基因组序列。因此,利用Zplotter软件计算三维空间坐标值的结果在可重复性、唯一性和有效性方面都存在问题。
发明内容
本发明要解决的技术问题是克服现有技术的不足而提供一种提高可重复性、唯一性、有效性的关于基因组序列的指纹特征曲线的构造方法。
为解决上述技术问题,本发明的技术方案是:一种基因组序列的指纹特征曲线的构造方法,包括以下三个步骤:
步骤1:建立基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)。该步骤由以下四个环节组成:
第一环节:考察给定的基因组序列中的每个碱基,建立它与其他所有碱基之间的两两相对距离RD值的集合。计算公式如下:
Figure 110925DEST_PATH_IMAGE001
(1)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度。
 第一环节是本发明方法的核心技术。具体说明如下。
首先,选定目标碱基(TB):假定基因组序列总长度为N个碱基,则随机选定一个碱基作为目标碱基(视为第n个碱基)(n=1, 2, …, N)开始,逐一考察,经过N轮次后可以完成考察每一个碱基。这样随机开始的方法,可以保证任何碱基都有可能作为被考察的“第一个碱基”。那么,无论是环状形式存在的、还是线状形式存在的、还是由线状形式存在却被环化之后再切割为线状形式存在的序列,都不会因为“第一个碱基”的不同而不同。因为无论从何处开始,都要轮转和穷尽所有的碱基以完成对每一个碱基的考察。
其次,选定拟考察的碱基(FB):再逐个滑动,视为第m个碱基(m=1,2, …, N)。
然后,计算选定的第n个碱基和第m个碱基的两个碱基之间的相对距离RD值:按照公式(1)计算。例如,当选定了从第n个碱基开始,考虑滑动到考察第m个碱基时,如果m处在第n个碱基之后的下一个位置(即m=n+1位置)上,则两者的相对距离RD值记为1;如果m处在第n个碱基之后的再下一个位置(即m=n+2位置)上,则相对距离RD值记为2。依此类推,如果m处在第n个碱基之后的倒数第一个位置(即m=n+n-1位置)上,则相对距离RD值记为N-1。注意一个特殊情况:如果m是处在第n个碱基之后的最后一个位置(即m=n+n-1位置)上(实际上是转过了一圈之后又回到第n个碱基位置上),则相对距离RD值记为N(注意此时RD值不是0,而是总长度N)。公式(1)实际上给出了RD值的集合。因为第m个碱基是m=1,2, …, N个碱基中的任意一个,所以求出来的RD值共有N个。这样构成了一个集合,RD值的总个数有N个。
 第二环节:进一步的,再将相对距离RD值转化成为权重相对距离WRD值,并且建立权重相对距离WRD值的集合。具体做法是将每个RD值除以基因组序列的总长度值N,得到权重相对距离WRD值。目的是把相对距离RD值的绝对数字缩小N倍,由此提高后续计算过程的计算效率。公式如下:
Figure 265962DEST_PATH_IMAGE002
                           (2)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度。公式(2)实际上给出了WRD值的集合。因为第m个碱基是m=1,2, …, N个碱基中的任意一个,所以求出来的WRD值共有N个。构成了一个新集合,WRD值的总个数还是N。
 第三环节:再进一步的,从WRD值集合中提取关于A、T、G、C四大类别碱基的权重相对距离之和SWRD值。公式如下:
Figure 66428DEST_PATH_IMAGE003
(3)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度。公式(3)实际上给出了SWRD值的集合。因为第m个碱基是m=1,2, …, N个碱基中的任意一个,所以求出来的SWRD值有N个。构成了一个集合,其中SWRD值的总个数是N。
上述SWRD值的总集合又分解为四个亚集合,分别是:由碱基A构成的亚集合,由碱基G构成的亚集合,由碱基T构成的亚集合,由碱基C构成的亚集合。换言之,公式(3)同时决定了关于碱基A的SWRD值之和、关于碱基G的SWRD值之和、关于碱基T的SWRD值之和、关于碱基C的SWRD值之和。
 第四环节:更进一步的,建立基因组序列中每个碱基所对应的三维空间坐标值(xn, yn, zn)。公式如下:
Figure 648719DEST_PATH_IMAGE004
(4)
将由公式(3)决定的关于四大类别碱基A、G、T、C的SWRD值之和带入公式(4),可求出由步骤1中所选定的第n个碱基的三维空间坐标值(xn, yn, zn)。
 执行以上所述的第一环节至第四环节,就完成了计算随机选定的“第一个碱基”的空间坐标值。以此类推,重复N轮次,可以完成逐一计算全部N个碱基的三维空间坐标值(xn, yn, zn)(其中,n=1, 2, …, N;N为基因组序列的长度)。
 步骤2:根据每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,
利用步骤1所建立的三维空间坐标值,采用绘图软件绘制三维空间曲线,将基因组序列中的每一个碱基看作是在三维空间中的一个点(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度),将每个点逐一连接起来形成三维空间曲线。是本发明中所称谓的(x n ~y n ~z n )型曲线。它是体现基因组序列的唯一的三维曲线,并且具有清晰可辨的稳定的指纹特征。
 步骤3:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线,
利用由步骤1建立的三维空间坐标值,进行六种不同组合(xn~n),(yn~n),(zn~n),(yn~xn),(zn~yn),(zn~xn)(其中,n=1, 2, …, N;N为基因组序列长度)分别选择相应的纵坐标与横坐标从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线。是本发明所称谓的基因组序列的一组二维平面轨迹曲线。具有稳定的清晰可辨的指纹特征。分别描述如下:
(1)本发明中所称谓的(x n ~n)型曲线。从每个碱基的三维空间坐标值中取出xn值作为纵坐标与对应的碱基数n(n=1, 2, …, N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;
(2)本发明中所称谓的(y n ~n)型曲线。从每个碱基的三维空间坐标值中取出yn值作为纵坐标与对应的碱基数n(n=1, 2, …, N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;
(3)本发明中所称谓的(z n ~n)型曲线。从每个碱基的三维空间坐标值中取出zn值作为纵坐标与对应的碱基数n(n=1, 2, …, N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;
(4)本发明中所称谓的(y n ~x n )型曲线。从每个碱基的三维空间坐标值中取出yn值作为纵坐标与xn值(n=1, 2, …, N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;
(5)本发明中所称谓的(z n ~y n )型曲线。从每个碱基的三维空间坐标值中取出zn值作为纵坐标与yn值(n=1, 2, …, N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;
(6)本发明中所称谓的(z n ~x n )型曲线。从每个碱基的三维空间坐标值中取出zn值作为纵坐标与xn值(n=1, 2, …, N;N为基因组序列长度)作为横坐标,绘制二维平面曲线。
 优化的,上述方案中步骤1所述的建立基因组序列中每个碱基的三维空间坐标值,对于所给定的基因组序列而言是唯一的确定值,绝对不会因为将基因组的环状序列改写为线状序列之过程中可能发生的切割点差异而导致构造出不同的指纹特征曲线。因此,本发明方法中由步骤1建立的唯一的确定值进一步决定了步骤2和步骤3绘制的基因组序列的指纹特征曲线是可重复的、唯一的、有效的。
 与现有技术相比,本发明相对于现有技术的有益效果是:
本发明提高了基因组序列的指纹特征曲线的可重复性、唯一性、有效性。与国际上相关软件相比,采用本发明方法构造的基因组序列的指纹特征曲线的可重复性、唯一性、有效性最好。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1是本发明基因组序列的指纹特征曲线的构造方法的具体实现框图。
图2~图8是由本发明方法实例分析二个基因组序列所构造的指纹特征曲线。一组共七个,每一个指纹特征曲线都有稳定的、唯一的、有效的指纹特征。
图2 是(x n ~y n ~z n )型曲线。
图3 是(x n ~n)型曲线。
图4 是(y n ~n)型曲线。
图5 是(z n ~n)型曲线。
图6 是(y n ~x n )型曲线。
图7 是(z n ~y n )型曲线。
图8 是(z n ~x n )型曲线。
图9~图10 是本发明方法与比对软件实例分析二个基因组序列的结果比较。
图9 是本发明方法实例分析二个基因组序列的结果。
图10是比对软件实例分析二个基因组序列的结果。
具体实施方式
本发明的应用实例1:将结合应用实例1来详细说明本发明的具体实施过程。图1为本发明的基因组序列的指纹特征曲线的构造方法的具体实现框图。本发明公开了一种基因组序列的指纹特征曲线的构造方法,包括以下三个步骤,
步骤1:建立基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)。该步骤由以下四个环节组成:
第一环节:逐一考察给定的基因组序列中的每个碱基,建立它与其他所有碱基之间的两两相对距离RD值的集合;
 
Figure 386999DEST_PATH_IMAGE001
(1)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度;
第一环节是本发明方法的核心技术。先固定第n个碱基,再滑动到考察第m个碱基。按照公式(1)计算第n个碱基与第m个碱基两者之间的相对距离RD值。当选定了第n个碱基开始,考虑滑动到考察第m个碱基时,如果m处在第n个碱基之后的下一个位置(即m=n+1位置)上,则相对距离RD值记为1;如果m处在第n个碱基之后的再下一个位置(即m=n+2位置)上,则相对距离RD值记为2。依此类推,如果m处在第n个碱基之后的倒数第一个位置(即m=n+n-1位置)上,则相对距离RD值记为N-1;如果m处在第n个碱基之后的最后一个位置(即m=n+n-1位置)上(实际上是转了一圈后又回到了第n个碱基位置上),则相对距离RD值记为N(注意此时RD值不是0,而是总长度N)。公式(1)实际上给出了RD值的集合。RD值的总个数有N个;
例如,作为实例1分析,我们选择基因组序列Halobacterium sp. NRC-1 NC_002607(NCBI-GENEBANK中的登记号)有2,014,239个碱基,利用上述公式(1)计算获得的RD值有2,014,239个。相对距离RD值的集合中最小值是1,然后是2,…,最大值是2,014,239。类似的,另一个基因组序列Halobacteriumsalinarum R1 NC_010364(NCBI-GENEBANK中的登记号)有2,000,962个碱基,计算获得的RD值有2,000,962个。相对距离RD值的集合中最小值是1,然后是2,…,最大值是2,000,962。
 第二环节:进一步的,将相对距离RD值转化成为权重相对距离WRD值,并且建立权重相对距离WRD值的集合。具体做法是将每个RD值除以给定基因组序列的总长度值N,得到权重相对距离WRD值。公式如下:
Figure 204782DEST_PATH_IMAGE002
                           (2)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度。公式(2)实际上给出了WRD值的集合,WRD值共有N个;
例如,作为实例1分析,Halobacterium sp. NRC-1 NC_002607相对距离RD值的集合中共有2,014,239个,最小值是1/2,014,239,然后是2/2,014,239,……,最大值是1。类似的,另一个Halobacteriumsalinarum R1 NC_010364相对距离RD值的集合中共有2,000,962个,最小值是1/2,000,962,然后是2/2,000,962,……,最大值是1。
 第三环节:再进一步的,从WRD值集合中分别提取出关于A、T、G、C四大类别碱基的权重相对距离值之和(SWRD值)。也就是按照碱基类别来分别归类求和:把关于A的WRD值集中求和(对A碱基的SWRD值),把关于T的WRD值集中求和(对T碱基的SWRD值),……,依次类推。公式如下:
Figure 700DEST_PATH_IMAGE005
(3)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度;
公式(3)同时决定了关于碱基A的WRD值之和(SWRD)、关于碱基G的WRD值之和(SWRD)、关于碱基T的WRD值之和(SWRD)、关于碱基C的WRD值之和(SWRD)。分别是来自于由碱基A构成的WRD值的亚集合、由碱基G构成的WRD值的亚集合、由碱基T构成的WRD值的亚集合、由碱基C构成的WRD值的亚集合。每个类别的亚集合中的元素个数与在基因组序列中的A、T、G、C的碱基个数有对应关系,各类别之间的元素个数可能不一定相等,但是四类亚集合中的元素的总个数还是N个;
例如,作为实例1分析,基因组序列NC_002607中WRD值的总个数是2,014,239个,其中A碱基类有323335个,T碱基类有322973个,G碱基类有682933个,C碱基类有684998个;基因组序列NC_010364中WRD值的总个数是2,000,962个,其中A碱基类WRD值有320206个,T碱基类WRD值有319805个,G碱基类WRD值有679401个,C碱基类WRD值有681550个。注意:对于每一个具体选定考察的“第n个碱基”而言,一旦分别将此时这些A、T、G、C碱基不同类别的WRD值求和之后所得到的SWRD值是一个具体的定值,而不再是集合了。
 第四环节:更进一步的,建立基因组序列中每个碱基所对应的三维空间坐标值(xn, yn, zn)。公式如下:
Figure 626329DEST_PATH_IMAGE006
(4)
将由公式(3)决定的关于四大类别碱基A、G、T、C的SWRD值分别带入公式(4),可以求出在步骤1中选定的“第n个碱基”的三维空间坐标值(xn, yn, zn)(其中,n=1, 2, …, N;N为基因组序列的长度)。
 以此类推,重复上述的第一环节至第四环节,逐一把每个碱基都依次当作“第n个碱基”来考察(其中,n=1, 2, …, N;N为基因组序列的长度),就能够逐一计算出在基因组序列中的全部N个碱基的三维空间坐标值(xn, yn, zn);
例如,作为实例1分析,基因组序列NC_002607中碱基数有2,014,239个,则有2,014,239组三维空间坐标值,对应在三维空间中的2,014,239个点。类似的,基因组序列NC_010364有2,000,962组三维空间坐标值,对应在三维空间中的2,000,962个点。
 步骤2:利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,
利用步骤1所建立的三维空间坐标值,采用绘图软件绘制三维空间曲线,是本发明中所称谓的(x n ~y n ~z n )型曲线。对所给定的基因组序列而言,是唯一的三维曲线,并且具有清晰可辨的稳定的指纹特征;
例如,作为实例1分析,基因组序列NC_002607有2,014,239个点,而NC_010364有2,000,962个点,将它们的三维坐标值同步绘制(x n ~y n ~z n )型曲线(如图2所示),可见两个菌株的基因组序列的指纹特征曲线很相似。
 步骤3:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线,
利用由步骤1建立的三维空间坐标值,进行六种不同组合(xn~n),(yn~n),(zn~n),(yn~xn),(zn~yn),(zn~xn)(n=1, 2, …, N;N为基因组序列的长度)分别选择相应的纵坐标与横坐标,从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线,即是所给定的基因组序列的一组二维平面轨迹曲线,具有稳定的清晰可辨的指纹特征。分别描述如下:
(1)本发明中所称谓的(x n ~n)型曲线:以xn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(x n ~n)型曲线(如图3所示),可见两个菌株的指纹特征曲线很相似;
(2)本发明中所称谓的(y n ~n)型曲线:以yn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(y n ~n)型曲线(如图4所示),可见两个菌株的指纹特征曲线很相似;
(3)本发明中所称谓的(z n ~n)型曲线:以zn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(z n ~n)型曲线(如图5所示),可见两个菌株的指纹特征曲线有明显差别;
(4)本发明中所称谓的(y n ~x n )型曲线:以yn值作为纵坐标与xn值作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(y n ~x n )型曲线(如图6所示),可见两个菌株的指纹特征曲线很相似;
(5)本发明中所称谓的(z n ~y n )型曲线:以zn值作为纵坐标与yn值作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(z n ~y n )型曲线(如图7所示),可见两个菌株的指纹特征曲线有明显差别;
(6)本发明中所称谓的(z n ~x n )型曲线:以zn值作为纵坐标与xn值作为横坐标,绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(z n ~x n )型曲线(如图8所示),可见两个菌株的指纹特征曲线有明显差别。
本发明的应用实例2:不同方法分析给定的基因组序列的结果比较。
选择2个基因组序列Halobacterium sp. NRC-1 的NC_002607(NCBI-GENEBANK中的登记号)及其变体NC_002607_Rc做比较分析。所谓变体NC_002607_Rc,是指对原有的NC_002607基因组序列进行先环状化连接之后再切割断开为线状改造而成的。因为再次切割时的切割点不同,所以作为线状形式存在的序列的“第一个”碱基则会因为切割点的不同而不同。但是,当把它重新首尾相连之后每个碱基的实际相对顺序并没有发生任何改变,还是原来的那个序列的顺序。简言之,NC_002607及其变体NC_002607_Rc实际上都是代表着同一个基因组序列。构造一个已知的人工改造体,便于检验本发明方法的使用效果。例如,在原序列NC_002607的大约 700 kb之处切割之后而构造“新”序列(只是作为线状形式存在的“第一个”碱基改变了,每个碱基的相对顺序并没有改变),记为NC_002607_Rc。
分别采用本发明方法与比对软件Zplotter进行计算,计算结果分别获得了上述2个基因组序列NC_002607及其变体NC_002607_Rc的三维空间坐标值。然后利用三维坐标值绘制空间曲线。比较分析的结果如图9和图10所示。可见,由本发明方法构造的基因组序列的指纹特征曲线(图9所示)是可重复的、唯一的、有效的,没有因为对原有基因组序列的再切割之后所引起的切割点不同而变化。换言之,本发明方法对来自同一个基因组序列的具有不同切割点的线状形式的序列变体,依然都能构造出可重复的、唯一的、有效的指纹特征曲线。与之相反,比对软件Zplotter计算出来的三维空间坐标值及由此绘制的曲线则完全不同了(图10所示),在基因组序列被重新切割的前后,本来应该是同一个基因组序列却变成了两个完全不同的曲线,因此比对软件Zplotter计算出来的三维空间坐标值前后是变化的,都不能准确地构造实际代表着同一个基因组序列的曲线,即没有可重复性、没有唯一性。

Claims (12)

1.一种基因组序列的指纹特征曲线的构造方法,其特征在于:包括以下三个步骤:
步骤1:建立基因组序列中的每个碱基所对应的三维空间坐标值,
采用本发明公布的一组公式,分别计算基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)(其中,n=1, 2, …, N;N为基因组序列的长度);
步骤2:利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,
利用由步骤1建立的三维空间坐标值(xn, yn, zn),采用绘图软件绘制三维空间曲线(xn~yn~zn)(其中,n=1, 2, …, N;N为基因组序列的长度);
步骤3:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线,
利用由步骤1建立的三维空间坐标值,进行六种不同组合(xn~n),(yn~n),(zn~n),(yn~xn),(zn~yn),(zn~xn)(其中,n=1, 2, …, N;N为基因组序列的长度)分别选择相应的纵坐标与横坐标,从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线。
2. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法,即对两两碱基之间的相对距离RD值的计算方法,公式如下:
Figure 64621DEST_PATH_IMAGE001
(1)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的总长度。
3. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法,即对两两碱基之间的权重相对距离WRD值的计算方法,公式如下:
Figure 415967DEST_PATH_IMAGE002
   (2)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度。
4. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法,即对基因组序列中两两碱基之间的权重相对距离WRD值再依照A,G,T,C四大类别碱基分别求和(SWRD值)的计算方法,公式如下:
Figure 361927DEST_PATH_IMAGE003
 (3)
其中,n=1, 2, …, N;m=1, 2, …, N;N为基因组序列的长度。
5. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)的方法,即对基因组序列中的每个碱基所对应的三维空间坐标值的计算方法,公式如下:
Figure 38896DEST_PATH_IMAGE004
 (4)
其中,n=1, 2, …, N;N为基因组序列的长度。
6.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤2所述的利用步骤1建立的每个碱基的三维空间坐标值绘制三维空间曲线,其特征在于:绘制(xn~yn~zn)型曲线,即将基因组序列中的每个碱基都看作是在所对应的三维空间中的一个点(xn, yn, zn),将每个点逐一连接起来形成三维空间曲线,其中,n=1, 2, …, N;N为基因组序列的长度。
7.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(xn~n)型曲线,即从每个碱基的三维空间坐标值中取出xn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线,其中,n=1, 2, …, N;N为基因组序列的长度。
8.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(yn~n)型曲线,即从每个碱基的三维空间坐标值中取出yn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线,其中,n=1, 2, …, N;N为基因组序列的长度。
9.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(zn~n)型曲线,即从每个碱基的三维空间坐标值中取出zn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线,其中,n=1, 2, …, N;N为基因组序列的长度。
10. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(yn~xn)型曲线,即从每个碱基的三维空间坐标值中取出yn值作为纵坐标与xn值作为横坐标绘制二维平面曲线,其中,n=1, 2, …, N;N为基因组序列的长度。
11. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(zn~yn)型曲线,即从每个碱基的三维空间坐标值中取出zn值作为纵坐标与yn值作为横坐标绘制二维平面曲线,其中,n=1, 2, …, N;N为基因组序列的长度。
12. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(zn~xn)型曲线,即从每个碱基的三维空间坐标值中取出zn值作为纵坐标与xn值作为横坐标绘制二维平面曲线,其中,n=1, 2, …, N;N为基因组序列的长度。
CN201310049589.XA 2013-02-07 2013-02-07 一种基因组序列的指纹特征曲线的构造方法 Expired - Fee Related CN103106353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310049589.XA CN103106353B (zh) 2013-02-07 2013-02-07 一种基因组序列的指纹特征曲线的构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310049589.XA CN103106353B (zh) 2013-02-07 2013-02-07 一种基因组序列的指纹特征曲线的构造方法

Publications (2)

Publication Number Publication Date
CN103106353A true CN103106353A (zh) 2013-05-15
CN103106353B CN103106353B (zh) 2018-11-23

Family

ID=48314207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310049589.XA Expired - Fee Related CN103106353B (zh) 2013-02-07 2013-02-07 一种基因组序列的指纹特征曲线的构造方法

Country Status (1)

Country Link
CN (1) CN103106353B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559428A (zh) * 2013-10-11 2014-02-05 南方医科大学 一种基于dna测序峰形图定量分析碱基变异比例的方法
CN106570347A (zh) * 2016-09-09 2017-04-19 安徽师范大学 基因序列的可视化处理方法
CN106874711A (zh) * 2017-03-05 2017-06-20 艾云灿 一种基因组序列的指纹图谱的景观分析方法及用途
CN107710207A (zh) * 2015-03-12 2018-02-16 皇家飞利浦有限公司 感染管理和控制
CN110955371A (zh) * 2014-02-13 2020-04-03 Illumina公司 综合式消费者基因组服务

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012034030A1 (en) * 2010-09-09 2012-03-15 Omicia, Inc. Variant annotation, analysis and selection tool

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012034030A1 (en) * 2010-09-09 2012-03-15 Omicia, Inc. Variant annotation, analysis and selection tool

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐永安等: "基因序列Z曲线的生成和显示", 《计算机工程与应用》 *
艾云灿: "促进真菌染色体重组的MCB共诱导平板的构建和应用", 《生物工程学报》 *
陆王红等: "基于Z曲线的核酸序列可视化分析平台研究", 《生物信息学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559428A (zh) * 2013-10-11 2014-02-05 南方医科大学 一种基于dna测序峰形图定量分析碱基变异比例的方法
CN110955371A (zh) * 2014-02-13 2020-04-03 Illumina公司 综合式消费者基因组服务
CN110955371B (zh) * 2014-02-13 2023-09-12 Illumina公司 综合式消费者基因组服务
CN107710207A (zh) * 2015-03-12 2018-02-16 皇家飞利浦有限公司 感染管理和控制
CN107710207B (zh) * 2015-03-12 2022-03-08 皇家飞利浦有限公司 感染管理和控制
CN106570347A (zh) * 2016-09-09 2017-04-19 安徽师范大学 基因序列的可视化处理方法
CN106570347B (zh) * 2016-09-09 2019-03-26 安徽师范大学 基因序列的可视化处理方法
CN106874711A (zh) * 2017-03-05 2017-06-20 艾云灿 一种基因组序列的指纹图谱的景观分析方法及用途

Also Published As

Publication number Publication date
CN103106353B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN103106353A (zh) 一种基因组序列的指纹特征曲线的构造方法
CN103136393B (zh) 一种基于网格划分的区域覆盖率计算方法
CN107451619A (zh) 一种基于感知生成对抗网络的小目标检测方法
CN103544728B (zh) 一种在实景地图中基于法向量的被探面过滤方法
CN103778191B (zh) 一种顾及空间邻近关系的矢量等高线数据划分方法
CN106055580B (zh) 一种基于Radviz的模糊聚类结果可视化方法
CN102208033B (zh) 基于数据聚类的鲁棒sift特征匹配方法
CN100524361C (zh) 一种判断点是否位于多边形内的方法
CN106547724A (zh) 基于最小点集的欧式空间坐标转换参数获取方法
CN103838907A (zh) 基于stl模型的曲面切割轨迹获得方法
CN105334497A (zh) 一种三维定位方法和装置
CN103455709B (zh) 一种用于数字高程模型的超分辨率方法及其系统
CN103839253A (zh) 一种基于局部仿射变换的任意点匹配方法
CN106023317B (zh) 一种用于大数据测试的加权Voronoi图生成方法
CN104408773A (zh) 一种结构化网格非匹配界面插值的方法
CN108961406A (zh) 地理信息可视化方法、装置及用户终端
CN101964157B (zh) 球面菱形网格递归剖分方法
CN109726916A (zh) 一种适用于公路全寿命周期智能健康监测的方法
CN105046691A (zh) 一种基于正交消失点的相机自标定方法
CN106815607B (zh) 一种基于反距离权重插值反函数的等值线图像数据提取方法
CN106844642A (zh) 一种基于gis计算路网网格中人口密度的方法
CN109767492A (zh) 一种变电站三维模型的间距计算方法
CN105741297A (zh) 一种具有仿射不变性的重复模式图像匹配方法
CN107464272A (zh) 基于关键点的中心扩散式气象传真图等值线的插值方法
CN101894267B (zh) 一种三维对象特征视图选取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181123

CF01 Termination of patent right due to non-payment of annual fee