CN103106353A

CN103106353A - 一种基因组序列的指纹特征曲线的构造方法

Info

Publication number: CN103106353A
Application number: CN201310049589XA
Authority: CN
Inventors: 艾云灿; 孟繁梅; 赵磊; 艾汉南
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-02-07
Filing date: 2013-02-07
Publication date: 2013-05-15
Anticipated expiration: 2033-02-07
Also published as: CN103106353B

Abstract

本发明属于生物信息学技术领域，更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。该构造方法包括三个步骤：建立基因组序列中的每个碱基所对应的三维空间坐标值；利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线；利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线。本发明的优点是：对于给定的基因组序列，可构造可重复的、唯一的、有效的指纹特征曲线。本发明在基因组序列的个性化指纹特征识别与分析方面有应用前景。

Description

一种基因组序列的指纹特征曲线的构造方法

技术领域

本发明属于生物信息学技术领域，更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。

背景技术

微生物感染引起新发或突发的全球公共卫生问题和食品安全问题日益突出。高通量测序技术可在第一时间测定新发或突发微生物的全基因组序列。但是，如何进一步利用测定的全基因组序列开展大规模比较辨识、促进追踪朔源和指导应急策略，是亟待解决的技术问题。

目前，国际和国内开展两个全基因组序列比较分析时使用的方法是基于逐个碱基的两两比对办法（如BLASTZ软件），存在难以克服的技术缺陷，例如不能开展两个以上的全基因组序列之间大规模比较；或者因为全基因组序列太大而现有计算机和软件不能实现含有数百万个碱基的逐个碱基的两两比对；或者虽然可以完成两个基因组序列之间的逐个碱基的两两比对却不能直观展示比对结果。因此，建立一种新方法，利用微生物基因组序列快速构造直观图像显示类似于人类“指纹”的图像特征，是解决上述问题所急需的关键技术之一。

本发明中用作比对技术的Zplotter软件来自于Z-curve方法。简言之，Z-curve方法是采用几何学途径研究离散型的基因组序列信息，它首先通过Zplotter软件计算获得基因组序列的三维空间坐标值，然后利用坐标值进一步开展数值计算。Zplotter软件计算三维空间坐标值只是一种初始数值化技术，是为Z-curve方法的其他计算服务的，原本没有考虑到提出构造和展示基因组序列的“指纹”的概念。虽然可以利用三维空间坐标值绘制曲线，但是只能展示粗略轮廓图，而缺乏“指纹”特征的细节。另外，由于Zplotter软件的计算方法存在缺陷，它不能处理在基因组序列中可能存在的切割点错误。换言之，即使是同一个基因组序列因为首尾连接环状化之后再重新切割为线状时有可能导致切割点不同，由它计算出来的三维空间坐标值就完全不同；而事实上却完全是同一个基因组序列。因此，利用Zplotter软件计算三维空间坐标值的结果在可重复性、唯一性和有效性方面都存在问题。

发明内容

本发明要解决的技术问题是克服现有技术的不足而提供一种提高可重复性、唯一性、有效性的关于基因组序列的指纹特征曲线的构造方法。

为解决上述技术问题，本发明的技术方案是：一种基因组序列的指纹特征曲线的构造方法，包括以下三个步骤：

步骤1：建立基因组序列中的每个碱基所对应的三维空间坐标值（x_n, y_n, z_n）。该步骤由以下四个环节组成：

第一环节：考察给定的基因组序列中的每个碱基，建立它与其他所有碱基之间的两两相对距离RD值的集合。计算公式如下：

（1）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度。

第一环节是本发明方法的核心技术。具体说明如下。

首先，选定目标碱基（TB）：假定基因组序列总长度为N个碱基，则随机选定一个碱基作为目标碱基（视为第n个碱基）（n=1, 2, …, N）开始，逐一考察，经过N轮次后可以完成考察每一个碱基。这样随机开始的方法，可以保证任何碱基都有可能作为被考察的“第一个碱基”。那么，无论是环状形式存在的、还是线状形式存在的、还是由线状形式存在却被环化之后再切割为线状形式存在的序列，都不会因为“第一个碱基”的不同而不同。因为无论从何处开始，都要轮转和穷尽所有的碱基以完成对每一个碱基的考察。

其次，选定拟考察的碱基（FB）：再逐个滑动，视为第m个碱基（m=1,2, …, N）。

然后，计算选定的第n个碱基和第m个碱基的两个碱基之间的相对距离RD值：按照公式（1）计算。例如，当选定了从第n个碱基开始，考虑滑动到考察第m个碱基时，如果m处在第n个碱基之后的下一个位置（即m=n+1位置）上，则两者的相对距离RD值记为1；如果m处在第n个碱基之后的再下一个位置（即m=n+2位置）上，则相对距离RD值记为2。依此类推，如果m处在第n个碱基之后的倒数第一个位置（即m=n+n-1位置）上，则相对距离RD值记为N-1。注意一个特殊情况：如果m是处在第n个碱基之后的最后一个位置（即m=n+n-1位置）上（实际上是转过了一圈之后又回到第n个碱基位置上），则相对距离RD值记为N（注意此时RD值不是0，而是总长度N）。公式（1）实际上给出了RD值的集合。因为第m个碱基是m=1,2, …, N个碱基中的任意一个，所以求出来的RD值共有N个。这样构成了一个集合，RD值的总个数有N个。

第二环节：进一步的，再将相对距离RD值转化成为权重相对距离WRD值，并且建立权重相对距离WRD值的集合。具体做法是将每个RD值除以基因组序列的总长度值N，得到权重相对距离WRD值。目的是把相对距离RD值的绝对数字缩小N倍，由此提高后续计算过程的计算效率。公式如下：

（2）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度。公式（2）实际上给出了WRD值的集合。因为第m个碱基是m=1,2, …, N个碱基中的任意一个，所以求出来的WRD值共有N个。构成了一个新集合，WRD值的总个数还是N。

第三环节：再进一步的，从WRD值集合中提取关于A、T、G、C四大类别碱基的权重相对距离之和SWRD值。公式如下：

（3）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度。公式（3）实际上给出了SWRD值的集合。因为第m个碱基是m=1,2, …, N个碱基中的任意一个，所以求出来的SWRD值有N个。构成了一个集合，其中SWRD值的总个数是N。

上述SWRD值的总集合又分解为四个亚集合，分别是：由碱基A构成的亚集合，由碱基G构成的亚集合，由碱基T构成的亚集合，由碱基C构成的亚集合。换言之，公式（3）同时决定了关于碱基A的SWRD值之和、关于碱基G的SWRD值之和、关于碱基T的SWRD值之和、关于碱基C的SWRD值之和。

第四环节：更进一步的，建立基因组序列中每个碱基所对应的三维空间坐标值（x_n, y_n, z_n）。公式如下：

（4）

将由公式（3）决定的关于四大类别碱基A、G、T、C的SWRD值之和带入公式（4），可求出由步骤1中所选定的第n个碱基的三维空间坐标值（x_n, y_n, z_n）。

执行以上所述的第一环节至第四环节，就完成了计算随机选定的“第一个碱基”的空间坐标值。以此类推，重复N轮次，可以完成逐一计算全部N个碱基的三维空间坐标值（x_n, y_n, z_n）（其中，n=1, 2, …, N；N为基因组序列的长度）。

步骤2：根据每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线，

利用步骤1所建立的三维空间坐标值，采用绘图软件绘制三维空间曲线，将基因组序列中的每一个碱基看作是在三维空间中的一个点（x_n, y_n, z_n）（n=1, 2, …, N；N为基因组序列的长度），将每个点逐一连接起来形成三维空间曲线。是本发明中所称谓的（x _n ～y _n ～z _n）型曲线。它是体现基因组序列的唯一的三维曲线，并且具有清晰可辨的稳定的指纹特征。

步骤3：利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线，

利用由步骤1建立的三维空间坐标值，进行六种不同组合（x_n~n），（y_n~n），（z_n~n），（y_n~x_n），（z_n~y_n），（z_n~x_n）（其中，n=1, 2, …, N；N为基因组序列长度）分别选择相应的纵坐标与横坐标从而构成6种类型的二维平面，采用绘图软件绘制一组二维平面曲线。是本发明所称谓的基因组序列的一组二维平面轨迹曲线。具有稳定的清晰可辨的指纹特征。分别描述如下：

（1）本发明中所称谓的（x _n ～n）型曲线。从每个碱基的三维空间坐标值中取出x_n值作为纵坐标与对应的碱基数n（n=1, 2, …, N；N为基因组序列长度）作为横坐标，绘制二维平面曲线；

（2）本发明中所称谓的（y _n ～n）型曲线。从每个碱基的三维空间坐标值中取出y_n值作为纵坐标与对应的碱基数n（n=1, 2, …, N；N为基因组序列长度）作为横坐标，绘制二维平面曲线；

（3）本发明中所称谓的（z _n ～n）型曲线。从每个碱基的三维空间坐标值中取出z_n值作为纵坐标与对应的碱基数n（n=1, 2, …, N；N为基因组序列长度）作为横坐标，绘制二维平面曲线；

（4）本发明中所称谓的（y _n ～x _n）型曲线。从每个碱基的三维空间坐标值中取出y_n值作为纵坐标与x_n值（n=1, 2, …, N；N为基因组序列长度）作为横坐标，绘制二维平面曲线；

（5）本发明中所称谓的（z _n ～y _n）型曲线。从每个碱基的三维空间坐标值中取出z_n值作为纵坐标与y_n值（n=1, 2, …, N；N为基因组序列长度）作为横坐标，绘制二维平面曲线；

（6）本发明中所称谓的（z _n ～x _n）型曲线。从每个碱基的三维空间坐标值中取出z_n值作为纵坐标与x_n值（n=1, 2, …, N；N为基因组序列长度）作为横坐标，绘制二维平面曲线。

优化的，上述方案中步骤1所述的建立基因组序列中每个碱基的三维空间坐标值，对于所给定的基因组序列而言是唯一的确定值，绝对不会因为将基因组的环状序列改写为线状序列之过程中可能发生的切割点差异而导致构造出不同的指纹特征曲线。因此，本发明方法中由步骤1建立的唯一的确定值进一步决定了步骤2和步骤3绘制的基因组序列的指纹特征曲线是可重复的、唯一的、有效的。

与现有技术相比，本发明相对于现有技术的有益效果是：

本发明提高了基因组序列的指纹特征曲线的可重复性、唯一性、有效性。与国际上相关软件相比，采用本发明方法构造的基因组序列的指纹特征曲线的可重复性、唯一性、有效性最好。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1是本发明基因组序列的指纹特征曲线的构造方法的具体实现框图。

图2~图8是由本发明方法实例分析二个基因组序列所构造的指纹特征曲线。一组共七个，每一个指纹特征曲线都有稳定的、唯一的、有效的指纹特征。

图2 是（x _n ～y _n ～z _n）型曲线。

图3 是（x _n ～n）型曲线。

图4 是（y _n ～n）型曲线。

图5 是（z _n ～n）型曲线。

图6 是（y _n ～x _n）型曲线。

图7 是（z _n ～y _n）型曲线。

图8 是（z _n ～x _n）型曲线。

图9～图10 是本发明方法与比对软件实例分析二个基因组序列的结果比较。

图9 是本发明方法实例分析二个基因组序列的结果。

图10是比对软件实例分析二个基因组序列的结果。

具体实施方式

本发明的应用实例1：将结合应用实例1来详细说明本发明的具体实施过程。图1为本发明的基因组序列的指纹特征曲线的构造方法的具体实现框图。本发明公开了一种基因组序列的指纹特征曲线的构造方法，包括以下三个步骤，

第一环节：逐一考察给定的基因组序列中的每个碱基，建立它与其他所有碱基之间的两两相对距离RD值的集合；

（1）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度；

第一环节是本发明方法的核心技术。先固定第n个碱基，再滑动到考察第m个碱基。按照公式（1）计算第n个碱基与第m个碱基两者之间的相对距离RD值。当选定了第n个碱基开始，考虑滑动到考察第m个碱基时，如果m处在第n个碱基之后的下一个位置（即m=n+1位置）上，则相对距离RD值记为1；如果m处在第n个碱基之后的再下一个位置（即m=n+2位置）上，则相对距离RD值记为2。依此类推，如果m处在第n个碱基之后的倒数第一个位置（即m=n+n-1位置）上，则相对距离RD值记为N-1；如果m处在第n个碱基之后的最后一个位置（即m=n+n-1位置）上（实际上是转了一圈后又回到了第n个碱基位置上），则相对距离RD值记为N（注意此时RD值不是0，而是总长度N）。公式（1）实际上给出了RD值的集合。RD值的总个数有N个；

例如，作为实例1分析，我们选择基因组序列Halobacterium sp. NRC-1 NC_002607（NCBI-GENEBANK中的登记号）有2,014,239个碱基，利用上述公式（1）计算获得的RD值有2,014,239个。相对距离RD值的集合中最小值是1，然后是2，…，最大值是2,014,239。类似的，另一个基因组序列Halobacteriumsalinarum R1 NC_010364（NCBI-GENEBANK中的登记号）有2,000,962个碱基，计算获得的RD值有2,000,962个。相对距离RD值的集合中最小值是1，然后是2，…，最大值是2,000,962。

第二环节：进一步的，将相对距离RD值转化成为权重相对距离WRD值，并且建立权重相对距离WRD值的集合。具体做法是将每个RD值除以给定基因组序列的总长度值N，得到权重相对距离WRD值。公式如下：

（2）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度。公式（2）实际上给出了WRD值的集合，WRD值共有N个；

例如，作为实例1分析，Halobacterium sp. NRC-1 NC_002607相对距离RD值的集合中共有2,014,239个，最小值是1/2,014,239，然后是2/2,014,239，……，最大值是1。类似的，另一个Halobacteriumsalinarum R1 NC_010364相对距离RD值的集合中共有2,000,962个，最小值是1/2,000,962，然后是2/2,000,962，……，最大值是1。

第三环节：再进一步的，从WRD值集合中分别提取出关于A、T、G、C四大类别碱基的权重相对距离值之和（SWRD值）。也就是按照碱基类别来分别归类求和：把关于A的WRD值集中求和（对A碱基的SWRD值），把关于T的WRD值集中求和（对T碱基的SWRD值），……，依次类推。公式如下：

（3）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度；

公式（3）同时决定了关于碱基A的WRD值之和（SWRD）、关于碱基G的WRD值之和（SWRD）、关于碱基T的WRD值之和（SWRD）、关于碱基C的WRD值之和（SWRD）。分别是来自于由碱基A构成的WRD值的亚集合、由碱基G构成的WRD值的亚集合、由碱基T构成的WRD值的亚集合、由碱基C构成的WRD值的亚集合。每个类别的亚集合中的元素个数与在基因组序列中的A、T、G、C的碱基个数有对应关系，各类别之间的元素个数可能不一定相等，但是四类亚集合中的元素的总个数还是N个；

例如，作为实例1分析，基因组序列NC_002607中WRD值的总个数是2,014,239个，其中A碱基类有323335个，T碱基类有322973个，G碱基类有682933个，C碱基类有684998个；基因组序列NC_010364中WRD值的总个数是2,000,962个，其中A碱基类WRD值有320206个，T碱基类WRD值有319805个，G碱基类WRD值有679401个，C碱基类WRD值有681550个。注意：对于每一个具体选定考察的“第n个碱基”而言，一旦分别将此时这些A、T、G、C碱基不同类别的WRD值求和之后所得到的SWRD值是一个具体的定值，而不再是集合了。

（4）

将由公式（3）决定的关于四大类别碱基A、G、T、C的SWRD值分别带入公式（4），可以求出在步骤1中选定的“第n个碱基”的三维空间坐标值（x_n, y_n, z_n）（其中，n=1, 2, …, N；N为基因组序列的长度）。

以此类推，重复上述的第一环节至第四环节，逐一把每个碱基都依次当作“第n个碱基”来考察（其中，n=1, 2, …, N；N为基因组序列的长度），就能够逐一计算出在基因组序列中的全部N个碱基的三维空间坐标值（x_n, y_n, z_n）；

例如，作为实例1分析，基因组序列NC_002607中碱基数有2,014,239个，则有2,014,239组三维空间坐标值，对应在三维空间中的2,014,239个点。类似的，基因组序列NC_010364有2,000,962组三维空间坐标值，对应在三维空间中的2,000,962个点。

步骤2：利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线，

利用步骤1所建立的三维空间坐标值，采用绘图软件绘制三维空间曲线，是本发明中所称谓的（x _n ～y _n ～z _n）型曲线。对所给定的基因组序列而言，是唯一的三维曲线，并且具有清晰可辨的稳定的指纹特征；

例如，作为实例1分析，基因组序列NC_002607有2,014,239个点，而NC_010364有2,000,962个点，将它们的三维坐标值同步绘制（x _n ～y _n ～z _n）型曲线（如图2所示），可见两个菌株的基因组序列的指纹特征曲线很相似。

利用由步骤1建立的三维空间坐标值，进行六种不同组合（x_n~n），（y_n~n），（z_n~n），（y_n~x_n），（z_n~y_n），（z_n~x_n）（n=1, 2, …, N；N为基因组序列的长度）分别选择相应的纵坐标与横坐标，从而构成6种类型的二维平面，采用绘图软件绘制一组二维平面曲线，即是所给定的基因组序列的一组二维平面轨迹曲线，具有稳定的清晰可辨的指纹特征。分别描述如下：

（1）本发明中所称谓的（x _n ～n）型曲线：以x_n值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如，作为实例1分析，基因组序列NC_002607中有2,014,239个点，而NC_010364中有2,000,962个点，同步绘制（x _n ～n）型曲线（如图3所示），可见两个菌株的指纹特征曲线很相似；

（2）本发明中所称谓的（y _n ～n）型曲线：以y_n值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如，作为实例1分析，基因组序列NC_002607中有2,014,239个点，而NC_010364中有2,000,962个点，同步绘制（y _n ～n）型曲线（如图4所示），可见两个菌株的指纹特征曲线很相似；

（3）本发明中所称谓的（z _n ～n）型曲线：以z_n值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如，作为实例1分析，基因组序列NC_002607中有2,014,239个点，而NC_010364中有2,000,962个点，同步绘制（z _n ～n）型曲线（如图5所示），可见两个菌株的指纹特征曲线有明显差别；

（4）本发明中所称谓的（y _n ～x _n）型曲线：以y_n值作为纵坐标与x_n值作为横坐标绘制二维平面轨迹曲线。例如，作为实例1分析，基因组序列NC_002607中有2,014,239个点，而NC_010364中有2,000,962个点，同步绘制（y _n ～x _n）型曲线（如图6所示），可见两个菌株的指纹特征曲线很相似；

（5）本发明中所称谓的（z _n ～y _n）型曲线：以z_n值作为纵坐标与y_n值作为横坐标绘制二维平面轨迹曲线。例如，作为实例1分析，基因组序列NC_002607中有2,014,239个点，而NC_010364中有2,000,962个点，同步绘制（z _n ～y _n）型曲线（如图7所示），可见两个菌株的指纹特征曲线有明显差别；

（6）本发明中所称谓的（z _n ～x _n）型曲线：以z_n值作为纵坐标与x_n值作为横坐标，绘制二维平面轨迹曲线。例如，作为实例1分析，基因组序列NC_002607中有2,014,239个点，而NC_010364中有2,000,962个点，同步绘制（z _n ～x _n）型曲线（如图8所示），可见两个菌株的指纹特征曲线有明显差别。

本发明的应用实例2：不同方法分析给定的基因组序列的结果比较。

选择2个基因组序列Halobacterium sp. NRC-1 的NC_002607（NCBI-GENEBANK中的登记号）及其变体NC_002607_Rc做比较分析。所谓变体NC_002607_Rc，是指对原有的NC_002607基因组序列进行先环状化连接之后再切割断开为线状改造而成的。因为再次切割时的切割点不同，所以作为线状形式存在的序列的“第一个”碱基则会因为切割点的不同而不同。但是，当把它重新首尾相连之后每个碱基的实际相对顺序并没有发生任何改变，还是原来的那个序列的顺序。简言之，NC_002607及其变体NC_002607_Rc实际上都是代表着同一个基因组序列。构造一个已知的人工改造体，便于检验本发明方法的使用效果。例如，在原序列NC_002607的大约 700 kb之处切割之后而构造“新”序列（只是作为线状形式存在的“第一个”碱基改变了，每个碱基的相对顺序并没有改变），记为NC_002607_Rc。

分别采用本发明方法与比对软件Zplotter进行计算，计算结果分别获得了上述2个基因组序列NC_002607及其变体NC_002607_Rc的三维空间坐标值。然后利用三维坐标值绘制空间曲线。比较分析的结果如图9和图10所示。可见，由本发明方法构造的基因组序列的指纹特征曲线（图9所示）是可重复的、唯一的、有效的，没有因为对原有基因组序列的再切割之后所引起的切割点不同而变化。换言之，本发明方法对来自同一个基因组序列的具有不同切割点的线状形式的序列变体，依然都能构造出可重复的、唯一的、有效的指纹特征曲线。与之相反，比对软件Zplotter计算出来的三维空间坐标值及由此绘制的曲线则完全不同了（图10所示），在基因组序列被重新切割的前后，本来应该是同一个基因组序列却变成了两个完全不同的曲线，因此比对软件Zplotter计算出来的三维空间坐标值前后是变化的，都不能准确地构造实际代表着同一个基因组序列的曲线，即没有可重复性、没有唯一性。

Claims

1.一种基因组序列的指纹特征曲线的构造方法，其特征在于：包括以下三个步骤：

步骤1：建立基因组序列中的每个碱基所对应的三维空间坐标值，

采用本发明公布的一组公式，分别计算基因组序列中的每个碱基所对应的三维空间坐标值（x_n, y_n, z_n）（其中，n=1, 2, …, N；N为基因组序列的长度）；

利用由步骤1建立的三维空间坐标值（x_n, y_n, z_n），采用绘图软件绘制三维空间曲线（x_n~y_n~z_n）（其中，n=1, 2, …, N；N为基因组序列的长度）；

利用由步骤1建立的三维空间坐标值，进行六种不同组合（x_n~n），（y_n~n），（z_n~n），（y_n~x_n），（z_n~y_n），（z_n~x_n）（其中，n=1, 2, …, N；N为基因组序列的长度）分别选择相应的纵坐标与横坐标，从而构成6种类型的二维平面，采用绘图软件绘制一组二维平面曲线。

2. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法，即对两两碱基之间的相对距离RD值的计算方法，公式如下：

（1）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的总长度。

3. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法，即对两两碱基之间的权重相对距离WRD值的计算方法，公式如下：

（2）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度。

4. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法，即对基因组序列中两两碱基之间的权重相对距离WRD值再依照A，G，T，C四大类别碱基分别求和（SWRD值）的计算方法，公式如下：

（3）

其中，n=1, 2, …, N；m=1, 2, …, N；N为基因组序列的长度。

5. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值（x_n, y_n, z_n）的方法，即对基因组序列中的每个碱基所对应的三维空间坐标值的计算方法，公式如下：

（4）

其中，n=1, 2, …, N；N为基因组序列的长度。

6.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤2所述的利用步骤1建立的每个碱基的三维空间坐标值绘制三维空间曲线，其特征在于：绘制（x_n~y_n~z_n）型曲线，即将基因组序列中的每个碱基都看作是在所对应的三维空间中的一个点（x_n, y_n, z_n），将每个点逐一连接起来形成三维空间曲线，其中，n=1, 2, …, N；N为基因组序列的长度。

7.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线，其特征在于：绘制（x_n~n）型曲线，即从每个碱基的三维空间坐标值中取出x_n值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线，其中，n=1, 2, …, N；N为基因组序列的长度。

8.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线，其特征在于：绘制（y_n~n）型曲线，即从每个碱基的三维空间坐标值中取出y_n值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线，其中，n=1, 2, …, N；N为基因组序列的长度。

9.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线，其特征在于：绘制（z_n~n）型曲线，即从每个碱基的三维空间坐标值中取出z_n值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线，其中，n=1, 2, …, N；N为基因组序列的长度。

10. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线，其特征在于：绘制（y_n~x_n）型曲线，即从每个碱基的三维空间坐标值中取出y_n值作为纵坐标与x_n值作为横坐标绘制二维平面曲线，其中，n=1, 2, …, N；N为基因组序列的长度。

11. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线，其特征在于：绘制（z_n~y_n）型曲线，即从每个碱基的三维空间坐标值中取出z_n值作为纵坐标与y_n值作为横坐标绘制二维平面曲线，其中，n=1, 2, …, N；N为基因组序列的长度。

12. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法，其特征在于：步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线，其特征在于：绘制（z_n~x_n）型曲线，即从每个碱基的三维空间坐标值中取出z_n值作为纵坐标与x_n值作为横坐标绘制二维平面曲线，其中，n=1, 2, …, N；N为基因组序列的长度。