CN1324467A - Dna标记分布图数据分析 - Google Patents

Dna标记分布图数据分析 Download PDF

Info

Publication number
CN1324467A
CN1324467A CN99812387A CN99812387A CN1324467A CN 1324467 A CN1324467 A CN 1324467A CN 99812387 A CN99812387 A CN 99812387A CN 99812387 A CN99812387 A CN 99812387A CN 1324467 A CN1324467 A CN 1324467A
Authority
CN
China
Prior art keywords
peak
dna
fragment
peak intensity
discrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99812387A
Other languages
English (en)
Other versions
CN1244880C (zh
Inventor
洪焰
阿龙·蔡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Institute of Molecular Agrobiology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Molecular Agrobiology filed Critical Institute of Molecular Agrobiology
Publication of CN1324467A publication Critical patent/CN1324467A/zh
Application granted granted Critical
Publication of CN1244880C publication Critical patent/CN1244880C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种将原始DNA标记分布图数据转换为易于理解的、标准化的格式的方法,该格式中的每个标记的位置和相对强度都被充分地表述。对原始DNA标记分布图数据进行分析从而将峰强度分组为离散强度水平,并利用装仓算法排列序列片段的大小或位置,使之成为离散的整数形式的大小。利用奖一罚系统对DNA指纹纪录的比较评分。

Description

DNA标记分布图数据分析
                  发明背景
发明领域
本发明一般涉及DNA标记分析,尤其涉及处理原始DNA标记分布图(profile)数据,使之成为利于对该原始数据进行分析的格式的方法。
背景及相关领域
DNA标记是通过研究基因组DNA样品而鉴定的分子遗传标记。高等生物的基因组包含于植物和动物细胞核内紧密盘卷的DNA(脱氧核糖核酸)的棒状结构中,被称为染色体。每条DNA链都具有含有对基因功能有贡献的遗传信息的核苷酸或碱基(包括腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶)片段或序列(外显子),以及显然不提供任何相关遗传信息的序列(内含子、小卫星序列和微卫星序列)。内含子、小卫星序列和微卫星序列在该基因或DNA样品的其它基因中重复。每种生物都具有可以被分析的这些小卫星序列的独特的型态(唯一的例外是来自单一受精卵的多个个体,即,同卵双生)。
DNA标记被用于绘制和标记感兴趣的物理性状,并作为遗传多样性的指示器。DNA多态性可以被用于研究基因组的构成以及遗传学图谱的构建,对于通过基于图谱的克隆、标记辅助的筛选,以及复杂性状的基因渗入和解剖而进行的基因分离的策略,遗传学图谱可以提供详细的蓝图。遗传图谱给现代育种者和科学家提供了一系列有力的工具,分析动物和植物中重要的生理性状的遗传特性。
在种的水平上对分类单元的研究以及对种的独特性的确定,对传统的、系统的、生态学的和进化学研究是必需的。在植物育种程序中,对基因型之间的遗传学关系的了解,使包括原种品系的种质形成,并提供更为有效的亲本筛选。外源种质是对遗传性状发挥高度期望的定性效应的基因的重要来源,例如生物的或非生物的胁迫抗性。在育种程序中这类基因的转移可以通过回交的标记辅助的筛选而加强。在多样性问题方面,DNA标记还可以帮助确定特定的种的种群是如何分布的,不同种群之间的遗传学差异如何,以及种群内和种群间的遗传变异有多少。
近年来,发展了许多不同的获得DNA标记的技术,包括:RFLP(限制片段长度多态性):
RFLP技术是基于这样的事实,即在用限制酶消化DNA样品时,限制性核酸内切酶位点上的碱基置换或者位点间的碱基插入或缺失可以导致DNA片段长度的可检测的差异。分离来自生物的DNA,并用适当的限制酶消化,通过凝胶电泳进行大小分离。然后将DNA片段转移到膜上,与放射性标记的探针杂交。RFLP方法是第一种也是最为广泛应用的获取遗传标记的方法,它提供高度重复的结果。但是在许多种中,这种多态性只以很低的频率发生,并且RFLP方法需要大量DNA,因而需要采集大量样品。RAPD(随机扩增多态DNA):
以约十个碱基的单个随机引物进行PCR(多聚酶链反应)扩增基因组DNA,扩增产物通过琼脂糖凝胶电泳分离。它具有价廉、操作简单而快速,并且不需要预知序列信息的优点。但是,该方法可能导致不能被确信地评分的非重复性条带、模糊条带、或者伪带。DAF(DNA扩增指纹法):
除了利用非常短的(如五至八个核苷酸)随机引物扩增基因组DNA,以及PCR片段通过聚丙烯酰胺凝胶电泳然后经过银染色法而成像之外,该技术与RAPD相似。该方法提供更多的变异,使区分密切相关的栽培种成为可能。但是,该方法也有RAPD的重复性和非遗传起源问题。SSR(简单序列重复):
在动物和植物基因组中,微型卫星区域富有两个或五个核苷酸的串联重复。这种序列被称为简单序列重复。这种重复与高水平的多态性相关,并且很适合于产生遗传标记。利用引物扩增SSR区域,获得的PCR片段通过聚丙烯酰胺凝胶电泳分析。该方法提供遗传起源的高度多态性,只需要很少的DNA,并给出重复的结果。但是,为了使用该获取DNA标记的方法,需要特定生物多个微卫星序列位点的预知序列信息。VNTR(可变数量串联重复):
在多达1000个单位的串联序列中出现的10-100个碱基对的分布于整个基因组的重复序列被称作小卫星序列。小卫星DNA区域中的串联重复的数目的变化已被用作分子标记,以检测高水平的多态性,甚至用于单个种的种群中密切相关的个体之间的多态性。小卫星位点的突变率据估计高达每次减数分裂2×103。VNTR被广泛地用于法医调查中。AFLP(扩增片段长度多态性):
AFLP是基于来自基因组DNA的完全消化的,连有引物的限制片段的选择性PCR扩增。它只需要少量的基因组DNA,不需要预知的序列信息,并具有从大量的限制片段扩增序列的能力。它提供遗传起源的高度多态性并给出重复的结果。
在上述这些方法中的任何一种中,在杂交或PCR反应和电泳之后,通过各种方法包括放射性自显影法、溴化乙啶染色法、银染色法、和荧光检测法来获得数据。片段大小通过在样品侧旁电泳或与样品混合的DNA大小标准来计算或估计。通常的结果包括以不同的强度或峰所做出的不同大小的DNA片段带型的检测或成像,称为DNA“指纹”。任何DNA指纹的独特性取决于许多因素,主要是源DNA和探针或引物组合,但是也取决于反应条件。当反应条件被标准化时,DNA指纹对于源DNA和探针或引物组合成为专一性的。
技术上的进步极大地提高了产生原始DNA标记数据的速度。相比之下,数据的采集和分析却发展不大,并且是限制DNA指纹技术潜力的完全发挥的主要妨碍。对原始数据的手工解译是繁琐、费时且主观性的,而且即使在同一个实验室中来自不同批次的结果也难于比较。因此,几乎不可能在不同的实验室之间交换和比较定量结果。因而,本领域中需要有一种用来表述DNA指纹数据的简单、标准化的格式,它将极大地促进整个领域的发展。
                  发明概述
本发明提供一种解决如上所述的已有技术缺陷的方法。
特别是,本发明提供一种获得DNA指纹分布图数据的方法,包括以下步骤:测量基因组DNA样品中各个DNA片段的峰强度和大小,根据预定的离散(discrete)强度水平将所述片段分组,排列所述片段成离散大小的仓(bin)中相应的仓,按照通过所述经过排列的大小而确定的顺序,将所述片段的已分组的峰强度输入到数据纪录中,并储存纪录。
根据本发明的另一方面,提供一种计算机程序产品,包括计算机可读的介质,其具有记录其上的为获取DNA指纹分布图数据的计算机可执行的编码,所述计算机可执行的编码包括用于测量基因组DNA样品中各个DNA片段的峰强度和大小的编码模块;用于将所述片段根据预先确定的离散强度水平尺度分组的编码模块;用于将所述片段的大小排列成离散大小的仓中相应的仓的编码模块;用于按照由所述经过排列的大小而确定的顺序,将所述片段的已分组的峰强度输入到数据纪录中的编码模块;以及用于在计算机可读的存储介质中储存纪录的编码模块。
                附图的简要描述
本发明参照附图进行详细的描述,其中:
图1为根据本发明的一个优选的实施方案处理DNA标记数据的方法的流程图;
图2为根据本发明的一个实施方案表述的检测到的DNA片段的峰强度格式的表格;
图3A和3B为解释本发明的装仓DNA片段的方法的图;
图4为本发明的装仓DNA片段的方法的流程图。
图5为本发明的DNA指纹的扩增型标识记录的实例。
图6A和6B是为根据本发明获得的标识记录对DNA指纹进行评分提供数值的表格。
图7为根据本发明的一个优选的实施方案的评分方法的流程图。
             优选实施方案的详细描述
参照图1,描述了本发明的一个优选的DNA标记数据分析的方法。本发明的分析优选地利用执行下文详细描述的本发明的功能的软件包,在计算机上进行(如个人计算机、小型机、大型机、工作站、服务器,等等)。
在步骤100中,解析DNA样品的标记的DNA片段,如通过对样品进行凝胶电泳而解析,所述DNA样品为了得到DNA标记,已经过上述方法中的任何一种处理。例如,利用AFLP技术,获得许多包括DNA指纹的、PCR产生的小分子片段(通常在50-500碱基对的范围内)。取决于使用放射性同位素标记的引物还是使用荧光标记的引物,进行不同的解析过程。对于放射性同位素标记的引物,将样品在凝胶上电泳并将凝胶对X射线胶片曝光数天。曝光的胶片然后手工解译。
对于荧光标记的引物,将样品在凝胶上电泳并通过荧光传感器(如CCD相机等等)实时检测荧光发射信号。将信号数字化并输入主机以处理。结果以表格形式提供。因而,使用荧光标记的引物比放射性同位素标记的引物快得多并且提供更重复的结果。适用于获得DNA标记数据的自动测序仪的一个实例是商品化的ABI377测序仪。适合的DNA测序仪可以从许多不同的制造商购买。
在步骤102中,对各个片段的峰强度和该片段的大小(以bps或碱基对长度给出)进行测量(如通过连接于主处理器或者计算机的荧光传感器)。在步骤104中,获得的测量值存贮在记忆存储介质(如固态存储器、硬盘驱动器、磁带驱动器,等等)中。
原始峰数据可以通过对运行DNA测序仪的软件输入适当的指令而得到。例如,与ABI337相连的软件中“Export Lane-to-Raw”指令,向存储器输出原始的泳道文本文件,它含有总结于多栏式表格中的峰数据,如下所示。
 G,1   35.29   51.49  151  544  683
 G,2   35.65   53.22  296  2046  690
 G,3   36.12   55.44  299  1834  699
 G,4   36.32   56.42  378  1529  703
 G,5   36.73   58.38  765  6140  711
 G,6   37.35   61.31  156  963  723
 G,7   37.72   63.01  171  979  730
 G,8   38.03   64.46  514  2982  736
六个栏分别表示峰、时间、大小、高度(强度)、面积和得分。本发明只利用大小(即,片段的碱基对数目)和高度(即,强度)。
在步骤106中,将储存的片段的峰强度归整(normalize)。在这一点上,强度可以通过平均振幅被归整,其中整数表示波形整个大小范围内峰的平均高度。
在步骤108中,将归整的峰强度分组或转化成五个离散峰水平中的一个,如图2所示。图2中所示的经验范围是经过实验调节而选取的,并且本发明人发现它能够在获得一致、重复的标识方面非常适用。根据本发明的一个优选的实施方案,基于五个离散水平将峰分组。这允许使用已有的核苷酸序列分析软件。但是,在不偏离本发明的实质的前提下,峰强度可以分组为任何数目的合适的水平。
选用字符集“ABCD.”来表示峰水平。该字符集与通常所用的表示DNA序列的“ATCGN”字母的一一对应,使大量市场中已有的序列比较软件能够适应本发明的DNA指纹标识数据。尤其是,这种适应性包括简单地调节软件程序的权矩阵,从而将序列作为DNA标记峰数据而不是DNA序列数据正确地分析。
接着,在步骤110中,将储存的DNA标记数据分组成离散大小(即,长度)的仓。理论上,AFLP凝胶电泳仅在整数大小(即,碱基对长度)记录峰,因为DNA片段仅由多个相连的碱基对组成。但是,由于不同的碱基类型在大小上略有不同,所以峰经常被检测为分数长度的大小。为了形成本发明的扩增型DNA标记标识,检测的峰必须和碱基对位置相关,因此需要调整实验数据,使之成为离散的大小或“仓”,每个离散的大小或“仓”表示从DNA片段起点开始的碱基位置。
通常的装仓方法是通过在同一电泳中并排排列泳道形成整个凝胶电泳梯,从而达到各个泳道的误差的平均数,并获得一系列在梯子中清楚一致的梯线,各个峰被装仓到该梯线内。但是,该方法在能够进行装仓之前,需要采集同一凝胶电泳中所有泳道的数据。这种采集依赖性表现出与本发明的一致性和重复性要求无法接受的背离,因而本发明使用了不同的方法,它允许将来自单个泳道的峰精确且无偏差地装仓,而不需对电泳中所有的其他泳道的参考。因此2-3kb的原始泳道文件可以和产生的本发明的DNA标记标识文件一起存贮,使得这些标识能够运用后来发展的算法重新计算。
因为发现在将真值峰序列装仓方面,简单的数字四舍五入并不能产生满意的结果,本发明利用了基于从物理学借来的“弹簧”和“皮筋”能量的概念的装仓算法。例如,如图3A所示,对实验获得的大小为67.3、68.5、69.4、70.2和71.9的片段序列,简单四舍五入将该序列装仓为67,69,69,70和72,这明显有问题,因为两个峰(68.5和69.4)被装仓入同一位置,尽管它们几乎相隔一个位置。
为了达到更好的吻合,本发明考虑了峰之间的相对距离以及它们的实际位置。基于弹簧和皮筋的物理学模型,这两方面的考虑可以在数学上结合成为单势能函数。
如果可压缩的弹簧的一端固定而另一端移动位移x,弹簧施加作用与位移方向相反方向的力,表示为F=-kx,其中k是弹簧常量,负号表示力是与位移x方向相反的。对该力函数积分给出弹簧的势能,表示为1/2kx2,这表明势能与位移平方成正比。
弹簧与皮筋的主要不同在于皮筋只能被拉伸(伸长),而不能像弹簧那样被压回(压缩)。在函数上,这表明皮筋相当于零长度的弹簧。
将弹簧一皮筋模型应用于峰装仓问题,假设,如图3A所示,弹簧保持着两个相邻峰之间的距离,而皮筋将真值峰拉向整数大小的点。该模型的推论是,装仓应定位在相近的一簇连续的峰之内,从而使得序列片段作为整体一起移动(并且因而尽可能地保持它们的形状),并且反映出这样的事实,即峰之间相隔越远它们之间的相对距离变化越不重要。因此,根据本发明的装仓方法的优选的实施方案,如图4所示,在步骤1101中,片段序列分组为较小的片段序列簇,由相隔不超过2.5个位点的相邻峰组成。为装仓目的而优化的表示弹簧和皮筋能量的公式如图4的步骤1102所示通过实验确定,其中Er为皮筋的能量,Es是弹簧的能量,E是作用于峰的弹簧和皮筋的力的联合势能。在该公式中,x是峰的位移,而kr和ks是比例常数。由于在Ks/Kr=3时,系统运行最佳,所以kr可以设作1而ks可以设作3,这样,E=xr 3+3xs 2
在步骤1103中,位移xs和xr以有系统的方式变化,以获得最低的联合势能E,因而获得与离散的仓的大小的最佳吻合。一旦得到了最低或最小势能E,就根据步骤1104中所给出的位移将峰装仓。例如,如图3B所示,第一个“弹簧”被从1.2单位压缩到1单位,而第二个“弹簧”被从0.9单位拉伸到1单位(与图3A中所示的四舍五入的结果相比较,其中第一个弹簧被从1.2单位拉伸到2单位,而第二个弹簧被从0.9单位压缩到0单位)。类似地,第二个和第三个“皮筋”分别有0.5单位和0.4单位的位移,如图3A所示。
当归整的峰被分组并且被装仓为离散的大小后,在步骤112(图1)中,DNA标记标识数据被格式化为如图5所示的标准化的数据条目记录。该记录具有三个清楚的部分或字段:第一个字段是独特的登录编号,其功能是作为特定样品的标识符。该登录编号含有属于源DNA、DNA标记的产生技术的类型,以及探针ID或引物组合的信息。例如,如图5所示,501表示两个字母的生物类型(OR)和四个字母的字母数字混编的生物ID,(D011)在该例子中表示兰花栽培品种。参考数字502表示1个字母的DNA标记技术,诸如“A”表示AFLP,“R”表示RFLP,“D”表示RAPD,“S”表示SSR,以及“V”表示VNTR(在该实例中,利用AFLP产生标记)。数字503是1个或2个引物对编号或探针编号,其形式是一个字母后面跟有一个数字。在引物组合的情况中,一个字母编号表示3’方向的引物,而一个数字编号表示5’方向的引物。在该实例中,“B1”表示用于AFLP选择性扩增的预先确定的引物组合。
本发明的指纹标识的第二个字段由其它信息组成,诸如单位大小(间隔),起始和结束位置,以及对该序列的描述。因而,数字504表示该序列的间隔为1bp,数字505表示指纹的起始大小为50,数字506表示该结束大小为101,而数字507和508表示D.sonia的AFLP分布图。该标识的第一行,含有第一个和第二个字段,起始于一个诸如右大括号(})的符号;所有后续的不以“}”起始的各行被翻译做标识序列。因此,图5中标识序列509给出了以离散水平A,B,C,D和“.”的方式表示的,从50bp到101bp的各个片段的峰的数值。然后在步骤114中,将本发明的这样形成的数据记录存储到合适的数据存储介质上,诸如固态存储器、磁性或光学记录介质、软盘、硬盘等等。
这种新格式的诸多优点是,这种格式的即时信息性能,提供关于峰位置和其相对强度的信息;不同样品的结果经校准因而易于对比;不同实验室之间的结果交换容易并且直接(允许简单的文本格式);指纹可以容易地输入数据库或者从数据库检索;并且有可能进行大规模的数据分析。可以对上千或者更多的指纹进行比较和分析,并且可以通过利用计算机,省去大量的手工分析的工时,找出与某种表型相联的标记。
为了充分利用这种新的数据标记格式的优点,标识必须允许一定程度的比较以区分相似的种和无关的种。使用一种评分系统,它采用在BLASR序列比较中所用的奖-罚概念,其中,每个匹配的字符奖励正分,而对每个错配则作为处罚给与负分。
图6A说明本发明的峰的奖励尺度,图6B说明本发明的峰的处罚尺度。由其强度来确定匹配的奖分。如果在某一位点二者都具有正峰,那么两个序列在该位点上就是所说的匹配。如果强度不同(即,“A”与“C”相匹配),那么用较低的峰来获得分值。另外,对于每个存在于一个序列上但不存在(即,零)于另一个序列上的峰,就根据缺失的峰的强度的分值,将处罚从总分值中扣除。
因此,AB..C.D对AB..C.D的评分给出的总分为22分(10+6+4+2),而CB..A.D对CB....D的评分中,由于A的缺失而引起-4分的处罚,给出总分为8分(4+6-4+2)。
图7说明本发明的一个实施方案中的评分方法。首先,在步骤701中,两个标识字符串相互比较,寻找精确的匹配。评分在一个预定的窗口内进行,即,在预定的大小范围内进行(例如从第50位至第350位)。如果二序列中的任何一个落到窗口的边界之外,那么该窗口就被缩小到仅包括两个序列都具有分值的范围。
找到精确匹配的峰后,在步骤702中,在字符串中匹配的字符就以哑符代替,以防在利用经修改的搜索参数进行的其它搜索时(如下文所述),峰被多次匹配。所有的精确匹配的峰都被找到之后,在步骤703中,在其余的峰中进行搜索,在紧邻所考虑的峰的位置,寻找具有相同的强度的峰。这一步补偿可能的错排序列,这种错排序列的字符串具相匹配的峰强度但是相互间偏差了一个位置,例如,“AB.CD”与“.AB.CD”之间。如果发现相匹配的峰偏离了一个位置,那么奖励分值是图6A中所示分值的一半。因此,“AB.CD”对“.AB.CD”的评分,考虑到一个位置的偏差,将获得11分(5+3+2+1),而将该字符串解释为在第2位和第5位具有不同的正强度、在第1位和第6位具有不匹配的峰、并且第4位的C峰偏离为第3位的B峰,最后得出的分数将降低为5分(-4+6+2+2-1)。在步骤702中,匹配的峰再由哑符代替,处理前进至步骤704,在该步骤中进行同一位置上不同强度的峰的搜索,并且然后在步骤705中进行相邻位置上不同强度的峰的搜索。由于所有匹配对从进行比较的两个字符串中被逐步地去除,在步骤705之后余下的峰则代表了错配的峰,将被用作处罚评分。在步骤706中,将所有先前匹配的奖分相加,并且在步骤707中,加入所有错配的(负数)罚分,从而得出最终的分值。
记入负分是因为考虑到带有错配峰的序列比没有峰的序列更具差别。但是,负分的使用使得最终的分值在某种程度上依赖于评分窗口的宽度,因为序列越长,产生高总分的可能性就越大。
因为如此,引入第二个评分结果,它以最大为100%的百分比数值来表示。在所定的评分窗口内,序列B对序列A的百分比得分被定义为B对A的得分与在确定的范围内对A的最大可能的得分(如果两个相同的A序列相互比较就会得出)之间的比值。
当得分是对称函数,即,得分(A,B)=得分(B,A)时,百分比是不对称函数,即,百分比(A,B)=100%×得分(A,B)/(A,A)。这附加的百分比度量因此有助于表示两个序列在给定的窗口内的匹配程度如何。例如,考虑“AB.CC.”与“AB.CD.”之间的得分(得分=22),与其它序列在更宽的窗口内获得同样的得分相比,如“ACD.A.CAB.CDC”与“.AB.C..BACD.C”之间(得分=22),前一对序列比后一对显然更为匹配,这一事实反映在百分比得分中,即,各对中的第二个序列对各队中的第一个序列进行的评分(百分比=93%对39%)。
如上对本发明进行了描述,对于本领域的普通技术人员来说,可以在不背离本发明的实质的前提下以多种不同的方式进行变化是显然的。所有这样的修改都试图被包含在所附的权利要求书中。

Claims (17)

1.一种获得DNA指纹分布图数据的方法,其包括的步骤有:
测量基因组DNA样品中各个DNA片段的峰强度和大小;
将所述片段的峰强度根据预定的离散强度水平尺度分组;
将所述片段的大小排列为离散大小的仓中相应的仓;
按照由所述经排列的大小确定的顺序,将所述片段的经分组的峰强度输入数据记录中;以及
储存该记录。
2.如权利要求1所述的方法,其中所述样品通过ALFP获得。
3.如权利要求1所述的方法,其中所述样品通过RLFP获得。
4.如权利要求1所述的方法,其中所述样品通过SSR PCR获得。
5.如权利要求1所述的方法,其中所述样品通过VNTR PCR获得。
6.如权利要求1所述的方法,另外包括在将所述片段的峰强度根据所述离散强度水平尺度分组之前,将测量的所述片段峰强度归整的步骤。
7.如权利要求6所述的方法,其中所述离散强度水平尺度包括至少五个离散峰水平。
8.如权利要求1所述的方法,其中排列的步骤包括以下步骤:
将所述片段的片段序列分组成簇,其中各个簇内相邻的峰相隔小于或等于预定数目的离散的位置;
对各个簇赋予势能值,所述势能值与簇内相邻峰之间的间距成正比,并且与将峰装仓为离散大小的仓而需要的位移的量成正比;
改变所述峰的位移而使得所述势能值最小化;以及
根据获得最小化的势能值的位移值,将所述峰排列为离散大小的仓。
9.如权利要求1所述的方法,其中所述输入步骤包括创建数据记录,该数据记录具有:
含有下列内容的信息段:
基因组DNA来源的标识,
从所述来源产生DNA片段的方法,
连续片段间的间距,
所述片段的起始大小,以及
所述片段的终止大小;以及
含有所述经分组的峰强度的序列的序列段。
10.如权利要求9所述的方法,另外包括对两个数据记录间的比较进行评分的步骤,包括以下步骤:基于所述峰强度的相对值,对匹配的峰强度赋予奖分和对错配的峰强度罚分,为了搜索在相应的大小位置的相同匹配而比较所述两个数据记录,为了搜索在相邻的大小位置的相同匹配而比较所述两个数据记录,为了搜索在相应的大小位置的不相同的匹配而比较所述两个数据记录,为了搜索在相邻的大小位置的不相同的匹配而比较所述两个数据记录,并根据所找出的匹配与余下的错配,合计所述奖分和罚分,从而获得得分。
11.如权利要求10所述的方法,另外包括通过获得所述得分对两个数据记录中的一个对其自身匹配而得出的分值之间的比率,从而获得两个被比较的数据记录的百分比度量的步骤。
12.一种计算机程序产品,包括:
计算机可读的介质,具有记录其上的为获取DNA指纹分布图数据的计算机可执行的编码,所述计算机可执行的编码包括:
测量基因组DNA样品中各个DNA片段的峰强度和大小的方法;
根据预定的不连续强度水平尺度将所述片段的峰强度分组的方法;
将所述片段的大小排列为离散大小的仓中相应的仓的方法;
按照由所述经排列的大小确定的顺序,将所述片段的经分组的峰强度输入数据记录中的方法;以及
在计算机可读性存贮介质上储存记录的方法。
13.如权利要求12所述的计算机程序产品,另外包括:
在根据所述的不连续强度水平尺度将所述峰强度分组之前,将所述片段的测定的峰强度进行归整的方法。
14.如权利要求13所述的计算机程序产品,其中所述不连续强度水平尺度包括至少五个不连续强度水平。
15.如权利要求12所述的计算机程序产品,其中所述排列方法包括:
将所述片段的片段序列分组成簇的方法,其中各个簇内相邻的峰相隔小于或等于预定数目的离散的位置;
对各个簇赋予势能值的方法,所述势能值与该簇内相邻峰之间的间距成正比,并且与将峰装仓入离散大小的仓而需要的位移的量成正比;
改变所述峰的位移而使得所述势能值最小化的方法;以及
根据获得最小化的势能值的位移值,将所述峰排列为离散大小的仓的方法。
16.如权利要求12所述的计算机程序产品,其中所述输入方法包括创建数据记录的方法,所述创建数据记录的方法具有:
含有下列内容的信息段:
基因组DNA来源的标识,
从所述来源产生DNA片段的方法,
连续片段间的间距,
所述片段的起始大小,以及
所述片段的终止大小;以及
含有所述经分组的峰强度的序列的序列段。
17.一种储存在计算机可读性存储介质上的DNA指纹数据记录,所述DNA指纹数据记录包括从基因组DNA来源获得的DNA样品产生的DNA片段的大小和峰强度,所述数据记录包括:
含有下列内容的信息段:
基因组DNA来源的标识,
从所述来源产生DNA片段的方法,
连续片段间的间距,
所述片段的起始大小,以及
所述片段的终止大小;以及
含有所述经分组的峰强度的序列的序列段。
CNB998123870A 1999-08-21 1999-08-21 Dna标记分布图数据分析 Expired - Fee Related CN1244880C (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SG1999/000087 WO2001015057A1 (en) 1999-08-21 1999-08-21 Dna marker profile data analysis

Publications (2)

Publication Number Publication Date
CN1324467A true CN1324467A (zh) 2001-11-28
CN1244880C CN1244880C (zh) 2006-03-08

Family

ID=20430234

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998123870A Expired - Fee Related CN1244880C (zh) 1999-08-21 1999-08-21 Dna标记分布图数据分析

Country Status (6)

Country Link
EP (1) EP1131765B1 (zh)
CN (1) CN1244880C (zh)
AT (1) ATE352819T1 (zh)
AU (1) AU780824B2 (zh)
DE (1) DE69935004D1 (zh)
WO (1) WO2001015057A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315922A (zh) * 2017-08-07 2017-11-03 杭州祥音生物医药科技有限公司 计算基因型对表型额外贡献的方法及装置
CN110541047A (zh) * 2019-10-11 2019-12-06 甘肃省农业科学院生物技术研究所 利用ssr指纹图谱鉴别正品当归的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7463407B2 (en) * 2002-06-13 2008-12-09 Koninklijke Philips Electronics N.V. Electro-optically active device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5098536A (en) * 1991-02-01 1992-03-24 Beckman Instruments, Inc. Method of improving signal-to-noise in electropherogram
AU2253397A (en) * 1996-01-23 1997-08-20 Affymetrix, Inc. Nucleic acid analysis techniques
US5754524A (en) * 1996-08-30 1998-05-19 Wark; Barry J. Computerized method and system for analysis of an electrophoresis gel test
EP0984978A4 (en) * 1997-03-14 2002-01-09 Transgenomic Inc TAPE PATTERN DISPLAY OF POLYNUCLEOTIS SEPARATIONS

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315922A (zh) * 2017-08-07 2017-11-03 杭州祥音生物医药科技有限公司 计算基因型对表型额外贡献的方法及装置
CN107315922B (zh) * 2017-08-07 2020-06-23 杭州祥音医学检验实验室有限公司 计算基因型对表型额外贡献的方法及装置
CN110541047A (zh) * 2019-10-11 2019-12-06 甘肃省农业科学院生物技术研究所 利用ssr指纹图谱鉴别正品当归的方法
CN110541047B (zh) * 2019-10-11 2022-09-20 甘肃省农业科学院生物技术研究所 利用ssr指纹图谱鉴别正品当归的方法

Also Published As

Publication number Publication date
EP1131765A1 (en) 2001-09-12
AU5895899A (en) 2001-03-19
AU780824B2 (en) 2005-04-21
ATE352819T1 (de) 2007-02-15
DE69935004D1 (de) 2007-03-15
EP1131765B1 (en) 2007-01-24
CN1244880C (zh) 2006-03-08
WO2001015057A1 (en) 2001-03-01

Similar Documents

Publication Publication Date Title
US11091813B2 (en) Multitag sequencing ecogenomics analysis
EP3622524A1 (en) Variant classifier based on deep neural networks
WO2019200338A1 (en) Variant classifier based on deep neural networks
CN107292123A (zh) 一种基于高通量测序的微生物群落组成的方法和装置
CN101748213A (zh) 一种环境微生物检测方法和系统
US11475980B2 (en) Methods of analyzing massively parallel sequencing data
CN1244880C (zh) Dna标记分布图数据分析
CN115101126B (zh) 基于ce平台的呼吸道病毒和/或细菌亚型引物设计方法及系统
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
CN106555008A (zh) 一种微生物的检测识别方法和系统
JP4317398B2 (ja) 核酸塩基配列情報の記録方法及び核酸塩基配列決定方法
Mesa Rhizosphere and Endosphere Bacterial Communities Survey by Metagenomics Approach
CN113284552B (zh) 一种微单倍型的筛选方法及装置
EP4307307A2 (en) Methods of analyzing massively parallel sequencing data
CN115044704A (zh) 一种人冠状病毒HCoV-229E的MNP标记位点、引物组合物、试剂盒及其应用
CN114277165A (zh) 一种鼠疫杆菌的mnp标记组合、引物对组合、试剂盒及其应用
DeWitte LOTUS: A Web-Based Computational Tool for the Preliminary Investigation of a Novel MST Method Utilizing a Library of 16s rRNA Bacteroides OTUs
US20080108510A1 (en) Method for estimating error from a small number of expression samples
CN114277185A (zh) 一种腺病毒的mnp标记组合、引物对组合、试剂盒及其应用
CN114836550A (zh) 一种肺炎克雷伯菌的mnp标记位点、引物组合物、试剂盒及其应用
CN118116459A (zh) 基于模糊查找与精确匹配相结合的二代测序数据分析装置、方法及计算机可读存储介质
CN114277162A (zh) 一种结核分枝杆菌的mnp标记组合、引物对组合、试剂盒及其应用
CN114790489A (zh) 一种流感嗜血杆菌的mnp标记位点、引物组合物、试剂盒及其应用
CN110066862A (zh) 一种基于高通量测序读数的重复dna序列识别方法
CN112466400A (zh) 一种铁皮石斛产地的鉴别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SINGAPORE SCIENCE, TECHNOLOGY AND RESEARCH

Free format text: FORMER OWNER: INST. OF MOLECULAR AGROBIOLOGY

Effective date: 20060512

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20060512

Address after: Singapore Singapore

Patentee after: Agency for Science, Technology and Research

Address before: Singapore Singapore

Patentee before: Institute of Molecular Agrobiology

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee