CN1685335A

CN1685335A - 用于导出个体的基因组的方法和设备

Info

Publication number: CN1685335A
Application number: CNA028297385A
Authority: CN
Inventors: 巴里·罗宾森; 理查德·穆施林
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-10-11
Filing date: 2002-12-24
Publication date: 2005-10-19
Also published as: TWI229807B; CA2498609A1; TW200405972A; AU2002361874A1; WO2004034277A1; JP2006502499A; JP4288237B2; EP1550052A1; KR20050057320A; US20080125978A1; KR100872256B1; EP1550052A4

Abstract

提供了一种用于导出个体的基因组的基于计算机的方法。该方法包括访问个体的选择器和组基因组的参考模板的步骤，所述选择器包括基因座值和基准值；处理选择器和参考模板以导出代表个体的基因组的序列。优选情况下，参考模板包括代表基准值的出现概率的数据分量。出现概率基于基准值在组基因组中的对应的基因座值的出现次数。本发明的方法进一步包括根据参考模板中的数据分量计算基准值，作为不在选择器中的基准值。

Description

用于导出个体的基因组的方法和设备

技术领域

本发明涉及数据的电子传输，具体来说，涉及用于表达个体的基因组的基于计算机的方法。

背景技术

给人类基因组进行排序及在生物信息学领域取得的其他新发展说明，将来的医学将利用基因组数据。例如，研究人员和卫生保健提供商预期能够基于药物的与病人的基因序列的蛋白质代码绑定的能力来设计药物或筛选各种各样的药物。此外，已经广泛地使用因特网来获取医学信息。医学数据是最频繁地通过因特网进行检索的信息之一。到2005年为止，大约有十亿个人在因特网上，这为如何有效地传输如此大量的基因组数据提出了新的挑战。计算机和因特网越来越频繁地被用来进行基因组序列的数据挖掘。这种涉及基因组数据的越来越大的传输量，将需要更加有效的方式来转发基因组信息及其他相关的信息。

由于存在大量的数据，传输个体的基因组数据是困难的。以电子方式传输基因组数据的传统方法非常慢，并且比较容易出错，还容易被未经授权地访问。在个体的基因组数据的传输过程发生错误具有非常可怕的后果，特别是在用于医疗的情况下。如此，需要一种有效而准确的基因组传输的方法。

发明内容

本发明通过提供个体的基因组的改进的表达方式来提供对上文所概述的需求及其他需求的解决方案。

这里说明了一种用于导出个体的基因组的方法。该方法包括访问个体的选择器和组基因组的参考模板的步骤，所述选择器包括基因座值和基准值；处理选择器和参考模板以导出代表个体的基因组的序列。

优选情况下，参考模板包括代表基准值的出现概率的数据分量。出现概率基于基准值在组基因组中的对应的基因座值的出现次数。本发明的方法进一步包括根据参考模板中的数据分量计算基准值作为不在选择器中的基准值的步骤。

通过参考下面的详细描述并参考附图，将对本发明，以及本发明的进一步的功能和优点有一个比较完整的理解。

附图说明

图1显示了典型的基因组信息系统(GMS)；

图2是GMS的典型的硬件实现方式的方框图；

图3是显示导出个体的基因组的总体方法的流程图；

图4是显示选择器的处理的流程图；

图5是显示参考模板的处理的流程图；以及

图6是显示根据参考模板计算基准值的流程图。

具体实施方式

下面将在说明性的基因组信息系统(GMS)的上下文中说明本发明。在说明性实施例中，本发明涉及DNA序列数据的表达。然而，应该理解，本发明不仅限于这样的特定的应用方式，也可以应用于涉及包括RNA序列的基因组的其他数据。

GMS涉及临床生物信息学的新兴领域的软件，即，专门研究病人的特定遗传成分的临床基因组信息技术(IT)以及其与健康和疾病状态的关系。临床生物信息学与常规生物信息学的不同之处在于，临床生物信息学涉及单个病人的基因组和临床记录，以及集体病人的基因组和临床记录。如此，不仅医学研究应用领域可以受益于本发明，而且保健IT应用领域，如在电子健康领域的应用也可以受益于本发明。

基因组和生物信息学的临床应用要求对病人的隐私作出特殊考虑(参见George J.Annas所著的发表于“The Nation′s Health”第6版的“A National Bill of Patients′Rights”，编辑P.R.Lee & C.L.Estes，Jones and Bartlett Publishers，Inc.，2001出版)，以及对病人的安全和病人和医生的理性决断的制作作出特殊考虑。最近引入了联邦健康保险移植和责任法案(HIPPA)，以实施在线医学数据的保密。HIPPA针对病人基因组数据的传输、存储或操纵。

由于本发明的系统可以涉及各种各样的医疗护理方案，包括紧急医疗护理，因此它被设计为最低限度地依赖其他系统。消息网络可以包括膝上型计算机或其他便携式设备之间的直接通信，没有服务器，甚至包括软盘作为数据传送装置的交换形式。在万一所有其他接口都失败的情况下，可以内置和使用用于读取传输的自然文本表示的基本工具。

本发明的另一个优点是，它可以符合由Health Level Seven组织(HL7)建议的临床信息技术标准。HL7是提供支持临床病人监护和保健服务的数据的交换、管理和集成的标准的非赢利性的ANSI-授权的标准开发组织。例如，HL7建议了临床文档体系结构(CDA)，这是XML对于医学应用领域的具体实现方式。虽然HL7是著名的标准团体，但是，这些标准的各个方面仍处于流动的状态中。例如，即使有，来自HL7的有关基因组信息的建议标准也比较少。

图1显示了典型的GMS 100的方框图。说明性系统100包括基因组消息模块110、接收模块120、基因组序列数据库130，可选地，还可以包括临床信息数据库140。基因组消息模块110从基因组序列数据库130接收输入序列，可选地，还可以从临床信息数据库140接收临床数据。基因组消息模块110将输入数据打包，以构成输出数据流150，该数据流被传输到接收模块120。

图2是根据本发明的一个实施例的用于导出个体的基因组的系统200的方框图。系统200包括与介质250进行交互的计算机系统210。计算机系统210包括处理器220、网络接口225、存储器230、介质接口235和可选的显示器240。网络接口225可使计算机系统210连接到网络，而介质接口235可使计算机系统210与诸如数字通用光盘(DVD)或硬盘驱动器之类的介质250进行交互。

从当前技术已知，这里所讨论的方法和设备可以作为一种产品来分发，该产品本身包括具有在其上包括了计算机可读的代码装置的计算机可读的介质。计算机可读的程序代码装置可以与诸如计算机系统210之类的计算机系统结合起来进行操作，以执行所有或某些步骤，以便实现这里所讨论的方法或创建这里所讨论的设备。计算机可读的代码被配置为访问个体的选择器和组基因组的参考模板，所述选择器包括基因座值和基准值；处理选择器和参考模板以导出代表个体的基因组的序列。计算机可读的介质可以是可记录的介质(例如，软盘、硬盘驱动器、诸如DVD之类的光盘或存储卡)，也可以是传输介质(例如，包括光纤、万维网、电缆或使用时分多址、码分多址或其他射频信道的无线信道)。可以使用可以存储适合与计算机系统一起使用的信息的已知或开发的任何介质。计算机可读的代码装置是可使计算机读取指令和诸如磁性介质上的磁性变化或光盘的表面上的高度变化之类的数据的任何机制。

存储器230配置处理器220以实现这里所说明的方法、步骤和功能。存储器230可以是分布式的，也可以是本地的，处理器220可以是分布式的，也可以是单一的。存储器230可以作为电的、磁性的或光存储器来实现，或作为这些或其他类型的存储设备的任何组合来实现。此外，术语“存储器”应该从足够广泛的意义上来解释，以包含能够从被处理器220访问的可寻址空间中的地址读取或写入该地址中的任何信息。根据此定义，可通过网络接口225访问的网络上的信息仍在存储器230的范围内，因为处理器220可以从网络中检索信息。应该注意，构成处理器220的每一个分布式处理器通常都包含其自己的可寻址存储空间。还应注意，某些或所有计算机系统210可以集成到专用的或通用集成电路中。

可选视频显示器240是适于与系统200的人类用户进行交互的任何类型的视频显示器。一般而言，视频显示器240是计算机监视器或其他类似的视频显示器。

可以理解，在其他实施例中，本发明可以以基于网络的实现方式来实现，如，因特网。网络可以是私用网络和/或本地网络。可以理解，服务器可以包括一个以上的计算机系统。即，图1的一个或多个元件可以驻留在它们自己的计算机系统上并由它们自己的计算机系统用其自己的处理器和存储器来执行。在另一个配置中，本发明的方法可以在个人计算机上执行，并将传输的数据直接通过网络输出到诸如另一台个人计算机之类的接收模块，而无需任何服务器的干预。输出的数据也可以不通过网络来进行传输。例如，输出的数据可以通过简单地将数据下载到软盘上并将数据上传到接收模块上来进行传输。

GMS语言(GMSL)是用于代表临床和基因组数据的非常广泛的分类的新颖的“混合语”，使用GMS可以进行安全而紧凑的传输。数据可以以不同的格式来自各种各样的来源，并可以在很广泛的下游应用领域进行应用。GMSL为基因组数据的注释进行了优化。

GMSL的主要功能包括：

-根据需要保留源临床文档的内容，以及

组合病人DNA序列或片段；

-在存储或传输之前允许专家向DNA和临床数据添加注释；

-允许添加密码和文件保护；

-为病人ID等等的可逆和不可逆的“洗刷”(匿名化)的级别提供工具；

-防止向错误的病人记录添加错误的DNA及其他实验室数据；

-允许在各种级别进行各种形式的压缩和加密，这可以通过应用于最后的文件的标准方法来进行补充；

-由接收者选择最后的信息的描绘方法，包括选择那些内容可以看见；以及

-允许特殊形式的符合XML的“交错”括号对DNA和蛋白质特点进行编码，这与有效的XML标记不同，可以重叠；

GMSL，与许多计算机语言一样，识别两种基本的元素类型：指令(命令)和数据。由于GMS为处理可能非常大的DNA或RNA序列而进行了优化，因此，这些元素的结构被设计得比较紧凑。

一个涉及字节映射原理的命令类别，可使四个基包装到一个单字节中，以提供最压缩的数据流。此功能对于处理不能被注释中断的长DNA序列很有用。紧密的包装持续进行，直到遇到了非DNA字符的特殊的终止序列。此压缩数据可以以主数据流进行传输，或者在解码过程中从单独的文件读取。另一种类型的命令可以用来打开或关闭“括号”，用于将数据分组到一起。这些命令可以用来描绘特定的一段基因组序列，以便进行处理。与只能被“嵌套”的括号或标记不同，例如，{a[b(c)d]e}，GMS括号可以交叉，例如，{a[b(c}d)e]。此功能对于基因组注释很重要，因为令人关心的区域常常是重叠的。它还允许同时以多种方式处理(例如，注释或限定)一个序列的相同部分，或多个序列的重叠部分。

除了这些“混合”命令之外，还有不与基因组序列的任何特定部分关联的命令，以及与基因组数据的许多字节关联的命令。命令代码可以主要是信息性的。例如，一个特殊命令可以表示在该点删除或插入基因组基或这样的基的序列。

当序列在实验上在基因组序列中的某些位置不可靠或在实验上对特定的核苷酸基是A还是G不清楚时，序列可以通过表示一个可靠的片段结束以及随后的片段具有某一不确定级别的命令来中断。如此，GMS内包括了跟踪多个片段的能力，包括引入注释的能力。GMS具有统计片段数目的能力，可选地，还可以在XML输出中将它们分离，并对它们进行注释。

下面是一个示例命令短语，或一个由一些命令构成的组：

password；[&7aDfx/b{by shaman protect data]；

xml；[<gms：{patient}_dna>\]；index；and protein；

filename[template.gms{by shaman unlock data}]；read in dna

xml；[</gms：{patient}_dna>\]；index；and protein；

这里，命令短语“password；[&7aDfx/b{by shaman protect data]”中的命令“password”允许读取传入的数据流，并只有在(a)接收者已经输入加密为&7aDfx/b的病人ID，(b)此时接收者输入了另一个密码(这里是“shaman”)的情况下，传入的数据流才会有效。数据项“filename；[template.gms{by shaman unlock data}]”允许指定的文件的数据只有在该密码(这里是“shaman”)是最后一个输入的情况下才能被包括到数据流中，从而帮助确保加载了正确的文件，并确保字段没有被截取并错误地被怀敌意的代理继续。另一个请求了不同的密码的密码命令可以跟随在第一个密码请求之后。

一个有价值的DNA注释命令如下：

(迫使标记位于最后的XML输出文件中的43，例如，依据括号级别，<open feature＝″whatever″type＝″43″level＝8/>。该命令用于对XML所不允许的重叠特点进行注释，例如，对DNA和蛋白质特点进行注释(对XML来说，<A><B></B></A>是允许的，<A><B></A></B>是不允许的)。

通用DATA语句对特定的或通用的数据类进行编码，这些数据类包括：

data；[........................./]；

password；[........................./]；

filename；[......................../]；

number；[........................./]；

xml；[........................../]； (XML)

perl；[..........................{end of data}] (在接收时执行的Perl小程序)

hl7；[.............................{end of data}] (HL7消息)

dicom；[.........................{end of data}] (图像)

protein；[........................./]；

squeeze dna；^*............................/] (将DNA压缩到每个字节4个字符。)

诸如“data；/............/”之类的备选的形式也是可以的。终止括号“]”是可选的，实际上是在接收时对数据语句的内容进行奇偶校验的命令。在字段“[...............................”内也可以插入“type”所允许的文本。Type限制当前是比较弱的，但是，在某些类型的数据中将禁止反斜杠，以避免它是内容中的允许的符号这一事实。

在这些DATA字段中可以出现以大括弧(常常被称为“法国括号”)括起来的各式各样的命令，如{xml symbols}、{define data}、{recall data}、{on password unlock data}，或带有被评估并只有在接收时被macro-代入数据中的诸如{locus}之类的变量名。

可以使用基本语言来通过组合构成无数的句子，但是，形成了相对较少的复杂命令。例如，命令

filedata；[{by shaman unlock data}]

number；[15 base pairs\]

squeeze dna

*

AGCTTCAGAGCTGCT\

在下列数据中放置了保护锁，要求提供密码(在此示例为“shaman”)才能进行访问。命令还尽可能地将DNA的15个基对压缩到每个字节四个基对。另一个示例是：

name；[mary\]；xml；[elizabeth{define data}]

xml；[<test>patient{identifier}has informal code name{mary}</test>\]；index

这说明了在写入具体声明的XML(<test>标记和它们的内容)时使用用户定义变量“mary”和系统变量“identifier”(当前病人标识符)。

基因组数据输入文件(.gmd)包含DNA序列和可选的人工注释。DNA序列是基字符串。忽略了空白。注释是使用具有“gms”前缀的XML样式的标记来插入的，但是，文件不是XML文档。

这里所使用的“Cartridges”是可替换的程序模块，它们以各种方式转换输入和输出。在它们对专门技术、自定义和首选项编制脚本的意义上，它们可以被视为小型“专家系统”。所有输入盒最终都产生.gms文件作为最后的和主要的输入步骤。此文件被转换为二进制.gmb文件来进行存储或传输。输入盒包括，旧式转换盒，用于将旧式临床和基因组数据转换为GMS语言。

当.gmi文件是CDA文档时，正如可预料的那样，当从现代临床知识库检索数据时，GMS必须知道如何将以CDA标记所标出的内容转换为所需的规范.gms形式。这是使用GMS“盒”来完成的。在此代表支持自动化的第一种GMS盒应用的情况下，专家可选地修改以CDA格式获得的文件，以包括更多注释和结构。此外，还可以采用上文所描述的模板模式来帮助引导此过程，以便整个修改过的文档仍符合CDA。所产生的具有添加的基因组特点的CDA文档代表了“CDA基因组文档”。现在，这样的CDA文档可以自动转换为GMSL。除了上文所描述的旧式记录转换盒之外，本发明还可以自动添加基因组数据，以便从初始的没有CDA基因组的文件自动产生CDA基因组文档。

例如，基因组数据可以使用CDA<body>结尾处的gms：namespace前缀，在下面使用CDA结构所示的其自己的CDA<section>中合并：

<cda：clinical_document header>

.

.<！--header structures per CDA-->

.

</cda：clinical document_header>

<cda：body>

.

.<！--clinical sections per CDA-->

.

<cda：section>

<cda：caption>

IBM Genomic Messaging System Data

</cda：caption>

<cda：paragraph>

<cda：content>

<cda：local_markup ignore＝markup″>

<！--gms：tags go here-->

</cda：local_markup>

</cda：content>

</cda：paragraph>

</cda：section>

</cda：body>

准确地说，盒子首先查看标记是否已经存在于文档中，在这样的情况下，盒将保留标记。如果标记丢失，则盒子将查找<gms：body或<body标记(不区分大小写)。然而，如果没有body标记，盒子将在文档中的最后一个标记之前插入<gms：body或<body标记(不区分大小写)。在2002年6月28日提出的标题为“GenomicMessaging System”的美国专利申请NO.10/185,657中讨论了有关GMS的详细信息和包括基因组序列的数据的处理，这里对该申请进行了引用。

图3是描述导出个体的基因组的典型方法300的流程图。如图3所示，该方法300包括用于处理选择器的步骤320和用于处理参考模板的步骤330。下面将分别结合图4和5比较详细地讨论每一个步骤。

图4是详细描述处理选择器的步骤320(图3)的流程图。如图4所示，处理选择器包括步骤404以获得选择器。一旦获得了选择器，步骤406包括确定基因座值，而步骤410包括确定基准值。基因座值代表在核苷酸序列中的位置。基准值代表核苷酸基。优选的核苷酸基包括，但不仅限于，嘌呤：腺嘌呤(A)和鸟嘌呤(G)，嘧啶：胞嘧啶(C)和胸腺嘧啶(T)或尿嘧啶(U)(即，RNA中的尿嘧啶)。例如，包括(A，6)的基准值和基因座值的选择器表示在核苷酸序列中的第六个位置，存在核苷酸基腺嘌呤。

根据基准值和基因座值，将适当的基准值放置在代表个体的基因组的序列中，如步骤416所示。代表个体的基因组的序列是通过处理选择器和参考模板导出的核苷酸序列(如下文结合图5所详细描述的)。在上文阐述的示例中，其中，选择器包括基准值和基因座值(A，6)，腺嘌呤将放在代表个体的基因组的序列中的第六个位置。

如步骤414所示，选择器的处理持续进行，直到不再有选择器，如在步骤408中检测到的那样。

在优选实施例中，选择器中包括的基准值和基因座值代表了多形性。多形性可以被定义为在种群中稳定的基因组的可变区域(即，与个体化的随机突变相反，通常在种群中的至少1％的个体中发生)。另外，基准值和基因座值可以代表令人特别关心的基因组的区域。令人关心的典型的区域包括对某些蛋白质或蛋白质组进行编码的基因组的区域。

通过包括代表多形性、令人关心的区域或两者的基准值和基因座值的选择器来代表个体的基因组，可以只允许传输个体的基本基因组数据。然后，传输的数据可以在GMS的接收端与参考模板一致。如此，可以实现基因组数据的更加有效而准确的传输。

然后，处理参考模板。参考模板是代表组基因组的核苷酸序列。术语“组”用于描述任何种群、子种群或个体的组合。优选情况下，组是子种群。在本发明中所使用的合适的子种群可以通过一些参数来进行定义，包括但不仅限于，种族、人种群、部落、氏族、家族和兄弟组。本发明的方法可以用来确定被视为一个组的每一个子种群的典型的核苷酸序列。通过将个体组合为子种群，可以识别出更加通用的基因组特征，如缩氨酸的引导区域和基因的内含子区域，以及更加多形的蛋白质特征，如糖基化。

图5是描述处理参考模板的步骤330(图3)的流程图。如图5所示，参考模板的处理包括步骤504以获取数据分量。如下文所详细描述的，数据分量包括基因座值和基准值或多个基准值。一旦获取了数据分量，则步骤508包括确定基因座值。基因座值是为代表未包括在选择器中的个体的基因组的序列中的位置确定的。如此，在上文所强调的示例中，其中，选择器具有基准值和基因座值(A，6)，腺嘌呤已经放在代表个体的基因组的序列的第六个位置中，因此，不必为第六个核苷酸位置根据参考模板确定基因座值。

一旦在步骤508中根据参考模板确定了基因座值，然后计算基准值，如步骤520所示。下面将结合图6比较详细地讨论此步骤。根据确定的基因座值和计算出的基准值，将适当的基准值放置在代表个体的基因组的序列中，如步骤518所示。如步骤516所示，参考模板的处理继续。一直处理参考模板，直到没有数据分量剩余，即，如在步骤506中检测到的那样。

图6是描述计算基准值的步骤520(图5)的流程图。参考模板中包括的数据分量代表组基因组中的基因座值和基准值。数据分量可以代表单个基准值，如步骤604所示，或多个基准值，如步骤618所示。当数据分量代表单个基准值时，如步骤608所示，那么，将提供计算出的基准值，如步骤610所示，并放在代表个体的基因组的序列中的确定的基因座值中。当数据分量代表多个基准值时，如步骤618所示，则需要判断是否有最大数据分量，如步骤619所示。最大数据分量可以被定义为具有最高值的数据分量。如果没有最大数据分量，那么，将提供如步骤620所示的多个基准值，如步骤610所示，并放在代表个体的基因组的序列中的确定的基因座值中。下面将比较详细地讨论没有最大数据分量的情况。如果存在最大数据分量，则需要确定它，如步骤622所示。如果数据分量既不代表单个基准值，也不代表多个基准值，如在步骤616中那样，那么，数据分量是空值，对于该位置，重复该过程。

当在组基因组中该特定基因座值中代表了多个基准值时，产生了代表多个基准值的数据分量。在这种情况下，数据分量基于腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶在组基因组中的对应的位置的出现次数，代表了特定基准值在该基因座值的出现概率，即，腺嘌呤、胞嘧啶、鸟嘌呤或胸腺嘧啶中的某一个将发生的概率。组基因组中的对应的位置代表存在于包括组基因组的多个序列中的一个单个位置。例如，在下面的参考模板中：

......(40，30，10，20)(20，20，60)(50，10，40)(33，33，34)(90，5，5)......

所显示的每一个括号数值集都代表了特定基准值在组基因组中的该特定位置的出现概率。在紧上面的示例中，出现概率以在对应的位置具有特定基准值的组基因组的百分比来代表。如此，如果第一个括号数值集分别代表腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的出现概率，那么，该组在该位置出现腺嘌呤的概率为40％，出现胞嘧啶的概率为30％，10％为鸟嘌呤，20％为胸腺嘧啶。另外，所显示的四个其余的括号中的值表示四个DNA基值中的某一个不存在于该位置(即，所显示的三个出现概率值总值为100％)。与本发明同时提出的标题为“Method and Apparatus for Deriving a Representative NucleotideSequence for Expressing a Group Genome”(代理机构卷号YOR920010649US1)的美国专利申请NO.＿＿中提供了包括出现概率值的参考模板的详细描述，这里引用了该发明的内容。

要确定最大数据分量，如在步骤622中，则要确定由数据分量代表的最大的出现概率，如步骤624所示。然后，将对应于该最大的出现概率的基准值插入到确定的基因座值中的代表个体的基因组的序列中。

可以使用查询表来判断对应于最高出现概率的基准值，如步骤628和626所示。查询表通过指出出现概率值的位置(即，以带括号的数值集)来指出哪个基准值对应于哪个出现概率。典型的查询表可以如下表所示：

位置	基准值
位置	基准值	1	A
2	C	1	A
2	C	3	G
4	T	3	G

如此，在上面的表中，第一出现概率值代表腺嘌呤，第二出现概率值代表胞嘧啶，第三出现概率值代表鸟嘌呤，第四出现概率值代表胸腺嘧啶。如此，对于上面显示的第一个括号数值集，(40，30，10，20)，使用查询表将显示出：

位置	示例	基准值
位置	示例	基准值	1	40	A
2	30	C	1	40	A
2	30	C	3	10	G
4	20	T	3	10	G

另外，出现概率值可以在整个参考模板中持续地呈现。例如，呈现的第一值始终对应于腺嘌呤的出现概率，第二值始终对应于胞嘧啶的出现概率，第三值始终对应于鸟嘌呤的出现概率，第四值始终对应于胸腺嘧啶的出现概率。

优选情况下，呈现四个可能的基准值中的三个基准值的出现概率值，第四个基准值的出现概率被作为100％出现概率导出，小于其他三个基准值的出现概率的总和。

当在代表未包括在选择器内的个体的基因组的序列中有位置时，会出现其中没有最大数据分量的情况，其中，参考模板包括代表多个基准值的出现概率的数据分量，但是没有最大数据分量(例如，两个或更多基准值具有相同的出现概率)。当参考模板包括数据分量(40，40，10，10)时情况就是这样。在这种情况下，最好将代表多个数据值的数据分量放置到序列中。如此，将表示出序列中的该位置的多个基准值。

示例

下面是典型的选择器和典型的参考模板。参考模板包括基因座值和数据分量。某些数据分量代表单个基准值，而某些数据分量代表多个基准值。选择器包括基准值和基因座值。

基因座→

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	A	G	50，30，10	C	T	0，20，80	A	40，0，0	G	C	0，40，60	C	40，0，60	G	G

单个选择器被表示为：(0，6，)(A，8，)

可以使用下列算法来计算代表个体的基因组的序列：

对于模板中的每一个基因座：

如果此基因座是单基，则将该值复制到同一个基因座中的结果序列中。

如果此基因座中的值是多个值，则在选择器中查找匹配此基因座的(基因座值/基准值)对：

如果找到，则将基准从选择器复制到同一个基因座。

否则，则查找混合物中的最大数据分量，则根据建立的约定(即，查询表)复制多个值中的对应于该值的位置的基准值。例如，查询表是：

位置	基准值
位置	基准值	1	A
2	C	1	A
2	C	3	G
4	T	3	G

代表个体的基因组的序列如下：

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	A	G	A	C	T	C	A	A	G	C	G	C	G	G	G

虽然这里描述了本发明的说明性实施例，但是应该理解，本发明不仅限于这些准确的实施例，在不偏离本发明的范围或精神的情况下，那些精通本技术的人可以进行各种其他更改和修改。提供了下面的示例，以说明本发明的范围和精神。由于这些示例只是为了说明，其中实现的本发明不应该只限于此。

Claims

1.一种用于导出个体的基因组的方法，包括下列步骤：

访问个体的选择器和组基因组的参考模板，所述选择器包括基因座值和基准值；以及

处理选择器和参考模板以导出代表个体的基因组的序列。

2.根据权利要求1所述的方法，其中，基因座值代表在核苷酸序列中的位置。

3.根据权利要求1所述的方法，其中，基准值代表核苷酸基。

4.根据权利要求1所述的方法，其中，选择器包括多个基因座值和多个基准值。

5.根据权利要求1所述的方法，其中，参考模板包括代表基准值的数据分量。

6.根据权利要求5所述的方法，其中，数据分量代表基准值的出现概率。

7.根据权利要求6所述的方法，其中，出现概率基于基准值在组基因组中的对应的基因座值的出现次数。

8.根据权利要求7所述的方法，进一步包括：

从参考模板中的数据分量计算基准值，作为不在选择器中的基准值。

9.根据权利要求8所述的方法，进一步包括下列步骤：

查找最大数据分量。

10.根据权利要求8所述的方法，其中，计算出的基准值包括多个基准值。

11.根据权利要求9所述的方法，其中，最大数据分量代表最大的出现概率。

12.根据权利要求9所述的方法，其中，查找最大数据分量的步骤包括使用混合物表。

13.一种系统，包括：

存储计算机可读的代码的存储器；以及

可操作地连接到存储器的处理器，该处理器被配置为实现计算机可读的代码，所述计算机可读的代码被配置为：

访问组基因组的参考模板和个体的选择器，所述选择器包括基因座值和基准值；以及

处理参考模板和选择器以导出代表个体的基因组的序列。

14.根据权利要求13所述的系统，其中，参考模板包括代表基准值的出现概率的数据分量。

15.根据权利要求14所述的系统，其中，出现概率基于基准值在组基因组中的对应的基因座值的出现次数。

16.根据权利要求14所述的系统，其中，计算机可读的代码进一步被配置为：

17.一种产品，包括：

在其上实现了计算机可读的代码的计算机可读的介质，所述计算机可读的代码包括：

访问组基因组的参考模板和个体的选择器的步骤，所述选择器包括基因座值和基准值；以及

处理参考模板和选择器以导出代表个体的基因组的序列的步骤。

18.根据权利要求17所述的产品，其中，参考模板包括代表基准值的出现概率的数据分量。

19.根据权利要求18所述的产品，其中，出现概率基于基准值在组基因组中的对应的基因座值的出现次数。

20.根据权利要求18所述的产品，其中，计算机可读的代码进一步包括：

从参考模板中的数据分量计算基准值作为不在选择器中的基准值的步骤。