CN102456101A

CN102456101A - 遗传信息管理系统及方法

Info

Publication number: CN102456101A
Application number: CN2011103294323A
Authority: CN
Inventors: 朴旻; 金祐延
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2010-10-22
Filing date: 2011-10-24
Publication date: 2012-05-16
Anticipated expiration: 2031-10-24
Also published as: US20120102041A1; EP2444914A2; JP2012094141A; KR101188886B1; EP2444914A3; JP5175381B2; US9098490B2; KR20120042058A; CN102456101B

Abstract

本发明涉及有效管理庞大的量的读取数据及从读取数据中获得的遗传信息的系统及方法。本发明的遗传信息管理系统，包括：解析部，读取上述数据并转换为表格内置索引形式；表格管理部，将上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理；及检索部，根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。

Description

遗传信息管理系统及方法

技术领域

本发明涉及生物信息(Bioinformatics)技术，尤其涉及有效管理庞大的量的读取数据及从读取数据中获得的遗传信息的系统及方法。

背景技术

最近，生物产业领域的基因组产业领域逐渐得到扩大。最具代表性的是，“Genome Quest”、“Knome”、“Complete Genomics”跨国企业，将称之为下一代测序(Next Generation Sequencing，NGS)DNA测序技术进行商业化并提供服务，而在韩国，最近有“THERA-GEN”等公司也开始提供相同方法的服务。这样的技术具有可用于需要显示通过NGS提取的数据的基因组领域、提供基因组分析服务的生物产业领域、在基因组研究领域中提供数据的基因组研究领域、在诊断及治疗中利用基因组数据的医学领域等各种领域的潜力。

但是，利用通过上述NGS的DNS次序技术所获取的数据，其数量在人类的情况下每个按压达35亿个，因此，为了对所获取的数据的有效分析、检索及显示，数据库构建及数据处理技术(即，遗传信息管理技术)的开发也显得尤为重要。

目前为止所使用的遗传信息管理技术有次序队列/映射(SequenceAlignment/Map，SAM)工具、通用基因组浏览器(Generic Genome Browser，Gbrowse)、整合基因组查看器(Integrative Genomics Viewer，IGV)等。

SAM工具曾发表于2009年的学刊“Bioinformatics”，提供有效保存通过NGS方法计算出的读取数据的方法。上述方法提供SAM和二进制队列/映射(Binary Alignment/Map，BAM)形式的文件格式，而且，还提供在减少整体数据大小的同时，快速提取数据的方案。

SAM文件格式用“”字符表示头，而实际数据用TAB区分并如下表1所示，具有共11个的必要的列。

【表1】

上述SAM格式可转换为作为二进制格式的BAM格式。这是从数据中快速提取信息并节省数据空间的方案。为了实际访问数据，需使用特别开发的SAM工具程序。

另外，世界很多研究机构使用的遗传信息浏览器有GBrowse。GBrowse以mysql数据库为基础，而且，还可进行基于文件的数据管理。但是，不能在数据库中保存/管理读取数据。而且，NGS数据与一般遗传信息不同，因其容量过大，因此，无法直接使用现有方式。因此，2009年为显示NGS数据而做出过努力，而且，作为其结果修改成当前可显示读取数据的形式。

最后，为将遗传信息显示于本地计算机而开发出的浏览器有IGV。这不仅可显示NGS数据，而且，还可一同包括微阵列等实验数据。在NGS数据的情况下，可将SAM或BAM文件形式数据作为输入。用户直接将此工具安装于自己的计算机并获取必要的文件之后，将上述文件利用工具导入(import)驱动的方式。

但是，上述现有技术存在如下几个问题：

第一、在现有技术中使用的数据中，不能只对所需部分进行变更。为了变更内容需要重新生成全部数据，因此，需将数据本身转换为SAM形式之后，再将此变换为二进制形式的BAM文件。即，为数据的变更，需重新生成全部文件。

第二、在现有技术中，在资料的生成或添加、删除等功能中，难以判断整体资料的重复性。在变更一个资料时，为了确认整个资料中的重复性，需验证整个资料。另外，在整个资料中到处所需资料时，也需要一一验证重复性。

第三、现有技术不是以多个用户为对象进行服务的形式。因此，在多个用户访问相同数据时，不能对其进行限制或应用规则。为此，需构建承担上述功能的程序并对上述数据进行管理。

第四、现有技术难以对资料进行完整性处理。治疗的完整性是指防止资料被未被许可的用户或未被许可方式修改或删除。为此，需要将一个个资料与系统的帐户进行关联或另外开发管理资料本身的工具。生命体的遗传信息的安全非常重要，而对于人类的遗传信息，需要比居民身份证更高的安全管理。因此，完整性处理的难度是一个很到的问题。

最后，在现有技术中，若资料因各种原因遭到损坏，则没有对此进行修复的方法。因此，需直接实现与此相关的其他功能或启动其他的程序。在产业领域中，资料的完整性和资料的稳定性显得尤为重要。

发明内容

本发明的目的在于克服现有技术之不足而提供一种数据库设计，其可快速稳定地处理NGS的读取数据等大容量的遗传信息。尤其是，在上述数据库显示于基因浏览器时，可进行有效显示。

本发明的技术问题不限于上述内容，而本领域技术人员可在下述记载中明白未提及的其他技术课题。

为了达到上述目的，本发明一实施例的遗传信息管理系统，其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库，并根据用户的命令输出上述数据库检索结果，包括：解析部，读取上述数据并转换为表格内置索引形式；表格管理部，将上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理；及检索部，根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。

本发明另一实施例的遗传信息管理系统，包括：解析部，读取上述数据并转换为表格内置索引形式；及检索部，以与用户的邀请相关的主关键字为准检索上述表格内置索引的内容，其中，上述主关键字用ASCII码的至少一部分构成。

为了达到上述目的，本发明一实施例的遗传信息管理方法，由遗传信息管理系统对从基因分析装置获取的读取数据进行处理以构建关于遗传信息的数据库，并根据用户的命令输出上述数据库检索结果，包括如下步骤：由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的基本项目的主表格；由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的附加项目的副表格；及由上述遗传信息管理系统检索上述主表格及/或上述副表格的内容并输出。较佳地，上述主表格及上述副表格以表格内置索引的形式构成。

上述表格内置索引为Index-Organized Table(IOT)、Clustered Index或Innodb。

上述基本项目包括遗传信息的ID、染色体的序号、开始位置、类型及模式，而上述附加项目包括遗传信息的特征、序列及差异。

上述主表格及上述副表格包括主关键字(primary key)。此时，本实施例的遗传信息管理方法，还包括上述遗传信息管理系统以与用户的邀请相关的上述主关键字为准检索上述主表格及上述副表格的步骤。另外，上述遗传信息管理方法，还包括如下步骤：若上述用户的邀请为缩小(ZoomOut)命令，则上述遗传信息管理系统输出对应于上述主关键字的上述主表格的内容；及若上述用户的邀请为放大(ZoomIn)命令，则上述遗传信息管理系统输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。另外，上述主关键字用ASCII码的至少一部分构成，尤其是，上述ASCII码的至少一部分包括33～126码范围的ASCII码。另外，上述主关键字组合33～126码范围的ASCII码的5个字节表示。

本发明可改善NGS的读取数据等大容量遗传信息的处理性能。尤其是，因对大容量遗传信息应用了表格内置索引，因此，可节省保存空间并提高数据处理速度，而且，通过表格分离功能缩短所需时间。不仅如此，通过使用由ASCII码构成的标识符，缩短数据检索及表格结合时间。

因此，可广泛用于对基因组序列进行测序之后需通过浏览器显示其结构的基因组分析服务，或从各种按压中提取DNA并对其数据进行分析的研究领域，或医疗领域的诊断及治疗及需处理大容量数据的情况。

附图说明

图1为本发明一实施例的遗传信息管理系统框图；

图2为本发明一实施例的基因分析装置框图；

图3a为索引和表格分离的一般表格结构示意图；

图3b为与图3a相对照的表格内置索引示例图；

图4为保存于主表格的基本项目和保存于副表格的附加项目示例图；

图5为表示利用5字节的ASCII符号生成可识别73亿个的标识符的示意图。

*附图标记*

50：基因分析装置 100：遗传信息管理系统

110：解析部 120：表格管理部

140：检索部 150：用户界面

具体实施方式

在开发显示遗传信息的浏览器时，需要对用NGS技术提取的读取数据的有效保存方法。若以人类为对象，通过NGS方法对一个按压(人类的基因组)进行DNA测序，则将生成超过约800GB以上的读取数据。需要将这庞大的数据在浏览器上实时显示，此时，对庞大数据量的有效处理成为关键。为解决上述问题，本发明提供基于数据库的读取数据机由此获得的遗传信息的保存/检索方法。

下面，结合附图对本发明较佳实施例进行详细说明。本发明的优点及特征和实现方法，将通过结合附图详细说明的实施例变得明了。但本发明不受下述实施例的限制，而可通过各种不同的形式实现，本发明实施例的目的是更好的说明本发明并向本领域技术人员阐明本发明的范围，本发明的范围应以权利要求书为准。在整个说明书中，相同的附图标记表示相同的结构。

图1为本发明一实施例的遗传信息管理系统100框图。遗传信息管理系统100，包括：解析部110、表格管理部120、检索部140及用户界面150。在图1所示的实施例中，基因分析装置50与遗传信息管理系统100单独构成，但基因分析装置50包含于遗传信息管理系统100内，也不超出本发明的思想。

遗传信息管理系统100对从基因分析装置50获取的读取数据(read data)进行处理以构建关于遗传信息的数据库，并根据用户的命令输出上述数据库检索结果。

如图2所示，基因分析装置50从基因样本中获取将提供给遗传信息管理系统100的读取数据。基因分析装置50，包括：基因测序仪51、匹配部52、配对部53及合并部54。

首先，基因测序仪51从基因样本中生成文本结果。上述文本结果可包括读取序列数据、读取特征数据等。基因测序仪51将所要分析的基因附着在存在于流动单元(flow cell)的珠子(bead)并向流动单元添加化学物质(荧光物质等)以使颜色根据不同碱基(A、T、G、C)发生变化之后，通过光学显微镜拍摄珠子的颜色，从而生成上述文本结果。

匹配部52将上述文本结果匹配于参考基因组(reference genome)。上述参考基因组为已公开的基因组序列，而若为人类的基因组，则可使用NCBI公开的资料。

配对部53相互连接成双的读取数据。最后，合并部54按不同的样本将计算出的配对数据合并为一个文件。为了确保其准确性，一个样本将经过多次实验，而合并部54合并通过上述多次实验生成的数据。根据需要也可省略上述合并过程。通过上述获取基因分析装置的输出数据(将要提供给遗传信息管理系统100的读取数据)。

再如图1所示，解析部110读取基因分析装置50提供的数据并转换为基于数据库的表格内置索引形式。上述表格内置索引，在Oracle数据库中表示为Index-Organized Table(IOT)，在mssql和sybase中表示为Clustered Index，而在mysql中表示为Innodb。

如上所述，本发明取代现有技术的基于文件的系统而使用基于数据库的系统。基于数据库的系统较之基于文件的系统，具有资料结构变更容易，避免资料的重复，容易控制同步，容易处理完整性及容易进行恢复处理等各种优点。基因浏览器是现实很多基因组信息的浏览器，因此，不能发生资料的重复，而且，随时发生同步控制和资料结构变更。另外，遗传信息在作为固有信息的同时，其安全性非常重要，因此，完整性处理更容易的基于数据库的系统更适合。另外，基因浏览器中存在根据用户的邀请追加进行数据作业的可能性，因此，资料结构有可能变更。因此，这样的时候，可进行资料结构变更的基于数据库的系统更为有效。

本发明在采用上述基于数据库的系统的同时，在构建数据库时，替代通常的表格而使用表格内置索引。

若将读取数据构建为表格，则一般其列(column)数量少而行(row)的数量(若以人类为样本则有35亿个)非常大。下表2是将用于通常的基因组浏览器的读取数据表示为一般表格的情况。在此，括号内的数字为字节数。

【表2】

考虑到这样的数据特性，本发明提议表格内置索引。表格内置索引完善作为一般表格的缺点的通过索引访问记录时，经过读取表格的两侧过程的进程。

图3a为索引和表格分离的一般表格结构示意图，而图3b为与图3a相对照的表格内置索引示例图。在图3a所示的一般表格的情况下，在利用主关键字(primary key)搜索索引获取ROWID之后，再利用ROWID读取表格。因此，关键字列的主关键字重复保存于索引和表格，从而浪费磁盘并延长检索时间。

相比之下，如图3b所示的表格内置索引的情况下，无需重复保存主关键字。尤其是，记录的行的数越多越有效。在人类基因组的情况下，读取数据最多达到60亿个(30X为准)以上。因此，行的数量庞大，而且，需要记录的主关键字的数量也随之增加。因此，尤其在基因组数据的情况下，通过主关键字进行两次检索从而具有重复保存空间的一般表格结构，将严重影响基因浏览器的性能。因此，需使用在索引内包括数据表格的结构，即表格内置索引的必要性越大。上述表格内置索引有Oracle数据库的Index-OrganizedTable(IOT)、mssql和sybase的Clustered Index及mysql的Innodb等。

再如图1所示，表格管理部120将从解析部110获取的上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理。

可减少保存空间且可通过有效的索引改善性能的表格内置索引页存在缺点。若表格内资索引中一个列(column)的大小太大或列的数量过多，则其效率性将急剧下降。因此，有必要对现有遗传信息中的特征数据等大字节数据进行另行分类。另外，特征数据属于可在主浏览器页面中省略而只需在详细浏览器页面显示数据。

保存于主表格的基本项目和保存于副表格的附加项目的示例如图4所示。上述附加项目是指数据的大小相对较大或可在主浏览器省略的数据项目。上述主表格及上述副表格各包括相同的主关键字(primary key)，而可以上述主关键字为准完成上述主表格及上述副表格的检索及结合。

再如图1所示，用户界面150接收用户的邀请并传递给检索部140，而且，将检索部140的处理结果显示给用户。用户界面可利用基因组浏览器实现，但非限制。

检索部140根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。上述检索部140，在上述用户的邀请为缩小(ZoomOut)命令时，输出对应于上述主关键字的上述主表格的内容，而在上述用户的邀请为放大(ZoomIn)命令时，则输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。

在基因组浏览器(包含于用户界面150)中，根据数据检索区间的不同，其需搜索的数据量不同。因此，根据不同区间设置不同的表格更为有效。基因组浏览器通常具有缩小(Zoom In)及放大(Zoom Out)功能。例如，在基因组浏览器中，为了更仔细地观察遗传信息，将缩小所展示的区域限定在100KB(千碱基(kilo base))。因此，虽然不显示很多读取数据的遗传信息，但对于一个读取数据显示更详细的信息，即结合主表格及副表格的结果。

另外，放大的区域为通常显示的10MB(兆碱基(mega base))，因此，显示相对较多读取数据的遗传信息。因此，在这样的情况下，基本项目的显示只需参考主表格即可。

若上述遗传信息不具有主表格/副表格的结构，则即使用户随时使用缩小及放大功能，也只参考一个表格，而如上所述，这样的一个表格因包括多个大字节的项目，将降低表格内置索引的效率。

另外，还需考虑结合上述主表格及副表格所发生的效率下降问题。但是，因将主表格及副表格实现为表格内置索引，因此，缩短检索时间，而且，因以较小范围的处理(例如，100KB)为前提，因此，无需考虑很多的行，从而上述结合过程不会降低太多的效率。

如上所述，在包括主表格及副表格的双重表格结构中，需要共同的关键字(主关键字)以进行两个表格的检索及结合。但是，因每样本的读取数据本身约达到35亿个，因此，只要在一个主关键字中增加一个字节，也将导致增加约3.5千兆字节的结果。因此，为解决上述问题，需要一种在较短的关键字中包括超过35亿个的数据的方案。

为此，本发明提议将上述共同主关键字用ASCII码的至少一部分构成的方案。例如，可组合ASCII码中的33～126对应的ASCII字符表示主关键字。下表3表示ASCII码及与之对应的10进制值。

【表3】

在上述ASCII码中，33～126为一般符号，而除此之外的34个ASCII码为控制符。因此，可组合ASCII码中的33～126对应的ASCII字符表示主关键字。

如图5所示，将上述范围的ASCII码作为共5个字节表示主关键字，则只需5个字节也能生成可区分73亿个的标识符。这样利用较少的字节表示表示尽可能多的标识符的方法，不只在包括主表格和副表格的双重表格结构中需要的。例如，利用检索部140检索从如图1所示的解析部110获取的表格内置索引形式的单一表格的实施例中，也可有效地用于减少包含于表格的主关键字的大小。

到此为止，如图1所示的构件为现场可编程门阵列(field-programmablegate array，FPGA)或专用集成电路(application-specific integrated circuit，ASIC)等硬件(hardware)。但是，上述构件可实现为具备于可寻址(addressing)的保存介质的形式，或可使其运行亿个或以上的处理器。上述构件中提供的功能可通过更详细的构件来实现，而且，还可实现为结合多个构件完成特定功能的构件。

上述实施例仅用以说明本发明而非限制，本领域的普通技术人员应当理解，可以对本发明进行修改、变形或者等同替换，而不脱离本发明的精神和范围，其均应涵盖在本发明的权利要求范围当中。因此，以上记载的实施例在所有方面都是示例性的，而非限制性的。

Claims

1.一种遗传信息管理系统，其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库，并根据用户的命令输出上述数据库检索结果，包括：

解析部，读取上述数据并转换为表格内置索引形式；

表格管理部，将上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理；及

检索部，根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。

2.根据权利要求1所述的遗传信息管理系统，其特征在于：上述表格内置索引为Index-Organized Table(IOT)、Clustered Index或Innodb。

3.根据权利要求1所述的遗传信息管理系统，其特征在于：

4.根据权利要求1所述的遗传信息管理系统，其特征在于：上述主表格及上述副表格包括主关键字，而上述检索部以与上述用户的邀请相关的上述主关键字为准检索上述主表格及上述副表格。

5.根据权利要求4所述的遗传信息管理系统，其特征在于：上述检索部，在上述用户的邀请为缩小命令时，输出对应于上述主关键字的上述主表格的内容，而在上述用户的邀请为放大命令时，则输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。

6.根据权利要求4所述的遗传信息管理系统，其特征在于：上述主关键字用ASCII码的至少一部分构成。

7.根据权利要求6所述的遗传信息管理系统，其特征在于：上述ASCII码的至少一部分包括33～126码范围的ASCII码。

8.根据权利要求7所述的遗传信息管理系统，其特征在于：上述主关键字组合上述范围的ASCII码的5个字节表示。

9.一种遗传信息管理系统，其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库，并根据用户的命令输出上述数据库检索结果，包括：

解析部，读取上述数据并转换为表格内置索引形式；及

检索部，以与用户的邀请相关的主关键字为准检索上述表格内置索引的内容，

其中，上述主关键字用ASCII码的至少一部分构成。

10.根据权利要求9所述的遗传信息管理系统，其特征在于：上述ASCII码的至少一部分包括33～126码范围的ASCII码。

11.根据权利要求10所述的遗传信息管理系统，其特征在于：上述主关键字组合上述范围的ASCII码的5个字节表示。

12.一种遗传信息管理系统，其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库，并根据用户的命令输出上述数据库检索结果，包括：

解析部，读取上述数据并转换为表格内置索引形式的数据格式；

表格管理部，保存及管理上述数据格式；及

检索部，基于主关键字检索上述数据格式并输出。

13.一种遗传信息管理方法，由遗传信息管理系统对从基因分析装置获取的读取数据进行处理以构建关于遗传信息的数据库，并根据用户的命令输出上述数据库检索结果，包括如下步骤：

由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的基本项目的主表格；

由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的附加项目的副表格；及

由上述遗传信息管理系统检索上述主表格及/或上述副表格的内容并输出，

其中，上述主表格及上述副表格以表格内置索引的形式构成。

14.根据权利要求13所述的遗传信息管理方法，其特征在于：上述表格内置索引为Index-Organized Table(1OT)、Clustered Index或Innodb。

15.根据权利要求13所述的遗传信息管理方法，其特征在于：上述基本项目包括遗传信息的ID、染色体的序号、开始位置、类型及模式，而上述附加项目包括遗传信息的特征、序列及差异。

16.根据权利要求13所述的遗传信息管理方法，其特征在于，还包括如下步骤：上述主表格及上述副表格包括主关键字，而上述遗传信息管理系统以与用户的邀请相关的上述主关键字为准检索上述主表格及上述副表格。

17.根据权利要求16所述的遗传信息管理方法，其特征在于，还包括如下步骤：

若上述用户的邀请为缩小命令，则上述遗传信息管理系统输出对应于上述主关键字的上述主表格的内容；及

若上述用户的邀请为放大命令，则上述遗传信息管理系统输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。

18.根据权利要求16所述的遗传信息管理方法，其特征在于：上述主关键字用ASCII码的至少一部分构成。

19.根据权利要求18所述的遗传信息管理方法，其特征在于：上述ASCII码的至少一部分包括33～126码范围的ASCII码。

20.根据权利要求19所述的遗传信息管理方法，其特征在于：上述主关键字组合上述范围的ASCII码的5个字节表示。