CN102456101A - 遗传信息管理系统及方法 - Google Patents

遗传信息管理系统及方法 Download PDF

Info

Publication number
CN102456101A
CN102456101A CN2011103294323A CN201110329432A CN102456101A CN 102456101 A CN102456101 A CN 102456101A CN 2011103294323 A CN2011103294323 A CN 2011103294323A CN 201110329432 A CN201110329432 A CN 201110329432A CN 102456101 A CN102456101 A CN 102456101A
Authority
CN
China
Prior art keywords
mentioned
hereditary information
information management
data
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103294323A
Other languages
English (en)
Other versions
CN102456101B (zh
Inventor
朴旻
金祐延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of CN102456101A publication Critical patent/CN102456101A/zh
Application granted granted Critical
Publication of CN102456101B publication Critical patent/CN102456101B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及有效管理庞大的量的读取数据及从读取数据中获得的遗传信息的系统及方法。本发明的遗传信息管理系统,包括:解析部,读取上述数据并转换为表格内置索引形式;表格管理部,将上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理;及检索部,根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。

Description

遗传信息管理系统及方法
技术领域
本发明涉及生物信息(Bioinformatics)技术,尤其涉及有效管理庞大的量的读取数据及从读取数据中获得的遗传信息的系统及方法。
背景技术
最近,生物产业领域的基因组产业领域逐渐得到扩大。最具代表性的是,“Genome Quest”、“Knome”、“Complete Genomics”跨国企业,将称之为下一代测序(Next Generation Sequencing,NGS)DNA测序技术进行商业化并提供服务,而在韩国,最近有“THERA-GEN”等公司也开始提供相同方法的服务。这样的技术具有可用于需要显示通过NGS提取的数据的基因组领域、提供基因组分析服务的生物产业领域、在基因组研究领域中提供数据的基因组研究领域、在诊断及治疗中利用基因组数据的医学领域等各种领域的潜力。
但是,利用通过上述NGS的DNS次序技术所获取的数据,其数量在人类的情况下每个按压达35亿个,因此,为了对所获取的数据的有效分析、检索及显示,数据库构建及数据处理技术(即,遗传信息管理技术)的开发也显得尤为重要。
目前为止所使用的遗传信息管理技术有次序队列/映射(SequenceAlignment/Map,SAM)工具、通用基因组浏览器(Generic Genome Browser,Gbrowse)、整合基因组查看器(Integrative Genomics Viewer,IGV)等。
SAM工具曾发表于2009年的学刊“Bioinformatics”,提供有效保存通过NGS方法计算出的读取数据的方法。上述方法提供SAM和二进制队列/映射(Binary Alignment/Map,BAM)形式的文件格式,而且,还提供在减少整体数据大小的同时,快速提取数据的方案。
SAM文件格式用“”字符表示头,而实际数据用TAB区分并如下表1所示,具有共11个的必要的列。
【表1】
Figure BSA00000599314400021
上述SAM格式可转换为作为二进制格式的BAM格式。这是从数据中快速提取信息并节省数据空间的方案。为了实际访问数据,需使用特别开发的SAM工具程序。
另外,世界很多研究机构使用的遗传信息浏览器有GBrowse。GBrowse以mysql数据库为基础,而且,还可进行基于文件的数据管理。但是,不能在数据库中保存/管理读取数据。而且,NGS数据与一般遗传信息不同,因其容量过大,因此,无法直接使用现有方式。因此,2009年为显示NGS数据而做出过努力,而且,作为其结果修改成当前可显示读取数据的形式。
最后,为将遗传信息显示于本地计算机而开发出的浏览器有IGV。这不仅可显示NGS数据,而且,还可一同包括微阵列等实验数据。在NGS数据的情况下,可将SAM或BAM文件形式数据作为输入。用户直接将此工具安装于自己的计算机并获取必要的文件之后,将上述文件利用工具导入(import)驱动的方式。
但是,上述现有技术存在如下几个问题:
第一、在现有技术中使用的数据中,不能只对所需部分进行变更。为了变更内容需要重新生成全部数据,因此,需将数据本身转换为SAM形式之后,再将此变换为二进制形式的BAM文件。即,为数据的变更,需重新生成全部文件。
第二、在现有技术中,在资料的生成或添加、删除等功能中,难以判断整体资料的重复性。在变更一个资料时,为了确认整个资料中的重复性,需验证整个资料。另外,在整个资料中到处所需资料时,也需要一一验证重复性。
第三、现有技术不是以多个用户为对象进行服务的形式。因此,在多个用户访问相同数据时,不能对其进行限制或应用规则。为此,需构建承担上述功能的程序并对上述数据进行管理。
第四、现有技术难以对资料进行完整性处理。治疗的完整性是指防止资料被未被许可的用户或未被许可方式修改或删除。为此,需要将一个个资料与系统的帐户进行关联或另外开发管理资料本身的工具。生命体的遗传信息的安全非常重要,而对于人类的遗传信息,需要比居民身份证更高的安全管理。因此,完整性处理的难度是一个很到的问题。
最后,在现有技术中,若资料因各种原因遭到损坏,则没有对此进行修复的方法。因此,需直接实现与此相关的其他功能或启动其他的程序。在产业领域中,资料的完整性和资料的稳定性显得尤为重要。
发明内容
本发明的目的在于克服现有技术之不足而提供一种数据库设计,其可快速稳定地处理NGS的读取数据等大容量的遗传信息。尤其是,在上述数据库显示于基因浏览器时,可进行有效显示。
本发明的技术问题不限于上述内容,而本领域技术人员可在下述记载中明白未提及的其他技术课题。
为了达到上述目的,本发明一实施例的遗传信息管理系统,其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库,并根据用户的命令输出上述数据库检索结果,包括:解析部,读取上述数据并转换为表格内置索引形式;表格管理部,将上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理;及检索部,根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。
本发明另一实施例的遗传信息管理系统,包括:解析部,读取上述数据并转换为表格内置索引形式;及检索部,以与用户的邀请相关的主关键字为准检索上述表格内置索引的内容,其中,上述主关键字用ASCII码的至少一部分构成。
为了达到上述目的,本发明一实施例的遗传信息管理方法,由遗传信息管理系统对从基因分析装置获取的读取数据进行处理以构建关于遗传信息的数据库,并根据用户的命令输出上述数据库检索结果,包括如下步骤:由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的基本项目的主表格;由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的附加项目的副表格;及由上述遗传信息管理系统检索上述主表格及/或上述副表格的内容并输出。较佳地,上述主表格及上述副表格以表格内置索引的形式构成。
上述表格内置索引为Index-Organized Table(IOT)、Clustered Index或Innodb。
上述基本项目包括遗传信息的ID、染色体的序号、开始位置、类型及模式,而上述附加项目包括遗传信息的特征、序列及差异。
上述主表格及上述副表格包括主关键字(primary key)。此时,本实施例的遗传信息管理方法,还包括上述遗传信息管理系统以与用户的邀请相关的上述主关键字为准检索上述主表格及上述副表格的步骤。另外,上述遗传信息管理方法,还包括如下步骤:若上述用户的邀请为缩小(ZoomOut)命令,则上述遗传信息管理系统输出对应于上述主关键字的上述主表格的内容;及若上述用户的邀请为放大(ZoomIn)命令,则上述遗传信息管理系统输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。另外,上述主关键字用ASCII码的至少一部分构成,尤其是,上述ASCII码的至少一部分包括33~126码范围的ASCII码。另外,上述主关键字组合33~126码范围的ASCII码的5个字节表示。
本发明可改善NGS的读取数据等大容量遗传信息的处理性能。尤其是,因对大容量遗传信息应用了表格内置索引,因此,可节省保存空间并提高数据处理速度,而且,通过表格分离功能缩短所需时间。不仅如此,通过使用由ASCII码构成的标识符,缩短数据检索及表格结合时间。
因此,可广泛用于对基因组序列进行测序之后需通过浏览器显示其结构的基因组分析服务,或从各种按压中提取DNA并对其数据进行分析的研究领域,或医疗领域的诊断及治疗及需处理大容量数据的情况。
附图说明
图1为本发明一实施例的遗传信息管理系统框图;
图2为本发明一实施例的基因分析装置框图;
图3a为索引和表格分离的一般表格结构示意图;
图3b为与图3a相对照的表格内置索引示例图;
图4为保存于主表格的基本项目和保存于副表格的附加项目示例图;
图5为表示利用5字节的ASCII符号生成可识别73亿个的标识符的示意图。
*附图标记*
50:基因分析装置           100:遗传信息管理系统
110:解析部                120:表格管理部
140:检索部                150:用户界面
具体实施方式
在开发显示遗传信息的浏览器时,需要对用NGS技术提取的读取数据的有效保存方法。若以人类为对象,通过NGS方法对一个按压(人类的基因组)进行DNA测序,则将生成超过约800GB以上的读取数据。需要将这庞大的数据在浏览器上实时显示,此时,对庞大数据量的有效处理成为关键。为解决上述问题,本发明提供基于数据库的读取数据机由此获得的遗传信息的保存/检索方法。
下面,结合附图对本发明较佳实施例进行详细说明。本发明的优点及特征和实现方法,将通过结合附图详细说明的实施例变得明了。但本发明不受下述实施例的限制,而可通过各种不同的形式实现,本发明实施例的目的是更好的说明本发明并向本领域技术人员阐明本发明的范围,本发明的范围应以权利要求书为准。在整个说明书中,相同的附图标记表示相同的结构。
图1为本发明一实施例的遗传信息管理系统100框图。遗传信息管理系统100,包括:解析部110、表格管理部120、检索部140及用户界面150。在图1所示的实施例中,基因分析装置50与遗传信息管理系统100单独构成,但基因分析装置50包含于遗传信息管理系统100内,也不超出本发明的思想。
遗传信息管理系统100对从基因分析装置50获取的读取数据(read data)进行处理以构建关于遗传信息的数据库,并根据用户的命令输出上述数据库检索结果。
如图2所示,基因分析装置50从基因样本中获取将提供给遗传信息管理系统100的读取数据。基因分析装置50,包括:基因测序仪51、匹配部52、配对部53及合并部54。
首先,基因测序仪51从基因样本中生成文本结果。上述文本结果可包括读取序列数据、读取特征数据等。基因测序仪51将所要分析的基因附着在存在于流动单元(flow cell)的珠子(bead)并向流动单元添加化学物质(荧光物质等)以使颜色根据不同碱基(A、T、G、C)发生变化之后,通过光学显微镜拍摄珠子的颜色,从而生成上述文本结果。
匹配部52将上述文本结果匹配于参考基因组(reference genome)。上述参考基因组为已公开的基因组序列,而若为人类的基因组,则可使用NCBI公开的资料。
配对部53相互连接成双的读取数据。最后,合并部54按不同的样本将计算出的配对数据合并为一个文件。为了确保其准确性,一个样本将经过多次实验,而合并部54合并通过上述多次实验生成的数据。根据需要也可省略上述合并过程。通过上述获取基因分析装置的输出数据(将要提供给遗传信息管理系统100的读取数据)。
再如图1所示,解析部110读取基因分析装置50提供的数据并转换为基于数据库的表格内置索引形式。上述表格内置索引,在Oracle数据库中表示为Index-Organized Table(IOT),在mssql和sybase中表示为Clustered Index,而在mysql中表示为Innodb。
如上所述,本发明取代现有技术的基于文件的系统而使用基于数据库的系统。基于数据库的系统较之基于文件的系统,具有资料结构变更容易,避免资料的重复,容易控制同步,容易处理完整性及容易进行恢复处理等各种优点。基因浏览器是现实很多基因组信息的浏览器,因此,不能发生资料的重复,而且,随时发生同步控制和资料结构变更。另外,遗传信息在作为固有信息的同时,其安全性非常重要,因此,完整性处理更容易的基于数据库的系统更适合。另外,基因浏览器中存在根据用户的邀请追加进行数据作业的可能性,因此,资料结构有可能变更。因此,这样的时候,可进行资料结构变更的基于数据库的系统更为有效。
本发明在采用上述基于数据库的系统的同时,在构建数据库时,替代通常的表格而使用表格内置索引。
若将读取数据构建为表格,则一般其列(column)数量少而行(row)的数量(若以人类为样本则有35亿个)非常大。下表2是将用于通常的基因组浏览器的读取数据表示为一般表格的情况。在此,括号内的数字为字节数。
【表2】
考虑到这样的数据特性,本发明提议表格内置索引。表格内置索引完善作为一般表格的缺点的通过索引访问记录时,经过读取表格的两侧过程的进程。
图3a为索引和表格分离的一般表格结构示意图,而图3b为与图3a相对照的表格内置索引示例图。在图3a所示的一般表格的情况下,在利用主关键字(primary key)搜索索引获取ROWID之后,再利用ROWID读取表格。因此,关键字列的主关键字重复保存于索引和表格,从而浪费磁盘并延长检索时间。
相比之下,如图3b所示的表格内置索引的情况下,无需重复保存主关键字。尤其是,记录的行的数越多越有效。在人类基因组的情况下,读取数据最多达到60亿个(30X为准)以上。因此,行的数量庞大,而且,需要记录的主关键字的数量也随之增加。因此,尤其在基因组数据的情况下,通过主关键字进行两次检索从而具有重复保存空间的一般表格结构,将严重影响基因浏览器的性能。因此,需使用在索引内包括数据表格的结构,即表格内置索引的必要性越大。上述表格内置索引有Oracle数据库的Index-OrganizedTable(IOT)、mssql和sybase的Clustered Index及mysql的Innodb等。
再如图1所示,表格管理部120将从解析部110获取的上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理。
可减少保存空间且可通过有效的索引改善性能的表格内置索引页存在缺点。若表格内资索引中一个列(column)的大小太大或列的数量过多,则其效率性将急剧下降。因此,有必要对现有遗传信息中的特征数据等大字节数据进行另行分类。另外,特征数据属于可在主浏览器页面中省略而只需在详细浏览器页面显示数据。
保存于主表格的基本项目和保存于副表格的附加项目的示例如图4所示。上述附加项目是指数据的大小相对较大或可在主浏览器省略的数据项目。上述主表格及上述副表格各包括相同的主关键字(primary key),而可以上述主关键字为准完成上述主表格及上述副表格的检索及结合。
再如图1所示,用户界面150接收用户的邀请并传递给检索部140,而且,将检索部140的处理结果显示给用户。用户界面可利用基因组浏览器实现,但非限制。
检索部140根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。上述检索部140,在上述用户的邀请为缩小(ZoomOut)命令时,输出对应于上述主关键字的上述主表格的内容,而在上述用户的邀请为放大(ZoomIn)命令时,则输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。
在基因组浏览器(包含于用户界面150)中,根据数据检索区间的不同,其需搜索的数据量不同。因此,根据不同区间设置不同的表格更为有效。基因组浏览器通常具有缩小(Zoom In)及放大(Zoom Out)功能。例如,在基因组浏览器中,为了更仔细地观察遗传信息,将缩小所展示的区域限定在100KB(千碱基(kilo base))。因此,虽然不显示很多读取数据的遗传信息,但对于一个读取数据显示更详细的信息,即结合主表格及副表格的结果。
另外,放大的区域为通常显示的10MB(兆碱基(mega base)),因此,显示相对较多读取数据的遗传信息。因此,在这样的情况下,基本项目的显示只需参考主表格即可。
若上述遗传信息不具有主表格/副表格的结构,则即使用户随时使用缩小及放大功能,也只参考一个表格,而如上所述,这样的一个表格因包括多个大字节的项目,将降低表格内置索引的效率。
另外,还需考虑结合上述主表格及副表格所发生的效率下降问题。但是,因将主表格及副表格实现为表格内置索引,因此,缩短检索时间,而且,因以较小范围的处理(例如,100KB)为前提,因此,无需考虑很多的行,从而上述结合过程不会降低太多的效率。
如上所述,在包括主表格及副表格的双重表格结构中,需要共同的关键字(主关键字)以进行两个表格的检索及结合。但是,因每样本的读取数据本身约达到35亿个,因此,只要在一个主关键字中增加一个字节,也将导致增加约3.5千兆字节的结果。因此,为解决上述问题,需要一种在较短的关键字中包括超过35亿个的数据的方案。
为此,本发明提议将上述共同主关键字用ASCII码的至少一部分构成的方案。例如,可组合ASCII码中的33~126对应的ASCII字符表示主关键字。下表3表示ASCII码及与之对应的10进制值。
【表3】
Figure BSA00000599314400091
在上述ASCII码中,33~126为一般符号,而除此之外的34个ASCII码为控制符。因此,可组合ASCII码中的33~126对应的ASCII字符表示主关键字。
如图5所示,将上述范围的ASCII码作为共5个字节表示主关键字,则只需5个字节也能生成可区分73亿个的标识符。这样利用较少的字节表示表示尽可能多的标识符的方法,不只在包括主表格和副表格的双重表格结构中需要的。例如,利用检索部140检索从如图1所示的解析部110获取的表格内置索引形式的单一表格的实施例中,也可有效地用于减少包含于表格的主关键字的大小。
到此为止,如图1所示的构件为现场可编程门阵列(field-programmablegate array,FPGA)或专用集成电路(application-specific integrated circuit,ASIC)等硬件(hardware)。但是,上述构件可实现为具备于可寻址(addressing)的保存介质的形式,或可使其运行亿个或以上的处理器。上述构件中提供的功能可通过更详细的构件来实现,而且,还可实现为结合多个构件完成特定功能的构件。
上述实施例仅用以说明本发明而非限制,本领域的普通技术人员应当理解,可以对本发明进行修改、变形或者等同替换,而不脱离本发明的精神和范围,其均应涵盖在本发明的权利要求范围当中。因此,以上记载的实施例在所有方面都是示例性的,而非限制性的。

Claims (20)

1.一种遗传信息管理系统,其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库,并根据用户的命令输出上述数据库检索结果,包括:
解析部,读取上述数据并转换为表格内置索引形式;
表格管理部,将上述表格内置索引分为包括关于遗传信息的基本项目的主表格和包括关于遗传信息的附加项目的副表格进行管理;及
检索部,根据用户的邀请检索上述主表格和/或上述副表格的内容并输出。
2.根据权利要求1所述的遗传信息管理系统,其特征在于:上述表格内置索引为Index-Organized Table(IOT)、Clustered Index或Innodb。
3.根据权利要求1所述的遗传信息管理系统,其特征在于:
上述基本项目包括遗传信息的ID、染色体的序号、开始位置、类型及模式,而上述附加项目包括遗传信息的特征、序列及差异。
4.根据权利要求1所述的遗传信息管理系统,其特征在于:上述主表格及上述副表格包括主关键字,而上述检索部以与上述用户的邀请相关的上述主关键字为准检索上述主表格及上述副表格。
5.根据权利要求4所述的遗传信息管理系统,其特征在于:上述检索部,在上述用户的邀请为缩小命令时,输出对应于上述主关键字的上述主表格的内容,而在上述用户的邀请为放大命令时,则输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。
6.根据权利要求4所述的遗传信息管理系统,其特征在于:上述主关键字用ASCII码的至少一部分构成。
7.根据权利要求6所述的遗传信息管理系统,其特征在于:上述ASCII码的至少一部分包括33~126码范围的ASCII码。
8.根据权利要求7所述的遗传信息管理系统,其特征在于:上述主关键字组合上述范围的ASCII码的5个字节表示。
9.一种遗传信息管理系统,其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库,并根据用户的命令输出上述数据库检索结果,包括:
解析部,读取上述数据并转换为表格内置索引形式;及
检索部,以与用户的邀请相关的主关键字为准检索上述表格内置索引的内容,
其中,上述主关键字用ASCII码的至少一部分构成。
10.根据权利要求9所述的遗传信息管理系统,其特征在于:上述ASCII码的至少一部分包括33~126码范围的ASCII码。
11.根据权利要求10所述的遗传信息管理系统,其特征在于:上述主关键字组合上述范围的ASCII码的5个字节表示。
12.一种遗传信息管理系统,其对从基因分析装置获取的读取数据进行处理以构建关于读取数据和由此获得的遗传信息的数据库,并根据用户的命令输出上述数据库检索结果,包括:
解析部,读取上述数据并转换为表格内置索引形式的数据格式;
表格管理部,保存及管理上述数据格式;及
检索部,基于主关键字检索上述数据格式并输出。
13.一种遗传信息管理方法,由遗传信息管理系统对从基因分析装置获取的读取数据进行处理以构建关于遗传信息的数据库,并根据用户的命令输出上述数据库检索结果,包括如下步骤:
由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的基本项目的主表格;
由上述遗传信息管理系统从上述读取数据生成包括关于遗传信息的附加项目的副表格;及
由上述遗传信息管理系统检索上述主表格及/或上述副表格的内容并输出,
其中,上述主表格及上述副表格以表格内置索引的形式构成。
14.根据权利要求13所述的遗传信息管理方法,其特征在于:上述表格内置索引为Index-Organized Table(1OT)、Clustered Index或Innodb。
15.根据权利要求13所述的遗传信息管理方法,其特征在于:上述基本项目包括遗传信息的ID、染色体的序号、开始位置、类型及模式,而上述附加项目包括遗传信息的特征、序列及差异。
16.根据权利要求13所述的遗传信息管理方法,其特征在于,还包括如下步骤:上述主表格及上述副表格包括主关键字,而上述遗传信息管理系统以与用户的邀请相关的上述主关键字为准检索上述主表格及上述副表格。
17.根据权利要求16所述的遗传信息管理方法,其特征在于,还包括如下步骤:
若上述用户的邀请为缩小命令,则上述遗传信息管理系统输出对应于上述主关键字的上述主表格的内容;及
若上述用户的邀请为放大命令,则上述遗传信息管理系统输出结合对应于上述主关键字的上述主表格和对应于上述主关键字的上述副表格的内容。
18.根据权利要求16所述的遗传信息管理方法,其特征在于:上述主关键字用ASCII码的至少一部分构成。
19.根据权利要求18所述的遗传信息管理方法,其特征在于:上述ASCII码的至少一部分包括33~126码范围的ASCII码。
20.根据权利要求19所述的遗传信息管理方法,其特征在于:上述主关键字组合上述范围的ASCII码的5个字节表示。
CN201110329432.3A 2010-10-22 2011-10-24 遗传信息管理系统及方法 Expired - Fee Related CN102456101B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0103538 2010-10-22
KR20100103538A KR101188886B1 (ko) 2010-10-22 2010-10-22 유전 정보 관리 시스템 및 방법

Publications (2)

Publication Number Publication Date
CN102456101A true CN102456101A (zh) 2012-05-16
CN102456101B CN102456101B (zh) 2015-07-08

Family

ID=44993487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110329432.3A Expired - Fee Related CN102456101B (zh) 2010-10-22 2011-10-24 遗传信息管理系统及方法

Country Status (5)

Country Link
US (1) US9098490B2 (zh)
EP (1) EP2444914A3 (zh)
JP (1) JP5175381B2 (zh)
KR (1) KR101188886B1 (zh)
CN (1) CN102456101B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9773091B2 (en) 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
ES2729714T3 (es) 2011-12-08 2019-11-05 Five3 Genomics Llc Sistema distribuido que proporciona indexado dinámico y visualización de datos genómicos
US9600625B2 (en) 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
CA2873902A1 (en) 2012-05-18 2013-11-21 Georgetown University Methods and systems for populating and searching a drug informatics database
US9678948B2 (en) 2012-06-26 2017-06-13 International Business Machines Corporation Real-time message sentiment awareness
US9104656B2 (en) * 2012-07-03 2015-08-11 International Business Machines Corporation Using lexical analysis and parsing in genome research
KR101525584B1 (ko) 2012-12-03 2015-06-03 주식회사 케이티 바이오 데이터 검증 방법 및 이를 위한 장치
US9460083B2 (en) 2012-12-27 2016-10-04 International Business Machines Corporation Interactive dashboard based on real-time sentiment analysis for synchronous communication
US9690775B2 (en) 2012-12-27 2017-06-27 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
US20140236897A1 (en) * 2013-01-10 2014-08-21 Jacob Brodio System, method and non-transitory computer readable medium for compressing genetic information
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2014149972A1 (en) 2013-03-15 2014-09-25 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US9418203B2 (en) 2013-03-15 2016-08-16 Cypher Genomics, Inc. Systems and methods for genomic variant annotation
US11342048B2 (en) 2013-03-15 2022-05-24 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US9594777B1 (en) * 2013-08-15 2017-03-14 Pivotal Software, Inc. In-database single-nucleotide genetic variant analysis
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US10429342B2 (en) 2014-12-18 2019-10-01 Edico Genome Corporation Chemically-sensitive field effect transistor
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
WO2016154154A2 (en) 2015-03-23 2016-09-29 Edico Genome Corporation Method and system for genomic visualization
US10419020B2 (en) 2015-06-18 2019-09-17 International Business Machines Corporation Increasing storage capacity and data transfer speed in genome data backup
EP3608913A1 (en) * 2015-07-02 2020-02-12 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
EP3338211A1 (en) 2015-08-17 2018-06-27 Koninklijke Philips N.V. Multi-level architecture of pattern recognition in biological data
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
US10522241B2 (en) 2016-09-08 2019-12-31 International Business Machines Corporation Accelerating genomic data parsing on field programmable gate arrays
FI4075438T3 (fi) * 2016-10-11 2024-03-14 Genomsys Sa Tehokkaat datarakenteet bioinformatiikkainformaation esittämistä varten
US20180314842A1 (en) * 2017-04-27 2018-11-01 Awakens, Inc. Computing system with genomic information access mechanism and method of operation thereof
RU2659025C1 (ru) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Способы кодирования и декодирования информации

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547721A (zh) * 2001-08-28 2004-11-17 用于存储、获取和集成临床、诊断、基因和治疗数据的系统、方法和仪器
US6941317B1 (en) * 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6266378A (ja) * 1985-09-19 1987-03-25 Mitsubishi Electric Corp 文書デ−タ処理装置
US5204663A (en) * 1990-05-21 1993-04-20 Applied Systems Institute, Inc. Smart card access control system
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
US6317750B1 (en) * 1998-10-26 2001-11-13 Hyperion Solutions Corporation Method and apparatus for accessing multidimensional data
US6484179B1 (en) * 1999-10-25 2002-11-19 Oracle Corporation Storing multidimensional data in a relational database management system
US6795821B2 (en) * 2001-07-17 2004-09-21 Trendium, Inc. Database systems, methods and computer program products including primary key and super key indexes for use with partitioned tables
KR100453517B1 (ko) 2002-05-31 2004-10-20 주식회사 이노티브 인터넷을 통한 대용량 고품질 디지털 이미지의 실시간서비스 방법
US7634498B2 (en) * 2003-10-24 2009-12-15 Microsoft Corporation Indexing XML datatype content system and method
US7925555B2 (en) * 2003-11-05 2011-04-12 Wells Fargo Bank N.A. Master system of record
KR100601941B1 (ko) 2004-02-17 2006-07-14 삼성전자주식회사 서열 색인 방법 및 그 시스템
JP4433289B2 (ja) * 2004-04-27 2010-03-17 日鉄日立システムエンジニアリング株式会社 ゲノム情報表示システム
US20050289524A1 (en) * 2004-06-22 2005-12-29 Mcginnes Simon Systems and methods for software based on business concepts
US20060074735A1 (en) * 2004-10-01 2006-04-06 Microsoft Corporation Ink-enabled workflow authoring
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
JP2006244189A (ja) * 2005-03-04 2006-09-14 Hitachi Software Eng Co Ltd 遺伝情報検索プログラム
US7734619B2 (en) * 2005-05-27 2010-06-08 International Business Machines Corporation Method of presenting lineage diagrams representing query plans
US20070061365A1 (en) * 2005-09-07 2007-03-15 Ablaze Development Corporation Event participant image locating, retrieving, editing and printing system
US7472140B2 (en) * 2005-12-20 2008-12-30 Oracle International Corporation Label-aware index for efficient queries in a versioning system
KR100737359B1 (ko) * 2006-10-04 2007-07-10 (주)이글로벌시스템 암호화된 컬럼의 인덱스 구축방법
CN101780070B (zh) 2009-01-16 2012-08-22 广州康臣药物研究有限公司 一种治疗糖尿病肾病的药物组合物及其制备方法
US9704129B2 (en) * 2009-08-31 2017-07-11 Thomson Reuters Global Resources Method and system for integrated professional continuing education related services

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941317B1 (en) * 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
CN1547721A (zh) * 2001-08-28 2004-11-17 用于存储、获取和集成临床、诊断、基因和治疗数据的系统、方法和仪器
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法

Also Published As

Publication number Publication date
US20120102041A1 (en) 2012-04-26
EP2444914A2 (en) 2012-04-25
JP2012094141A (ja) 2012-05-17
KR101188886B1 (ko) 2012-10-09
EP2444914A3 (en) 2016-01-27
JP5175381B2 (ja) 2013-04-03
US9098490B2 (en) 2015-08-04
KR20120042058A (ko) 2012-05-03
CN102456101B (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN102456101A (zh) 遗传信息管理系统及方法
Hach et al. SCALCE: boosting sequence compression algorithms using locally consistent encoding
Lam et al. Compressed indexing and local alignment of DNA
Zou et al. HAlign: Fast multiple similar DNA/RNA sequence alignment based on the centre star strategy
Culhane et al. MADE4: an R package for multivariate analysis of gene expression data
Creevey et al. Does a tree–like phylogeny only exist at the tips in the prokaryotes?
Niemenmaa et al. Hadoop-BAM: directly manipulating next generation sequencing data in the cloud
Tan et al. HoPhage: an ab initio tool for identifying hosts of phage fragments from metaviromes
FI4075438T3 (fi) Tehokkaat datarakenteet bioinformatiikkainformaation esittämistä varten
Haque et al. Byte embeddings for file fragment classification
Zhu et al. CompMap: a reference-based compression program to speed up read mapping to related reference sequences
CN109658981B (zh) 一种单细胞测序的数据分类方法
CN110168652A (zh) 用于存储和访问生物信息学数据的方法和系统
Sacan et al. LFM-Pro: a tool for detecting significant local structural sites in proteins
Glouzon et al. The super-n-motifs model: a novel alignment-free approach for representing and comparing RNA secondary structures
Zhang et al. Gazelle: transcript abundance query against large-scale RNA-seq experiments
Akhtar et al. Unraveling the Promise of DNA Data Storage: An Investigative Analysis of Advancements, Challenges, Future Directions
KR20140094820A (ko) 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법
Xia et al. Basic Data Processing in QIIME 2
Nielsen et al. Points of view: Representing the genome.
CN108018607A (zh) 一种提升测序平台文库拆分率的标签序列混库方法和装置
CN117170580A (zh) 一种大数据储存系统
Reji Computational optimization of cell culture media for cultured meat production
CN102831454A (zh) 档案rfid管理标签epc数据存储区的编码方法
Jung Kim et al. ProbeMatch: rapid alignment of oligonucleotides to genome allowing both gaps and mismatches

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150708

Termination date: 20191024