CN103714180A

CN103714180A - 一种生物信息学数据库系统和数据处理方法

Info

Publication number: CN103714180A
Application number: CN201410009130.1A
Authority: CN
Inventors: 金莲
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-01-08
Filing date: 2014-01-08
Publication date: 2014-04-09

Abstract

本发明公开了一种生物信息学数据库系统和数据处理方法，能够实现生物信息学数据的统一管理。所述系统包括样品模块、项目模块和实验模块。所述方法包括：样品模块为样品设置标识，并将样品导入样品库；项目模块创建项目，从样品库中添加样品到项目，并将样品与项目相关联；实验模块在项目中创建实验，从项目关联的样品中添加样品到该实验，将样品与实验相关联，制定实验类型，进行高性能计算处理，输出实验结果。采用本发明所述系统和方法，可以将所有环节系统性的连接在一起，实现统一管理，满足生物信息学中信息化管理需求，提高工作效率。

Description

一种生物信息学数据库系统和数据处理方法

技术领域

本发明涉及计算机领域，具体涉及一种生物信息学数据库系统和数据处理方法。

背景技术

随着生命科学领域实验技术的快速发展，科学仪器的自动化、智能化水平日益提高，数据产出能力有了质的飞跃。同时，生命科学研究对分析测试的要求无论在样品数量、分析周期、分析项目和数据准确性等方面都提出了更高的标准和要求，生物实验室产出的信息呈几何级数增长。在传统的生物实验室中，由于数据类型多样、格式不一，数据的保存、交换、查询、分析、维护都很不方便，严重阻碍了研究人员之间的信息提交。在生物信息学中涉及到的多种实验流程，如DNA文库构建，基因组测序，数据处理，结果分析，成果产出，数据共享等多个环节，每个环节有不同的技术人员参与，因此在各个环节传递或是承接中会出现信息丢失或是效率低下等等问题。尤其在生物信息学中的测序，高性能计算环节，专业测序实验室需要接受大量的测序订单项目、安排测序实验、及时处理高速产出的测序结果。日益增长的测序需求和高速产出的数据给测序实验室的数据管理带来了巨大的挑战。对于这样高速产出的数据，仅使用计算机文件系统来进行管理是很困难的。测序实验室一般采用电子表格和纸质文档保存数据。而这些方式都是以分散的形式存在，难以集中起来统一管理。在数据搜集过程中如何合作和追踪各实验数据，是实验室管理工作面临的挑战。

发明内容

本发明要解决的技术问题是提供一种生物信息学数据库系统和数据处理方法，能够实现生物信息学数据的统一管理。

为解决上述技术问题，本发明提供了一种生物信息学数据库系统，包括：样品模块、项目模块和实验模块，其中：

所述样品模块，用于为样品设置标识，将样品导入样品库；

所述项目模块，用于创建项目，从样品库中添加样品到项目，将样品与项目相关联；

所述实验模块，用于在项目中创建实验，从项目关联的样品中添加样品到该实验，将样品与实验相关联，制定实验类型，进行高性能计算，输出实验结果。

进一步地，所述实验模块进行高性能计算处理，包括：实验模块进行以下处理中的一种或多种：序列比对、序列拼接、序列注释、序列功能分析、序列数据库构建、序列数据共享。

进一步地，所述项目模块还用于执行以下操作中的一种或多种：分配资源、管理客户信息、查询项目数据、进行项目成果的汇总和结项。

进一步地，所述实验模块还用于管理实验数据和/或跟踪实验进度。

进一步地，所述系统还包括用户权限管理模块，用于审核注册者的资格，为注册用户分配权限。

为解决上述技术问题，本发明还提供了一种数据处理方法，适用于如前所述的生物信息学数据库系统，所述方法包括：

样品模块为样品设置标识，并将样品导入样品库；

项目模块创建项目，从样品库中添加样品到项目，并将样品与项目相关联；

实验模块在项目中创建实验，从项目关联的样品中添加样品到该实验，将样品与实验相关联，制定实验类型，进行高性能计算处理，输出实验结果。

进一步地，所述高性能计算处理，包括以下处理中的一种或多种：序列比对、序列拼接、序列注释、序列功能分析、序列数据库构建、序列数据共享。

进一步地，所述方法还包括：所述实验模块输出实验结果后，进行数据归档或数据删除。

本发明实施例包括DNA文库构建、基因组测序、数据处理、成果产出等环节，其中DNA文库构建的输入为不同样本，输出可供测序的数据；基因组测序产生DNA序列文件；数据处理阶段对数据进行比对、拼接分析，产生可读或是可识别的具有生物学意义的结果。采用本发明所述系统和方法，既能保存所有课题组的相关数据，又能搜集、存储、整合、关联、分析不同实验样品和结果，可以将所有环节系统性的连接在一起，实现统一管理，满足生物信息学中信息化管理需求，另外还可以规范生物信息学中实验阶段和计算阶段的流程管理，提高工作效率。尤其适用于生物信息学高性能计算平台的信息化管理。

附图说明

图1为本发明实施例1系统结构示意图；

图2为本发明实施例2数据处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

实施例1

本实施例介绍生物信息学数据库系统，如图1所示，包括：样品模块101、项目模块102和实验模块103，其中：

所述样品模块101，用于为样品设置标识，将样品导入样品库；

所述项目模块102，用于创建项目，从样品库中添加样品到项目，将样品与项目相关联；

该项目模块102创建的项目可以是一级项目或者是一级项目中的二级项目（子项目）。

所述实验模块103，用于在项目中创建实验，从项目关联的样品中添加样品到该实验，将样品与实验相关联，制定实验类型，进行高性能计算，输出实验结果。

所述高性能计算处理，包括以下处理中的一种或多种：序列比对、序列拼接、序列注释、序列功能分析、序列数据库构建、序列数据共享。

在一个优选实施例中，样品模块101还用于查询样品信息；

在一个优选实施例中，项目模块102还用于执行以下操作中的一种或多种：分配资源（包括样品、人员等实验室资源）、管理客户信息、查询项目数据（包括与项目有关的所有数据）、进行项目成果的汇总和结项（上报项目结束报告）；

在一个优选实施例中，实验模块103还用于管理实验数据（包括存储和删除），和/或跟踪实验进度（或状态）；

下面对各个模块进行具体说明：

样品模块：

测序实验的实验对象为样品，对实验室样品的管理在实验室信息管理中非常重要，而又是容易被忽视的一个环节。实验人员往往更关注实验中产生的数据，但是在测序实验中，需要把每条测序数据回溯关联到样品上。一旦测序数据出现异常，需要能找到相关样品重新进行测序。因此为了加强样品管理环节，项目的样品首先要添加入样品库中，并且在系统中与相应的项目关联起来后，才可以开始创建实验。

项目模块：

课题项目是实验室运作的核心，所有实验的操作流程和数据都以项目为中心进行组织的，样品、人员等实验室资源，也按项目划分，因此绝大多数数据存储部分都和项目的编号关联。系统为每个项目提供一系列配套功能，如选择样品、人员和分配权限，查看所属项目的实验等，实现项目管理，明确项目的具体资源，以便根据情况再分配资源。大型的生物实验室往往都拥有许多个项目。一个大型项目可能还包含多个子项目。不同项目之问有些数据需要保密，不对外部公开。针对这种情况，本项目模块被设计成为项目组及子项目二级结构管理模式。即一个项目组包含多个不同的子项目，有不同的权限设置。在项目里可以查看本项目下正在进行的测序实验流和各个实验的进行状态。这一设计针对大型实验室人员多、项目多，需要进行分类管理的实际情况而产生。在这种设计下，可以更有效的管理大量不同类型的测序实验，也可以提高实验数据导入及查看的效率。

实验模块：

实验模块用于控制实验室的实验流程，管理每个实验产生的数据，并保证所有数据的可回溯性。实验模块具备任务分配（即向实验中添加样品），信息通讯（包括实验进度或实验结果的反馈以及实验间的数据交流），实验数据存储等功能。在实验模块设计中还引入了实验流的概念，每个项目可以包括多个实验流。一个实验流是由前后顺序排列的多个实验组成，一个实验完成后，由实验人员根据具体要求制定并建立下一个实验，以保证实验流程不会混乱，并且实验数据能够关联起来。前次实验产生的数据或是样本可以作为下次实验的输入。信息的传递例如构建DNA文库的数据、数据产生量大小、数据存储路径等数据的传递。实验流中每个实验可以有未确认、已建立、已完成状态，通过实验模块可以跟踪实验流中每个实验的状态。为了跟踪一个样品从进入实验流到得出最终测序结果这个过程，并进行有效的数据关联与整合，实验数据的命名最好有统一的格式规范。

在一个优选实施例中，该系统还包括用户权限管理模块104，该模块用于审核注册者的资格，为注册用户分配权限。用户权限管理模块对实验室信息管理系统（LIMS）中保存数据的安全性负责。为了满足数据安全性方面的需求，用户权限管理模块要求系统使用者必须经过注册并经过审核确认才能够使用本系统，每个注册用户（通过审核后的注册者）根据其工作职权被授予相应的角色。

本实施例将生物信息学中各个环节按照模块划分，各个模块相互独立，彼此间又紧密联系，共同完成整体功能。

实施例2

本实施例介绍采用上述数据库系统实现数据处理的流程，如图2所示，包括以下步骤：

步骤1，将样品导入样品模块，样品模块为每个导入的样品设置唯一标识；

样品导入样品模块即将样品信息录入生物信息学数据库系统，样品信息包括可以录入的各种样品数据。

步骤2，项目模块创建项目；

步骤3，项目模块从样品模块中添加样品到该项目，并将添加的样品与该项目相关联；

关联方式可以采用数据库中常用的关联方式。

步骤4，实验模块在项目中创建实验；

步骤5，实验模块从项目关联的样品中添加样品到该实验，将样品与该实验相关联；

步骤6，确定实验的类型；

实验类型包括：建库实验、模板实验、测序实验等。实验流可以是建库实验——>模板实验——>测序实验，也可以是建库实验——>测序实验，或者是模板实验——>测序实验。实验也可仅包括测序实验。实验具体类型可根据具体的业务情况，在上一个实验完成后再选择下一步要进行的实验。

步骤7，实验模块在测序实验阶段发起数据质检；

数据质检也可以在测序实验结束后进行。

步骤8，测序成功后，实验模块进行高性能计算处理；

本实施例中高性能计算处理即数据处理分析，包括以下处理中的一种或多种：序列比对、序列拼接、序列注释、序列功能分析、序列数据库构建、序列数据共享。

步骤9，实验模块输出高性能计算成果，即产生可读或是可识别的具有生物学意义的结果。

优选地，在输出计算结果后，进行数据归档（存储）或数据删除。数据删除是指：实验模块删除高性能计算部分计算机运行程序所产生的数据。由于生物信息中高性能计算部分数据量庞大，如果进行手动迁移或是删除等占用大量时间，通过自动化迁移、删除数据，可以提高处理效率。

生物信息学研究领域较多，涉及不同的实验方法、数据处理方法，通过综合分析，申请人发现各实验都涉及到测序环节、数据处理环节，在这些环节使用的实验方法或是数据分析方法类似，因此本实施例将测序和高性能计算作为数据处理方法的通用步骤。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种生物信息学数据库系统，其特征在于，包括：样品模块、项目模块和实验模块，其中：

所述样品模块，用于为样品设置标识，将样品导入样品库；

2.如权利要求1所述的系统，其特征在于，

所述实验模块进行高性能计算处理，包括：实验模块进行以下处理中的一种或多种：序列比对、序列拼接、序列注释、序列功能分析、序列数据库构建、序列数据共享。

3.如权利要求1或2所述的系统，其特征在于，

所述项目模块还用于执行以下操作中的一种或多种：分配资源、管理客户信息、查询项目数据、进行项目成果的汇总和结项。

4.如权利要求1或2所述的系统，其特征在于，

所述实验模块还用于管理实验数据和/或跟踪实验进度。

5.如权利要求1或2所述的系统，其特征在于，

所述系统还包括用户权限管理模块，用于审核注册者的资格，为注册用户分配权限。

6.一种数据处理方法，适用于如权利要求1所述的生物信息学数据库系统，其特征在于，所述方法包括：

样品模块为样品设置标识，并将样品导入样品库；

7.如权利要求6所述的方法，其特征在于，

8.如权利要求6或7所述的方法，其特征在于，

所述方法还包括：所述实验模块输出实验结果后，进行数据归档或数据删除。