CN104484581A

CN104484581A - 生物信息项目的自动化分析方法及系统

Info

Publication number: CN104484581A
Application number: CN201410742375.5A
Authority: CN
Inventors: 苏海桥; 董博; 徐伟玲; 石俊杰; 黄泽辉; 梁绍光; 刘娜; 李国庆
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2015-04-01
Anticipated expiration: 2034-12-08
Also published as: CN104484581B

Abstract

公开了一种生物信息项目的自动化分析方法，包括步骤：创建项目并存于业务管理系统中，每个项目包括多个子项目；当子项目的类型为只过滤子项目，即根据预设的参数配置运用统一的过滤标准对经测序仪测序完成后的样品下机数据进行过滤与分析，生成分析结果；当子项目的类型为标准化子项目，则该子项目对应的样品在经测序仪测序的同时，对该样品创建标准流程分析，且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况输入对应的过滤参数；经测序仪测序完成后，先根据输入的过滤参数过滤掉部分样品数据，然后运用所创建的标准流程分析对剩下的每一样品数据进行过滤与分析，生成分析结果。

Description

生物信息项目的自动化分析方法及系统

技术领域

本发明涉及生物信息分析领域，尤其涉及一种生物信息项目的自动化分析方法及系统。

背景技术

随着生命科学领域实验技术的快速发展，科学仪器的自动化、智能化水平日益提高，数据产出能力有了质的飞跃。同时，生命科学研究对分析测试的要求无论在样品数量、分析周期、分析项目和数据准确性等方面都提出了更高的标准和要求，生物实验室产出的信息呈几何级数增长。

在传统的生物实验室中，由于数据类型多样、格式不一，数据的保存、交换、查询、分析、维护都很不方便，严重阻碍了研究人员之间的信息提交。在大规模并行测序(也叫下一代测序技术、高通量测序,英文：NGS、High-throughput Sequencing)的实验和生物信息学分析中涉及到的多种流程，如DNA文库构建，基因组测序，数据处理，结果分析，成果产出，数据共享等多个环节，每个环节有不同的技术人员参与，因此在各个环节传递或是承接中会出现信息丢失或是效率低下等等问题。尤其在生物信息学中的测序，高性能计算环节，专业测序实验室需要接受大量的测序订单项目、安排测序实验、及时处理高速产出的测序结果。

在生物信息学中的测序完成后的环节中，所有项目有相应的业务线项目组来做。业务线既做只过滤，又做标准化，又做个性化。同样要经过1.项目管理立项、2.信息人负责人审批、3.信息执行人确认，4.安排跑流程，5.报告填写，6.交付，7.项目管理沟通等过程，因此耗费了业务线的本就有限的资源。

发明内容

本发明的目的提供一种生物信息项目的自动化分析方法和系统，能有效简化现有的生物信息分析的过程和步骤，减少工作量，节约资源。

本发明提供了一种生物信息项目的自动化分析方法，包括步骤：

步骤一：创建项目并存于业务管理系统中，每个项目包括多个子项目；并选择所述创建项目中的子项目和任务信息；所述子项目的类型包括只过滤子项目和标准化子项目；

步骤二：当所述子项目的类型为只过滤子项目，则根据选择的子项目类型和任务信息，依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据；且每获取一个样品数据，即根据预设的参数配置运用统一的过滤标准进行过滤与分析，从而过滤不符合参数配置的样品数据；且待获取的所有样品数据过滤与分析完后，生成分析结果，分析结果包括子项目信息和对应的样品信息；

步骤三：当所述子项目的类型为标准化子项目时，则该子项目对应的样品在经测序仪测序的同时，对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析，且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况输入对应的过滤参数；经测序仪测序完成后，根据所述输入的过滤参数对每一样品数据进行过滤，从而去掉不符合过滤参数的样品数据；然后再运用所创建的标准流程分析对符合过滤参数的每一样品数据步骤四：对所述分析结果进行质控，若质控通过，则直接输出该分析结果；若质控不通过，且所述分析结果和质控标准的差距在阈值范围内，则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二或者步骤三的过滤与分析过程，直至分析结果通过质控；若质控不通过，且所述分析结果和质控标准的差距超过阈值，则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。

作为上述方案的改进，每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。

作为上述方案的改进，所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC％、Q20％、Q30％、Error Rate、碱基分布图以及碱基质控分布图。

作为上述方案的改进，还包括：

步骤五：将所述分析结果进行存储备份。

作为上述方案的改进，在所述步骤四中：若质控不通过且所述分析结果和质控标准的差距在阈值范围内，在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。

本发明还提供了一种生物信息项目的自动化分析系统，包括：

创建单元，用于创建项目并存于业务管理系统中，每个项目包括多个子项目；并选择所述创建项目中的子项目和任务信息；所述子项目的类型包括只过滤子项目和标准化子项目；

第一过滤分析单元，用于当所述子项目的类型为只过滤子项目，则根据选择的子项目类型和任务信息，依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据；且每获取一个样品数据，即根据预设的参数配置运用统一的过滤标准进行过滤与分析，从而过滤不符合参数配置的样品数据；且待获取的所有样品数据过滤与分析完后，生成分析结果，分析结果包括子项目信息和对应的样品信息；第二过滤分析单元，用于当所述子项目的类型为标准化子项目时，则该子项目对应的样品在经测序仪测序的同时，对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析，且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况输入对应的参数；经测序仪测序完成后，根据所述输入的过滤参数对每一样品数据进行过滤，从而去掉不符合过滤参数的样品数据；然后再运用所创建的标准流程分析对符合过滤参数的每一样品数据进行分析，从而生成分析结果，分析结果包括子项目信息和对应的样品信息；

质控单元，用于对所述分析结果进行质控，若质控通过，则直接输出该分析结果；若质控不通过，且所述分析结果和质控标准的差距在阈值范围内，则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二或者步骤三的过滤与分析过程，直至分析结果通过质控；若质控不通过，且所述分析结果和质控标准的差距超过阈值，则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。

作为上述方案的改进，还包括：

存储单元：用于将所述分析结果进行存储备份。

作为上述方案的改进，在所述质控单元中：若质控不通过且所述分析结果和质控标准的差距在阈值范围内，在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。

与现有技术相比，本发明公开的生物信息项目的自动化分析方法及系统具有如下有益效果：能够针对只测序和标准化两种不同类型的子项目的信息分别进行自动化过滤和分析，从而有效简化现有的生物信息分析的过程和步骤，减少工作量，节约资源。

附图说明

图1是本发明实施例中一种生物信息项目的自动化分析方法的流程示意图。

图2显示了图1中的步骤S2的具体流程。

图3显示了图1中的步骤S3的具体流程。

图4显示了图1中的步骤S4的具体流程。

图5显示了图1中的步骤S5的具体流程。

图6是本发明实施例中一种生物信息项目的自动化分析系统的结构示意图。

图7示出了本发明实生物信息项目的自动化分析系统的一个实施例的UI页面的屏幕截图，该截图显示了子项目的选择列表。

图8示出了本发明实生物信息项目的自动化分析系统的一个实施例的UI页面的屏幕截图，该截图显示了每个子项目的概要信息。

图9示出了本发明实生物信息项目的自动化分析系统的一个实施例的UI页面的屏幕截图，该截图显示了只过滤子项目的参数设置界面。

图10示出了本发明实生物信息项目的自动化分析系统的一个实施例的UI页面的屏幕截图，该截图显示了标准化子项目的参数设置界面和标准流程分析选择界面。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例提供的一种生物信息项目的自动化分析方法的结构示意图。该生物信息项目的自动化分析方法，包括步骤：

S1：创建项目并存于业务管理系统中，每个项目包括多个子项目；并选择所述创建项目中的子项目和任务信息；所述子项目的类型包括只过滤子项目和标准化子项目；

在该步骤中，所选择的每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。

S2：当所述子项目的类型为只过滤子项目，则根据选择的子项目类型和任务信息，依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据；且每获取一个样品数据，即根据预设的参数配置运用统一的过滤标准进行过滤与分析，从而过滤不符合参数配置的样品数据；且待获取的所有样品数据过滤与分析完后，生成分析结果，分析结果包括子项目信息和对应的样品信息；在该步骤中，所述样品信息包括样品名称、文库名称、Lane ID、测序策略、FlowcellID、Raw data、Raw Reads、Read Length、GC％、Q20％、Q30％、Error Rate、碱基分布图以及碱基质控分布图。

S3：当所述子项目的类型为标准化子项目时，则该子项目对应的样品在经测序仪测序的同时，对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析，且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况输入对应的过滤参数；经测序仪测序完成后，根据所述输入的过滤参数对每一样品数据进行过滤，从而去掉不符合过滤参数的样品数据；然后再运用所创建的标准流程分析对符合过滤参数的每一样品数据进行分析，从而生成分析结果，分析结果包括子项目信息和对应的样品信息；

S4：对所述分析结果进行质控，若质控通过，则直接输出该分析结果；若质控不通过，且所述分析结果和质控标准的差距在阈值范围内，则重新编辑所述样品数据或过滤/质控参数后再次进行步骤S2或者步骤S3的过滤与分析过程，直至分析结果通过质控；若质控不通过，且所述分析结果和质控标准的差距超过阈值，则编辑所述样品且废弃相关Lane，并在所述业务管理系统中重新下单。

其中，这个lane是下机数据的一个计量单位，也是进行测序反应的位置，对应测序的玻璃板(也叫做测序芯片)上的一条。

S5：将所述分析结果进行存储备份。

本发明的过滤分析是根据子项目的类型为只过滤子项目还是标准化子项目区别进行的，下面分别通过图2和图3进行详细说明。

如图2所示，当子项目的类型为只过滤子项目时对样品信息进行过滤分析的过程包括步骤：

S201：检测对应的一个只测序样品(sample)下机；

在该步骤中，下机是指将样品数据通过测序仪完成测序后得到的样品数据。测序仪通过测序，将片段化的DNA或者RNA文库中的遗传信息读取出来，以其对应的光学信号，计算机代码进行储存，最终转换成对应的碱基ATCG信息。测序过程是我们读取生物的遗传、变异信息的重要方式，也是进行生物信息分析的先行步骤。

S202：根据预设的参数配置对该只测序样品进行过滤与分析(run)；

该步骤中，运用统一的过滤分析标准对每一个只测序样品的下机数据进行，从而过滤掉不符合标准的下机数据。

S203:确定该子项目(project)的所有只测序样品(sample)是否过滤与分析(run)完？若是，则进行步骤S204，否则返回步骤S202；

S204：生成分析结果。

如图3所示，当子项目的类型为标准化子项目时对样品信息进行过滤分析的过程包括步骤：

S301：检测一个标准化样品(sample)上机；

在该步骤中，上机是指将样品数据上传到测序仪以进行测序。

S302：对该标准化样品创建一个或多个标准流程分析，且创建标准流程分析的同时由用户设置对应的过滤参数；该标准流程分析包括但不限于过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析

S303：检测所选样品(sample)下机；

在该步骤中，下机是指将样品数据通过测序仪完成测序后得到的样品数据。

S304：根据用户设置的过滤参数对该标准化样品进行过滤，从而过滤掉该标准化样品中不符合过滤参数的样品下机数据，然后运用创建的标准流程分析对过滤后剩下的样品数据进行分析；

S305:确定该子项目(project)的所有标准化样品(sample)是否过滤与分析(run)完？若是，则进行步骤S306，否则返回步骤S304；

S306：生成分析结果。

参考图4，是对一个子项目中的任意一个样品数据进行过滤分析后得到的分析结果进行质控的过程，注意质控是在子项目的所有样品的样品数据分析过滤完后才进行的，且对每个样品依次进行质控，具体包括步骤：

S401：检测到某个样品完成过滤分析，并生成分析结果；

S402：对该分析结果进行质控；

具体是将分析结果与质控标准进行比对。

S403：判断质控是否通过，若质控通过，进入步骤S404，否则进入步骤S405；

S404：输出该分析结果；

S405：判断所述分析结果和质控标准的差距是否不在阈值范围内(即差距太大)，若否则进入步骤S406，否则转入步骤S408；

S406：重新编辑该样品数据或过滤/质控参数；

在该步骤中，可以单个样品数据编辑或样品批量编辑。

S407：根据子项目类型重新对该样品数据进行过滤与分析，再次生成分析结果；并返回步骤S402；

S408:编辑所述样品且废弃相关Lane,并在BMS(Business ManagementSystem,业务管理系统)中重新下单。该处下单是指，子项目及其对应的基本信息不变，但重新创建一个分析流程，对其进行分析；

S409：等待新的样品数据下机以及根据样品所述的子项目类型而进行对应的过滤与分析，生成分析结果，并返回步骤S402；

然后，当一个子项目的所有样品数据进行质控后，则生成一个QC报告。

参考图5，对样品数据的分析结果进行存储备份的过程具体包括步骤：

S501：样品数据分析；

S502：判断该样品分析是否完成？若是，则进入步骤S503，否则继续步骤S501；

S503：启动系统设备备份功能为可用；

S504：用户确认可以备份，并点击“备份”；

S505：系统提示备份请求已经提交；

S506：系统向交付系统拷贝数据，其中，交付系统包括分析执行人对数据的提交，审核员审核，数据释放给客户；

S507：判断拷贝是否成功？若是，则进入步骤S508，否则进入步骤S509：

S508：提示用户备份成功；并结束。

S509：提示用户备份出错，并返回步骤S504。

可见，本实施例公开的生物信息项目的自动化分析方法，能够针对只测序和标准化两种不同类型的子项目的信息分别进行自动化过滤和分析，从而有效简化现有的生物信息分析的过程和步骤，减少工作量，节约资源。

本发明还提供了一种生物信息项目的自动化分析系统，如图6所示，包括创建单元10、第一过滤分析单元20、第二过滤分析单元30、质控单元40以及存储单元50，其中创建单元10、第一过滤分析单元20、第二过滤分析单元30、质控单元40以及存储单元50可以整合到一个后台服务器中，而前端直接在网页上操作，由用户进行操作以及输入参数，具体的：

创建单元10，用于创建项目并存于业务管理系统(Business ManagementSystem，BMS，测序及信息分析任务分配和管理系统，包含了子项目、责任人、数据等组织信息)中，每个项目包括多个子项目；并选择所述创建项目中的子项目和任务信息；所述子项目的类型包括只过滤子项目和标准化子项目；

如图7所示，为本发明实生物信息项目的自动化分析系统的一个实施例的UI页面的屏幕截图，该截图显示了子项目的选择列表。该子项目列表中显示了多个子项目，且每个子项目注明为只过滤项目(Y)还是标准化项目(N)。而图8是具体显示了一个子项目的概要信息。每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。

第一过滤分析单元20，用于当所述子项目的类型为只过滤子项目，则根据选择的子项目类型和任务信息，依次从下机数据管理系统(Data ManagementSystem，DMS，对测序完成的下机数据进行质量监控和数据管理)中获取对应的且经过测序仪测序后的样品数据；且每获取一个样品数据，即根据预设的参数配置运用统一的过滤标准进行过滤与分析，从而过滤不符合参数配置的样品数据；且待获取的所有样品数据过滤与分析完后，生成分析结果，分析结果包括子项目信息和对应的样品信息；

参考图9，是本发明实生物信息项目的自动化分析系统的一个实施例的UI页面的屏幕截图，该截图显示了只过滤子项目的参数设置界面。

第二过滤分析单元30，用于当所述子项目的类型为标准化子项目时，则该子项目对应的样品在经测序仪测序的同时，对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析，且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况输入对应的过滤参数；经测序仪测序完成后，根据所述输入的过滤参数对每一样品数据进行过滤，从而去掉不符合过滤参数的样品数据；然后再运用所创建的标准流程分析对符合过滤参数的每一样品数据进行分析，从而生成分析结果，分析结果包括子项目信息和对应的样品信息；

其中，所述样品信息包括样品名称、文库名称、Lane ID、测序策略、FlowcellID、Raw data、Raw Reads、Read Length、GC％、Q20％、Q30％、Error Rate、碱基分布图以及碱基质控分布图。

参考图10，是本发明实生物信息项目的自动化分析系统的一个实施例的UI页面的屏幕截图，该截图显示了标准化子项目的参数设置界面和标准流程分析选择界面。

质控单元40，用于对所述分析结果进行质控，若质控通过，则直接输出该分析结果；若质控不通过，且所述分析结果和质控标准的差距在阈值范围内，则重新编辑所述样品数据(可以单个样品数据编辑或样品批量编辑)或过滤/质控参数后再次进行第一过滤分析单元20或者第二过滤分析单元30的过滤与分析过程，直至分析结果通过质控；若质控不通过，且所述分析结果和质控标准的差距超过阈值，则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单；以及

存储单元50：用于存储备份所述分析结果。

可见，本实施例公开的生物信息项目的自动化分析系统，能够针对只测序和标准化两种不同类型的子项目的信息分别进行自动化过滤和分析，从而有效简化现有的生物信息分析的过程和步骤，减少工作量，节约资源。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种生物信息项目的自动化分析方法，其特征在于，包括步骤：

步骤三：当所述子项目的类型为标准化子项目时，则该子项目对应的样品在经测序仪测序的同时，对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析，且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况输入对应的过滤参数；经测序仪测序完成后，根据所述输入的过滤参数对每一样品数据进行过滤，从而去掉不符合过滤参数的样品数据；然后再运用所创建的标准流程分析对符合过滤参数的每一样品数据进行分析，从而生成分析结果，分析结果包括子项目信息和对应的样品信息；

步骤四：对所述分析结果进行质控，若质控通过，则直接输出该分析结果；若质控不通过，且所述分析结果和质控标准的差距在阈值范围内，则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二或者步骤三的过滤与分析过程，直至分析结果通过质控；若质控不通过，且所述分析结果和质控标准的差距超过阈值，则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。

2.如权利要求1所述的生物信息项目的自动化分析方法，其特征在于，每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。

3.如权利要求1所述的生物信息项目的自动化分析方法，其特征在于，所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC％、Q20％、Q30％、Error Rate、碱基分布图以及碱基质控分布图。

4.如权利要求1所述的生物信息项目的自动化分析方法，其特征在于，还包括：

步骤五：将所述分析结果进行存储备份。

5.如权利要求1所述的生物信息项目的自动化分析方法，其特征在于，在所述步骤四中：若质控不通过且所述分析结果和质控标准的差距在阈值范围内，在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。

6.一种生物信息项目的自动化分析系统，其特征在于，包括：

第一过滤分析单元，用于当所述子项目的类型为只过滤子项目，则根据选择的子项目类型和任务信息，依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据；且每获取一个样品数据，即根据预设的参数配置运用统一的过滤标准进行过滤与分析，从而过滤不符合参数配置的样品数据；且待获取的所有样品数据过滤与分析完后，生成分析结果，分析结果包括子项目信息和对应的样品信息；

第二过滤分析单元，用于当所述子项目的类型为标准化子项目时，则该子项目对应的样品在经测序仪测序的同时，对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析，且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况输入对应的参数；经测序仪测序完成后，根据所述输入的过滤参数对每一样品数据进行过滤，从而去掉不符合过滤参数的样品数据；然后再运用所创建的标准流程分析对符合过滤参数的每一样品数据进行分析，从而生成分析结果，分析结果包括子项目信息和对应的样品信息；

7.如权利要求6所述的生物信息项目的自动化分析系统，其特征在于，每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。

8.如权利要求61所述的生物信息项目的自动化分析系统，其特征在于，所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Rawdata、Raw Reads、Read Length、GC％、Q20％、Q30％、Error Rate、碱基分布图以及碱基质控分布图。

9.如权利要求6所述的生物信息项目的自动化分析系统，其特征在于，还包括：

存储单元：用于将通过质控的所述分析结果进行存储备份。

10.如权利要求6所述的生物信息项目的自动化分析系统，其特征在于，在所述质控单元中：若质控不通过且所述分析结果和质控标准的差距在阈值范围内，在重新编辑所述样品数据是可以单个样品数据编辑或样品数据批量编辑。