CN104484582A - 通过模块化选择实现的生物信息项目自动分析方法及系统 - Google Patents

通过模块化选择实现的生物信息项目自动分析方法及系统 Download PDF

Info

Publication number
CN104484582A
CN104484582A CN201410742403.3A CN201410742403A CN104484582A CN 104484582 A CN104484582 A CN 104484582A CN 201410742403 A CN201410742403 A CN 201410742403A CN 104484582 A CN104484582 A CN 104484582A
Authority
CN
China
Prior art keywords
project
sub
analysis
sample
quality control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410742403.3A
Other languages
English (en)
Other versions
CN104484582B (zh
Inventor
苏海桥
蔡雄颖
唐启覃
李卡麟
郑媛
周良风
梁绍光
陈勇
刘娜
李国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201410742403.3A priority Critical patent/CN104484582B/zh
Publication of CN104484582A publication Critical patent/CN104484582A/zh
Application granted granted Critical
Publication of CN104484582B publication Critical patent/CN104484582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

公开了一种通过模块化选择实现的生物信息项目自动分析方法,包括步骤:创建项目并存于业务管理系统中,每个项目包括多个子项目;由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;当子项目的类型为标准化子项目,则子项目对应的样品在经测序仪测序的同时,供用户选择对该样品创建一种或多种的模块化的标准流程分析,且由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述过滤模块及比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析模块对符合比对参数的每一样品数据进行分析,生成分析结果。

Description

通过模块化选择实现的生物信息项目自动分析方法及系统
技术领域
本发明涉及生物信息分析领域,尤其涉及一种通过模块化选择实现的生物信息项目自动分析方法及系统。
背景技术
随着生命科学领域实验技术的快速发展,科学仪器的自动化、智能化水平日益提高,数据产出能力有了质的飞跃。同时,生命科学研究对分析测试的要求无论在样品数量、分析周期、分析项目和数据准确性等方面都提出了更高的标准和要求,生物实验室产出的信息呈几何级数增长。
随着人类基因组计划、人类单体型计划、千人基因组计划的完成,以及各种模式生物的基因组测序的完成。同时越来越多的物种的基因组序列被科学界揭示。人类已经在功能基因组学方面累积了很多令人激动的成果。尤其是现阶段人们开始研究基因组数据、转录组数据、表观基因组、小RNA、非编码RNA等并利用其中包含的信息来认识生物的本源;并为基因工程、酶工程、合成生物学等技术提供理论支持;为人类抗击如癌症、帕金森病、各种遗传病等构建基础。一个项目可以产生几百Gb的数据,甚至是上Pb级的数据,项目类型越来越多,针对特定分析目的而专门构建一套分析工具将产生巨大的时间成本和人力成本。本系统有提供了一种在生物信息学面临大数据,项目分析多样性,分析流程构建高成本的背景下的一种适用性广、高效、稳定、可扩展式的解决方案。
在传统的生物实验室中,由于数据类型多样、格式不一,数据的保存、交换、查询、分析、维护都很不方便,严重阻碍了研究人员之间的信息提交。在生物信息学中涉及到的多种分析流程中,往往是1,一个总的流程,在linux下设置流程参数,然后投任务;或者是2、一步一步的跑流程,每一步运行一个小的脚本,完成一个小项的分析,尤其是每一步完成后都需要准备分析脚本、等待分析完成、人工查看结果是否正常才能进入下一步的分析。流程繁琐且极度消耗宝贵的人力资源和时间,无法高效、自动可靠地得到所需的分析结果。
发明内容
本发明的目的提供一种通过模块化选择实现的生物信息项目自动分析方法和系统,能有效简化现有的生物信息分析的过程和步骤,减少工作量,高效得到分析结果。
本发明提供了一种通过模块化选择实现的生物信息项目自动分析方法,包括步骤:
步骤一:创建项目并存于业务管理系统中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目;
步骤二:
当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,供用户选择对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述过滤模块及比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析模块对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
步骤三:由用户选择质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
作为上述技术方案的改进,还包括步骤:当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息;
作为上述技术方案的改进,还包括步骤:将所述分析结果进行存储备份;而优选在所述步骤三中:若质控不通过且所述分析结果和质控标准的差距在阈值范围内,在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。
作为上述技术方案的改进,所述比对参数存于数据库中;该数据库为公共数据库或个人数据库,在创建每个标准流程分析过程中由用户在所述个人数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的所述比对参数。
本发明还公开了一种通过模块化选择实现的生物信息项目自动分析系统,包括:
创建单元,用于创建项目并存于业务管理系统中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目;
第二过滤分析单元,用于当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
质控单元,用于供用户选择对应质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行所述第二过滤分析单元的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
作为上述技术方案的改进,还包括第一过滤分析单元,用于当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息;
作为上述技术方案的改进,每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作;所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
作为上述技术方案的改进,还包括:存储单元:用于将通过质控的所述分析结果进行存储备份;优选的在所述质控单元中:若质控不通过且所述分析结果和质控标准的差距在阈值范围内,在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。
作为上述技术方案的改进,所述比对参数存于数据库中;该数据库为公共数据库或个人数据库,在创建每个标准流程分析过程中由用户在所述个人数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的所述比对参数。
与现有技术相比,本发明公开的通过模块化选择实现的生物信息项目自动分析方法及系统具有如下有益效果:通过由用户直接选择供选择的功能模块来启动整个流程,而不是像现有技术一样一步一步的走流程,因此不需要看到每一步的中间文件,也可省去了等待每一步结果出来在跑下一步的时间。这个时间直接由本系统检测每一步的完成,如果完成自动进行下一步,从而有效简化现有的生物信息分析的过程和步骤,减少工作量,高效得到分析结果。
附图说明
图1是本发明实施例1中一种通过模块化选择实现的生物信息项目自动分析方法的流程示意图。
图2是本发明实施例2中一种通过模块化选择实现的生物信息项目自动分析方法的流程示意图。
图3显示了图2中的步骤S02的具体流程。
图4显示了图2中的步骤S03的具体流程。
图5显示了图2中的步骤S04的具体流程。
图6显示了图2中的步骤S05的具体流程。
图7是本发明实施例中一种通过模块化选择实现的生物信息项目自动分析系统的结构示意图。
图8示出了本发明实通过模块化选择实现的生物信息项目自动分析系统的一个实施例的UI页面的屏幕截图,该截图显示了子项目的选择列表。
图9示出了本发明实通过模块化选择实现的生物信息项目自动分析系统的一个实施例的UI页面的屏幕截图,该截图显示了每个子项目的概要信息。
图10示出了本发明实通过模块化选择实现的生物信息项目自动分析系统的一个实施例的UI页面的屏幕截图,该截图显示了只过滤子项目的参数设置界面。
图11示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了可供选择的数据库列表。
图12示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了新建数据库所需要输入的比对参数。
图13示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了新建数据库成功后的情况。
图14示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了标准化子项目的参数设置界面和标准流程分析选择界面。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种通过模块化选择实现的生物信息项目自动分析方法的结构示意图。该通过模块化选择实现的生物信息项目自动分析方法,包括步骤:
S1:创建项目并存于业务管理系统中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目;
S2:当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,供用户选择对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述过滤模块及比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析模块对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
S3:由用户选择质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤S2的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
参见图2,是本发明实施例2提供的一种通过模块化选择实现的生物信息项目自动分析方法的结构示意图。该通过模块化选择实现的生物信息项目自动分析方法,包括步骤:
S01:创建项目并存于业务管理系统中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目;
在该步骤中,可供选择的模块化的每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。
S02:当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息;
在该步骤中,所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、ErrorRate、碱基分布图以及碱基质控分布图。
S03:当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,供用户选择对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述过滤模块及比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析模块对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
S04:由用户选择质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤S02或者步骤S03的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单;
S05:将所述分析结果进行存储备份。
本发明的过滤分析是根据子项目的类型为只过滤子项目还是标准化子项目区别进行的,下面分别通过图3和图4进行详细说明。
如图3所示,当子项目的类型为只过滤子项目时对样品信息进行过滤分析的过程包括步骤:
S201:检测对应的一个只测序样品(sample)下机;
在该步骤中,下机是指将样品数据通过测序仪完成测序后得到的样品数据。
S202:根据预设的参数配置对该只测序样品进行过滤与分析(run);
该步骤中,运用统一的过滤分析标准(预设的参数配置)对每一个只测序样品的下机数据进行,从而过滤掉不符合标准的下机数据。S203:确定该子项目(project)的所有只测序样品(sample)是否过滤与分析(run)完?若是,则进行步骤S204,否则返回步骤S202;
S204:生成分析结果。
如图4所示,当子项目的类型为标准化子项目时对样品信息进行过滤分析的过程包括步骤:
S301:检测一个标准化样品(sample)上机;
在该步骤中,上机是指将样品数据上传到测序仪以进行测序。
S302:对该标准化样品选择创建一种或多种的模块化的标准流程分析;该模块化的标准流程分析包括但不限于过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析;
S303:由用户在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;S304:检测所选样品(sample)下机;
在该步骤中,下机是指将样品数据通过测序仪完成测序后得到的样品数据。
S305:根据用户选择的过滤模块及比对参数对该标准化样品进行过滤,从而过滤掉该标准化样品中不符合比对参数的样品下机数据,然后运用创建的标准流程分析对过滤后剩下的样品数据进行分析;
S306:确定该子项目(project)的所有标准化样品(sample)是否过滤与分析(run)完?若是,则进行步骤S307,否则返回步骤S305;
S307:生成分析结果。
参考图5,是对一个子项目中的任意一个样品数据进行过滤分析后得到的分析结果进行质控的过程,注意质控是在子项目的所有样品数据分析过滤完后才进行的,且对每个样品数据依次进行质控,具体包括步骤:
S401:检测到某个样品完成过滤分析,并生成分析结果;
S402:由用户选择质控模块以及输入对应的质控参数来对该分析结果进行质控;
具体是将分析结果与质控标准进行比对。
S403:判断质控是否通过,若质控通过,进入步骤S404,否则进入步骤S405;
S404:输出该分析结果;
S405:判断所述分析结果和质控标准的差距是否不在阈值范围内(即差距太大),若否则进入步骤S406,否则转入步骤S408;
S406:重新编辑该样品数据或过滤/质控参数;
在该步骤中,可以单个样品数据编辑或样品批量编辑。
S407:根据子项目类型重新对该样品数据进行过滤与分析,再次生成分析结果;并返回步骤S402;
S408:编辑所述样品且废弃相关Lane,并在BMS(Business ManagementSystem,业务管理系统)中重新下单;
S409:等待新的样品数据下机以及根据样品所述的子项目类型而进行对应的过滤与分析,生成分析结果,并返回步骤S402;
然后,当一个子项目的所有样品数据进行质控后,则生成一个QC报告。
参考图6,对样品数据的分析结果进行存储备份的过程具体包括步骤:
S501:样品数据分析;
S502:判断该样品分析是否完成?若是,则进入步骤S503,否则继续步骤S501;
S503:启动系统设备备份功能为可用;
S504:用户确认可以备份,并点击“备份”;
S505:系统提示备份请求已经提交;
S506:系统向交付系统拷贝数据;
S507:判断拷贝是否成功?若是,则进入步骤S509,否则进入步骤S508:
S508:提示用户备份出错,并返回步骤S504。
S509:提示用户备份成功;并结束。
另外,在本发明的生物信息项目自动分析方法中,通过用户直接选择对应功能模块来进行相应的流程(过滤、分析、质控等处理),而不是像现有技术一样一步一步的走流程,因此不需要看到每一步的中间文件,也可省去了等待每一步结果出来在跑下一步的时间。
可以理解的,本发明实施例除了包括上述过滤、分析、质控三个功能模块外,还可以由开发者加入多个功能模块以供用户选择来实现生物信息项目自动分析。即本发明的功能模块是可扩展的。
本发明还提供了一种通过模块化选择实现的生物信息项目自动分析系统,如图7所示,包括创建单元10、第一过滤分析单元20、第二过滤分析单元30、质控单元40、存储单元50以及数据库60,其中创建单元10、第一过滤分析单元20、第二过滤分析单元30、质控单元40、存储单元50以及数据库60可以整合到一个后台服务器中,而前端直接在网页上操作,由用户进行操作以及输入参数,具体的:
创建单元10,用于创建项目并存于业务管理系统(Business ManagementSystem,BMS,测序及信息分析任务分配和管理系统,包含了子项目、责任人、数据等组织信息)中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目。
如图8所示,为本发明实通过模块化选择实现的生物信息项目自动分析系统的一个实施例的UI页面的屏幕截图,该截图显示了多个模块化的子项目的选择列表。该子项目列表中显示了多个模块化的子项目,且每个模块化的子项目注明为只过滤项目(Y)还是标准化项目(N)。而图9是具体显示了一个模块化的子项目的概要信息。每个模块化的子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。
第一过滤分析单元20,用于当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统(Data ManagementSystem,DMS,对测序完成的下机数据进行质量监控和数据管理)中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息。
参考图10,是本发明实通过模块化选择实现的生物信息项目自动分析系统的一个实施例的UI页面的屏幕截图,该截图显示了只过滤子项目的参数设置界面。
第二过滤分析单元30,
用于当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
优选的,所述比对参数存于数据库中;该数据库为公共数据库或个人数据库,在创建每个标准流程分析过程中由用户在所述个人数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的所述比对参数。
其中,图11显示了数据库列表,显示了公众数据库和个人数据库,可供用户选择建立的所述数据库为个人数据库,包括Genome数据库和targerGene数据库。如图12所以,当用户选择新建一个个人数据库时,供用户选择建立的每一所述数据库需要用户输入的比对参数包括:数据库名称、参考基因组路径、Repeat区域文件、外显子/内含子、Ncgb物种名称、和比对mirbase物种。通过设置这些比对参数后,成功建立的数据库的具体情况如图13所示。
另外,所述样品信息包括样品名称、文库名称、Lane ID、测序策略、FlowcellID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
参考图14,是本发明实通过模块化选择实现的生物信息项目自动分析系统的一个实施例的UI页面的屏幕截图,该截图显示了标准化子项目的参数设置界面和标准流程分析选择界面。
质控单元40,用于供用户选择对应质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑(可以单个样品数据编辑或样品批量编辑)所述样品数据或过滤/质控参数后再次进行第一过滤分析单元20或者第二过滤分析单元30的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单;以及
存储单元50:用于存储备份所述分析结果。
可见,本发明公开的通过模块化选择实现的生物信息项目自动分析方法及系统具有如下有益效果:通过由用户直接选择供选择的功能模块来启动整个流程,而不是像现有技术一样一步一步的走流程,因此不需要看到每一步的中间文件,也可省去了等待每一步结果出来在跑下一步的时间。这个时间直接由本系统检测每一步的完成,如果完成自动进行下一步,从而有效简化现有的生物信息分析的过程和步骤,减少工作量,高效得到分析结果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种通过模块化选择实现的生物信息项目自动分析方法,其特征在于,包括步骤:
步骤一:创建项目并存于业务管理系统中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目;
步骤二:当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,供用户选择对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述过滤模块及比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析模块对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
步骤三:由用户选择质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
2.如权利要求1所述的通过模块化选择实现的生物信息项目自动分析方法,其特征在于,还包括步骤:当所述子项目的类型为只过滤子项目,则根据选择 的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息。
3.如权利要求1所述的通过模块化选择实现的生物信息项目自动分析方法,其特征在于,每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作;所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
4.如权利要求1所述的通过模块化选择实现的生物信息项目自动分析方法,其特征在于,还包括步骤:将所述分析结果进行存储备份;而优选在所述步骤三中:若质控不通过且所述分析结果和质控标准的差距在阈值范围内,在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。
5.如权利要求1所述的通过模块化选择实现的生物信息项目自动分析方法,其特征在于,所述比对参数存于数据库中;该数据库为公共数据库或个人数据库,在创建每个标准流程分析过程中由用户在所述个人数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的所述比对参数。
6.一种通过模块化选择实现的生物信息项目自动分析系统,其特征在于, 包括:
创建单元,用于创建项目并存于业务管理系统中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目;
第二过滤分析单元,用于当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
质控单元,用于供用户选择对应质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行所述第二过滤分析单元的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
7.如权利要求6所述的通过模块化选择实现的生物信息项目自动分析系统,其特征在于,还包括第一过滤分析单元,用于当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结 果包括子项目信息和对应的样品信息。
8.如权利要求6所述的通过模块化选择实现的生物信息项目自动分析系统,其特征在于,每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作;所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
9.如权利要求6所述的通过模块化选择实现的生物信息项目自动分析系统,其特征在于,还包括:存储单元:用于将通过质控的所述分析结果进行存储备份;优选的在所述质控单元中:若质控不通过且所述分析结果和质控标准的差距在阈值范围内,在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。
10.如权利要求6所述的通过模块化选择实现的生物信息项目自动分析系统,其特征在于,所述比对参数存于数据库中;该数据库为公共数据库或个人数据库,在创建每个标准流程分析过程中由用户在所述个人数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的所述比对参数。
CN201410742403.3A 2014-12-08 2014-12-08 通过模块化选择实现的生物信息项目自动分析方法及系统 Active CN104484582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410742403.3A CN104484582B (zh) 2014-12-08 2014-12-08 通过模块化选择实现的生物信息项目自动分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410742403.3A CN104484582B (zh) 2014-12-08 2014-12-08 通过模块化选择实现的生物信息项目自动分析方法及系统

Publications (2)

Publication Number Publication Date
CN104484582A true CN104484582A (zh) 2015-04-01
CN104484582B CN104484582B (zh) 2018-04-24

Family

ID=52759123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410742403.3A Active CN104484582B (zh) 2014-12-08 2014-12-08 通过模块化选择实现的生物信息项目自动分析方法及系统

Country Status (1)

Country Link
CN (1) CN104484582B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650319A (zh) * 2016-11-15 2017-05-10 上海派森诺生物科技股份有限公司 高通量Miseq测序数据自动化过滤方法
CN106775998A (zh) * 2016-11-09 2017-05-31 上海派森诺生物科技股份有限公司 高通量16s测序数据自动化处理方法
CN106845942A (zh) * 2017-01-22 2017-06-13 成都生命基线科技有限公司 一种生物分析平台中的工程项目发布系统
CN107794216A (zh) * 2016-08-29 2018-03-13 埃提斯生物技术(上海)有限公司 一种肿瘤基因检测流水线的模块化系统及方法
CN110838001A (zh) * 2019-10-22 2020-02-25 岭澳核电有限公司 核电站的样品分析方法及核电站的样品分析系统
CN110838338A (zh) * 2018-08-15 2020-02-25 上海美吉生物医药科技有限公司 生物分析项目的建立系统、方法、存储介质、及电子设备
CN111424075A (zh) * 2020-04-10 2020-07-17 西咸新区予果微码生物科技有限公司 一种基于第三代测序技术的微生物检测方法及系统
CN112345744A (zh) * 2019-08-06 2021-02-09 深圳迈瑞生物医疗电子股份有限公司 一种流水线系统及其测试方法
CN112992270A (zh) * 2021-04-01 2021-06-18 山东英信计算机技术有限公司 一种基因测序方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273272A1 (en) * 2004-04-22 2005-12-08 Applera Corporation, A Delaware Corporation System and method for laboratory-wide information management
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
CN103714180A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种生物信息学数据库系统和数据处理方法
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273272A1 (en) * 2004-04-22 2005-12-08 Applera Corporation, A Delaware Corporation System and method for laboratory-wide information management
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
CN103714180A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种生物信息学数据库系统和数据处理方法
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王超等: "基于核酸测序流程的信息管理系统", 《生物信息学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107794216A (zh) * 2016-08-29 2018-03-13 埃提斯生物技术(上海)有限公司 一种肿瘤基因检测流水线的模块化系统及方法
CN106775998A (zh) * 2016-11-09 2017-05-31 上海派森诺生物科技股份有限公司 高通量16s测序数据自动化处理方法
CN106650319A (zh) * 2016-11-15 2017-05-10 上海派森诺生物科技股份有限公司 高通量Miseq测序数据自动化过滤方法
CN106845942A (zh) * 2017-01-22 2017-06-13 成都生命基线科技有限公司 一种生物分析平台中的工程项目发布系统
CN110838338A (zh) * 2018-08-15 2020-02-25 上海美吉生物医药科技有限公司 生物分析项目的建立系统、方法、存储介质、及电子设备
CN110838338B (zh) * 2018-08-15 2023-09-29 上海美吉生物医药科技有限公司 生物分析项目的建立系统、方法、存储介质、及电子设备
CN112345744A (zh) * 2019-08-06 2021-02-09 深圳迈瑞生物医疗电子股份有限公司 一种流水线系统及其测试方法
CN112345744B (zh) * 2019-08-06 2023-10-20 深圳迈瑞生物医疗电子股份有限公司 一种流水线系统及其测试方法
CN110838001A (zh) * 2019-10-22 2020-02-25 岭澳核电有限公司 核电站的样品分析方法及核电站的样品分析系统
CN111424075A (zh) * 2020-04-10 2020-07-17 西咸新区予果微码生物科技有限公司 一种基于第三代测序技术的微生物检测方法及系统
WO2021203982A1 (zh) * 2020-04-10 2021-10-14 西咸新区予果微码生物科技有限公司 一种基于第三代测序技术的微生物检测方法及系统
CN112992270A (zh) * 2021-04-01 2021-06-18 山东英信计算机技术有限公司 一种基因测序方法和装置

Also Published As

Publication number Publication date
CN104484582B (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
CN104484582A (zh) 通过模块化选择实现的生物信息项目自动分析方法及系统
Gazave et al. Neutral genomic regions refine models of recent rapid human population growth
CN104484558B (zh) 生物信息项目的分析报告自动生成方法及系统
Nikolayeva et al. edgeR for differential RNA-seq and ChIP-seq analysis: an application to stem cell biology
CN110292775B (zh) 获取差异数据的方法及装置
Moretti et al. Selectome update: quality control and computational improvements to a database of positive selection
CN108256706B (zh) 任务分配方法和装置
CN105740650A (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
CN102053912A (zh) 一种基于uml图形对软件进行自动化测试的装置及方法
CN109725013B (zh) X射线衍射数据分析系统
CN112990515A (zh) 一种基于启发式优化算法的车间资源调度方法
CN104216985A (zh) 一种甄别异常数据的方法及系统
CN109754290B (zh) 一种游戏数据的处理方法和装置
CN115472298B (zh) 基于ai的高通量测序数据智能分析系统及方法
CN107506614B (zh) 一种细菌ncRNA预测方法
CN104484375A (zh) 在项目分析流程中自动建立数据库的方法及系统
CN111105133B (zh) 生产调度方法、计算机设备以及存储介质
CN105653897B (zh) 基于生物云平台的lncRNA分析系统及方法
CN104484581B (zh) 生物信息项目的自动化分析方法及系统
CN110176276B (zh) 生物信息分析流程化管理方法及系统
CN104484750B (zh) 生物信息项目的产品参数自动匹配方法及系统
CN101661507A (zh) 一种数据合并的方法及系统
CN103339632A (zh) 核酸信息处理装置及其处理方法
CN107609349A (zh) 一种生物分析平台中的项目实施质控系统
CN112489724A (zh) 一种基于二代测序的转录组数据自动化分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant