CN104484375B - 在项目分析流程中自动建立数据库的方法及系统 - Google Patents

在项目分析流程中自动建立数据库的方法及系统 Download PDF

Info

Publication number
CN104484375B
CN104484375B CN201410742443.8A CN201410742443A CN104484375B CN 104484375 B CN104484375 B CN 104484375B CN 201410742443 A CN201410742443 A CN 201410742443A CN 104484375 B CN104484375 B CN 104484375B
Authority
CN
China
Prior art keywords
project
analysis
sub
sample
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410742443.8A
Other languages
English (en)
Other versions
CN104484375A (zh
Inventor
苏海桥
唐启覃
周良风
窦文祥
蔡雄颖
邹利君
陈勇
刘娜
梁绍光
李国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201410742443.8A priority Critical patent/CN104484375B/zh
Publication of CN104484375A publication Critical patent/CN104484375A/zh
Application granted granted Critical
Publication of CN104484375B publication Critical patent/CN104484375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种在项目分析流程中自动建立数据库的方法,包括步骤:创建项目并存于业务管理系统中,每个项目包括多个子项目;当子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建标准流程分析,且在创建每个标准流程分析过程中由用户选择建立的数据库以及根据当前子项目的样品情况、测序类型、分析目的向数据库输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,生成分析结果。

Description

在项目分析流程中自动建立数据库的方法及系统
技术领域
本发明涉及生物信息分析领域,尤其涉及一种在项目分析流程中自动建立数据库的方法及系统。
背景技术
随着生命科学领域实验技术的快速发展,科学仪器的自动化、智能化水平日益提高,数据产出能力有了质的飞跃。同时,生命科学研究对分析测试的要求无论在样品数量、分析周期、分析项目和数据准确性等方面都提出了更高的标准和要求,生物实验室产出的信息呈几何级数增长。
在传统的生物实验室中,由于数据类型多样、格式不一,数据的保存、交换、查询、分析、维护都很不方便,严重阻碍了研究人员之间的信息提交。在生物信息学中涉及到的多种实验流程中,需要手动跑每一个建库的流程,配置两个脚本的参数,然后投任务。不仅过程繁琐,而且不利于数据库的管理。需要手动。
发明内容
本发明的目的提供一种在项目分析流程中自动建立数据库的方法和系统,将建库纳入到流程之中,直接选择就可接入流程,而且方便管理建好的数据库。
本发明提供了一种在项目分析流程中自动建立数据库的方法,包括步骤:
步骤一:创建项目并存于业务管理系统中,每个项目包括多个子项目;并选择所述创建项目中的子项目和任务信息;所述子项目的类型包括只过滤子项目和标准化子项目;
步骤二:当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析,且在创建每个标准流程分析过程中由用户选择建立的数据库以及根据当前子项目的样品情况、测序类型、分析目的向数据库输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
步骤三:对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
作为上述技术方案的改进,还包括步骤:当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息。
作为上述技术方案的改进,可供用户选择建立的所述数据库为个人数据库,包括Genome数据库和targerGene数据库;供用户选择建立的每一所述数据库且需要用户输入的比对参数包括:数据库名称、参考基因组路径、Repeat区域文件、外显子/内含子、Ncgb物种名称、和比对mirbase物种。
作为上述技术方案的改进,对于供用户选择建立完成后的每一所述数据库,可供用户进行比对参数修改及删除的操作。
作为上述技术方案的改进,每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作;所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
本发明还一种在项目分析流程中自动建立数据库的系统,包括创建单元、第二过滤分析单元、质控单元和数据库:
所述创建单元用于创建项目并存于业务管理系统中,每个项目包括多个子项目;并选择所述创建项目中的子项目和任务信息;所述子项目的类型包括只过滤子项目和标准化子项目;
所述第二过滤分析单元用于当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析,且在创建每个标准流程分析过程中由用户在所述数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
质控单元,用于对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行所述第二过滤分析单元的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
作为上述技术方案的改进,还包括第一过滤分析单元,用于当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息。
作为上述技术方案的改进,可供用户选择建立的所述数据库为个人数据库,包括Genome数据库和targerGene数据库;供用户选择建立的每一所述数据库且需要用户输入的比对参数包括:数据库名称、参考基因组路径、Repeat区域文件、外显子/内含子、Ncgb物种名称、和比对mirbase物种。
作为上述技术方案的改进,对于供用户选择建立完成后的每一所述数据库记录,可供用户进行比对参数修改及删除的操作。
作为上述技术方案的改进,每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作;所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
与现有技术相比,本发明公开的在项目分析流程中自动建立数据库的方法及系统具有如下有益效果:将建库纳入到流程之中,直接选择就可接入流程,而且方便管理建好的数据库。
附图说明
图1是本发明实施例1中一种在项目分析流程中自动建立数据库的方法的流程示意图。
图2是本发明实施例2中一种在项目分析流程中自动建立数据库的方法的流程示意图。
图3显示了图2中的步骤S02的具体流程。
图4显示了图2中的步骤S03的具体流程。
图5显示了图2中的步骤S04的具体流程。
图6显示了图2中的步骤S05的具体流程。
图7是本发明实施例中一种在项目分析流程中自动建立数据库的系统的结构示意图。
图8示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了子项目的选择列表。
图9示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了每个子项目的概要信息。
图10示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了只过滤子项目的参数设置界面。
图11示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了可供选择的数据库列表。
图12示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了新建数据库所需要输入的比对参数。
图13示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了新建数据库成功后的情况。
图14示出了本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了标准化子项目的参数设置界面和标准流程分析选择界面。
图15示出了本发明在项目分析流程中自动建立数据库的构建过程的一个实施例流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种在项目分析流程中自动建立数据库的方法的结构示意图。该在项目分析流程中自动建立数据库的方法,包括步骤:
S1:创建项目并存于业务管理系统中,每个项目包括多个子项目;并选择所述创建项目中的子项目和任务信息;所述子项目的类型包括只过滤子项目和标准化子项目;
S2:当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析,且在创建每个标准流程分析过程中由用户选择建立的数据库以及根据当前子项目的样品情况、测序类型、分析目的向数据库输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
S3、对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤S2的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
参见图2,是本发明实施例2提供的一种在项目分析流程中自动建立数据库的方法的结构示意图。该在项目分析流程中自动建立数据库的方法,包括步骤:
S01:创建项目并存于业务管理系统中,每个项目包括多个子项目;并选择所述创建项目中的子项目和任务信息;所述子项目的类型包括只过滤子项目和标准化子项目;
在该步骤中,所选择的每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。
S02:当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息;
在该步骤中,所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
S03:当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析,且在创建每个标准流程分析过程中由用户选择建立的数据库以及根据当前子项目的样品情况、测序类型、分析目的向数据库输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而运用所创建的标准流程分析对应的过滤标准对每一样品数据进行过滤与分析,从而过滤不符合比对参数的样品;且待所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息;
S04、对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤S02或步骤S03的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
S05:将所述分析结果进行存储备份。
本发明的过滤分析是根据子项目的类型为只过滤子项目还是标准化子项目区别进行的,下面分别通过图3和图4进行详细说明。
如图3所示,当子项目的类型为只过滤子项目时对样品信息进行过滤分析的过程包括步骤:
S201:检测对应的一个只测序样品(sample)下机;
在该步骤中,下机是指将样品数据通过测序仪完成测序后得到的样品数据。
S202:根据预设的参数配置对该只测序样品进行过滤与分析(run);
该步骤中,运用统一的过滤分析标准对每一个只测序样品的下机数据进行,从而过滤掉不符合标准的下机数据。S203:确定该子项目(project)的所有只测序样品(sample)是否过滤与分析(run)完?若是,则进行步骤S204,否则返回步骤S202;
S204:生成分析结果。
如图4所示,当子项目的类型为标准化子项目时对样品信息进行过滤分析的过程包括步骤:
S301:检测一个标准化样品(sample)上机;
在该步骤中,上机是指将样品数据上传到测序仪以进行测序。
S302:对该标准化样品创建一个或多个标准流程分析;该标准流程分析包括但不限于过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析;
S303:由用户选择建立的数据库以及根据当前子项目的样品情况、测序类型、分析目的向数据库输入对应的比对参数;
其中,可供用户选择建立的所述数据库为个人数据库,包括Genome数据库和targerGene数据库;供用户选择建立的每一所述数据库且需要用户输入的比对参数包括:数据库名称、参考基因组路径、Repeat区域文件、外显子/内含子、Ncgb物种名称、和比对mirbase物种。
本发明将建库纳入到项目分析流程之中,直接选择就可接入流程,而且方便管理建好的数据库。构建数据库的过程如下:
1、用户登陆;
2、进入子项目列表,点击“Databases”;
3、系统进入数据库列表后点击“Add Database”;
系统显示数参数信息列表,包括:数据库名称、物种名称、参考基因、参考基因描述文件、gene2tr、参考基因组、psl文件、NR库版本、NR库对应物种、KEGG版本、KEGG对应物种、GO版本、物种taxiid、KOGO注释文件路径。可以构建的数据如下表所示:
数据库名称
db_name
taxid
gene_fa
genome_fa
genome_psl
gene2tr
desc
db_species
KOGO_file
kegg_version
kegg_class
nr_version
nr_class
go_version
表1
4、用户点击“Submit”,系统检查参数是否完整和是否符合规范并提交表单;
5、系统在数据库列表中添加一条数据库记录,并将该数据库的状态修改为“Running”;
6、系统回到Database列表;
7、系统将“Stop”按钮激活,将“Edit”,“View”,“Delete”失活;
8、系统正常创建数据库,文件保存与大型机中,系统记录日志:[id][时间][用户名][add Genome complete][info];
9、系统将数据库的状态修改为“Completed”;
10、系统将“Edit”,“View”,“Delete”按钮激活,“Stop”按钮失活。
可见,对于供用户选择建立完成后的每一所述数据库,可供用户进行比对参数修改及删除的操作。
另外,可以理解的,本发明在项目分析流程之中,可以根据需求不断加入数据库,即本发明的数据库是可扩展的。
S304:检测所选样品(sample)下机;
在该步骤中,下机是指将样品数据通过测序仪完成测序后得到的样品数据。
S305:根据用户设置的比对参数对该标准化样品进行过滤,从而过滤掉该标准化样品中不符合比对参数的样品下机数据,然后运用创建的标准流程分析对过滤后剩下的样品数据进行分析
S306:确定该子项目(project)的所有标准化样品(sample)是否过滤与分析(run)完?若是,则进行步骤S307,否则返回步骤S305;
S307:生成分析结果。
参考图5,是对一个子项目中的任意一个样品数据进行过滤分析后得到的分析结果进行质控的过程,注意质控是在子项目的所有样品的样品数据分析过滤完后才进行的,且对每个样品依次进行质控,具体包括步骤:
S401:检测到某个样品完成过滤分析,并生成分析结果;
S402:对该分析结果进行质控;
具体是将分析结果与质控标准进行比对。
S403:判断质控是否通过,若质控通过,进入步骤S404,否则进入步骤S405;
S404:输出该分析结果;
S405:判断所述分析结果和质控标准的差距是否不在阈值范围内(即差距太大),若否则进入步骤S406,否则转入步骤S408;
S406:重新编辑该样品数据或过滤/质控参数;
在该步骤中,可以单个样品数据编辑或样品批量编辑。
S407:根据子项目类型重新对该样品数据进行过滤与分析,再次生成分析结果;并返回步骤S402;
S408:编辑所述样品且废弃相关Lane,并在BMS(Business Management System,业务管理系统)中重新下单;
S409:等待新的样品数据下机以及根据样品所述的子项目类型而进行对应的过滤与分析,生成分析结果,并返回步骤S402;
然后,当一个子项目的所有样品数据进行质控后,则生成一个QC报告。
参考图6,对样品数据的分析结果进行存储备份的过程具体包括步骤:
S501:样品数据分析;
S502:判断该样品分析是否完成?若是,则进入步骤S503,否则继续步骤S501;
S503:启动系统设备备份功能为可用;
S504:用户确认可以备份,并点击“备份”;
S505:系统提示备份请求已经提交;
S506:系统向交付系统拷贝数据;
S507:判断拷贝是否成功?若是,则进入步骤S509,否则进入步骤S508:
S508:提示用户备份出错,并返回步骤S504。提示用户备份成功;并结束。
S509:提示用户备份出错,并返回步骤S504。
本发明还提供了一种在项目分析流程中自动建立数据库的系统,如图7所示,包括创建单元10、第一过滤分析单元20、第二过滤分析单元30、质控单元40、存储单元50以及数据库60,其中创建单元10、第一过滤分析单元20、第二过滤分析单元30、质控单元40、存储单元50以及数据库60可以整合到一个后台服务器中,而前端直接在网页上操作,由用户进行操作以及输入参数,具体的:
创建单元10,用于创建项目并存于业务管理系统(Business Management System,BMS,测序及信息分析任务分配和管理系统,包含了子项目、责任人、数据等组织信息)中,每个项目包括多个子项目;并选择所述创建项目中的子项目和任务信息;所述子项目的类型包括只过滤子项目和标准化子项目;
如图8所示,为本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了子项目的选择列表。该子项目列表中显示了多个子项目,且每个子项目注明为只过滤项目(Y)还是标准化项目(N)。而图9是具体显示了一个子项目的概要信息。每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作。
第一过滤分析单元20,用于当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统(Data Management System,DMS,对测序完成的下机数据进行质量监控和数据管理)中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息;
参考图10,是本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了只过滤子项目的参数设置界面。
第二过滤分析单元30,用于当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析,且在创建每个标准流程分析过程中由用户在所述数据库60中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;其中,图11显示了数据库列表,显示了公众数据库和个人数据库,可供用户选择建立的所述数据库为个人数据库,包括Genome数据库和targerGene数据库。如图12所以,当用户选择新建一个个人数据库时,供用户选择建立的每一所述数据库需要用户输入的比对参数包括:数据库名称、参考基因组路径、Repeat区域文件、外显子/内含子、Ncgb物种名称、和比对mirbase物种。通过设置这些比对参数后,成功建立的数据库的具体情况如图13所示。
另外,所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
参考图14,是本发明实在项目分析流程中自动建立数据库的系统的一个实施例的UI页面的屏幕截图,该截图显示了标准化子项目的参数设置界面和标准流程分析选择界面。
质控单元40,用于对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑(可以单个样品数据编辑或样品批量编辑)所述样品数据或过滤/质控参数后再次进行第一过滤分析单元20或第二过滤分析单元30的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单;以及
存储单元50:用于存储备份所述分析结果。
可见,本发明公开的在项目分析流程中自动建立数据库的方法及系统具有如下有益效果:将建库纳入到流程之中,直接选择就可接入流程,而且方便管理建好的数据库。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种在项目分析流程中自动建立数据库的方法,其特征在于,包括步骤:
步骤一:创建项目并存于业务管理系统中,每个项目包括多个子项目;并选择所述创建项目中的子项目和任务信息;所述子项目的类型包括只过滤子项目和标准化子项目;
步骤二:当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析,且在创建每个标准流程分析过程中由用户选择建立的数据库以及根据当前子项目的样品情况、测序类型、分析目的向数据库输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;其中,可供用户选择建立的所述数据库为个人数据库,包括Genome数据库和targerGene数据库;
步骤三:对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二的过滤与分析过程,直至分析 结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
2.如权利要求1所述的在项目分析流程中自动建立数据库的方法,其特征在于,还包括步骤:当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息。
3.如权利要求1所述的在项目分析流程中自动建立数据库的方法,其特征在于,供用户选择建立的每一所述数据库且需要用户输入的比对参数包括:数据库名称、参考基因组路径、Repeat区域文件、外显子/内含子、Ncgb物种名称、和比对mirbase物种。
4.如权利要求3所述的在项目分析流程中自动建立数据库的方法,其特征在于,对于供用户选择建立完成后的每一所述数据库,可供用户进行比对参数修改及删除的操作。
5.如权利要求1所述的在项目分析流程中自动建立数据库的方法,其特征在于,每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作;所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
6.一种在项目分析流程中自动建立数据库的系统,其特征在于,包括创建单元、第二过滤分析单元、质控单元和数据库:
所述创建单元用于创建项目并存于业务管理系统中,每个项目包括多个子项目;并选择所述创建项目中的子项目和任务信息;所述子项目的类型包括只过滤子项目和标准化子项目;
所述第二过滤分析单元用于当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的标准流程分析,且在创建每个标准流程分析过程中由用户在所述数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的比对参数;经测序仪测序完成后,根据所述数据库中的比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析对符 合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;其中,可供用户选择建立的所述数据库为个人数据库,包括Genome数据库和targerGene数据库;
质控单元,用于对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行所述第二过滤分析单元的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
7.如权利要求6所述的在项目分析流程中自动建立数据库的系统,其特征在于,还包括第一过滤分析单元,用于当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息。
8.如权利要求6所述的在项目分析流程中自动建立数据库的系统,其特征在于,供用户选择建立的每一所述数据库且需要用户输入的比对参数包括:数 据库名称、参考基因组路径、Repeat区域文件、外显子/内含子、Ncgb物种名称、和比对mirbase物种。
9.如权利要求8所述的在项目分析流程中自动建立数据库的系统,其特征在于,对于供用户选择建立完成后的每一所述数据库记录,可供用户进行比对参数修改及删除的操作。
10.如权利要求6所述的在项目分析流程中自动建立数据库的系统,其特征在于,每个子项目的概要信息包括子项目代码、子项目名称、子项目类型、是否是只过滤、总的样品数、执行人、开始时间和结束时间、子项目状态以及子项目相关操作;所述样品信息包括样品名称、文库名称、Lane ID、测序策略、Flowcell ID、Raw data、Raw Reads、Read Length、GC%、Q20%、Q30%、Error Rate、碱基分布图以及碱基质控分布图。
CN201410742443.8A 2014-12-08 2014-12-08 在项目分析流程中自动建立数据库的方法及系统 Active CN104484375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410742443.8A CN104484375B (zh) 2014-12-08 2014-12-08 在项目分析流程中自动建立数据库的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410742443.8A CN104484375B (zh) 2014-12-08 2014-12-08 在项目分析流程中自动建立数据库的方法及系统

Publications (2)

Publication Number Publication Date
CN104484375A CN104484375A (zh) 2015-04-01
CN104484375B true CN104484375B (zh) 2017-11-10

Family

ID=52758916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410742443.8A Active CN104484375B (zh) 2014-12-08 2014-12-08 在项目分析流程中自动建立数据库的方法及系统

Country Status (1)

Country Link
CN (1) CN104484375B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557666A (zh) * 2016-11-15 2017-04-05 上海派森诺生物科技股份有限公司 一种能够基于Nextseq500高通量测序平台的数据过滤方法
CN106650319A (zh) * 2016-11-15 2017-05-10 上海派森诺生物科技股份有限公司 高通量Miseq测序数据自动化过滤方法
CN107403274A (zh) * 2017-07-24 2017-11-28 高华 检测与监督信息管理系统数据库表结构及业务逻辑流程
CN110838338B (zh) * 2018-08-15 2023-09-29 上海美吉生物医药科技有限公司 生物分析项目的建立系统、方法、存储介质、及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982409A (zh) * 2012-11-07 2013-03-20 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的信息化管理设计方法
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
CN103714180A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种生物信息学数据库系统和数据处理方法
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273272A1 (en) * 2004-04-22 2005-12-08 Applera Corporation, A Delaware Corporation System and method for laboratory-wide information management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982409A (zh) * 2012-11-07 2013-03-20 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的信息化管理设计方法
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
CN103714180A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种生物信息学数据库系统和数据处理方法
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于核酸测序流程的信息管理系统;王超等;《生物信息学》;20090915;第7卷(第3期);第171-177页 *

Also Published As

Publication number Publication date
CN104484375A (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN104484558B (zh) 生物信息项目的分析报告自动生成方法及系统
CN104484582B (zh) 通过模块化选择实现的生物信息项目自动分析方法及系统
CN110292775B (zh) 获取差异数据的方法及装置
CN104484375B (zh) 在项目分析流程中自动建立数据库的方法及系统
US10664374B2 (en) Event analysis device, event analysis system, event analysis method, and event analysis program
CN107861989A (zh) 数据的分区存储方法、装置、计算机设备及存储介质
CN109635162A (zh) 一种数据处理系统及方法
CN109725013B (zh) X射线衍射数据分析系统
CN106228306A (zh) 基于建模配置的业务流程展示方法和业务流程展示装置
CN104914820B (zh) 数据收集装置、以及该数据收集装置的控制方法
CN109712669B (zh) 一种蛋白质功能注释方法及系统
CN109918437A (zh) 分布式数据处理方法、装置及数据资产管理系统
CN108319807A (zh) 一种掺杂式能源材料的高通量计算筛选方法
CN107229842A (zh) 一种基于局部图的三代测序序列校正方法
CN110021345A (zh) 基于spark平台的基因数据分析方法
CN104484750B (zh) 生物信息项目的产品参数自动匹配方法及系统
WO2016206395A1 (zh) 周报信息处理方法及装置
CN104484581B (zh) 生物信息项目的自动化分析方法及系统
CN110838338A (zh) 生物分析项目的建立系统、方法、存储介质、及电子设备
CN113001538B (zh) 一种命令解析方法及系统
CN102521377B (zh) 从文档处理系统的文档集合中筛选优质文档的方法及系统
CN113190514B (zh) 一种电子文档按照优先顺序录入数据的方法
KR101178968B1 (ko) 연구개발 정보 관리 시스템 및 그 방법
CN116860227B (zh) 一种基于大数据etl脚本编排的数据开发系统及方法
CN108255851A (zh) 一种项目数据的梳理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant