CN110176276B - 生物信息分析流程化管理方法及系统 - Google Patents

生物信息分析流程化管理方法及系统 Download PDF

Info

Publication number
CN110176276B
CN110176276B CN201910291806.3A CN201910291806A CN110176276B CN 110176276 B CN110176276 B CN 110176276B CN 201910291806 A CN201910291806 A CN 201910291806A CN 110176276 B CN110176276 B CN 110176276B
Authority
CN
China
Prior art keywords
analysis
standard sample
biological information
matched
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910291806.3A
Other languages
English (en)
Other versions
CN110176276A (zh
Inventor
余伟师
梁萌萌
王小冬
谢欣
栗海波
付凤丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Semek Gene Technology Co ltd
Original Assignee
Suzhou Semek Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Semek Gene Technology Co ltd filed Critical Suzhou Semek Gene Technology Co ltd
Priority to CN201910291806.3A priority Critical patent/CN110176276B/zh
Publication of CN110176276A publication Critical patent/CN110176276A/zh
Application granted granted Critical
Publication of CN110176276B publication Critical patent/CN110176276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明揭示了生物信息分析流程化管理方法及系统,包括如下步骤:录入标样信息;上传对应录入标样信息的二代测序Fastq文件;配置生信脚本对上传的二代测序Fastq文件进行自动化分析;分析数据与对应录入标样信息生成匹配审阅通道;解读分析数据在审阅通道内生成解读报告;在审阅通道内对解读报告进行通过或驳回的审批,生成最终报告,还提供了能实现该方法的系统。本发明能实现生物信息分析的流程化管理,审阅通道具备自适应匹配性,杜绝分析结果与标样信息匹配错误的情况发生。生信分析Pipeline可拆分,能实现断点重新运行的监控作业,规避了报错从头运行的情况发生,保障分析运行效率。云服务器的构建方式,并配合云节点的并行执行作业,提高了分析效率。

Description

生物信息分析流程化管理方法及系统
技术领域
本发明涉及生物信息分析流程化管理方法及系统,属于基于云计算综合型管理方法的技术领域。
背景技术
随着测序技术的快速发展,基因研究机构、医学科研机构和公司产生了海量的生物学测序数据。但是众所周知,实验测序得到的原始数据并不能直接提供有价值的科学研究信息或疾病治疗药物的关联信息,需要利用生物信息学分析技术对这些数据进行计算挖掘,从而给出清晰且易于导出结论的结果信息。
生物信息学是在生命科学的研究中以计算机为主要研究工具对生物学数据进行存储和计算分析,面对高通量测序所产生的海量数据,越来越多的研究人员或公司基于高性能计算机集群通过安装各种生物信息分析软件来进行计算分析。
生物信息分析涉及多种测序数据,现在技术中,细菌测序数据、真菌测序数据、有参全长转录组测序数据和无参全长转录组测序数据的分析一般分别在单独的生物信息分析平台上进行,分析所有的这些数据需要在计算机上搭建不同的分析平台,每个分析平台又涉及多个分析软件和程序,因为分析软件和程序是内置于各分析平台内的,从而造成分析软件和程序在各分析平台内存在重复安装、资源浪费的问题,并且利用计算机进行数据处理时,不适宜的资源浪费会占用计算机内存空间,降低其运行速度,导致分析过程缓慢,分析效率低下,而且,用户在进行生物信息分析时需要不同的测序数据使用不同的平台,用户使用感较差。
生物信息分析过程是很多分析软件和程序相互关联,通过不同的步骤方法处理数据后得到最终的分析结果,由于这些分析软件层出不断、更新迭代,每个分析程序参数、文件格式、运行方式各异,研究人员不断的要去研究新的软件方法并在计算机或集群上安装部署,而且这些分析软件完成分析后得到的数据,还需研究人员进行进一步人工整理,无法自动获取最终的分析结果并生成图表或文字表示的报告,还存在张冠李戴的现象。
发明内容
本发明的目的是解决上述现有技术的不足,针对现有技术中生物信息分析存在流程管理缺失影响作业效率的问题,提出生物信息分析流程化管理方法及系统。
为了达到上述目的,本发明所采用的技术方案为:
生物信息分析流程化管理方法,包括如下步骤:
S1录入标样信息;
S2上传对应录入标样信息的二代测序Fastq文件;
S3配置生信脚本对上传的二代测序Fastq文件进行自动化分析;
S4分析数据与对应录入标样信息生成匹配审阅通道;
S5解读分析数据在审阅通道内生成解读报告;
S6在审阅通道内对解读报告进行通过或驳回的审批,驳回审批后重新执行步骤S5,通过后进入下一步骤;
S7生成最终报告。
优选地,所述步骤S2中,同步上传与所述标样信息相匹配的若干匹配标样的二代测序Fastq文件,并通过步骤S3进行各匹配标样的自动化分析,
所述步骤S4中,审阅通道内包括标样分析数据、对应标样信息、及与标样相匹配的匹配标样分析数据。
优选地,所述步骤S3中,对标样及任意匹配标样进行生信分析Pipeline拆分,拆分为若干模块,并进行断点重新运行的监控作业。
优选地,所述步骤S3中,标样与对应匹配标样组合成系,各系自动化分析作业进行优先级自动排序。
优选地,所述步骤S3中,若干系自动化分析并行作业。
本发明还提出了生物信息分析流程化管理系统,包括:
录入单元,用于录入标样信息;
网传单元,用于上传对应录入标样信息的二代测序Fastq文件;
生物信息分析单元,用于配置生信脚本对上传的二代测序Fastq文件进行自动化分析;
报告处理单元,用于分析数据与对应录入标样信息生成匹配审阅通道;
解读单元,用于解读分析数据在审阅通道内生成解读报告;
审批单元,用于在审阅通道内对解读报告进行通过或驳回的审批,驳回审批后所述解读单元重新生成解读报告;
最终报告生成单元,用于生成最终报告。
优选地,所述网传单元,还用于同步上传与所述标样信息相匹配的若干匹配标样的二代测序Fastq文件,
所述生物信息分析单元,还用于进行各匹配标样的自动化分析,
所述报告处理单元,用于审阅通道内包括标样分析数据、对应标样信息、及与标样相匹配的匹配标样分析数据。
优选地,所述生物信息分析单元包括拆分监控模块,所述拆分监控模块用于对标样及任意匹配标样进行生信分析Pipeline拆分,拆分为若干模块,并进行断点重新运行的监控作业。
优选地,所述生物信息分析单元包括云服务器,用于标样与对应匹配标样组合成系,对各系自动化分析作业进行优先级自动排序。
优选地,所述生物信息分析单元包括若干云节点,用于若干系自动化分析并行作业。
本发明的有益效果主要体现在:
1.能实现生物信息分析的流程化管理,管理规范合理高效,审阅通道具备自适应匹配性,杜绝分析结果与标样信息匹配错误的情况发生。
2.生信分析Pipeline可拆分,并能实现断点重新运行的监控作业,规避了报错从头运行的情况发生,保障分析运行效率。
3.采用云服务器的构建方式,并配合云节点的并行执行作业,提高了分析效率。
4.标样与匹配标样的结合分析,报告结果数据更全面,具备较高地参考价值。
附图说明
图1是本发明生物信息分析流程化管理方法的流程示意图。
具体实施方式
本发明提供生物信息分析流程化管理方法及系统。以下结合附图对本发明技术方案进行详细描述,以使其更易于理解和掌握。
生物信息分析流程化管理方法,如图1所示包括如下步骤:
录入标样信息。
采用OCR扫描录入或手动录入的方式,一般包括标样名称、标样编号、同族编号等。而同族编号利于后续进行匹配管理。
上传对应录入标样信息的二代测序Fastq文件,二代测序Fastq文件属于现有技术,在此不再赘述。
配置生信脚本对上传的二代测序Fastq文件进行自动化分析。
即根据需求配置服务器资源,对上传的二代测序Fastq文件进行自动化分析。
分析数据与对应录入标样信息生成匹配审阅通道。
自动化分析后的分析数据会与对应的标样信息进入同一个审阅通道,即通过唯一的代号信息进行数据匹配归拢,防止分析数据与标样信息不匹配。
解读分析数据在审阅通道内生成解读报告。
可以将审阅通道理解为唯一性处理界面,而解读人员在唯一性处理界面内进行分析数据下载,进行分析编译后保存解读报告或上传报告。
在审阅通道内对解读报告进行通过或驳回的审批,驳回审批后重新进行解读报告生成,通过后生成最终报告。即高级解读人员对解读报告进行审批。
更细化地说明,每个标样均具备独立的运行通道,相互之间不存在交错干扰,如论是数据录入、分析、数据归拢、解读及审批。
在一个具体实施例中,同步上传与标样信息相匹配的若干匹配标样的二代测序Fastq文件,并进行各匹配标样的自动化分析,审阅通道内包括标样分析数据、对应标样信息、及与标样相匹配的匹配标样分析数据。
标样和匹配标样具备较高地相关度,可以按照族系进行选择,易于某些特定地遗传基因综合分析,更具备指向性。
在一个具体实施例中,对标样及任意匹配标样进行生信分析Pipeline拆分,拆分为若干模块,并进行断点重新运行的监控作业。
更细化地说明,可以通过人工编辑进行生信分析Pipeline拆分,也可以设定自动拆分指令进行自动拆分,如此设计易于分析过程监控,当任意模块运行报错时,可直接调整,从断点处重新运行而无需从头开始。
在一个具体实施例中,标样与对应匹配标样组合成系,各系自动化分析作业进行优先级自动排序。可进行选择性列队。
在一个优选实施例中,若干系自动化分析并行作业。实现并行运行,提升分析效率。
本发明还提出了生物信息分析流程化管理系统,其用于作为生物信息分析流程化管理方法的实现载体,通过软硬件结合的方式实现。
录入单元,用于录入标样信息;
网传单元,用于上传对应录入标样信息的二代测序Fastq文件;
生物信息分析单元,用于配置生信脚本对上传的二代测序Fastq文件进行自动化分析;
报告处理单元,用于分析数据与对应录入标样信息生成匹配审阅通道;
解读单元,用于解读分析数据在审阅通道内生成解读报告;
审批单元,用于在审阅通道内对解读报告进行通过或驳回的审批,驳回审批后所述解读单元重新生成解读报告;
最终报告生成单元,用于生成最终报告。
该网传单元,还用于同步上传与所述标样信息相匹配的若干匹配标样的二代测序Fastq文件,
生物信息分析单元,还用于进行各匹配标样的自动化分析,
报告处理单元,用于审阅通道内包括标样分析数据、对应标样信息、及与标样相匹配的匹配标样分析数据。
生物信息分析单元包括拆分监控模块,所述拆分监控模块用于对标样及任意匹配标样进行生信分析Pipeline拆分,拆分为若干模块,并进行断点重新运行的监控作业。
生物信息分析单元包括云服务器,用于标样与对应匹配标样组合成系,对各系自动化分析作业进行优先级自动排序。
生物信息分析单元包括若干云节点,用于若干系自动化分析并行作业。
通过以上描述可以发现,本发明生物信息分析流程化管理方法及系统,能实现生物信息分析的流程化管理,审阅通道具备自适应匹配性,杜绝分析结果与标样信息匹配错误的情况发生。生信分析Pipeline可拆分,并能实现断点重新运行的监控作业,规避了报错从头运行的情况发生,保障分析运行效率。采用云服务器的构建方式,并配合云节点的并行执行作业,提高了分析效率。标样与匹配标样的结合分析,报告结果数据更全面,具备较高地参考价值。
以上对本发明的技术方案进行了充分描述,需要说明的是,本发明的具体实施方式并不受上述描述的限制,本领域的普通技术人员依据本发明的精神实质在结构、方法或功能等方面采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

Claims (6)

1.生物信息分析流程化管理方法,其特征在于包括如下步骤:
S1录入标样信息;
S2上传对应录入标样信息的二代测序Fastq文件;
S3配置生信脚本对上传的二代测序Fastq文件进行自动化分析得到分析数据;
S4将分析数据与对应录入标样信息生成匹配审阅通道;
S5解读分析数据并在审阅通道内生成解读报告;
S6在审阅通道内对解读报告进行通过或驳回的审批,驳回审批后重新执行步骤S5,通过后进入下一步骤;
S7生成最终报告;
所述步骤S2中,同步上传与所述标样信息相匹配的若干匹配标样的二代测序Fastq文件,并通过步骤S3进行各匹配标样的自动化分析,
所述步骤S4中,审阅通道内包括标样分析数据、对应标样信息、及与标样相匹配的匹配标样分析数据;
所述步骤S3中,对标样及任意匹配标样进行生信分析Pipeline拆分,拆分为若干模块,并进行断点重新运行的监控作业。
2.根据权利要求1所述生物信息分析流程化管理方法,其特征在于:
所述步骤S3中,标样与对应匹配标样组合成系,对各系自动化分析作业进行优先级自动排序。
3.根据权利要求2所述生物信息分析流程化管理方法,其特征在于:
所述步骤S3中,若干系自动化分析并行作业。
4.生物信息分析流程化管理系统,其特征在于包括:
录入单元,用于录入标样信息;
网传单元,用于上传对应录入标样信息的二代测序Fastq文件;
生物信息分析单元,用于配置生信脚本对上传的二代测序Fastq文件进行自动化分析得到分析数据;
报告处理单元,用于将分析数据与对应录入标样信息生成匹配审阅通道;
解读单元,用于解读分析数据并在审阅通道内生成解读报告;
审批单元,用于在审阅通道内对解读报告进行通过或驳回的审批,驳回审批后所述解读单元重新生成解读报告;
最终报告生成单元,用于生成最终报告;
所述网传单元,还用于同步上传与所述标样信息相匹配的若干匹配标样的二代测序Fastq文件;
所述生物信息分析单元,还用于进行各匹配标样的自动化分析;
所述报告处理单元,用于审阅通道内包括标样分析数据、对应标样信息、及与标样相匹配的匹配标样分析数据;
所述生物信息分析单元包括拆分监控模块,所述拆分监控模块用于对标样及任意匹配标样进行生信分析Pipeline拆分,拆分为若干模块,并进行断点重新运行的监控作业。
5.根据权利要求4所述生物信息分析流程化管理系统,其特征在于:
所述生物信息分析单元包括云服务器,用于标样与对应匹配标样组合成系,对各系自动化分析作业进行优先级自动排序。
6.根据权利要求5所述生物信息分析流程化管理系统,其特征在于:
所述生物信息分析单元包括若干云节点,用于若干系自动化分析并行作业。
CN201910291806.3A 2019-04-12 2019-04-12 生物信息分析流程化管理方法及系统 Active CN110176276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910291806.3A CN110176276B (zh) 2019-04-12 2019-04-12 生物信息分析流程化管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910291806.3A CN110176276B (zh) 2019-04-12 2019-04-12 生物信息分析流程化管理方法及系统

Publications (2)

Publication Number Publication Date
CN110176276A CN110176276A (zh) 2019-08-27
CN110176276B true CN110176276B (zh) 2021-01-05

Family

ID=67689819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910291806.3A Active CN110176276B (zh) 2019-04-12 2019-04-12 生物信息分析流程化管理方法及系统

Country Status (1)

Country Link
CN (1) CN110176276B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111073961A (zh) * 2019-12-20 2020-04-28 苏州赛美科基因科技有限公司 一种基因稀有突变的高通量检测方法
CN112365928B (zh) * 2020-11-16 2021-07-06 赛福解码(北京)基因科技有限公司 生物信息数据分析和结果质控自动化方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103393409A (zh) * 2013-08-22 2013-11-20 南京大学 一种多维生物光声图像谱综合分析方法
CN106960135A (zh) * 2017-03-17 2017-07-18 明码(上海)生物科技有限公司 靶向基因二代测序数据自动化分析系统及方法
CN107368700A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于计算云平台的微生物多样性交互分析系统及其方法
WO2018045228A2 (en) * 2016-08-31 2018-03-08 Intermountain Invention Management, Llc Interpreting genomic results and providing targeted treatment options in cancer patients

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004055646A2 (en) * 2002-12-13 2004-07-01 Gene Codes Forensics, Inc. Method for profiling and identifying persons by using data samples
CN103714180A (zh) * 2014-01-08 2014-04-09 浪潮(北京)电子信息产业有限公司 一种生物信息学数据库系统和数据处理方法
CN104484558B (zh) * 2014-12-08 2018-04-24 深圳华大基因科技服务有限公司 生物信息项目的分析报告自动生成方法及系统
CN107220885A (zh) * 2017-06-20 2017-09-29 明码(上海)生物科技有限公司 一种基因检测产品报告系统及方法
CN108694305B (zh) * 2018-03-30 2021-06-11 武汉生物样本库有限公司 基于云计算的生物信息分析系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103393409A (zh) * 2013-08-22 2013-11-20 南京大学 一种多维生物光声图像谱综合分析方法
WO2018045228A2 (en) * 2016-08-31 2018-03-08 Intermountain Invention Management, Llc Interpreting genomic results and providing targeted treatment options in cancer patients
CN106960135A (zh) * 2017-03-17 2017-07-18 明码(上海)生物科技有限公司 靶向基因二代测序数据自动化分析系统及方法
CN107368700A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于计算云平台的微生物多样性交互分析系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SeqReporter: automating next-generation sequencing result interpretation and reporting workflow in a clinical laboratory;Simak Roy et al;《The Journal of molecular diagnostics》;20141231;第16卷(第1期);第11-22页 *
精准医学对医学信息学提出的挑战与任务;弓孟春;《医学信息学杂志》;20161231(第1期);第2-7页 *

Also Published As

Publication number Publication date
CN110176276A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN108694305B (zh) 基于云计算的生物信息分析系统
CN110083639A (zh) 一种基于聚类分析的数据血缘智能溯源的方法及装置
CN110176276B (zh) 生物信息分析流程化管理方法及系统
WO2022267867A1 (zh) 基因测序分析方法、装置、存储介质和计算机设备
CN109615138B (zh) 一种作业流程调优方法及装置
CN105653900A (zh) 无参转录组分析系统及方法
CN105653897B (zh) 基于生物云平台的lncRNA分析系统及方法
CN109933515B (zh) 一种回归测试用例集的优化方法和自动优化装置
CN113609008A (zh) 测试结果分析方法、装置和电子设备
CN116382647A (zh) 一种基于大数据的软件开发管理系统及方法
CN111352820A (zh) 一种高性能应用运行状态预测和监控方法、设备和装置
US11823066B2 (en) Enterprise market volatility predictions through synthetic DNA and mutant nucleotides
CN111429967A (zh) Pacbio三代测序数据的处理方法
Liang et al. MAGIC-SPP: a database-driven DNA sequence processing package with associated management tools
CN110021342B (zh) 用于加速变异位点的识别的方法及系统
JP4918868B2 (ja) 入力値選定プログラム、入力値選定方法および入力値選定装置
US11823064B2 (en) Enterprise market volatility prediction through synthetic DNA and mutant nucleotides
US11823065B2 (en) Enterprise market volatility predictions through synthetic DNA and mutant nucleotides
CN115018477B (zh) 基于企业oa系统的大数据分析方法及设备
US11507728B2 (en) Click to document
CN117194083B (zh) 基于因果推断的流程时间异常根因追溯分析方法与系统
CN115866347B (zh) 视频处理方法、装置、电子设备
CN111065100B (zh) 威胁分析方法及装置和威胁分析系统
US20030113767A1 (en) Confirmation sequencing
Sarno et al. Determining linear temporal logic formula for decomposed process model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant