CN107590365A - Docker技术在高通量测序数据分析中的应用 - Google Patents

Docker技术在高通量测序数据分析中的应用 Download PDF

Info

Publication number
CN107590365A
CN107590365A CN201710722110.2A CN201710722110A CN107590365A CN 107590365 A CN107590365 A CN 107590365A CN 201710722110 A CN201710722110 A CN 201710722110A CN 107590365 A CN107590365 A CN 107590365A
Authority
CN
China
Prior art keywords
docker
biological
analysis
mirror image
flux sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710722110.2A
Other languages
English (en)
Inventor
袁晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ancient Gene Technology Co Ltd
Original Assignee
Wuhan Ancient Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Ancient Gene Technology Co Ltd filed Critical Wuhan Ancient Gene Technology Co Ltd
Priority to CN201710722110.2A priority Critical patent/CN107590365A/zh
Publication of CN107590365A publication Critical patent/CN107590365A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了Docker技术在高通量测序数据分析中的应用,属于生物计算学及分子生物学领域。使用Docker先构建基础镜像,再将分析所需软件、语言在交互模式下保存到镜像中;搭建分析流程后,再生成生物云计算平台镜像;将其保存为tar压缩包上传并导入到需要进行分析的服务器目录,再将需要分析的数据信息及数据注释文件挂载到镜像中,调用配置好的分析流程即可对数据进行分析。本发明将Docker技术应用于高通量测序数据分析,可以解决现有生物大数据分析中存在的软件安装、配置、迁移及所依赖的计算机资源差异等局限性问题,使得研究人员能够高效的对生物测序大数据进行挖掘分析,减少了对分析手段本身处理的时间。

Description

Docker技术在高通量测序数据分析中的应用
技术领域
本发明涉及生物计算学及分子生物学领域,具体涉及Docker技术在高通量测序数据分析中的应用。
背景技术
高通量测序技术(High Throught Sequencing Technology)又称为下一代测序技术(Next Generation SequencingTechnology,NGS)能够一次并行的对几十万乃至几百万条DNA分子进行序列测定。随着转录组测序、基因组重测序、基因组de novo测序、外显子组测序、宏基因组测序等高通量测序技术的日益成熟发展,随之产生的生物数据在数据种类、数量及数据复杂性等方面均呈现出大爆炸式的增长,如何有效对这些生物大数据进行有效的分析利用成为现代生物学的机遇和挑战。
高通量数据分析流程中使用到的数据分析软件均由各个领域的专家依赖各种脚本文件和库文件编写而成,由于未考虑与硬件资源的匹配,往往一个软件依赖各种库文件及模块。其中软件安装配置困难、维护不便,各类分析处理软件需要的计算机资源差异性、兼容性、迁移等受到了限制。
发明内容
本发明的目的在于解决现有生物大数据分析所需的分析软件安装、配置、迁移及所依赖的计算机资源差异等局限性问题,提供一种Docker技术在高通量测序数据分析中的应用。
本发明的目的通过下述技术方案实现:
Docker可以自动化地部署应用到可移植的容器中,该容器包含所需软件的组件及所有依赖,其能够独立于硬件、语言、框架及打包系统。Docker可以封装任何有效的负载,并在几乎所有的服务器之间进行一次性的迁移运行。即只需要开发构建一次,运营人员只需配置服务,无需了解底层细节,即可以运行所有应用。将Docker技术应用于高通量测序数据分析可解决现有生物大数据分析中存在的问题。
一种Docker技术用于高通量测序数据分析的方法,包括如下步骤:
(1)Docker生物云平台基础镜像的搭建:
Ⅰ.使用dockercommit命令构建基础镜像,再由dockerrun进入镜像的交互模式;
Ⅱ.在交互式模式下,下载、安装高通量测序数据分析所需要的软件及依赖的语言并保存镜像。
(2)生物高通量测序数据分析流程的搭建及生物云计算平台镜像的构建:
根据生物高通量测序数据分析流程及所使用的软件,在已安装软件及语言的基础镜像中搭建生物信息分析流程,再通过docker commit提交生成生物云计算平台镜像。
(3)生物云计算平台镜像的迁移与使用:
Ⅰ.通过docker save命令将配置完成的生物云计算平台镜像保存为一个tar压缩包;
Ⅱ.将tar压缩包上传到需要进行生物高通量测序数据分析的服务器目录,再通过docker load命令导入生物云计算平台镜像,导入后可以通过docker images命令,查看镜像是否导入成功;
Ⅲ.通过docker run命令挂载需要分析的数据信息及数据注释文件到导入成功的生物云计算平台镜像中;
Ⅳ.在生物云计算平台镜像中调用已经配置好的分析流程运行即可对数据进行分析。
其中,所述的高通量测序数据分析包括但不限于:基因组重测序分析、转录组测序分析、微生物多样性分析、ChIP-Seq、BS-Seq等各类生物信息分析。
本发明相对于现有技术具有如下优点和有益效果:本发明将生物数据信息分析需要的软件及依赖环境配置到可移植的docker容器中,从而打破了生物信息分析所需软件复杂性配置、环境依赖及流程迁移性差等局限性,使得分析流程变得易用、便捷与轻便。同时使得研究人员能够高效的对生物测序大数据进行挖掘分析,减少了对分析手段本身处理的时间。
附图说明
图1是ChIP-seq数据分析流程搭建示意图。
具体实施方式
下面结合实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例1Docker技术在染色质免疫共沉淀高通量测序(ChIP-seq)数据分析中的应用
(1)ChIP-Seq V0基础镜像的搭建:
Ⅰ.使用docker commit命令构建基础镜像ChIP-seq V0,再由docker run进入镜像的交互模式;
Ⅱ.在交互式模式下,安装ChIP-Seq分析所需要的软件及依赖的语言并保存该基础镜像。其中所安装主要软件、语言列表见下表1。
表1.ChIP-seq分析所需主要软件、语言列表
(2)ChIP-Seq分析流程的搭建及ChIP-Seq V1.0镜像的构建:
在安装上述软件及语言的基础镜像ChIP-Seq V0中,按照图1所示搭建分析流程ChIP-Seq.sh,再用docker commit提交生成为一个新镜像ChIP-Seq V1.0。
(3)ChIP-Seq V1.0镜像的迁移与使用:
Ⅰ.通过docker save命令将配置完成的生物云计算平台镜像ChIP-seq V1.0保存为一个tar压缩包;
Ⅱ.将ChIP-Seq V1.0镜像的tar压缩包上传到需要进行ChIP-seq数据分析的服务器目录,再通过docker load命令导入ChIP-Seq V1.0镜像,导入后通过docker images命令,查看镜像是否导入成功;
Ⅲ.通过docker run命令挂载需要进行分析的数据信息及数据注释文件到导入成功的ChIP-Seq V1.0镜像中;
Ⅳ.在ChIP-Seq V1.0镜像中调用步骤(2)中搭建好的ChIP-Seq分析流程ChIP-Seq.sh运行即可对数据进行分析。
上述实施例为本发明具体到某一数据分析流程的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.Docker技术在高通量测序数据分析中的应用。
2.一种Docker技术用于高通量测序数据分析的方法,其特征在于:包括如下步骤:
(1)Docker生物云平台基础镜像的搭建:
Ⅰ.使用docker commit命令构建基础镜像,再由docker run进入镜像的交互模式;
Ⅱ.在交互式模式下,下载、安装高通量测序数据分析所需要的软件及依赖的语言并保存镜像;
(2)生物高通量测序数据分析流程的搭建及生物云计算平台镜像的构建:
根据生物高通量测序数据分析流程及所使用的软件,在已安装软件及语言的基础镜像中搭建生物信息分析流程,再通过docker commit提交生成生物云计算平台镜像;
(3)生物云计算平台镜像的迁移与使用:
Ⅰ.通过docker save命令将配置完成的生物云计算平台镜像保存为一个tar压缩包;
Ⅱ.将tar压缩包上传到需要进行生物高通量测序数据分析的服务器目录,再通过docker load命令导入生物云计算平台镜像;
Ⅲ.通过docker run命令挂载需要分析的数据信息及数据注释文件到导入成功的生物云计算平台镜像中;
Ⅳ.在生物云计算平台镜像中调用已经配置好的分析流程运行即可对数据进行分析。
3.根据权利要求2所述的方法,其特征在于:所述的高通量测序数据分析为ChIP-Seq数据分析时,所需要的软件及依赖的语言包括:FastQC、Trimmomatic、BWA、MACS2、samtools、bedtools、MEME、Python、Perl。
CN201710722110.2A 2017-08-22 2017-08-22 Docker技术在高通量测序数据分析中的应用 Withdrawn CN107590365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710722110.2A CN107590365A (zh) 2017-08-22 2017-08-22 Docker技术在高通量测序数据分析中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710722110.2A CN107590365A (zh) 2017-08-22 2017-08-22 Docker技术在高通量测序数据分析中的应用

Publications (1)

Publication Number Publication Date
CN107590365A true CN107590365A (zh) 2018-01-16

Family

ID=61043192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710722110.2A Withdrawn CN107590365A (zh) 2017-08-22 2017-08-22 Docker技术在高通量测序数据分析中的应用

Country Status (1)

Country Link
CN (1) CN107590365A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897527A (zh) * 2018-05-21 2018-11-27 东莞理工学院 一种云计算中遥感图像处理的Docker镜像自动化动态构建方法
CN109326330A (zh) * 2018-08-30 2019-02-12 武汉古奥基因科技有限公司 生物信息分析工具的制作方法、装置及可存储介质
CN109448788A (zh) * 2018-10-24 2019-03-08 广州基迪奥生物科技有限公司 基因组学及生物信息学的微生物组学在线分析平台架构
CN111142865A (zh) * 2019-12-30 2020-05-12 北京百迈客生物科技有限公司 一种在生物云上部署第三方软件的方法及系统
CN113707218A (zh) * 2020-05-22 2021-11-26 苏州安智因医学检验所有限公司 一种用于人类遗传病基因检测的智能解读方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016141305A1 (en) * 2015-03-05 2016-09-09 Vmware, Inc. Methods and apparatus to select virtualization environments for migration
CN106843837A (zh) * 2016-12-21 2017-06-13 中电科华云信息技术有限公司 openstack组件容器化的构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016141305A1 (en) * 2015-03-05 2016-09-09 Vmware, Inc. Methods and apparatus to select virtualization environments for migration
CN106843837A (zh) * 2016-12-21 2017-06-13 中电科华云信息技术有限公司 openstack组件容器化的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程功: "《Docker生物云计算平台分析松材线虫高通量测序数据的应用研究》", 《中国博士学位论文全文数据库农业科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897527A (zh) * 2018-05-21 2018-11-27 东莞理工学院 一种云计算中遥感图像处理的Docker镜像自动化动态构建方法
CN109326330A (zh) * 2018-08-30 2019-02-12 武汉古奥基因科技有限公司 生物信息分析工具的制作方法、装置及可存储介质
CN109326330B (zh) * 2018-08-30 2020-10-16 武汉古奥基因科技有限公司 生物信息分析工具的制作方法、装置及可存储介质
CN109448788A (zh) * 2018-10-24 2019-03-08 广州基迪奥生物科技有限公司 基因组学及生物信息学的微生物组学在线分析平台架构
CN111142865A (zh) * 2019-12-30 2020-05-12 北京百迈客生物科技有限公司 一种在生物云上部署第三方软件的方法及系统
CN113707218A (zh) * 2020-05-22 2021-11-26 苏州安智因医学检验所有限公司 一种用于人类遗传病基因检测的智能解读方法及系统

Similar Documents

Publication Publication Date Title
CN107590365A (zh) Docker技术在高通量测序数据分析中的应用
US9354922B2 (en) Metadata-driven workflows and integration with genomic data processing systems and techniques
US8667489B2 (en) Systems and methods for sharing the results of analyses among virtual machines
US9639444B2 (en) Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services
Yue et al. Long-read sequencing data analysis for yeasts
US20120054732A1 (en) Reducing downtime while patching binaries on a cluster
US9986018B2 (en) Method and system for a scheduled map executor
US8561180B1 (en) Systems and methods for aiding in the elimination of false-positive malware detections within enterprises
CN102236672A (zh) 一种数据导入方法及装置
CN108197486A (zh) 大数据脱敏方法、系统、计算机可读介质及设备
Yang Cloud computing for storing and analyzing petabytes of genomic data
CN1920861A (zh) 电子签核系统及方法
Levi et al. Searching the sequence read archive using Jetstream and Wrangler
CN107122626A (zh) 二代测序dna突变检测的生物信息学分析的方法及系统
Robertsen et al. Meta-pipe-pipeline annotation, analysis and visualization of marine metagenomic sequence data
Mohamed et al. Accelerating data-intensive genome analysis in the cloud
EP3997568B1 (en) Workflow-based scheduling and batching in multi-tenant distributed systems
Zhang et al. Hot-starting software containers for STAR aligner
Wilke et al. An experience report: porting the MG‐RAST rapid metagenomics analysis pipeline to the cloud
CN102546628B (zh) 一种样本鉴定方法及系统
Stansfield et al. R Tutorial: Detection of Differentially Interacting Chromatin Regions From Multiple Hi‐C Datasets
CN113495498B (zh) 用于硬件设备的模拟方法、模拟器、设备和介质
US8381302B1 (en) Systems and methods for translating non-comparable values into comparable values for use in heuristics
US10956512B2 (en) Document link migration
CN102591978A (zh) 一种分布式文本拷贝检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180116

WW01 Invention patent application withdrawn after publication