CN107590365A - Docker技术在高通量测序数据分析中的应用 - Google Patents
Docker技术在高通量测序数据分析中的应用 Download PDFInfo
- Publication number
- CN107590365A CN107590365A CN201710722110.2A CN201710722110A CN107590365A CN 107590365 A CN107590365 A CN 107590365A CN 201710722110 A CN201710722110 A CN 201710722110A CN 107590365 A CN107590365 A CN 107590365A
- Authority
- CN
- China
- Prior art keywords
- docker
- biological
- analysis
- mirror image
- flux sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明公开了Docker技术在高通量测序数据分析中的应用,属于生物计算学及分子生物学领域。使用Docker先构建基础镜像,再将分析所需软件、语言在交互模式下保存到镜像中;搭建分析流程后,再生成生物云计算平台镜像;将其保存为tar压缩包上传并导入到需要进行分析的服务器目录,再将需要分析的数据信息及数据注释文件挂载到镜像中,调用配置好的分析流程即可对数据进行分析。本发明将Docker技术应用于高通量测序数据分析,可以解决现有生物大数据分析中存在的软件安装、配置、迁移及所依赖的计算机资源差异等局限性问题,使得研究人员能够高效的对生物测序大数据进行挖掘分析,减少了对分析手段本身处理的时间。
Description
技术领域
本发明涉及生物计算学及分子生物学领域,具体涉及Docker技术在高通量测序数据分析中的应用。
背景技术
高通量测序技术(High Throught Sequencing Technology)又称为下一代测序技术(Next Generation SequencingTechnology,NGS)能够一次并行的对几十万乃至几百万条DNA分子进行序列测定。随着转录组测序、基因组重测序、基因组de novo测序、外显子组测序、宏基因组测序等高通量测序技术的日益成熟发展,随之产生的生物数据在数据种类、数量及数据复杂性等方面均呈现出大爆炸式的增长,如何有效对这些生物大数据进行有效的分析利用成为现代生物学的机遇和挑战。
高通量数据分析流程中使用到的数据分析软件均由各个领域的专家依赖各种脚本文件和库文件编写而成,由于未考虑与硬件资源的匹配,往往一个软件依赖各种库文件及模块。其中软件安装配置困难、维护不便,各类分析处理软件需要的计算机资源差异性、兼容性、迁移等受到了限制。
发明内容
本发明的目的在于解决现有生物大数据分析所需的分析软件安装、配置、迁移及所依赖的计算机资源差异等局限性问题,提供一种Docker技术在高通量测序数据分析中的应用。
本发明的目的通过下述技术方案实现:
Docker可以自动化地部署应用到可移植的容器中,该容器包含所需软件的组件及所有依赖,其能够独立于硬件、语言、框架及打包系统。Docker可以封装任何有效的负载,并在几乎所有的服务器之间进行一次性的迁移运行。即只需要开发构建一次,运营人员只需配置服务,无需了解底层细节,即可以运行所有应用。将Docker技术应用于高通量测序数据分析可解决现有生物大数据分析中存在的问题。
一种Docker技术用于高通量测序数据分析的方法,包括如下步骤:
(1)Docker生物云平台基础镜像的搭建:
Ⅰ.使用dockercommit命令构建基础镜像,再由dockerrun进入镜像的交互模式;
Ⅱ.在交互式模式下,下载、安装高通量测序数据分析所需要的软件及依赖的语言并保存镜像。
(2)生物高通量测序数据分析流程的搭建及生物云计算平台镜像的构建:
根据生物高通量测序数据分析流程及所使用的软件,在已安装软件及语言的基础镜像中搭建生物信息分析流程,再通过docker commit提交生成生物云计算平台镜像。
(3)生物云计算平台镜像的迁移与使用:
Ⅰ.通过docker save命令将配置完成的生物云计算平台镜像保存为一个tar压缩包;
Ⅱ.将tar压缩包上传到需要进行生物高通量测序数据分析的服务器目录,再通过docker load命令导入生物云计算平台镜像,导入后可以通过docker images命令,查看镜像是否导入成功;
Ⅲ.通过docker run命令挂载需要分析的数据信息及数据注释文件到导入成功的生物云计算平台镜像中;
Ⅳ.在生物云计算平台镜像中调用已经配置好的分析流程运行即可对数据进行分析。
其中,所述的高通量测序数据分析包括但不限于:基因组重测序分析、转录组测序分析、微生物多样性分析、ChIP-Seq、BS-Seq等各类生物信息分析。
本发明相对于现有技术具有如下优点和有益效果:本发明将生物数据信息分析需要的软件及依赖环境配置到可移植的docker容器中,从而打破了生物信息分析所需软件复杂性配置、环境依赖及流程迁移性差等局限性,使得分析流程变得易用、便捷与轻便。同时使得研究人员能够高效的对生物测序大数据进行挖掘分析,减少了对分析手段本身处理的时间。
附图说明
图1是ChIP-seq数据分析流程搭建示意图。
具体实施方式
下面结合实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例1Docker技术在染色质免疫共沉淀高通量测序(ChIP-seq)数据分析中的应用
(1)ChIP-Seq V0基础镜像的搭建:
Ⅰ.使用docker commit命令构建基础镜像ChIP-seq V0,再由docker run进入镜像的交互模式;
Ⅱ.在交互式模式下,安装ChIP-Seq分析所需要的软件及依赖的语言并保存该基础镜像。其中所安装主要软件、语言列表见下表1。
表1.ChIP-seq分析所需主要软件、语言列表
(2)ChIP-Seq分析流程的搭建及ChIP-Seq V1.0镜像的构建:
在安装上述软件及语言的基础镜像ChIP-Seq V0中,按照图1所示搭建分析流程ChIP-Seq.sh,再用docker commit提交生成为一个新镜像ChIP-Seq V1.0。
(3)ChIP-Seq V1.0镜像的迁移与使用:
Ⅰ.通过docker save命令将配置完成的生物云计算平台镜像ChIP-seq V1.0保存为一个tar压缩包;
Ⅱ.将ChIP-Seq V1.0镜像的tar压缩包上传到需要进行ChIP-seq数据分析的服务器目录,再通过docker load命令导入ChIP-Seq V1.0镜像,导入后通过docker images命令,查看镜像是否导入成功;
Ⅲ.通过docker run命令挂载需要进行分析的数据信息及数据注释文件到导入成功的ChIP-Seq V1.0镜像中;
Ⅳ.在ChIP-Seq V1.0镜像中调用步骤(2)中搭建好的ChIP-Seq分析流程ChIP-Seq.sh运行即可对数据进行分析。
上述实施例为本发明具体到某一数据分析流程的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.Docker技术在高通量测序数据分析中的应用。
2.一种Docker技术用于高通量测序数据分析的方法,其特征在于:包括如下步骤:
(1)Docker生物云平台基础镜像的搭建:
Ⅰ.使用docker commit命令构建基础镜像,再由docker run进入镜像的交互模式;
Ⅱ.在交互式模式下,下载、安装高通量测序数据分析所需要的软件及依赖的语言并保存镜像;
(2)生物高通量测序数据分析流程的搭建及生物云计算平台镜像的构建:
根据生物高通量测序数据分析流程及所使用的软件,在已安装软件及语言的基础镜像中搭建生物信息分析流程,再通过docker commit提交生成生物云计算平台镜像;
(3)生物云计算平台镜像的迁移与使用:
Ⅰ.通过docker save命令将配置完成的生物云计算平台镜像保存为一个tar压缩包;
Ⅱ.将tar压缩包上传到需要进行生物高通量测序数据分析的服务器目录,再通过docker load命令导入生物云计算平台镜像;
Ⅲ.通过docker run命令挂载需要分析的数据信息及数据注释文件到导入成功的生物云计算平台镜像中;
Ⅳ.在生物云计算平台镜像中调用已经配置好的分析流程运行即可对数据进行分析。
3.根据权利要求2所述的方法,其特征在于:所述的高通量测序数据分析为ChIP-Seq数据分析时,所需要的软件及依赖的语言包括:FastQC、Trimmomatic、BWA、MACS2、samtools、bedtools、MEME、Python、Perl。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710722110.2A CN107590365A (zh) | 2017-08-22 | 2017-08-22 | Docker技术在高通量测序数据分析中的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710722110.2A CN107590365A (zh) | 2017-08-22 | 2017-08-22 | Docker技术在高通量测序数据分析中的应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107590365A true CN107590365A (zh) | 2018-01-16 |
Family
ID=61043192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710722110.2A Withdrawn CN107590365A (zh) | 2017-08-22 | 2017-08-22 | Docker技术在高通量测序数据分析中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590365A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897527A (zh) * | 2018-05-21 | 2018-11-27 | 东莞理工学院 | 一种云计算中遥感图像处理的Docker镜像自动化动态构建方法 |
CN109326330A (zh) * | 2018-08-30 | 2019-02-12 | 武汉古奥基因科技有限公司 | 生物信息分析工具的制作方法、装置及可存储介质 |
CN109448788A (zh) * | 2018-10-24 | 2019-03-08 | 广州基迪奥生物科技有限公司 | 基因组学及生物信息学的微生物组学在线分析平台架构 |
CN111142865A (zh) * | 2019-12-30 | 2020-05-12 | 北京百迈客生物科技有限公司 | 一种在生物云上部署第三方软件的方法及系统 |
CN113707218A (zh) * | 2020-05-22 | 2021-11-26 | 苏州安智因医学检验所有限公司 | 一种用于人类遗传病基因检测的智能解读方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016141305A1 (en) * | 2015-03-05 | 2016-09-09 | Vmware, Inc. | Methods and apparatus to select virtualization environments for migration |
CN106843837A (zh) * | 2016-12-21 | 2017-06-13 | 中电科华云信息技术有限公司 | openstack组件容器化的构建方法 |
-
2017
- 2017-08-22 CN CN201710722110.2A patent/CN107590365A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016141305A1 (en) * | 2015-03-05 | 2016-09-09 | Vmware, Inc. | Methods and apparatus to select virtualization environments for migration |
CN106843837A (zh) * | 2016-12-21 | 2017-06-13 | 中电科华云信息技术有限公司 | openstack组件容器化的构建方法 |
Non-Patent Citations (1)
Title |
---|
程功: "《Docker生物云计算平台分析松材线虫高通量测序数据的应用研究》", 《中国博士学位论文全文数据库农业科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897527A (zh) * | 2018-05-21 | 2018-11-27 | 东莞理工学院 | 一种云计算中遥感图像处理的Docker镜像自动化动态构建方法 |
CN109326330A (zh) * | 2018-08-30 | 2019-02-12 | 武汉古奥基因科技有限公司 | 生物信息分析工具的制作方法、装置及可存储介质 |
CN109326330B (zh) * | 2018-08-30 | 2020-10-16 | 武汉古奥基因科技有限公司 | 生物信息分析工具的制作方法、装置及可存储介质 |
CN109448788A (zh) * | 2018-10-24 | 2019-03-08 | 广州基迪奥生物科技有限公司 | 基因组学及生物信息学的微生物组学在线分析平台架构 |
CN111142865A (zh) * | 2019-12-30 | 2020-05-12 | 北京百迈客生物科技有限公司 | 一种在生物云上部署第三方软件的方法及系统 |
CN113707218A (zh) * | 2020-05-22 | 2021-11-26 | 苏州安智因医学检验所有限公司 | 一种用于人类遗传病基因检测的智能解读方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590365A (zh) | Docker技术在高通量测序数据分析中的应用 | |
US9354922B2 (en) | Metadata-driven workflows and integration with genomic data processing systems and techniques | |
US8667489B2 (en) | Systems and methods for sharing the results of analyses among virtual machines | |
US9639444B2 (en) | Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services | |
Yue et al. | Long-read sequencing data analysis for yeasts | |
US20120054732A1 (en) | Reducing downtime while patching binaries on a cluster | |
US9986018B2 (en) | Method and system for a scheduled map executor | |
US8561180B1 (en) | Systems and methods for aiding in the elimination of false-positive malware detections within enterprises | |
CN102236672A (zh) | 一种数据导入方法及装置 | |
CN108197486A (zh) | 大数据脱敏方法、系统、计算机可读介质及设备 | |
Yang | Cloud computing for storing and analyzing petabytes of genomic data | |
CN1920861A (zh) | 电子签核系统及方法 | |
Levi et al. | Searching the sequence read archive using Jetstream and Wrangler | |
CN107122626A (zh) | 二代测序dna突变检测的生物信息学分析的方法及系统 | |
Robertsen et al. | Meta-pipe-pipeline annotation, analysis and visualization of marine metagenomic sequence data | |
Mohamed et al. | Accelerating data-intensive genome analysis in the cloud | |
EP3997568B1 (en) | Workflow-based scheduling and batching in multi-tenant distributed systems | |
Zhang et al. | Hot-starting software containers for STAR aligner | |
Wilke et al. | An experience report: porting the MG‐RAST rapid metagenomics analysis pipeline to the cloud | |
CN102546628B (zh) | 一种样本鉴定方法及系统 | |
Stansfield et al. | R Tutorial: Detection of Differentially Interacting Chromatin Regions From Multiple Hi‐C Datasets | |
CN113495498B (zh) | 用于硬件设备的模拟方法、模拟器、设备和介质 | |
US8381302B1 (en) | Systems and methods for translating non-comparable values into comparable values for use in heuristics | |
US10956512B2 (en) | Document link migration | |
CN102591978A (zh) | 一种分布式文本拷贝检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180116 |
|
WW01 | Invention patent application withdrawn after publication |