CN103310125A - 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统 - Google Patents

基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统 Download PDF

Info

Publication number
CN103310125A
CN103310125A CN2012100553848A CN201210055384A CN103310125A CN 103310125 A CN103310125 A CN 103310125A CN 2012100553848 A CN2012100553848 A CN 2012100553848A CN 201210055384 A CN201210055384 A CN 201210055384A CN 103310125 A CN103310125 A CN 103310125A
Authority
CN
China
Prior art keywords
hardware
gpgpu
core cpu
performance
basis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100553848A
Other languages
English (en)
Inventor
宁康
苏晓泉
徐健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Original Assignee
宁康
苏晓泉
徐健
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宁康, 苏晓泉, 徐健 filed Critical 宁康
Priority to CN2012100553848A priority Critical patent/CN103310125A/zh
Publication of CN103310125A publication Critical patent/CN103310125A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

“基于GPGPU和多核CPU硬件的高性能元基因组数据分析系统”是针对传统计算机无法满足海量元基因组数据分析要求,根据元基因组数据处理中海量数据可并行处理的特点,提出一种基于GPGPU(通用并行处理器)和多核CPU硬件的、软硬件方法相结合的计算分析系统。基于GPGPU超级计算机的元基因组计算分析系统的主要模块包括:GPGPU和多核CPU计算机以及统一的软件平台。其特点是(1)高性能并行计算和存储硬件系统,(2)高性能、统一的、可配置的软件平台。基于GPGPU硬件的元基因组序列处理可以显著提高元基因组数据分析效率。

Description

基于GPGPU和多核CPU硬件的高性能元基因组数据分析系统
技术领域
本发明专利涉及一种用于生物信息学元基因组数据分析的软硬件结合的计算机分析系统,尤其是能够快速的分析海量的元基因组数据。 
背景技术
元基因组是指一定环境下整个微生物群落中的所有遗传信息的总和。由于自然界绝大多数微生物尚不可培养,直接鉴定群落的元基因组是目前最重要、最迅速的菌群结构与功能的认识方法之一。元基因组数据的收集与分析克服了传统分离培养方法仅局限于群落中可培养组分(一般仅占1%)的缺陷,使挖掘、认识与利用不可培养的组分(即另外之99%)成为可能,使得我们可以全面地研究自然状况下微生物群落的结构和组成。 
目前元基因组领域正在进行的一场革命是基于454,Solexa和SOLiD等下一代测序技术的高通量测序。与传统的Sanger测序技术相比,新一代测序技术的通量提高了一到两个数量级,能够较经济地对基因组进行高倍率的序列覆盖,数据量更多(100MB至数G)。随着下一代元基因组测序仪器性能的逐渐稳定和价格的不断下降,其应用必然会越来越广泛,尤其是小型化的测序仪器的广泛应用,因此元基因组的研究将会呈现出地域上和领域上的扩散发展趋势。然而对应于下一代测序产生的数据的分析,则必须有具有相当运算能力的超级计算机和相应的分析软件来实现。对于高通量的元基因组数据,往往具有上亿条序列和几百G的数据量。采用目前的普通分析方法利用单一的CPU计算机对几亿条序列进行逐条扫描并归类统计,可能需要数天甚至一个月的时间,使数据分析成为了元基因组研究中的一大瓶颈。下一代测序技术所产生的高通量数据分析问题给广大元基因组研究人员在研究元基因组数据方面设置了硬件和技术方面的障碍。 
发明内容
为了克服传统计算机和分析方法无法满足海量元基因组数据分析要求这一不足,本发明根据元基因组数据处理中海量数据可并行处理的特点,提出一种基于GPGPU(通用并行处理器)和多核CPU硬件的、软硬件方法相结合的元基因组计算分析系统。 
本发明采用的技术方案是GPGPU和多核CPU计算机以及构筑于其上的高效、统一的软件平台(图1)。其特点是(1)高性能并行计算和存储硬件系统,(2)高性能、统一的、可配置的并行化软件平台。 
(1)高性能并行计算和存储硬件 
该硬件系统采用双Tesla C2070GPGPU进行大规模并行化计算。图2是中心服务器的系统结构图。其重点是: 
首先,Tesla GPGPU的多尺度并行化计算能力:448个流处理器和高达1.03Tflops的单精度计算峰值,板载6GB存储器,并且适应于智能化的计算资源配置和负载平衡控制。也适应于云计算服务器的计算要求。同时可以在适当的情况下应付交互性和可视化方面的需求。 
其次,高速缓存和高速总线:适应于并发式的元基因组数据分析任务的调配和协同工作环境在大规模任务分配上的需要。 
最后,RAID磁盘阵列:通过RAID磁盘阵列存储,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。同时可应付云计算服务器的备份和升级需要。 
(2)高性能、统一的、可配置的软件平台 
高性能的软件平台包括16S rRNA特征序列(一种较短的生物标记序列)提取、16S rRNA特征序列搜索和结果汇总(图3)。此系统被命名为Parallel-META软件系统,其高性能数据分析步骤是: 
首先,16S rRNA特征序列预测是基于GPGPU并行计算。将输入文件分割成小规模子数据,将不同的子数据分配到不同的GPGPU内核上,然后在众多GPGPU内核上同时预测子序列的16S rRNA特征序列,最后将特征序列预测结果合并到一起。 
其次,16S rRNA特征序列的高IO效率提取。在提取阶段,需要根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取。将输入数据首次载入内存后,建立起基因序列表示和基因位置的哈希表。这样对于从原始数据延伸出的多个大规模数据的查找和提取,可利用已经建立的哈希表,全部在内存中完成。 
第三,16S rRNA特征序列搜索是基于多核心CPU并行计算。将输入文件分割成小规模的子文件,将不同的子文件分配到不同的线程上,在不同的线程上同时搜索子文件中的16SrRNA特征序列,最后将搜索结果合并。 
最后,根据16S rRNA特征序列的搜索结果汇总到一起,并生成图形化的元基因组结构组成,并可以进行多个元基因组数据结构上的比较。 
因此本软件平台依赖于GPGPU和多核CPU硬件平台,只有相互配合才能够发挥高性能元基因组数据分析的功能。 
本发明的有益效果是,Parallel-META软件系统与基于GPGPU硬件计算机相配合,克服了基于CPU硬件计算机的计算瓶颈,可以使元基因组数据分析效率提高10倍以上。本发明 的应用将会加快元基因组研究的进度,进而提速微生物群落的研究。 
附图说明
图1、基于GPGPU和多核CPU硬件的高性能元基因组数据分析系统的总体流程。 
图2、基于GPGPU和多核CPU硬件的高性能元基因组数据分析系统的硬件架构。其主要部分是:第一,双Tesla C2070GPGPU的多尺度并行化计算能力:每个节点896个流处理器和高达2.06Tflops的单精度计算峰值,板载12GB存储器。第二,高速缓存和高速总线。第三,RAID磁盘阵列,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。 
图3、基于GPGPU和多核CPU硬件的高性能元基因组数据分析系统的软件流程。其流程主要步骤是:首先,使用GPGPU对元基因组序列进行提取处理获得其互补序列,并使用HmmSearch搜索算法对输入的元基因组序列和其互补序列中的16S rRNA序列进行预测,然后将两者中的16S rRNA序列提取出来,作为元基因组的特征序列。其次,使用并行化多线程数据库搜索工具,将提取后的16S rRNA映射到已知基因序列数据库(如GreenGenes、RDP、Silva数据库)上。最后,汇总16S rRNA特征序列映射结果,在不同的分类学层面上总结元基因组数据(对应于微生物群落样本)中不同物种的峰度,同时绘制元基因组数据中物种进化关系,并生成图形化分析结果和分析报告。 
具体实施方式
在图1中,软件必须和硬件兼容,因此软件版本可向下兼容硬件。 
在图2中,基于GPGPU超级计算机的元基因组计算分析系统的计算和存储硬件基本配置是:包含GPGPU(通用并行处理器)运行硬件(至少为G80以上架构)的超级计算机,CPU至少两个核心,运算速度至少2Ghz以上,内存至少2GB以上,硬盘至少50G以上。CPU、GPGPU和存储之间高速互联。 
在图3中,基于GPGPU超级计算机的元基因组计算分析系统的软件平台基本配置是:Linux操作系统,预装GCC运行环境、CUDA运行环境(3.0以上)、Parallel-META软件版本1.0以上。Parallel-META软件系统的运行界面为命令行形式,配电子版使用说明。同时官方网站(http://www.computationalbioenergy.org/parallel-meta.html)提供长期软件更新服务。 

Claims (3)

1.一种软硬件结合的计算机元基因组数据分析系统,其特征是:系统包含计算机硬件和基于其上的软件系统,输入是在任何存储介质上保留的元基因组数据文件,输出元基因组在基因和功能方面的汇总信息。
2.根据权利要求1所述的计算机元基因组数据分析系统,其特征是:计算机硬件系统包括GPGPU硬件、多核CPU硬件、存储介质等,是一个完整的计算机硬件系统。
3.根据权利要求1所述的元基因组数据分析系统,其特征是:计算机软件系统包括与多核CPU以及GPGPU硬件系统兼容的完整的高性能元基因组数据分析软件,是一个完整的计算机软件分析系统。该软件系统的运行界面为命令行形式,输出结果为网页、图片以及文本形式,配电子版使用说明。
CN2012100553848A 2012-03-06 2012-03-06 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统 Pending CN103310125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100553848A CN103310125A (zh) 2012-03-06 2012-03-06 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100553848A CN103310125A (zh) 2012-03-06 2012-03-06 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统

Publications (1)

Publication Number Publication Date
CN103310125A true CN103310125A (zh) 2013-09-18

Family

ID=49135335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100553848A Pending CN103310125A (zh) 2012-03-06 2012-03-06 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统

Country Status (1)

Country Link
CN (1) CN103310125A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984882A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的测试方法
CN106886690A (zh) * 2017-01-25 2017-06-23 人和未来生物科技(长沙)有限公司 一种面向基因数据计算解读的异构平台
CN107194204A (zh) * 2017-05-22 2017-09-22 人和未来生物科技(长沙)有限公司 一种全基因组测序数据计算解读方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOQUAN SU, JIAN XU, KANG NING: "《Parallel-META:A High-Performance Computational Pipeline for Metagenomic Data Analysis》", 《2011 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS BIOLOGY(ISB)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984882A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的测试方法
CN106886690A (zh) * 2017-01-25 2017-06-23 人和未来生物科技(长沙)有限公司 一种面向基因数据计算解读的异构平台
CN107194204A (zh) * 2017-05-22 2017-09-22 人和未来生物科技(长沙)有限公司 一种全基因组测序数据计算解读方法

Similar Documents

Publication Publication Date Title
Hartley et al. Biomedical image analysis on a cooperative cluster of GPUs and multicores
Su et al. Parallel-META: efficient metagenomic data analysis based on high-performance computation
Zhao et al. SparkSW: scalable distributed computing system for large-scale biological sequence alignment
CN103838985A (zh) 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统
CN101814039A (zh) 一种基于GPU的Cache模拟器及其空间并行加速模拟方法
CN103257923B (zh) 数据中心数据分析类基准测试程序的应用选取方法及系统
CN106503235A (zh) 基于Spark平台的XP‑EHH算法的分布式处理实现方法
Xin et al. An implementation of GPU accelerated MapReduce: Using Hadoop with OpenCL for data-and compute-intensive jobs
Huang et al. GPU computing performance analysis on matrix multiplication
CN103310125A (zh) 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统
Cheng et al. Accelerating end-to-end deep learning workflow with codesign of data preprocessing and scheduling
Lu et al. GSNP: a DNA single-nucleotide polymorphism detection system with GPU acceleration
Sarwar et al. Database search, alignment viewer and genomics analysis tools: big data for bioinformatics
Tian et al. BigDataBench-S: an open-source scientific big data benchmark suite
Leal et al. TKSimGPU: A parallel top-K trajectory similarity query processing algorithm for GPGPUs
Su et al. Parallel-META: A high-performance computational pipeline for metagenomic data analysis
Kirschenmann et al. Parallel S PN on Multi-Core CPUS and Many-Core GPUS
Yong et al. Galactica: A GPU parallelized database accelerator
George et al. Novo-G: A View at the HPC Crossroads for Scientific Computing.
Chong et al. A Multi-GPU framework for in-memory text data analytics
Rehman et al. Need and role of scala implementations in bioinformatics
Na et al. Multi-task parallel algorithm for dsrc
Wu et al. GPU-accelerated protein family identification for metagenomics
Liu et al. Parallelization and characterization of GARCH option pricing on GPUs
Muhammadzadeh MR-CUDASW-GPU accelerated Smith-Waterman algorithm for medium-length (meta) genomic data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: SU XIAOQUAN XU JIAN

Effective date: 20130906

Owner name: QINGDAO INSTITUTE OF BIOENERGY AND BIOPROCESS TECH

Free format text: FORMER OWNER: NING KANG

Effective date: 20130906

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130906

Address after: 266101 Shandong Province, Qingdao city Laoshan District Songling Road No. 189

Applicant after: Qingdao Institute of Bioenergy and Bioprocess Technology, Chinese Academy of Sciences

Address before: 266101 Shandong Province, Qingdao city Laoshan District Songling Road No. 189

Applicant before: Ning Kang

Applicant before: Su Xiaoquan

Applicant before: Xu Jian

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130918