CN103838985A - 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统 - Google Patents

基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统 Download PDF

Info

Publication number
CN103838985A
CN103838985A CN201210478392.3A CN201210478392A CN103838985A CN 103838985 A CN103838985 A CN 103838985A CN 201210478392 A CN201210478392 A CN 201210478392A CN 103838985 A CN103838985 A CN 103838985A
Authority
CN
China
Prior art keywords
quality control
hardware
core cpu
data quality
gpgpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210478392.3A
Other languages
English (en)
Inventor
周茜
宁康
苏晓泉
徐健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Yellow Sea Fisheries Research Institute Chinese Academy of Fishery Sciences
Original Assignee
Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Institute of Bioenergy and Bioprocess Technology of CAS filed Critical Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Priority to CN201210478392.3A priority Critical patent/CN103838985A/zh
Publication of CN103838985A publication Critical patent/CN103838985A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

“基于多核CPU和GPGPU硬件的高通量测序数据质量控制系统”是针对传统计算机无法满足对海量高通量测序数据进行质量控制的分析要求,根据高通量测序数据处理中海量数据可并行处理的特点,提出一种基于多核CPU和GPGPU(通用并行处理器)硬件的、软硬件方法相结合的计算分析系统。基于多核CPU和GPGPU硬件的高通量测序数据质量控制系统的主要模块包括:多核CPU和GPGPU计算机以及统一的软件平台。其特点是(1)高性能并行计算和存储硬件系统,(2)高性能、统一的、可配置的软件平台。基于多核CPU和GPGPU硬件的高通量测序数据质量控制处理可以显著提高高通量测序数据质量控制的分析效率。

Description

基于多核CPU和GPGPU硬件的高通量测序数据质量控制系统
技术领域
本发明专利涉及一种用于生物信息学高通量测序数据质量控制的软硬件结合的计算机分析系统,尤其是能够快速的对高通量测序数据进行质量控制。
背景技术
高通量测序技术又称“下一代”测序技术,是对传统测序一次革命性的改变,能够一次对几十万到几百万条DNA/RNA分子进行序列测定,使得对一个物种的转录组,基因组以及微生物群落的元基因组进行细致全貌的分析成为可能,越来越广泛地应用于生物学及相关研究中。
与传统的Sanger测序技术相比,新一代测序技术的通量提高了一到两个数量级,能够较经济地对基因组进行高倍率的序列覆盖,数据量更多(100MB至数G)。随着高通量测序仪器性能的逐渐稳定和价格的不断下降,其应用必然会越来越广泛,尤其是小型化的测序仪器的广泛应用,因此基于高通量测序数据的研究将会在数量上和应用领域上呈现井喷式的快速发展趋势。由于高通量测序技术本身的限制及人为实验的操作误差,原始生成的高通量测序数据往往含有部分低质量序列,包括低质量碱基和污染序列等。这些低质量序列的存在将会极大地影响后续数据分析的结果,甚至将导致错误结果和结论。因此,质量控制是进行高通量测序数据分析必须的关键步骤之一。由于高通量测序数据往往具有上亿条序列和几百G的数据量,所以对应于高通量测序数据的质量控制,必须有具有相当运算能力的超级计算机和相应的分析软件来实现。采用目前的普通分析方法利用单一的CPU计算机对几亿条序列进行逐条扫描并归类统计,可能需要数天甚至一个月的时间,使数据分析成为了相关研究中的一大瓶颈。下一代测序技术所产生的高通量数据的质量控制问题给广大研究人员在基于高通量测序数据的研究方面设置了硬件和技术方面的障碍。
发明内容
为了克服传统计算机和分析方法无法满足高通量测序数据分析要求这一不足,本发明根据高通量测序数据处理中数据可并行处理的特点,提出一种基于多核CPU和GPGPU(通用并行处理器)硬件的、软硬件方法相结合的高通量测序数据质量控制系统。
本发明采用的技术方案是多核CPU和GPGPU计算机以及构筑于其上的高效、统一的软件平台(图1)。其特点是(1)高性能并行计算和存储硬件系统;(2)高性能、统一的、可配置的并行化软件平台。
(1)高性能并行计算和存储硬件
该硬件系统采用多路多核CPU和GPGPU进行大规模并行化计算。图2是计算服务器的系统结构图。其重点是:
首先,多路多核CPU并行化计算,采用4路处理器,处理器之间采用QPI总线连接。每路处理器具有8个独立计算核心,配备三通道DDR3 RDIMM内存,并且适应于智能化的计算资源配置和负载平衡控制,同时也适应于云计算服务器的计算要求。
其次,GPGPU协助计算芯片的多尺度并行化计算能力:448个流处理器和高达1.03 Tflops的单精度计算峰值,板载6GB存储器,同时可以在适当的情况下应付交互性和可视化方面的需求。
第三,高速缓存和高速总线:适应于并发式的测序数据分析任务的调配和协同工作环境在大规模任务分配上的需要。
最后,RAID磁盘阵列:通过RAID磁盘阵列存储,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。同时可应付云计算服务器的备份和升级需要。
(2)高性能、统一的、可配置的软件平台
高性能的软件平台包括低质量数据处理、污染序列的定性鉴定和污染序列的定量鉴定(图3)。此系统被命名为QC-Chain软件系统(http://www.computationalbioenergy.org/qc-chain.html,自主知识产权),其高性能数据分析步骤是:
首先,低质量数据处理是基于多核CPU并行计算。将输入文件分割成小规模子数据,将不同的子数据分配到不同的CPU内核上,然后在众多CPU内核上同时预测子序列的碱基质量、重复序列和接头序列,并依次切除序列两端的低质量碱基,过滤含有一定比例低质量碱基的序列,删除其中的接头序列和重复序列,最后将过滤后的数据结果合并到一起。
其次,污染序列的定性鉴定是基于多核CPU和GPGPU并行计算。利用Parallel-META软件(http://www.computationalbioenergy.org/parallel-meta.html,自主知识产权),对于16S或18SrRNA特征序列(一种较短的生物标记序列)进行预测、提取和鉴定,定性地获得高通量测序数据中所有序列的物种来源信息。首先,将输入文件分割成小规模子数据,将不同的子数据分配到不同的GPGPU内核上,然后在众多GPGPU内核上同时预测子序列的16S或18S rRNA特征序列,最后将特征序列预测结果合并到一起;然后,根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取。将输入文件分割成小规模的子文件,将不同的子文件分配到不同的线程上,在不同的线程上同时搜索子文件中的rRNA特征序列,最后将搜索结果合并。最后,分别将16S rRNA和18S rRNA特征序列的搜索结果汇总到一起,并生成图形化的物种结构组成,从而获得高通量测序数据中所有可能存在的物种信息。
第三,污染序列的定量鉴定是基于多核CPU并行计算。随机地提取一定比例的高通量测序数据中的序列,并利用通用的序列比对方法(BLASTn),定量的获得高通量测序数据中所有序列的物种来源信息及其分布比例。将输入文件分割成小规模的子文件,将不同的子文件分配到不同的线程上,在不同的线程上同时提取一定比例的序列,最后将提取的序列合并。
因此本软件平台依赖于多核CPU和GPGPU硬件平台,只有相互配合才能够发挥高效率高通量测序数据质量控制的功能。
本发明的有益效果是,QC-Chain软件系统与基于多核CPU和GPGPU硬件计算机相配合,克服了基于单核CPU硬件计算机的计算瓶颈,可以使高通量测序数据质量控制效率提高10倍以上。本发明的应用将会加快高通量测序数据质量控制的进度,进而提速高通量测序相关的研究。
附图说明
图1、基于多核CPU和GPGPU硬件的高通量测序数据质量控制系统的总体流程。
图2、基于多核CPU和GPGPU和硬件的高通量测序数据质量控制系统的硬件架构。其主要部分是:第一,4路多核心CPU的多尺度并行化计算能力,每路CPU具备独立8个计算核心,并具有三通道内存。第二,GPGPU协助计算芯片具备448个流处理器和高达1.03 Tflops的单精度计算峰值,板载6GB存储器。第三,高速缓存和高速总线。第四,RAID磁盘阵列,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。
图3、基于多核CPU和GPGPU硬件的高通量测序数据质量控制系统的软件流程。其流程主要步骤是:首先,使用多核CPU对通量测序数据序列进行处理,依次切除输入数据序列两端的低质量碱基,过滤含有一定比例低质量碱基的序列,删除其中的接头序列和重复序列,然后将结果合并起来,作为高质量序列数据。然后,对于上一步得到的数据进行污染序列的定性检测,使用并行化多线程计算工具,提取rRNA序列(16S或18S),并映射到已知基因序列数据库(如GreenGenes、RDP、Silva数据库)上,获得所有序列的物种来源信息。最后,通过并行化算法随机提取一定数量的序列,利用blast算法获得序列比对的结果和,同时统计其中各个物种的相对丰度。综合上述结果,生成图形化分析结果和分析报告。
具体实施方式
在图1中,软件必须和硬件兼容,因此软件版本可向下兼容硬件。
在图2中,基于多核CPU和GPGPU硬件的高通量测序数据质量控制系统的计算和存储硬件基本配置是:单路CPU至少具备4个独立物理计算核心,包含GPGPU(通用并行处理器)运行硬件(至少为G80以上架构),双通道内存2GB以上,硬盘至少50G以上。CPU、GPGPU和存储之间高速互联。
在图3中,基于多核CPU和GPGPU硬件的高通量测序数据质量控制系统的软件平台基本配置是:Linux操作系统,预装GCC运行环境、CUDA运行环境(3.0以上)、QC-Chain软件系统版本1.0以上,Parallel-META软件版本2.0以上。QC-Chain软件系统与Parallel-META软件系统的运行界面为命令行形式,配电子版使用说明。同时官方网站(http://www.computationalbioenergy.org/software.html)提供长期软件更新服务。

Claims (3)

1.一种软硬件结合的计算机高通量测序数据质量控制系统,其特征是:系统包含计算机硬件和基于其上的软件系统,输入是在任何存储介质上保留的高通量测序数据文件,输出去除低质量序列和污染序列的定性及定量信息。
2.根据权利要求1所述的计算机高通量测序数据质量控制系统,其特征是:计算机硬件系统包括GPGPU硬件、多核CPU硬件、存储介质等,是一个完整的计算机硬件系统。
3.根据权利要求1所述的高通量测序数据质量控制系统,其特征是:计算机软件系统包括与多核CPU以及GPGPU硬件系统兼容的完整的高通量测序数据质量控制分析软件,是一个完整的计算机软件分析系统;该软件系统的运行界面为命令行形式,输出结果为网页形式的文档、图片以及文本形式,配电子版使用说明。
CN201210478392.3A 2012-11-22 2012-11-22 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统 Pending CN103838985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210478392.3A CN103838985A (zh) 2012-11-22 2012-11-22 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210478392.3A CN103838985A (zh) 2012-11-22 2012-11-22 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统

Publications (1)

Publication Number Publication Date
CN103838985A true CN103838985A (zh) 2014-06-04

Family

ID=50802473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210478392.3A Pending CN103838985A (zh) 2012-11-22 2012-11-22 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统

Country Status (1)

Country Link
CN (1) CN103838985A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468451A (zh) * 2014-08-19 2016-04-06 复旦大学 一种基于高通量测序数据的计算机集群的作业调度系统
CN106709028A (zh) * 2016-12-28 2017-05-24 上海华点云生物科技有限公司 高通量测序数据统计方法和统计装置
CN107194204A (zh) * 2017-05-22 2017-09-22 人和未来生物科技(长沙)有限公司 一种全基因组测序数据计算解读方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN110097976A (zh) * 2019-04-24 2019-08-06 华中科技大学鄂州工业技术研究院 中药复方制剂的生物成分分析方法
CN115662518A (zh) * 2022-12-27 2023-01-31 四川大学华西医院 一种基因测序存算协作系统、方法和计算机可读存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
XIAOQUAN SU等: "Parallel-META:A High-Performance Computational Pipeline for Metagenomic Data Analysis", 《IEEE INTERNATIONAL CONFERENCE ON SYSTEM BIOLOGY》 *
XIAOQUAN SU等: "Parallel-META:efficient metagenomic data analysis based on high-performance computation", 《BMC SYSTEMS BIOLOGY》 *
冯健等: "高通量测序技术及其在植物研究中的应用", 《辽宁林业科技》 *
岳桂龙等: "高通量测序技术在动植物研究领域中的应用", 《中国科学:生命科学》 *
秦楠等: "高通量测序技术及其在微生物学研究中的应用", 《微生物学报》 *
苏晓泉等: "服务于微生物群落研究的高性能元基因组数据分析平台", 《科研信息化技术与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468451A (zh) * 2014-08-19 2016-04-06 复旦大学 一种基于高通量测序数据的计算机集群的作业调度系统
CN106709028A (zh) * 2016-12-28 2017-05-24 上海华点云生物科技有限公司 高通量测序数据统计方法和统计装置
CN107194204A (zh) * 2017-05-22 2017-09-22 人和未来生物科技(长沙)有限公司 一种全基因组测序数据计算解读方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN110097976A (zh) * 2019-04-24 2019-08-06 华中科技大学鄂州工业技术研究院 中药复方制剂的生物成分分析方法
CN115662518A (zh) * 2022-12-27 2023-01-31 四川大学华西医院 一种基因测序存算协作系统、方法和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN105095686B (zh) 基于多核cpu硬件的高通量转录组测序数据质量控制方法
CN103838985A (zh) 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统
US9122700B2 (en) Parallel log structured file system collective buffering to achieve a compact representation of scientific and/or dimensional data
Zou et al. Survey of MapReduce frame operation in bioinformatics
Davidson et al. Register packing for cyclic reduction: A case study
CN102521529A (zh) 基于blast的分布式基因序列比对方法
CN104268096A (zh) 基于内存预分配和多点并写技术的大规模点云数据快速读取方法
Delhomme et al. Guidelines for RNA-Seq data analysis
Díaz et al. Parallelizing and optimizing a bioinformatics pairwise sequence alignment algorithm for many-core architecture
CN103257923A (zh) 数据中心数据分析类基准测试程序的应用选取方法及系统
Herath et al. Accelerating string matching for bio-computing applications on multi-core CPUs
Cheng et al. Accelerating end-to-end deep learning workflow with codesign of data preprocessing and scheduling
Wu et al. Recognizing binding sites of poorly characterized RNA-binding proteins on circular RNAs using attention Siamese network
D’Agostino et al. SoC-based computing infrastructures for scientific applications and commercial services: Performance and economic evaluations
Sarwar et al. Database search, alignment viewer and genomics analysis tools: big data for bioinformatics
Lee et al. Will solid-state drives accelerate your bioinformatics? In-depth profiling, performance analysis and beyond
CN103310125A (zh) 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统
Tang et al. Gpu acceleration of data assembly in finite element methods and its energy implications
Su et al. Parallel-META: A high-performance computational pipeline for metagenomic data analysis
Qureshi et al. Genome sequence alignment-design space exploration for optimal performance and energy architectures
Carneiro et al. Collective i/o performance on the santos dumont supercomputer
Childers et al. Simulation of LHC events on a millions threads
Kommera et al. Accelerate M-TIP on GPUs and deploy to Summit and NERSC-9 (against simulated data) WBS 2.2. 4.05 ExaFEL, Milestone ADSE13-199
Siretskiy et al. Htseq-hadoop: Extending htseq for massively parallel sequencing data analysis using hadoop
Al-Ars et al. Scalability Potential of BWA DNA Mapping Algorithm on Apache Spark.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161202

Address after: 266071 Nanjing Road, Shandong, China, No. 106, No.

Applicant after: Inst of Huanghai Sea Marine Products, Chinese Academy of Aquatic Product Science

Applicant after: Qingdao Institute of Bioenergy and Bioprocess Technology, Chinese Academy of Sciences

Address before: 266101 Shandong Province, Qingdao city Laoshan District Songling Road No. 189

Applicant before: Qingdao Institute of Bioenergy and Bioprocess Technology, Chinese Academy of Sciences

RJ01 Rejection of invention patent application after publication

Application publication date: 20140604

RJ01 Rejection of invention patent application after publication