CN103984882A - 一种生物信息学高性能计算平台的测试方法 - Google Patents

一种生物信息学高性能计算平台的测试方法 Download PDF

Info

Publication number
CN103984882A
CN103984882A CN201410196381.5A CN201410196381A CN103984882A CN 103984882 A CN103984882 A CN 103984882A CN 201410196381 A CN201410196381 A CN 201410196381A CN 103984882 A CN103984882 A CN 103984882A
Authority
CN
China
Prior art keywords
bioinformatics
software
testing
platform
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410196381.5A
Other languages
English (en)
Inventor
金莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410196381.5A priority Critical patent/CN103984882A/zh
Publication of CN103984882A publication Critical patent/CN103984882A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提出了一种生物信息学高性能计算平台的测试方法,属于计算机科学和生物信息学的交叉学科。本发明主要包括如下流程:搭建生物信息学分析的计算平台,平台操作系统安装,平台编译器安装,平台应用软件部署,平台应用软件测试,数据整理;通过本方法所述测试方法,使生物信息学计算平台的测试标准,规范化,为生物信息学计算平台的性能评估提供参考和依据。

Description

一种生物信息学高性能计算平台的测试方法
技术领域
本发明涉及属于计算机科学和生物信息学的交叉学科,尤其涉及一种生物信息学高性能计算平台的测试方法。
背景技术
生物信息学是是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。在基因组学研究方向,测序技术是重要的研究手段,对于测序数据的分析就需要借助高性能计算平台完成,因此高性能计算平台的性能对生物信息学研究进展起着至关重要的作用,如何评测一套生物信息学平台的性能如何,是很多生物信息学专家以及高性能计算专家面临的问题。因为熟悉生物信息学的专家不熟悉具体的计算系统的配置,高性能计算专家对生物信息分析的流程和资源需求也知之甚少,所以发展一套标准化的生物信息学计算平台测试方法十分必要。
发明内容
本发明针对现有技术的不足之处,提供了一种生物信息学高性能计算平台的测试方法。
 本发明所述生物信息学计算平台的性能测试方法,之前没有一种方法对生物信息学计算平台进行标准化的测试和评估;没有设置标准化测试平台,软件和运行算例,以及测试方法;本发明针对该现状,整理了一套全面系统的测试方法,涵盖硬件系统的配置,中间件的配置,系统层的性能测试以及应用层的性能测试.
本发明公开了一种生物信息学高性能计算平台的测试方法,其解决所述技术问题采用的技术方案如下:该测试方法依据生物信息学计算的需求,配置适合的硬件环境进行测试,测试中考虑系统性能是否正常,应用软件以及算例的选择是否具有生物信息学软件的代表性,测试用例的压力是否足够大等,并最后给出固定平台下的资源使用情况;
先确定适用于生物信息学平台的硬件平台,搭建测试环境,如安装操作系统,系统中部署软件,如intel编译器,mpi等,安装生物信息学软件,选择具有代表性的测试用例;其中,
所述确定的硬件平台使用于生物信息学的数据分析,生物信息学的计算需求一般内存容量消耗大,磁盘读写频繁,且存储占用空间大等,依据这一特点我们选用了128GB的内存容量,多块盘做RAID0,存储空间2TB,以满足运算的需求;
   所述搭建测试环境是指,在确定硬件配置后,在其上部署系统环境,安装编译器,并行环境等,并进行系统基础性能测试,分别测试系统的Linpack效率,测试系统的内存带宽,磁盘顺序读写等;并对系统测试的指标进行分析,以确保系统性能正常,以便在稳定正常的系统环境下进行应用性能测试;
   所述安装生物信息学软件是指,进行应用测试时,在搭建测试环境后,在系统中部署应用软件,应用软件是生物信息学分析常用软件,且计算需求较高,计算耗时,具有代表性,在本发明中我们选用序列比对软件BWA和序列拼接软件VELVET进行测试;对于测试用例的的规模,要能涵盖或是代表大部分用户的生物信息分析的数据规模,我们选用ILLUMIA的测序数据进行分析;
选择具有代表性的测试用例: 统计两款软件在计算平台下的运行时间,并监控资源消耗情况,最后整理出完成的测试信息。
本发明公开的生物信息学高性能计算平台的测试方法的有益效果是:本方法所述测试环境适合生物信息学软件运行,可以为用户提供配置依据;对于测试平台进行基本系统性能测试,确保测试环境正常;测试软件选择是生物信息学中常用且计算相对耗时的两款软件,在不同生物信息学研究中具有通用性;应用软件的测试用例规模足够大,是人类十倍覆盖度的测试数据,数据规模基本能够涵盖目前生物信息学分析大部分计算规模。
附图说明
附图1为本发明测试方法的流程图。
具体实施方式
下面通过附图,对本发明所述一种生物信息学高性能计算平台的测试方法做进一步详细说明,并不造成对本发明的限制。
本发明的目的是设计一种生物信息学计算平台的标准benchmark测试方法和流程,使生物信息学计算平台的测试标准,规范化,为生物信息学计算平台的性能评估提供参考和依据。
本发明的构思时这样的:先确定适用于生物信息学平台的硬件平台,搭建测试环境,如安装操作系统,系统中部署软件,如intel编译器,mpi等,安装生物信息学软件,选择具有代表性的测试用例;其中,
所述确定的硬件平台使用于生物信息学的数据分析,生物信息学的计算需求一般内存容量消耗大,磁盘读写频繁,且存储占用空间大等,依据这一特点我们选用了128GB的内存容量,多块盘做RAID0,存储空间2TB,以满足运算的需求;
   所述搭建测试环境是指,在确定硬件配置后,在其上部署系统环境,安装编译器,并行环境等,并进行系统基础性能测试,分别测试系统的Linpack效率,测试系统的内存带宽,磁盘顺序读写等;并对系统测试的指标进行分析,以确保系统性能正常,以便在稳定正常的系统环境下进行应用性能测试;
   所述安装生物信息学软件是指,进行应用测试时,在搭建测试环境后,在系统中部署应用软件,应用软件是生物信息学分析常用软件,且计算需求较高,计算耗时,具有代表性,在本发明中我们选用序列比对软件BWA和序列拼接软件VELVET进行测试;对于测试用例的的规模,要能涵盖或是代表大部分用户的生物信息分析的数据规模,我们选用ILLUMIA的测序数据进行分析;
    选择具有代表性的测试用例: 统计两款软件在计算平台下的运行时间,并监控资源消耗情况,最后整理出完成的测试信息。
    为了使本发明的目的、技术方案和优势更加清晰,我们给出具体的实施方式:
1)       本次测试我们选择一台浪潮NF5280M3双路计算节点,CPU选用INTEL Xeon E5-2670,配8GB*16=128GB内存,8块300GB磁盘做RAID);
2)       平台环境配置:安装RHEL6.3 Linux操作系统,安装incomposer_xe_2013.3.163编译器,intel mpi4.1.0.024,以及配置用户环境;
3)       平台系统性能测试:安装HPL,进行系统的linpack测试;编译安装stream,进行内存带宽测试,使用DD进行磁盘顺序读写性能测试;
4)       系统性能数据分析,比较;系统性能测试值的高低需要参考官方数据,如出现偏低现象要进行调试,确保系统性能正常;
5)       应用软件部署,应用软件我们选择生物信息领域中计算量大,且常用的软件,序列比对软件Burrows-Wheeler Aligner (BWA),序列拼接软件VELVET,indel,snp查找软件GATK(the Genome Analysis Tool Kit;软件编译均使用INTEL编译器完成;
6)       应用性能测试,测试用例的选择,BWA和VELVET的测试用例我们从ILLUMIA的下载,该用例是人类基因组的10倍覆盖度的测试数据,下载地址:ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR091/ERR091571
分别下载ERR091571_1.fastq.gz ERR091571_2.fastq.gz;
参考序列使用GRCh37(Genome Reference Consortium Human build 37);
测试数据整理,利用系统命令收集软件运行中CPU,磁盘,内存使用情况,记录程序运行的时间。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种生物信息学高性能计算平台的测试方法, 其特征在于,该测试方法依据生物信息学计算的需求,配置适合的硬件环境进行测试,测试中考虑系统性能是否正常,应用软件以及算例的选择是否具有生物信息学软件的代表性,测试用例的压力是否足够大等,并最后给出固定平台下的资源使用情况;
该方法主要包括确定适用于生物信息学平台的硬件平台,搭建测试环境,安装生物信息学软件,选择具有代表性的测试用例。
2.根据权利要求1所述的生物信息学高性能计算平台的测试方法,其特征在于,
所述硬件平台使用于生物信息学的数据分析,选用了128GB的内存容量,多块盘做RAID0,存储空间为2TB。
3.根据权利要求2所述的生物信息学高性能计算平台的测试方法, 其特征在于, 所述搭建测试环境是指,在确定硬件平台配置后,在其上安装操作系统,系统中部署软件,安装编译器,并行环境。
4.根据权利要求3所述的生物信息学高性能计算平台的测试方法, 其特征在于,所述系统中部署软件包括intel编译器、mpi。
5.根据权利要求3所述的生物信息学高性能计算平台的测试方法, 其特征在于,所述安装生物信息学软件是指,在系统中部署应用软件,选用序列比对软件BWA和序列拼接软件VELVET进行测试;对于测试用例的的规模,选用ILLUMIA的测序数据进行分析。
CN201410196381.5A 2014-05-12 2014-05-12 一种生物信息学高性能计算平台的测试方法 Pending CN103984882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410196381.5A CN103984882A (zh) 2014-05-12 2014-05-12 一种生物信息学高性能计算平台的测试方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410196381.5A CN103984882A (zh) 2014-05-12 2014-05-12 一种生物信息学高性能计算平台的测试方法

Publications (1)

Publication Number Publication Date
CN103984882A true CN103984882A (zh) 2014-08-13

Family

ID=51276850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410196381.5A Pending CN103984882A (zh) 2014-05-12 2014-05-12 一种生物信息学高性能计算平台的测试方法

Country Status (1)

Country Link
CN (1) CN103984882A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156274A (zh) * 2014-08-19 2014-11-19 浪潮(北京)电子信息产业有限公司 一种测试生物信息学计算平台性能的方法
CN104268069B (zh) * 2014-09-24 2017-05-03 杭州顺网科技股份有限公司 一种电脑性能的评估方法
CN111352837A (zh) * 2020-02-27 2020-06-30 南京亿科人群健康研究院有限公司 一种生物信息学高性能计算平台的测试方法
CN116340070A (zh) * 2023-03-25 2023-06-27 郑州航空工业管理学院 一种生物信息学高性能计算平台的测试方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708056A (zh) * 2012-05-15 2012-10-03 浪潮电子信息产业股份有限公司 一种评测服务器性能的方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法
CN103310125A (zh) * 2012-03-06 2013-09-18 宁康 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310125A (zh) * 2012-03-06 2013-09-18 宁康 基于gpgpu和多核cpu硬件的高性能元基因组数据分析系统
CN102708056A (zh) * 2012-05-15 2012-10-03 浪潮电子信息产业股份有限公司 一种评测服务器性能的方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOQUAN SU等: "Parallel-META: A High-Performance Computational Pipeline for Metagenomic Data Analysis", 《2011 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS BIOLOGY (ISB)》 *
苏晓泉等: "服务于微生物群落研究的高性能元基组数据分析平台", 《科研信息化技术与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156274A (zh) * 2014-08-19 2014-11-19 浪潮(北京)电子信息产业有限公司 一种测试生物信息学计算平台性能的方法
CN104268069B (zh) * 2014-09-24 2017-05-03 杭州顺网科技股份有限公司 一种电脑性能的评估方法
CN111352837A (zh) * 2020-02-27 2020-06-30 南京亿科人群健康研究院有限公司 一种生物信息学高性能计算平台的测试方法
CN116340070A (zh) * 2023-03-25 2023-06-27 郑州航空工业管理学院 一种生物信息学高性能计算平台的测试方法

Similar Documents

Publication Publication Date Title
CN110968985B (zh) 集成电路修补算法确定方法及装置、存储介质、电子设备
CN106897109B (zh) 基于随机森林回归的虚拟机性能预测方法
US7770140B2 (en) Method and apparatus for evaluating integrated circuit design model performance using basic block vectors and fly-by vectors including microarchitecture dependent information
US9703708B2 (en) System and method for thread scheduling on reconfigurable processor cores
CN103984882A (zh) 一种生物信息学高性能计算平台的测试方法
Diener et al. Evaluating thread placement based on memory access patterns for multi-core processors
US20110016455A1 (en) Power Profiling for Embedded System Design
CN102222034A (zh) 基于程序轮廓分析的虚拟化平台性能评测方法
Shahid et al. Additivity: A selection criterion for performance events for reliable energy predictive modeling
CN103838539A (zh) 性能测量单元、包括该单元的处理器核心和处理剖析方法
Haidar et al. Power-aware computing: Measurement, control, and performance analysis for Intel Xeon Phi
Zhou et al. Doppio: I/o-aware performance analysis, modeling and optimization for in-memory computing framework
CN104156311A (zh) 一种基于cpu模拟器的嵌入式c语言目标码级单元测试方法
Domke et al. Double-precision fpus in high-performance computing: an embarrassment of riches?
US9471237B1 (en) Memory consumption tracking
Zhang et al. A comprehensive deep learning library benchmark and optimal library selection
Adhinarayanan et al. Characterizing and modeling power and energy for extreme-scale in-situ visualization
Calotoiu et al. Lightweight requirements engineering for exascale co-design
WO2018232043A1 (en) Tandem identification engine
CN109344083B (zh) 一种程序调试方法、装置、设备及可读存储介质
CN104156274A (zh) 一种测试生物信息学计算平台性能的方法
JP2013531292A (ja) プローブレストレース収集によるアーキテクチャ実行の再生
Xu et al. Lush: Lightweight framework for user-level scheduling in heterogeneous multicores
CN112597041A (zh) 代码覆盖率的跨分支合并方法、系统、设备及存储介质
Perks et al. Towards automated memory model generation via event tracing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140813

WD01 Invention patent application deemed withdrawn after publication