CN104156274A - 一种测试生物信息学计算平台性能的方法 - Google Patents

一种测试生物信息学计算平台性能的方法 Download PDF

Info

Publication number
CN104156274A
CN104156274A CN201410408945.7A CN201410408945A CN104156274A CN 104156274 A CN104156274 A CN 104156274A CN 201410408945 A CN201410408945 A CN 201410408945A CN 104156274 A CN104156274 A CN 104156274A
Authority
CN
China
Prior art keywords
test
performance
computing platform
platform
bioinformatics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410408945.7A
Other languages
English (en)
Inventor
金莲
吕文静
刘羽
陈博文
于涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410408945.7A priority Critical patent/CN104156274A/zh
Publication of CN104156274A publication Critical patent/CN104156274A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种测试生物信息学计算平台性能的方法,包括:选择适用于生物信息学的基础计算平台;对所选择的基础计算平台进行性能测试,得到标准性能指标;对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标进行比较,得到测试结果。通过本发明的方案,将对基础计算平台的性能测试作为标准性能指标,利用标准性能指标来衡量待测试计算平台,从而实现了对生物信息学计算平台的性能的测试。

Description

一种测试生物信息学计算平台性能的方法
技术领域
本发明涉及生物信息学技术,尤指一种测试生物信息学计算平台性能的方法。
背景技术
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。在基因组学研究方向,测序技术是重要的研究手段,对于测序数据的分析需要借助高性能计算平台完成,因此,高性能计算平台的性能对生物信息学研究进展起着至关重要的作用,如何评测一套生物信息学计算平台的性能,是很多生物信息学专家以及高性能计算专家面临的问题。因为熟悉生物信息学的专家不熟悉具体的计算系统的配置,高性能计算专家对生物信息分析的流程和资源需求也知之甚少,所以发展一套标准化的生物信息学计算平台性能的检测方法十分必要。
现有的测试计算平台性能的方法是,只对计算平台进行系统级的常规检测,如linpack测试,stream测试。其并没有考虑生物信息学应用软件的性能特征。而生物信息学计算平台要求内存容量消耗大,磁盘读写频繁,且存储占用空间大等,因此采用现有的方法检测得到的性能较好的计算平台,在进行生物信息学方面的计算时,其性能不一定是好的。
发明内容
为了解决上述问题,本发明提出了一种测试生物信息学计算平台性能的方法,能够测试生物信息学计算平台的性能。
为了达到上述目的,本发明提出了一种测试生物信息学计算平台性能的方法,包括:
选择适用于生物信息学的基础计算平台;
对所选择的基础计算平台进行性能测试,得到标准性能指标;
对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标进行比较,得到测试结果。
优选地,所述性能测试包括对硬件的测试和对软件的测试。
优选地,所述对硬件的测试包括对高性能计算的linpack HPL效率、内存带宽、磁盘读写频率的测试。
优选地,所述对软件的测试包括:
采用测试用例在所述基础计算平台的生物信息学软件中运行的时间和资源消耗。
优选地,所述将得到的性能指标与标准性能指标进行比较,得到测试结果包括:
当所述待测试生物信息学计算平台的性能指标优于所述标准性能指标时,所述测试结果为待测试计算平台满足要求。
优选地,所述测试结果为待测试生物信息学计算平台满足要求包括:
所述对待测试生物信息学计算平台进行性能测试得到的HPL效率大于或等于所述对基础计算平台进行性能测试得到的HPL效率,
且所述对待测试生物信息学计算平台进行性能测试得到的内存带宽的实测值和理论值之间的比值大于或等于所述对基础计算平台进行性能测试得到的比值,
且所述对待测试生物信息学计算平台进行性能测试得到的磁盘读写频率小于或等于所述对基础计算平台进行性能测试得到的磁盘读写频率,
且所述对待测试生物信息学计算平台进行性能测试得到的测试用例的运行时间和资源消耗小于或等于所述对基础计算平台进行性能测试得到的运行时间和资源消耗。
与现有技术相比,本发明包括:选择适用于生物信息学的基础计算平台;对所选择的基础计算平台进行性能测试,得到标准性能指标;对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标进行比较,得到测试结果。通过本发明的方案,将对基础计算平台的性能测试作为标准性能指标,利用标准性能指标来衡量待测试计算平台,从而实现了对生物信息学计算平台的性能的测试。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的测试生物信息学计算平台性能的方法流程图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
参见图1,本发明提出了一种测试生物信息学计算平台性能的方法,包括:
步骤100、选择适用于生物信息学的基础计算平台。
本步骤中,所选择的基础计算平台必须是现有生物信息学分析较通用的硬件平台,应满足大内存,高主频,高磁盘读写频率等。具体可以采用调研的方式了解目前生物信息学用户对计算平台的硬件资源和软件资源的需求,从而选择使用频率最高的计算平台作为基础计算平台。
例如,根据调研发现,浪潮NF5280M3双路计算节点的计算平台完全可以满足目前生物信息学用户对计算平台的硬件资源和软件资源的需求。该计算平台的CPU选用INTEL Xeon E5-2670,配8GB*16=128GB内存,8块300GB磁盘做磁盘阵列(RAID,Redundant Arrays of Inexpensive Disks);该计算平台安装的操作系统为RHEL6.3 Linux操作系统,安装的编译器为incomposer_xe_2013.3.163,消息传递接口软件为intel mpi4.1.0.024i,是一种程序并行接口软件,以及用户环境的配置,即集群用户组群的建立,权限管理,用户的磁盘空间分配等。
步骤101、对所选择的基础计算平台进行性能测试,得到标准性能指标。
本步骤中,性能测试包括对硬件的测试和对软件的测试。
其中,对硬件的测试包括对基础计算平台的高性能计算的linpack(HPL,High Performance Computing Linpack)效率、内存带宽、磁盘读写频率等的测试。
其中,可以采用现有的集群或是系统的基准测试方法,如HPL测试方法对HPL效率进行测试,并不用于限定本发明的保护范围,这里不再赘述。
测试过程中,可以通过调节问题规模大小N(矩阵大小)、使用到的CPU数目、使用的优化方法等来执行HPL测试程序,以获取最佳的性能,一般HPL效率在95%以上为佳。
其中,可以采用STREAM来测试内存带宽。
测试过程中,可以通过对大维度的矢量数组的处理(如数组的复制、数组的尺度变换、数组的矢量求和、数组的复合矢量求和)来评价基础计算平台的内存带宽。内存带宽的实测值和理论值之间的比值在80%以上为佳。
其中,可以采用Linux系统命令(如DD)进行磁盘读写频率的测试。磁盘读写速度在80MB/s以上为佳。
其中,对软件的测试是指采用测试用例在基础计算平台的生物信息学软件中运行的时间和资源消耗情况(包括内存的占用、CPU的占用和磁盘读写频率等)。
其中,由于BWA(Burrows-Wheeler Aligner)软件和序列拼接软件VELVET是生物信息学中最耗时,且业内使用频率最高的两款软件,可以选用这两款软件作为用例对基础计算平台的性能进行测试。
其中,测试用例的选择要能占满或是消耗完系统的大量资源,如内存消耗达到总内存容量的90%的特点等。
例如,测试用例可以选用ILLUMIA公司的测序数据进行分析,ILLUMIA公司产生的序列文件可以作为进行生物信息学的软件(如BWA和VELVET等)的输入文件。
其中,可以采用自动化程序对基准测试软件HPL,STREAM、生物信息学软件BWA、VELVET自动安装到基础计算平台中,该自动化程序通过编写脚本将HPL、STREAM、生物信息学软件BWA、VELVET软件自动安装到基础计算平台中,使用shell脚本定义用到的编译器类型,定义编译选项,设置编译路径,定义编译的步骤,保存脚本,最后执行脚本实现自动安装,并根据系统的参数自动匹配测试参数,进行性能测试。
具体如何实现对基准测试软件HPL,STREAM、生物信息学软件BWA、VELVET的自动安装属于本领域技术人员的惯用技术手段,这里不再赘述。
步骤102、对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标进行比较,得到测试结果。
本步骤中,当待测试生物信息学计算平台的性能指标优于标准性能指标时,测试结果为待测试计算平台满足要求。
具体的,测试结果为待测试计算平台满足要求包括:对待测试生物信息学计算平台进行性能测试得到的HPL效率大于或等于对基础计算平台进行性能测试得到的HPL效率,且对待测试生物信息学计算平台进行性能测试得到的内存带宽的实测值和理论值之间的比值大于或等于对基础计算平台的比值,且对待测试生物信息学计算平台进行性能测试得到的磁盘读写频率小于或等于对基础计算平台进行性能测试得到的磁盘读写频率,且对待测试生物信息学计算平台进行性能测试得到的测试用例的运行时间和资源消耗小于或等于对基础计算平台进行性能测试得到的运行时间和资源消耗。
本步骤中,采用HPL效率在95%以上时所采用的测试条件(如问题规模大小N(矩阵大小)、使用到的CPU数目、使用的优化方法等)对待测试计算平台进行HPL效率的测试。
采用内存带宽的实测值和理论值之间的比值在80%以上是所采用的对大维度的矢量数组的处理实例来评价待测试计算平台的内存带宽。
采用与基础计算平台相同的测试用例在待测试计算平台上进行测试,当测试用例运行时间比基础计算平台短时,认为待测试计算平台的性能优于基础计算平台。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (6)

1.一种测试生物信息学计算平台性能的方法,其特征在于,包括:
选择适用于生物信息学的基础计算平台;
对所选择的基础计算平台进行性能测试,得到标准性能指标;
对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标进行比较,得到测试结果。
2.根据权利要求1所述的方法,其特征在于,所述性能测试包括对硬件的测试和对软件的测试。
3.根据权利要求2所述的方法,其特征在于,所述对硬件的测试包括对高性能计算的linpack HPL效率、内存带宽、磁盘读写频率的测试。
4.根据权利要求2所述的方法,其特征在于,所述对软件的测试包括:
采用测试用例在所述基础计算平台的生物信息学软件中运行的时间和资源消耗。
5.根据权利要求1所述的方法,其特征在于,所述将得到的性能指标与标准性能指标进行比较,得到测试结果包括:
当所述待测试生物信息学计算平台的性能指标优于所述标准性能指标时,所述测试结果为待测试计算平台满足要求。
6.根据权利要求5所述的方法,其特征在于,所述测试结果为待测试生物信息学计算平台满足要求包括:
所述对待测试生物信息学计算平台进行性能测试得到的HPL效率大于或等于所述对基础计算平台进行性能测试得到的HPL效率,
且所述对待测试生物信息学计算平台进行性能测试得到的内存带宽的实测值和理论值之间的比值大于或等于所述对基础计算平台进行性能测试得到的比值,
且所述对待测试生物信息学计算平台进行性能测试得到的磁盘读写频率小于或等于所述对基础计算平台进行性能测试得到的磁盘读写频率,
且所述对待测试生物信息学计算平台进行性能测试得到的测试用例的运行时间和资源消耗小于或等于所述对基础计算平台进行性能测试得到的运行时间和资源消耗。
CN201410408945.7A 2014-08-19 2014-08-19 一种测试生物信息学计算平台性能的方法 Pending CN104156274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410408945.7A CN104156274A (zh) 2014-08-19 2014-08-19 一种测试生物信息学计算平台性能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410408945.7A CN104156274A (zh) 2014-08-19 2014-08-19 一种测试生物信息学计算平台性能的方法

Publications (1)

Publication Number Publication Date
CN104156274A true CN104156274A (zh) 2014-11-19

Family

ID=51881779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410408945.7A Pending CN104156274A (zh) 2014-08-19 2014-08-19 一种测试生物信息学计算平台性能的方法

Country Status (1)

Country Link
CN (1) CN104156274A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352837A (zh) * 2020-02-27 2020-06-30 南京亿科人群健康研究院有限公司 一种生物信息学高性能计算平台的测试方法
CN116340070A (zh) * 2023-03-25 2023-06-27 郑州航空工业管理学院 一种生物信息学高性能计算平台的测试方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701471A (en) * 1995-07-05 1997-12-23 Sun Microsystems, Inc. System and method for testing multiple database management systems
US20080127083A1 (en) * 2006-08-29 2008-05-29 International Business Machines Corporation Method and system for combining multiple benchmarks
CN101604287A (zh) * 2009-07-14 2009-12-16 浪潮电子信息产业股份有限公司 一种基于硬件计数器获取性能数据实现动态优化服务器性能的方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法
CN103984882A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的测试方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701471A (en) * 1995-07-05 1997-12-23 Sun Microsystems, Inc. System and method for testing multiple database management systems
US20080127083A1 (en) * 2006-08-29 2008-05-29 International Business Machines Corporation Method and system for combining multiple benchmarks
CN101604287A (zh) * 2009-07-14 2009-12-16 浪潮电子信息产业股份有限公司 一种基于硬件计数器获取性能数据实现动态优化服务器性能的方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法
CN103984882A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的测试方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352837A (zh) * 2020-02-27 2020-06-30 南京亿科人群健康研究院有限公司 一种生物信息学高性能计算平台的测试方法
CN116340070A (zh) * 2023-03-25 2023-06-27 郑州航空工业管理学院 一种生物信息学高性能计算平台的测试方法

Similar Documents

Publication Publication Date Title
US10942716B1 (en) Dynamic computational acceleration using a heterogeneous hardware infrastructure
Juve et al. Characterizing and profiling scientific workflows
Hou et al. Auto-tuning strategies for parallelizing sparse matrix-vector (spmv) multiplication on multi-and many-core processors
Mushtaq et al. Sparkga: A spark framework for cost effective, fast and accurate dna analysis at scale
Kress et al. Comparing the efficiency of in situ visualization paradigms at scale
Chen et al. CMSA: a heterogeneous CPU/GPU computing system for multiple similar RNA/DNA sequence alignment
Khaleghzadeh et al. Bi-objective optimization of data-parallel applications on heterogeneous HPC platforms for performance and energy through workload distribution
Larsonneur et al. Evaluating workflow management systems: A bioinformatics use case
CN102736896B (zh) 运行前近似计算
Lavenier et al. DNA mapping using Processor-in-Memory architecture
Zhang et al. MTC Envelope: Defining the capability of large scale computers in the context of parallel scripting applications
Lee et al. Scalable HPC & AI infrastructure for COVID-19 therapeutics
Kathiresan et al. Accelerating next generation sequencing data analysis with system level optimizations
Li et al. MCtandem: an efficient tool for large-scale peptide identification on many integrated core (MIC) architecture
D’Agostino et al. SoC-based computing infrastructures for scientific applications and commercial services: Performance and economic evaluations
CN103984882A (zh) 一种生物信息学高性能计算平台的测试方法
CN114237911A (zh) 基于cuda的基因数据处理方法、装置和cuda构架
CN104156274A (zh) 一种测试生物信息学计算平台性能的方法
Sarwar et al. Database search, alignment viewer and genomics analysis tools: big data for bioinformatics
Guerrero et al. A performance/cost evaluation for a GPU‐based drug discovery application on volunteer computing
Ding et al. Methodology for Evaluating the Potential of Disaggregated Memory Systems
Ogasawara et al. Sam2bam: High-performance framework for NGS data preprocessing tools
Mendonça et al. Accelerating docking simulation using multicore and gpu systems
Carneiro et al. Collective i/o performance on the santos dumont supercomputer
Lun et al. Powering single-cell analyses in the browser with WebAssembly

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141119

RJ01 Rejection of invention patent application after publication