CN105046109B - 一种用于生物信息序列分析的加速平台 - Google Patents

一种用于生物信息序列分析的加速平台 Download PDF

Info

Publication number
CN105046109B
CN105046109B CN201510364893.2A CN201510364893A CN105046109B CN 105046109 B CN105046109 B CN 105046109B CN 201510364893 A CN201510364893 A CN 201510364893A CN 105046109 B CN105046109 B CN 105046109B
Authority
CN
China
Prior art keywords
platform
analysis
hardware
sequence
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510364893.2A
Other languages
English (en)
Other versions
CN105046109A (zh
Inventor
薛元坤
黄柯
魏国鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING GEZHI GEMONICS Co.,Ltd.
Original Assignee
Sichuan Yunhe Chuangzhi Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yunhe Chuangzhi Science & Technology Co Ltd filed Critical Sichuan Yunhe Chuangzhi Science & Technology Co Ltd
Priority to CN201510364893.2A priority Critical patent/CN105046109B/zh
Publication of CN105046109A publication Critical patent/CN105046109A/zh
Application granted granted Critical
Publication of CN105046109B publication Critical patent/CN105046109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明一种用于生物信息序列分析的加速平台,属于生物信息学以及高性能计算领域,由云计算平台、信息序列分析硬件加速平台、本地任务调度与重构管控接口、底层驱动组成;云计算平台接收压缩或者非压缩的目标生物信息序列任务,并将目标任务存储在目标任务数据库,等待云计算平台单独或者与硬件加速器平台协同分析处理,本发明参照生物信息序列参考库,对目标任务数据库进行分析,采用该平台对生物信息序列进行分析,可以使分析速度可以得到巨大提高,同时极大地降低计算成本。

Description

一种用于生物信息序列分析的加速平台
技术领域
本发明属于生物信息计算与高性能计算领域,特别涉及一种用于生物信息序列分析的加速平台。
背景技术
生物信息序列通常是包含遗传信息的DNA、RNA序列等。这些带有遗传信息的序列在一些因素的影响下会发生突变,而突变往往对应着各种疾病,如癌症等。因此,对生物信息序列进行分析处理,找出其中的突变位点具有重要意义。当前,生物信息序列主要是通过基因测序得到。
近年来,随着基因测序技术的高速发展,测序数据吞吐量有了极大的提升。在2014年初,基因测序仪龙头企业Illumina发布了HiSeq X Ten测序仪,其不间断测序能力已达到每年18,000个全人类基因组。这令人惊叹的数据生成速度对数据处理和分析的能力提出了极高的要求。具体来说,HiSeq X Ten系统的一个运行周期为三天,一个运行周期内测序150个基因组。这也就意味着在三天之内,这些数据必须得到处理,否则便会产生数据阻塞,待数据处理越积越多。简单计算可知,要满足数据处理的要求,就必须在28分钟内完成基因分析的整个流水线过程。如果采用通用云计算以及现今产业界标准的BWA+GATK等分析工具,在高端服务器(12核心双路Intel至强处理器,96GB动态内存)上需要24小时才能完成一个基因组的分析。为了达到HiSeq X Ten三天150个基因组数据的处理需求,至少需要50台这样的高端服务器。考虑到能耗,IT维护等因素,该计算平台的成本将难以接受。
可以看到,即便是高端服务器也远远不能满足生物信息序列分析对速度的需求,并且其分析处理的成本很高。基因数据的处理如此费时的原因是其数据量极大,通常可以达到数百GB。为了找出突变,通常需要将基因序列与基因库中的海量数据进行比对,这一过程包括了质量评估、对准、变体识别、标记等处理。当前,该流程中的各处理步骤都可由运行在CPU上的软件来实现。发展到今天,这些软件实现已经显得较为成熟,据统计,目前已经有数百套软件分别支持该流程中的各处理步骤。然而,由于基因数据极大并且计算过程较为复杂,因此运行在CPU上的软件对各个步骤的计算十分缓慢。
综上所述,基因数据的产生较快并且其数据量极大。对基因数据的处理需要耗费大量计算资源,同时消耗大量时间。为了提高基因数据的处理速度,以匹配基因数据的产生速度,专用、高速、高效的生物信息序列分析平台有着广泛和根本的需求。
当前,用以进行生物信息序列处理的计算平台主要包括ASIC(applicationspecific integrated circuits),FPGA(Field programmable gate arrays),GPU(Graphics Processor Units),以及CPU(Central Processing Unit)等。在这些数据计算平台上,ASIC无疑拥有最高的性能和最好的能耗效率。然而,ASIC的实现需要极大的研发投入和时间成本,实现难度最大。通常,实现一款ASIC需要对设计进行充分细致的验证,测试并多次试产,这个过程往往耗时数年且通常花费数百万美元以上。常规的CPU计算平台通过软件程序实现对数据的处理,实现起来较其他平台容易,但性能也最低。而对GPU平台而言,其拥有高速的I/O,但受限于有限的存储资源。尽管实现起来相对FPGA和ASIC更为容易,其性能却较FPGA和ASIC都低。FPGA的时钟频率虽然较CPU低一个数量级,但其提供了大量可利用的并行计算资源。此外,FPGA具有高速双向I/O,较大的共享内存,以及高度并行化的特点。这些特点使得FPGA十分适合用于计算加速。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种用于生物信息序列分析的加速平台,基于FPGA和ASIC,将生物序列分析流程以硬件的方式来实现,在实现过程中通过高效的硬件架构、高度并行化的计算来大大降低计算和分析所需的时间,其特点包括高效,可重构,可进化,易于与现有平台整合,高精度,高速,可扩展,界面友好等。
为了实现上述目的,本发明采用的技术方案是:
一种用于生物信息序列分析的加速平台,包括:
一个或者多个通用的云计算平台1-1;
一个或者多个用于生物信息序列分析的硬件加速平台1-2;
若干与每个硬件加速平台1-2一一对应的本地任务调度与重构管控接口1-3;
一个或者多个生物信息序列参考数据库1-5,用于和被分析目标序列进行生物学对照分析从而获得分析结果;
一个或者多个目标任务数据库1-6,用于存储目标任务;
其特征在于:所述云计算平台1-1接收压缩或者非压缩的目标生物信息序列任务,并将目标任务存储在目标任务数据库1-6,等待云计算平台1-1单独或者与硬件加速平台1-2协同分析处理。
当协同分析处理时,协同方式包括但不限于以完整任务、个别分析算法粒度为边界的目标任务划分处理。此时,通过本地任务调度与重构管控接口1-3实现硬件加速平台1-2的本地分配与全局均衡,由云计算平台1-1提供重构配置数据流通过本地任务调度与重构管控接口1-3对参与协同的硬件加速平台1-2进行重构。
本发明设置用于访问硬件加速平台资源的底层驱动1-4,任何双向流动于云计算平台1-1与硬件加速平台1-2之间的数据与控制流均通过底层驱动1-4来提供访问手段。
所述分析处理是通过将目标生物信息序列任务中的被分析目标序列与生物信息序列参考数据库1-5中的信息进行生物学对照分析获得分析结果。
所述生物信息序列包括但不限于生物基因组序列、生物RNA序列、蛋白质序列等;所述生物学对照分析包括并不限于:基于参考序列生物基因组序列的映射、对齐、序列对比、变异分析与病理关联分析;基于参考序列的生物RNA序列的映射、对齐、序列对比、变异分析与病理关联分析;蛋白质序列的映射、对齐、序列对比或变异分析与病理关联分析。
当所述硬件加速平台1-2为多个时,相互之间通过高速互连结构1-7实现互联通信,以实现局部负载均衡。
所述的硬件加速平台1-2,作为云计算平台1-1的辅助计算节点,能够但不必需地将生物信息序列分析流程的一部分或者全部步骤卸载在硬件加速平台1-2上并予以加速分析。硬件加速平台1-2基于专用集成电路(ASIC)或者现场可编程门阵列(FPGA),为一个可重构、可进化、可扩展的生物信息序列分析硬件加速平台。其包括:
序列分析处理器簇2-1,由一个或者多个异质结构的序列分析处理器组成簇状聚合;
可重构簇间互连结构2-2;
可重构外周互连结构2-3;
分析核心控制单元2-4;
高速数据接口2-5;
重构配置接口2-6;
高速加速器芯片间/平台电路板间/服务器机架间的互连结构2-7;
上位机接口2-8;
内存控制器2-9;
以及基于非挥发存储器的分析平台重构配置数据库2-10。
所述高速数据接口2-5为DMA控制器与PCIE接口,所述重构配置接口2-6为USB接口与USB JTAG电路,所述互连结构2-7为以太网互连结构,所述内存控制器2-9为DDR3/DRR4外部存储器控制器。
所述硬件加速平台1-2基于总线,可重构簇间互连结构2-2和可重构外周互连结构2-3通过总线实现,该结构下,设置有用于保证同一时间仅有唯一的单元对总线具有访问权的簇间仲裁器,硬件加速平台1-2的各个构成部件都挂载在同一条或者多条层次化的总线上以实现外周与簇间的互连关系;或者,
所述硬件加速平台1-2基于交叉开关矩阵,可重构簇间互连结构2-2和可重构外周互连结构2-3通过(M+N+K/P+2)2的交叉开关矩阵实现,其中M是内存控制器2-9的数目,K是序列分析处理器簇2-1的数目,P是序列分析处理器簇2-1的聚合度,指P个序列分析处理器共享一个交叉开关矩阵的输入和输出端口,这P个处理器称为一个聚合簇,每个聚合簇都维护一个簇间仲裁器,以解决P个处理器对开关矩阵的访问冲突,N是硬件加速平台1-2的互连端口数目,每个硬件加速平台1-2配置有N个以太网接口以实现计算相互之间的通讯;或者,
所述硬件加速平台1-2基于网格拓扑结构或双向环形拓扑结构或层次化星型/分形拓扑结构的片上网络,通过一个或者多个路由器连接入片上网络从而提供不同的数据链路带宽,一个或者多个处理器簇通过一个路由器连入网络构成聚合簇,聚合簇间设置簇间仲裁来保证对路由器的唯一访问权,多个聚合簇间维护一个局部区域控制单元,该单元用于协调、控制与监控一定范围内处理器簇的状态、计算和任务分配;其中:
基于网格拓扑结构的片上网络是一个无向连通图,每一个路由器维护5个数据接口,分别与相邻的四个路由器以及本地节点互连实现数据在网络中的流动;
基于双向环形拓扑结构的片上网络是一个无向有环连通图,每一个路由器维护3个数据接口,分别与相邻的2个路由器以及本地节点互连实现数据在网络中的流动;
基于层次化星型/分形拓扑结构的片上网络是一个无向连通图,每一个局部区域控制单元连接一个路由器,该路由器维护L+2个数据接口,其中L是由该局部区域控制单元管辖的序列分析处理器簇2-1的数目,除此之外,该路由器还需要提供一个本地数据接口与一个数据接口用于连接上层局部区域控制单元。
本发明设置高速互连结构1-7,用以提供本地任务进行局部负载均衡的高速互连网络。
与现有技术相比,本发明用于生物信息序列分析的加速平台,通过云计算平台接收压缩或者非压缩的目标生物信息序列任务,并将目标任务存储在目标任务数据库等待云计算平台单独或者与一个或者多个用于生物信息序列分析的硬件加速平台协同分析处理,达到对生物信息序列进行高速、高效、高精度地分析的目的。
附图说明
图1为本发明整体架构示意图。
图2为本发明硬件加速器平台总览架构示意图。
图3为本发明硬件加速器平台具体架构示意图。
图4为基于总线的硬件加速器平台架构示意图。
图5为基于交叉开关矩阵的硬件加速器平台架构示意图。
图6为基于网格拓扑的片上上网络硬件加速器平台架构示意图。
图7为基于双向环形拓扑的片上上网络硬件加速器平台架构示意图。
图8为基于层次化星型/分形拓扑的片上网络硬件加速器平台架构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。
本发明提出的用于生物信息序列分析的加速平台的整体架构如附图1所示。整体架构包括:一个或者多个通用的云计算平台1-1;一个或者多个用于生物信息序列分析的硬件加速平台1-2;与每个硬件加速平台对应的本地任务调度与重构管控接口1-3;用于访问硬件加速平台资源的底层驱动1-4;一个或者多个生物信息序列参考数据库1-5;一个或者多个目标任务数据库1-6;以及硬件加速平台1-2间的高速互连结构1-7。
本发明加速平台通过一个或者多个通用云计算平台1-1接收压缩或者非压缩的目标生物信息序列任务,并将目标任务存储在目标任务数据库1-6等待云计算平台1-1单独或者与硬件加速平台1-2协同分析处理。这里所描述的生物信息序列包括但不限于生物基因组序列、生物RNA序列、蛋白质序列等。本发明加速平台需要维护生物信息序列参考数据库1-5,用于和被分析目标序列进行生物学对照分析从而获得分析结果。这种对照分析包括并不限于:基于参考序列生物基因组序列的映射、对齐、序列对比、变异分析与病理关联分析;基于参考序列的生物RNA序列的映射、对齐、序列对比、变异分析与病理关联分析;蛋白质序列的映射、对齐、序列对比、变异分析与病理关联分析。
本发明加速平台需要维护硬件加速平台1-2,作为云计算平台1-1的辅助计算节点,能够但不必需地将生物信息序列分析流程的一部分或者全部步骤卸载在硬件加速器平台上并予以加速分析。硬件加速平台1-2基于专用集成电路(ASIC)或者现场可编程门阵列(FPGA),实现一个可重构、可进化、可扩展的生物信息序列分析硬件加速平台。
可重构可进化硬件加速平台是指根据:(1)待分析生物信息序列的不同;(2)分析流程的不同;(3)具体分析步骤算法的不同;(4)具体分析步骤算法的硬件实现架构的不同;对硬件加速平台的各个计算单元的电路具体实现、单元连接关系、互连拓扑结构、接口定义与静态与动态寄存器的配置定义进行调整与重构。
可重构可进化的硬件加速平台的重构与进化可以通过:(1)在每个硬件加速器平台内部维护的预定义的重构配置数据库;(2)由云计算平台1-1的提供重构配置数据流通过本地任务调度与重构管控接口1-3对特定计算节点进行重构。
本发明云计算平台1-1可以在设计周期维护硬件加速平台1-2,并在使用周期增加、减少或者合并包括但不限于一个或者多个硬件加速平台1-2、硬件加速器内部计算单元、硬件加速器接口和外部存储器以适应不同的分析需求。这里的分析需求包括但不限于(1)生物信息序列分析的目标序列类型;(2)分析速度;(3)分析精度;(4)分析通量。
本发明云计算平台1-1可以独立或者协同硬件加速平台1-2对目标生物信息序列进行分析。在进行协同分析时,通用云计算平台1-1通过本地任务调度与重构管控接口1-3进行目标任务的计算节点本地分配与全局均衡。分配给各个计算节点的本地任务存储在本地目标任务负载库中等待信息序列硬件加速分析。硬件加速平台1-2通过高速互连结构1-7构成一定拓扑结构的网络。本地任务可以通过高速互连结构1-7进行局部负载的均衡。这里所描述的局部负载的均衡具体是指:(1)本地目标负载库内待分析生物信息序列在不同的硬件加速平台1-2(即计算节点)之间进行传输与分配;(2)用于同一待分析生物信息序列计算分析单元在不同计算节点之间的共享(当它们可用时)。
任何双向流动于云计算平台1-1与硬件加速平台1-2之间的数据与控制流都通过底层驱动1-4来提供访问手段。访问手段包括不限于:(1)数据格式打包;(2)接口时序的满足;(3)上位机指令的解码;(4)硬件平台状态的反馈。这里数据与控制流是指由云计算平台到计算节点之间的目标任务分配、结果的反馈、硬件平台的状态与重构指令。硬件平台的状态包括但不限于:(1)目标负载库队列的长度;(2)生物信息序列分析进度;(3)各个分析步骤的数据统计与中间结果。
附图2提供了本发明硬件加速平台1-2的总览架构。序列分析处理器簇2-1;可重构簇间互连结构2-2;可重构外周互连结构2-3;分析核心控制单元2-4;高速数据接口2-5;重构配置接口2-6;高速加速器芯片间/平台电路板间/服务器机架间互连结构2-7;上位机接口2-8;内存控制器2-9;基于非挥发存储器的分析平台重构配置数据库2-10。
附图3至附图8提供了本发明硬件加速平台1-2的具体实施方案。附图3描述了本发明所描述的硬件加速器平台的整体架构具体实现方案。整体架构中,高速数据接口2-5选择DMA控制器与PCIE接口,重构配置接口2-6选择USB接口与USB JTAG电路,内存控制器2-9选择DDR3/DRR4外部存储器控制器。
本发明硬件加速平台1-2的核心计算单元由序列分析处理器簇2-1组成簇状聚合。这里描述的序列分析处理器包括并不限于完成以下序列分析功能:(1)待分析与参考生物信息序列的压缩与解压缩;(2)基于参考生物信息序列的映射、对齐、变异分析。(3)序列变异与病理关联分析。可重构簇间互连结构2-2提供了序列分析处理器簇2-1间的数据与控制流交换方法。分析实施时,任意硬件加速平台1-2构成一个可重构计算节点,根据序列分析的需求,序列分析处理器簇2-1与可重构簇间互连结构2-2被重构为不同的特定结构。这里所指的分析需求与重构,与本节前述的分析需求、重构保持一致。这里所指的特定结构包括并不限于附图4至附图8所具体实施的硬件加速结构。
本发明所描述的可重构外周互连结构2-3提供了序列分析处理器簇2-1及其可重构簇间互连结构2-2与外周控制、配置与存储单元之间的互连方法。根据分析需求和核心计算单元与其簇间互连的不同特定结构,外周互连结构可进行重构配置。
本发明在附图2所描述的序列分析处理器簇2-1、可重构簇间互连结构2-2、可重构外周互连结构2-3的重构配置可以通过两种方法实施:(1)通过预设的基于非挥发存储器的分析平台重构配置数据库2-10提取配置码流(bitstream)对电路结构进行重构;(2)云计算平台通过本地任务调度与重构管控接口1-3、底层驱动1-4、上位机接口2-8、重构配置接口2-6直接输入配置码流。分析核心控制单元2-4通过多路开关(mux)来控制配置码流的驱动策源。云计算平台1-1也可以通过相同路径对分析平台重构配置数据库进行增加、删除或者修改。
本发明所描述的生物信息序列分析硬件加速器平台的数据与控制通路通过上位机接口2-8、高速数据接口2-5、可重构外周互连结构2-3、高速加速器芯片间/平台电路板间/服务器机架间互连结构2-7、内存器控制器2-9共同构成。具体而言,分为“云计算平台-硬件加速器平台通路”与“硬件加速器平台-硬件加速器平台通路”。
云计算平台-硬件加速器平台通路,是建立与云计算平台1-1与硬件加速平台1-2之间的数据与控制通路。云计算平台通过上位机接口2-8与高速数据接口2-5将待分析生物信息序列或其子集与参考生物信息序列或其子集传递至内存控制器2-9并存储在外部存储器中。硬件加速平台1-2通过同一路径将硬件平台的状态、各个分析步骤的数据统计、中间以及最终分析结果反馈至云计算平台。这里所描述的高速数据接口包括PCIE接口协议,但不限于PCIE GEN1/GEN2/GEN3。PCIE的并行度包括1x,2x,4x,8x,16x。
硬件加速器平台-硬件加速器平台通路,是建立在硬件加速平台1-2之间的数据与控制通路。不同的硬件加速平台1-2之间通过包括但不限于带宽为10Gbps的以太网(Ethernet)连接(10GbE)组成硬件加速器间互连结构1-7以实现前述的局部负载均衡。
硬件加速平台1-2的节点互连结构包括但不限于:(1)板载于同一块印刷电路板之间的不同芯片的互连;(2)同一机箱内不同印刷电路板之间互连;(3)同一服务器机架内的互连。
附图4至附图8描述了本发明所提出的用于生物信息序列分析的硬件加速器平台的5种具体实施架构方案。这些方案可以通过对附图2所描述的序列分析处理器簇2-1、可重构簇间互连结构2-2、可重构外周互连结构2-3进行配置获得。
附图4描述了基于总线的硬件加速器平台架构。处理器簇间互连与外周互连由专有设计的总线实施。簇间仲裁器被设置用于保证同一时间仅有唯一的单元对总线具有访问权。前述的硬件加速器平台的各个构成部件都挂载在同一条或者多条层次化的总线上以实现外周与簇间的互连关系。
附图5描述了基于交叉开关矩阵的硬件加速器平台架构。处理器簇间互连与外周互连由(M+N+K/P+2)2的交叉开关矩阵实施。其中M是DDR存储器控制器的数目,K是处理器簇的数目,P是处理器簇的聚合度。处理器簇的聚合度为P是指P个处理器共享一个交叉开关矩阵的输入和输出端口。这P个处理器称为一个聚合簇。为了解决P个处理器对开关矩阵的访问冲突,每个聚合簇都维护一个簇间仲裁器。N是硬件加速器平台互连端口数目。每个硬件加速器配置有N个以太网接口以实现计算节点之间的通讯。
附图6至附图8描述了基于不同拓扑结构的片上网络(Networks-on-chip)硬件加速器平台架构。传统的总线与交叉开关的数据传输基于电路交换(circuit-switching),在数据交换发生之前一条唯一的连接数据源与目标的信道通路被该数据通信所独占,并且在数据通信完成之前不能被其他通信活动所利用。片上网络的数据传输基于包交换(packet-switching)。交换数据被细分为流控制单元(Flow control unit,Flit)。一个或者多个流控制单元组成一个数据包,并通过设置在每一个参与数据交换电路节点的路由器(router)进行传递。多个数据通信可以共享同一个路由器和数据信道。根据路由器之间的不同连接关系,片上网络可以组成不同的拓扑结构。
附图6描述本发明提出的基于网格(Mesh)拓扑的片上网络硬件加速器架构。附图2所述的硬件单元被视作片上网络的一个或者多个节点,通过一个或者多个路由器连接入片上网络从而提供不同的数据链路带宽。一个或者多个处理器簇通过一个路由器连入网络构成聚合簇。聚合簇间设置簇间仲裁来保证对路由器的唯一访问权。多个聚合簇间维护一个局部区域控制单元。该单元用于协调、控制与监控一定范围内处理器簇的状态、计算和任务分配。基于网格拓扑结构的片上网络是一个无向连通图。每一个路由器维护5个数据接口,分别与相邻的四个路由器以及本地节点互连实现数据在网络中的流动。
附图7描述本发明提出的基于双向环形(Bi-directional Ring)拓扑的片上网络硬件加速器架构。附图2所述的硬件单元被视作片上网络的一个或者多个节点,通过一个或者多个路由器连接入片上网络从而提供不同的数据链路带宽。一个或者多个处理器簇通过一个路由器连入网络构成聚合簇。聚合簇间设置簇间仲裁来保证对路由器的唯一访问权。多个聚合簇间维护一个局部区域控制单元。该单元用于协调、控制与监控一定范围内处理器簇的状态、计算和任务分配。基于双向环形拓扑结构的片上网络是一个无向有环连通图。每一个路由器维护3个数据接口,分别与相邻的2个路由器以及本地节点互连实现数据在网络中的流动。
附图8描述本发明提出的基于层次化星型/分形(Hierarchical Star/Fractal)拓扑的片上网络硬件加速器架构。附图2所述的硬件单元被视作片上网络的一个或者多个节点,通过一个或者多个路由器连接入片上网络从而提供不同的数据链路带宽。一个或者多个处理器簇通过一个路由器连入网络构成聚合簇。聚合簇间设置簇间仲裁来保证对路由器的唯一访问权。多个聚合簇间维护一个局部区域控制单元。该单元用于协调、控制与监控一定范围内处理器簇的状态、计算和任务分配。基于层次化星型/分形拓扑结构的片上网络是一个无向连通图。每一个局部区域控制单元连接一个路由器,该路由器维护N+2个数据接口。其中N是由该局部区域控制单元管辖的处理器簇数目。除此之外,该路由器还需要提供一个本地数据接口与一个数据接口用于连接上层局部区域控制单元。该拓扑由于具有自相似性质,所以也称作分形拓扑结构的架构。

Claims (8)

1.一种用于生物信息序列分析的加速平台,包括:
一个或者多个通用的云计算平台(1-1);
一个或者多个用于生物信息序列分析的硬件加速平台(1-2);
若干与每个硬件加速平台(1-2)一一对应的本地任务调度与重构管控接口(1-3);
一个或者多个生物信息序列参考数据库(1-5);
一个或者多个目标任务数据库(1-6);
所述云计算平台(1-1)接收压缩或者非压缩的目标生物信息序列任务,并将目标任务存储在目标任务数据库(1-6),等待云计算平台(1-1)单独或者与硬件加速平台(1-2)协同分析处理;
所述硬件加速平台(1-2)基于专用集成电路(ASIC)或者现场可编程门阵列(FPGA),硬件加速平台(1-2)包括:
序列分析处理器簇(2-1),由一个或者多个异质结构的序列分析处理器组成簇状聚合;
可重构簇间互连结构(2-2);
可重构外周互连结构(2-3);
分析核心控制单元(2-4);
高速数据接口(2-5);
重构配置接口(2-6);
高速加速器芯片间/平台电路板间/服务器机架间的互连结构(2-7);
上位机接口(2-8);
内存控制器(2-9);
以及基于非挥发存储器的分析平台重构配置数据库(2-10);
其特征在于,所述硬件加速平台(1-2)基于总线,可重构簇间互连结构(2-2) 和可重构外周互连结构(2-3)通过总线实现,该结构下,设置有用于保证同一时间仅有唯一的单元对总线具有访问权的簇间仲裁器,硬件加速平台(1-2)的各个构成部件都挂载在同一条或者多条层次化的总线上以实现外周与簇间的互连关系;或者,
所述硬件加速平台(1-2)基于交叉开关矩阵,可重构簇间互连结构(2-2)和可重构外周互连结构(2-3)通过(M+N+K/P+2)2的交叉开关矩阵实现,其中M是内存控制器(2-9)的数目,K是序列分析处理器簇(2-1)的数目,P是序列分析处理器簇(2-1)的聚合度,指P个序列分析处理器共享一个交叉开关矩阵的输入和输出端口,这P个处理器称为一个聚合簇,每个聚合簇都维护一个簇间仲裁器,以解决P个处理器对开关矩阵的访问冲突,N是硬件加速平台(1-2)的互连端口数目,每个硬件加速平台(1-2)配置有N个以太网接口以实现计算相互之间的通讯;或者,
所述硬件加速平台(1-2)基于网格拓扑结构或双向环形拓扑结构或层次化星型/分形拓扑结构的片上网络,通过一个或者多个路由器连接入片上网络从而提供不同的数据链路带宽,一个或者多个处理器簇通过一个路由器连入网络构成聚合簇,聚合簇间设置簇间仲裁来保证对路由器的唯一访问权,多个聚合簇间维护一个局部区域控制单元,该单元用于协调、控制与监控一定范围内处理器簇的状态、计算和任务分配;其中:
基于网格拓扑结构的片上网络是一个无向连通图,每一个路由器维护5个数据接口,分别与相邻的四个路由器以及本地节点互连实现数据在网络中的流动;
基于双向环形拓扑结构的片上网络是一个无向有环连通图,每一个路由器维护3个数据接口,分别与相邻的2个路由器以及本地节点互连实现数据在网络中的流动;
基于层次化星型/分形拓扑结构的片上网络是一个无向连通图,每一个局部区域控制单元连接一个路由器,该路由器维护L+2个数据接口,其中L是由该局部区域控制单元管辖的序列分析处理器簇(2-1)的数目,除此之外,该路由器还需要提供一个本地数据接口与一个数据接口用于连接上层局部区域控制单元。
2.根据权利要求1所述用于生物信息序列分析的加速平台,其特征在于,当协同分析处理时,通过本地任务调度与重构管控接口(1-3)实现硬件加速平台(1-2)的本地分配与全局均衡,由云计算平台(1-1)提供重构配置数据流通过本地任务调度与重构管控接口(1-3)对参与协同的硬件加速平台(1-2)进行重构。
3.根据权利要求1所述用于生物信息序列分析的加速平台,其特征在于,设置用于访问硬件加速平台资源的底层驱动(1-4),任何双向流动于云计算平台(1-1)与硬件加速平台(1-2)之间的数据与控制流均通过底层驱动(1-4)来提供访问手段。
4.根据权利要求1所述用于生物信息序列分析的加速平台,其特征在于,所述分析处理是通过将目标生物信息序列任务中的被分析目标序列与生物信息序列参考数据库(1-5)中的信息进行生物学对照分析获得分析结果。
5.根据权利要求4所述用于生物信息序列分析的加速平台,其特征在于,所述生物信息序列包括生物基因组序列、生物RNA序列、蛋白质序列;所述生物学对照分析包括:基于参考序列生物基因组序列的映射、对齐、序列对比、变异分析与病理关联分析;基于参考序列的生物RNA序列的映射、对齐、序列对比、变异分析与病理关联分析;蛋白质序列的映射、对齐、序列对比或变异分析与病理关联分析。
6.根据权利要求1所述用于生物信息序列分析的加速平台,其特征在于,当所述硬件加速平台(1-2)为多个时,相互之间通过高速互连结构(1-7)实现互联通信,以实现局部负载均衡。
7.根据权利要求1所述用于生物信息序列分析的加速平台,其特征在于,所述高速数据接口(2-5)为DMA控制器与PCIE接口,所述重构配置接口(2-6)为USB接口与USB JTAG电路,所述互连结构(2-7)为以太网互连结构,所述内存控制器(2-9)为DDR3/DRR4外部存储器控制器。
8.根据权利要求1所述用于生物信息序列分析的加速平台,其特征在于,所述云计算平台(1-1)与硬件加速平台(1-2)协同分析处理时,协同方式包括以完整任务、个别分析算法粒度为边界的目标任务划分处理。
CN201510364893.2A 2015-06-26 2015-06-26 一种用于生物信息序列分析的加速平台 Active CN105046109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510364893.2A CN105046109B (zh) 2015-06-26 2015-06-26 一种用于生物信息序列分析的加速平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510364893.2A CN105046109B (zh) 2015-06-26 2015-06-26 一种用于生物信息序列分析的加速平台

Publications (2)

Publication Number Publication Date
CN105046109A CN105046109A (zh) 2015-11-11
CN105046109B true CN105046109B (zh) 2018-06-29

Family

ID=54452649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510364893.2A Active CN105046109B (zh) 2015-06-26 2015-06-26 一种用于生物信息序列分析的加速平台

Country Status (1)

Country Link
CN (1) CN105046109B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105634960B (zh) 2015-12-24 2017-04-05 中国科学院计算技术研究所 基于分形树结构的数据发布装置、方法、控制装置及智能芯片
CN107273204B (zh) 2016-04-08 2020-10-09 华为技术有限公司 用于基因分析的资源分配方法和装置
CN106897581B (zh) * 2017-01-25 2018-01-26 人和未来生物科技(长沙)有限公司 一种面向基因数据解读的可重构异构平台
CN107273663B (zh) * 2017-05-22 2018-12-11 人和未来生物科技(长沙)有限公司 一种dna甲基化测序数据计算解读方法
CN107203703A (zh) * 2017-05-22 2017-09-26 人和未来生物科技(长沙)有限公司 一种转录组测序数据计算解读方法
US11112972B2 (en) 2018-12-05 2021-09-07 Samsung Electronics Co., Ltd. System and method for accelerated data processing in SSDs
CN111913791B (zh) * 2020-07-02 2023-10-13 北京和瑞精湛医学检验实验室有限公司 任务调度方法、装置、设备和计算机可读存储介质
CN113254104B (zh) * 2021-06-07 2022-06-21 中科计算技术西部研究院 一种用于基因分析的加速器及加速方法
CN113342719B (zh) * 2021-06-30 2022-12-13 珠海一微半导体股份有限公司 一种运算加速单元及其运算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744880A (zh) * 2013-12-20 2014-04-23 浪潮(北京)电子信息产业有限公司 一种基于云计算的dna数据管理方法及系统
CN104537278A (zh) * 2014-12-01 2015-04-22 中国人民解放军海军工程大学 对带假结的rna二级结构预测进行硬件加速的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805407B2 (en) * 2013-01-25 2017-10-31 Illumina, Inc. Methods and systems for using a cloud computing environment to configure and sell a biological sample preparation cartridge and share related data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744880A (zh) * 2013-12-20 2014-04-23 浪潮(北京)电子信息产业有限公司 一种基于云计算的dna数据管理方法及系统
CN104537278A (zh) * 2014-12-01 2015-04-22 中国人民解放军海军工程大学 对带假结的rna二级结构预测进行硬件加速的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Efficient Network-on-Chip (NoC) based Multicore Platform for Hierarchical Parallel Genetic Algorithms;Yuankun Xue et al.;《2014 Eighth IEEE/ACM International Symposium on Networks-on-Chip (NoCS)》;20141231;第17-24页 *
生物序列分析算法硬件加速器关键技术研究;夏飞;《中国博士学位论文全文数据库 基础科学辑》;20120715(第07期);论文第139-144、153-156页 *

Also Published As

Publication number Publication date
CN105046109A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105046109B (zh) 一种用于生物信息序列分析的加速平台
CN101529425B (zh) 通过交互中心的空间分区进行的负荷平衡
Moorthy et al. Zedwulf: Power-performance tradeoffs of a 32-node zynq soc cluster
Jaros Multi-GPU island-based genetic algorithm for solving the knapsack problem
Xiao et al. Prometheus: Processing-in-memory heterogeneous architecture design from a multi-layer network theoretic strategy
US11436258B2 (en) Prometheus: processing-in-memory heterogenous architecture design from a multi-layer network theoretic strategy
Barker et al. A performance evaluation of the Nehalem quad-core processor for scientific computing
Owaida et al. Distributed inference over decision tree ensembles on clusters of FPGAs
CN102945198B (zh) 一种表征高性能计算应用特征的方法
Catthoor et al. Very large-scale neuromorphic systems for biological signal processing
CN102193830A (zh) 面向众核环境的分治映射/归约并行编程模型
CN107273204A (zh) 用于基因分析的资源分配方法和装置
Belletti et al. Ianus: an adaptive FPGA computer
Peréz-Sánchez et al. Applications of high performance computing in bioinformatics, computational biology and computational chemistry
Cesini et al. Power-efficient computing: experiences from the COSA project
CN106897581B (zh) 一种面向基因数据解读的可重构异构平台
Knodel et al. Integration of a highly scalable, multi-fpga-based hardware accelerator in common cluster infrastructures
Verma et al. Demystifying the mlperf training benchmark suite
Xu et al. Low-power task scheduling algorithm for large-scale cloud data centers
Shi et al. The partitioned LASSO-patternsearch algorithm with application to gene expression data
Strengholt et al. Acceleration of the Smith-Waterman algorithm for DNA sequence alignment using an FPGA platform
Li et al. Analysis on intersections between fractures by parallel computation
Verma et al. Demystifying the mlperf benchmark suite
CN106897582B (zh) 一种面向基因数据解读的异构平台
Aghapour Integrated ARM big

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220712

Address after: Rooms 1201, 1205-1207, 1211-1212, building a, Zhongdan Ecological Life Science Industrial Park, No. 3-1, xinjinhu Road, Nanjing high tech Industrial Development Zone, Jiangsu 210000

Patentee after: NANJING GEZHI GEMONICS Co.,Ltd.

Address before: 610041 floor 2, block B, building 1, No. 1480, north section of Tianfu Avenue, high tech Zone, Chengdu, Sichuan Province

Patentee before: SICHUAN YUNHE CHUANGZHI SCIENCE & TECHNOLOGY Co.,Ltd.