CN113254104A

CN113254104A - 一种用于基因分析的加速器及加速方法

Info

Publication number: CN113254104A
Application number: CN202110633617.7A
Authority: CN
Inventors: 谭光明; 李叶文; 高睿昊; 臧大伟; 刘万奇; 康宁
Original assignee: Western Research Institute Of China Science And Technology Computing Technology
Current assignee: Western Research Institute Of China Science And Technology Computing Technology
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-08-13
Anticipated expiration: 2041-06-07
Also published as: CN113254104B

Abstract

本发明涉及基因分析技术领域，具体公开了一种用于基因分析的加速器及加速方法，其中，加速器包括加速器阵列模块和粒度配置模块；加速器阵列模块包括m个计算单元，粒度配置模块用于将n个计算单元整合为加速核，其中n小于或等于m；粒度配置模块还用于获取指令信息，加速核用于根据指令信息进行加速计算；指令信息包括数据指令、参数指令和计算指令中的一种或多种。采用本发明的技术方案能够提高基因分析的速度。

Description

一种用于基因分析的加速器及加速方法

技术领域

本发明涉及基因分析技术领域，特别涉及一种用于基因分析的加速器及加速方法。

背景技术

基因分析技术作为探索生命奥秘的重要手段，正成为生物信息学研究的重要分支，在物种鉴别、基因检测、疾病诊断等方面有着广泛的应用，基因分析技术的飞速发展为精准医疗奠定了坚实的基础，也使得临床诊断前景更加光明。近年来，随着第二代测序技术的高速发展，测序成本的下降速率已经远远超过摩尔定律的下降速率，呈爆炸式增长的基因数据量对现有处理器的处理能力提出了新的挑战。

在基因分析流程中，动态规划算法、成对隐马尔可夫模型等步骤必不可少且相当耗时，已经成为目前基因分析流程中重要的性能瓶颈。

目前主流的通用处理器如Intel，AMD，ARM，PowerPC均是商用处理器，未开放处理器的源代码。在没有开源代码的情况下，无法实现在芯片内部定制加速器模块，而且，主流的通用处理器采用的指令集为X86，ARM和Power等。这些指令集也不支持用户去定义调用特定加速器模块的指令。由于以上两点限制，所以目前主流的通用处理器仅仅能完成通用的计算功能。无法根据基因的特点进行自适应的加速，导致计算速度慢。

为此，需要一种能提高计算速度的用于基因分析的加速器及加速方法。

发明内容

本发明提供了一种用于基因分析的加速器及加速方法，能够提高基因分析的速度。

为了解决上述技术问题，本申请提供如下技术方案：

本发明的目的之一是提供一种用于基因分析的加速器，包括加速器阵列模块和粒度配置模块；

加速器阵列模块包括m个计算单元，粒度配置模块用于将n个计算单元整合为加速核，其中n小于或等于m；

粒度配置模块还用于获取指令信息，加速核用于根据指令信息进行加速计算；

指令信息包括数据指令、参数指令和计算指令中的一种或多种。

基础方案原理及有益效果如下：

由于基因读段的长度因测序技术和公司而各不相同，单一的计算单元无法对不同长度的读段进行计算，影响计算效率。本方案中，未采用已有的商用处理器，而且进行了重新设计，设置了包括m个计算单元的加速器阵列模块，还设置了粒度配置模块。粒度配置模块可以将其中n个计算单元整合为加速器，实现了粗细粒度的调整，可以对不同长度的读段序列进行计算。换句话说，通过粒度配置模块来对加速器阵列模块的粒度进行配置，将多个小的计算单元整合成大的计算单元来完成更长读段的计算。可以有效提高运算速度，缩短运算的时间。

通过引入特定的指令信息，可以针对加速器的指令进行定制形成自定义指令即数据指令、参数指令和计算指令中的一种或多种。通过指令信息可以将加速器阵列模块执行计算需要的数据、参数等进行提前配置，加速器阵列模块在此基础上直接调用计算，效率更高。

综上，本方案能够提高基因分析的速度。

进一步，还包括输入缓存序列和输入缓冲序列，用于为加速器阵列模块提供加速计算需要的数据。

便于加速器阵列模块直接从输入缓存序列和输入缓冲序列调取数据进行加速计算，与从计算机的内存中调用数据相比，无需借助PCIe和SerDes等接口进行数据传输，不会出现由于PCIe和SerDes等接口带宽远低于访存设备的带宽，造成交互损耗的问题，从而降低了交互损耗。

进一步，所述计算单元包括数据选择器、数据缓存队列、第一计算模块、结果暂存队列、结果选择器和第二计算模块；第一计算模块和结果暂存队列的数量有若干个，且第一计算模块与结果暂存队列一一对应；

数据选择器用于对输入数据和数据缓存队列中缓存的上一轮计算完成的数据，进行数据选择；

数据缓存队列用于存储第一计算模块的结果；

第一计算模块用于对数据选择器选择的数据进行第一次计算，并将计算结果输入到对应的结果暂存队列；

所述结果暂存队列用于存储对应第一计算模块的计算结果；

所述结果选择器用于为第二计算模块提供数据；

所述第二计算模块用于提取结果暂存队列的数据进行第二次计算，将计算完成的数据输入数据缓存队列。

通过设置数据选择器、数据缓存队列、第一计算模块、结果暂存队列、结果选择器和第二计算模块，可以实现多种基因分析步骤的加速。第一计算模块和结果暂存队列的数量有若干个，且第一计算模块与结果暂存队列一一对应，可以实现并行计算，提高计算速度。

进一步，所述加速计算包括动态规划计算，

动态规划计算中，输入缓存序列提供读段序列，输入缓冲序列提供参考序列；

数据选择器用于对输入的参考序列和数据缓存队列中的上一轮计算完成的对比序列；进行数据选择；

第一计算模块用于将读段序列与数据选择器输入的参考序列或对比序列进行比较，将比较结果存储在结果暂存队列中；

第二计算模块用于提取结果暂存队列中的比较结果进行动态规划的反向回溯，得到比对序列，将对比序列输入数据缓存队列中。

本优选方案可以有效支持动态规划计算，第一计算模块将读段序列与对比序列进行比较，有效地利用了动态规划算法中数据重用性的特点。

进一步，所述加速计算还包括成对隐马尔可夫模型计算，

成对隐马尔可夫模型计算中，输入缓存序列提供读段序列，输入缓冲序列提供单体型碱基序列；

数据选择器用于对单体型碱基序列和数据缓存队列中缓存的上一轮计算完成的数据进行数据选择；

数据缓存队列用于存储第一计算模块的计算结果；

第一计算模块用于对数据选择器选择的数据与读段序列进行初始化计算或迭代计算，并将计算结果输入到对应的结果暂存队列；

第二计算模块用于提取结果暂存队列的数据进行相似得分计算，得到相似得分。

本优选方案可以有效支持成对隐马尔可夫模型计算。

进一步，所述粒度配置模块整合的每个加速核的大小为：

kernel_size/(read_length+edit_distance)

其中kernel_size为单个计算单元支持的数据计算长度，read_length为当前的读段序列长度，edit_distance为允许的最长的编辑距离。

使得加速器支持的数据计算长度与当前的读段序列长度相匹配，可以提高计算速度，缩短计算的时间。

进一步，所述数据指令用于配置加速器阵列模块计算的数据地址，单个数据大小和数据总长度；

参数指令用于配置加速器阵列模块加速计算的参数；

计算指令用于在数据准备完成后，启动加速器阵列模块对数据执行加速计算，将计算结果写回数据指令配置的数据地址。

通过数据指令、参数指令和计算指令可以实现对加速器阵列模块进行精确的控制。

进一步，所述m个计算单元组成脉动阵列。

采用脉动阵列，计算时，数据在阵列结构的各计算单元之间沿各自方向同步前进，吞吐量大，计算速度快。

进一步，所述指令信息还包括辅助指令，辅助指令用于检测加速器阵列模块的行为。

例如判断当前加速核是否计算完成等，可以对加速器阵列模块的加速过程进行监控。

本发明的目的之二是提供一种用于基因分析的加速方法，使用上述加速器，实现对基因分析的加速。

由于基因读段的长度因测序技术和公司而各不相同，单一的计算单元无法对不同长度的读段进行计算，影响计算效率。本方案中，粒度配置模块将n个计算单元整合为加速器，实现了粗细粒度的调整，可以对不同长度的读段序列进行计算。换句话说，对加速器阵列模块的粒度进行配置，将多个小的计算单元整合成大的计算单元来完成更长读段的计算。可以有效提高运算速度，缩短运算的时间。

综上，本方案能够提高基因分析的速度。

附图说明

图1为实施例一用于基因分析的加速器的逻辑框图；

图2为实施例一用于基因分析的加速器中计算单元的逻辑框图；

图3为实施例一中动态规划算法的示意图；

图4为实施例二中成对隐马尔可夫模型的示意图；

图5为实施例二中成对隐马尔可夫模型的执行特征图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

本实施例针对动态规划算法的应用对用于基因分析的加速器进行介绍。如图1所示，加速核包括加速器阵列模块、粒度配置模块、输入缓存序列和输入缓冲序列。

输入缓存序列和输入缓冲序列，用于为加速器阵列模块提供加速计算需要的数据。本实施例中，输入缓存序列用于提供读段序列、输入缓冲序列用于提供参考序列。

加速器阵列模块包括m个计算单元。m个计算单元组成矩形阵列，本实施例中，计算单元的数量为9个，组成3x3的矩形阵列，具体为脉动阵列。

粒度配置模块还用于将n个计算单元整合为加速核，实现对阵列的粒度进行配置，其中n小于或等于m。由于读段序列的长度因测序技术和公司而各不相同，单一的计算单元无法对不同长度的读段序列进行计算，将多个小的计算单元整合为加速核可以完成更长读段序列的计算。粒度配置模块还用于获取指令信息，加速核用于根据指令信息进行加速计算。

本实施例中，具体使用RISC-V支持的RoCC协议，以及RISC-V支持的指令信息。指令信息包括数据指令、参数指令和计算指令中的一种或多种，本实施例中包括上述全部。在其他实施例中，还可以包括辅助指令。

数据指令，用于配置加速器阵列模块计算需要的数据地址，单个数据大小和数据总长度，其调用次数取决于计算需要哪几类数据。

参数指令，用于配置加速器阵列模块动态规划计算的参数，通常只调用一次。

计算指令，用于在数据准备完成后，启动加速器阵列模块对数据执行动态规划计算，并兼顾将计算结果写回数据指令配置的数据地址。

辅助指令，用于检测加速器阵列模块的行为，例如判断当前加速核是否计算完成等。

如图2所示，计算单元包括数据选择器、第一计算模块、结果暂存队列、结果选择器、第二计算模块和数据缓存队列。

第一计算模块有若干个，结果暂存队列的数量与第一计算模块的数量一致，且与第一计算模块一一对应。

数据选择器用于接收参考序列和数据缓存队列中的上一轮计算完成的对比序列；进行数据选择；本实施例中，数据选择根据第一计算模块的需求确定，换句话说第一计算模块需要的计算数据是上一轮的比对序列还是输入的参考序列。

第一计算模块为核心的计算模块，第一计算模块用于将读段序列与数据选择器输入的参考序列或对比序列进行比较，将比较结果存储在结果暂存队列中。例如本实施例中的四个第一计算模块会完成读段序列中的四个数据的比较计算。也就是说，每一轮迭代都会比较计算四个数据，若干次比较计算直至读段序列全部完成。

当完成读段序列与参考序列或对比序列的比较计算后，结果选择器用于为第二计算模块提供提取结果暂存队列中的比较结果；

第二计算模块用于比较结果来进行动态规划的反向回溯，得到比对序列，将对比序列存储在数据缓存队列中，供下一轮计算使用。

如图3所示的基因分析领域广泛采用的动态规划算法：史密斯-沃特曼(Smith-Waterman)算法，该算法可以分为两步：

根据置换矩阵等参数来对序列GGTTGACTA和TGTTACGG进行前向运算过程，计算得分矩阵，即图中的Matrix Fill阶段；

从最高得分点进行反向回溯的过程，并得到序列的最优局部匹配情况，即GTT-AC匹配GTTGAC。

故，基于本实施例的加速装置进行基因分析时，包括如下步骤：

(1)读取参考序列，读取读段序列，读取动态规划过程需要的参数；

(2)执行动态规划算法的前向运算和反向回溯阶段；

(3)读取计算完成的数据。

本实施例还提供一种用于基因分析的加速方法，使用上述用于基因分析的加速器。

实施例二

本实施例和实施例一的区别在于，本实施例中针对成对隐马尔可夫模型的应用对用于基因分析的加速器进行介绍。

本实施例中，输入缓存序列和输入缓冲序列，两个模块的作用是提供基因分析中的成对隐马尔可夫模型的计算需要两组数据，一组是读段序列(存储在输入左上的输入缓存序列中)，一组是单体型碱基序列数据(存储于右下的输入缓冲序列中)。

数据选择器用于对输入数据和数据缓存队列中缓存的上一轮计算完成的数据进行数据选择；其中数据选择取决于第一计算模块需要的计算数据是输入数据，还是数据缓存队列中缓存的上一轮计算完成的数据；

数据缓存队列，用于存储第一计算模块计算的结果；

第一计算模块，用于对数据选择器选择的数据进行初始化计算或迭代计算，并将计算结果输入到对应的结果暂存队列；

结果暂存队列，用于存储对应第一计算模块的计算结果；

结果选择器，用于为第二计算模块提供数据；

第二计算模块，用于提取结果暂存队列的数据进行相似得分计算，得到最终的相似得分。

本实施例中，加速器包含四个串联第一计算模块，串联的第一计算模块中第一个第一计算模块与数据选择器连接，串联的第一计算模块中最后一个第一计算模块与数据缓存队列连接，每一第一计算模块连接有一个结果暂存队列，所有结果暂存队列均与结果选择器连接，结果选择器与第二计算模块连接，第二计算模块连接与数据缓存队列直接可以进行信息交互。

上述初始化计算、迭代计算和相似得分计算为对成对隐马尔可夫模型的算法流程，具体为：

如图4，基因分析领域广泛采用的成对隐马尔可夫模型的示意图，图4中A)给出了成对隐马尔可夫模型的状态转移图，定义M状态(表示匹配)到Y状态(表示删除)的转移概率为δ，定义M状态到X状态(表示插入)的转移概率为ι，定义X状态到X状态的转移概率和Y状态转移到Y状态的转移概率为ε，定义Q_d，Q_i和Q_g为删除、插入和空位的连续得分。

上述变量之间的关系为：

状态矩阵的计算为：

a)如图4中B)所示，单体型碱基序列为GATCA，待比对的读段序列为ATT。

b)对M，X和Y的状态值进行初始化计算：

其中，重要的初始化值为M_0,0＝0,X_0,0＝0,Y_0,0＝0，IC为一个用于防止计算下溢的大初始值，若在Java实现中取2¹⁰²⁰。

c)采用迭代计算，对M_i,j，X_i,j和Y_i,j的状态值进行更新，如图5所示，迭代特点为当前需要更新的状态值和上边，左边以及左上角的值有关，因此迭代计算为：

i＝0,…,|read|-1,j＝0,…,|hap|-1 except(i＝0,j＝0)

其中，Q_b为对应比对碱基的质量分数。

d)完成所有迭代之后，进行相似得分计算：

其中，L的值越大则表示两个序列更加相近。

从上述算法的计算流程中，分析算法运行时的计算特征：如图5所示，第三个当前计算单元依赖于上方(在上一次迭代计算完成)，右方(在上一次计算完成)，右上方(在上上次计算完成)，同理可得，所有当前计算单元的依赖关系。从上述计算特征来看，可以通过加速核对算法进行加速，对比动态规划算法，本实施例的区别在于，成对隐马尔可夫模型引入了浮点计算，加速核进行浮点计算。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种用于基因分析的加速器，其特征在于，包括加速器阵列模块和粒度配置模块；

2.根据权利要求1所述的用于基因分析的加速器，其特征在于：还包括输入缓存序列和输入缓冲序列，用于为加速器阵列模块提供加速计算需要的数据。

3.根据权利要求2所述的用于基因分析的加速器，其特征在于：所述计算单元包括数据选择器、数据缓存队列、第一计算模块、结果暂存队列、结果选择器和第二计算模块；第一计算模块和结果暂存队列的数量有若干个，且第一计算模块与结果暂存队列一一对应；

数据缓存队列用于存储第一计算模块的结果；

所述结果暂存队列用于存储对应第一计算模块的计算结果；

所述结果选择器用于为第二计算模块提供数据；

4.根据权利要求3所述的用于基因分析的加速器，其特征在于：所述加速计算包括动态规划计算，

5.根据权利要求3所述的用于基因分析的加速器，其特征在于：所述加速计算还包括成对隐马尔可夫模型计算，

数据缓存队列用于存储第一计算模块的计算结果；

6.根据权利要求5所述的用于基因分析的加速器，其特征在于：所述粒度配置模块整合的每个加速核的大小为：

kernel_size/(read_length+edit_distance)

7.根据权利要求1所述的用于基因分析的加速器，其特征在于：所述数据指令用于配置加速器阵列模块计算的数据地址，单个数据大小和数据总长度；

参数指令用于配置加速器阵列模块加速计算的参数；

8.根据权利要求1所述的用于基因分析的加速器，其特征在于：所述m个计算单元组成脉动阵列。

9.根据权利要求1所述的用于基因分析的加速器，其特征在于：所述指令信息还包括辅助指令，辅助指令用于检测加速器阵列模块的行为。

10.一种用于基因分析的加速方法，其特征在于，使用权利要求1-9任一项所述的加速器，实现对基因分析的加速。