CN111798923B

CN111798923B - 基因比对的细粒度负载特征分析方法、装置与存储介质

Info

Publication number: CN111798923B
Application number: CN202010442871.4A
Authority: CN
Inventors: 谭光明; 张中海; 王元戎; 张春明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-05-24
Filing date: 2020-05-22
Publication date: 2023-01-31
Anticipated expiration: 2040-05-22
Also published as: CN111798923A

Abstract

本发明涉及一种用于基因比对的细粒度负载特征分析方法，其特征在于，包括：步骤1，获取基因序列的基本数据；步骤2，对所述基本数据进行剪切，以获取短序列数据；步骤3，对所述短序列数据分别进行计算特征分析和访存特征分析，以获取所述短序列数据的细粒度负载特征。

Description

基因比对的细粒度负载特征分析方法、装置与存储介质

技术领域

本发明涉及高性能计算领域，特别涉及一种用于基因比对的细粒度负载特征分析方法。

背景技术

近年来，基因测序技术不断发展，使得测序成本不断下降，为基因分析在大健康领域的发展提供了坚实的基础。下一代测序，即二代测序，之所以具备较高的吞吐率优势，是因为它将DNA序列先“打散”为大量短序列，再并行地对这些短序列测序。为了将这些测好序的短序列重新“拼接”成基因组序列，还还需要将这些短序列匹配到基因组参考序列的相应位置上，这就是基因序列比对。

从二代测序的角度看，基因序列比对是测序仪之后不可或缺的步骤，从基因测序应用角度来看，序列比对也是现代基因测序数据分析流程中最耗时的部分。因此，基因序列比对直接关系着精准医疗的未来发展，同时也对其提出了各方面的挑战。

从基因测序应用角度来看，基因序列比对在其中占据十分重要的位置。当前以BWA和GATK等工具为基础的基因组数据分析流程在业内得到了广泛的承认和使用，其核心通过对原始基因组数据进行比对清理，检测其中的变异位点。例如，全基因组测序流程(WGS)可以对个体体细胞样本进行全基因组分析，而Gene Panel流程则是通过检测和比较病人癌细胞基因和正常组织细胞基因中的差异来进行癌症检测。尽管不同应用场景下对基因分析流程的选择有所侧重，但这些流程大多分为三个阶段，即序列比对、数据清理和变异位点发现发现。而序列比对则占据了很大的计算时间，如何有效的提升比对过程的计算效率和性能，是加速基因分析流程的重点，为此，我们发明了一种针对基因比对程序的细粒度负载特征的分析方法，用以提取基因比对程序的计算特征和性能数据，为优化和加速这一过程提供相关研究数据。

发明内容

针对基因比对过程耗时较长的情况，本发明提出一种细粒度负载特征的提取和分析方法，在计算和访存两个方面给出了并行模式的分析，为优化和加速基因比对过程提供数据支撑。

为了达到上述目的，本发明公开了一种用于基因比对的细粒度负载特征分析方法，包括：

步骤1，用于获取基因序列的基本数据；

步骤2，用于对所述基本数据进行剪切，以获取短序列数据；

步骤3，用于对所述短序列数据分别进行计算特征分析和访存特征分析，以获取所述短序列数据的细粒度负载特征。

根据上述分析方法，其中，所述计算特征分析包括字级计算特征分析和位级计算特征分析。

根据上述分析方法，其中，所述访存特征分析包括中间寄存模式、小范围访存模式以及大跨度访存模式。

根据上述分析方法，其中，所述字级计算特征分析包括映射计算模式、归约计算模式、组合计算模式、分支-汇合计算模式以及链式计算模式。

根据上述分析方法，其中，所述位级计算特征分析包括双向移位计算模式、按位取值计算模式以及边界掩藏计算模式。

根据上述分析方法，其中，所述映射计算模式用于实现向量的并发操作，为向量的每一元素单独设置一第一运算器；其中，各该些第一运算器同时对与之对应的所述元素进行运算。

根据上述分析方法，其中，所述归约计算模式用于实现向量归约的并发操作，对向量中的元素两两同时进行运算，层层归约。

根据上述分析方法，其中，所述组合计算模式用于将两个向量组合成一向量组，并为该向量组设置一第二运算器，以对该向量组进行并发操作；

其中，所述第二运算器从该两个向量中各取一元素组成一元素对，对该元素对进行并发运算。

根据上述分析方法，其中，所述分支-汇合计算模式用于对一操作数的分层操作，其中，所述分支-汇合计算模式包括第一层的并行分支操作和第二层的并行汇合操作，任意一层的并行操作通过不同功能单元实现。

根据上述分析方法，其中，所述链式计算模式通过定制的数据通路并行地实现一操作数与一组常量的运算。

根据上述分析方法，其中，所述双向移位计算模式通过多个寄存器之间的直连，对该些寄存器中存储的向量的所有元素赋值，获得该些元素的内存地址值。

根据上述分析方法，其中，所述按位取值计算模式通过多个寄存器直连，在该些寄存器中按位取出所存储向量的元素，并送至相应位置进行处理。

根据上述分析方法，其中，所述边界掩藏计算模式，用于计算所述基因序列中各碱基的局部频数，其包括以下操作步骤：

步骤11，用于对所述基因序列进行边界掩藏，将所述基因序列的索引之后的所有碱基都转换为一固定碱基，得到掩藏序列；

步骤12，用于并发地对所述掩藏序列进行数据统计处理，得到一处理结果；

步骤13，用于从所述处理结果中减去从所述基因序列的索引位置到末尾位置中所述固定碱基的累计值。

根据上述分析方法，其中，所述步骤1还包括：采用一比较器对所述基因序列的索引位置与所有位置进行比较，该索引位置之前的仍保持原来碱基不变，该索引位置之后的替换为所述固定碱基。

根据上述分析方法，其中，所述中间寄存模式用于对定制数据通路不同阶段的处理，并根据中间数据的特征定制相应的中间寄存器。

根据上述分析方法，其中，当所述中间数据为向量，则提供一寄存器用以存储该向量。

根据上述分析方法，其中，所述中间寄存模式还包括：根据所述中间数据的预取量，在两个阶段之间设置一预取缓存，用于存储该些预取的中间数据。

根据上述分析方法，其中，所述小范围访存模式，用于通过多端口片上存储器对局部访存数据进行缓存；

其中，所述多端口片上存储器内部包括多个分组的存储体，所述局部访存数据按地址顺序交错散列在不同存储体上。

根据上述分析方法，其中，所述小范围访存模式还包括：分别复制所述多端口片上存储器和所述局部访存数据，并将复制的多份所述局部访存数据分别存储于复制的各所述多端口片上存储器中。

为实现本发明的另一目的，本发明还提供一种可读存储介质，存储有可执行指令，该可执行指令用于执行上述任意一种分析方法。

为实现本发明的另一目的，本发明还提供一种数据处理装置，包括：

上述的可读存储介质；

处理器，用于调取该可读存储介质内的可执行指令，以对基因序列进行细粒度负载特征分析，实现基因序列的比对。

本发明能够有效地提升基因比对过程的计算效率和性能，为优化和加速基因比对过程提供支撑。

附图说明

图1(a)是现有技术的映射模式程序片段示意图。

图1(b)是本发明的并发结构映射模式示意图。

图2(a)是现有技术的归约模式程序片段示意图。

图2(b)是本发明的并发结构归约模式示意图。

图3(a)是现有技术的组合模式程序片段示意图。

图3(b)是本发明的并发结构组合模式示意图。

图4(a)是现有技术的分支-汇合模式程序片段示意图。

图4(b)是本发明的并发结构分支-汇合模式示意图。

图5(a)是现有技术的链式模式程序片段示意图。

图5(b)是本发明的并发结构链式模式示意图。

图6(a)是现有技术的双向移位模式程序片段示意图。

图6(b)是本发明的并发结构双向移位模式示意图。

图7(a)是现有技术的按位取值模式程序片段示意图。

图7(b)是本发明的并发结构按位取值模式示意图。

图8(a)是现有技术的边界隐藏模式程序片段示意图。

图8(b)是本发明的并发结构边界隐藏模式示意图。

图9(a)是现有技术的中间寄存模式程序片段示意图。

图9(b)是本发明的并发结构中间寄存模式示意图。

图10(a)是现有技术的小范围访存模式示意图。

图10(b)是本发明的小范围访存模式示意图。

图11(a)是现有技术的小范围访存并发结构示意图。

图11(b)是本发明的小范围访存并发结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

具体来说，本发明于一实施例中将抽取的细粒度负载特征(或称为模式)分为计算和访存两方面，计算方面的并行模式在“字级(Word-level)”和“位级(Bit-level)”两个层面进行抽象。“字级”层面的模式以不定长度的“字”为逻辑单位，体现“个体”的潜在并行特征；“位级”层面的模式则打破“字”的概念，深入数据结构的最底层，也就是“比特位”，根据负载行为在位运算上的表现，对位运算的潜在并行性进行探索。访存方面的并行模式则主要体现在非规则访问和访问跨度上。在本发明的一实施例中，本发明于一实施例中抽象出的应用细粒度特征以及它们在三种基准程序中的分布情况包括：字级特征包括“映射(Map)”、“归约(Reduce)”、“组合(Combine)”、“分支-

汇合(Fork-join)”、“链式(Chain)”等五种，位级特征包括“双向移位(Bi-direction Shift)”、“按位取值(Shift-load)”、“边界掩藏(Boundary Mask)”等三种，访存特征包括“中间寄存(Intermediate Registration)”、“小范围访存(Narrow-spanAccess)”、“大跨度访存(Large-span Access)”等三种。

一、字级计算特征

(一)映射(Map)

图1(a)所示为“映射”模式的原始串行实现，在比对基准程序中，存在大量的这种片段，对于向量X，需要对其每个元素依次施加某种操作(示例中为“取反”)，得到新的向量Z。

对于这种模式，本发明的一实施例通过如图1(b)的结构设计实现向量的并发操作。为向量X的每个元素单独设计运算器“M”，使之能够同步完成而不再需要一个一个串行执行，时间复杂度从O(N)降至O(1)。

(二)归约(Reduce)

图2(a)所示为“归约”模式的原始串行实现，对于向量X，需要在其各个元素之间施加某种操作(示例中为“加法”)，最终这些元素“归约”为一个值，这种计算模式也是经常出现在比对算法中的。

对于这种模式，本发明的一实施例通过如图2(b)的树状结构实现向量归约的并发操作。对向量X中的元素两两同时进行运算，层层归约，时间复杂度从O(N)降至O(logN)。

(三)组合(Combine)

图3(a)所示为“组合”模式的原始串行实现，对于向量X、Y，需要在其对应元素之间施加某种操作(示例中为“加法”)，得到新的向量Z，这种计算模式是在比对算法中经常出现的。

对于这种模式，本发明的一实施例通过如图3(b)的并发结构实现向量“组合”的操作。设计一组可同时执行的运算器“C”，每个运算器的输入为向量X、Y中的每对元素，将原始的软件串行执行用并发结构代替，时间复杂度从O(N)降至O(1)。

(四)分支-汇合(Fork-join)

图4(a)所示为“分支-汇合”模式的原始串行实现，对于操作数X，需要首先对其实施不同的操作(分支，如示例中的“自加”和“移位”)，而后对这些操作结果再进行后续的操作(汇合，如示例中的“加法”)，最终得到新的值Z，这也是比对算法中经常出现的一种计算模式。

对于这种模式，本发明的一实施例通过如图4(b)的并发结构实现，其中包含上层的并行分支以及下层的并行汇合，每一层都通过不同功能单元实现操作的并发处理，代替将原始的软件串行执行，时间复度从O(N)降至O(1)。

(五)链式(Chain)

图5(a)所示为“链式”模式的原始串行实现，对于操作数X，需要将其与一组常量进行一连串的运算(示例所示为“加法”)，最终得到新的值Z，这种模式出现在“正向计数”中。

对于这种模式，本发明的一实施例通过如图5(b)的结构实现，这种结构的优点是通过定制的数据通路替代软件实现的指令开销和中间数据存取开销。

二、位级计算特征

本文充分利用应用负载数据结构按位存储的特性，将这一在通用处理器(按字节处理)上的劣势转化为结构定制可利用的优势，充分发掘位操作或者位运算的可并发特征或者频繁出现的可定制模式，从而指导按位处理的结构设计。

(六)双向移位(Bi-direction Shift)

图6(a)所示为“双向移位”模式的原始串行实现，对于操作数X首先需要对其向某方向进行移位操作，之后在对其进行反方向的移位操作。这种模式也是基因比对应用特有的，如示例中所示的地址转换过程，由于FM-index输入为BWT序列的索引(碱基序号)，而BWTRank的读取需要知道当前索引所在Rank的起始内存地址，这就需要一次从“碱基索引”到“内存地址”的地址转换，得益于按位存储的特点，只需对碱基索引值进行“先右移后左移”的操作。

对于这种模式，本发明的一实施例通过如图6(b)的结构实现，这种结构利用寄存器直连，直接对向量寄存器中所有元素赋值。示例中“先右移7位，再左移4位”来求得内存地址值，需要多拍操作以及中间寄存，但从寄存器级来看，最终结果只是“将向量中从右至左第4号元素赋值为原向量第七号元素，其他元素清零”，这样在一拍之内就可以完成地址转换。

(七)按位取值(Shift-load)

图7(a)所示为“按位取值”模式的原始串行实现，对于向量X，需要依次取出其所有元素或者部分元素的值，分别存放在不同寄存器内，以便后续分别进行计算。在比对算法中会有很多地方出现这一模式，因为按位存储的方式决定了很多数据结构(向量)中同时存放着A、C、G、T四种碱基的信息，而某些计算需要将这些信息分别取出或者只取出部分，原始软件实现方式一般会通过串行执行的循环迭代来依次取出这些值，而每个迭代中需要先对向量进行“移位”操作，再进行“按位与”来取出相应位置上的元素。

对于这种模式，本发明的一实施例通过如图7(b)的结构实现，这种结构利用寄存器直连，直接在向量寄存器中按位取出所需元素并送至相应位置进行处理，替代原有的移位、按位与等多次操作，时间复杂度从O(N)降至O(1)。

(八)边界掩藏(Boundary Mask)

在计算BWT Rank中各碱基的局部频数时，需要对整块Rank序列进行扫描，如图8(a)所示过程，扫描的起始位置为Rank数据的起始位置，是确定的，但扫描的终止位置是不确定的，因为输入的索引值(Idx)可能落在Rank中的任意碱基位置，而且由于碱基按位存储的特点，索引并不是以字节为单位，而是以2比特位为单位，这种不定长度的遍历为结构设计带来很大困难。

为了将串行执行的Rank遍历替换为并发处理，图8(b)给出了对这种模式的结构设计方法，其主要思想是将“不确定”转化为“确定”，不论索引值落在哪个位置，都对固定长度的整个Rank数据进行处理，最后再“减去”从索引位置到Rank末尾这一段的累计值，而这个累计值(本实施例称之为边界处理)是这种得来的：在整个Rank数据处理之前先对Rank数据进行边界掩藏，即将索引之后的所有碱基都转换为某一个固定碱基值(如‘A’)，然后进行并发的Rank数据处理，最后从结果中减去相应个数(从索引到末尾位置)的碱基‘A’的累计值，便得到最终结果。其中位置的控制是用比较器对索引位置(示例中为125)与所有位置进行比较实现的，比较结果控制“二选一”选择器，索引位置之前的仍保持原来碱基不变，索引位置之后的置为固定碱基‘A’。通过这种方法，将原始循环遍历的串行实现替代为并发操作，时间复杂度从O(N)降至O(1)。

三、访存特征

(九)中间寄存(Intermediate Registration)

定制数据通路的不同处理阶段(Stage)之间往往需要中间数据的临时存储(寄存)，需要根据中间数据的特征定制相应的中间寄存器。本发明的一实施例分两种情况讨论这种数据，第一种情况如图9(a)所示，中间数据为向量，因此需要为其提供宽度合适的向量寄存器来提高传递效率，例如基准程序中参考序列访问后返回的Rank向量的中间寄存。第二种情况如图9(b)所示，由于结构设计需要，对前一阶段的数据进行预取，减小下一阶段等待时间，此时需要根据预取数据量在两个阶段之间设计合适容量的预取缓存，例如read流的预取和缓存。

(十)小范围访存(Narrow-span Acees)

小范围访存是比对应用中较有特色的一种访存模式，在正向计数实现中频繁出现。所谓“小范围”是指在某一时间段或整个程序执行过程中，对某一局部连续地址空间内的内存访问，这种局部地址空间访问虽然不一定带有访存局部性特征，甚至是无规则访问，但其访问往往被限制在“一块”体量较小的数据结构之内，例如正向计数中对频数查找表的访问。虽然对查找表的访问是无规则的，但是这种数据块占用内存空间较小却又被频繁访问，因此可以通过片上存储的方式来减小片外访存的开销。

小范围访存可以是顺序访存或者无规则访存，图10(a)所示局部顺序访存在执行过程中前后访问地址是连续的，图10(b)所示局部无规则访存地址空间虽被限制在一定范围内，但其访问顺序并无规则。然而，不论顺序访存还是无规则访存，其地址范围是被局限在小范围的，因此都可以在片上存储器内缓存。而若前后访问并无依赖关系，则具备可并行访存的特征，本发明利用图11(a)所示的多端口片上存储器对此种局部访存数据进行缓存，存储器内部通过存储体分组的方式减少存储体冲突，数据按地址顺序交错散列在不同存储体上，这样通过多端口并发读可以实现片上访存的并发执行。当可并发的访存请求数目较多时，为了减小较多端口的设计复杂度，可以通过片上存储器的复制，达到多存储器同时响应并发请求的效果，如图11(b)所示，局部数据也需要复制多份分别存储在各存储器内，但因为数据量小，这种方式并不会带来很大开销。

(十一)大跨度访存(Large-span Access)

相比于小范围访存，本发明所称大跨度访存是指被访问的数据结构需占用大量内存空间，例如所有基准程序中对参考序列的访问。对此数据结构的访问地址跨度较大，受片上资源限制，这种数据结构无法完全贮存于片上存储器中，必须置于主存内进行片外访存。当然，对于有规则的顺序访问(例如read流的读取)，仍然可以利用预取技术和片上缓存来掩藏频繁片外访问的延迟开销。但是，对于无规则的大跨度访存(典型例子就是参考序列的访问)，最有效的方式将是提高访存并发度，充分利用内存带宽，提升吞吐率。

本发明实施例还提供一种可读存储介质，以及一种数据处理装置。本发明的可读存储介质存储有可执行指令，可执行指令被数据处理装置的处理器执行时为实现本发明的另一目的，本发明还提供一种可读存储介质，存储有可执行指令，以对基因序列进行细粒度负载特征分析，实现基因序列的比对。本发明能够有效地提升基因比对过程的计算效率和性能，为优化和加速基因比对过程提供支撑。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中的普通技术人员，在不脱离本发明的精神和范围内，可以做出若干变形和改进，故本发明的保护范围当视后附的申请专利范围所界定者为准。

Claims

1.一种用于基因比对的细粒度负载特征分析方法，其特征在于，包括：

步骤1，获取基因序列的基本数据；

步骤2，对所述基本数据进行剪切，以获取一短序列数据；

步骤3，对所述短序列数据分别进行计算特征分析和访存特征分析，以获取所述短序列数据的细粒度负载特征；

所述计算特征分析包括字级计算特征分析和位级计算特征分析；

所述访存特征分析包括中间寄存模式、小范围访存模式以及大跨度访存模式；

所述字级计算特征分析包括映射计算模式、归约计算模式、组合计算模式、分支-汇合计算模式以及链式计算模式；

所述位级计算特征分析包括双向移位计算模式、按位取值计算模式以及边界掩藏计算模式。

2.根据权利要求1所述的分析方法，其特征在于，所述映射计算模式用于实现向量的并发操作，为该向量的每一元素单独设置一第一运算器；其中，各该些第一运算器同时对与之对应的所述元素进行运算。

3.根据权利要求1所述的分析方法，其特征在于，所述归约计算模式用于实现向量归约的并发操作，对该向量中的元素两两同时进行运算，层层归约。

4.根据权利要求1所述的分析方法，其特征在于，所述组合计算模式用于将两个向量组合成一向量组，并为该向量组设置一第二运算器，以对该向量组进行并发操作；

5.根据权利要求1所述的分析方法，其特征在于，所述分支-汇合计算模式用于对一操作数的分层操作，其中，所述分支-汇合计算模式包括第一层的并行分支操作和第二层的并行汇合操作，任意一层的并行操作通过不同功能单元实现。

6.根据权利要求1所述的分析方法，其特征在于，所述链式计算模式通过定制的数据通路并行地实现一操作数与一组常量的运算。

7.根据权利要求1所述的分析方法，其特征在于，所述双向移位计算模式通过多个寄存器之间的直连，对该些寄存器中存储的向量的所有元素赋值，获得该些元素的内存地址值。

8.根据权利要求1所述的分析方法，其特征在于，所述按位取值计算模式通过多个寄存器直连，在该些寄存器中按位取出所存储向量的元素，并送至相应位置进行处理。

9.根据权利要求1所述的分析方法，其特征在于，所述边界掩藏计算模式，用于计算所述基因序列中各碱基的局部频数，其包括以下操作步骤：

10.根据权利要求9所述的分析方法，其特征在于，所述步骤1还包括：采用一比较器对所述基因序列的索引位置与所有位置进行比较，该索引位置之前的仍保持原来碱基不变，该索引位置之后的替换为所述固定碱基。

11.根据权利要求1所述的分析方法，其特征在于，所述中间寄存模式用于对定制数据通路不同阶段的处理，并根据中间数据的特征定制相应的中间寄存器。

12.根据权利要求11所述的分析方法，其特征在于，当所述中间数据为向量，则提供一寄存器用以存储该向量。

13.根据权利要求11或12所述的分析方法，其特征在于，所述中间寄存模式还包括：根据所述中间数据的预取量，在两个阶段之间设置一预取缓存，用于存储该些预取的中间数据。

14.根据权利要求1所述的分析方法，其特征在于，所述小范围访存模式，用于通过多端口片上存储器对局部访存数据进行缓存；

15.根据权利要求14所述的分析方法，其特征在于，所述小范围访存模式还包括：分别复制所述多端口片上存储器和所述局部访存数据，并将复制的多份所述局部访存数据分别存储于复制的各所述多端口片上存储器中。

16.一种可读存储介质，存储有可执行指令，该可执行指令用于执行如权利要求1-15任意一项所述的分析方法。

17.一种数据处理装置，包括：

如权利要求16所述的可读存储介质；