CN113257352A

CN113257352A - 一种基因测序数据排序方法、集成电路及排序设备

Info

Publication number: CN113257352A
Application number: CN202110632396.1A
Authority: CN
Inventors: 谭光明; 刘万奇; 李叶文; 康宁; 孙凝晖
Original assignee: Western Research Institute Of China Science And Technology Computing Technology
Current assignee: Western Research Institute Of China Science And Technology Computing Technology
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-08-13

Abstract

本发明公开一种基因测序数据排序方法、集成电路及排序设备，属于计算机系统结构设计和数据排序技术领域，提出以下方案：一种基因测序数据排序方法，包括：读取待测序数据所需的存储容量，以判断待测序数据的大小；若待测序数据的大小不超过预设阈值，则将待测序数据在内部存储器排序，若待测序数据的大小超过预设阈值，则将待测序数据在内部存储器和外部存储器分级排序；在对待测序数据排序后，将待测序数据的排序结果写回外部存储器进行存储；本发明提升了基因测序数据排序的性能。

Description

一种基因测序数据排序方法、集成电路及排序设备

技术领域

本发明涉及计算机系统结构设计和数据排序技术领域，具体涉及一种基因测序数据排序方法、集成电路及排序设备。

背景技术

随着生物信息学的飞速发展，基因分析已经成为了一个为科研和产业界所广泛使用的技术手段，在物种鉴别、疾病诊断等方面都有成功的应用，基因分析的基础是基因测序技术，当前普遍采用的是二代测序技术。

当前二代测序的成本不断降低，导致了基因测序数据的快速增长，且这一效应会越来越明显，基因测序数据未来将达到惊人的量级。为了对海量的基因测序数据进行处理，人类需要借助现代的计算系统去完成一套基因分析流程，其中在将基因测序数据和参考序列做比对后，再进行排序是一个重要的步骤。

由于基因的待排序数据可能会比较大，甚至难以全部读入内存进行计算，对于此就需要采用外排序的方式，而目前广泛使用的方案是软件外排序，即用处理器作为排序的控制和计算单元，将中间数据在内存和硬盘之间做搬移，合并得到最后的排序结果。然而，这种外排序的方案在排序过程中用处理器作为处理单元，会加重CPU的负担；以及在传统架构下处理器和外部存储器之间会产生大量的I/O开销，造成性能的不足。

发明内容

本发明所解决的技术问题在于提供一种基因测序数据排序方法、集成电路及排序设备，旨在解决软件排序CPU负担、处理器和外部存储器之间产生大量的I/O开销的问题，提升了基因测序数据排序的性能。

本发明提供的基础方案：

一种基因测序数据排序方法，包括：

读取待测序数据所需的存储容量，以判断所述待测序数据的大小；

若所述待测序数据的大小不超过预设阈值，则将所述待测序数据在内部存储器排序，若所述待测序数据的大小超过预设阈值，则将所述待测序数据在内部存储器和外部存储器分级排序；

在对所述待测序数据排序后将待测序数据的排序结果写回外部存储器进行存储。

基础方案的原理为：

本方案中，读取待测序数据的存储容量，以判断待测序数据的大小；并将待测序数据和预设阈值进行比较，在待测序数据的大小不超过预设阈值时，就将待测序数据在内部存储器中进行排序，并将内排序的排序结果存储至外部存储器；在待测序数据的大小超过预设阈值时，就将待测序数据在内部存储器和外部存储器中进行排序，并将外排序的排序结果存储至外部存储器。

在内部存储器和外部存储器中进行分级排序，即是在待测序数据的存储容量较大，超过内部存储器的容量时，就将待测序数据使用内部存储器和外部存储器之间交互的硬件排序网络来完成数据排序。

基础方案的有益效果为：

(1)本方案中，对于较小的待测序数据采用内部存储对基因测序数据排序，可以提升速度；对于较大的待测序数据，其占用存储容量大于内部存储，就采用内部存储和外部存储对基因测序数据进行分级排序，外部存储的存储容量大，可以存储较大的基因测序数据。

(2)本方案中，由于是根据存储内计算的基因测序数据排序引擎，通过内部存储器、外部存储器等硬件网络方式完成基因测序数据排序，避免了通过处理器CPU等软件排序造成的软件负担问题；同时也避免了待测序数据在处理器和存储器之间来回传输导致产生的大量I/O开销，提升了对基因测序数据排序的性能。

进一步，若所述待测序数据的大小不超过预设阈值，则将所述待测序数据在内部存储器排序的步骤包括：采用快速排序算法将所述待测序数据在内部存储器进行排序。

本方案中，在待测序数据的大小不超过预设阈值时，具体是采用传统的处理器(CPU)和内部存储器(DRAM)的结合来完成基因测序数据排序，提升了小容量基因测序数据的排序速度。

进一步，若所述待测序数据的大小超过预设阈值，则将所述待测序数据在内部存储器和外部存储器排序的步骤包括：将所述待测序数据均等分割成多个小块基因测序数据。

本方案中，在待测序数据的大小超过预设阈值时，通过将待测序数据均等分割成多个小块基因测序数据，对每个小块基因测序数据分别进行排序，就避免了内部存储不能读取并进行排序的问题。

进一步，所述将所述待测序数据均等分割成多个小块基因测序数据具体为：

所述待测序数据具有N个读对，对N个读对均等分割成T份，则每一均等分割后的小块基因测序数据中读对的数量为N/T个。

对于待测序数据来说，需要排序的是其中具有的多个读对reads，按照其具有的读对均等分割待测序数据，以分割成多个小块基因测序数据，便于将多个小块基因测序数据在内部存储器和外部存储器一步步分级排序，使得对于较大待测序数据的排序过程可以在存储端完成，提升了基因测序数据排序的性能。

进一步，在将所述待测序数据均等分割成多个小块基因测序数据的步骤之后包括：

分别对所述待测序数据中的每一小块基因测序数据进行无损压缩。

通过将每一小块基因测序数据进行无损压缩，实现了较大的待测序数据在均等分割后可以直接在压缩数据上进行，避免了在对待测序数据外排序时受到内部存储器和外部存储器的存储带宽限制，提升了外部存储器的带宽利用率。

进一步，在分别对所述待测序数据中的每一小块基因测序数据进行无损压缩的步骤之后包括：

对无损压缩后的各小块基因测序数据进行双调排序。

通过双调排序对无损压缩后的小块基因测序数据进行排序，而双调排序适合硬件实现，即是直接通过内部存储器和外部存储器等硬件网络方式完成数据排序，避免了通过处理器CPU等软件排序造成的软件负担问题；同时也避免了待测序数据在处理器和存储器之间来回传输导致产生的大量I/O开销，提升了对基因测序数据排序的性能。

进一步，所述对无损压缩后的各小块基因测序数据进行双调排序的步骤包括：

对各个小块基因测序数据进行排序，并将排序后的各个小块基因测序数据合并成多个中块基因测序数据；

对各个中块基因测序数据进行排序，并将排序后的各个中块基因测序数据合并成多个大块基因测序数据；

对各个大块基因测序数据进行排序，并将排序后的各个大块基因测序数据合并以输出。

由于采用双调排序算法，对基因测序数据进行分块，由小到大，层层递进地达到对全部基因测序数据进行排序的目的，更加有效地利用了各级存储的带宽，也避免了因存储空间不足而导致无法排序的情况，节约了存储空间，同时使得合并后的大块基因测序数据是有序的，有利于基因测序数据在物种鉴别、疾病诊断等方面的成功应用。

进一步，所述无损压缩具体为根据有向无环图对每一小块基因测序数据的重复信息进行编码。

本方案中，基于有向无环图对每一小块基因测序数据的重复信息进行编码，使得可以直接在此压缩格式的文件上进行排序，同时提升了外部存储器的带宽利用率。

此外，为实现上述目的，本发明还提出一种集成电路，所述集成电路包括：依次连接的内/外排序判断器、外部存储器芯片、双调排序器、数据合并器，以及与所述内/外排序判断器连接的快速排序处理器，所述外部存储器芯片具有数据分块器和无损压缩器；

所述数据分块器的输入端为所述外部存储器芯片的输入端，所述数据分块器的输出端与所述无损压缩器的输入端连接，所述无损压缩器的输出端为所述外部存储器芯片的输出端；

所述快速排序处理器连接有内部存储器，所述双调排序器连接有片上缓存器和内部存储器，所述数据合并器连接有外部存储器。

由于集成电路中的闪存芯片具有数据分块器和无损压缩器，这样设置可以使得在本方案的集成电路中，存储计算单元将压缩步骤卸载到可编程的硬件逻辑单元中，使得基因测序数据在被存储的过程中压缩，实现了数据输入/输出(I/O)与计算的重叠，减少了基因测序数据步骤间切换的时间开销；此外，由于使用硬件卸载压缩流程，可以实现压缩过程的高并发处理，进一步减少了传统基因测序流程切换过程中，由于数据压缩解压缩导致的时间开销。

本发明还提出一种排序设备，所述排序设备包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基因测序数据排序程序，所述基因测序数据排序程序被所述处理器执行时实现如上所述的基因测序数据排序方法的步骤。

附图说明

图1为本发明基因测序数据排序方法一实施例的流程示意图；

图2为本发明基因测序数据排序方法一实施例的基因比对分析模块示意图；

图3为本发明基因测序数据排序方法中一实施例涉及的内/外排序算法流程示意图；

图4为本发明基因测序数据排序方法一实施例涉及的集成电路结构示意图；

图5为本发明存储内计算的基因测序数据排序引擎一实施例的结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面通过具体实施方式进一步详细说明：

本方案中的排序设备即是终端设备，是一个硬件运行环境的结构。本发明实施例排序设备可以是PC、便携计算机等终端设备。

该终端设备可以包括：处理器、通信总线、用户接口、网络接口、存储器。其中，通信总线用于实现处理器、用户接口、网络接口、存储器之间的连接通信。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、手写板、触控笔等，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口(如RJ45接口)、无线接口(如WIFI接口)。

在本方案的排序设备中，用户接口主要用于与各个终端进行数据通信；网络接口主要用于连接后台服务器，与后台服务器进行数据通信；而处理器可以用于调用存储器中存储的基因测序数据排序程序，并执行如图1所示的以下操作：

步骤S100，获取Fastq文件与参考序列比对后产生的待测序数据；

步骤S200，读取所述待测序数据所需的存储容量，以判断所述待测序数据的大小；

步骤S300，若所述待测序数据的大小不超过预设阈值，则将所述待测序数据在内部存储器排序，若所述待测序数据的大小超过预设阈值，则将所述待测序数据在内部存储器和外部存储器分级排序；

步骤S400，在对所述待测序数据排序后，将待测序数据的排序结果写回外部存储器进行存储。

说明：本实施例中，待测序数据是通过Fastq文件与参考序列比对后产生的，本实施例中称之为中间数据。

本方案中，基因测序数据排序方法是基于存储内计算的基因测序数据排序引擎，按照基因测序数据中的名称或坐标进行有序排序；具体地，将一个Fastq文件和参考序列进行比对，或者两个Fastq文件和参考序列进行比对，以产生SAM待测序数据，SAM待测序数据中的基因测序数据是无序的，需要根据SAM待测序数据的基因片段名称或者基因片段在参考序列上的位置进行有序排序。

需要说明的是，Fastq文件里保存的是很多被打碎的基因片段，在将Fastq文件和参考序列比对的过程，即是得出这些基因片段在已有的参考序列上的位置，以得到完整的测序基因序列。

本实施例中，由于获取的是Fastq文件与参考序列比对后产生的待测序数据，使得待测序数据是完整的测序基因序列。

本实施中，基因测序数据排序方法是一种内排序和外排序自适应的方法，具体指会根据待排序数据的大小来决定是采用内排序还是外排序，本方案中内部存储器指的是传统架构中的内部存储DRAM，外部存储器指的是硬盘中的外部存储Flash，这样设计是由于基因测序数据的存储容量有大有小，在将基因测序数据与参考序列比对后产生的中间数据(SAM文件)也相应的有大有小，而本方案中采用内部存储器的特点是相对较小而速度快，外部存储器的特点是相对较大而速度较慢，在基因测序数据的存储容量较小的时候使用内排序，在基因测序数据的存储容量较大的时候用外排序，采用这种自适应的方式有益于扬长避短。

进一步地，基因测序数据排序方法，基于存储内计算的基因测序数据排序引擎，按照基因测序数据中的名称或坐标进行有序排序，基因测序数据排序方法包括内/外排序判断、快速排序、外排序数据分块、无损压缩、双调排序和外排序合并组成。由于本方案是第二代测序(NGS)基因预处理，Fastq文件里保存的是很多被打碎的基因片段，在内/外排序判断之前需要将一个Fastq文件和参考序列进行比对，或者两个Fastq文件和参考序列进行比对，以产生SAM中间数据，SAM中间数据中的基因测序数据是无序的，需要根据SAM中间数据的基因片段名称或者基因片段在参考序列上的位置进行有序排序。比对过程就是得出这些打碎的基因片段在已有的参考序列上的位置，以得到完整的测序基因序列。

在获取到比对后的中间数据后，读取中间数据的存储容量，以判断中间数据的大小，其中内/外排序判断根据中间数据的大小决定采用内排序或者外排序，此处动态地设定一个预设阈值。当中间数据超过预设阈值时，采用外排序，当中间数据不超过该预设阈值时，采用内排序；其中快速排序用于内排序的情况，用传统的处理器CPU和内部存储器DRAM的方式来完成数据排序。其中外排序数据分块是指对数据量较大的中间数据进行均等分割，对均等分割出来的每一个小块基因测序数据进行排序；其中双调排序用于外排序的情况，该排序算法适合硬件实现，故使用内部存储器和外部存储器等硬件排序网络的方式来完成数据排序。其中外排序合并是指在外排序的情况下，将排好序的各个小块基因测序数据合并成有序的大块基因测序数据。其中，无损压缩指的是在外排序的情况下，对外部存储器中的小块基因测序数据进行无损压缩，以提升外部存储器的带宽利用率，同时无损压缩算法可以让排序直接在压缩数据上进行。

本实施例中，对数据量较大的中间数据进行均等分割，具体是由于基因测序数据(SAM文件/Fastq文件)来说，需要排序的是读对(reads)，假设一个中间数据里有N个读对，均等分割成T份，则每个小块基因测序数据中读对的个数为N/T个。每一个小块基因测序数据进行排序具体是小块基因测序数据的内部排序用硬件排序树，各个小块基因测序数据之间的合并用硬件合并树。

需要说明的是，Fastq是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式，都是以ASCII编码的，几乎是高通量基因测序的标准格式。内排序是在内部存储器中排序，外排序是内部存储器和外部存储器结合排序，内部存储器和外部存储器之间有交互。动态设定的预设阈值可以是根据内部存储器的大小来适应性设置，以根据中间数据的大小来区分是采用内排序或者外排序。

在一实施例中，本方案针对的应用场景是基因测序数据的排序，如图2所示，在双端测序的基因分析流程中，两个Fastq文件会先和参考序列进行比对，通常会产生更大的中间数据(SAM文件)，此时的SAM文件是无序的，需要根据SAM文件中的基因测序数据名称或在参考序列的坐标进行排序，以便于对基因测序数据的分析，待排序的SAM文件的大小跟输入的基因数据文件大小是正相关的，这些基因数据文件大小存储容量较小的，如2GB、8GB、16GB等，存储容量较大的，如128GB、256GB等。

本方案的算法流程如图3所示，首先，先根据比对产生的SAM文件的大小以及计算系统实际内部存储器的大小来选择是用内排序还是用外排序。例如，当待排序SAM文件的大小为2GB，计算系统内部存储器大小有16GB，则只需要将待排序SAM文件采用内排序的方式即可，此时会直接将待排序SAM文件排序视为普通的排序任务，即用传统的处理器-内部存储器(CPU-DRAM)系统上运行快速排序算法的方式完成任务。当待排序SAM文件的大小为200GB，而计算系统内部存储器大小只有16GB，则需要将待排序SAM文件采用外排序方案，此时该外排序是一个I/O密集型的任务，需要外部存储器也参与排序的过程，采用双调排序算法，对待排序SAM文件进行分块，由小到大，层层递进地达到对待排序SAM文件进行排序。

在一实施例中，待排序的SAM数据存在外部存储器中，经过均等分割和无损压缩之后对外部存储器中均等分割后产生的基因测序数据块做排序，排序的结果会经过内部存储器的进一步合并，内部存储器的每一合并器可以将多个均等分割并排好序的基因测序数据合并在一起，在内部存储器中具有多层合并器，以迭代式地合并排序；也即，通过双调排序包括静态随机存取存储SRAM，动态随机存取存储器DRAM和外部存储器Flash，以一步步的迭代式地合并排序，采用不同存储容量的存储器进行分级排序，最后将得到的合并基因测序数据写回外部存储器中，这样就完成了对一个外部存储器中无序基因测序数据的排序。可以理解的是，通过树状结构一步步合并，最终在外部存储器上得到完整的排好序的基因测序数据，以达到提高带宽利用率，同时节约外部存储器的存储空间。

此外，为实现上述目的，本发明还提出一种集成电路，参照如图4所示，所述集成电路基于存储内计算的基因测序数据排序引擎，按照基因测序数据中的名称或坐标进行有序排序，所述集成电路包括：依次连接的内/外排序判断器、外部存储器芯片、双调排序器、数据合并器，以及与所述内/外排序判断器连接的快速排序处理器，所述外部存储器芯片具有数据分块器和无损压缩器；

本发明中上述的基因测序数据排序方法可以是运行于排序设备中，排序设备可以是包括：存储器、处理器、通信总线以及存储在所述存储器上的基因测序数据排序程序：

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行所述基因测序数据排序程序，以实现控制上述基因测序数据排序系统的正常运行。

本实施例中，该集成电路是实现图3中所示基因数据排序算法流程的载体。内/外排序判断器会根据设定的预设阈值和输入待排序SAM文件大小来选择快速排序处理器，还是双调排序器；外部存储器芯片中具有的数据分块器和无损压缩器可以将存在外部存储器中的待排序SAM文件做分块和压缩；分块和压缩后的基因测序数据会被送入双调排序器进行初步的排序，然后数据合并器会将初步的排序结果合并成为更大的排序结果，反复迭代，最终数据合并器会将结果送入外部存储器中。

需要说明的是，参照如图5所示，基于存储内计算的基因测序数据排序引擎，按照基因测序数据中的名称或坐标进行有序排序，存储内计算的基因测序数据排序引擎中具有闪存控制器和闪存转换层，闪存控制器控制对外部存储器Flash的读写，闪存转换层处理逻辑地址和物理地址的转换和闪存访问的调度；与闪存转换层连接的配置器和调度器，配置器会接收SAM文件的大小，并将分析得到的配置信息写入集成电路，调度器则会接收数据分块器对SAM文件均等分割的信息，配合闪存转换层控制该存储内计算的基因测序数据排序引擎的运行；闪存芯片中有分块和压缩的硬件执行单元；基因测序数据排序的集成电路则负责完成实际的排序任务。

其中，在所述处理器上运行的基因测序数据排序程序被执行时所实现的步骤可参照本发明中基因测序数据排序方法的实施例，此处不再赘述。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知系统不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基因测序数据排序方法，其特征在于，包括：

若所述待测序数据的大小不超过预设阈值，则将所述待测序数据在内部存储器排序，若所述待测序数据的大小超过预设阈值，则将所述待测序数据在内部存储器和外部存储器排序；

在对所述待测序数据排序后，将待测序数据的排序结果写回外部存储器进行存储。

2.根据权利要求1所述的基因测序数据排序方法，其特征在于，若所述待测序数据的大小不超过预设阈值，则将所述待测序数据在内部存储器排序的步骤包括：采用快速排序算法将所述待测序数据在内部存储器进行排序。

3.根据权利要求1所述的基因测序数据排序方法，其特征在于，若所述待测序数据的大小超过预设阈值，则将所述待测序数据在内部存储器和外部存储器进行排序的步骤包括：将所述待测序数据均等分割成多个小块基因测序数据。

4.根据权利要求3所述的基因测序数据排序方法，其特征在于，将所述待测序数据均等分割成多个小块基因测序数据具体为：

5.根据权利要求3所述的基因测序数据排序方法，其特征在于，在将所述待测序数据均等分割成多个小块基因测序数据的步骤之后包括：

6.根据权利要求5所述的基因测序数据排序方法，其特征在于，在分别对所述待测序数据中的每一小块基因测序数据进行无损压缩的步骤之后包括：

对无损压缩后的各小块基因测序数据进行双调排序。

7.根据权利要求6所述的基因测序数据排序方法，其特征在于，所述对无损压缩后的各小块基因测序数据进行双调排序的步骤包括：

8.根据权利要求6所述的基因测序数据排序方法，其特征在于，所述无损压缩具体为根据有向无环图对每一小块基因测序数据的重复信息进行编码。

9.一种集成电路，其特征在于，包括：依次连接的内/外排序判断器、外部存储器芯片、双调排序器、数据合并器，以及与所述内/外排序判断器连接的快速排序处理器，所述外部存储器芯片具有数据分块器和无损压缩器；

10.一种排序设备，其特征在于，所述排序设备包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基因测序数据排序程序，所述基因测序数据排序程序被所述处理器执行时实现如权利要求1至8任意一项所述的基因测序数据排序方法的步骤。