CN111199777B

CN111199777B - 面向生物大数据的流式传输与变异实时挖掘系统及方法

Info

Publication number: CN111199777B
Application number: CN201911347153.2A
Authority: CN
Inventors: 杨晓飞; 孙雨; 叶凯; 蔺佳栋; 段明哲; 郭立
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-09-29
Anticipated expiration: 2039-12-24
Also published as: CN111199777A

Abstract

面向生物大数据的流式传输与变异实时挖掘系统及方法，传输层读取数据层中的测序数据文件，通过生物数据流式传输算法生成测序数据流，再将测序数据流，发送给计算层；计算层接收来自传输层的实时测序读段数据，根据基于Map Reduce的删除变异实时挖掘算法，实时计算该局部测序区域是否存在删除变异并输出删除变异的左右端点，并将删除变异的左右端点传输给用户层。通过基于Map Reduce的删除变异实时挖掘算法，根据实时接收到的局部测序数据流，即可实时判断局部区域是否存在删除变异，而不需要整个基因组中的上下文信息，实现了对测序数据的解耦，降低了传统测序数据处理算法对计算资源的高要求和高依赖。

Description

面向生物大数据的流式传输与变异实时挖掘系统及方法

技术领域

本发明属于生物信息与生物大数据的理论与应用技术领域，主要涉及面向生物大数据的流式传输与变异实时挖掘系统及方法。

背景技术

随着高通量测序技术的发展，基因组测序成本不断降低、质量不断提升。据不完全统计，2019年基因测序每1GB数据所需成本约为45元，相比2001年每1MB数据约10000美元下降了数千万倍；同时，基因测序质量不断上升，2018年，Illumina公司测序即可达到超过85％的碱基测序错误率低于0.1％，且仍在稳步提升。测序技术的蓬勃发展带来了测序数据量的爆炸式增长，据美国国家生物技术信息中心(NCBI)数据显示，截至2019年10月，GenBank数据库存储的基因测序序列已经超过2亿条，相比与1982年的606条，数据量平均每18个月增加一倍，增速超越摩尔定律。如此巨大的基因组测序数据为下游数据分析，尤其是变异检测提供了前所未有的契机，进而对理解人类的演化历史、疾病风险预测及治疗等方面都有着重要的意义。然而，爆炸式增长的数据量也为测序数据分析工作带来了巨大的挑战，大型文件的网络传输、大规模文本挖掘的资源消耗都对传统算法带来了严重的瓶颈。因此，面对飞速增长的数据量和日益增多的生物信息学研究任务，如何准确、高效的分析大规模基因组测序数据已经成为生物信息学领域的一个焦点，新一代的面向基因组大数据的分析框架和算法亟待提出。

业界也发现了这种潜在的问题，也进行了相关的技术尝试和科学研究。目前，对测序数据分析挖掘的框架主要有：

1.基于高性能计算集群(HPC)的分析框架：以文件为单位，根据通用的网络下载协议从中央数据中心(如中国国家基因组数据中心，NCBI等)下载测序数据文件，作为数据分析来源；然后使用本地高性能计算资源，以文件为单位，对测序数据进行分析，挖掘潜在变异；

2.基于云的测序数据分析框架：建立测序数据分析云，集成常用分析软件和参考数据，在本地提交数据分析任务至云端，然后使用云资源进行测序数据分析。

由于高性能计算集群和云计算都要求存储与计算的强耦合，不允许存储和计算模块的物理上分离。以上方法都存在以下的局限性：

1.在开始大量计算分析之前，必须先将数PB级别的数据传输到高性能计算集群或云存储。购买或租用如此大的存储空间将成为处理大型基因组数据的最大阻碍因素，存在着明显的存储资源瓶颈；

2.受目前的网络数据传输速度条件的制约，数PB级别数据的网络传输需要耗费大量时间，存在明显的数据下载时间瓶颈；

3.现有的测序数据分析工作通常以整个测序数据文件为输入，在全染色体信息中进行变异挖掘。由于全染色体信息数据规模庞大，因此对计算资源要求较高，存在本地计算资源瓶颈。

发明内容

为了克服上述现有技术的缺点，本发明提出了一种面向生物大数据的流式传输和变异实时挖掘系统。流式传输和实时计算打破了高性能计算集群和云计算所要求的存储和计算模块的强耦合，允许存储和计算模块物理分离。流式传输和实时计算通过将测序数据文件下载过程转为读取测序数据、生成数据流并使用高速数据传输网络进行传输，解决了现有方法存在的数据下载瓶颈；同时通过边传输边计算的数据分析模式，根据实时接收到的信息挖掘删除变异，减少了需处理的数据量和计算复杂度，解决了本地计算资源瓶颈。另外，由于数据传输过程中计算已同步完成，数据不需要在本地进行存储，还解决了数据存储瓶颈，并且增强了数据安全。最后，由于流式传输和实时计算系统对计算硬件几乎没有限制，因此易于部署，不增加硬件成本。

为了实现上述目的，本发明采用的技术方案是：

面向生物大数据的流式传输与变异实时挖掘系统，包括数据层、传输层、计算层和用户层；

数据层用于生物数据的存储；

传输层用于从数据层读取数据，并从读取的数据中提取关键信息，生成数据流，再传输给计算层；

计算层用于接收传输层的数据并进行变异实时挖掘，然后传输给用户层；

用户层用于实现用户交互功能。

面向生物大数据的流式传输与变异实时挖掘方法，包括以下步骤：

1)传输层读取数据层中的测序数据文件，通过生物数据流式传输算法生成测序数据流，再将测序数据流，发送给计算层；

2)计算层接收来自传输层的实时测序数据流，根据基于Map Reduce的删除变异实时挖掘算法，实时计算该测序局部区域是否存在删除变异并输出删除变异的左右端点，并将删除变异的左右端点传输给用户层。

本发明进一步的改进在于，当计算层为一个或多个时，步骤1)的具体过程如下：

首先，根据用户层指定的染色体号和起始位置，传输层读取测序数据文件，获取测序读段数据；

然后，根据每个计算层的需要，对每一个测序读段的关键信息进行提取；

最后，将提取的信息生成测序数据流，以读段为单位，通过网络传输协议发送至计算层。

本发明进一步的改进在于，提取每个测序读段的读段名、位置、方向、测序质量、配对读段位置和插入长度的信息。

本发明进一步的改进在于，步骤1)中，传输层读取数据层中的测序数据文件，先对测序读段进行筛选，再通过生物数据流式传输算法生成测序数据流，再将测序数据流，发送给计算层。

本发明进一步的改进在于，步骤2)的具体过程如下：

首先，计算层接收来自传输层的测序数据流；

然后，对测序读段信息进行分析，得到每个读段位置附近的异常读段的总数；

最后，根据每个读段位置附近的异常读段的总数判断该位置是否是删除变异端点，若总数大于2，则认为是此位置存在一个删除变异，并认为这些异常读段中位置最靠左的测序读段的位置为该删除变异的左端点，位置最靠左的测序读段的配对读段的位置为该变异的右端点，输出删除变异的左右端点给用户层。

本发明进一步的改进在于，对测序读段信息进行分析，得到每个读段位置附近的异常读段的总数的具体过程为：首先，根据读段的插入长度判断该读段是否是异常读段，若是异常读段，则记录其位置，然后判断在该位置附近是否存在其他异常读段，若存在其他异常读段，则统计该位置附近存在的异常读段的总数。

与现有技术相比，本发明的有益效果是：

1)将传统的先下载后计算的测序数据分析流程，转换为边传输、边计算的数据分析模式，节省了数据下载时间。同时，由于数据分析在数据传输过程中即可完成，测序数据不需要保存，节省了本地存储资源，并且保证了数据安全；

2)通过生物数据流式快速传输算法，对测序读段关键信息进行提取，降低了需要进行网络传输的数据量，从而降低数据传输完成所需时间，进一步提升了测序数据分析的效率；

3)通过基于Map Reduce的删除变异实时挖掘算法，根据实时接收到的局部测序数据流，即可实时判断局部区域是否存在删除变异，而不需要整个基因组中的上下文信息，实现了对测序数据的解耦，降低了传统测序数据处理算法对计算资源的高要求和高依赖。

附图说明

图1为本发明系统整体结构图。

图2为本发明传输层生物数据流式传输算法流程图。

图3为本发明传输层生物数据流式传输算法多线程并行流程图。

图4为本发明计算层删除变异实时挖掘算法流程图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明是一种面向生物大数据的流式传输与变异实时挖掘系统，主要由数据层、传输层、计算层和用户层这四个层次组成，数据层用于生物数据的存储，传输层用于从数据层读取数据、提取关键信息以及生成数据流进行传输，计算层用于接收传输层的数据并进行变异实时挖掘，用户层用于实现用户交互功能。

由于上述四个层次分别实现不同的功能，接下来对不同的层次分别进行介绍。

如图1所示，数据层实现的功能是，实现对大规模测序数据的存储，数据层主要由远端测序数据中心和本地大规模测序数据存储节点组成，为其他层提供数据输入。数据层还包含文件管理功能等功能，通过定时扫描文件，实在对文件的管理与定位。

用户层实现的功能是，提供用户交互界面，通过命令行和窗口等途径，为用户提供任务管理、工作流控制与结果展示等功能。

如图2所示，传输层实现的功能是，读取数据层中的测序数据文件，根据每个计算层的需要，对测序数据关键信息进行提取，并以测序读段(read)为单位生成测序数据流，发送给计算层。实现数据层与计算层之间的数据传输工作。

如图4所示，计算层实现的功能是，接收来自传输层的实时测序读段数据，根据本发明提出的基于Map Reduce的删除变异实时挖掘算法，实时计算该局部测序区域是否存在删除变异并输出删除变异的左右端点。

基于上述系统的面向生物大数据的流式传输与变异实时挖掘方法，包括以下步骤：

传输层通过生物数据流式传输算法实现数据层与计算层之间的数据传输功能，具体过程如下：

首先，根据用户层指定的染色体号、起始位点等参数，读取测序数据文件，获取测序读段数据。

然后，根据计算层需要，对每一个测序读段的关键信息进行筛选和提取。例如，根据本发明计算层的删除变异实时挖掘算法的需要，此处传输层提取每个测序读段的读段名(ReadName)、位置(Position)、方向(Oriention)、测序质量(MapQuality)、配对读段位置(MatePosition)和插入长度(InsertSize)的信息。

另外，还可以根据计算层的需要，先对测序读段进行简单筛选。例如，根据本发明计算层的基于Map Reduce的流式删除变异实时检测算法的需要，此处传输层先将测序质量太差、没有进行正常比对以及插入长度无异常的读段筛选掉，仅将筛选后的读段发送至计算端。通过筛选后，网络传输数据量大大降低，数据传输效率明显提升。

值得注意的是，当计算层为多个时，由于生物数据流式传输算法每次仅处理一条染色体，且删除变异不会跨染色体，因此在传输层中该算法可以以染色体为单位进行多线程并行，以进一步提升数据传输效率。例如，每增加一个新的来自计算层的连接，则新开一个传输层线程用于一条染色体数据的处理与传输，直至所有染色体数据处理完毕。另外，传输层的算法还可以以读段位置信息进行并行，此时原理如图3所示。

2)计算层接收来自传输层的实时测序数据流，根据基于Map Reduce的删除变异实时挖掘算法，实时计算该测序局部区域是否存在删除变异并输出删除变异的左右端点，并将删除变异的左右端点传输给用户层。具体过程如下：

首先，计算层接收来自传输层的测序数据流；例如，为Flink任务添加数据源(Source)。数据源可以使用Kafka管道分发，也可以使用自定义Socket。数据源接收来自传输层的测序读段信息；

然后，对接收到的来自传输层的测序读段信息进行分析，具体过程为：首先，根据读段的插入长度判断该读段是否是异常读段，若是异常读段，则记录其位置，然后判断在该位置附近是否存在其他异常读段，若存在其他异常读段，则统计该位置附近存在的异常读段的总数。例如：定义Flink任务算子(Transformer)。这里主要使用到FlatMap、KeyBy和Reduce等算子。首先使用FlatMap算子将接收到的数据流处理为<key，value>键值对流，此处key值为流中每个测序读段所属分区的值，value值均为1；然后使用KeyBy算子，根据每个键值对的key值对数据流进行分区；最后使用Reduce算子，统计属于同一分区(key值相同的键值对)中位置足够接近(比如500bp内)的读段数量，作为该key所对应的value。

最后，根据该位置附近存在的异常读段的总数判断该位置是否是删除变异端点，一般情况下，若总数大于2，则认为是此位置存在一个删除变异，这些异常读段中位置最靠左的测序读段的位置为删除变异的左端点，位置最靠左的测序读段的配对读段的位置为变异的右端点，输出删除变异的左右端点。例如，定义Flink输出算子(Sink)。对于经过Reduce的<key,value>键值对，一般value值大于2即可认定该key对应的分区中存在删除变异。同时，一般认定足够接近(比如500bp内)的测序读段中，位置最靠左的测序读段的位置为变异的左端点，其配对读段的位置为变异的右端点。使用Sink输出变异结果给用户层。

本发明提出了一种基于Map Reduce的流式删除变异实时检测算法，并在Flink框架下进行实现。根据BreakDancer算法原理可知，通过双端测序得到的测序样本数据中，如果一条染色体上某一区域发生了删除变异，那么该区域的测序读段在与参考基因组进行对比时，其插入长度一定会显著长于其他的正常区域的读段的插入长度。因此，可以根据插入长度筛选出异常的测序读段，并根据位置将临近的异常读段聚类在一起，那么当某一个区域插入长度异常的读段数量足够多时(一般认定为数量大于2)，就可以认为这里存在一个删除变异端点。同时，根据该删除变异端点内的读段的伙伴读段位置，即可确定此变异的另一个端点的位置。由于测序数据流是顺序的，因此同一区域的测序读段信息一般会在临近的时间节点到达计算层，因此算法可以保证删除变异的检出率。

基于Map Reduce的删除变异实时挖掘算法核心在于Map Reduce的key-value键值对的设计。对于测序数据流中的每一个测序读段，首先根据其插入长度判断该读段是否存在异常，若存在异常，则根据其位置对其进行分区，以分区的值记为其key值；然后使用减法判断被分到同一个区域内的测序读段是否位置足够接近(如差值小于2)，如足够接近，则以足够接近的测序读段的数量作为该分区key值所对应的value值；最后根据value值的大小，一般value值大于2即可判断该分区中存在删除变异。

Claims

1.面向生物大数据的流式传输与变异实时挖掘方法，其特征在于，

用于流式传输与变异实时挖掘方法的面向生物大数据的流式传输与变异实时挖掘系统，包括数据层、传输层、计算层和用户层；

数据层用于生物数据的存储；

传输层用于从数据层读取数据，并从读取的数据中提取关键信息，生成数据流，再传输给计算层；具体为：传输层读取数据层中的生物数据，根据每个计算层的需要，对测序数据关键信息进行提取，并以测序读段为单位生成测序数据流，发送给计算层；

计算层用于接收传输层的数据并进行变异实时挖掘，然后传输给用户层；具体为：计算层接收来自传输层的测序数据流，根据基于MapReduce的删除变异实时挖掘算法，实时计算局部测序区域是否存在删除变异并输出删除变异的左右端点，并将结果传输给用户层；

用户层用于实现用户交互功能；

所述流式传输与变异实时挖掘方法，包括以下步骤：

当计算层为一个或多个时，步骤1)的具体过程如下：

最后，将提取的信息生成测序数据流，以读段为单位，通过网络传输协议发送至计算层；

2)计算层接收来自传输层的实时测序数据流，根据基于MapReduce的删除变异实时挖掘算法，实时计算局部测序区域是否存在删除变异并输出删除变异的左右端点，并将删除变异的左右端点传输给用户层；具体过程如下：

首先，计算层接收来自传输层的测序数据流；

最后，根据每个读段位置附近的异常读段的总数判断该位置是否是删除变异端点，若总数大于2，则认为是此位置存在一个删除变异，并认为这些异常读段中位置最靠左的测序读段的位置为该删除变异的左端点，位置最靠左的测序读段的配对读段的位置为该变异的右端点，输出删除变异的左右端点给用户层；

对测序读段信息进行分析，得到每个读段位置附近的异常读段的总数的具体过程为：首先，根据读段的插入长度判断该读段是否是异常读段，若是异常读段，则记录其位置，然后判断在该位置附近是否存在其他异常读段，若存在其他异常读段，则统计该位置附近存在的异常读段的总数；具体过程为：首先使用FlatMap算子将接收到的数据流处理为<key，value>键值对流，此处key值为流中每个测序读段所属分区的值，value值均为1；然后使用KeyBy算子，根据每个键值对的key值对数据流进行分区；最后使用Reduce算子，统计属于同一分区中位置在500bp内的读段数量，作为该key所对应的value；

对于测序数据流中的每一个测序读段，首先根据其插入长度判断该读段是否存在异常，若存在异常，则根据其位置对其进行分区，以分区的值记为其key值；然后使用减法判断被分到同一个区域内的测序读段是否位置足够接近，如足够接近，则以足够接近的测序读段的数量作为该分区key值所对应的value值；当value值大于2，判断该分区中存在删除变异。

2.根据权利要求1所述的面向生物大数据的流式传输与变异实时挖掘方法，其特征在于，提取每个测序读段的读段名、位置、方向、测序质量、配对读段位置和插入长度的信息。