CN113792022B

CN113792022B - 面向基因数据的联邦分析系统和方法、设备及介质

Info

Publication number: CN113792022B
Application number: CN202110980697.3A
Authority: CN
Inventors: 黄雨; 豆乘风; 金芝
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2022-08-12
Anticipated expiration: 2041-08-25
Also published as: CN113792022A

Abstract

本发明属于大数据处理领域，公开了一种面向基因数据的联邦分析系统、设备及介质。所述系统包括：包括客户端、主控中心和分中心，其中：所述客户端包括展示层；所述主控中心包括主控制层、主任务层和主存储层；所述分中心包括分控制层、分任务层、分运算层和分存储层。本发明采用跨中心文件管理、多中心任务执行和联邦分析算法库三个核心策略来进行基因联邦分析。跨中心文件管理能够在确保数据安全的同时，允许联盟根据任务维护不同的虚拟目录结构，用户可以操作虚拟目录进行多中心基因分析；多中心任务执行针对不同类型的分析步骤，提供专门的资源分配方法，并能够对分析过程进行监控；联邦分析算法库能够为基因跨中心分析提供支持。

Description

面向基因数据的联邦分析系统和方法、设备及介质

技术领域

本发明属于大数据领域。更具体而言，本发明的设计主要围绕基因数据共享的问题，针对数据管理和数据分析隐私保护两个点，基于联邦学习等隐私保护方案，提供确保基因数据隐私的分析方案。

背景技术

基因数据共享受到数据采集和隐私保护的双重制约，缺乏高效的共享方式。医学领域通常使用多中心协作的方式来获取难以采集的数据。然而，由于隐私保护以及国家政策的原因，各个中心在采集到数据之后无法简单地进行共享。因此，如何在保证各个中心数据不泄露的情况下进行协同分析是一个亟待解决的问题。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种基于联邦模式的基因分析方案，各个中心通过脱敏数据进行交互与分析。联邦以星型模式组织，分为主控中心与分中心，主控中心不维护数据，用户通过主控中心向分中心发送命令来进行基因分析。

在第一方面，本发明提供了一种面向基因数据的联邦分析系统，所述系统包括：包括客户端、主控中心和分中心，其中：

所述客户端包括展示层；

所述主控中心包括主控制层、主任务层和主存储层；

所述分中心包括分控制层、分任务层、分运算层和分存储层；

所述展示层用于与用户进行交互，并与所述主控制层通讯连接；

所述主控制层负责接收和解析来自展示层的指令，进行任务管理和文件管理，并对分析过程中的文件和存储分析结果进行管理，所述任务管理包括任务的创建、访问以及子任务的分解，所述文件管理包括基因元数据的访问；

所述主任务层负责执行所述任务，所述任务包括控制类任务和运算类任务，其中所述主任务层运行所述控制类任务，将所述运算类任务分成子任务并向所述分控制层发送执行所述子任务的控制指令；

所述主存储层用于存储基因元数据和任务元数据；

所述分控制层负责接收执行所述子任务的控制指令，将所述子任务分配至所述分任务层；

所述分任务层负责执行所述子任务，所述子任务包括控制类子任务和运算类子任务，其中所述分任务层运行所述控制类子任务，并把计算子任务发送给分运算层；

所述分运算层负责根据计算任务进行计算，并将计算结果返回至所述主控制层；

所述分存储层存储基因文件。

在一个实施方案中，与用户交互包括向用户提供文件访问、数据查询、任务管理和分析等操作页面。

在一个实施方案中，所述主控制层进行权限验证。

在一个实施方案中，所述主任务层按照所述主控制层指定输入文件和输出文件。

在一个实施方案中，所述分中心有多个，所述分中心之间以及所述主控中心和所述分中心之间进行文件传递。

在一个实施方案中，所述主控中心还包括主运算层。

在一个实施方案中，所述分存储层利用分布式文件存储基因文件。

在一个实施方案中，使用非关系型数据库存储基因元数据，利用关系型数据库存储任务元数据。

在一个实施方案中，所述分运算层支持容器分配和作业调度两种资源分配方案，并利用哨兵节点监视每个任务的心跳。

在一个实施方案中，所述分存储层支持数据压缩和解压缩。

在一个实施方案中，所述主控制层被配置用于根据用户通过所述客户端的展示层发出基因数据分析请求准备数据、建立虚拟分析环境。

在第二方面，本发明提供了一种面向基因数据的联邦分析方法，所述方法使用本发明的面向基因数据的联邦分析系统，所述方法包括以下几个步骤：

1)响应于用户通过所述客户端的展示层发出基因数据分析请求，所述主控中心的主控制层准备数据、建立虚拟分析环境，生成分析任务；

2)所述主任务层执行所述分析任务，所述任务包括控制类任务和运算类任务，其中所述主任务层运行所述控制类任务，将所述运算类任务分成子任务并向所述分控制层发送执行所述子任务的控制指令；

3)所述分控制层接收执行所述子任务的控制指令，将所述子任务分配至所述分任务层；

4)所述分任务层执行所述子任务，所述子任务包括控制类子任务和运算类子任务，其中所述分任务层运行所述控制类子任务，并把子计算任务发送给分运算层；

5)所述分运算层根据计算任务进行计算，将计算结果返回至所述主控制层，由所述主存储层存储计算结果。

在一个实施方案中，在2)中，按照所述主控制层指定输入文件和输出文件。

在一个实施方案中，建立虚拟分析环境包括：a.创建分析任务、协商秘钥；b.建立分析目录；c.从文件服务器拉取数据。

在第三方面，本发明提供了一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机指令，所述计算机指令在由所述处理器执行时导致本发明第二方面所述的方法被执行。

在第四方面，本发明提供了一种非暂时性计算机可读存储介质，其上存储有计算机指令，所述计算机指令在由处理器执行时导致本发明第二方面所述的方法被执行。

本发明采用跨中心文件管理、多中心任务执行和联邦分析算法库三个核心策略来进行基因联邦分析。跨中心文件管理能够在确保数据安全的同时，允许联盟根据任务维护不同的虚拟目录结构，用户可以操作虚拟目录进行多中心基因分析；多中心任务执行针对不同类型的分析步骤，提供专门的资源分配方法，并能够对分析过程进行监控；联邦分析算法库能够为基因跨中心分析提供支持。

附图说明

通过以下附图对本发明进行说明：

图1示例性示出单中心架构。

图2示例性示出多中心框架。

图3是根据本发明一个实施方案的系统的文件分布形式。

图4示出了虚拟分析环境创建简要步骤流程。

图5示出了分析目录的组织形式。

图6描述了不同中心之间文件传递的一个示例性过程。

图7示出了一个示例性多中心的任务的生存周期。

图8示出了本地运算的示意图。

图9示出了容器分配的示意图。

图10示出了联邦数据质控的流程。

图11示出了连锁不平衡分析的流程图。

图12示出了群体分层分析的流程图。

图13示出了关联性分析多中心流程图。

具体实施方式

本发明的联邦分析系统架构可以分为单中心与多中心两种系统构架。

系统单中心总体架构如图1所示，可分为展示层、控制层、任务层、运算层以及存储层。图1中的箭头表示用户请求的传递，用户首先在展示层发起请求，该请求随后被控制层接收并解析。如果是文件访问请求，则由控制层直接转发给持久层进行处理。如果是数据分析请求，则由控制层指挥任务层进行处理，任务层在执行任务的时候，会把计算的部分交给运算层，由运算层从持久层读取文件，进行计算。下面是对总体框图当中每个模块功能的概要描述：

展示层：展示层与控制层形成C/S架构，利用HTML等前端展示技术向用户提供图形用户界面。展示层向用户提供文件访问、数据查询、任务管理以及基因分析等操作页面，同控制层之间使用Restful以及HTTPs进行加密通讯，保证用户的隐私安全。

控制层：控制层负责接收和解析来自展示层的指令，并进行必要的权限验证。权限验证可以使用本领域中已有的权限设置方式。同时控制层还负责任务管理和文件管理。任务管理主要涉及到任务的创建、访问以及子任务的分解。文件管理主要涉及到基因元数据的访问，基因分析过程中文件的管理以及分析结果的存储。

本发明中，不同中心之间的指令通过对称加密进行传输。主控中心向分中心发送命令使用两阶段提交法，即向分中心发送任务执行命令，如果所有分中心执行成功，那么提交、持久化状态。否则，如有一个中心失败，则回滚所有中心的命令。例如，创建任务包括sign:数字签名，摘要源于taskId；taskId:任务编号；owner:任务创建人；sceret:[FTPs密钥,RPC密钥(可选)]。初始化任务包括db:数据库名；samples:[样本编号1，样本编号2，...]；taskId:任务编号；step:步骤名。执行步骤包括command:步骤命令，如(LD，PCA等等)；input:[XXX.ped,XXX.map,其它文件]；output:输出文件。结束任务包括taskId:任务编号。存储任务包括taskId:任务编号。Push(将文件从一个中心推送到目标中心的FTP目录)包括taskID:任务编号；src:源中心编号:文件路径；dst:目标中心编号。Move(将文件从FTP目录移动到工作目录)任务包括taskID:任务编号；centerID：目标中心；src：源路径；dst：目标路径。

任务层：该层负责执行具体的分析任务，需要控制层指定输入文件和输出文件，只专注于具体任务，不关心如文件管理数据加密等内容。任务层的任务分为控制类任务和运算类任务，其中控制类任务运行在主控中心，而运算类任务运行在分中心，利用分治的思想进行联邦运算。任务在执行的过程当中，会把复杂的计算委托给运算层，统一分配资源。

运算层：负责进行复杂的计算，根据计算任务的类型，为其分配相应的资源。目前，该系统支持容器分配和作业调度两种资源分配方案，并利用哨兵节点监视每个任务的心跳。资源分配具体方案将在后文讨论。

存储层：利用分布式文件存储放置基因文件，使用非关系型数据库存储基因元数据，利用关系型数据库存储任务元数据，为上层提供存储功能的支持。同时该层还支持数据打包和恢复操作，用于节省存储空间。

在本发明中，元数据存储分为总中心元数据存储和分中心元数据存储两个类别，两者是主从关系。其中总中心数据库包括元数据库和路由数据库，主要保存了基因数据的元信息以及该数据归属的中心ID。同时，总中心数据库存储有各个中心的公钥，用于分发对称秘钥。例如，元数据库中记录样本编号以及家庭、伴侣编号、父母编号、性别、表型、所属中心编号等；路由数据库中存储中心标号以及IP地址、IP端口、公钥等。

在本发明中，分中心元数据库包含的信息与联邦数据库的大致相同，不同点是分中心数据库会保存基因文件的存储地址，这里的存储地址格式为<文件路径:第几个样本>，用于读取文件。例如，元数据库中记录样本编号以及家庭、伴侣编号、父母编号、性别、表型、存储地址等。

多中心架构组织形式如图2所示。在多中心架构当中，展示层位于用户的客户端，用户通过客户端向主控中心发起分析请求。主控中心负责运行控制类任务，向分中心发起控制指令，分中心通过分控制层接收到控制指令，并执行相应的子任务。控制指令只能通过主控中心发起，各个分中心利用数字签名技术来对此进行验证。在多中心架构中，中心之间可以进行文件传输，为保证传输文件的隐私，各个中心还分别对文件进行权限管控，并使用FTP协议进行传输。

在本发明的系统中，文件分布形式可以如图3所示。数据分布在各个独立单元之上，独立单元对应各个研究机构。而用户访问的是管理单元，管理单元本身不维护数据，数据交由各个独立单元进行维护，这样的管理场景易于实现，且不会存在数据归属争议的问题。同时为了方便检索，管理单元会保存独立单元的元数据，这一类数据是脱敏的，不会涉及到数据隐私的问题。在进行分析的时候，用户根据元数据库来选取各个中心的数据进行跨中心分析。下面简要描述跨中心文件管理的几个功能。

在本发明中，在基因数据的所有格式当中，BED+BIM+FAM格式占用的空间最小，因此本文采用该格式存放基因数据，放置在专门的存储服务器上(如HDFS等分布式服务器)。但是这种格式将样本的信息压缩在一起，不利于提取数据，因此在抽取样本的时候，需要对其解压，将其转换为PED+MAP的格式。在抽取完样本之后，样本需要被传输到运算节点上进行分析，为了降低传输消耗，需要再次抽取的样本压缩。

在本发明的一个示例性实施方案中，虚拟分析环境创建简要步骤如下，流程如图4所示，包括：a.创建分析任务、协商秘钥；b.建立分析目录；c.从文件服务器拉取数据。

在本发明的一个示例性实施方案中，分析目录的组织形式如图5所示，主中心和从中心分别维护一个虚拟的文件目录，两者文件目录保持一致，研究人员可以同步操控多个中心进行文件移动、复制、删除等操作。目录分为工作区和FTP两个部分，两者相互隔离。同级目录下方任务文件夹也维持相同层级，每个任务又分成若干步骤。

由于基因数据分散在各个中心，为了方便分析，需要各个中心的文件目录保持一致。为此，本发明进行如下设计。首先在主控端，系统会维护一个虚拟的文件目录，供研究人员查阅。研究人员在进行数据分析的时候就像直接在本地进行分析一样。其它中心的目录和同虚拟目录一致，这样系统在进行文件操作的时候，可以使用Map指令同时操作多个中心的文件。FTP目录是FTPs服务器的根目录，同工作空间隔离。各个中心如果想要向其它中心发送文件，那么需要先将文件发送至FTP下的任务目录当中，然后由其它中心将文件移动至工作空间。同样地，如果各中心想要获取其它中心的文件，需要请求其它中心将文件发送至FTP下的任务目录当中，然后该中心再将文件移动至工作空间当中。由于传输文件是使用是Push的方式，并利用FTPs保证数据传输的安全，同时FTP目录和工作空间是隔离的，因此各个中心能够很好的防止重要数据泄露。图6描述了不同中心之间文件传递的一个示例性过程。

以下示例性描述了多中心任务执行。任务生成周期如下：任务管理模块主要负责任务的创建、查询以及解析主控中心(用户)发来的命令进行操作。在讨论该模块如何设计之前，首先必须先说明多中心任务的生存周期。一个示例性多中心的任务的生存周期如图7所示。该周期包含创建、运行和销毁三个阶段。其中创建阶段和销毁阶段需要多中心并行进行操作。任务在运行的时候会被分为若干个步骤，具体步骤因用户的命令而异，用户不断的输入命令，操作多中心的分析进行。

多中心任务执行资源分配方案描述如下，在基因分析场景当中Step可以分为资源访问式步骤、交互频繁式步骤和交互不频繁式步骤三种。资源访问式步骤主要对应文件传输这样的需求；交互频繁式步骤主要对应迭代式分析过程，如训练联邦逻辑回归模型；交互不频繁式步骤主要对应子步骤之间没有交互，总体呈现分治状态的分析步骤，如统计缺失数目。

上述三种步骤对应的生存周期如图7所示，该图反映了资源调度模块对不同步骤类型的调度策略对于交互频繁式的步骤，资源调度模块采用了容器池的方式分配容器，在步骤执行完毕之后，立即归还容器；对于交互不频繁式步骤，考虑到基因数据较大，因此采取本地运算的方式减少数据传输的时间；而资源访问式步骤，则利用文件管理模块进行管控。

图8示出了本地运算的示意图。由于基因分析当中，交互不频繁式的步骤均在存放数据的节点上运行。考虑到如果只投入一个节点进行计算，如果运算的步骤过多，有可能会造成单点故障，因此本文利用了一致性Hash负载均衡对其做了扩展。扩展方案如图8所示。首先，一致性Hash负载均衡会根据任务的编号计算其Hash值，然后将请求转发到对应的节点上。为了防止一个节点失效影响分析过程，本文采取了双机热备份的机制。首先本文将节点分成两个部分，在图中用虚线表示该划分。其中虚线上方的任务为正在执行且与用户交互的任务，而虚线下方的任务则为备份任务。每个节点在收到用户的指令的时候，会在本地执行任务，同时也会把指令按照Hash环传递给下一个节点，下一个节点将会同步执行这个指令。当一个节点失效的时候，请求会沿着Hash环转发给下一个节点，从而做到高可用。使用一致性Hash负载均衡的另外一个好处是如果添加新的节点，那么只需迁移一个节点上的备份任务即可，效率较高。

图9示出了容器分配的示意图。容器的状态主要分为创建、空闲、占用、死亡以及销毁五个状态，容器监控主要负责观察容器的状态，并根据容器当前的状态进行调整。本文通过空闲队列、占用队列和重启队列来完成对容器状态的监控，具体如图9所示。容器在创建之后，会通过步骤监控模块向容器监控模块发送心跳，容器监控收到该心跳，如果是第一次发送，那么容器监控会把容器放入空闲队列，等待分配。当请求到来的时候，容器监控会分配容器给具体步骤，并将其放入占用队列。步骤执行外部，步骤监控模块会通知容器监控，容器监控会把容器从占用队列移入空闲队列。加入容器监控一段时间内没有收到心跳，则认为容器死亡。如果容器死亡时没有被占用，则直接进入重启队列进行重启，如果被占用则先向步骤报告失败信息，之后将容器放入重启队列。当容器重启成功之后，容器监控又会将容器从重启队列放入空闲队列。容器释放之后，容器监控将彻底删除容器信息。

在本发明中，联邦算法库呈现“一主多从”的形式，依托gitlab，开发人员将算法上传到主控端，分中心定时检查主控中心的代码版本，当代码版本不统一的时候更新本地的算法。下面简单介绍已经实现的算法。

联邦数据质控的流程如图10所示。主控中心需要分别向各个子任务端发送统计缺失率的指令，各个分中心在收到了请求之后，分别在本地进行缺失率统计，生成对应的文件，并回传给主控端。主控端汇总各中心的数据，得到总体的缺失率，然后根据缺失率确定需要保留下来的样本以及基因型，并传递给子任务端。最后子任务端各自过滤各自的样本，完成数据质控。在总体质控的过程当中，缺失率属于脱敏信息，主控中心无法通过缺失值反推出样本数据。分中心得到的是要保留的基因的ID，因此分中心也无法通过缺失率推断出其它中心的样本数据。在文件传输的过程当中，由于本文使用了FTPs协议对文件进行了加密，因此联邦之外的任何个体或组织都无法获取缺失值信息。综上，该方案实现的多中心数据质控是安全的。

在本发明中，任务数据存储模块主要负责存储用户的任务文件，当用户再次启动该任务的时候，能够快速的恢复现场。系统通过任务数据表来存放任务信息，表结构如图所示。该表记录了任务的ID，所有者，占用空间的大小以及上一次的访问时间。用户分析任务文件(即用户分析时的任务目录和FTP目录)会根据任务ID压缩打包存储到系统的分布式文件系统中，检索则直接使用任务ID进行查找即可。考虑到各个中心存储的空间有限，因此需要限制任务的数量，在本文当中，每个用户的任务数据总体积不能够超过5GB。值得注意的是，主控中心的任务目录主要保存了任务的分析结果，而从中心的目录主要保存了分析过程当中的中间过程文件。用户如果想要下载分析结果，只需恢复主控中心的分析目录，进行下载即可。任务目录的每一个文件夹表示一个步骤，文件夹里有输入文件、中间文件，这两个一般放在分中心。输出文件则放置在主控中心。输出文件的格式目前同Plink的输出格式，后续会支持图片等类型。

实施例1：连锁不平衡分析。

如图11所示，本文采用了批量计数的方式。这里令batchsize为BS。在进行多中心LD分析的时候，主控中心每次会选取一个BS数目的基因，并通知各个分中心统计这些基因和与其距离小于一个窗口的基因的排列数目，并对其分组。分中心进行分组统计后会将该数据传递回主控中心，主控中心根据计数计算LD系数，并过滤其中的基因。此后，主控中心和分中心重复上述步骤，直到所有的基因均被访问过。主控中心最终生成保留基因名单，通知各个中心进行过滤。

在多中心LD分析当中，计数操作不会泄露单个样本的信息，而主控中心也只能够获取计数信息并进行总结，因此主控中心无法通过该信息推测出单中心的数据。主控中心发送给单中心的仅为基因位点ID、窗口大小，因此分中心也无法通过该信息推测出其它中心的数据信息，因此该方案是安全的。

实施例2：群体分层分析

多中心主成分分析的流程如图12所示。该图展示了两个中心的主成分分析流程，可以很容易的推广到两个以上的中心。在进行计算的时候，每个中心的数据被视作一个二维矩阵，每行表示一个样本，每列表示一个基因位点上的基因型，用0、1、2编码。首先，主控中心通知分中心分别进行缺失值填补，然后返回矩阵每一列的和，返回给主控中心。主控中心合并列和，并计算均值和方差，并将这些数据推送到分中心进行数据标准化。在数据标准化完毕之后，各个中心计算自身的协方差矩阵并返回给主控中心，这些协方差矩阵对应总协方差矩阵对角线上的子矩阵。接下来主控中心控制分中心利用如图13所示的方法计算上三角矩阵。

当全部计算完毕之后，主控中心将上三角矩阵扩展为总协方差矩阵，并按照传统PCA的算法进行剩下的步骤。群体分层的散点图也在主控中心处生成。在进行多中心主成分分析的时候，主控中心接收到的是分中心的列和以及加密后的向量，这些信息并不足以使得主控中心推测出各个分中心的数据信息。分中心接收到的是主控中心发送的均值和方差，在与其它中心进行向量点积的时候，由于点积不会传递给分中心，因此分中心也无法推测出其它中心的数据信息。综上，该多中心主成分分析方案是安全的。

实施例3：关联性分析。

关联性分析多中心流程如图13所示。该流程中分中心一次性完成所有统计，之后将数据传输给主控中心，在多中心关联性分析当中，主控中心获取到的是分中心的分组计数，因此主控中心无法推测出分中心的数据信息。分中心没有获取主控中心的任意信息，因此分中心也无法推测出其它分中心的数据信息。综上，多中心关联性分析是安全的。

本领域普通技术人员应理解，图2中示出的实施方案仅仅是与本发明的方案相关的部分结构的示例性说明框图，并不构成对体现本发明的方案的计算机设备、处理器或计算机程序的限定。具体的计算机设备、处理器或计算机程序可以包括比图中所示更多或更少的部件或模块，或者组合或拆分某些部件或模块，或者可具有不同的部件或模块布置。

应理解，本发明的系统的各个单元可全部或部分地通过软件、硬件、固件或其组合来实现。所述各单元各自可以硬件或固件形式内嵌于计算机设备的处理器中或独立于所述处理器，也可以软件形式存储于计算机设备的存储器中以供处理器调用来执行所述各单元的操作。所述各单元各自可以实现为独立的部件或模块，或者两个或更多个单元可实现为单个部件或模块。

在一个实施例中，提供了一种计算机设备，其包括存储器和处理器，所述存储器上存储有可由处理器执行的计算机指令，所述计算机指令在由所述处理器执行时指示所述处理器执行本发明的方法的各步骤。该计算机设备可以广义地为服务器、车载终端，或任何其他具有必要的计算和/或处理能力的电子设备。在一个实施例中，该计算机设备可包括通过系统总线连接的处理器、存储器、网络接口、通信接口等。该计算机设备的处理器可用于提供必要的计算、处理和/或控制能力。该计算机设备的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质中或上可存储有操作系统、计算机程序等。该内存储器可为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口和通信接口可用于与外部的设备通过网络连接和通信。该计算机程序被处理器执行时执行本发明的辅助方法的步骤。

本发明可以实现为一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在由处理器执行时导致本发明的方法的步骤被执行。在一个实施例中，所述计算机程序被分布在网络耦合的多个计算机设备或处理器上，以使得所述计算机程序由一个或多个计算机设备或处理器以分布式方式存储、访问和执行。单个方法步骤/操作，或者两个或更多个方法步骤/操作，可以由单个计算机设备或处理器或由两个或更多个计算机设备或处理器执行。一个或多个方法步骤/操作可以由一个或多个计算机设备或处理器执行，并且一个或多个其他方法步骤/操作可以由一个或多个其他计算机设备或处理器执行。一个或多个计算机设备或处理器可以执行单个方法步骤/操作，或执行两个或更多个方法步骤/操作。

本领域普通技术人员可以理解，本发明的方法的全部或部分步骤可以通过计算机程序来指示相关的硬件如计算机设备或处理器完成，所述的计算机程序可存储于非暂时性计算机可读存储介质中，该计算机程序被执行时导致本发明的方法的步骤被执行。根据情况，本文中对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。

以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述，但这些技术特征的任何组合都应当被认为由本说明书涵盖，只要这样的组合不存在矛盾。

尽管结合实施例对本发明进行了描述，但本领域技术人员应理解，上文的描述和附图仅是示例性而非限制性的，本发明不限于所公开的实施例。在不偏离本发明的精神的情况下，各种改型和变体是可能的。

Claims

1.一种面向基因数据的联邦分析系统，所述系统包括：包括客户端、主控中心和分中心，其中：

所述客户端包括展示层；

所述主控中心包括主控制层、主任务层和主存储层；

所述展示层用于向用户提供文件访问、数据查询、任务管理和分析操作页面，所述展示层与所述主控制层通讯连接；

所述主控制层负责接收和解析来自展示层的指令，并进行权限验证；进行任务管理和文件管理，所述任务管理包括任务的创建、访问以及子任务的分解，所述文件管理包括基因元数据的访问；管理分析过程中的文件和存储分析结果；

所述主任务层负责执行所述任务，并按照所述主控制层指定输入文件和输出文件，所述任务包括控制类任务和运算类任务，其中所述主任务层运行所述控制类任务，并向所述分控制层发送子任务，所述子任务包括进行所述运算类任务；

所述主存储层使用非关系型数据库存储基因元数据，利用关系型数据库存储任务元数据；

所述分任务层负责执行所述子任务，所述子任务包括控制类子任务和运算类子任务，其中所述分任务层运行所述控制类子任务，把复杂的计算任务委托给分运算层；

所述分存储层利用分布式文件存储放置基因文件。

2.根据权利要求1所述的系统，所述分中心有多个，所述分中心之间以及所述主控中心和所述分中心之间进行文件传递。

3.根据权利要求1或2所述的系统，所述主控中心还包括主运算层。

4.根据权利要求1或2所述的系统，所述存储层利用分布式文件存储放置基因文件，使用非关系型数据库存储基因元数据，利用关系型数据库存储任务元数据。

5.根据权利要求1或2所述的系统，所述分运算层支持容器分配和作业调度两种资源分配方案，并利用哨兵节点监视每个任务的心跳。

6.根据权利要求1或2所述的系统，所述主控制层被配置用于根据用户通过所述客户端的展示层发出基因数据分析请求准备数据、建立虚拟分析环境。

7.一种面向基因数据的联邦分析方法，所述方法使用根据权利要求1-6任一项所述的系统，所述方法包括以下几个步骤：

1）响应于用户通过所述客户端的展示层发出基因数据分析请求，所述主控中心的主控制层准备数据、建立虚拟分析环境，生成分析任务；

2）所述主任务层执行所述分析任务，并按照所述主控制层指定输入文件和输出文件，所述任务包括控制类任务和运算类任务，其中所述主任务层运行所述控制类任务，并向所述分控制层发送子任务，所述子任务包括进行所述运算类任务；

3）所述分控制层负责接收执行所述子任务的控制指令，将所述子任务分配至所述分任务层；

4）所述分任务层执行所述子任务，所述子任务包括控制类子任务和运算类子任务，其中所述分任务层运行所述控制类子任务，把复杂的计算任务委托给分运算层；

5）所述分运算层根据计算任务进行计算，将计算结果返回至所述主控制层，由所述主存储层存储计算结果。

8.根据权利要求7所述的方法，在1）中，建立虚拟分析环境包括：a. 创建分析任务、协商秘钥；b. 建立分析目录；c. 从文件服务器拉取数据。

9.一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机指令，所述计算机指令在由所述处理器执行时导致根据权利要求7-8中任一项所述的方法被执行。

10.一种非暂时性计算机可读存储介质，其上存储有计算机指令，所述计算机指令在由处理器执行时导致根据权利要求7-8中任一项所述的方法被执行。