CN113517027B

CN113517027B - 基于隐私保护并实现全基因组关联分析的联盟学习系统及方法

Info

Publication number: CN113517027B
Application number: CN202010273642.4A
Authority: CN
Inventors: 郑灏; 王爽
Original assignee: Hangzhou Weiwei Information Technology Co ltd
Current assignee: Hangzhou Weiwei Information Technology Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2024-05-24
Anticipated expiration: 2040-04-09
Also published as: CN113517027A

Abstract

本发明公开了基于隐私保护并实现全基因组关联分析的联盟学习系统及方法，系统包括分别与原始数据终端、授权终端连接的全局服务器，全局服务器包括数据预处理模块、主程序模块、请求句柄模块，主程序模块包括联盟式主成分分析模块、联盟式广义线性模型；方法包括如下步骤：步骤一，授权研究人员，创建联盟式全基因组关联性分析研究实例，并提交给全局服务器；步骤二，各数据拥有者和全局服务器协同执行数据预处理，得到预处理过的数据；步骤三，通过预处理过的数据，全局服务器执行联盟式主成分分析方法，再执行联盟式广义线性模型，生成分析结果报告；步骤四，全局服务器将最终结果报告发送给授权研究人员。

Description

基于隐私保护并实现全基因组关联分析的联盟学习系统及方法

技术领域

本发明涉及全基因组关联分析技术领域，尤其是涉及了基于隐私保护并实现全基因组关联分析的联盟学习系统。

背景技术

全基因组关联分析(Genome-Wide Association Studies)是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性SNP(Single Nucleotide Polymorphism)，从中筛选出与疾病相关的基因型数据特征(SNPs)。统计学上有效的全基因组关联分析结果需要大量的和该疾病相关的单核苷酸多态性的基因数据。单个研究机构很难拥有符合数量要求的基因数据，因此跨机构的数据共享合作势在必行。然而涉及多个研究机构的数据共享合作带来了的更多挑战，其中最大的挑战就是对基因数据的隐私安全保护。例如，基因数据共享过程中缺乏对未脱敏数据的安全防护标准。

近年来，全球各个国家和地区均对用户数据，尤其是医疗数据的隐私问题进行了立法，例如我国于2017年6月1日正式实施了《中华人民共和国网络安全法》。再如欧盟于2018年5月25日颁布并实施了通用数据保护条例(General Data ProtectionRegulation)，并且缺乏对患者医疗数据隐私性，完整性，以及可用性的相应保护措施。

现有跨机构医疗数据共享服务尚处于不成熟阶段，缺乏对多方原始数据的隐私保护，尚未形成有体系的标准和保护措施。严格的法律，缺失的保护体系和标准，造成大量医院，医疗研究机构等医疗数据拥有者不愿或不敢分享其拥有的数据资源，从而严重影响了互联网大数据潮流下医疗学科的快速进步和发展。

中国专利一种疾病关联基因组合的统计方法及系统，申请号201810134414.1，该统计方法采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性，根据其显著性和阈值，筛选出与疾病关联的单核苷酸多态性位点。该发明不涉及多个机构基因数据的共享协同分析，同时没有考虑基因数据的隐私保护。

中国专利一种改进的基于通路的全基因组关联分析算法，申请号201510096276.9，使用主成分分析法和最大均值法来构建基因统计量，剔除了SNP之间的互作效应，部分解决了基因内部SNP连锁的问题。该发明不涉及多个机构基因数据的共享协同分析，同时没有考虑基因数据的隐私保护。

中国专利用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备，申请号201680028090.2，通过与隐私首选项存储库和策略存储库的结合来设定访问此类信息的一系列标准和规则，同时通过适当授权的当事人或应用程序，广泛共享这些数据。该发明强调了对信息学数据的存储，查看，分析的授权保护标准。但是不涉及多机构全基因组关联分析协同工作下的隐私保护(暨所有数据拥有者不共享任何原始数据的协同分析研究)，没有从根本上解决隐私基因数据共享的隐私保护。

发明内容

为解决现有技术的不足，实现多机构全基因组关联分析协同工作下的隐私保护的目的，本发明采用如下的技术方案：

基于隐私保护并实现全基因组关联分析的联盟学习系统，包括分别与原始数据终端、授权终端连接的全局服务器，所述全局服务器包括数据预处理模块、主程序模块、请求句柄模块，所述主程序模块包括联盟式主成分分析模块、联盟式广义线性模型；所述原始数据终端分别与所述数据预处理模块、所述联盟式主成分分析模块、所述联盟式广义线性模型连接，所述授权终端与所述请求句柄模块连接；

所述原始数据终端，用于原始数据的存储、计算，涉及所述原始数据的存储、计算均在所述原始数据终端本地隔离进行，所述全局服务器仅对脱敏后的中间结果进行汇总和计算，从根源上避免了患者隐私泄露；

所述请求句柄模块，用于接收所述授权终端的全基因组关联性分析的联盟学习请求并返回联盟学习结果报告。

所述数据预处理模块，包括四个基因数据过滤器；

过滤器一，将所有基因型标记为0、1、2和NC，去除所有MT、X和Y染色体；

过滤器二，删除所有位点得率低于删除阈值的基因型，根据所有所述原始数据终端计算的基因位点得率，生成全局平均得率并返回给所述原始数据终端所有平均得率小于所述删除阈值的基因型位点，所述原始数据终端从本地数据中删除所有所述平均得率小于所述删除阈值基因型位点；

过滤器三，替换标记为NC的基因型，根据每台所述原始数据终端本地计算的基因型频率，计算全局平均基因型频率，每台所述原始数据终端将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型；

过滤器四，去除最小等位基因频率小于去除阈值的基因型数据特征，根据所述基因型频率，计算出全局最小等位基因频率并返回给所有所述原始数据终端所有最小等位基因频率小于所述去除阈值的所述基因型数据特征，所述原始数据终端从本地数据中删除所有所述最小等位基因频率小于所述去除阈值的所述基因型数据特征。

所述联盟式主成分分析模块，在原始基因型数据矩阵上进行人群分层，进而获取具有最高主成分的处理后数据，实现了联盟式计算下，各个数据拥有者的数据隐私保护，同时保证了结果的正确性；具体包括：

(1)联盟式求解全局零均值矩阵，具体包括：

(a)参数设定，共有L台所述原始数据终端，第l台所述原始数据终端的本地基因型数据可以表示为一个N_l×M矩阵所述N_l是列，表示所述原始数据终端l的本地基因型数据样本数，所述M是行，表示本地所述基因型数据特征数量，所述G_l表示原始数据终端l的本地基因型数据矩阵；

(b)根据所述原始数据终端计算的所述本地基因型数据矩阵的行和矩阵：计算全局基因型数据平均值矩阵：/>并将所述全局基因型数据平均值矩阵返回给所述原始数据终端，所述/>表示所述原始数据终端l的基因型数据行和矩阵，所述/>表示所述原始数据终端l第i列所有数据样本的行和叠加的值，所述N表示所有所述原始数据终端基因型数据总样本数，所述/>表示全局的第i列所有数据样本的行和叠加的值，所述行由N组成，所述列由M组成，i∈{1,2,…,M}；

(c)根据所述原始数据终端计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述原始数据终端；所述/>表示所述原始数据终端l第i列基因型数据矩阵的向量；

(2)联盟式求解主成分特征映射关系，在每次联盟式迭代过程h∈{1,2,...,H}中，根据所述原始数据终端计算的本地中间结果：计算全局中间结果：/>通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；所述所述h∈{1,2,...H}为联盟计算迭代轮次，所述/>表示一个M×K初始特征向量预估矩阵，所述K表示需要计算的最大特征向量的数量，所述k∈{1,2,...K}，所述H表示最大迭代次数，所述σ表示迭代收敛区间值，所述E_l表示所述原始数据终端l的基因型数据零均值矩阵，所述X表示主成分映射关系特征向量，是一个M×K矩阵，包含最大K个特征向量，所述Λ表示主成分映射关系对角特征值矩阵，是一个K×K对角值为特征值的对角矩阵，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值；

(3)计算主成分方向特征，将所述主成分特征映射关系发送给所有所述原始数据终端，所述原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘，得出主成分方向特征。

所述联盟式广义线性模型，包括全基因组关联分析模块，所述全基因组关联分析模块通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征，具体包括如下：

(1)构建逻辑回归分类器模型，通过输入特征矩阵、表型数据，训练得到逻辑回归参数；

(2)将所述主成分方向特征的矩阵作为所述特征矩阵，带入所述逻辑回归分类器模型，得到逻辑回归参数β_H0；

(3)将所述本地基因型数据中每一个基因型数据特征值与所述主成分方向特征的矩阵，创建的新矩阵作为所述特征矩阵，带入所述逻辑回归分类器模型，得到逻辑回归参数

(4)根据所述β_H0和所述基于所有所述原始数据终端的本地基因型数据进行似然比检验，获得所述sⁱ的基于卡方分布的显著值p_i(p-value)；

(5)选取所有基因型数据特征的显著值p＝{p₁,p₂,...,p_M}，输出一组较小的显著值k＜M，所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征；

所述本地基因型数据G和所述主成分方向特征的计算均为分布式；每个所述原始数据终端上传本地所述主成分方向特征到所述全局服务器，所述全局服务器将所述主成分方向特征累加生成全局主成分，通过分布式所述逻辑回归分类器，训练所述模型。

所述(1)构建逻辑回归分类器模型，通过训练可以得出逻辑回归参数β＝{β′,β₀}，所述Y是表型数据，是已知的实际结果，所述F为特征矩阵，所述β′为每个特征的权重系数向量，所述β₀为截距，所述截距是当所有所述特征取最低水平值时的事发比；所述(2)对于所述本地基因型数据G_l，创建Z_l＝{G_l′}，所述G_l′是所述主成分方向特征的矩阵，令F＝Z_l，带入所述逻辑回归分类器模型，训练所述模型得出对应所述Z_l的逻辑回归参数β_H0，所述l表示第l个所述数据拥有者；所述(3)对于所述本地基因型数据G_l中每一个基因型数据特征值/>创建新矩阵/>令F＝Zⁱ _l，带入所述逻辑回归分类器，训练所述模型得出对应所述Zⁱ _l的逻辑回归参数/>

基于隐私保护并实现全基因组关联分析的联盟学习方法，包括如下步骤：

步骤一，授权研究人员，创建联盟式全基因组关联性分析研究实例，并提交给全局服务器；

步骤二，各数据拥有者和全局服务器协同执行数据预处理，得到预处理过的数据，所述数据拥有者在本地进行涉及原始数据的存储、计算，所述全局服务器仅对脱敏后的中间结果进行汇总和计算，从根源上避免了患者隐私泄露；

步骤三，通过所述预处理过的数据，所述全局服务器执行联盟式主成分分析方法获取主成分方向特征，再执行联盟式广义线性模型，得到针对特定疾病的最相关SNPs，生成分析结果报告；

步骤四，全局服务器将最终结果报告发送给全基因组关联性分析联盟学习的授权研究人员。

所述步骤二，所述数据预处理包括如下步骤：

(1)将所有基因型标记为0、1、2和NC，去除所有MT、X和Y染色体；

(2)删除所有位点得率低于删除阈值的基因型，根据所有所述数据拥有者计算的基因位点得率，生成全局平均得率并返回给所述数据拥有者所有平均得率小于所述删除阈值的基因型位点，所述数据拥有者从本地数据中删除所有所述平均得率小于所述删除阈值基因型位点；

(3)替换标记为NC的基因型，根据每个所述数据拥有者本地计算的基因型频率，计算全局平均基因型频率，每个所述数据拥有者将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型；

(4)去除最小等位基因频率小于去除阈值的基因型数据特征，根据所述基因型频率，计算出全局最小等位基因频率并返回给所有所述数据拥有者所有最小等位基因频率小于所述去除阈值的所述基因型数据特征，所述数据拥有者从本地数据中删除所有所述最小等位基因频率小于所述去除阈值的所述基因型数据特征。

所述步骤三，所述联盟式主成分分析方法在原始基因型数据矩阵上进行人群分层，进而获取具有最高主成分的处理后数据，实现了联盟式计算下，各个数据拥有者的数据隐私保护，同时保证了结果的正确性，包括如下步骤：

(1)联盟式求解全局零均值矩阵，包括如下步骤：

(a)参数设定，共有L个所述数据拥有者，第l个所述数据拥有者的本地基因型数据可以表示为一个N_l×M矩阵所述N_l是列，表示所述数据拥有者l的本地基因型数据样本数，所述M是行，表示本地所述基因型数据特征数量，所述G_l表

示数据拥有者l的本地基因型数据矩阵；

(b)根据所述数据拥有者计算的所述本地基因型数据矩阵的行和矩阵：

计算全局基因型数据平均值矩阵：/>

并将所述全局基因型数据平均值矩阵返回给所述数据拥有者，所述表示所述数据拥有者l的基因型数据行和矩阵，所述/>表示所述数据拥有者l第i列所有数据样本的行和叠加的值，所述N表示所有所述数据拥有者基因型数据总样本数，所述g_i表示全局的第i列所有数据样本的行和叠加的值，所述行由N组成，所述列由M组成，i∈{1,2,…,M}；

(c)根据所述数据拥有者计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述数据拥有者；所述/>表示所述数据拥有者l第i列基因型数据矩阵的向量；

(2)联盟式求解主成分特征映射关系，在每次联盟式迭代过程h∈{1,2,...,H}中，根据所述数据拥有者计算的本地中间结果：计算全局中间结果：/>通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；所述所述h∈{1,2,...H}为联盟计算迭代轮次，所述/>表示一个M×K初始特征向量预估矩阵，所述K表示需要计算的最大特征向量的数量，所述k∈{1,2,...K}，所述H表示最大迭代次数，所述σ表示迭代收敛区间值，所述E_l表示所述数据拥有者l的基因型数据零均值矩阵，所述X表示主成分映射关系特征向量，是一个M×K矩阵，包含最大K个特征向量，所述Λ表示主成分映射关系对角特征值矩阵，是一个K×K对角值为特征值的对角矩阵，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值；

(3)计算主成分方向特征，将所述主成分特征映射关系发送给所有所述数据拥有者，所述数据拥有者将所述主成分特征映射关系与所述原始高维特征相乘，得出主成分方向特征。

所述步骤三，所述联盟式广义线性模型，通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征，包括如下步骤：

(4)根据所述β_H0和所述基于所有所述数据拥有者的本地基因型数据进行似然比检验，获得所述sⁱ的基于卡方分布的显著值p_i(p-value)；

所述本地基因型数据G和所述主成分方向特征的计算均为分布式；每个所述数据拥有者上传本地所述主成分方向特征到所述全局服务器，所述全局服务器将所述主成分方向特征累加生成全局主成分，通过分布式所述逻辑回归分类器，训练所述模型。

本发明的优势和有益效果在于：

解决了现阶段对医疗基因大数据跨平台安全联合研究的问题，提供了一整套基于医疗基因数据安全共享，隐私保护，多平台联盟学习的全基因组关联性分析平台，实现了对患者个人数据的安全隐私保护，避免了在多机构数据协同分析过程所有患者隐私数据的泄漏。

附图说明

图1是本发明的系统结构图。

图2是本发明的研究结果曼哈顿图。

图3是本发明中数据预处理流程图。

图4是本发明中联盟式主成分分析法的数据流示意图。

图5是本发明中联盟式广义线性模型的数据流示意图。

图6是本发明中联盟式广义线性模型原理示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示，基于隐私保护并实现全基因组关联分析的联盟学习系统，包括分别与原始数据终端、授权终端连接的全局服务器，所述全局服务器包括数据预处理模块、主程序模块、请求句柄模块，所述主程序模块包括联盟式主成分分析(Federated PrincipalComponent Analysis)模块、联盟式广义线性模型(Federated Generalized LinearModel)；所述原始数据终端分别与所述数据预处理模块、所述联盟式主成分分析模块、所述联盟式广义线性模型连接，所述授权终端与所述请求句柄模块连接；

所述原始数据终端，用于原始数据的存储、计算，涉及所述原始数据的存储、计算均在所述原始数据终端本地隔离进行，所述全局服务器仅对脱敏后的中间结果进行汇总和计算，从根源上避免了患者隐私泄露；原始数据终端由数据拥有者持有，数据拥有者持有自己的生物医学数据(包括基因数据)并且同意参与全网(暨所有的数据拥有者)共同协作的基于隐私保护技术的全基因组关联性分析研究；

全局服务器是被各个协作方(暨所有的数据拥有者)共同信任的第三方服务器，主要提供以下功能：(1)为被授权研究员提供用户交互系统，接收并处理联盟学习模式下全基因组关联性分析的请求；(2)接收数据拥有者本地计算的中间结果数据，汇总并更新全局计算模型，最终将全局结果发送给此次研究的授权研究人员；

所述授权终端由被授权研究员持有，被授权研究员可以向所述全局服务器提交联盟学习模式下全基因组关联性分析的请求，通过数据拥有者本地计算和全局服务器协同工作，最终得到研究结果。

如图3所示，所述数据预处理模块，包括四个基因数据过滤器；

过滤器一，将所有基因型标记为0、1、2和NC(no call)，去除所有MT(线粒体)、X和Y染色体；

过滤器二，删除所有位点得率(call rate，或称判读率)低于删除阈值(如：98％)的基因型(Genotypes)，根据所有所述原始数据终端计算的基因位点得率，生成全局平均得率(各个本地计算的求和平均值)并返回给所述原始数据终端所有平均得率小于所述删除阈值(如：98％)的基因型位点，所述原始数据终端从本地数据中删除所有所述平均得率小于所述删除阈值(如：98％)基因型位点；所述删除阈值是根据不同应用场景确定的不同的取值范围或数值；

过滤器四，去除最小等位基因频率(Minor Allele Frequency)小于去除阈值(如：0.05/5％)的基因型数据特征(SNPs)，根据所述过滤器三计算的所述基因型频率，计算出全局最小等位基因频率并返回给所有所述原始数据终端所有最小等位基因频率小于所述去除阈值(如：0.05/5％)的所述基因型数据特征(SNPs)，所述原始数据终端从本地数据中删除所有所述最小等位基因频率小于所述去除阈值(如：0.05/5％)的所述基因型数据特征(SNPs)。所述去除阈值是根据不同应用场景确定的不同的取值范围或数值。

如图4所示，所述联盟式主成分分析模块，在原始基因型数据矩阵上进行人群分层(population stratification)，进而获取具有最高主成分的处理后数据，传统主成分分析方法仅针对中心化的数据处理，联盟式主成分分析模块实现了联盟式计算下，各个数据拥有者的数据隐私保护，同时保证了结果的正确性；具体包括：

(1)联盟式求解全局零均值矩阵，具体包括：

(a)参数设定，共有L台所述原始数据终端，第l台所述原始数据终端的本地基因型数据可以表示为一个N_l×M矩阵所述N_l是列，表示所述原始数据终端l的本地基因型数据样本数，所述M是行，表示本地所述基因型数据特征(SNPs)数量，所述G_l表示原始数据终端l的本地基因型数据矩阵；0，1，2代表AA，AB，BB三

种基因型；

(b)根据所述原始数据终端计算的所述本地基因型数据矩阵的行和矩阵：

计算全局基因型数据平均值矩阵：/>并将所述全局基因型数据平均值矩阵返回给所述原始数据终端，所述/>表示所述原始数据终端l的基因型数据行和矩阵，所述/>表示所述原始数据终端l第i列所有数据样本的行和叠加的值，所述N表示所有所述原始数据终端基因型数据总样本数，所述/>表示全局的第i列所有数据样本的行和叠加的值，所述行由N组成，所述列由M组成，i∈{1,2,…,M}；

(2)联盟式求解主成分特征映射关系，在每次联盟式迭代过程h∈{1,2,...,H}中，根据所述原始数据终端计算的本地中间结果：计算全局中间结果：/>通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系(求解最大K个特征对的形式)：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；所述/>所述h∈{1,2,...H}为联盟计算迭代轮次，所述表示一个M×K初始特征向量预估矩阵matrix，所述K表示需要计算的最大特征向量的数量，所述k∈{1,2,...K}，所述H表示最大迭代次数，所述σ表示迭代收敛区间值，所述E_l表示所述原始数据终端l的基因型数据零均值矩阵，所述X表示主成分映射关系特征向量，是一个M×K矩阵，包含最大K个特征向量，所述Λ表示主成分映射关系对角特征值矩阵，是一个K×K对角值为特征值的对角矩阵，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值，通常会有几万列，因此称为高维特征；

如图5所示，所述联盟式广义线性模型，包括全基因组关联分析模块，所述全基因组关联分析模块通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征(SNPs)(分布式的逻辑回归+似然比检验)，具体包括如下：

(1)构建逻辑回归分类器模型，通过训练可以得出逻辑回归参数β＝{β′,β₀}，所述Y是表型(phenotype)数据，是已知的实际结果(例如binary的0/1代表死亡/生存)，所述F为特征矩阵，所述β′为每个特征的权重系数向量，所述β₀为截距，所述截距是当所有所述特征取最低水平值时的事发比odds；

(2)对于所述本地基因型数据G_l，创建Z_l＝{G′_l}，所述G′_l是根据最大K个特征向量映射得出的原始数据终端本地的所述主成分方向特征的矩阵，令F＝Z_l，带入所述逻辑回归分类器模型，训练所述模型得出对应所述Z_l的逻辑回归参数β_H0，所述l表示第l台所述原始数据终端；

(3)对于所述本地基因型数据G_l中每一个基因型数据特征(SNP)值创建新矩阵令F＝Zⁱ _l，带入所述逻辑回归分类器，训练所述模型得出对应所述Zⁱ _l的逻辑回归参数/>

(4)根据所述β_H0和所述基于所有所述原始数据终端的本地基因型数据进行似然比检验(likelihood ratio test，Zeng et.al.，2015)，获得所述sⁱ(每一个SNP)的基于卡方分布的显著值p_i(p-value)；

(5)选取所有基因型数据特征(SNPs)的显著值p＝{p₁,p₂,...,p_M}，输出一组较小的显著值k＜M(p_i越小，越显著)，所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征(SNPs)；例如：p＝{0.7,0.5,0.4,0.2,0.8}，指定个数为2，输出p_MIN＝{0.2,0.4}；如图2所示，检测出了与疾病关联SNP；

如图6所示，所述本地基因型数据G和所述主成分方向特征的计算均为分布式，在原始数据终端本地计算本地中间值，再到联盟式广义线性模型进行汇总；所述(2)或(3)中逻辑回归分类器可以使用以下方式实现联盟式分析：每个所述原始数据终端上传本地所述主成分方向特征到所述全局服务器，所述全局服务器将所述主成分方向特征累加生成(行增)全局主成分(Global Principal Components)，通过分布式所述逻辑回归分类器，训练所述模型(Wu et al.2012b；Gopal and Yang 2013；Yang et al.2019；Hardy et al.2017；Li et al.2016；Jiang 2016；et al.2015)。事实证明，某些分布式逻辑回归分类器(Gopal and Yang 2013)已经被证明实现了无损(0-loss)的联盟式训练。

授权研究人员根据授权终端选择可用的数据拥有者(一个或多个)，创建并提交联盟式全基因组关联性分析研究实例，提交给全局服务器联盟学习请求句柄模块；

各个涉及本次分析的数据拥有者通过原始数据终端，在本地执行数据预处理模块中过滤器一的方法，标记数据，去除特殊染色体；

各个涉及本次分析的原始数据终端和全局服务器协同执行数据预处理模块中过滤器二，三，四的方法，获取预处理过的数据；

使用预处理过的数据，全局服务器执行全基因组关联分析联盟学习主程序模块中的联盟式主成分分析方法(第一，二，三步)获取主成分方向特征，并执行联盟式广义线性模型获取针对特定疾病的最相关SNPs，最终生成分析结果报告；

通过联盟学习请求句柄模块，全局服务器将最终结果报告发送给此次全基因组关联性分析联盟学习的授权终端。

如图1所示，基于隐私保护并实现全基因组关联分析的联盟学习方法，包括如下步骤：

步骤一，授权研究人员选择可用的数据拥有者(一个或多个)，创建联盟式全基因组关联性分析研究实例，并提交给全局服务器联盟学习请求句柄模块；

步骤二，各个涉及本次分析的数据拥有者和全局服务器协同执行数据预处理，得到预处理过的数据，所述数据拥有者在本地进行涉及原始数据的存储、计算，所述全局服务器仅对脱敏后的中间结果进行汇总和计算，从根源上避免了患者隐私泄露；数据拥有者持有自己的生物医学数据(包括基因数据)并且同意参与全网(暨所有的数据拥有者)共同协作的基于隐私保护技术的全基因组关联性分析研究；全局服务器是被各个协作方(暨所有的数据拥有者)共同信任的第三方服务器，主要提供以下功能：(1)为被授权研究员提供用户交互系统，接收并处理联盟学习模式下全基因组关联性分析的请求；(2)接收数据拥有者本地计算的中间结果数据，汇总并更新全局计算模型，最终将全局结果发送给此次研究的授权研究人员；

步骤四，通过联盟学习请求句柄模块，全局服务器将最终结果报告发送给此次全基因组关联性分析联盟学习的授权研究人员。被授权的研究人员可以向所述全局服务器提交联盟学习模式下全基因组关联性分析的请求，通过数据拥有者本地计算和全局服务器协同工作，最终得到研究结果。

如图3所示，所述步骤二，所述数据预处理包括如下步骤：

(1)将所有基因型标记为0、1、2和NC(no call)，去除所有MT(线粒体)、X和Y染色体；

(2)删除所有位点得率(call rate，或称判读率)低于删除阈值(如：98％)的基因型(Genotypes)，根据所有所述数据拥有者计算的基因位点得率，生成全局平均得率(各个本地计算的求和平均值)并返回给所述数据拥有者所有平均得率小于所述删除阈值(如：98％)的基因型位点，所述数据拥有者从本地数据中删除所有所述平均得率小于所述删除阈值(如：98％)基因型位点；所述删除阈值是根据不同应用场景确定的不同的取值范围或数值；

(4)去除最小等位基因频率(Minor Allele Frequency)小于去除阈值(如：0.05/5％)的基因型数据特征(SNPs)，根据步骤(3)计算的所述基因型频率，计算出全局最小等位基因频率并返回给所有所述数据拥有者所有最小等位基因频率小于所述去除阈值(如：0.05/5％)的所述基因型数据特征(SNPs)，所述数据拥有者从本地数据中删除所有所述最小等位基因频率小于所述去除阈值(如：0.05/5％)的所述基因型数据特征(SNPs)。所述去除阈值是根据不同应用场景确定的不同的取值范围或数值。

如图4所示，所述步骤三，所述联盟式主成分分析方法在原始基因型数据矩阵上进行人群分层(population stratification)，进而获取具有最高主成分的处理后数据，传统主成分分析方法仅针对中心化的数据处理，联盟式主成分分析模块实现了联盟式计算下，各个数据拥有者的数据隐私保护，同时保证了结果的正确性，包括如下步骤：

(1)联盟式求解全局零均值矩阵，包括如下步骤：

(a)参数设定，共有L个所述数据拥有者，第l个所述数据拥有者的本地基因型数据可以表示为一个N_l×M矩阵所述N_l是列，表示所述数据拥有者l的本地基因型数据样本数，所述M是行，表示本地所述基因型数据特征(SNPs)数量，所述G_l表示数据拥有者l的本地基因型数据矩阵；0，1，2代表AA，AB，BB三种基因型；

(b)根据所述数据拥有者计算的所述本地基因型数据矩阵的行和矩阵：计算全局基因型数据平均值矩阵：/>并将所述全局基因型数据平均值矩阵返回给所述数据拥有者，所述/>表示所述数据拥有者l的基因型数据行和矩阵，所述/>表示所述数据拥有者l第i列所有数据样本的行和叠加的值，所述N表示所有所述数据拥有者基因型数据总样本数，所述/>表示全局的第i列所有数据样本的行和叠加的值，所述行由N组成，所述列由M组成，i∈{1,2,…,M}；

(2)联盟式求解主成分特征映射关系，在每次联盟式迭代过程h∈{1,2,...,H}中，根据所述数据拥有者计算的本地中间结果：计算全局中间结果：/>通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系(求解最大K个特征对的形式)：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；所述/>所述h∈{1,2,...H}为联盟计算迭代轮次，所述表示一个M×K初始特征向量预估矩阵matrix，所述K表示需要计算的最大特征向量的数量，所述k∈{1,2,...K}，所述H表示最大迭代次数，所述σ表示迭代收敛区间值，所述E_l表示所述数据拥有者l的基因型数据零均值矩阵，所述X表示主成分映射关系特征向量，是一个M×K矩阵，包含最大K个特征向量，所述Λ表示主成分映射关系对角特征值矩阵，是一个K×K对角值为特征值的对角矩阵，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值，通常会有几万列，因此称为高维特征；

如图5所示，所述步骤三，所述联盟式广义线性模型，通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征(SNPs)(分布式的逻辑回归+似然比检验)，包括如下步骤：

(2)对于所述本地基因型数据G_l，创建Z_l＝{G_l′}，所述G_l′是根据最大K个特征向量映射得出的数据拥有者本地的所述主成分方向特征的矩阵，令F＝Z_l，带入所述逻辑回归分类器模型，训练所述模型得出对应所述Z_l的逻辑回归参数β_H0，所述l表示第l个所述数据拥有者；

(4)根据所述β_H0和所述基于所有所述数据拥有者的本地基因型数据进行似然比检验(likelihood ratio test，Zeng et.al.，2015)，获得所述sⁱ(每一个SNP)的基于卡方分布的显著值p_i(p-value)；

如图6所示，所述本地基因型数据G和所述主成分方向特征的计算均为分布式，在数据拥有者本地计算本地中间值，再到联盟式广义线性模型进行汇总；所述(2)或(3)中逻辑回归分类器可以使用以下方式实现联盟式分析：每个所述数据拥有者上传本地所述主成分方向特征到所述全局服务器，所述全局服务器将所述主成分方向特征累加生成(行增)全局主成分(Global Principal Components)，通过分布式所述逻辑回归分类器，训练所述模型(Wu etal.2012b；Gopal and Yang 2013；Yang et al.2019；Hardy et al.2017；Li etal.2016；Jiang 2016； et al.2015)。事实证明，某些分布式逻辑回归分类器(Gopal and Yang 2013)已经被证明实现了无损(0-loss)的联盟式训练。/>

Claims

1.基于隐私保护并实现全基因组关联分析的联盟学习系统，包括分别与原始数据终端、授权终端连接的全局服务器，其特征在于，所述全局服务器包括数据预处理模块、主程序模块、请求句柄模块，所述主程序模块包括联盟式主成分分析模块、联盟式广义线性模型；所述原始数据终端分别与所述数据预处理模块、所述联盟式主成分分析模块、所述联盟式广义线性模型连接，所述授权终端与所述请求句柄模块连接；

所述原始数据终端，用于原始数据的存储、计算，涉及所述原始数据的存储、计算均在所述原始数据终端本地隔离进行，所述全局服务器仅对脱敏后的中间结果进行汇总和计算；

所述请求句柄模块，用于接收所述授权终端的全基因组关联性分析的联盟学习请求并返回联盟学习结果报告；

所述联盟式主成分分析模块，构建原始数据终端的本地基因型数据矩阵，矩阵的列表示所述原始数据终端的本地基因型数据样本数，行表示本地基因型数据特征数量，每行特征叠加的值为行和叠加值，所有行和叠加值构成行和矩阵；根据所有原始数据终端本地基因型数据矩阵的行和矩阵，计算所有原始数据终端的数据样本的行和叠加值的均值，得到全局基因型数据平均值矩阵；基于本地原始数据终端与全局基因型数据平均值矩阵中，相应的行和叠加值的差，得到原始数据终端计算的本地零均值矩阵；根据所述原始数据终端计算的本地中间结果计算全局中间结果，通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；X表示主成分映射关系特征向量，Λ表示主成分映射关系对角特征值矩阵，X⁽¹⁾表示初始特征向量预估矩阵，K表示需要计算的最大特征向量的数量，k∈{1,2,...K}，σ表示迭代收敛区间值，E_l表示原始数据终端l的基因型数据零均值矩阵，h∈{1,2,...H}为联盟计算迭代轮次，H表示最大迭代次数，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值；将所述主成分特征映射关系发送给所有所述原始数据终端，原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘，得出主成分方向特征；

所述联盟式广义线性模型，通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征。

2.根据权利要求1所述的基于隐私保护并实现全基因组关联分析的联盟学习系统，其特征在于，所述数据预处理模块，包括四个基因数据过滤器；

3.根据权利要求1所述的基于隐私保护并实现全基因组关联分析的联盟学习系统，其特征在于，所述联盟式主成分分析模块，在原始基因型数据矩阵上进行人群分层，进而获取具有最高主成分的处理后数据；具体包括：

(1)联盟式求解全局零均值矩阵，具体包括：

(a)参数设定，共有L台所述原始数据终端，第l台所述原始数据终端的本地基因型数据可以表示为一个N_l×M矩阵所述N_l是列数，表示所述原始数据终端l的本地基因型数据样本数，所述M是行数，表示本地所述基因型数据特征数量，所述G_l表示原始数据终端l的本地基因型数据矩阵；

(b)根据所述原始数据终端计算的所述本地基因型数据矩阵的行和矩阵：计算全局基因型数据平均值矩阵：/>并将所述全局基因型数据平均值矩阵返回给所述原始数据终端，所述/>表示所述原始数据终端l的基因型数据行和矩阵，所述/>表示所述原始数据终端l第i列所有数据样本的行和叠加的值，所述N表示所有所述原始数据终端基因型数据总样本数，所述g_i表示全局的第i列所有数据样本的行和叠加的值，全局基因型数据的行由N个值组成，列由M个值组成，i∈{1,2,…,M}；

(2)联盟式求解主成分特征映射关系，在每次联盟式迭代过程h∈{1,2,...,H}中，根据所述原始数据终端计算的本地中间结果：计算全局中间结果：通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；所述所述h∈{1,2,...H}为联盟计算迭代轮次，所述/>表示一个M×K初始特征向量预估矩阵，所述K表示需要计算的最大特征向量的数量，所述k∈{1,2,...K}，所述H表示最大迭代次数，所述σ表示迭代收敛区间值，所述E_l表示所述原始数据终端l的基因型数据零均值矩阵，所述X表示主成分映射关系特征向量，是一个M×K矩阵，包含最大K个特征向量，所述Λ表示主成分映射关系对角特征值矩阵，是一个K×K对角值为特征值的对角矩阵，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值；

4.根据权利要求3所述的基于隐私保护并实现全基因组关联分析的联盟学习系统，其特征在于，所述联盟式广义线性模型，包括全基因组关联分析模块，所述全基因组关联分析模块通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征，具体包括如下：

(4)根据所述β_H0和所述基于所有所述原始数据终端的本地基因型数据进行似然比检验，获得基因型数据特征值sⁱ的基于卡方分布的显著值p_i；

(5)选取所有基因型数据特征的显著值p＝{p₁,p₂,...,p_M}，输出一组较小的显著值所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征；

5.根据权利要求4所述的基于隐私保护并实现全基因组关联分析的联盟学习系统，其特征在于，所述(1)构建逻辑回归分类器模型，通过训练可以得出逻辑回归参数β＝{β′,β₀}，所述Y是表型数据，是已知的实际结果，所述F为特征矩阵，所述β′为每个特征的权重系数向量，所述β₀为截距，所述截距是当所有所述特征取最低水平值时的事发比；所述(2)对于所述G_l，创建Z_l＝{G_l′}，所述G_l′是所述主成分方向特征的矩阵，令F＝Z_l，带入所述逻辑回归分类器模型，训练所述模型得出对应所述Z_l的逻辑回归参数β_H0，所述l表示第l个所述原始数据终端；所述(3)对于所述G_l中每一个基因型数据特征值/>创建新矩阵/>令F＝Zⁱ _l，带入所述逻辑回归分类器，训练所述模型得出对应所述Zⁱ _l的逻辑回归参数/>

6.基于隐私保护并实现全基因组关联分析的联盟学习方法，其特征在于，包括如下步骤：

步骤二，各数据拥有者和全局服务器协同执行数据预处理，得到预处理过的数据，所述数据拥有者在本地进行涉及原始数据的存储、计算，所述全局服务器仅对脱敏后的中间结果进行汇总和计算；

构建原始数据终端的本地基因型数据矩阵，矩阵的列表示所述原始数据终端的本地基因型数据样本数，行表示本地基因型数据特征数量，每行特征叠加的值为行和叠加值，所有行和叠加值构成行和矩阵；根据所有原始数据终端本地基因型数据矩阵的行和矩阵，计算所有原始数据终端的数据样本的行和叠加值的均值，得到全局基因型数据平均值矩阵；基于本地原始数据终端与全局基因型数据平均值矩阵中，相应的行和叠加值的差，得到原始数据终端计算的本地零均值矩阵；根据所述原始数据终端计算的本地中间结果计算全局中间结果，通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；/>X表示主成分映射关系特征向量，Λ表示主成分映射关系对角特征值矩阵，X⁽¹⁾表示初始特征向量预估矩阵，K表示需要计算的最大特征向量的数量，k∈{1,2,...K}，σ表示迭代收敛区间值，E_l表示原始数据终端l的基因型数据零均值矩阵，h∈{1,2,...H}为联盟计算迭代轮次，H表示最大迭代次数，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值；将所述主成分特征映射关系发送给所有所述原始数据终端，原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘，得出主成分方向特征；通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征；

7.根据权利要求6所述的基于隐私保护并实现全基因组关联分析的联盟学习方法，其特征在于，所述步骤二，所述数据预处理包括如下步骤：

8.根据权利要求6所述的基于隐私保护并实现全基因组关联分析的联盟学习方法，其特征在于，所述步骤三，所述联盟式主成分分析方法在原始基因型数据矩阵上进行人群分层，进而获取具有最高主成分的处理后数据，包括如下步骤：

(1)联盟式求解全局零均值矩阵，包括如下步骤：

(a)参数设定，共有L个所述数据拥有者，第l个所述数据拥有者的本地基因型数据可以表示为一个N_l×M矩阵所述N_l是列数，表示所述数据拥有者l的本地基因型数据样本数，所述M是行数，表示本地所述基因型数据特征数量，所述G_l表示数据拥有者l的本地基因型数据矩阵；

(b)根据所述数据拥有者计算的所述本地基因型数据矩阵的行和矩阵：计算全局基因型数据平均值矩阵：/>并将所述全局基因型数据平均值矩阵返回给所述数据拥有者，所述/>表示所述数据拥有者l的基因型数据行和矩阵，所述/>表示所述数据拥有者l第i列所有数据样本的行和叠加的值，所述N表示所有所述数据拥有者基因型数据总样本数，所述/>表示全局的第i列所有数据样本的行和叠加的值，全局基因型数据的行由N个值组成，所述列由M个值组成，i∈{1,2,…,M}；

(2)联盟式求解主成分特征映射关系，在每次联盟式迭代过程h∈{1,2,...,H}中，根据所述数据拥有者计算的本地中间结果：计算全局中间结果：通过Rayleigh–Ritz步骤逐步收敛，求得用于映射原始高维特征到主成分特征方向的映射关系：[X,Λ]＝GSP_Execute(X⁽¹⁾,K,σ)；所述所述h∈{1,2,...H}为联盟计算迭代轮次，所述/>表示一个M×K初始特征向量预估矩阵，所述K表示需要计算的最大特征向量的数量，所述k∈{1,2,...K}，所述H表示最大迭代次数，所述σ表示迭代收敛区间值，所述E_l表示所述数据拥有者l的基因型数据零均值矩阵，所述X表示主成分映射关系特征向量，是一个M×K矩阵，包含最大K个特征向量，所述Λ表示主成分映射关系对角特征值矩阵，是一个K×K对角值为特征值的对角矩阵，所述原始高维特征是指原始基因型矩阵的每一个列，该列代表一个特征的所有样本的取值；

9.根据权利要求8所述的基于隐私保护并实现全基因组关联分析的联盟学习方法，其特征在于，所述步骤三，所述联盟式广义线性模型，通过所述主成分方向特征，得到针对特定疾病的最相关基因型数据特征，包括如下步骤：

(4)根据所述β_H0和所述基于所有所述数据拥有者的本地基因型数据进行似然比检验，获得基因型数据特征值sⁱ的基于卡方分布的显著值p_i；

(5)选取所有基因型数据特征的显著值p＝{p₁,p₂,...,p_M}，输出一组较小的显著值k’＜M，所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征；

10.根据权利要求9所述的基于隐私保护并实现全基因组关联分析的联盟学习方法，其特征在于，所述(1)构建逻辑回归分类器模型，通过训练可以得出逻辑回归参数β＝{β′,β₀}，所述Y是表型数据，是已知的实际结果，所述F为特征矩阵，所述β′为每个特征的权重系数向量，所述β₀为截距，所述截距是当所有所述特征取最低水平值时的事发比；所述(2)对于所述G_l，创建Z_l＝{G_l′}，所述G_l′是所述主成分方向特征的矩阵，令F＝Z_l，带入所述逻辑回归分类器模型，训练所述模型得出对应所述Z_l的逻辑回归参数β_H0，所述l表示第l个所述原始数据终端；所述(3)对于所述G_l中每一个基因型数据特征值/>创建新矩阵/>

令带入所述逻辑回归分类器，训练所述模型得出对应所述Zⁱ _l的逻辑回归参数