CN113517027B - 基于隐私保护并实现全基因组关联分析的联盟学习系统及方法 - Google Patents
基于隐私保护并实现全基因组关联分析的联盟学习系统及方法 Download PDFInfo
- Publication number
- CN113517027B CN113517027B CN202010273642.4A CN202010273642A CN113517027B CN 113517027 B CN113517027 B CN 113517027B CN 202010273642 A CN202010273642 A CN 202010273642A CN 113517027 B CN113517027 B CN 113517027B
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- genotype
- global
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012098 association analyses Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000011160 research Methods 0.000 claims abstract description 17
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 189
- 238000007477 logistic regression Methods 0.000 claims description 72
- 238000013507 mapping Methods 0.000 claims description 56
- 108700028369 Alleles Proteins 0.000 claims description 28
- 238000012217 deletion Methods 0.000 claims description 20
- 230000037430 deletion Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 201000010099 disease Diseases 0.000 claims description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 18
- 108090000623 proteins and genes Proteins 0.000 claims description 18
- 238000000513 principal component analysis Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000003657 Likelihood-ratio test Methods 0.000 claims description 10
- 230000002068 genetic effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 210000001766 X chromosome Anatomy 0.000 claims description 6
- 210000002593 Y chromosome Anatomy 0.000 claims description 6
- 238000013475 authorization Methods 0.000 claims description 4
- 238000002955 isolation Methods 0.000 claims description 3
- 238000013517 stratification Methods 0.000 claims description 3
- 238000000586 desensitisation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 239000002773 nucleotide Substances 0.000 description 5
- 125000003729 nucleotide group Chemical group 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000003470 mitochondria Anatomy 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于隐私保护并实现全基因组关联分析的联盟学习系统及方法,系统包括分别与原始数据终端、授权终端连接的全局服务器,全局服务器包括数据预处理模块、主程序模块、请求句柄模块,主程序模块包括联盟式主成分分析模块、联盟式广义线性模型;方法包括如下步骤:步骤一,授权研究人员,创建联盟式全基因组关联性分析研究实例,并提交给全局服务器;步骤二,各数据拥有者和全局服务器协同执行数据预处理,得到预处理过的数据;步骤三,通过预处理过的数据,全局服务器执行联盟式主成分分析方法,再执行联盟式广义线性模型,生成分析结果报告;步骤四,全局服务器将最终结果报告发送给授权研究人员。
Description
技术领域
本发明涉及全基因组关联分析技术领域,尤其是涉及了基于隐私保护并实现全基因组关联分析的联盟学习系统。
背景技术
全基因组关联分析(Genome-Wide Association Studies)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性SNP(Single Nucleotide Polymorphism),从中筛选出与疾病相关的基因型数据特征(SNPs)。统计学上有效的全基因组关联分析结果需要大量的和该疾病相关的单核苷酸多态性的基因数据。单个研究机构很难拥有符合数量要求的基因数据,因此跨机构的数据共享合作势在必行。然而涉及多个研究机构的数据共享合作带来了的更多挑战,其中最大的挑战就是对基因数据的隐私安全保护。例如,基因数据共享过程中缺乏对未脱敏数据的安全防护标准。
近年来,全球各个国家和地区均对用户数据,尤其是医疗数据的隐私问题进行了立法,例如我国于2017年6月1日正式实施了《中华人民共和国网络安全法》。再如欧盟于2018年5月25日颁布并实施了通用数据保护条例(General Data ProtectionRegulation),并且缺乏对患者医疗数据隐私性,完整性,以及可用性的相应保护措施。
现有跨机构医疗数据共享服务尚处于不成熟阶段,缺乏对多方原始数据的隐私保护,尚未形成有体系的标准和保护措施。严格的法律,缺失的保护体系和标准,造成大量医院,医疗研究机构等医疗数据拥有者不愿或不敢分享其拥有的数据资源,从而严重影响了互联网大数据潮流下医疗学科的快速进步和发展。
中国专利一种疾病关联基因组合的统计方法及系统,申请号201810134414.1,该统计方法采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性,根据其显著性和阈值,筛选出与疾病关联的单核苷酸多态性位点。该发明不涉及多个机构基因数据的共享协同分析,同时没有考虑基因数据的隐私保护。
中国专利一种改进的基于通路的全基因组关联分析算法,申请号201510096276.9,使用主成分分析法和最大均值法来构建基因统计量,剔除了SNP之间的互作效应,部分解决了基因内部SNP连锁的问题。该发明不涉及多个机构基因数据的共享协同分析,同时没有考虑基因数据的隐私保护。
中国专利用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备,申请号201680028090.2,通过与隐私首选项存储库和策略存储库的结合来设定访问此类信息的一系列标准和规则,同时通过适当授权的当事人或应用程序,广泛共享这些数据。该发明强调了对信息学数据的存储,查看,分析的授权保护标准。但是不涉及多机构全基因组关联分析协同工作下的隐私保护(暨所有数据拥有者不共享任何原始数据的协同分析研究),没有从根本上解决隐私基因数据共享的隐私保护。
发明内容
为解决现有技术的不足,实现多机构全基因组关联分析协同工作下的隐私保护的目的,本发明采用如下的技术方案:
基于隐私保护并实现全基因组关联分析的联盟学习系统,包括分别与原始数据终端、授权终端连接的全局服务器,所述全局服务器包括数据预处理模块、主程序模块、请求句柄模块,所述主程序模块包括联盟式主成分分析模块、联盟式广义线性模型;所述原始数据终端分别与所述数据预处理模块、所述联盟式主成分分析模块、所述联盟式广义线性模型连接,所述授权终端与所述请求句柄模块连接;
所述原始数据终端,用于原始数据的存储、计算,涉及所述原始数据的存储、计算均在所述原始数据终端本地隔离进行,所述全局服务器仅对脱敏后的中间结果进行汇总和计算,从根源上避免了患者隐私泄露;
所述请求句柄模块,用于接收所述授权终端的全基因组关联性分析的联盟学习请求并返回联盟学习结果报告。
所述数据预处理模块,包括四个基因数据过滤器;
过滤器一,将所有基因型标记为0、1、2和NC,去除所有MT、X和Y染色体;
过滤器二,删除所有位点得率低于删除阈值的基因型,根据所有所述原始数据终端计算的基因位点得率,生成全局平均得率并返回给所述原始数据终端所有平均得率小于所述删除阈值的基因型位点,所述原始数据终端从本地数据中删除所有所述平均得率小于所述删除阈值基因型位点;
过滤器三,替换标记为NC的基因型,根据每台所述原始数据终端本地计算的基因型频率,计算全局平均基因型频率,每台所述原始数据终端将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型;
过滤器四,去除最小等位基因频率小于去除阈值的基因型数据特征,根据所述基因型频率,计算出全局最小等位基因频率并返回给所有所述原始数据终端所有最小等位基因频率小于所述去除阈值的所述基因型数据特征,所述原始数据终端从本地数据中删除所有所述最小等位基因频率小于所述去除阈值的所述基因型数据特征。
所述联盟式主成分分析模块,在原始基因型数据矩阵上进行人群分层,进而获取具有最高主成分的处理后数据,实现了联盟式计算下,各个数据拥有者的数据隐私保护,同时保证了结果的正确性;具体包括:
(1)联盟式求解全局零均值矩阵,具体包括:
(a)参数设定,共有L台所述原始数据终端,第l台所述原始数据终端的本地基因型数据可以表示为一个Nl×M矩阵所述Nl是列,表示所述原始数据终端l的本地基因型数据样本数,所述M是行,表示本地所述基因型数据特征数量,所述Gl表示原始数据终端l的本地基因型数据矩阵;
(b)根据所述原始数据终端计算的所述本地基因型数据矩阵的行和矩阵:计算全局基因型数据平均值矩阵:/>并将所述全局基因型数据平均值矩阵返回给所述原始数据终端,所述/>表示所述原始数据终端l的基因型数据行和矩阵,所述/>表示所述原始数据终端l第i列所有数据样本的行和叠加的值,所述N表示所有所述原始数据终端基因型数据总样本数,所述/>表示全局的第i列所有数据样本的行和叠加的值,所述行由N组成,所述列由M组成,i∈{1,2,…,M};
(c)根据所述原始数据终端计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述原始数据终端;所述/>表示所述原始数据终端l第i列基因型数据矩阵的向量;
(2)联盟式求解主成分特征映射关系,在每次联盟式迭代过程h∈{1,2,...,H}中,根据所述原始数据终端计算的本地中间结果:计算全局中间结果:/>通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系:[X,Λ]=GSP_Execute(X(1),K,σ);所述所述h∈{1,2,...H}为联盟计算迭代轮次,所述/>表示一个M×K初始特征向量预估矩阵,所述K表示需要计算的最大特征向量的数量,所述k∈{1,2,...K},所述H表示最大迭代次数,所述σ表示迭代收敛区间值,所述El表示所述原始数据终端l的基因型数据零均值矩阵,所述X表示主成分映射关系特征向量,是一个M×K矩阵,包含最大K个特征向量,所述Λ表示主成分映射关系对角特征值矩阵,是一个K×K对角值为特征值的对角矩阵,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值;
(3)计算主成分方向特征,将所述主成分特征映射关系发送给所有所述原始数据终端,所述原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征。
所述联盟式广义线性模型,包括全基因组关联分析模块,所述全基因组关联分析模块通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征,具体包括如下:
(1)构建逻辑回归分类器模型,通过输入特征矩阵、表型数据,训练得到逻辑回归参数;
(2)将所述主成分方向特征的矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数βH0;
(3)将所述本地基因型数据中每一个基因型数据特征值与所述主成分方向特征的矩阵,创建的新矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数
(4)根据所述βH0和所述基于所有所述原始数据终端的本地基因型数据进行似然比检验,获得所述si的基于卡方分布的显著值pi(p-value);
(5)选取所有基因型数据特征的显著值p={p1,p2,...,pM},输出一组较小的显著值k<M,所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征;
所述本地基因型数据G和所述主成分方向特征的计算均为分布式;每个所述原始数据终端上传本地所述主成分方向特征到所述全局服务器,所述全局服务器将所述主成分方向特征累加生成全局主成分,通过分布式所述逻辑回归分类器,训练所述模型。
所述(1)构建逻辑回归分类器模型,通过训练可以得出逻辑回归参数β={β′,β0},所述Y是表型数据,是已知的实际结果,所述F为特征矩阵,所述β′为每个特征的权重系数向量,所述β0为截距,所述截距是当所有所述特征取最低水平值时的事发比;所述(2)对于所述本地基因型数据Gl,创建Zl={Gl′},所述Gl′是所述主成分方向特征的矩阵,令F=Zl,带入所述逻辑回归分类器模型,训练所述模型得出对应所述Zl的逻辑回归参数βH0,所述l表示第l个所述数据拥有者;所述(3)对于所述本地基因型数据Gl中每一个基因型数据特征值/>创建新矩阵/>令F=Zi l,带入所述逻辑回归分类器,训练所述模型得出对应所述Zi l的逻辑回归参数/>
基于隐私保护并实现全基因组关联分析的联盟学习方法,包括如下步骤:
步骤一,授权研究人员,创建联盟式全基因组关联性分析研究实例,并提交给全局服务器;
步骤二,各数据拥有者和全局服务器协同执行数据预处理,得到预处理过的数据,所述数据拥有者在本地进行涉及原始数据的存储、计算,所述全局服务器仅对脱敏后的中间结果进行汇总和计算,从根源上避免了患者隐私泄露;
步骤三,通过所述预处理过的数据,所述全局服务器执行联盟式主成分分析方法获取主成分方向特征,再执行联盟式广义线性模型,得到针对特定疾病的最相关SNPs,生成分析结果报告;
步骤四,全局服务器将最终结果报告发送给全基因组关联性分析联盟学习的授权研究人员。
所述步骤二,所述数据预处理包括如下步骤:
(1)将所有基因型标记为0、1、2和NC,去除所有MT、X和Y染色体;
(2)删除所有位点得率低于删除阈值的基因型,根据所有所述数据拥有者计算的基因位点得率,生成全局平均得率并返回给所述数据拥有者所有平均得率小于所述删除阈值的基因型位点,所述数据拥有者从本地数据中删除所有所述平均得率小于所述删除阈值基因型位点;
(3)替换标记为NC的基因型,根据每个所述数据拥有者本地计算的基因型频率,计算全局平均基因型频率,每个所述数据拥有者将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型;
(4)去除最小等位基因频率小于去除阈值的基因型数据特征,根据所述基因型频率,计算出全局最小等位基因频率并返回给所有所述数据拥有者所有最小等位基因频率小于所述去除阈值的所述基因型数据特征,所述数据拥有者从本地数据中删除所有所述最小等位基因频率小于所述去除阈值的所述基因型数据特征。
所述步骤三,所述联盟式主成分分析方法在原始基因型数据矩阵上进行人群分层,进而获取具有最高主成分的处理后数据,实现了联盟式计算下,各个数据拥有者的数据隐私保护,同时保证了结果的正确性,包括如下步骤:
(1)联盟式求解全局零均值矩阵,包括如下步骤:
(a)参数设定,共有L个所述数据拥有者,第l个所述数据拥有者的本地基因型数据可以表示为一个Nl×M矩阵所述Nl是列,表示所述数据拥有者l的本地基因型数据样本数,所述M是行,表示本地所述基因型数据特征数量,所述Gl表
示数据拥有者l的本地基因型数据矩阵;
(b)根据所述数据拥有者计算的所述本地基因型数据矩阵的行和矩阵:
计算全局基因型数据平均值矩阵:/>
并将所述全局基因型数据平均值矩阵返回给所述数据拥有者,所述表示所述数据拥有者l的基因型数据行和矩阵,所述/>表示所述数据拥有者l第i列所有数据样本的行和叠加的值,所述N表示所有所述数据拥有者基因型数据总样本数,所述gi表示全局的第i列所有数据样本的行和叠加的值,所述行由N组成,所述列由M组成,i∈{1,2,…,M};
(c)根据所述数据拥有者计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述数据拥有者;所述/>表示所述数据拥有者l第i列基因型数据矩阵的向量;
(2)联盟式求解主成分特征映射关系,在每次联盟式迭代过程h∈{1,2,...,H}中,根据所述数据拥有者计算的本地中间结果:计算全局中间结果:/>通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系:[X,Λ]=GSP_Execute(X(1),K,σ);所述所述h∈{1,2,...H}为联盟计算迭代轮次,所述/>表示一个M×K初始特征向量预估矩阵,所述K表示需要计算的最大特征向量的数量,所述k∈{1,2,...K},所述H表示最大迭代次数,所述σ表示迭代收敛区间值,所述El表示所述数据拥有者l的基因型数据零均值矩阵,所述X表示主成分映射关系特征向量,是一个M×K矩阵,包含最大K个特征向量,所述Λ表示主成分映射关系对角特征值矩阵,是一个K×K对角值为特征值的对角矩阵,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值;
(3)计算主成分方向特征,将所述主成分特征映射关系发送给所有所述数据拥有者,所述数据拥有者将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征。
所述步骤三,所述联盟式广义线性模型,通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征,包括如下步骤:
(1)构建逻辑回归分类器模型,通过输入特征矩阵、表型数据,训练得到逻辑回归参数;
(2)将所述主成分方向特征的矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数βH0;
(3)将所述本地基因型数据中每一个基因型数据特征值与所述主成分方向特征的矩阵,创建的新矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数
(4)根据所述βH0和所述基于所有所述数据拥有者的本地基因型数据进行似然比检验,获得所述si的基于卡方分布的显著值pi(p-value);
(5)选取所有基因型数据特征的显著值p={p1,p2,...,pM},输出一组较小的显著值k<M,所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征;
所述本地基因型数据G和所述主成分方向特征的计算均为分布式;每个所述数据拥有者上传本地所述主成分方向特征到所述全局服务器,所述全局服务器将所述主成分方向特征累加生成全局主成分,通过分布式所述逻辑回归分类器,训练所述模型。
所述(1)构建逻辑回归分类器模型,通过训练可以得出逻辑回归参数β={β′,β0},所述Y是表型数据,是已知的实际结果,所述F为特征矩阵,所述β′为每个特征的权重系数向量,所述β0为截距,所述截距是当所有所述特征取最低水平值时的事发比;所述(2)对于所述本地基因型数据Gl,创建Zl={Gl′},所述Gl′是所述主成分方向特征的矩阵,令F=Zl,带入所述逻辑回归分类器模型,训练所述模型得出对应所述Zl的逻辑回归参数βH0,所述l表示第l个所述数据拥有者;所述(3)对于所述本地基因型数据Gl中每一个基因型数据特征值/>创建新矩阵/>令F=Zi l,带入所述逻辑回归分类器,训练所述模型得出对应所述Zi l的逻辑回归参数/>
本发明的优势和有益效果在于:
解决了现阶段对医疗基因大数据跨平台安全联合研究的问题,提供了一整套基于医疗基因数据安全共享,隐私保护,多平台联盟学习的全基因组关联性分析平台,实现了对患者个人数据的安全隐私保护,避免了在多机构数据协同分析过程所有患者隐私数据的泄漏。
附图说明
图1是本发明的系统结构图。
图2是本发明的研究结果曼哈顿图。
图3是本发明中数据预处理流程图。
图4是本发明中联盟式主成分分析法的数据流示意图。
图5是本发明中联盟式广义线性模型的数据流示意图。
图6是本发明中联盟式广义线性模型原理示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,基于隐私保护并实现全基因组关联分析的联盟学习系统,包括分别与原始数据终端、授权终端连接的全局服务器,所述全局服务器包括数据预处理模块、主程序模块、请求句柄模块,所述主程序模块包括联盟式主成分分析(Federated PrincipalComponent Analysis)模块、联盟式广义线性模型(Federated Generalized LinearModel);所述原始数据终端分别与所述数据预处理模块、所述联盟式主成分分析模块、所述联盟式广义线性模型连接,所述授权终端与所述请求句柄模块连接;
所述原始数据终端,用于原始数据的存储、计算,涉及所述原始数据的存储、计算均在所述原始数据终端本地隔离进行,所述全局服务器仅对脱敏后的中间结果进行汇总和计算,从根源上避免了患者隐私泄露;原始数据终端由数据拥有者持有,数据拥有者持有自己的生物医学数据(包括基因数据)并且同意参与全网(暨所有的数据拥有者)共同协作的基于隐私保护技术的全基因组关联性分析研究;
所述请求句柄模块,用于接收所述授权终端的全基因组关联性分析的联盟学习请求并返回联盟学习结果报告。
全局服务器是被各个协作方(暨所有的数据拥有者)共同信任的第三方服务器,主要提供以下功能:(1)为被授权研究员提供用户交互系统,接收并处理联盟学习模式下全基因组关联性分析的请求;(2)接收数据拥有者本地计算的中间结果数据,汇总并更新全局计算模型,最终将全局结果发送给此次研究的授权研究人员;
所述授权终端由被授权研究员持有,被授权研究员可以向所述全局服务器提交联盟学习模式下全基因组关联性分析的请求,通过数据拥有者本地计算和全局服务器协同工作,最终得到研究结果。
如图3所示,所述数据预处理模块,包括四个基因数据过滤器;
过滤器一,将所有基因型标记为0、1、2和NC(no call),去除所有MT(线粒体)、X和Y染色体;
过滤器二,删除所有位点得率(call rate,或称判读率)低于删除阈值(如:98%)的基因型(Genotypes),根据所有所述原始数据终端计算的基因位点得率,生成全局平均得率(各个本地计算的求和平均值)并返回给所述原始数据终端所有平均得率小于所述删除阈值(如:98%)的基因型位点,所述原始数据终端从本地数据中删除所有所述平均得率小于所述删除阈值(如:98%)基因型位点;所述删除阈值是根据不同应用场景确定的不同的取值范围或数值;
过滤器三,替换标记为NC的基因型,根据每台所述原始数据终端本地计算的基因型频率,计算全局平均基因型频率,每台所述原始数据终端将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型;
过滤器四,去除最小等位基因频率(Minor Allele Frequency)小于去除阈值(如:0.05/5%)的基因型数据特征(SNPs),根据所述过滤器三计算的所述基因型频率,计算出全局最小等位基因频率并返回给所有所述原始数据终端所有最小等位基因频率小于所述去除阈值(如:0.05/5%)的所述基因型数据特征(SNPs),所述原始数据终端从本地数据中删除所有所述最小等位基因频率小于所述去除阈值(如:0.05/5%)的所述基因型数据特征(SNPs)。所述去除阈值是根据不同应用场景确定的不同的取值范围或数值。
如图4所示,所述联盟式主成分分析模块,在原始基因型数据矩阵上进行人群分层(population stratification),进而获取具有最高主成分的处理后数据,传统主成分分析方法仅针对中心化的数据处理,联盟式主成分分析模块实现了联盟式计算下,各个数据拥有者的数据隐私保护,同时保证了结果的正确性;具体包括:
(1)联盟式求解全局零均值矩阵,具体包括:
(a)参数设定,共有L台所述原始数据终端,第l台所述原始数据终端的本地基因型数据可以表示为一个Nl×M矩阵所述Nl是列,表示所述原始数据终端l的本地基因型数据样本数,所述M是行,表示本地所述基因型数据特征(SNPs)数量,所述Gl表示原始数据终端l的本地基因型数据矩阵;0,1,2代表AA,AB,BB三
种基因型;
(b)根据所述原始数据终端计算的所述本地基因型数据矩阵的行和矩阵:
计算全局基因型数据平均值矩阵:/>并将所述全局基因型数据平均值矩阵返回给所述原始数据终端,所述/>表示所述原始数据终端l的基因型数据行和矩阵,所述/>表示所述原始数据终端l第i列所有数据样本的行和叠加的值,所述N表示所有所述原始数据终端基因型数据总样本数,所述/>表示全局的第i列所有数据样本的行和叠加的值,所述行由N组成,所述列由M组成,i∈{1,2,…,M};
(c)根据所述原始数据终端计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述原始数据终端;所述/>表示所述原始数据终端l第i列基因型数据矩阵的向量;
(2)联盟式求解主成分特征映射关系,在每次联盟式迭代过程h∈{1,2,...,H}中,根据所述原始数据终端计算的本地中间结果:计算全局中间结果:/>通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系(求解最大K个特征对的形式):[X,Λ]=GSP_Execute(X(1),K,σ);所述/>所述h∈{1,2,...H}为联盟计算迭代轮次,所述表示一个M×K初始特征向量预估矩阵matrix,所述K表示需要计算的最大特征向量的数量,所述k∈{1,2,...K},所述H表示最大迭代次数,所述σ表示迭代收敛区间值,所述El表示所述原始数据终端l的基因型数据零均值矩阵,所述X表示主成分映射关系特征向量,是一个M×K矩阵,包含最大K个特征向量,所述Λ表示主成分映射关系对角特征值矩阵,是一个K×K对角值为特征值的对角矩阵,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值,通常会有几万列,因此称为高维特征;
(3)计算主成分方向特征,将所述主成分特征映射关系发送给所有所述原始数据终端,所述原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征。
如图5所示,所述联盟式广义线性模型,包括全基因组关联分析模块,所述全基因组关联分析模块通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征(SNPs)(分布式的逻辑回归+似然比检验),具体包括如下:
(1)构建逻辑回归分类器模型,通过训练可以得出逻辑回归参数β={β′,β0},所述Y是表型(phenotype)数据,是已知的实际结果(例如binary的0/1代表死亡/生存),所述F为特征矩阵,所述β′为每个特征的权重系数向量,所述β0为截距,所述截距是当所有所述特征取最低水平值时的事发比odds;
(2)对于所述本地基因型数据Gl,创建Zl={G′l},所述G′l是根据最大K个特征向量映射得出的原始数据终端本地的所述主成分方向特征的矩阵,令F=Zl,带入所述逻辑回归分类器模型,训练所述模型得出对应所述Zl的逻辑回归参数βH0,所述l表示第l台所述原始数据终端;
(3)对于所述本地基因型数据Gl中每一个基因型数据特征(SNP)值创建新矩阵令F=Zi l,带入所述逻辑回归分类器,训练所述模型得出对应所述Zi l的逻辑回归参数/>
(4)根据所述βH0和所述基于所有所述原始数据终端的本地基因型数据进行似然比检验(likelihood ratio test,Zeng et.al.,2015),获得所述si(每一个SNP)的基于卡方分布的显著值pi(p-value);
(5)选取所有基因型数据特征(SNPs)的显著值p={p1,p2,...,pM},输出一组较小的显著值k<M(pi越小,越显著),所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征(SNPs);例如:p={0.7,0.5,0.4,0.2,0.8},指定个数为2,输出pMIN={0.2,0.4};如图2所示,检测出了与疾病关联SNP;
如图6所示,所述本地基因型数据G和所述主成分方向特征的计算均为分布式,在原始数据终端本地计算本地中间值,再到联盟式广义线性模型进行汇总;所述(2)或(3)中逻辑回归分类器可以使用以下方式实现联盟式分析:每个所述原始数据终端上传本地所述主成分方向特征到所述全局服务器,所述全局服务器将所述主成分方向特征累加生成(行增)全局主成分(Global Principal Components),通过分布式所述逻辑回归分类器,训练所述模型(Wu et al.2012b;Gopal and Yang 2013;Yang et al.2019;Hardy et al.2017;Li et al.2016;Jiang 2016;et al.2015)。事实证明,某些分布式逻辑回归分类器(Gopal and Yang 2013)已经被证明实现了无损(0-loss)的联盟式训练。
授权研究人员根据授权终端选择可用的数据拥有者(一个或多个),创建并提交联盟式全基因组关联性分析研究实例,提交给全局服务器联盟学习请求句柄模块;
各个涉及本次分析的数据拥有者通过原始数据终端,在本地执行数据预处理模块中过滤器一的方法,标记数据,去除特殊染色体;
各个涉及本次分析的原始数据终端和全局服务器协同执行数据预处理模块中过滤器二,三,四的方法,获取预处理过的数据;
使用预处理过的数据,全局服务器执行全基因组关联分析联盟学习主程序模块中的联盟式主成分分析方法(第一,二,三步)获取主成分方向特征,并执行联盟式广义线性模型获取针对特定疾病的最相关SNPs,最终生成分析结果报告;
通过联盟学习请求句柄模块,全局服务器将最终结果报告发送给此次全基因组关联性分析联盟学习的授权终端。
如图1所示,基于隐私保护并实现全基因组关联分析的联盟学习方法,包括如下步骤:
步骤一,授权研究人员选择可用的数据拥有者(一个或多个),创建联盟式全基因组关联性分析研究实例,并提交给全局服务器联盟学习请求句柄模块;
步骤二,各个涉及本次分析的数据拥有者和全局服务器协同执行数据预处理,得到预处理过的数据,所述数据拥有者在本地进行涉及原始数据的存储、计算,所述全局服务器仅对脱敏后的中间结果进行汇总和计算,从根源上避免了患者隐私泄露;数据拥有者持有自己的生物医学数据(包括基因数据)并且同意参与全网(暨所有的数据拥有者)共同协作的基于隐私保护技术的全基因组关联性分析研究;全局服务器是被各个协作方(暨所有的数据拥有者)共同信任的第三方服务器,主要提供以下功能:(1)为被授权研究员提供用户交互系统,接收并处理联盟学习模式下全基因组关联性分析的请求;(2)接收数据拥有者本地计算的中间结果数据,汇总并更新全局计算模型,最终将全局结果发送给此次研究的授权研究人员;
步骤三,通过所述预处理过的数据,所述全局服务器执行联盟式主成分分析方法获取主成分方向特征,再执行联盟式广义线性模型,得到针对特定疾病的最相关SNPs,生成分析结果报告;
步骤四,通过联盟学习请求句柄模块,全局服务器将最终结果报告发送给此次全基因组关联性分析联盟学习的授权研究人员。被授权的研究人员可以向所述全局服务器提交联盟学习模式下全基因组关联性分析的请求,通过数据拥有者本地计算和全局服务器协同工作,最终得到研究结果。
如图3所示,所述步骤二,所述数据预处理包括如下步骤:
(1)将所有基因型标记为0、1、2和NC(no call),去除所有MT(线粒体)、X和Y染色体;
(2)删除所有位点得率(call rate,或称判读率)低于删除阈值(如:98%)的基因型(Genotypes),根据所有所述数据拥有者计算的基因位点得率,生成全局平均得率(各个本地计算的求和平均值)并返回给所述数据拥有者所有平均得率小于所述删除阈值(如:98%)的基因型位点,所述数据拥有者从本地数据中删除所有所述平均得率小于所述删除阈值(如:98%)基因型位点;所述删除阈值是根据不同应用场景确定的不同的取值范围或数值;
(3)替换标记为NC的基因型,根据每个所述数据拥有者本地计算的基因型频率,计算全局平均基因型频率,每个所述数据拥有者将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型;
(4)去除最小等位基因频率(Minor Allele Frequency)小于去除阈值(如:0.05/5%)的基因型数据特征(SNPs),根据步骤(3)计算的所述基因型频率,计算出全局最小等位基因频率并返回给所有所述数据拥有者所有最小等位基因频率小于所述去除阈值(如:0.05/5%)的所述基因型数据特征(SNPs),所述数据拥有者从本地数据中删除所有所述最小等位基因频率小于所述去除阈值(如:0.05/5%)的所述基因型数据特征(SNPs)。所述去除阈值是根据不同应用场景确定的不同的取值范围或数值。
如图4所示,所述步骤三,所述联盟式主成分分析方法在原始基因型数据矩阵上进行人群分层(population stratification),进而获取具有最高主成分的处理后数据,传统主成分分析方法仅针对中心化的数据处理,联盟式主成分分析模块实现了联盟式计算下,各个数据拥有者的数据隐私保护,同时保证了结果的正确性,包括如下步骤:
(1)联盟式求解全局零均值矩阵,包括如下步骤:
(a)参数设定,共有L个所述数据拥有者,第l个所述数据拥有者的本地基因型数据可以表示为一个Nl×M矩阵所述Nl是列,表示所述数据拥有者l的本地基因型数据样本数,所述M是行,表示本地所述基因型数据特征(SNPs)数量,所述Gl表示数据拥有者l的本地基因型数据矩阵;0,1,2代表AA,AB,BB三种基因型;
(b)根据所述数据拥有者计算的所述本地基因型数据矩阵的行和矩阵:计算全局基因型数据平均值矩阵:/>并将所述全局基因型数据平均值矩阵返回给所述数据拥有者,所述/>表示所述数据拥有者l的基因型数据行和矩阵,所述/>表示所述数据拥有者l第i列所有数据样本的行和叠加的值,所述N表示所有所述数据拥有者基因型数据总样本数,所述/>表示全局的第i列所有数据样本的行和叠加的值,所述行由N组成,所述列由M组成,i∈{1,2,…,M};
(c)根据所述数据拥有者计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述数据拥有者;所述/>表示所述数据拥有者l第i列基因型数据矩阵的向量;
(2)联盟式求解主成分特征映射关系,在每次联盟式迭代过程h∈{1,2,...,H}中,根据所述数据拥有者计算的本地中间结果:计算全局中间结果:/>通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系(求解最大K个特征对的形式):[X,Λ]=GSP_Execute(X(1),K,σ);所述/>所述h∈{1,2,...H}为联盟计算迭代轮次,所述表示一个M×K初始特征向量预估矩阵matrix,所述K表示需要计算的最大特征向量的数量,所述k∈{1,2,...K},所述H表示最大迭代次数,所述σ表示迭代收敛区间值,所述El表示所述数据拥有者l的基因型数据零均值矩阵,所述X表示主成分映射关系特征向量,是一个M×K矩阵,包含最大K个特征向量,所述Λ表示主成分映射关系对角特征值矩阵,是一个K×K对角值为特征值的对角矩阵,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值,通常会有几万列,因此称为高维特征;
(3)计算主成分方向特征,将所述主成分特征映射关系发送给所有所述数据拥有者,所述数据拥有者将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征。
如图5所示,所述步骤三,所述联盟式广义线性模型,通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征(SNPs)(分布式的逻辑回归+似然比检验),包括如下步骤:
(1)构建逻辑回归分类器模型,通过训练可以得出逻辑回归参数β={β′,β0},所述Y是表型(phenotype)数据,是已知的实际结果(例如binary的0/1代表死亡/生存),所述F为特征矩阵,所述β′为每个特征的权重系数向量,所述β0为截距,所述截距是当所有所述特征取最低水平值时的事发比odds;
(2)对于所述本地基因型数据Gl,创建Zl={Gl′},所述Gl′是根据最大K个特征向量映射得出的数据拥有者本地的所述主成分方向特征的矩阵,令F=Zl,带入所述逻辑回归分类器模型,训练所述模型得出对应所述Zl的逻辑回归参数βH0,所述l表示第l个所述数据拥有者;
(3)对于所述本地基因型数据Gl中每一个基因型数据特征(SNP)值创建新矩阵令F=Zi l,带入所述逻辑回归分类器,训练所述模型得出对应所述Zi l的逻辑回归参数/>
(4)根据所述βH0和所述基于所有所述数据拥有者的本地基因型数据进行似然比检验(likelihood ratio test,Zeng et.al.,2015),获得所述si(每一个SNP)的基于卡方分布的显著值pi(p-value);
(5)选取所有基因型数据特征(SNPs)的显著值p={p1,p2,...,pM},输出一组较小的显著值k<M(pi越小,越显著),所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征(SNPs);例如:p={0.7,0.5,0.4,0.2,0.8},指定个数为2,输出pMIN={0.2,0.4};如图2所示,检测出了与疾病关联SNP;
如图6所示,所述本地基因型数据G和所述主成分方向特征的计算均为分布式,在数据拥有者本地计算本地中间值,再到联盟式广义线性模型进行汇总;所述(2)或(3)中逻辑回归分类器可以使用以下方式实现联盟式分析:每个所述数据拥有者上传本地所述主成分方向特征到所述全局服务器,所述全局服务器将所述主成分方向特征累加生成(行增)全局主成分(Global Principal Components),通过分布式所述逻辑回归分类器,训练所述模型(Wu etal.2012b;Gopal and Yang 2013;Yang et al.2019;Hardy et al.2017;Li etal.2016;Jiang 2016; et al.2015)。事实证明,某些分布式逻辑回归分类器(Gopal and Yang 2013)已经被证明实现了无损(0-loss)的联盟式训练。/>
Claims (10)
1.基于隐私保护并实现全基因组关联分析的联盟学习系统,包括分别与原始数据终端、授权终端连接的全局服务器,其特征在于,所述全局服务器包括数据预处理模块、主程序模块、请求句柄模块,所述主程序模块包括联盟式主成分分析模块、联盟式广义线性模型;所述原始数据终端分别与所述数据预处理模块、所述联盟式主成分分析模块、所述联盟式广义线性模型连接,所述授权终端与所述请求句柄模块连接;
所述原始数据终端,用于原始数据的存储、计算,涉及所述原始数据的存储、计算均在所述原始数据终端本地隔离进行,所述全局服务器仅对脱敏后的中间结果进行汇总和计算;
所述请求句柄模块,用于接收所述授权终端的全基因组关联性分析的联盟学习请求并返回联盟学习结果报告;
所述联盟式主成分分析模块,构建原始数据终端的本地基因型数据矩阵,矩阵的列表示所述原始数据终端的本地基因型数据样本数,行表示本地基因型数据特征数量,每行特征叠加的值为行和叠加值,所有行和叠加值构成行和矩阵;根据所有原始数据终端本地基因型数据矩阵的行和矩阵,计算所有原始数据终端的数据样本的行和叠加值的均值,得到全局基因型数据平均值矩阵;基于本地原始数据终端与全局基因型数据平均值矩阵中,相应的行和叠加值的差,得到原始数据终端计算的本地零均值矩阵;根据所述原始数据终端计算的本地中间结果计算全局中间结果,通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系:[X,Λ]=GSP_Execute(X(1),K,σ);X表示主成分映射关系特征向量,Λ表示主成分映射关系对角特征值矩阵,X(1)表示初始特征向量预估矩阵,K表示需要计算的最大特征向量的数量,k∈{1,2,...K},σ表示迭代收敛区间值,El表示原始数据终端l的基因型数据零均值矩阵,h∈{1,2,...H}为联盟计算迭代轮次,H表示最大迭代次数,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值;将所述主成分特征映射关系发送给所有所述原始数据终端,原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征;
所述联盟式广义线性模型,通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征。
2.根据权利要求1所述的基于隐私保护并实现全基因组关联分析的联盟学习系统,其特征在于,所述数据预处理模块,包括四个基因数据过滤器;
过滤器一,将所有基因型标记为0、1、2和NC,去除所有MT、X和Y染色体;
过滤器二,删除所有位点得率低于删除阈值的基因型,根据所有所述原始数据终端计算的基因位点得率,生成全局平均得率并返回给所述原始数据终端所有平均得率小于所述删除阈值的基因型位点,所述原始数据终端从本地数据中删除所有所述平均得率小于所述删除阈值基因型位点;
过滤器三,替换标记为NC的基因型,根据每台所述原始数据终端本地计算的基因型频率,计算全局平均基因型频率,每台所述原始数据终端将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型;
过滤器四,去除最小等位基因频率小于去除阈值的基因型数据特征,根据所述基因型频率,计算出全局最小等位基因频率并返回给所有所述原始数据终端所有最小等位基因频率小于所述去除阈值的所述基因型数据特征,所述原始数据终端从本地数据中删除所有所述最小等位基因频率小于所述去除阈值的所述基因型数据特征。
3.根据权利要求1所述的基于隐私保护并实现全基因组关联分析的联盟学习系统,其特征在于,所述联盟式主成分分析模块,在原始基因型数据矩阵上进行人群分层,进而获取具有最高主成分的处理后数据;具体包括:
(1)联盟式求解全局零均值矩阵,具体包括:
(a)参数设定,共有L台所述原始数据终端,第l台所述原始数据终端的本地基因型数据可以表示为一个Nl×M矩阵所述Nl是列数,表示所述原始数据终端l的本地基因型数据样本数,所述M是行数,表示本地所述基因型数据特征数量,所述Gl表示原始数据终端l的本地基因型数据矩阵;
(b)根据所述原始数据终端计算的所述本地基因型数据矩阵的行和矩阵:计算全局基因型数据平均值矩阵:/>并将所述全局基因型数据平均值矩阵返回给所述原始数据终端,所述/>表示所述原始数据终端l的基因型数据行和矩阵,所述/>表示所述原始数据终端l第i列所有数据样本的行和叠加的值,所述N表示所有所述原始数据终端基因型数据总样本数,所述gi表示全局的第i列所有数据样本的行和叠加的值,全局基因型数据的行由N个值组成,列由M个值组成,i∈{1,2,…,M};
(c)根据所述原始数据终端计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述原始数据终端;所述/>表示所述原始数据终端l第i列基因型数据矩阵的向量;
(2)联盟式求解主成分特征映射关系,在每次联盟式迭代过程h∈{1,2,...,H}中,根据所述原始数据终端计算的本地中间结果:计算全局中间结果:通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系:[X,Λ]=GSP_Execute(X(1),K,σ);所述所述h∈{1,2,...H}为联盟计算迭代轮次,所述/>表示一个M×K初始特征向量预估矩阵,所述K表示需要计算的最大特征向量的数量,所述k∈{1,2,...K},所述H表示最大迭代次数,所述σ表示迭代收敛区间值,所述El表示所述原始数据终端l的基因型数据零均值矩阵,所述X表示主成分映射关系特征向量,是一个M×K矩阵,包含最大K个特征向量,所述Λ表示主成分映射关系对角特征值矩阵,是一个K×K对角值为特征值的对角矩阵,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值;
(3)计算主成分方向特征,将所述主成分特征映射关系发送给所有所述原始数据终端,所述原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征。
4.根据权利要求3所述的基于隐私保护并实现全基因组关联分析的联盟学习系统,其特征在于,所述联盟式广义线性模型,包括全基因组关联分析模块,所述全基因组关联分析模块通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征,具体包括如下:
(1)构建逻辑回归分类器模型,通过输入特征矩阵、表型数据,训练得到逻辑回归参数;
(2)将所述主成分方向特征的矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数βH0;
(3)将所述本地基因型数据中每一个基因型数据特征值与所述主成分方向特征的矩阵,创建的新矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数
(4)根据所述βH0和所述基于所有所述原始数据终端的本地基因型数据进行似然比检验,获得基因型数据特征值si的基于卡方分布的显著值pi;
(5)选取所有基因型数据特征的显著值p={p1,p2,...,pM},输出一组较小的显著值所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征;
所述本地基因型数据G和所述主成分方向特征的计算均为分布式;每个所述原始数据终端上传本地所述主成分方向特征到所述全局服务器,所述全局服务器将所述主成分方向特征累加生成全局主成分,通过分布式所述逻辑回归分类器,训练所述模型。
5.根据权利要求4所述的基于隐私保护并实现全基因组关联分析的联盟学习系统,其特征在于,所述(1)构建逻辑回归分类器模型, 通过训练可以得出逻辑回归参数β={β′,β0},所述Y是表型数据,是已知的实际结果,所述F为特征矩阵,所述β′为每个特征的权重系数向量,所述β0为截距,所述截距是当所有所述特征取最低水平值时的事发比;所述(2)对于所述Gl,创建Zl={Gl′},所述Gl′是所述主成分方向特征的矩阵,令F=Zl,带入所述逻辑回归分类器模型,训练所述模型得出对应所述Zl的逻辑回归参数βH0,所述l表示第l个所述原始数据终端;所述(3)对于所述Gl中每一个基因型数据特征值/>创建新矩阵/>令F=Zi l,带入所述逻辑回归分类器,训练所述模型得出对应所述Zi l的逻辑回归参数/>
6.基于隐私保护并实现全基因组关联分析的联盟学习方法,其特征在于,包括如下步骤:
步骤一,授权研究人员,创建联盟式全基因组关联性分析研究实例,并提交给全局服务器;
步骤二,各数据拥有者和全局服务器协同执行数据预处理,得到预处理过的数据,所述数据拥有者在本地进行涉及原始数据的存储、计算,所述全局服务器仅对脱敏后的中间结果进行汇总和计算;
步骤三,通过所述预处理过的数据,所述全局服务器执行联盟式主成分分析方法获取主成分方向特征,再执行联盟式广义线性模型,得到针对特定疾病的最相关SNPs,生成分析结果报告;
构建原始数据终端的本地基因型数据矩阵,矩阵的列表示所述原始数据终端的本地基因型数据样本数,行表示本地基因型数据特征数量,每行特征叠加的值为行和叠加值,所有行和叠加值构成行和矩阵;根据所有原始数据终端本地基因型数据矩阵的行和矩阵,计算所有原始数据终端的数据样本的行和叠加值的均值,得到全局基因型数据平均值矩阵;基于本地原始数据终端与全局基因型数据平均值矩阵中,相应的行和叠加值的差,得到原始数据终端计算的本地零均值矩阵;根据所述原始数据终端计算的本地中间结果计算全局中间结果,通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系:[X,Λ]=GSP_Execute(X(1),K,σ);/>X表示主成分映射关系特征向量,Λ表示主成分映射关系对角特征值矩阵,X(1)表示初始特征向量预估矩阵,K表示需要计算的最大特征向量的数量,k∈{1,2,...K},σ表示迭代收敛区间值,El表示原始数据终端l的基因型数据零均值矩阵,h∈{1,2,...H}为联盟计算迭代轮次,H表示最大迭代次数,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值;将所述主成分特征映射关系发送给所有所述原始数据终端,原始数据终端将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征;通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征;
步骤四,全局服务器将最终结果报告发送给全基因组关联性分析联盟学习的授权研究人员。
7.根据权利要求6所述的基于隐私保护并实现全基因组关联分析的联盟学习方法,其特征在于,所述步骤二,所述数据预处理包括如下步骤:
(1)将所有基因型标记为0、1、2和NC,去除所有MT、X和Y染色体;
(2)删除所有位点得率低于删除阈值的基因型,根据所有所述数据拥有者计算的基因位点得率,生成全局平均得率并返回给所述数据拥有者所有平均得率小于所述删除阈值的基因型位点,所述数据拥有者从本地数据中删除所有所述平均得率小于所述删除阈值基因型位点;
(3)替换标记为NC的基因型,根据每个所述数据拥有者本地计算的基因型频率,计算全局平均基因型频率,每个所述数据拥有者将本地所述标记为NC的基因型替换为所述全局平均基因型频率最高的基因型;
(4)去除最小等位基因频率小于去除阈值的基因型数据特征,根据所述基因型频率,计算出全局最小等位基因频率并返回给所有所述数据拥有者所有最小等位基因频率小于所述去除阈值的所述基因型数据特征,所述数据拥有者从本地数据中删除所有所述最小等位基因频率小于所述去除阈值的所述基因型数据特征。
8.根据权利要求6所述的基于隐私保护并实现全基因组关联分析的联盟学习方法,其特征在于,所述步骤三,所述联盟式主成分分析方法在原始基因型数据矩阵上进行人群分层,进而获取具有最高主成分的处理后数据,包括如下步骤:
(1)联盟式求解全局零均值矩阵,包括如下步骤:
(a)参数设定,共有L个所述数据拥有者,第l个所述数据拥有者的本地基因型数据可以表示为一个Nl×M矩阵所述Nl是列数,表示所述数据拥有者l的本地基因型数据样本数,所述M是行数,表示本地所述基因型数据特征数量,所述Gl表示数据拥有者l的本地基因型数据矩阵;
(b)根据所述数据拥有者计算的所述本地基因型数据矩阵的行和矩阵:计算全局基因型数据平均值矩阵:/>并将所述全局基因型数据平均值矩阵返回给所述数据拥有者,所述/>表示所述数据拥有者l的基因型数据行和矩阵,所述/>表示所述数据拥有者l第i列所有数据样本的行和叠加的值,所述N表示所有所述数据拥有者基因型数据总样本数,所述/>表示全局的第i列所有数据样本的行和叠加的值,全局基因型数据的行由N个值组成,所述列由M个值组成,i∈{1,2,…,M};
(c)根据所述数据拥有者计算的本地零均值矩阵计算全局零均值矩阵为/>并将所述全局零均值矩阵返回给所述数据拥有者;所述/>表示所述数据拥有者l第i列基因型数据矩阵的向量;
(2)联盟式求解主成分特征映射关系,在每次联盟式迭代过程h∈{1,2,...,H}中,根据所述数据拥有者计算的本地中间结果:计算全局中间结果:通过Rayleigh–Ritz步骤逐步收敛,求得用于映射原始高维特征到主成分特征方向的映射关系:[X,Λ]=GSP_Execute(X(1),K,σ);所述所述h∈{1,2,...H}为联盟计算迭代轮次,所述/>表示一个M×K初始特征向量预估矩阵,所述K表示需要计算的最大特征向量的数量,所述k∈{1,2,...K},所述H表示最大迭代次数,所述σ表示迭代收敛区间值,所述El表示所述数据拥有者l的基因型数据零均值矩阵,所述X表示主成分映射关系特征向量,是一个M×K矩阵,包含最大K个特征向量,所述Λ表示主成分映射关系对角特征值矩阵,是一个K×K对角值为特征值的对角矩阵,所述原始高维特征是指原始基因型矩阵的每一个列,该列代表一个特征的所有样本的取值;
(3)计算主成分方向特征,将所述主成分特征映射关系发送给所有所述数据拥有者,所述数据拥有者将所述主成分特征映射关系与所述原始高维特征相乘,得出主成分方向特征。
9.根据权利要求8所述的基于隐私保护并实现全基因组关联分析的联盟学习方法,其特征在于,所述步骤三,所述联盟式广义线性模型,通过所述主成分方向特征,得到针对特定疾病的最相关基因型数据特征,包括如下步骤:
(1)构建逻辑回归分类器模型,通过输入特征矩阵、表型数据,训练得到逻辑回归参数;
(2)将所述主成分方向特征的矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数βH0;
(3)将所述本地基因型数据中每一个基因型数据特征值与所述主成分方向特征的矩阵,创建的新矩阵作为所述特征矩阵,带入所述逻辑回归分类器模型,得到逻辑回归参数
(4)根据所述βH0和所述基于所有所述数据拥有者的本地基因型数据进行似然比检验,获得基因型数据特征值si的基于卡方分布的显著值pi;
(5)选取所有基因型数据特征的显著值p={p1,p2,...,pM},输出一组较小的显著值k’<M,所述一组较小的显著值对应全基因组关联分析最相关的一组基因型数据特征;
所述本地基因型数据G和所述主成分方向特征的计算均为分布式;每个所述数据拥有者上传本地所述主成分方向特征到所述全局服务器,所述全局服务器将所述主成分方向特征累加生成全局主成分,通过分布式所述逻辑回归分类器,训练所述模型。
10.根据权利要求9所述的基于隐私保护并实现全基因组关联分析的联盟学习方法,其特征在于,所述(1)构建逻辑回归分类器模型, 通过训练可以得出逻辑回归参数β={β′,β0},所述Y是表型数据,是已知的实际结果,所述F为特征矩阵,所述β′为每个特征的权重系数向量,所述β0为截距,所述截距是当所有所述特征取最低水平值时的事发比;所述(2)对于所述Gl,创建Zl={Gl′},所述Gl′是所述主成分方向特征的矩阵,令F=Zl,带入所述逻辑回归分类器模型,训练所述模型得出对应所述Zl的逻辑回归参数βH0,所述l表示第l个所述原始数据终端;所述(3)对于所述Gl中每一个基因型数据特征值/>创建新矩阵/>
令带入所述逻辑回归分类器,训练所述模型得出对应所述Zi l的逻辑回归参数
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273642.4A CN113517027B (zh) | 2020-04-09 | 2020-04-09 | 基于隐私保护并实现全基因组关联分析的联盟学习系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273642.4A CN113517027B (zh) | 2020-04-09 | 2020-04-09 | 基于隐私保护并实现全基因组关联分析的联盟学习系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113517027A CN113517027A (zh) | 2021-10-19 |
CN113517027B true CN113517027B (zh) | 2024-05-24 |
Family
ID=78060401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010273642.4A Active CN113517027B (zh) | 2020-04-09 | 2020-04-09 | 基于隐私保护并实现全基因组关联分析的联盟学习系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113517027B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116417072B (zh) * | 2023-03-10 | 2024-01-30 | 广州芳禾数据有限公司 | 基于安全多方计算的敏感数据安全关联分析方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004303064A (ja) * | 2003-03-31 | 2004-10-28 | Japan Science & Technology Agency | サンプル管理方法、サンプル管理装置、端末装置、サンプル管理プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体 |
CN105069286A (zh) * | 2015-07-24 | 2015-11-18 | 上海交通大学 | 基于垂直分布隐私数据保护的logistic回归分析系统 |
CN107533586A (zh) * | 2015-03-23 | 2018-01-02 | 私有通道公司 | 用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备 |
CN110197084A (zh) * | 2019-06-12 | 2019-09-03 | 上海联息生物科技有限公司 | 基于可信计算及隐私保护的医疗数据联合学习系统及方法 |
CN110211635A (zh) * | 2019-06-12 | 2019-09-06 | 北京康普森农业科技有限公司 | 用于畜禽基因组选择分析的方法及畜禽育种方法 |
-
2020
- 2020-04-09 CN CN202010273642.4A patent/CN113517027B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004303064A (ja) * | 2003-03-31 | 2004-10-28 | Japan Science & Technology Agency | サンプル管理方法、サンプル管理装置、端末装置、サンプル管理プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体 |
CN107533586A (zh) * | 2015-03-23 | 2018-01-02 | 私有通道公司 | 用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备 |
CN105069286A (zh) * | 2015-07-24 | 2015-11-18 | 上海交通大学 | 基于垂直分布隐私数据保护的logistic回归分析系统 |
CN110197084A (zh) * | 2019-06-12 | 2019-09-03 | 上海联息生物科技有限公司 | 基于可信计算及隐私保护的医疗数据联合学习系统及方法 |
CN110211635A (zh) * | 2019-06-12 | 2019-09-06 | 北京康普森农业科技有限公司 | 用于畜禽基因组选择分析的方法及畜禽育种方法 |
Non-Patent Citations (6)
Title |
---|
Privacy-preserving GWAS analysis on federated genomic datasets;Scott D Constable等;Proceedings of the 4th iDASH Privacy Workshop: Critical Assessment of Data Privacy and Protection (CADPP) challenge;全文 * |
Privacy-preserving techniques of genomic data—a survey;Md Momin Al Aziz等;Briefings in Bioinformatics;全文 * |
全基因组关联分析优化基因组控制的主成分回归法;王悦玲;CNKI优秀硕士学位论文全文库;全文 * |
全基因组关联分析在畜禽中的研究进展;王继英;王海霞;迟瑞宾;郭建凤;武英;;中国农业科学(第04期);全文 * |
生物医疗大数据隐私与安全保护的应对策略与技术;窦佐超;汪诚弘;邓杰仁;郑灏;谢康;沈百荣;王爽;;中华医学图书情报杂志(第11期);全文 * |
随机SNP在全基因组关联研究人群分层分析中的应用;曹宗富;马传香;王雷;蔡斌;;遗传(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113517027A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728291B (zh) | 一种基于多中心模式下随机森林算法的特征重要性排序系统 | |
Rannala et al. | Likelihood analysis of disequilibrium mapping, and related problems | |
Fulker et al. | Combined linkage and association sib-pair analysis for quantitative traits | |
Frudakis | Molecular photofitting: predicting ancestry and phenotype using DNA | |
Gomez et al. | Mutation bias can shape adaptation in large asexual populations experiencing clonal interference | |
CN113095514A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN113517027B (zh) | 基于隐私保护并实现全基因组关联分析的联盟学习系统及方法 | |
Swanzey et al. | Mouse genetic reference populations: cellular platforms for integrative systems genetics | |
Bauer et al. | Nonlinear growth: an origin of hub organization in complex networks | |
Chialvo et al. | Genetic analyses reveal cryptic diversity in the native N orth A merican fire ants (H ymenoptera: F ormicidae: S olenopsis) | |
Zhang et al. | On the use of GBLUP and its extension for GWAS with additive and epistatic effects | |
Rouard et al. | A digital catalog of high‐density markers for banana germplasm collections | |
Lopez-Cruz et al. | Leveraging data from the Genomes-to-Fields Initiative to investigate genotype-by-environment interactions in maize in North America | |
Wu et al. | Construction of a core collection of germplasms from Chinese fir seed orchards | |
Eding et al. | Linear methods to estimate kinships from genetic marker data for the construction of core sets in genetic conservation schemes | |
CN110750572A (zh) | 一种科技成果启发式评价的自适应方法和装置 | |
Balaban et al. | Phylogenetic double placement of mixed samples | |
Lehtonen et al. | Mate limitation and sex ratio evolution | |
Sun et al. | ploidyfrost: Reference‐free estimation of ploidy level from whole genome sequencing data based on de Bruijn graphs | |
Luo et al. | Estimation of genetic parameters using linkage between a marker gene and a locus underlying a quantitative character in F2 populations | |
Wu et al. | Preserving institutional privacy in distributed binary logistic regression | |
Rönnegård et al. | Separation of base allele and sampling term effects gives new insights in variance component QTL analysis | |
Baurley et al. | A bioinformatics workflow for genetic association studies of traits in Indonesian rice | |
CN113506592A (zh) | 一种治疗慢性支气管炎中药的机理分析方法 | |
Hartman et al. | Imputed genomic data reveals a moderate effect of low frequency variants to the heritability of complex human traits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |