CN109493916A - 一种基于稀疏性因子分析的基因-基因交互作用识别方法 - Google Patents

一种基于稀疏性因子分析的基因-基因交互作用识别方法 Download PDF

Info

Publication number
CN109493916A
CN109493916A CN201810695388.XA CN201810695388A CN109493916A CN 109493916 A CN109493916 A CN 109493916A CN 201810695388 A CN201810695388 A CN 201810695388A CN 109493916 A CN109493916 A CN 109493916A
Authority
CN
China
Prior art keywords
gene
data
model
sparsity
interactions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810695388.XA
Other languages
English (en)
Inventor
项骁
胡永华
王斯悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810695388.XA priority Critical patent/CN109493916A/zh
Publication of CN109493916A publication Critical patent/CN109493916A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开一种基于稀疏性因子分析的基因‑基因交互作用识别方法(Sparse Factor Analysis for Epistasis,EPISFA),其中包含以下步骤。1)输入基因型原始数据,并根据基因之间的连锁不平衡系数进行筛选;2)数据随机分块3)将数据按患病状态分为患病和非患病人群,分别计算两组的相关系数矩阵,利用Fisher变换扣除两人群的相关系数矩阵基因位点相关性;4)使用稀疏性因子分析方法学习模型权重;5)交叉验证,选择模型参数并识别相应的基因‑基因交互作用。试验表明此方法的统计功效和计算效率均较高,具有良好应用前景。

Description

一种基于稀疏性因子分析的基因-基因交互作用识别方法
1.技术领域
本发明涉及遗传学领域,具体涉及一种基于稀疏性因子分析的基因-基因交互作用识别方法。
2.背景技术
研究复杂疾病的遗传易感性一直是遗传学领域的重要问题。尽管近年来的全基因组关联研究发 现了大量与疾病存在关联的多态性位点,但仅纳入多态性位点的一维信息远未能解释复杂疾病在人 群中的遗传度。基因-基因交互作用是导致此类遗传度缺失的主要原因之一。
全基因组关联研究时代的遗传学研究往往一次检测大量的多态性位点,因而使用传统假设检验 方法难以克服“维度膨胀”带来的问题。为此,人们已经提出了很多基于机器学习的算法来识别基 因-基因交互作用。用于识别基因-基因交互作用的机器学习方法一般由降维算法和机器学习模型两 个部分组成。目前,常用降维算法有多因子降维法、组合优化法和稀疏学习方法,而常用的机器学 习模型则包括了Logic回归模型、随机森林模型、支持向量机、神经网络模型和贝叶斯网络模型等。
这些机器学习方法在一定程度上克服了传统方法在高维遗传学数据中的弱点,但在统计功效和 计算效率上依然存在不足,还难以满足在复杂疾病中进行基因-基因交互作用研究的需求。而近年 来,非监督式机器学习方法的发展逐渐受到重视,并在高维数据分析领域取得了一些成功,是基因 -基因交互作用方法学研究中一种较有前景的方向。
3.发明内容
本发明的目的是为了解决现有算法在处理高维情境中基因-基因交互作用识别能力不足的问 题。本发明基于稀疏性因子分析模型,提供了一种速度快,统计功效高,假阳性率低的方法。
为了达到上述目的,本发明采用的技术方案主要包括了以下步骤。
1)输入基因型原始数据,并根据基因之间的连锁不平衡系数进行筛选;
2)数据随机平均分为K块,其中K-1用于模型训练,剩余1块用于交叉验证;
3)将数据按患病状态分为患病和非患病人群,分别计算两组的相关系数矩阵,利用Fisher变换扣 除两组相关系数矩阵基因位点的相关性;
4)使用稀疏性因子分析方法学习模型权重,在训练集中先根据不同的模型参数拟合一组不同的稀疏 性因子模型,然后提取模型拟合权重运用于验证集并计算预测的相关系数矩阵。继之计算预测的 相关系数矩阵与数据中实际计算的相关系数矩阵之间的Kullback-Leibler距离作为预测值与观 察值之间的误差度量,并根据该距离选择相应的参数。。
5)重复步骤4)进行交叉验证,并识别数据存在中的基因-基因交互作用。
4.附图说明
附图1为本发明实施例的流程图
附图2为本发明模型结构示意图
5.具体实施方式
假设K={1,2,…,k}为一组SNP位点,编码xk={-1,0,1},k∈K;y={0,1}为一个二分类质量性状, 定义M={1,2,…,m},m<k为一组隐变量,编码为zm,m∈M;n×k矩阵X是标准化后的基因型编码矩 阵,n×m矩阵Z是隐变量矩阵。定义一个维度为k×m的线性变换W,满足Z=XW和X′=ZWT,并定义残 差矩阵为Ψ=X-X′。
模型结构如图2所示,基因型编码矩阵X通过线性映射W,投影到隐变量矩阵Z上,再通过线性变换ZWT还原到X′,并使得误差项Ψ最小。其中,根据稀疏性假设,Z的维度m<<k,并且W的绝大多数元素为0。
假设数据X和X′的误差函数为l,则模型可以表述为:
其中,ρ和γ均为调节参数,γ趋近于+∞时,模型趋近于LASSO,而γ趋近于1时,模型趋近于和MDR法类 似的阈值模型。通过尝试调节ρ和γ的不同取值,可以获得不同稀疏程度的W权重。其中,当ρ越大或γ越小时, 权重W则越稀疏。
公式(1)中的误差函数l(.)存在多种形式,为了能直接使用Hirose等的GEM方法,这里选择其在稀疏性因 子分析中使用的似然损失函数。即假设基因型编码,样本量为n,近似满足一个均值为0,方差为Σ的多元正态 分布,那么基于似然函数的损失函数l(.)可以表示为:
虽然SNP位点的基因型是一个离散型变量,并不满足多元正态分布,但公式(2)其实可以看作两个协方差矩 阵的Kullback-Leibler距离,因而也可以适用于不满足多元正态分布假设的情况。
设wij代表第i个基因型编码变量在第j个隐变量上的权重。如果一组之间存在两两相关, 那么存在一个隐变量zj,使得权重w.j同时不为0。如果权重向量w.j不全为0,则非零权重的个数一定大于2。 这一性质确保了稀疏性因子分析方法总能发现2阶及以上的基因-基因交互作用。
当SNP位点在未患病个体中处于连锁平衡时,存在基因-基因交互作用的SNP位点在患病个体中就会存在相 关性。这一规律就是本方法的核心原理:当患病个体中,第i个隐变量上的权重同时不为0时, 则SNP位点{i1,i2,…,ik}存在基因-基因交互作用。
假设一组家系数据中,患病个体的样本量为nAff,未患病个体的样本量为nUn,患病个体中第i个和第j个位 点基因型的相关系数为未患病个体中第i个和第j个位点基因型的相关系数为利用Fisher’s Z变换 的原理,可以得到调整了连锁不平衡的相关系数和等效的样本量nAdj
其中,公式(3)中的tanh为双曲正切函数,将转换后的相关系数矩阵∑Adj和等效样本量 nAdj,重新带入EPISFA算法中,就可以得到扣除了位点之间连锁不平衡和人群分层效应的结果。 本研究中将这个补充算法命名为EPISFA-LD算法,具体步骤如下。
第1步,基因型编码和筛选
分别将在家系数据的患病和未患病个体,根据SNP位点的基因型进行编码,并根据基因型 编码的均数和标准差对编码矩阵分别进行标准化,得到患病和未患病个体的基因型编码矩阵XAff和XUn,维度分别为nAff×p和nUn×p,计算XUn的相关系数矩阵∑Un。设置隐变量的个数 m,1≤m<p。
将SNP位点按照缺失率由高到低排序,计算未患病个体中各位点的Pearson相关系数,设 置相关系数阈值θ,按缺失率由高到低将相关系数超过θ的SNP进行修剪,直到SNP位点两两之间 相关性均小于θ。
第2步,随机分块。
将XAff按行平均分为k份,然后以为验证集,将剩余部分为训练集,分别计算验证集和训练集的相关 系数矩阵Σvalidate和ΣUn,以及样本量nvalidate=n/k和ntrain=n×(k-1)/k。
第3步,相关性扣除。
将(Σtrain,ntrainUn,nun)带入公式(3)和公式(4),计算得到调整后的相关系数矩阵ΣAdj和等效样本 量nAdj
第4步,稀疏性模型建立和权重估计
对调整后的相关系数矩阵ΣAdj使用稀疏性因子分析模型,并令样本量为nAdj。通过设置一系列不同的γ和ρ 参数组合,获得不同的权重矩阵W,然后在验证集中计算模型性能指标,选择其中性能最优的参数组合(γ**), 并获得在这个参数下的权重矩阵W。
第5步,交叉验证
提取不同列的权重向量w.j,得到非零权重组合I11,…,I1m。重复第3-4步k次,得到k个不同的非零权重 I1,并计算交叉验证一致性指标。交叉验证一致性指标为k次试验中,相同组合Iij出现的次数。记录交叉验证 一次性指数最高的组合,并从{1,2,…,p}中将对应的SNP位点删除,在剩余位点中重新计算XAff,XUn和ΣUn。 重复第3-5步,直到算法中止条件满足,或权重矩阵W的所有元素均为0。
上述内容均采用了使用R语言进行实施。
本发明所采用的稀疏性因子分析技术,是一种将稀疏方法和非监督式机器学习方法进行结合的 方法。既能利用非监督式机器学习方法中统计功效高的优点,又能良好地控制假阳性率。此外,稀 疏方法还能显著提高算法的计算效率从而实现在较短时间内完成高维基因型数据的搜索。

Claims (4)

1.本发明根据基因分型所获得的基因型原始数据,计算和识别多个基因位点之间影响疾病风险的交互作用。相对于既有算法,可以在较短的计算时间内对全基因组关联研究的数据进行搜索,并在保持一类错误率不变的情况下,显著提高发现基因-基因交互作用的统计功效。本发明主要包括以下流程:
1)输入基因型原始数据,并根据基因位点之间的连锁不平衡系数进行筛选;
2)数据随机平均分为K块,其中K-1用于模型训练,剩余1块用于交叉验证;
3)将数据按患病状态分为患病和非患病人群,分别计算两组的相关系数矩阵,利用Fisher变换扣除两组相关系数矩阵基因位点的相关性;
4)使用稀疏性因子分析方法学习模型权重,在训练集中先根据不同的模型参数拟合一组不同的稀疏性因子模型,然后提取模型拟合权重运用于验证集并计算预测的相关系数矩阵。继之计算预测的相关系数矩阵与数据中实际计算的相关系数矩阵之间的Kullback-Leibler距离作为预测值与观察值之间的误差度量,并根据该距离选择相应的参数;
5)重复步骤4)进行交叉验证,并识别数据存在中的基因-基因交互作用。
2.根据权利1所述的基因-基因交互作用识别新算法,其特征在于:所述步骤1中,设置一个连锁不平衡系数阈值θ,并使用基因型原始数据计算位点之间的连锁不平衡系数矩阵,从第一个基因位点开始,依次排除超过连锁不平衡阈值的基因位点,直到连锁不平衡系数矩阵的所有非对角线元素均低于阈值。
3.根据权利1所述的基因-基因交互作用识别新算法,其特征在于:所述步骤4中,建立稀疏性因子分析模型,设置参数ρ和γ,并将非零因子载荷作为模型的权重。
4.根据权利1所述的基因-基因交互作用识别新算法,其特征在于:所述步骤5中,通过交叉验证的方式对参数ρ和γ进行选择,并在最优参数组合下训练算法,将此参数组合下所识别的非零因子载荷组合,作为存在交互作用的基因组合。
CN201810695388.XA 2018-06-29 2018-06-29 一种基于稀疏性因子分析的基因-基因交互作用识别方法 Pending CN109493916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810695388.XA CN109493916A (zh) 2018-06-29 2018-06-29 一种基于稀疏性因子分析的基因-基因交互作用识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810695388.XA CN109493916A (zh) 2018-06-29 2018-06-29 一种基于稀疏性因子分析的基因-基因交互作用识别方法

Publications (1)

Publication Number Publication Date
CN109493916A true CN109493916A (zh) 2019-03-19

Family

ID=65689183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810695388.XA Pending CN109493916A (zh) 2018-06-29 2018-06-29 一种基于稀疏性因子分析的基因-基因交互作用识别方法

Country Status (1)

Country Link
CN (1) CN109493916A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110133643A (zh) * 2019-05-22 2019-08-16 北京林业大学 植物根系探测方法及装置
CN112786120A (zh) * 2021-01-26 2021-05-11 云南大学 神经网络辅助化学材料合成的方法
CN113257363A (zh) * 2021-05-31 2021-08-13 福建傲农生物科技集团股份有限公司 一种系谱的校正方法及装置
CN114628031A (zh) * 2022-02-10 2022-06-14 郑州大学 检测癌症个体病人动态网络生物标志物的多模态优化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110133643A (zh) * 2019-05-22 2019-08-16 北京林业大学 植物根系探测方法及装置
CN112786120A (zh) * 2021-01-26 2021-05-11 云南大学 神经网络辅助化学材料合成的方法
CN112786120B (zh) * 2021-01-26 2022-07-05 云南大学 神经网络辅助化学材料合成的方法
CN113257363A (zh) * 2021-05-31 2021-08-13 福建傲农生物科技集团股份有限公司 一种系谱的校正方法及装置
CN113257363B (zh) * 2021-05-31 2023-12-08 福建傲农生物科技集团股份有限公司 一种系谱的校正方法及装置
CN114628031A (zh) * 2022-02-10 2022-06-14 郑州大学 检测癌症个体病人动态网络生物标志物的多模态优化方法

Similar Documents

Publication Publication Date Title
CN109493916A (zh) 一种基于稀疏性因子分析的基因-基因交互作用识别方法
CN101447020B (zh) 基于直觉模糊的色情图像识别方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN103366189B (zh) 一种高光谱遥感图像的智能化分类方法
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN111414849B (zh) 一种基于演化卷积神经网络的人脸识别方法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN106055653A (zh) 基于图像语义注释的视频浓缩对象检索方法
CN110446112A (zh) 基于双向LSTM-Attention的IPTV用户体验预测方法
CN117153268A (zh) 一种细胞类别确定方法及系统
CN109409231B (zh) 基于自适应隐马尔可夫的多特征融合手语识别方法
CN108920900A (zh) 基因表达谱数据的无监督极限学习机特征提取系统及方法
CN111694954A (zh) 图像分类方法、装置和电子设备
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN111914900B (zh) 一种用户用电模式分类方法
CN116228278B (zh) 基于大数据的用户画像建立方法和用户画像管理系统
CN115985503B (zh) 基于集成学习的癌症预测系统
CN115830401A (zh) 一种小样本图像分类方法
CN109284392A (zh) 一种文本分类方法、装置、终端及存储介质
CN110348323B (zh) 一种基于神经网络优化的穿戴式设备手势识别方法
CN110459266B (zh) Snp致病因素与疾病关联关系模型建立方法
CN111402953B (zh) 基于层次注意力网络的蛋白质序列分类方法
CN115310491A (zh) 一种基于深度学习的类不平衡磁共振全脑数据分类方法
CN114864002A (zh) 一种基于深度学习的转录因子结合位点识别方法
CN113936246A (zh) 基于联合局部特征判别性学习的无监督目标行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190319

WD01 Invention patent application deemed withdrawn after publication