CN116959585A - 基于深度学习的全基因组预测方法 - Google Patents

基于深度学习的全基因组预测方法 Download PDF

Info

Publication number
CN116959585A
CN116959585A CN202311218507.XA CN202311218507A CN116959585A CN 116959585 A CN116959585 A CN 116959585A CN 202311218507 A CN202311218507 A CN 202311218507A CN 116959585 A CN116959585 A CN 116959585A
Authority
CN
China
Prior art keywords
data
whole genome
model
deep learning
uncertainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311218507.XA
Other languages
English (en)
Other versions
CN116959585B (zh
Inventor
李慧慧
王轲麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Original Assignee
Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Crop Sciences of Chinese Academy of Agricultural Sciences filed Critical Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority to CN202311218507.XA priority Critical patent/CN116959585B/zh
Publication of CN116959585A publication Critical patent/CN116959585A/zh
Application granted granted Critical
Publication of CN116959585B publication Critical patent/CN116959585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据信息处理技术领域,尤其涉及基于深度学习的全基因组预测方法。首先,获取全基因组数据,并对获取的全基因组数据进行数据清洗、数据稀疏性处理以及生物信息学特征提取;然后,基于稀疏性处理后的全基因组数据及生物信息学特征,进行模型构建,得到初步混合模型;对初步混合模型进行模型训练、正则化与解释性增强处理,得到训练好的模型权重与其解释性分析;基于训练好的模型权重和新的全基因组数据进行学习与不确定性估计,得到集成预测结果及其不确定性;最后,基于集成预测结果、解释性分析及其不确定性估计,进行个性化医疗建议与决策辅助。解决了现有技术中在进行全基因组预测时,预测不够准确以及模型不稳定的技术问题。

Description

基于深度学习的全基因组预测方法
技术领域
本发明涉及数据信息处理技术领域,尤其涉及基于深度学习的全基因组预测方法。
背景技术
全基因组关联研究(GWAS)已经被广泛用于识别与各种疾病或性状相关的基因变异,传统的GWAS方法主要依赖统计方法,但由于其对于非线性和复杂交互关系的限制,这些方法可能错过某些重要的遗传信号,近年来,深度学习已经在许多领域,如图像识别和自然语言处理中,展现出了其超越传统机器学习方法的能力。因此,利用深度学习对全基因组数据进行分析有望揭示更多的遗传信息。
对于全基因组预测的方法有很多,董静提出的“基于深度学习的全基因组预测方法”,申请号“CN202310351749.X”,主要包括:将深度学习方法应用于信息数据处理终端;构建深度学习算法模型,将全基因组预测数据信息输入至构建深度学习算法模型;其中所述深度学习算法模型包括信息过滤模块、信息编码模块、基因信息重组模拟模块、基因预测模块和预测判断模块,其中所述信息过滤模块的输出端与信息编码模块的输入端连接,所述信息编码模块的输出端与基因信息重组模拟模块的输入端连接,所述基因信息重组模拟模块的输出端与基因预测模块的输入端连接,所述基因预测模块的输出端与预测判断模块的输入端连接。该发明通过数据信息处理提高基因组组合预测能力。
但上述技术至少存在如下技术问题:在进行全基因组预测时,预测不够准确以及模型不稳定的技术问题。
发明内容
本申请实施例通过提供基于深度学习的全基因组预测方法,解决了现有技术中在进行全基因组预测时,预测不够准确以及模型不稳定的技术问题,实现了高稳定性模型以及准确预测结果的技术效果。
本申请提供了基于深度学习的全基因组预测方法,具体包括以下技术方案:
基于深度学习的全基因组预测方法,包括以下步骤:
S1. 获取全基因组数据,并对获取的全基因组数据进行数据清洗、数据稀疏性处理以及生物信息学特征提取;
S2. 基于稀疏性处理后的全基因组数据及生物信息学特征,进行模型构建,得到初步混合模型;
S3. 对初步混合模型进行模型训练、正则化与解释性增强处理,得到训练好的模型权重与其解释性分析;
S4. 基于训练好的模型权重和待预测的全基因组数据进行学习与不确定性估计,得到集成预测结果及其不确定性;
S5. 基于集成预测结果、解释性分析及其不确定性估计,进行个性化医疗建议与决策辅助。
优选的,在所述步骤S1中,具体包括:
对清洗后的全基因组数据进行数据稀疏性处理,在进行数据稀疏性处理时,对清洗后的全基因组数据利用主成分分析法进行降维。
优选的,在所述步骤S1中,还包括:
在进行数据稀疏性处理时,引入压缩感知的随机投影。
优选的,在所述步骤S1中,还包括:
在进行数据稀疏性处理时,引入稀疏自动编码器。
优选的,在所述步骤S1中,还包括:
对稀疏性处理后的全基因组数据进行生物信息学特征提取。
优选的,在所述步骤S2中,具体包括:
在进行模型构建时,构建基因互作图,创造基因之间互作的图形结构,具体过程如下:
第一步,数据获取;
第二步,数据预处理;
第三步,构建图结构;
第四步,图属性分析。
优选的,在所述步骤S3中,具体包括:
利用批量梯度下降进行模型训练,找到最优参数以使模型在预测时表现最佳,得到经过初步训练的模型权重。
优选的,在所述步骤S3中,还包括:
在损失函数中加入基于知识图谱的约束项,得到受知识图谱约束的模型权重。
优选的,在所述步骤S3中,还包括:
在模型的每一个网络层的输出后加入正则化层,得到带有正则化的模型权重;使用SHAP、LIME工具对所述带有正则化的模型权重进行分析,得到模型权重以及每个特征的重要性得分或局部解释模型。
优选的,在所述步骤S4中,具体包括:
进行不确定性估计,将确定性权重转换为概率分布形式,引入二值化神经网络,使用所述二值化神经网络的权重分布,估算输出的不确定性;为了确保权重的后验分布不会过于集中,对其进行正则化;采用蒙特卡洛方法估算输出的不确定性,进行近似估计,同时使用矩阵分解技术。
有益效果:
本申请实施例中提供的多个技术方案,至少具有如下技术效果或优点:
1、本申请利用主成分分析法、随机投影和压缩感知进行稀疏性处理,在降低数据维度的同时尽量少地丢失信息,通过使用复杂的映射矩阵和图论分析,不仅能增加模型的解释性,还能提高预测的精度。
2、本申请通过卷积神经网络和长短时记忆网络处理结构化的数据并捕获局部特征和长期依赖关系,结合图神经网络,模型可以更好地捕获基因之间复杂的互作关系,使用基于基因互作的图神经网络可以使我们更准确地预测那些涉及多基因互作的复杂生物过程或疾病,如多基因遗传疾病或复杂的表型性状。
3、本申请通过知识图谱的约束,模型能够结合现有的生物学知识进行学习,这样不仅使得预测结果更加准确,同时也增强了模型的可靠性,结合了深度学习技术与生物信息学知识,其预测结果和解释不仅可以应用于医学诊断和治疗,还可以为生物学研究提供有价值的方向和建议,推动生物医学领域的创新和进展。
4、本申请通过引入权重的不确定性评估,提供了预测可靠性的方法,通过蒙特卡洛方法进行不确定性估计,可以近似地计算出模型输出的方差,提供了一种快速的不确定性估计方法,避免了复杂的计算,使用低秩矩阵分解技术近似权重矩阵,这使得在有限的时间内进行不确定性估计成为可能,同时还能保留大部分原始信息。
5、本申请的技术方案能够有效解决在进行全基因组预测时,预测不够准确以及模型不稳定的技术问题,通过利用主成分分析法、随机投影和压缩感知进行稀疏性处理,在降低数据维度的同时尽量少地丢失信息,通过使用复杂的映射矩阵和图论分析,不仅能增加模型的解释性,还能提高预测的精度;通过卷积神经网络和长短时记忆网络处理结构化的数据并捕获局部特征和长期依赖关系,结合图神经网络,模型可以更好地捕获基因之间复杂的互作关系,使用基于基因互作的图神经网络可以使我们更准确地预测那些涉及多基因互作的复杂生物过程或疾病,如多基因遗传疾病或复杂的表型性状;通过知识图谱的约束,模型能够结合现有的生物学知识进行学习,这样不仅使得预测结果更加准确,同时也增强了模型的可靠性,结合了深度学习技术与生物信息学知识,其预测结果和解释不仅可以应用于医学诊断和治疗,还可以为生物学研究提供有价值的方向和建议,推动生物医学领域的创新和进展;引入权重的不确定性评估,提供了预测可靠性的方法,通过蒙特卡洛方法进行不确定性估计,可以近似地计算出模型输出的方差,提供了一种快速的不确定性估计方法,避免了复杂的计算,使用低秩矩阵分解技术近似权重矩阵,这使得在有限的时间内进行不确定性估计成为可能,同时还能保留大部分原始信息。
附图说明
图1为本申请所述基于深度学习的全基因组预测方法的流程图。
具体实施方式
本申请实施例通过提供基于深度学习的全基因组预测方法,解决了现有技术中在进行全基因组预测时,预测不够准确以及模型不稳定的技术问题,总体思路如下:
首先,获取全基因组数据,并对获取的全基因组数据进行数据清洗、数据稀疏性处理以及生物信息学特征提取;对基于稀疏性处理后的全基因组数据及生物信息学特征,进行模型构建,得到初步混合模型;对初步混合模型进行模型训练、正则化与解释性增强处理,得到训练好的模型权重与其解释性分析;基于训练好的模型权重和新的全基因组数据进行学习与不确定性估计,得到集成预测结果及其不确定性;最后,基于集成预测结果、解释性分析及其不确定性估计,进行个性化医疗建议与决策辅助,得到个性化医学建议、特定疾病或性状的基因候选列表及医学或生物学研究方向。通过利用主成分分析法、随机投影和压缩感知进行稀疏性处理,在降低数据维度的同时尽量少地丢失信息,通过使用复杂的映射矩阵和图论分析,不仅能增加模型的解释性,还能提高预测的精度;通过卷积神经网络和长短时记忆网络处理结构化的数据并捕获局部特征和长期依赖关系,结合图神经网络,模型可以更好地捕获基因之间复杂的互作关系,使用基于基因互作的图神经网络可以使我们更准确地预测那些涉及多基因互作的复杂生物过程或疾病,如多基因遗传疾病或复杂的表型性状;通过知识图谱的约束,模型能够结合现有的生物学知识进行学习,这样不仅使得预测结果更加准确,同时也增强了模型的可靠性,结合了深度学习技术与生物信息学知识,其预测结果和解释不仅可以应用于医学诊断和治疗,还可以为生物学研究提供有价值的方向和建议,推动生物医学领域的创新和进展;引入权重的不确定性评估,提供了预测可靠性的方法,通过蒙特卡洛方法进行不确定性估计,可以近似地计算出模型输出的方差,提供了一种快速的不确定性估计方法,避免了复杂的计算,使用低秩矩阵分解技术近似权重矩阵,这使得在有限的时间内进行不确定性估计成为可能,同时还能保留大部分原始信息。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参照附图1,本申请所述一种基于深度学习的全基因组预测方法,包括以下步骤:
S1. 获取全基因组数据,并对获取的全基因组数据进行数据清洗、数据稀疏性处理以及生物信息学特征提取;
首先,通过实验室的高通量测序技术获得包含大量的基因型信息的原始全基因组数据,为了保证数据质量,提高模型的训练效果,对原始全基因组数据进行数据清洗,使用质控软件如PLINK或GATK来筛选数据,移除错误、缺失率高或质量低的基因型数据,移除那些因为测序偏见、实验操作错误等原因出现的异常数据点,得到清洗后的基因组数据,这些数据将用作后续步骤的输入;
进一步,为了降低数据的维度,减少计算复杂度,同时保留尽可能多的有用信息,对清洗后的全基因组数据进行数据稀疏性处理,具体过程如下:
首先,对清洗后的全基因组数据利用主成分分析法进行降维,清洗后的全基因组数据为,其中每一行代表一个样本,每一列代表一个基因位点,计算/>的协方差矩阵:
其中,是全基因组数据的协方差矩阵,/>是样本数,/>是第i个样本,/>是全基因组数据的均值,上述公式有助于了解各个基因位点之间的相关性;再计算特征向量和特征值:
其中,是特征向量,代表主成分的方向;/>是对角矩阵,其对角线上的元素是特征值,代表主成分的重要性;
主成分分析法通过将原始数据投影到几个主成分上来实现降维,这几个主成分是数据的主要变化方向,因此尽量少地损失信息;
选取前(根据经验法设定)个主成分得到 />,其中 ,/>是前/>个主成分组成的矩阵;
然而,虽然主成分分析法可以大大降低维度,但在处理全基因组数据时可能损失生物学上有意义的信息,引入压缩感知的随机投影,将经主成分分析法处理的数据,进行如下计算:
其中,是随机矩阵,它来自某些特定的概率分布,如高斯分布,所述公式描述了如何通过随机矩阵进行投影,得到新的降维数据/>
随机投影在某些情况下可以保留数据结构,它可以进一步减少维度,同时减少主成分分析法带来的信息损失;
进一步,高通量测序技术可能会引入噪声,噪声可以干扰深度学习模型的训练过程,导致模型表现不佳,引入稀疏自动编码器,具体有:
将经随机投影得到的,通过如下公式进行编码:
其中,代表编码后的隐藏表示,/>是激活函数(例如ReLU或Sigmoid),/>和/>分别是编码器的权重和偏差,初始值通常是随机分配的,并在训练过程中通过反向传播和梯度下降进行更新;
解码过程:
其中,是解码后的重建数据,/>是另一个激活函数,/> 和 />分别是解码器的权重和偏差,初始值通常是随机分配的,并在训练过程中通过反向传播和梯度下降进行更新;
在其中定义优化损失函数:
其中,是损失函数,它包括重建误差、权重的L1正则化以及KL散度来鼓励稀疏性;/>是随机投影后的数据的第i个样本;/>是自动编码器对第i个样本的重建结果;/>是总的样本数目;/>是L1正则化的强度参数,用于控制编码器权重的稀疏性,人为选择,基于验证数据集进行调整;/>表示控制参数,用于控制KL散度项对总损失的影响,鼓励隐藏层单元的活动度接近预设的稀疏性参数/>,人为选择,基于验证数据集进行调整;/>是神经元个数,根据模型的设计选择,/>是预设的稀疏性参数,代表了隐藏层的平均激活度,人为选择;/>是第j个隐藏单元的平均激活度,基于训练数据的模型输出计算得到;/>是/>的L1范数,表示所有元素的绝对值之和;/>是Kullback-Leibler (KL) 散度,用于衡量两个概率分布之间的差异或散度,被用来促进隐藏单元的激活稀疏性;
稀疏自动编码器通过编码和解码过程来找到更紧凑的数据表示,其目标是减少噪声和进一步提取特征;最终得到自动编码器输出
进一步,利用已有的生物学知识,增加模型的解释性,提高预测精度,对稀疏性处理后的全基因组数据进行生物信息学特征提取,具体有:
为了对稀疏性处理后的全基因组数据,有效地提取生物信息学特征,首先需要建立一个相关映射关系,定义一个相关映射矩阵/>,所述相关映射矩阵/>中的任意一个元素通过以下公式计算:
其中,表示样本个数;/>是第/>个基因在第/>个样本的权重,来源于前期实验或文献中的基因重要性;/>是第/>个基因的表达量,由高通量测序数据直接给出;/>是基因之间的相对位置索引;/>是时间衰减参数,从时序基因表达数据中估计;/>是基因间相互作用的势能函数,从基因互作数据库推导;/>是在 [0,1] 区间内的一个自变量;/>表示初级基因间的互相关系;通过相关映射矩阵/>, 可以根据权重和表达量对基因进行排序,获得代表基因与其功能相关性的相关映射矩阵/>
为了提取基因的上下游关系和互作关系,引入图论和拓扑数据分析,定义基因互作图G和它的拉普拉斯矩阵,构建新的特征矩阵,所述特征矩阵:
其中,是基因互作图的拉普拉斯矩阵,从公开的基因互作数据库或实验数据构建,/>,D表示度矩阵,A表示邻接矩阵;/>是基因互作图拉普拉斯矩阵的奇异值分解;/>代表的是互作矩阵/>的层数;/>是互作强度的权重,来源于实验数据,例如共免疫沉淀实验;/>是不同层次的互作矩阵,由公开数据库如BioGRID或STRING提供;得到反映基因互作关系的特征矩阵/>
为了确保稀疏性处理后的数据中的基因功能注释保持其原有的结构性,构建结构保留映射矩阵,所述结构保留映射矩阵:
其中,是基因功能注释与时间的变化关系;/> 描述了基因在时间t下的某种疾病的生物学特性;/> 描述了在时间t下的基因功能的不确定性;所述公式积分部分是在整个时间窗口[0,1]内,基于基因的功能注释和其他生物学特性,以及考虑其变异性,对基因进行积分,这样做是为了获得一个全局的、整合的对基因功能和特性的描述;/>是要观察所述描述随时间如何变化,也就是基因的功能注释和其他生物学特性在时间维度上的动态变化,这可以更好地了解基因在不同时间点的行为,并为其在低维空间的映射提供更多的结构信息;
最后进行最终特征提取,将上述相关映射矩阵、特征矩阵、结构保留映射矩阵进行加权合并处理,得到最终的生物信息学特征;
本申请利用主成分分析法、随机投影和压缩感知进行稀疏性处理,在降低数据维度的同时尽量少地丢失信息,通过使用复杂的映射矩阵和图论分析,不仅能增加模型的解释性,还能提高预测的精度。
S2. 基于稀疏性处理后的全基因组数据及生物信息学特征,进行模型构建,得到初步混合模型;
基于稀疏性处理后的全基因组数据及生物信息学特征,使用已处理的数据并考虑基因之间的互作关系,来构建一个结合了传统深度学习和图神经网络的模型,即初步混合模型;
首先,构建基因互作图,创造一个基因之间互作的图形结构,为后续的图神经网络提供结构基础,具体过程如下:
第一步,数据获取;通过访问BioGRID或STRING数据库,下载相关物种的基因互作数据;
其中:和/>分别代表基因i和基因j,它们是从数据库中提取的基因标识符;/>代表它们之间的互作权重或得分,这可能来自实验数据,体现两基因互作的强度或可信度;得到基因互作数据集/>;这是构建基因互作图的原始数据,但需要进一步清洗和筛选;
第二步,数据预处理;对基因互作数据集进行清理和筛选,确保只保留质量较高或得分较高的互作关系:
其中,是一个根据专家经验法预定义的权重阈值,决定了保留的基因互作关系的质量标准;得到经过筛选的基因互作数据集/>;为下一步的图结构构建提供数据基础;
第三步,构建图结构;利用经过筛选的基因互作数据集来构建基因互作图/>
其中,是顶点集,代表基因,由数据集/>中的所有唯一基因组成;/>是边集,代表互作关系,由数据集/>中的每个基因对/>决定;得到基因互作图/>;为后续图神经网络算法提供了基于基因互作关系的图结构;
第四步,图属性分析;对于基因互作图,使用图分析工具或库(如NetworkX)来计算基因互作图/>的一些关键属性,如节点的度、图的直径、聚类系数;得到基因互作图/>的结构属性报告;对基因互作图/>的属性和结构特点有初步了解,可以为后续的图神经网络设计和分析提供有用的信息;
进一步,对于稀疏性处理后的全基因组数据,使用多层神经网络处理,即使用卷积神经网络(因为它能捕捉局部特征)和长短时记忆网络(因为它可以捕捉基因之间的长期依赖关系);对于基因互作图,使用图神经网络,如GCN (Graph Convolutional Network)来处理,再将两个网络的输出利用融合策略进行融合,即将两个网络中的输出在输出维度上进行拼接,保留两个网络的所有输出信息;
本申请通过传统的深度学习模型(如卷积神经网络和长短时记忆网络)处理结构化的数据并捕获局部特征和长期依赖关系。结合图神经网络,模型可以更好地捕获基因之间复杂的互作关系,使用基于基因互作的图神经网络可以使我们更准确地预测那些涉及多基因互作的复杂生物过程或疾病,如多基因遗传疾病或复杂的表型性状。
S3. 对初步混合模型进行模型训练、正则化与解释性增强处理,得到训练好的模型权重与其解释性分析;
根据网络的结构,将稀疏性处理后的全基因组数据划分为训练集、验证集和测试集;
进一步,利用批量梯度下降进行模型训练,找到最优参数以使模型在预测时表现最佳,得到经过初步训练的模型权重;
进一步,为了引导模型学习生物学上有意义的特征,在损失函数中加入基于知识图谱的约束项,得到受知识图谱约束的模型权重;具体过程如下:
第一步,知识图谱数据解析;扫描知识图谱中的所有节点,记录每一个节点及其属性;提取知识图谱实体:记录所有实体为集合,其中每个实体/>表示一个基因或与基因相关的生物学实体;提取与基因组数据相关的生物学关系:扫描知识图谱中的所有边,记录每一条边及其两端的实体;记录所有关系为集合/>,其中每个关系/>表示实体/>与实体/>之间的生物学关系;得到关系集合/>;提取与预测目标相关的关系:从实体集合/>中选取与目标预测相关的实体集合/>;从关系集合/>中选取与/>相关的关系集合/>;得到与目标预测相关的实体集合/> 和关系集合/>
第二步,构建约束项;结构化输出信息:构建一个关系矩阵,其尺寸为/>,对于每个关系 />在/>中,将矩阵/>的第/>行和/>列的交点处的值设为一个正数,表示两个实体的关联强度,得到关系矩阵/>
第三步,修改损失函数;将基于知识图谱的约束融入损失函数,引导模型学习,得到融合了知识图谱约束的损失函数;
第四步,优化模型;利用所述融合了知识图谱约束的损失函数使用批量梯度下降法进行模型训练,得到受知识图谱约束的模型权重;
进一步,为提高模型的训练速度和稳定性,防止过拟合,在每一个网络层的输出后加入正则化层,得到带有正则化的模型权重;
进一步,为了提供模型预测的透明性,使用SHAP、LIME等工具对带有正则化的模型权重进行分析,得到模型权重以及每个特征的重要性得分或局部解释模型;
最后,利用现有技术使用验证集评估模型性能,验证模型的准确性和鲁棒性,得到模型的准确性、损失以及其他相关指标的评估报告;
本申请通过知识图谱的约束,模型能够结合现有的生物学知识进行学习,这样不仅使得预测结果更加准确,同时也增强了模型的可靠性,结合了深度学习技术与生物信息学知识,其预测结果和解释不仅可以应用于医学诊断和治疗,还可以为生物学研究提供有价值的方向和建议,推动生物医学领域的创新和进展。
S4. 基于训练好的模型权重和待预测的全基因组数据进行学习与不确定性估计,得到集成预测结果及其不确定性;
将待预测的全基因组数据通过训练好的初步的混合模型的各层进行前向传播计算,得到集成预测结果;
为了对集成预测结果提供一个不确定性范围,帮助研究人员或医生更好地理解模型的可信度,进行不确定性估计,具体过程如下:
首先,将确定性权重转换为概率分布形式,有:
其中,是在给定数据D后,第i个和第j个神经元之间权重的后验概率;是给定权重后观察到数据D的概率(似然性);/>是权重的先验分布;/>是数据D的边缘概率(常数);权重现在不再是单一值,而是一个分布,表示对权重的信心或不确定性;
为了估计权重的不确定性,引入二值化神经网络,使用二值化神经网络(BNN)的权重分布,估算输出的不确定性:
其中:是第k次从BNN采样得到的输出;/>是从输入数据的第i,j元素的权重的后验分布中进行的第k次采样;/>是输入数据的第i,j元素的第k次采样(这通常是固定的,因为输入数据是确定的);上述公式描述了如何从BNN产生不确定性输出。
进一步,为了确保权重的后验分布不会过于集中(过拟合),对其进行正则化:
其中:是原始损失;/>是正则化系数;/>是权重的先验分布;正则化确保BNN不会完全信任训练数据,还考虑到先验知识;
上述过程引起计算负荷增加,导致计算时间过长;
进一步,采用蒙特卡洛方法估算输出的不确定性,进行近似估计,同时使用矩阵分解技术来减少计算负荷:
其中,是总采样次数;/>是M次采样的平均输出;/>是第m次采样的第k个输出;所述公式描述了如何从BNN得到的多次输出样本中计算输出的方差(不确定性)。
进一步,为了在有限的时间内得到可靠的不确定性估计,利用低秩矩阵分解来近似权重矩阵:
其中,、/>和/>是权重矩阵/>的低秩近似表示;其中,/>表示左向量矩阵,列向量是权重矩阵/>的正交基,/>是对角矩阵,其对角线上的元素为奇异值,且按降序排列,这些奇异值是权重矩阵/>的非零正方根特征值,/>是右向量的转置矩阵,它的行向量是权重矩阵/>的另一个正交基;所述低秩矩阵分解允许用更少的计算来估计不确定性,同时保留大部分原始信息;
本申请通过引入权重的不确定性评估,为研究人员和医生提供了一种理解模型预测可靠性的方法,通过蒙特卡洛方法进行不确定性估计,可以近似地计算出模型输出的方差,提供了一种快速的不确定性估计方法,避免了复杂的计算,使用低秩矩阵分解技术近似权重矩阵,这使得在有限的时间内进行不确定性估计成为可能,同时还能保留大部分原始信息。
S5. 基于集成预测结果、解释性分析及其不确定性估计,进行个性化医疗建议与决策辅助,得到个性化医学建议、特定疾病或性状的基因候选列表及医学或生物学研究方向。
在进行个性化医疗建议与决策辅助时,首先为后续分析提供整齐、一致且完整的数据是关键。通过整合模型预测结果、解释性分析及不确定性估计,并对这些数据进行格式化处理,确保了数据的一致性和准确性,为后续的解释性分析和医学建议提供了坚实的数据基础;
接着,为确定与特定疾病或性状强烈相关的基因,一方面利用解释性分析结果筛选出与目标疾病或性状相关的基因,另一方面则采用统计方法,如卡方检验或Fisher精确检验,来验证这些基因与疾病之间的确切关联。这样得到的基因列表为后续的个性化医学建议提供了候选基因;
在这基础上,结合病患的具体临床信息显得尤为重要,通过从医疗数据库或电子病历中提取病患的临床信息,并与之前的基因信息整合,构建了一个包含基因信息和临床信息的综合档案,这样的档案不仅为医学建议提供了临床背景,也使得建议更具针对性和个性化;
当所述综合档案完成之后,基于其中的数据,可以利用专家系统来生成具体的治疗建议,更进一步,考虑到模型预测的不确定性,可以为每个建议分配一个可信度分数,这不仅为医生或患者提供了更加精确和有针对性的医疗建议,也增加了建议的可靠性;
最后,为了充分利用模型的预测结果来辅助医生或研究人员做出决策,预测的不确定性被用作医学决策的参考依据。例如,可以采用贝叶斯方法来估计决策的后验概率。当结合其他临床数据,如影像学和生化指标等,这种决策支持工具或报告为医生提供了一个全面、深入的参考,帮助他们做出更加明智的决策。
综上所述,便完成了本申请所述的一种基于深度学习的全基因组预测方法。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、本申请利用主成分分析法、随机投影和压缩感知进行稀疏性处理,在降低数据维度的同时尽量少地丢失信息,通过使用复杂的映射矩阵和图论分析,不仅能增加模型的解释性,还能提高预测的精度。
2、本申请通过卷积神经网络和长短时记忆网络处理结构化的数据并捕获局部特征和长期依赖关系,结合图神经网络,模型可以更好地捕获基因之间复杂的互作关系,使用基于基因互作的图神经网络可以使我们更准确地预测那些涉及多基因互作的复杂生物过程或疾病,如多基因遗传疾病或复杂的表型性状。
3、本申请通过知识图谱的约束,模型能够结合现有的生物学知识进行学习,这样不仅使得预测结果更加准确,同时也增强了模型的可靠性,结合了深度学习技术与生物信息学知识,其预测结果和解释不仅可以应用于医学诊断和治疗,还可以为生物学研究提供有价值的方向和建议,推动生物医学领域的创新和进展。
4、本申请通过引入权重的不确定性评估,提供了预测可靠性的方法,通过蒙特卡洛方法进行不确定性估计,可以近似地计算出模型输出的方差,提供了一种快速的不确定性估计方法,避免了复杂的计算,使用低秩矩阵分解技术近似权重矩阵,这使得在有限的时间内进行不确定性估计成为可能,同时还能保留大部分原始信息。
效果调研:
本申请的技术方案能够有效解决在进行全基因组预测时,预测不够准确以及模型不稳定的技术问题,并且,上述系统或方法经过了一系列的效果调研,通过利用主成分分析法、随机投影和压缩感知进行稀疏性处理,在降低数据维度的同时尽量少地丢失信息,通过使用复杂的映射矩阵和图论分析,不仅能增加模型的解释性,还能提高预测的精度;通过卷积神经网络和长短时记忆网络处理结构化的数据并捕获局部特征和长期依赖关系,结合图神经网络,模型可以更好地捕获基因之间复杂的互作关系,使用基于基因互作的图神经网络可以使我们更准确地预测那些涉及多基因互作的复杂生物过程或疾病,如多基因遗传疾病或复杂的表型性状;通过知识图谱的约束,模型能够结合现有的生物学知识进行学习,这样不仅使得预测结果更加准确,同时也增强了模型的可靠性,结合了深度学习技术与生物信息学知识,其预测结果和解释不仅可以应用于医学诊断和治疗,还可以为生物学研究提供有价值的方向和建议,推动生物医学领域的创新和进展;引入权重的不确定性评估,提供了预测可靠性的方法,通过蒙特卡洛方法进行不确定性估计,可以近似地计算出模型输出的方差,提供了一种快速的不确定性估计方法,避免了复杂的计算,使用低秩矩阵分解技术近似权重矩阵,这使得在有限的时间内进行不确定性估计成为可能,同时还能保留大部分原始信息。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.基于深度学习的全基因组预测方法,其特征在于,包括以下步骤:
S1. 获取全基因组数据,并对获取的全基因组数据进行数据清洗、数据稀疏性处理以及生物信息学特征提取;
S2. 基于稀疏性处理后的全基因组数据及生物信息学特征,进行模型构建,得到初步混合模型;
S3. 对初步混合模型进行模型训练、正则化与解释性增强处理,得到训练好的模型权重与其解释性分析;
S4. 基于训练好的模型权重和待预测的全基因组数据进行学习与不确定性估计,得到集成预测结果及其不确定性;
S5. 基于集成预测结果、解释性分析及其不确定性估计,进行个性化医疗建议与决策辅助。
2.根据权利要求1所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S1中,具体包括:
对清洗后的全基因组数据进行数据稀疏性处理,在进行数据稀疏性处理时,对清洗后的全基因组数据利用主成分分析法进行降维。
3.根据权利要求2所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S1中,还包括:
在进行数据稀疏性处理时,引入压缩感知的随机投影。
4.根据权利要求3所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S1中,还包括:
在进行数据稀疏性处理时,引入稀疏自动编码器。
5.根据权利要求4所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S1中,还包括:
对稀疏性处理后的全基因组数据进行生物信息学特征提取。
6.根据权利要求1所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S2中,具体包括:
在进行模型构建时,构建基因互作图,创造基因之间互作的图形结构,具体过程如下:
第一步,数据获取;
第二步,数据预处理;
第三步,构建图结构;
第四步,图属性分析。
7.根据权利要求1所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S3中,具体包括:
利用批量梯度下降进行模型训练,找到最优参数以使模型在预测时表现最佳,得到经过初步训练的模型权重。
8.根据权利要求7所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S3中,还包括:
在损失函数中加入基于知识图谱的约束项,得到受知识图谱约束的模型权重。
9.根据权利要求8所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S3中,还包括:
在模型的每一个网络层的输出后加入正则化层,得到带有正则化的模型权重;使用SHAP、LIME工具对所述带有正则化的模型权重进行分析,得到模型权重以及每个特征的重要性得分或局部解释模型。
10.根据权利要求1所述的基于深度学习的全基因组预测方法,其特征在于,在所述步骤S4中,具体包括:
进行不确定性估计,将确定性权重转换为概率分布形式,引入二值化神经网络,使用所述二值化神经网络的权重分布,估算输出的不确定性;为了确保权重的后验分布不会过于集中,对其进行正则化;采用蒙特卡洛方法估算输出的不确定性,进行近似估计,同时使用矩阵分解技术。
CN202311218507.XA 2023-09-21 2023-09-21 基于深度学习的全基因组预测方法 Active CN116959585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311218507.XA CN116959585B (zh) 2023-09-21 2023-09-21 基于深度学习的全基因组预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311218507.XA CN116959585B (zh) 2023-09-21 2023-09-21 基于深度学习的全基因组预测方法

Publications (2)

Publication Number Publication Date
CN116959585A true CN116959585A (zh) 2023-10-27
CN116959585B CN116959585B (zh) 2023-12-12

Family

ID=88458770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311218507.XA Active CN116959585B (zh) 2023-09-21 2023-09-21 基于深度学习的全基因组预测方法

Country Status (1)

Country Link
CN (1) CN116959585B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117802249A (zh) * 2024-03-01 2024-04-02 中国海洋大学三亚海洋研究院 一种东星斑全基因组snp芯片的制备方法及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法
US20190122073A1 (en) * 2017-10-23 2019-04-25 The Charles Stark Draper Laboratory, Inc. System and method for quantifying uncertainty in reasoning about 2d and 3d spatial features with a computer machine learning architecture
CN109727641A (zh) * 2019-01-22 2019-05-07 袁隆平农业高科技股份有限公司 一种全基因组预测方法及装置
CN116246705A (zh) * 2023-05-10 2023-06-09 国家食品安全风险评估中心 全基因组测序数据的分析方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法
US20190122073A1 (en) * 2017-10-23 2019-04-25 The Charles Stark Draper Laboratory, Inc. System and method for quantifying uncertainty in reasoning about 2d and 3d spatial features with a computer machine learning architecture
CN109727641A (zh) * 2019-01-22 2019-05-07 袁隆平农业高科技股份有限公司 一种全基因组预测方法及装置
CN116246705A (zh) * 2023-05-10 2023-06-09 国家食品安全风险评估中心 全基因组测序数据的分析方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈栋: "《基于机器学习的猪生长性状基因组预测》", 《遗传》, pages 1 - 11 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117802249A (zh) * 2024-03-01 2024-04-02 中国海洋大学三亚海洋研究院 一种东星斑全基因组snp芯片的制备方法及应用

Also Published As

Publication number Publication date
CN116959585B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
Fleming et al. Unsupervised removal of systematic background noise from droplet-based single-cell experiments using CellBender
US11651860B2 (en) Drug efficacy prediction for treatment of genetic disease
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
JP2022031730A (ja) 確率分布をモデル化するためのシステムおよび方法
WO2002026934A2 (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN115136242A (zh) 来自大量组织转录组的准确稳健的信息反卷积
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
US20220093224A1 (en) Machine-Learned Quality Control for Epigenetic Data
CN113160886B (zh) 基于单细胞Hi-C数据的细胞类型预测系统
US20230326542A1 (en) Genomic sequence dataset generation
CN111164701A (zh) 针对靶标定序的定点噪声模型
CN114999661A (zh) 皮肤癌识别模型的构建方法、皮肤癌识别装置、电子设备
CN115769300A (zh) 变体致病性评分和分类及其用途
US20200105374A1 (en) Mixture model for targeted sequencing
CN114171110B (zh) 一种基于联合似然的孟德尔随机化分析方法
CN108280327B (zh) 一种提高样本库样本多样性的出库方法
Sinha et al. A study of feature selection and extraction algorithms for cancer subtype prediction
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
KR102534968B1 (ko) 암 발생여부를 진단 또는 예측하는 방법
CN113035363A (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法
CN116564523A (zh) 基于深度概率模型的患者聚类和生存风险预测方法及系统
Ruffini Better scoring schemes for the recognition of functional proteins by protomata
KR20220111847A (ko) 복합 생체 표지 네트워크 기반 질병 위험도 진단 방법
CN117877573A (zh) 一种利用伊辛模型的多基因遗传风险评估模型的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant