CN116230070A - 一种转录因子靶基因关系预测方法、系统、设备和介质 - Google Patents

一种转录因子靶基因关系预测方法、系统、设备和介质 Download PDF

Info

Publication number
CN116230070A
CN116230070A CN202310238333.7A CN202310238333A CN116230070A CN 116230070 A CN116230070 A CN 116230070A CN 202310238333 A CN202310238333 A CN 202310238333A CN 116230070 A CN116230070 A CN 116230070A
Authority
CN
China
Prior art keywords
transcription factor
target gene
neural network
network data
dna sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310238333.7A
Other languages
English (en)
Inventor
马珂
郭菲
唐继军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University Of Technology Preparatory
Original Assignee
Shenzhen University Of Technology Preparatory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University Of Technology Preparatory filed Critical Shenzhen University Of Technology Preparatory
Priority to CN202310238333.7A priority Critical patent/CN116230070A/zh
Publication of CN116230070A publication Critical patent/CN116230070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本发明提供一种转录因子靶基因关系预测方法、系统、设备和介质,方法包括:获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列并编码,得到编码序列;获取待预测物种的蛋白质和遗传相互作用网络数据及转录因子靶基因相互作用网络数据;基于编码序列、蛋白质和遗传相互作用网络数据以及转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。本发明可以避免基因表达数据缺失值多以及结合位点预测不准确的问题;同时,可以根据已有基因调控网络的拓扑结构实现大规模的转录因子‑靶基因潜在关系预测。

Description

一种转录因子靶基因关系预测方法、系统、设备和介质
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基于图神经网络的转录因子靶基因关系预测方法、系统、设备和介质。
背景技术
在生命过程中,生物体通过基因表达将遗传信息进行转录和翻译,从而表现出相应的性状。基因的表达过程受到转录因子的调控。基因调控是一个复杂的生物过程,在不同的时间和空间条件下,单个转录因子可以激活或抑制大量下游靶基因的转录,而一个靶基因又可以受到不同转录因子的调控。转录因子的靶基因研究对理解生物体分子机制、生命系统的发育过程和疾病诊断治疗具有重要意义。在基因组学的研究中,有许多实验方法和计算方法可以预测受转录因子调控的靶基因,但目前的方法受制于数据可用性、大规模数据缺乏、基因数目庞大等问题,因而需要新的数据和方法实现靶基因预测。
现有的预测转录因子靶基因关系的计算方法主要分为根据基因表达水平推测的方法和间接预测转录因子结合位点的方法。转录因子可以调控靶基因表达的上升和下调,使经过转录、翻译产生的蛋白质增多或减少,因而可以利用转录因子与靶基因表达水平的相关性来预测调控关系。基因表达数据可以划分为稳态基因表达数据和时间序列基因表达数据。利用稳态基因表达数据预测转录因子调控的靶基因广泛采用基于信息论的方法、基于贝叶斯建模的方法和基于布尔网络的方法。基于线性或非线性常微分方程和基于机器学习的方法可以利用时间序列基因表达数据预测受转录因子调控的靶基因。转录因子靶基因关系的预测可以间接通过其在基因组上的物理结合位置来推测,现有的预测转录因子结合位点的方法主要有机器学习和深度学习方法。
文献Reconstruction of gene regulatory networks from gene expressiondata using decoupled recurrent neural network model公开了基于循环神经网络模型从基因表达数据中推断基因调控网络,其使用差异进化算法推断每个基因的调控因子,并使用实验验证分析了真实的基因表达谱。在基于表达水平预测的方法中,最大的挑战就是表达数据中存在大量的缺失值,这会导致丢失信息过多,从而极大地降低了预测调控关系的准确度。文献Using Bayesian networks to construct gene regulatory networksfrom microarray data根据贝叶斯网络具有处理缺失值的能力,提出了从酿酒酵母和大肠杆菌基因表达数据集构建基因调控关系网络的贝叶斯模型。微分方程可用来对时序基因表达数据建模预测转录因子可能调控的靶基因,随机微分方程可以模拟不规则布朗运动引起的动态扩散过程,文献A stochastic differential equation model for quantifyingtranscriptional regulatory network in Saccharomyces cerevisiae基于随机微分方程实现了酿酒酵母转录调控网络的推断,该方法使用一组假定的调节因子来拟合广义线性模型,从而估计特定靶基因与调控因子的结合模型。
除了基因表达数据,还可以利用跨细胞类型的组蛋白修饰和染色质可访问性数据之间的相关性来检测结合位点和靶基因之间调控关系。在间接预测转录因子结合位点的方法中,文献predicting transcription factor regulators and gene regulatorynetworks in Arabidopsis using publicly available binding site information利用公开的转录因子结合位点信息预测一组共表达或功能相关基因的潜在调控因子,该方法定义了三种与基因翻译起始位点和终止位点相关的基因区域类型,利用概率质量函数和超几何分布计算在这些区域寻找可能的结合位点,根据预测结果重建了拟南芥的基因调控网络。
基于基因表达量预测方法主要的缺点之一就是表达数据比较稀疏,缺失值较多,需要结合一些插补缺失值的方法提高预测准确率;而基于转录因子结合位点的方法间接利用结合位点的信息,由于转录因子结合位点在基因组上分布广泛,不同的转录因子结合位置一般不同,一些转录因子倾向结合距靶基因转录起始点较近的启动子区域,另外有一些转录因子可能会结合距转录起始位点较远的增强子区域,所以利用间接预测转录起始位点来推断转录因子的调控关系可能会出现很多的假阳性,无法做出准确的预测。对于目前已有的数学模型和机器学习模型,随着转录因子靶基因关系数量增多,模型的复杂度会呈指数级增长,难以完成全基因组的调控关系预测任务。
发明内容
为了解决上述现有技术的问题,本发明提供一种转录因子靶基因关系预测方法、系统、设备和介质,本发明采用基因序列数据和已知的遗传和蛋白质相互作用网络数据,可以避免基因表达数据缺失值多,以及结合位点预测不准确的问题;利用图神经网络方法解决生物网络中的链路预测问题,可以很好地实现大规模的转录因子靶基因关系预测。
发明通过以下技术方案实现:
一种转录因子靶基因关系预测方法,包括:
S1,获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列,并对编码转录因子的DNA序列和靶基因的DNA序列进行编码,得到编码序列;其中,所述转录因子和靶基因的相互作用关系已知;
S2,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与S1中的转录因子和靶基因相对应;
S3,获取待预测物种的转录因子靶基因相互作用网络数据,其中,所述转录因子靶基因相互作用网络数据是S1中所述转录因子和靶基因的相互作用网络数据;
S4,基于S1获取的编码序列、S2获取的蛋白质和遗传相互作用网络数据以及S3获取的转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;
S5,采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。
优选的,S1中,从NCBI数据库中获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列。
优选的,S1中,采用k-mers编码方式对编码转录因子的DNA序列和靶基因的DNA序列进行编码。
优选的,S2中,从BioGRID数据库中获取待预测物种的蛋白质和遗传相互作用网络数据。
优选的,S4具体为:
基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;对图神经网络模型进行模型训练。
优选的,S4中,所述图神经网络模型为基于个性化PageRank的图神经网络模型。
优选的,S5具体为:
S51,获取待预测物种编码转录因子的DNA序列和候选靶基因的DNA序列,并对编码转录因子的DNA序列和候选靶基因的DNA序列进行编码,得到编码序列;
S52,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与S51中的所述转录因子和候选靶基因相对应;
S53,将S52中所述蛋白质和遗传相互作用网络数据与S51中的编码序列拼接起来,提取转录因子和候选靶基因的特征,进行特征融合,所得融合特征输入图神经网络模型进行转录因子靶基因相互作用关系的预测。
一种转录因子靶基因关系预测系统,包括:数据获取模块、模型构建与训练模块和预测模块;
数据获取模块,用于获取待预测物种编码转录因子的DNA序列、靶基因的DNA序列、蛋白质和遗传相互作用网络数据及转录因子靶基因相互作用网络数据;
数据处理模块,用于对编码转录因子的DNA序列和靶基因的DNA序列进行编码,得到编码序列;
模型构建及训练模块,用于基于编码序列、蛋白质和遗传相互作用网络数据以及转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;
预测模块,用于采用训练后的图神经网络模型预测待预测物种的转录因子靶基因相互作用关系。
优选的,所述模型构建及训练模块,包括模型构建模块和训练模块;
模型构建模块,用于基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;
训练模块,用于对构建得到的图神经网络模型进行训练。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述转录因子靶基因关系预测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述转录因子靶基因关系预测方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
本发明采用的数据是基因序列数据及已知的遗传和蛋白质相互作用网络数据,这些数据的获取无需进行生物实验,可以直接从公开数据库中下载,因此无需耗费大量时间成本和实验成本获取基因的表达数据和表达图谱信息,可以避免基因表达数据缺失值多以及结合位点预测不准确的问题。同时,本发明利用先验的转录因子-靶基因调控关系,试图发现转录因子在调控靶基因时的结合模式,使用深度学习中的图神经网络方法可以根据已有基因调控网络的拓扑结构实现大规模的转录因子-靶基因潜在关系预测,同时也有较高的准确率。
进一步的,本发明将基于个性化传播的图神经网络模型应用于解决生物调控网络预测问题,该方法可以解决图神经网络层数过多容易趋于平滑的问题。
附图说明
图1为DNA序列的3-mer编码示意图;
图2为本发明转录因子靶基因相互作用预测方法流程示意图;
图3为本发明转录因子靶基因相互作用预测方法流程框图;
图4为不同图神经网络模型的预测效果比较结果;
图5为不同k值时模型预测的AUROC的大小比较结果;
图6为不同k值时模型预测的AUPR的大小比较结果。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明进行描述,这些描述只是进一步解释本发明的特征和优点,并非用于限制本发明的权利要求。
转录因子和靶基因的部分相互作用关系是已知的,本发明的目的是基于这些已知的相互作用去预测潜在的相互作用关系。本发明旨在利用基因序列等公开数据库的数据发掘表达过程中的调控模式,从而预测转录因子与基因之间的相互作用。本发明利用图神经网络方法解决生物网络中的链路预测问题,可以很好地实现大规模的转录因子靶基因关系预测。
本发明利用深度学习方法对转录因子靶基因关系进行预测,主要研究内容包括:
(1)DNA序列不能直接作为图神经网络模型的输入,本发明将由“A”、“C”、“G”、“T”组成的基因序列使用k-mers编码方式进行编码,提取基因序列的上下文信息和隐含语义信息,使图神经网络模型可以捕捉到基因序列中潜在的转录因子与靶基因结合模式信息。
(2)引入遗传和蛋白质相互作用网络数据,将其与编码后的基因序列融合在一起作为输入特征构建图神经网络模型。遗传和蛋白质相互作用网络表征了基因和转录因子之间的功能相关性,结合基因的功能特征和序列特征,判断该基因是转录因子的靶基因还是非靶基因。
(3)本发明使用基于个性化传播的图神经网络模型训练已知的转录因子靶基因相互作用网络数据,发掘图节点之间的相关性,根据已知的转录因子靶基因相互作用网络数据尽可能准确地预测转录因子调控的潜在靶基因。
如图2和图3所示,本发明的具体实施过程如下:
S1,首先从NCBI(National Center for Biotechnology Information)数据库中获取待预测物种的染色体上编码转录因子的DNA序列和靶基因的DNA序列,采用k-mers编码方式对编码转录因子的DNA序列和靶基因的DNA序列进行嵌入表示,得到编码序列。其中,所述转录因子和靶基因的相互作用关系已知。
近年来,使用DNA序列作为深度学习模型输入的研究增多,表明DNA序列隐含生物分子相互作用机制的相关信息。长DNA序列的普遍表示之一是将其分解为较短的k-mer成分,许多应用中,短序列k-mer被认为是相关的。DNA2vec(Consistent vectorrepresentations of variable-length k-mers)是2017年提出的基于word2vec词向量模型(Efficient estimation of word representations in vector space)的方法,该模型利用人类全基因组序列作为学习语料库,将每个k-mer嵌入到100维连续向量中。因此,可以使用DNA2vec中预训练的k-mer向量编码基因序列。根据k-mer组装DNA序列,可以将3000bp的序列嵌入到(3000-k+1,100)维的向量空间中,以3-mer为例,DNA2vec编码基因序列如图1所示。
图1是使用k-mers编码DNA序列的示意图(图中取k等于3),首先使用滑动窗口把一条完整的基因序列划分了由3个碱基组成的子序列,接着根据DNA2vec预训练向量将每个子序列映射为相对应的向量。
S2,接着,从BioGRID(Biological General Repository for InteractionDatasets)数据库中下载待预测物种的蛋白质和遗传相互作用网络数据。其中,所述蛋白质和遗传相互作用网络数据与S1中的转录因子和靶基因相对应。
具有相似调控关系的转录因子和被同一转录因子共同调控的靶基因往往在功能上也具有相似性,基因之间的蛋白质和遗传相互作用网络数据中包含基因和蛋白质功能的相关信息,所以本发明认为蛋白质和遗传相互作用对转录因子调控的潜在靶基因预测有较为重要的影响。
S3,从TFlink和Yeastract数据库中获取待预测物种的转录因子靶基因相互作用网络数据,其中,所述转录因子靶基因相互作用网络数据是S1中所述转录因子和靶基因的相互作用网络数据。所述转录因子靶基因相互作用网络数据一部分作为训练集用于进行S4的步骤,一部分作为测试集用于进行S5的步骤。
S4,基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的主要特征,进行特征融合,将得到的融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型。对图神经网络模型进行模型训练。
转录因子靶基因相互作用网络可以表示为一种图结构,预测转录因子与靶基因之间是否具有调控关系即定义为链接预测问题。本发明优选利用基于个性化传播的图神经网络算法,在基因节点和转录因子节点之间进行网络传播,基于所有邻居节点更新每个节点的特征,从而得到包含关键信息的抽象特征。
基于个性化传播的图神经网络模型将PageRank与图神经网络(GCN)相结合,参考PageRank的节点传播方式,形成了一种改进的基于个性化PageRank的邻接特征传播方式。模型根据每个节点的自身特征生成预测,然后通过完全个性化的PageRank方案传播它们,根据邻居节点特征及自身特征不断迭代更新目标节点的特征,以生成最终预测。
最终得到的特征可以使用双线性解码器来预测一对转录因子靶基因之间的相互作用关系。
S5,在测试集上评价训练后的图神经网络模型的预测效果。
S6,采用训练后的图神经网络模型识别待预测物种的潜在的转录因子靶基因相互作用关系。
从NCBI数据库中获取待预测物种的编码转录因子的DNA序列和候选靶基因的DNA序列,采用k-mers编码方式对编码转录因子的DNA序列和候选靶基因的DNA序列进行嵌入表示。其中,所述转录因子和候选靶基因的相互作用关系未知。
从BioGRID数据库中下载待预测物种的蛋白质和遗传相互作用网络数据。其中,所述蛋白质和遗传相互作用网络数据与该步骤上述转录因子和候选靶基因相对应。
将蛋白质和遗传相互作用网络数据与该步骤中的DNA序列的嵌入表示拼接起来,提取转录因子和候选靶基因的主要特征、进行特征融合,然后输入图神经网络模型进行转录因子靶基因相互作用关系的预测。
图2是本发明的完整流程图,模块A表示将转录因子和靶基因的DNA序列以及遗传和蛋白质相互作用网络数据转化为数值信息并进行拼接;模块B是使用全连接层对拼接的结果进行特征提取和特征融合。模块C表示基于已知的转录因子靶基因相互作用关系构建调控网络图;模块D表示将提取到的特征作为调控网络图中中节点的特征,并使用基于个性化传播的图神经网络进行信息传递、更新节点信息。模块E是使用双线性解码器预测每对转录因子-靶基因之间的调控分数,并使用交叉熵损失函数训练图神经网络模型。
本发明中,预测物种可以是秀丽隐型线虫、果蝇、人类、小鼠、大鼠、酿酒酵母。
本发明方法经过以下实验进行了验证:
本发明从TFlink和Yeastract数据库中获取了秀丽隐型线虫(Caenorhabditiselegans)、果蝇(Drosophila melanogaster)、人类(Homo sapiens)、小鼠(Mus musculus)、大鼠(Rattus norvegicus)、酿酒酵母(Saccharomyces cerevisiae)6个物种的转录因子靶基因调控关系,针对这6个不同物种的数据分别进行实验。
在本发明构建的图神经网络模型中,使用的是基于个性化传播的图神经网络算法,该方法可以解决图神经网络层数过多容易趋于平滑的问题。为了体现该模型的有效性,将该模型与其他三个经典图神经网络模型进行对比,实验结果如图4所示。图4是在6个物种数据集上使用不同方法预测的AUROC和AUPR的比较。将本发明(AutoPPTGI)与图卷积网络(GCN)、图聚合网络(GraphSAGE)和图注意力网络(GAT)进行对比,从图中可以看出,6个数据集中,与其它模型相比,本发明基于个性化PageRank的图神经网络模型在AUC和AUPR的预测上取得了最好的表现。
在k-mer编码方式中,使用不同的k划分的短序列不同,模型学习的语义信息也不同,本发明使用6个物种的数据比较了不同k编码DNA序列时图神经网络模型的效果,模型预测的AUROC和AUPR的值如图5、图6所示,由图可知,一般k越大,即子序列的长度越长,就可以更好的表示短序列的意义,图神经网络模型的准确度越高,预测效果越好。
本发明再一实施例中,提供一种转录因子靶基因关系预测系统,能够用于实现上述的转录因子靶基因关系预测方法,具体的,该转录因子靶基因关系预测系统,包括:数据获取模块、模型构建与训练模块和预测模块;
数据获取模块,用于获取待预测物种编码转录因子的DNA序列、靶基因的DNA序列、蛋白质和遗传相互作用网络数据及转录因子靶基因相互作用网络数据;
数据处理模块,用于对编码转录因子的DNA序列和靶基因的DNA序列进行编码,得到编码序列;
模型构建及训练模块,用于基于编码序列、蛋白质和遗传相互作用网络数据以及转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;
预测模块,用于采用训练后的图神经网络模型预测待预测物种的转录因子靶基因相互作用关系。
所述模型构建及训练模块,包括模型构建模块和训练模块;
模型构建模块,用于基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;
训练模块,用于对构建得到的图神经网络模型进行训练。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于转录因子靶基因关系预测方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关转录因子靶基因关系预测方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种转录因子靶基因关系预测方法,其特征在于,包括:
S1,获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列,并对编码转录因子的DNA序列和靶基因的DNA序列进行编码,得到编码序列;其中,所述转录因子和靶基因的相互作用关系已知;
S2,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与S1中的转录因子和靶基因相对应;
S3,获取待预测物种的转录因子靶基因相互作用网络数据,其中,所述转录因子靶基因相互作用网络数据是S1中所述转录因子和靶基因的相互作用网络数据;
S4,基于S1获取的编码序列、S2获取的蛋白质和遗传相互作用网络数据以及S3获取的转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;
S5,采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。
2.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S1中,从NCBI数据库中获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列;S2中,从BioGRID数据库中获取待预测物种的蛋白质和遗传相互作用网络数据。
3.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S1中,采用k-mers编码方式对编码转录因子的DNA序列和靶基因的DNA序列进行编码。
4.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S4具体为:
基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;对图神经网络模型进行模型训练。
5.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S4中,所述图神经网络模型为基于个性化PageRank的图神经网络模型。
6.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S5具体为:
S51,获取待预测物种编码转录因子的DNA序列和候选靶基因的DNA序列,并对编码转录因子的DNA序列和候选靶基因的DNA序列进行编码,得到编码序列;
S52,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与S51中的所述转录因子和候选靶基因相对应;
S53,将S52中所述蛋白质和遗传相互作用网络数据与S51中的编码序列拼接起来,提取转录因子和候选靶基因的特征,进行特征融合,所得融合特征输入图神经网络模型进行转录因子靶基因相互作用关系的预测。
7.一种转录因子靶基因关系预测系统,其特征在于,包括:数据获取模块、模型构建与训练模块和预测模块;
数据获取模块,用于获取待预测物种编码转录因子的DNA序列、靶基因的DNA序列、蛋白质和遗传相互作用网络数据及转录因子靶基因相互作用网络数据;
数据处理模块,用于对编码转录因子的DNA序列和靶基因的DNA序列进行编码,得到编码序列;
模型构建及训练模块,用于基于编码序列、蛋白质和遗传相互作用网络数据以及转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;
预测模块,用于采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。
8.根据权利要求7所述的转录因子靶基因关系预测系统,其特征在于,所述模型构建及训练模块,包括模型构建模块和训练模块;
模型构建模块,用于基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;
训练模块,用于对构建得到的图神经网络模型进行训练。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述转录因子靶基因关系预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任意一项所述转录因子靶基因关系预测方法的步骤。
CN202310238333.7A 2023-03-03 2023-03-03 一种转录因子靶基因关系预测方法、系统、设备和介质 Pending CN116230070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310238333.7A CN116230070A (zh) 2023-03-03 2023-03-03 一种转录因子靶基因关系预测方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310238333.7A CN116230070A (zh) 2023-03-03 2023-03-03 一种转录因子靶基因关系预测方法、系统、设备和介质

Publications (1)

Publication Number Publication Date
CN116230070A true CN116230070A (zh) 2023-06-06

Family

ID=86573053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310238333.7A Pending CN116230070A (zh) 2023-03-03 2023-03-03 一种转录因子靶基因关系预测方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN116230070A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116844645A (zh) * 2023-08-31 2023-10-03 云南师范大学 一种基于多视角分层超图的基因调控网络推断方法
CN117766027A (zh) * 2023-12-28 2024-03-26 北京科技大学 一种dna序列增强子-启动子交互作用识别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116844645A (zh) * 2023-08-31 2023-10-03 云南师范大学 一种基于多视角分层超图的基因调控网络推断方法
CN116844645B (zh) * 2023-08-31 2023-11-17 云南师范大学 一种基于多视角分层超图的基因调控网络推断方法
CN117766027A (zh) * 2023-12-28 2024-03-26 北京科技大学 一种dna序列增强子-启动子交互作用识别方法及装置

Similar Documents

Publication Publication Date Title
CN116230070A (zh) 一种转录因子靶基因关系预测方法、系统、设备和介质
KR20210018333A (ko) 트레이닝된 통계 모델을 사용하는 멀티 모달 예측을 위한 방법 및 장치
JP7247878B2 (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
Jia et al. Constructing non-stationary dynamic Bayesian networks with a flexible lag choosing mechanism
CN114093422B (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其系统
CN112652358A (zh) 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质
Zhang et al. Predicting human splicing branchpoints by combining sequence-derived features and multi-label learning methods
KR20190130446A (ko) 머신 러닝 알고리즘을 이용하여 분자를 설계하는 방법 및 시스템
CN114628001B (zh) 基于神经网络的处方推荐方法、系统、设备及存储介质
Wang et al. A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences
Chen et al. A weighted bagging LightGBM model for potential lncRNA-disease association identification
Guo et al. Deep multi-scale Gaussian residual networks for contextual-aware translation initiation site recognition
CN116992008B (zh) 知识图谱多跳问答推理方法、装置和计算机设备
Nandhini et al. An optimal stacked ResNet-BiLSTM-based accurate detection and classification of genetic disorders
US20240079098A1 (en) Device for predicting drug-target interaction by using self-attention-based deep neural network model, and method therefor
CN116109449A (zh) 一种数据处理方法及相关设备
Li et al. Temperature modeling of wave rotor refrigeration process based on elastic net variable selection and deep belief network
CN114974423A (zh) 基于强化学习的模型训练方法和装置、电子设备及介质
Sambo et al. More: Mixed optimization for reverse engineering—an application to modeling biological networks response via sparse systems of nonlinear differential equations
JP2023510400A (ja) 病原性モデルの適用およびそのトレーニング
Yoo et al. The Five‐Gene‐Network Data Analysis with Local Causal Discovery Algorithm Using Causal Bayesian Networks
Chuang et al. A quantum genetic algorithm for operon prediction
Khan et al. A Hybrid Methodology for the Reverse Engineering of Gene Regulatory Networks
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Dey et al. Computational Reconstruction of Gene Regulatory Networks Using Half-Systems Incorporating False Positive Reduction Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination