CN116805513A - 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 - Google Patents

一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 Download PDF

Info

Publication number
CN116805513A
CN116805513A CN202311066361.1A CN202311066361A CN116805513A CN 116805513 A CN116805513 A CN 116805513A CN 202311066361 A CN202311066361 A CN 202311066361A CN 116805513 A CN116805513 A CN 116805513A
Authority
CN
China
Prior art keywords
node
genes
substep
proteins
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311066361.1A
Other languages
English (en)
Other versions
CN116805513B (zh
Inventor
张永清
熊术文
牛颢
龙树全
丁春利
杨显华
邹权
龚美琴
朱桂全
王紫轩
张峻铭
袁豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN INSTITUTE OF COMPUTER SCIENCES
Chengdu University of Information Technology
Original Assignee
SICHUAN INSTITUTE OF COMPUTER SCIENCES
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN INSTITUTE OF COMPUTER SCIENCES, Chengdu University of Information Technology filed Critical SICHUAN INSTITUTE OF COMPUTER SCIENCES
Priority to CN202311066361.1A priority Critical patent/CN116805513B/zh
Publication of CN116805513A publication Critical patent/CN116805513A/zh
Application granted granted Critical
Publication of CN116805513B publication Critical patent/CN116805513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,涉及生物信息学领域,该方法包括:利用基因与基因的相互作用关系、蛋白质与蛋白质的相互作用关系和基因与蛋白质的对应关系,构建基因与蛋白质的异构网络;构建异构图Transformer模块,并根据异构图Transformer模块和基因与蛋白质的异构网络生成目标节点的嵌入;构建全连接层分类模块,根据全连接层分类模块和目标节点的嵌入生成癌症驱动基因预测结果,并对癌症驱动基因预测结果进行分析。本发明能充分利用不同的生物网络中的实体之间的关联关系,解决了生物网络先验信息未充分利用的问题,进而提升了癌症驱动基因预测的准确性。

Description

一种基于异构图Transformer框架的癌症驱动基因预测与分 析方法
技术领域
本发明涉及生物信息学领域,具体涉及一种基于异构图Transformer框架的癌症驱动基因预测与分析方法。
背景技术
此前,基于传统深度学习的方法已经被广泛应用于生物信息学领域,并取得了一定的成果。Luo等人利用深度卷积神经网络基于体细胞突变数据预测癌症驱动基因。Agajanian等人整合不同的机器学习方法以及深度卷积神经网络,基于原始核苷酸序列预测癌症驱动基因。上述基于传统深度学习的方法的缺陷主要在于它们局限于处理欧式空间的数据。事实上,在生物信息学领域,许多数据属于非欧氏空间,如蛋白质相互作用网络等生物网络。这类数据包含了许多先验的生物信息,但却并未得到有效利用。因此,为了充分利用组学数据和生物网络中包含的互补信息,就需要提出有效的计算方法将不同类型的数据集成到单一框架中,从而提高癌症驱动基因识别的准确率。
现目前,基于图神经网络的方法同时利用节点属性和图拓扑结构,在节点和图表示学习方面取得了很好的成就。本领域为了充分利用生物网络和组学数据中包含的互补信息,本领域已经提出了一些基于图神经网络预测癌症驱动基因的方法。其中,生物网络可以被视为图,每一个节点代表一个生物实体(如基因或者蛋白质等等),每对节点之间的边代表每对生物实体之间的相互作用,组学特征作为生物实体的特征向量。基于图神经网络预测癌症驱动基因的方法可以划分为三类:(1)基于单一组学数据和单一生物网络的方法。这类方法使用单一类型的组学数据作为生物网络中节点的特征,忽略了不同组学数据之间的互补信息。(2)基于多组学数据和单一生物网络的方法。这类方法使用多组学数据作为生物网络中节点的特征,弥补了第一类方法的缺点。但类似于组学数据之间存在互补信息,不同的生物网络之间也存在互补信息,因此这类方法忽略了不同生物网络之间的互补信息。(3)基于多组学数据和多生物网络的方法。这类方法使用多组学数据作为生物网络中节点的特征,并且引入了多种生物网络。然而这类方法以相同的方式分别考虑每个生物网络,未考虑到不同的生物网络中的生物实体也存在联系,如基因编码蛋白质。
综上,现有方法存在两方面的不足:(1)现有方法以相同的方式分别考虑每个生物网络,未考虑不同的生物网络中的实体之间也存在关联,从而未充分利用不同生物网络之间的先验信息。(2)现有方法对获得的生物结果的解释仍然不足。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,能充分利用不同的生物网络中的实体之间的关联关系,进而解决了生物网络先验信息未充分利用的问题。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,包括以下步骤:
S1、利用KEGG通路信息、蛋白质与蛋白质的相互作用关系和基因与蛋白质的对应关系,构建基因与蛋白质的异构网络;
S2、构建异构图Transformer模块,并根据异构图Transformer模块和步骤S1中基因与蛋白质的异构网络生成目标节点的嵌入;
S3、构建全连接层分类模块,根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果,并对癌症驱动基因预测结果进行分析。
进一步地,步骤S1包括以下分步骤:
S11、利用KEGG通路信息构建基因相似性矩阵,并利用基因相似性矩阵构建基因与基因的相互作用网络;
S12、利用蛋白质与蛋白质的相互作用关系,构建蛋白质与蛋白质的相互作用网络;
S13、利用基因与蛋白质的对应关系,构建基因与蛋白质的相互作用网络;
S14、本发明根据分步骤S11中的基因与基因相互作用网络、分步骤S12中的蛋白质与蛋白质相互作用网络和分步骤S13中的基因与蛋白质相互作用网络,构建基因与蛋白质的异构网络,表示为:
其中:为基因与蛋白质的异构网络,/>为节点的集合,每个基因和每个蛋白质分别作为一个节点,/>为节点对之间的边的集合,/>为节点类型的集合,/>为边类型的集合,/>为节点类型的映射函数,/>为边类型的映射函数。
进一步地,步骤S11包括以下分步骤:
S111、获取基因的多组学数据,并对基因的多组学数据进行预处理以得到基因的多组学初始数据;
S112、确定癌症类型,并根据癌症类型和分步骤S111中基因的多组学初始数据构建基因的特征向量;
S113、将分步骤S112中所有基因的特征向量进行拼接,得到基因的特征矩阵;
S114、利用KEGG通路信息构建基因相似性矩阵;
S115、根据分步骤S113中基因的特征矩阵,利用分步骤S114中基因的相似性矩阵,构建基因与基因的相互作用网络。
进一步地,在分步骤S111中,多组学数据包括体细胞突变、拷贝数变异、DNA甲基化和基因表达。
进一步地,在步骤S13中,将基因与蛋白质的异构网络中不同类型节点的特征向量映射到相同的特征空间,表示为:
其中:为节点类型/>中的节点/>映射后的特征,/>为节点的序号,/>为设定于节点类型/>的变换矩阵,/>为节点类型/>中的节点/>的原始特征,/>为节点类型/>的向量偏置项。
进一步地,步骤S2包括以下分步骤:
S21、构建包括多头注意力子模块、多头消息子模块和信息聚合子模块的异构图Transformer模块;
S22、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量;
S23、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头消息子模块获取节点对的多头消息向量;
S24、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量,利用分步骤S21中的信息聚合子模块生成目标节点的嵌入。
进一步地,步骤S22包括以下分步骤:
S221、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块将目标节点映射为查询向量,表示为:
其中:为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的查询向量,/>为注意力头的序号,/>为第/>个注意力头对应的关于目标节点/>的线性映射函数,/>为第/>层的目标节点/>的嵌入,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的目标节点;
S222、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块将源节点映射为键值向量,表示为:
其中:为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的键值向量,/>为第/>个注意力头对应的关于源节点/>的线性映射函数,/>为第/>层的源节点/>的嵌入,/>为基因与蛋白质的异构网络中的源节点;
S223、根据分步骤S221中映射后的目标节点的查询向量和分步骤S222中映射后的源节点的键值向量,利用分步骤S21中的多头注意力子模块获取节点对的注意力头,表示为:
其中:为源节点/>与目标节点/>之间的第/>个注意力头,/>为源节点/>与目标节点/>之间的边,/>为基于边/>的第一转换矩阵,为转置符号,/>为先验张量,/>为源节点/>与目标节点/>之间的元关系,/>为源节点/>经节点类型映射函数映射后的向量,/>为边/>经边类型映射函数映射后的向量,/>为目标节点/>经节点类型映射函数映射后的向量,/>为节点的特征矩阵的维度;
S224、根据分步骤S223中节点对的注意力头,利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量,表示为:
其中:为源节点/>与目标节点/>之间的多头注意力向量,为第一激活函数,/>为目标节点/>的邻居节点的集合,/>为拼接函数,/>为注意力头的数量。
进一步地,步骤S23包括以下分步骤:
S231、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头消息子模块获取节点对的消息头,表示为:
其中:为源节点/>与目标节点/>之间的第/>个消息头,/>为消息头的序号,/>为第/>个消息头对应的关于源节点/>的线性映射函数,/>为第/>层的源节点/>的嵌入,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的源节点,/>为基于边/>的第二转换矩阵,/>为源节点/>与目标节点/>之间的边;
S232、根据分步骤S231中节点对的消息头,利用分步骤S21中的多头消息子模块获取节点对的多头消息向量,表示为:
其中:为源节点/>与目标节点/>之间的多头消息向量,为消息向量符号,/>为拼接函数,/>为注意力头的数量。
进一步地,步骤S24包括以下分步骤:
S241、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量,利用分步骤S21中的信息聚合子模块更新目标节点的嵌入,表示为:
其中:为第/>层目标节点/>更新后的嵌入,/>为基因与蛋白质的异构网络中的目标节点,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的源节点,/>为目标节点/>的邻居节点的集合,/>为信息聚合运算符,/>为源节点/>与目标节点/>之间的多头注意力向量,/>为源节点/>与目标节点/>之间的边,为源节点/>与目标节点/>之间的多头消息向量;
S242、根据分步骤S241中目标节点更新后的嵌入,利用分步骤S21中的信息聚合子模块生成目标节点的嵌入,表示为:
其中:为第/>层的目标节点/>的嵌入,/>为第二激活函数,/>为关于目标节点/>的线性映射函数,/>为第/>层的目标节点/>的嵌入。
进一步地,在步骤S3中,根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果,表示为:
其中:为预测的癌症驱动基因的得分,/>为第三激活函数,/>为展平层函数,/>为节点嵌入,/>为全连接层的权重矩阵,/>为全连接层的偏置向量。
本发明具有以下有益效果:
(1)本发明通过构建基因与蛋白质的异构网络,并利用构建的异构图Transformer模块和全连接层分类模块,能起到充分利用不同生物网络中实体之间的关联关系的效果,进而解决了生物网络先验信息未充分利用的问题;
(2)本发明通过构建基因与基因的相互作用网络和蛋白质与蛋白质的相互作用网络,并利用基因与蛋白质的对应关系,进而构建了基因与蛋白质的异构网络,能将基因与基因、蛋白质与蛋白质以及基因与蛋白质之间的相互作用关系作为先验信息;
(3)本发明通过构建异构图Transformer模块,实现了对不同类型节点和边的表征,有效解决了不同数据间的高维异构性,实现了数据融合,进而更加充分地利用基因与蛋白质的异构网络中的先验信息,更好地学习基因与蛋白质的异构网络中不同生物实体之间的相互作用来提高图卷积网络的预测能力。
附图说明
图1为一种基于异构图Transformer框架的癌症驱动基因预测与分析方法流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,包括步骤S1-S3,具体如下:
S1、利用KEGG通路信息、蛋白质与蛋白质的相互作用关系和基因与蛋白质的对应关系,构建基因与蛋白质的异构网络。
在本发明的一个可选实施例中,本发明利用蛋白质与蛋白质的相互作用关系,构建蛋白质与蛋白质的相互作用网络,利用KEGG(Kyoto Encyclopedia of Genes andGenomes,京都基因与基因组百科全书)通路信息构建基因相似性矩阵以构建基因与基因的相互作用网络,并利用基因与蛋白质的对应关系,构建基因与蛋白质的异构网络。
步骤S1包括以下分步骤:
S11、利用KEGG通路信息构建基因相似性矩阵,并利用基因相似性矩阵构建基因与基因的相互作用网络。
步骤S11包括以下分步骤:
S111、获取基因的多组学数据,并对基因的多组学数据进行预处理以得到基因的多组学初始数据。
本发明获取的基因多组学数据分为正样本和负样本。本发明将获得的已知癌症驱动基因作为正样本。为了获得负样本,本发明从所有基因集开始,递归地删除NCG(Networkof Cancer Genes&Healthy Drivers,肿瘤驱动基因数据库)、COSMIC(Catalogue OfSomatic Mutations In Cancer,癌症体细胞突变目录)、KEGG癌症通路和OMIM(0nlineMendelian Inheritance in Man,人类在线孟德尔遗传数据库)等疾病数据库中的基因,以获取负样本。
多组学数据包括体细胞突变、拷贝数变异、DNA甲基化和基因表达。本发明从TCGA(TheCancerGenomeAtlas,癌症基因组图谱)下载体细胞突变数据、拷贝数变异数据、DNA甲基化数据和基因表达数据。
本发明对基因的多组学数据进行预处理以得到基因的多组学初始数据。
本发明对体细胞突变数据进行预处理的具体过程为:将每个基因的非沉默突变数除以外显子基因长度以获取体细胞突变的初始数据。
本发明对拷贝数变异数据进行预处理的具体过程为:本发明将每个基因在特定队列中被扩增或缺失的次数确定为拷贝数变异的初始数据。
本发明对DNA甲基化数据进行预处理的具体过程为:对每个基因定义一个启动子为其5'-标注转录本起始位点附近的±1000个碱基对区域,将启动子窗口内的所有CpG位点的β值取平均值以计算每个基因的平均启动子甲基化程度,对每种癌症类型进行联合关联测试,将样本的platenumber(样本在实验中使用的板号)作为其潜在变量模型的批变量以消除批效应,得到DNA甲基化的初始数据。
本发明对基因表达数据进行预处理的具体过程为:本发明使用来自Wang等人的数据集,其中包含来自TCGA的肿瘤和对照样本的RNA-seq数据以及来自GTEx(Genotype-Tissue Expression,基因型-组织表达)的正常样本的表达值。这些数据已经使用联合关联测试进行了分位数归一化和批量校正。在每一种癌症类型中,本发明计算肿瘤样本与匹配的正常样本的表达之间的log2倍数差异,并取平均值,以获取基因表达数据的初始值。如果在肿瘤样本或匹配的正常样本中没有测量到一个基因的表达,则不计算该基因的表达值,并将其缺失值设置为零。
S112、确定癌症类型,并根据癌症类型和分步骤S111中基因的多组学初始数据构建基因的特征向量。
本发明确定了16种不同的癌症类型,并根据获取的4种多组学初始数据,对每个基因构建一个16×4维的特征向量,其中16为癌症类型的数量,4为4种多组学初始数据的值。
S113、将分步骤S112中所有基因的特征向量进行拼接,得到基因的特征矩阵。
S114、利用KEGG通路信息构建基因相似性矩阵。
本发明从KEGG数据库获取通路信息,并使用R包“KEGGREST”(一个为京都基因和基因组百科全书REST服务器提供客户端界面的R语言包)获取每个通路中的基因。对于获取的每个基因,为其构建一个340维的通路向量,每一维代表一条通路。若该基因在对应通路中出现,则将对应位置设置为1,否则设置为0,并计算每个基因之间的余弦相似性分数,表示为:
其中:为基因/>与基因/>之间的余弦相似性分数,/>为基因/>的通路向量,/>为基因/>的通路向量,/>为向量/>的模,/>为向量/>的模。
本发明通过上述获取的每个基因之间的余弦相似性分数,构建每个基因的相似性矩阵。
S115、根据分步骤S113中基因的特征矩阵,利用分步骤S114中基因的相似性矩阵,构建基因与基因的相互作用网络。
本发明根据基因的特征矩阵,利用基因的相似性矩阵,计算基因与基因的相互作用网络的邻接矩阵以构建基因与基因的相互作用网络,表示为:
其中:为基因与基因的相互作用网络的邻接矩阵中基因/>与基因/>之间的元素值,/>为相似性分数的阈值,设置为0.6。
S12、利用蛋白质与蛋白质的相互作用关系,构建蛋白质与蛋白质的相互作用网络。
本发明利用蛋白质与蛋白质的相互作用关系,计算蛋白质与蛋白质的相互作用网络的邻接矩阵以构建蛋白质与蛋白质的相互作用网络,表示为:
其中:为蛋白质与蛋白质的相互作用网络的邻接矩阵中蛋白质/>与蛋白质/>之间的元素值。
S13、利用基因与蛋白质的对应关系,构建基因与蛋白质的相互作用网络。
本发明利用基因与蛋白质的对应关系,计算基因与蛋白质的相互作用网络的邻接矩阵以构建基因与蛋白质的相互作用网络,表示为:
其中:为基因与蛋白质相互作用网络的邻接矩阵中基因/>与蛋白质/>之间的元素值。
S14、本发明根据分步骤S11中基因与基因的相互作用网络、分步骤S12中蛋白质与蛋白质的相互作用网络和分步骤S13中基因与蛋白质的相互作用网络,构建基因与蛋白质的异构网络,表示为:
其中:为基因与蛋白质的异构网络,/>为节点的集合,每个基因和每个蛋白质分别作为一个节点,/>为节点对之间的边的集合,/>为节点类型的集合,/>为边类型的集合,/>为节点类型的映射函数,/>为边类型的映射函数。
本发明构建的基因与蛋白质的异构网络中节点存在异构性,基因节点和蛋白质节点的特征向量位于不同的特征空间中,并且有着不同的特征维度。
本发明将基因与蛋白质的异构网络中不同类型节点的特征向量映射到相同的特征空间,表示为:
其中:为节点类型/>中的节点/>映射后的特征,/>为节点的序号,/>为设定于节点类型/>的变换矩阵,/>为节点类型/>中的节点/>的原始特征,/>为节点类型/>的向量偏置项。
S2、构建异构图Transformer模块,并根据异构图Transformer模块和步骤S1中基因与蛋白质的异构网络生成目标节点的嵌入。
在本发明的一个可选实施例中,本发明构建异构图Transformer模块,并将基因与蛋白质的异构网络输入至构建的异构图Transformer模块,能生成目标节点的嵌入。
步骤S2包括以下分步骤:
S21、构建包括多头注意力子模块、多头消息子模块和信息聚合子模块的异构图Transformer模块。
S22、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量。
步骤S22包括以下分步骤:
S221、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块将目标节点映射为查询向量,表示为:
其中:为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的查询向量,/>为注意力头的序号,/>为第/>个注意力头对应的关于目标节点/>的线性映射函数,/>为第/>层的目标节点/>的嵌入,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的目标节点。
S222、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块将源节点映射为键值向量,表示为:
其中:为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的键值向量,/>为第/>个注意力头对应的关于源节点/>的线性映射函数,/>为第/>层的源节点/>的嵌入,/>为基因与蛋白质的异构网络中的源节点。
S223、根据分步骤S221中映射后的目标节点的查询向量和分步骤S222中映射后的源节点的键值向量,利用分步骤S21中的多头注意力子模块获取节点对的注意力头,表示为:
其中:为源节点/>与目标节点/>之间的第/>个注意力头,/>为源节点/>与目标节点/>之间的边,/>为基于边/>的第一转换矩阵,为转置符号,/>为先验张量,/>为源节点/>与目标节点/>之间的元关系,/>为源节点/>经节点类型映射函数映射后的向量,/>为边/>经边类型映射函数映射后的向量,/>为目标节点/>经节点类型映射函数映射后的向量,/>为节点的特征矩阵的维度。
S224、根据分步骤S223中节点对的注意力头,利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量,表示为:
其中:为源节点/>与目标节点/>之间的多头注意力向量,为第一激活函数,/>,/>为指数函数,/>为目标节点/>的邻居节点的集合,/>为拼接函数,/>为注意力头的数量。
S23、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头消息子模块获取节点对的多头消息向量。
步骤S23包括以下分步骤:
S231、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头消息子模块获取节点对的消息头,表示为:
其中:为源节点/>与目标节点/>之间的第/>个消息头,/>为消息头的序号,/>为第/>个消息头对应的关于源节点/>的线性映射函数,/>为第/>层的源节点/>的嵌入,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的源节点,/>为基于边/>的第二转换矩阵,/>为源节点/>与目标节点/>之间的边。
S232、根据分步骤S231中节点对的消息头,利用分步骤S21中的多头消息子模块获取节点对的多头消息向量,表示为:
其中:为源节点/>与目标节点/>之间的多头消息向量,为消息向量符号,/>为拼接函数,/>为注意力头的数量。
S24、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量,利用分步骤S21中的信息聚合子模块生成目标节点的嵌入。
本发明根据节点对的多头注意力向量和节点对的多头消息向量,利用设定于节点类型的信息聚合子模块计算生成节点嵌入。
步骤S24包括以下分步骤:
S241、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量,利用分步骤S21中的信息聚合子模块更新目标节点的嵌入,表示为:
其中:为第/>层目标节点/>更新后的嵌入,/>为基因与蛋白质的异构网络中的目标节点,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的源节点,/>为目标节点/>的邻居节点的集合,/>为信息聚合运算符,用于将目标节点/>的邻居节点的信息都汇集到目标节点/>上,/>为源节点/>与目标节点/>之间的多头注意力向量,/>为源节点/>与目标节点/>之间的边,/>为源节点/>与目标节点/>之间的多头消息向量。
S242、根据分步骤S241中目标节点更新后的嵌入,利用分步骤S21中的信息聚合子模块生成目标节点的嵌入,表示为:
其中:为第/>层的目标节点/>的嵌入,/>为第二激活函数,/>,/>为关于目标节点/>的线性映射函数,/>为第/>层的目标节点的嵌入。
S3、构建全连接层分类模块,根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果,并对癌症驱动基因预测结果进行分析。
在本发明的一个可选实施例中,本发明构建全连接层分类模块,并将异构图Transformer模块生成的目标节点的嵌入输入至构建的全连接层分类模块,能生成预测的癌症驱动基因的得分即癌症驱动基因预测结果,并对癌症驱动基因预测结果进行分析。
本发明根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果,表示为:
其中:为预测的癌症驱动基因的得分,/>为第三激活函数,/>为展平层函数,/>为节点嵌入,/>为全连接层的权重矩阵,/>为全连接层的偏置向量。
本发明生成癌症驱动基因预测结果,并利用二元交叉熵损失函数来计算损失,表示为:
其中:为癌症驱动基因预测结果的损失,/>为正样本权重,/>为初始节点标签,等于0或1。
本发明在13种癌症数据集上进行了广泛的实验,以验证所提出的方法在癌症驱动基因预测方面的有效性。本发明对癌症驱动基因预测结果进行分析,确定这些癌症驱动基因可以为癌症诊断和治疗提供新的方向和思路,具体包括预后评估、靶向治疗以及药物耐药性评估。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,包括以下步骤:
S1、利用KEGG通路信息、蛋白质与蛋白质的相互作用关系和基因与蛋白质的对应关系,构建基因与蛋白质的异构网络;
S2、构建异构图Transformer模块,并根据异构图Transformer模块和步骤S1中基因与蛋白质的异构网络生成目标节点的嵌入;
S3、构建全连接层分类模块,根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果,并对癌症驱动基因预测结果进行分析。
2.根据权利要求1所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,步骤S1包括以下分步骤:
S11、利用KEGG通路信息构建基因相似性矩阵,并利用基因相似性矩阵构建基因与基因的相互作用网络;
S12、利用蛋白质与蛋白质的相互作用关系,构建蛋白质与蛋白质的相互作用网络;
S13、利用基因与蛋白质的对应关系,构建基因与蛋白质的相互作用网络;
S14、本发明根据分步骤S11中的基因与基因相互作用网络、分步骤S12中的蛋白质与蛋白质相互作用网络和分步骤S13中的基因与蛋白质相互作用网络,构建基因与蛋白质的异构网络,表示为:
其中:为基因与蛋白质的异构网络,/>为节点的集合,每个基因和每个蛋白质分别作为一个节点,/>为节点对之间的边的集合,/>为节点类型的集合,/>为边类型的集合,/>为节点类型的映射函数,/>为边类型的映射函数。
3.根据权利要求2所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,步骤S11包括以下分步骤:
S111、获取基因的多组学数据,并对基因的多组学数据进行预处理以得到基因的多组学初始数据;
S112、确定癌症类型,并根据癌症类型和分步骤S111中基因的多组学初始数据构建基因的特征向量;
S113、将分步骤S112中所有基因的特征向量进行拼接,得到基因的特征矩阵;
S114、利用KEGG通路信息构建基因相似性矩阵;
S115、根据分步骤S113中基因的特征矩阵,利用分步骤S114中基因的相似性矩阵,构建基因与基因的相互作用网络。
4.根据权利要求3所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,在分步骤S111中,多组学数据包括体细胞突变、拷贝数变异、DNA甲基化和基因表达。
5.根据权利要求2所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,在步骤S13中,将基因与蛋白质的异构网络中不同类型节点的特征向量映射到相同的特征空间,表示为:
其中:为节点类型/>中的节点/>映射后的特征,/>为节点的序号,/>为设定于节点类型/>的变换矩阵,/>为节点类型/>中的节点/>的原始特征,/>为节点类型/>的向量偏置项。
6.根据权利要求1所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,步骤S2包括以下分步骤:
S21、构建包括多头注意力子模块、多头消息子模块和信息聚合子模块的异构图Transformer模块;
S22、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量;
S23、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头消息子模块获取节点对的多头消息向量;
S24、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量,利用分步骤S21中的信息聚合子模块生成目标节点的嵌入。
7.根据权利要求6所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,步骤S22包括以下分步骤:
S221、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块将目标节点映射为查询向量,表示为:
其中:为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的查询向量,/>为注意力头的序号,/>为第/>个注意力头对应的关于目标节点/>的线性映射函数,/>为第/>层的目标节点/>的嵌入,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的目标节点;
S222、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头注意力子模块将源节点映射为键值向量,表示为:
其中:为目标节点/>经过第/>个注意力头对应的线性映射函数/>映射后的键值向量,/>为第/>个注意力头对应的关于源节点/>的线性映射函数,/>为第/>层的源节点/>的嵌入,/>为基因与蛋白质的异构网络中的源节点;
S223、根据分步骤S221中映射后的目标节点的查询向量和分步骤S222中映射后的源节点的键值向量,利用分步骤S21中的多头注意力子模块获取节点对的注意力头,表示为:
其中:为源节点/>与目标节点/>之间的第/>个注意力头,为源节点/>与目标节点/>之间的边,/>为基于边/>的第一转换矩阵,/>为转置符号,/>为先验张量,/>为源节点/>与目标节点/>之间的元关系,/>为源节点/>经节点类型映射函数映射后的向量,/>为边/>经边类型映射函数映射后的向量,/>为目标节点/>经节点类型映射函数映射后的向量,/>为节点的特征矩阵的维度;
S224、根据分步骤S223中节点对的注意力头,利用分步骤S21中的多头注意力子模块获取节点对的多头注意力向量,表示为:
其中:为源节点/>与目标节点/>之间的多头注意力向量,/>为第一激活函数,/>为目标节点/>的邻居节点的集合,/>为拼接函数,/>为注意力头的数量。
8.根据权利要求6所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,步骤S23包括以下分步骤:
S231、根据步骤S1中基因与蛋白质的异构网络,利用分步骤S21中的多头消息子模块获取节点对的消息头,表示为:
其中:为源节点/>与目标节点/>之间的第/>个消息头,/>为消息头的序号,/>为第/>个消息头对应的关于源节点/>的线性映射函数,/>为第/>层的源节点/>的嵌入,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的源节点,/>为基于边/>的第二转换矩阵,/>为源节点/>与目标节点/>之间的边;
S232、根据分步骤S231中节点对的消息头,利用分步骤S21中的多头消息子模块获取节点对的多头消息向量,表示为:
其中:为源节点/>与目标节点/>之间的多头消息向量,/>为消息向量符号,/>为拼接函数,/>为注意力头的数量。
9.根据权利要求6所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,步骤S24包括以下分步骤:
S241、根据分步骤S22中节点对的多头注意力向量和分步骤S23中节点对的多头消息向量,利用分步骤S21中的信息聚合子模块更新目标节点的嵌入,表示为:
其中:为第/>层目标节点/>更新后的嵌入,/>为基因与蛋白质的异构网络中的目标节点,/>为神经网络层的序号,/>为基因与蛋白质的异构网络中的源节点,/>为目标节点/>的邻居节点的集合,/>为信息聚合运算符,/>为源节点/>与目标节点/>之间的多头注意力向量,/>为源节点/>与目标节点/>之间的边,/>为源节点/>与目标节点/>之间的多头消息向量;
S242、根据分步骤S241中目标节点更新后的嵌入,利用分步骤S21中的信息聚合子模块生成目标节点的嵌入,表示为:
其中:为第/>层的目标节点/>的嵌入,/>为第二激活函数,/>为关于目标节点/>的线性映射函数,/>为第/>层的目标节点/>的嵌入。
10.根据权利要求1所述的一种基于异构图Transformer框架的癌症驱动基因预测与分析方法,其特征在于,在步骤S3中,根据全连接层分类模块和步骤S2中目标节点的嵌入生成癌症驱动基因预测结果,表示为:
其中:为预测的癌症驱动基因的得分,/>为第三激活函数,/>为展平层函数,/>为节点嵌入,/>为全连接层的权重矩阵,/>为全连接层的偏置向量。
CN202311066361.1A 2023-08-23 2023-08-23 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 Active CN116805513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311066361.1A CN116805513B (zh) 2023-08-23 2023-08-23 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311066361.1A CN116805513B (zh) 2023-08-23 2023-08-23 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

Publications (2)

Publication Number Publication Date
CN116805513A true CN116805513A (zh) 2023-09-26
CN116805513B CN116805513B (zh) 2023-10-31

Family

ID=88079716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311066361.1A Active CN116805513B (zh) 2023-08-23 2023-08-23 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

Country Status (1)

Country Link
CN (1) CN116805513B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118609855A (zh) * 2024-08-07 2024-09-06 四川省计算机研究院 基于异构图神经网络和多组学的癌症药物反应预测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2600269A2 (en) * 2011-12-03 2013-06-05 Medeolinx, LLC Microarray sampling and network modeling for drug toxicity prediction
US20170017749A1 (en) * 2015-07-15 2017-01-19 International Business Machines Corporation System and method for identifying cancer driver genes
KR20170017284A (ko) * 2015-08-06 2017-02-15 광주과학기술원 부분 공분산 선택 기반의 암 유발 유전자의 식별방법
US20180247010A1 (en) * 2015-08-27 2018-08-30 Koninklijke Philips N.V. Integrated method and system for identifying functional patient-specific somatic aberations using multi-omic cancer profiles
CN111863137A (zh) * 2020-05-28 2020-10-30 上海朴岱生物科技合伙企业(有限合伙) 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用
CN113362894A (zh) * 2021-06-15 2021-09-07 上海基绪康生物科技有限公司 一种对协同致死的癌症驱动基因进行预测的方法
AU2021104371A4 (en) * 2021-07-21 2021-09-16 Tongji Hospital of Tongji Medical College, Huazhong University of Science and Technology Method for constructing model for predicting survival period of hepatocellular carcinoma based on RNA binding protein
CN113611356A (zh) * 2021-07-29 2021-11-05 湖南大学 一种基于自监督图表征学习的药物重定位预测方法
CN114420310A (zh) * 2022-01-18 2022-04-29 河南大学 基于图转换网络的药物ATCCode预测方法
CN115019883A (zh) * 2022-02-13 2022-09-06 昆明理工大学 一种基于多网络图卷积的癌症驱动基因识别方法
CN115019891A (zh) * 2022-06-08 2022-09-06 郑州大学 一种基于半监督图神经网络的个体驱动基因预测方法
CN115171779A (zh) * 2022-07-13 2022-10-11 浙江大学 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CN115938592A (zh) * 2023-03-09 2023-04-07 成都信息工程大学 一种基于局部增强图卷积网络的癌症预后预测方法
CN115954112A (zh) * 2022-11-18 2023-04-11 百图生科(北京)智能技术有限公司 药物治疗效果预测方法、装置、计算设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2600269A2 (en) * 2011-12-03 2013-06-05 Medeolinx, LLC Microarray sampling and network modeling for drug toxicity prediction
US20170017749A1 (en) * 2015-07-15 2017-01-19 International Business Machines Corporation System and method for identifying cancer driver genes
KR20170017284A (ko) * 2015-08-06 2017-02-15 광주과학기술원 부분 공분산 선택 기반의 암 유발 유전자의 식별방법
US20180247010A1 (en) * 2015-08-27 2018-08-30 Koninklijke Philips N.V. Integrated method and system for identifying functional patient-specific somatic aberations using multi-omic cancer profiles
CN111863137A (zh) * 2020-05-28 2020-10-30 上海朴岱生物科技合伙企业(有限合伙) 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用
CN113362894A (zh) * 2021-06-15 2021-09-07 上海基绪康生物科技有限公司 一种对协同致死的癌症驱动基因进行预测的方法
AU2021104371A4 (en) * 2021-07-21 2021-09-16 Tongji Hospital of Tongji Medical College, Huazhong University of Science and Technology Method for constructing model for predicting survival period of hepatocellular carcinoma based on RNA binding protein
CN113611356A (zh) * 2021-07-29 2021-11-05 湖南大学 一种基于自监督图表征学习的药物重定位预测方法
CN114420310A (zh) * 2022-01-18 2022-04-29 河南大学 基于图转换网络的药物ATCCode预测方法
CN115019883A (zh) * 2022-02-13 2022-09-06 昆明理工大学 一种基于多网络图卷积的癌症驱动基因识别方法
CN115019891A (zh) * 2022-06-08 2022-09-06 郑州大学 一种基于半监督图神经网络的个体驱动基因预测方法
CN115171779A (zh) * 2022-07-13 2022-10-11 浙江大学 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CN115954112A (zh) * 2022-11-18 2023-04-11 百图生科(北京)智能技术有限公司 药物治疗效果预测方法、装置、计算设备及存储介质
CN115938592A (zh) * 2023-03-09 2023-04-07 成都信息工程大学 一种基于局部增强图卷积网络的癌症预后预测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JHEE, JH 等: "Transformer-Based Gene Scoring Model for Extracting Representative Characteristic of Central Dogma Process to Prioritize Pathogenic Genes Applying Breast Cancer Multi-omics Data", 《2023 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING (BIGCOMP)》, pages 149 - 154 *
MEILING CAI 等: "FDTrans: Frequency Domain Transformer Model for predicting subtypes of lung cancer using multimodal data", 《COMPUTERS IN BIOLOGY AND MEDICINE》, vol. 158, pages 1 - 8 *
ZHOU, JY 等: "Deep learning predicts DNA methylation regulatory variants in the human brain and elucidates the genetics of psychiatric disorders", 《PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES OF THE UNITED STATES OF AMERICA》, vol. 119, no. 34, pages 1 - 11 *
宋继辉: "基于图卷积网络的miRNA与疾病关联预测研究", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 2023, pages 006 - 739 *
朱敏 等: "基于集成学习方法的蛋白质相互作用预测", 《四川大学学报(工程科学版)》, no. 03, pages 68 - 75 *
潘宗富 等: "基于生物信息学的未分化甲状腺癌关键发病机制及其潜在干预靶点研究", 《浙江大学学报(医学版)》, no. 02, pages 187 - 193 *
覃桂敏 等: "基因调控网络中的癌症标记物预测方法", 《西安电子科技大学学报》, no. 06, pages 81 - 87 *
雪峰豪 等: "深度学习在健康医疗中的应用研究综述", 《计算机科学》, vol. 50, no. 2023, pages 1 - 15 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118609855A (zh) * 2024-08-07 2024-09-06 四川省计算机研究院 基于异构图神经网络和多组学的癌症药物反应预测方法

Also Published As

Publication number Publication date
CN116805513B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
AU2016263192B2 (en) Methods and systems for copy number variant detection
Pan Incorporating gene functions as priors in model-based clustering of microarray gene expression data
CN116805513B (zh) 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法
AU2023282274A1 (en) Variant classifier based on deep neural networks
WO2020014280A1 (en) DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)
Banf et al. Enhancing gene regulatory network inference through data integration with markov random fields
CN115171779A (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CA3064226C (en) Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (sses)
CN109192316B (zh) 一种基于基因网络分析的疾病亚型预测系统
Vanunu et al. A propagation-based algorithm for inferring gene-disease associations
CN115019883A (zh) 一种基于多网络图卷积的癌症驱动基因识别方法
Lei et al. An approach of gene regulatory network construction using mixed entropy optimizing context-related likelihood mutual information
Cai et al. GC6mA-Pred: a deep learning approach to identify DNA N6-methyladenine sites in the rice genome
Baldi On the convergence of a clustering algorithm for protein-coding regions in microbial genomes
El-Atik et al. Mutation of DNA and RNA sequences through the application of topological spaces
Fan et al. iterb-PPse: Identification of transcriptional terminators in bacterial by incorporating nucleotide properties into PseKNC
CN116312783A (zh) 一种dna合成难度预测的系统及其应用
Karr et al. Structure of Classifier Boundaries: Case Study for a Naive Bayes Classifier
Liu et al. D3K: The Dissimilarity-Density-Dynamic Radius K-means Clustering Algorithm for scRNA-Seq Data
Moqa et al. Assessing effectiveness of many-objective evolutionary algorithms for selection of tag SNPs
Bonham-Carter et al. Cellular proliferation biases clonal lineage tracing and trajectory inference
Yousefi et al. Consensus clustering for robust bioinformatics analysis
Olyaee et al. A fuzzy c-means clustering approach for haplotype reconstruction based on minimum error correction
Li et al. Prediction of Sphingosine protein-coding regions with a self adaptive spectral rotation method
Chen et al. Stack-VTP: prediction of vesicle transport proteins based on stacked ensemble classifier and evolutionary information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant