CN117393143A - 基于图表示学习的环状rna-疾病关联预测方法 - Google Patents

基于图表示学习的环状rna-疾病关联预测方法 Download PDF

Info

Publication number
CN117393143A
CN117393143A CN202311316888.5A CN202311316888A CN117393143A CN 117393143 A CN117393143 A CN 117393143A CN 202311316888 A CN202311316888 A CN 202311316888A CN 117393143 A CN117393143 A CN 117393143A
Authority
CN
China
Prior art keywords
vector
disease
rna
node
heterogeneous network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311316888.5A
Other languages
English (en)
Other versions
CN117393143B (zh
Inventor
李君一
岑柯良
周靖力
王轩
刘博�
王亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202311316888.5A priority Critical patent/CN117393143B/zh
Publication of CN117393143A publication Critical patent/CN117393143A/zh
Application granted granted Critical
Publication of CN117393143B publication Critical patent/CN117393143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图表示学习的环状RNA‑疾病关联预测方法、移动设备及存储介质,该方法包括:基于环状RNA及相关信息构建环状RNA的异构网络,所述异构网络包括环状RNA节点和疾病节点;将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。如此,通过图表示学习模型学习异构网络中各个节点的表示向量,再基于环状RNA节点和疾病节点的表示向量的内积确定关联预测得分,提高了异构网络构建的灵活性,使得图表示学习模型能获得更丰富的节点表示,提高了环状RNA‑疾病预测的准确性。

Description

基于图表示学习的环状RNA-疾病关联预测方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于图表示学习的环状RNA-疾病关联预测方法、装置及存储介质。
背景技术
环状RNA(circRNA)是一种非编码RNA,具有共价闭环结构,在20世纪70年代首次被发现,但一直以来对环状RNA的研究进展十分缓慢,直到近年来随着高通量测序技术、生命科学和基因组学研究的进一步发展,人们对环状RNA的研究进程才得到进一步推进。已有研究表明环状RNA的失调和突变与人类的一些疾病之间存在一定的相关性。
国内外对与环状RNA与疾病的关联性研究方法主要可以分为两大类:一是基于生物学实验的研究,二是基于计算方法的预测研究。利用传统的生物学实验来验证环状RNA与疾病的关联关系准确度高,但耗时长、成本高,目前可能难以应对庞大的环状RNA和疾病关联网络。基于计算方法的预测研究存在着构建网络的方式较为单一、未考虑环状RNA与疾病相互作用过程中其它类型生物分子的参与等问题。
发明内容
本发明提供一种基于图表示学习的环状RNA-疾病关联预测方法、装置及存储介质,旨在提高异构网络的灵活性,使得图表示学习模型获得更丰富的节点表示,提高环状RNA-疾病预测的准确性。
为实现上述目的,本发明提供一种基于图表示学习的环状RNA-疾病关联预测方法,所述方法包括:
基于环状RNA及相关信息构建环状RNA的异构网络,所述异构网络包括环状RNA节点和疾病节点;
将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;
基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。
可选地,所述基于环状RNA及相关信息构建环状RNA的异构网络包括:
从公开的数据集中获取构建环状RNA的异构网络所需的相关信息,所述相关信息包括RNA与疾病的关联关系、环状RNA的相关生物分子及相互作用关系、环状RNA序列和宿主基因;
基于环状RNA序列计算环状RNA序列之间的序列相似度在对应的环状RNA节点之间添加第一边,基于疾病的疾病语义相似度在对应的疾病节点之间添加第二边,以获得异构网络。
可选地,所述从公开的数据集中获取构建环状RNA的异构网络所需的相关信息包括:
从RNADisease数据库分别获取环状RNA、miRNA与疾病之间的疾病关联关系;
基于RNAInter数据库提取与环状RNA有直接相互作用关系的相关生物分子,并提取环状RNA与相关生物分子之间的相互作用关系,所述相关生物分子包括miRNA、RNA结合蛋白、转铁蛋白、化合物;
基于circBase数据库获取环状RNA序列和宿主基因。
可选地,所述基基于环状RNA序列计算环状RNA序列之间的序列相似度在对应的环状RNA节点之间添加第一边,基于疾病的疾病语义相似度在对应的疾病节点之间添加第二边,以获得异构网络包括:
将不同长度的环状RNA序列进行可逆变换投影成相同长度的RNA序列向量,基于皮尔逊相关系数计算相同长度的RNA序列向量之间的序列相似度;
将所有序列相似度的平均值确定为第一阈值,在序列相似度大于第一阈值的两个环状RNA序列对应的环状RNA节点之间添加第一边;
计算组成疾病名称的各个单词向量的单词向量相似性,对获得的单词向量相似性进行累加去平均后获得对应的两个疾病名称的疾病语义相似度;
基于所有疾病语义相似性的平均值确定为第二阈值,在相似性大于第二阈值的两个疾病名称对应的疾病节点之间添加对应的第二边。
可选地,所述图表示学习模型包括异构相互注意力模块、异构信息传递模块和信息聚合模块;
所述将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量包括:
通过所述异构相互注意力模块获得异构网络中每个目标节点的注意力分数;
通过所述异构信息传递模块获得异构网络中每个目标节点的信息向量;
通过所述信息聚合模块将目标节点的注意力分数与信息向量进行聚合,获得对应目标节点的表示向量。
可选地,所述通过所述异构相互注意力模块获得异构网络中每个目标节点的注意力分数包括:
通过异构相互注意力模块将异构网络中目标节点的一元组关系的终点映射至Query向量,将所述一元组关系的起点映射至Key向量;
基于所述Query向量、所述Key向量、投影矩阵以及参数矩阵确定每一组关系类型的注意力分数;
对各种关系类型的注意力分数进行归一化转化,获得对应目标节点的注意力分数。
可选地,所述通过异构信息传递模块获得异构网络中每个目标节点的信息向量包括:
将异构网络中目标节点的一元组关系的起点的表示向量进行线性变换,并与依赖于同一组关系类型的参数化投影矩阵相乘获得单头的信息传递;
将所述一元组关系中所有的单头的信息传递进行拼接获得所述目标节点的信息向量。
可选地,所述通过信息聚合模块将目标节点的注意力分数与信息向量进行聚合,获得对应目标节点的表示向量包括:
基于注意力分数对信息进行聚合,获得目标节点在每一层的新的信息向量;
将所述新的信息向量进行线性投影获得线性投影向量,并获得所述线性投影向量的非线性激活函数结果;
将所述非线性激活函数结果与前一层的表示向量进行残差拼接,获得目标节点在对应层的表示向量;
将异构网络中每一层输出的表示向量相乘,获得所述目标节点最终的表示向量。
此外,为实现上述目的,本发明还提供一种基于图表示学习的环状RNA-疾病关联预测装置,包括:
构建模块,用于基于环状RNA及相关信息构建环状RNA的异构网络;
学习模块,用于将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;
预测模块,用于基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于图表示学习的环状RNA-疾病关联预测程序,所述基于图表示学习的环状RNA-疾病关联预测程序被处理器运行时实现如上所述的方法的步骤。
相比现有技术,本发明提出的一种基于图表示学习的环状RNA-疾病关联预测方法、装置及存储介质,该方法包括:基于环状RNA及相关信息构建环状RNA的异构网络,所述异构网络包括环状RNA节点和疾病节点;将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。如此,通过图表示学习模型学习异构网络中各个节点的表示向量,再基于环状RNA节点和疾病节点的表示向量的内积确定关联预测得分,提高了异构网络构建的灵活性,使得图表示学习模型能获得更丰富的节点表示,提高了环状RNA-疾病预测的准确性。
附图说明
图1是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例的流程示意图;
图2是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例的第一细化流程示意图;
图3是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例涉及的异构网络示意图;
图4是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例的第二细化流程示意图;
图5是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例涉及的图表示学习模型框架图;
图6是本发明基于图表示学习的环状RNA-疾病关联预测装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参照图1,图1是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例的流程示意图。如图1所示,所述方法包括:
步骤S101,基于环状RNA及相关信息构建环状RNA的异构网络,所述异构网络包括环状RNA节点和疾病节点;
在挖掘环状RNA(circRNA)与疾病的关联关系时,所考虑的生物分子往往不会只局限于环状RNA本身。因此本实施例进一步考虑与环状RNA有直接相互作用关联的其它生物分子,将其它生物分子与环状RNA一同作为实体构建异构网络。
具体地,参照图2,图2是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例的第一细化流程示意图,如图2所示,所述步骤S101包括:
步骤S1011:从公开的数据集中获取构建环状RNA的异构网络所需的相关信息,所述相关信息包括RNA与疾病的关联关系、环状RNA的相关生物分子及相互作用关系、环状RNA序列和宿主基因;
从RNADisease数据库分别获取环状RNA、miRNA与疾病之间的疾病关联关系;RNADisease数据库是一类综合性数据库,包括RNA-疾病关联关系数据,覆盖18种RNA类型、一百多个物种和几千种疾病类型。本实施例从RNADisease数据库中获取环状RNA与疾病的关联关系、miRNA与疾病的关联关系。
基于RNAInter数据库提取与环状RNA有直接相互作用关系的相关生物分子,并提取环状RNA与相关生物分子之间的相互作用关系,所述相关生物分子包括miRNA、RNA结合蛋白、转铁蛋白、化合物;RNAInter数据库是一个RNA相关互作数据资源分析平台,可以从RNAInter数据库中搜索并提取与环状RNA有直接相互作用关系的相关生物分子及其相互作用关系。
基于circBase数据库获取环状RNA序列和宿主基因。circBase是一个环状RNA的数据库,收录了人类、小鼠等多个物种的环状RNA信息。由于目前在circRNA领域并没有统一的circRNA命名方式,本实施例只保留数据库中具有对应circBaseID的circRNA,随后从circBase数据库中获取对应circRNA的序列信息和宿主基因。
步骤S1012:基于环状RNA序列计算环状RNA之间的序列相似度添加第一边,基于疾病语义相似度分别添加第二边,以获得异构网络。
本实施例基于CGR(Chaos game representation,混沌游戏表示)方法将不同长度的环状RNA序列进行可逆变换投影成相同长度的RNA序列向量,基于皮尔逊相关系数计算相同长度的RNA序列向量之间的序列相似度;也即先将不同长度的环状RNA序列投影成相同长度的向量,再进行序列相似度的计算。CGR方法、皮尔逊相关系数计算方法为公开技术,此处不再赘述。
将所有序列相似度的平均值确定为第一阈值,在序列相似度大于第一阈值的两个环状RNA序列对应的环状RNA节点之间添加第一边;本实施例在序列相似度大于相似度均值的环状RNA节点之间添加边,为了方便描述,将添加于环状RNA节点之间的边标记为第一边。
计算组成疾病名称的各个单词向量的单词向量相似性,对获得的单词向量相似性进行累加去平均后获得对应的两个疾病名称的疾病语义相似度;本实施例采用的是公开技术中的Word2Vec方法计算语义相似度,并通过余弦相似性度量疾病名称之间的疾病语义相似度;
基于所有疾病语义相似性的平均值确定为第二阈值,在相似性大于第二阈值的两个疾病名称对应的疾病节点之间添加对应的第二边。也即将疾病语义相似性比较大的疾病节点之间添加边。在环状RNA节点之间、疾病节点之间分别添加边后即可获得所需的异构网络。最终获得的异构网络参照图3,图3是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例涉及的异构网络示意图。
异构网络内部包含了多种生物分子节点和疾病节点,本实施例涉及的异构网络节点包括:环状RNA、miRNA、基因、转铁蛋白、RNA结合蛋白、化合物、疾病。在异构网络中添加连边的方式有两种:一种方式是基于开源数据库(RNADisease数据库、RNAInter数据库、circBase数据库)中不同生物分子之间关联信息的整合,添加对应的连边,例如RNADisease数据库中某条数据显示某环状RNA和某疾病之间的关联,那么就为其添加连边。
另一种方式是本实施例步骤S1011中的操作。通过环状RNA的序列信息计算出环状RNA之间的两两的相似度,然后取所有相似度的平均值作为阈值,为超过平均值的环状RNA对添加边。同理,基于疾病的羽衣相似性计算出疾病的之间两两的相似度,取平均值为阈值,为超过阈值的疾病对添加连边。因此通过这一方式得到的连边有两种,分别是环状RNA-环状RNA、疾病-疾病,其他类型的边都是通过前一种方式直接从数据库中整合信息获取。
人为添加两类边的目的在于缓解异构网络的稀疏性,因为仅依靠数据库建立的网络稀疏性较大,会对后续模型的表现有一定的影响。
步骤S102,将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;
本实施例涉及的图表示学习模型包括三个模块:异构相互注意力模块、异构信息传递模块、信息聚合模块。
参照图4,图4是本发明基于图表示学习的环状RNA-疾病关联预测方法第一实施例的第二细化流程示意图,如图4所示,所述步骤S102包括:
步骤S1021,通过所述异构相互注意力模块获得异构网络中每个目标节点的注意力分数;
首先,通过异构相互注意力模块将异构网络关系元图中的目标节点的一元组关系的终点映射至Query向量,将所述一元组关系的起点映射至Key向量;本实施例将异构网络中一组起点、终点及其关系类型表示为该起点对应节点的一元组关系,其中一元组关系包括起点、关系类型和终点。为了便于描述本实施例将当前计算的终点对应的节点标记为目标节点,将起点表示为s,将关系类型表示为e,将终点表示为t,如此则可将一元组关系表示为<s,e,t>。继续参照图5,图5示出了一元组关系<s1,e1,t>、<s2,e2,t>。将s1在l-1层的表示向量表示为H(l-1)[s1],将s2在l-1层的表示向量表示为H(l-1)[s2],将t在l-1层的表示向量表示为H(l-1)[t]。
将终点t的Query向量表示为Qi(t),则有:
其中,Q-表示一元组关系终点t的线性映射关系。
将起点s的Key向量表示为Ki(s),则有:
其中K-表示一元组关系起点s的线性映射关系。
然后基于所述Query向量、所述Key向量、投影矩阵以及参数矩阵确定每一组关系类型的注意力分数;
将一元组关系<s,e,t>的注意力分数表示为ATT-headi(s,e,t),则有:
其中,表示关系为类型e的参数化投影矩阵、μ<τ(s),φ(e),τ(t)>表示参数矩阵,d表示输出特征维度dim除以注意力头数h,即d=dim/h,其中特征输出维度dim是一个可以根据需要调节的超参数。参数矩阵μ<τ(s),φ(e),τ(t)>用于表示终点t的关系为类型e的每条边的贡献,用于实现注意力的自适应缩放。τ表示异构网络中节点类型的集合,τ(s)就表示异构网络中的某一节点类型s。同理,φ表示异构网络中边类型的集合,φ(e)表示异构图中的某一边类型e。μ<τ(s),φ(e),τ(t)>是训练过程中的参数,代表关系类型e(起点类型s,终点类型t)的每条边的贡献,该矩阵一开始初始化为全1,在训练过程中由模型自动学习,并根据模型的训练损失更新。
再对各种关系类型的注意力分数进行归一化转化,获得对应目标节点的注意力分数。
将目标节点t的注意力分数表示为Attention(s,e,t),则有:
其中,Softmax表示归一化函数,h表示注意力头数,也即关系类型的种类数量。
分别将异构网络中的每一个环状RNA节点、每一个疾病节点作为目标节点,获得每一个环状RNA节点、每一个疾病节点的注意力分数Attention(s,e,t)。
步骤S1022,通过所述异构信息传递模块获得异构网络中每个目标节点的信息向量;
在信息传递模块用于将信息从源节点(起点)传递到目标节点(终点)。为了缓解不同类型目标节点和边的分布差异,信息传递模块将关系融入到消息传递的过程中。首先使用一个线性投影将对源节点(起点)的表示向量做线性变换,然后与依赖于关系类型e的参数化投影矩阵相乘,得到单头的信息传递,最后将多头的信息传递拼接起来得到该组元关系的信息。
具体地,获取异构网络中目标节点的一元组关系,将所述一元组关系的起点的表示向量进行线性变换,并与依赖于同一组关系类型的参数化投影矩阵相乘获得单头的信息传递;
将单头的信息传递表示为MSG-headi(s,e,t),则有:
其中,表示关系为类型e的参数化投影矩阵,M-/>表示线性变换矩阵。H(l-1)[s]表示起点s在l-1层的表示向量。
将所述一元组关系中所有的单头的信息传递进行拼接获得所述目标节点的信息向量。
将目标节点t的信息向量表示为Messgae(s,e,t),则有:
k表示注意力头数,||表示拼接运算。
步骤S1023,通过所述信息聚合模块将目标节点的注意力分数与信息向量进行聚合,获得对应目标节点的表示向量。
信息聚合模块用于实现注意力分数与信息向量的聚合。
基于注意力分数对信息进行聚合,获得目标节点在每一层的新的信息向量;继续参照图5,假设目标节点t位于异构网络的第l层,对于目标节点t有关系的所有源起点s,将注意力向量Attention(s,e,t)作为权重,对来自源节点的相应消息Message(s,e,t)进行平均得到新的信息向量如此实现了将可能来自不同特征分布的所有邻居节点(也即t的源节点)的信息聚合到目标节点t的过程。
将新的信息向量表示为则有:
其中,N表示目标节点t对应的起点的数量,也即邻居节点的数量。表示平均化。
将所述新的信息向量进行线性投影获得线性投影向量,并获得所述线性投影向量的非线性激活函数结果;将所述非线性激活函数结果与前一层的表示向量进行残差拼接,获得目标节点在对应层的表示向量;
将目标节点t在异构网络的L层的表示向量表示为H(l)[t],则有:
其中,A-表示获得的线性投影向量,σ表示非线性激活函数,H(l-1)[t]表示目标节点s在第l-1层的表示向量。
如此,更新后的信息向量经过线性投影和非线性激活函数后再与l-1层得到的目标节点t的表示向量H(l-1)[t]进行残差连接,最终得到了目标节点t在第l层输出的表示向量H(l)[t]。
将异构网络中每一层输出的表示向量相乘,获得所述目标节点最终的表示向量,本实施例将最终表示向量标记为H(L)[t]。继续参照图5,将目标节点在每一层的表示向量相乘,获得的乘积即为目标节点的最终表示向量。本实施例将异构网络中目标节点在1-l层的每一层输出的表示向量相乘,获得异构网络中目标节点最终的表示向量。
本实施例的图表示学习模型用于异构网络,充分考虑了不同类型的节点和关系各自拥有不同特征空间的特点,分别对每种关系类型进行参数化的做法对异构图的学习更灵活,如果将来有新的类型的生物分子被证明能参与该过程,可以直接将其加入图网络中,无需进行复杂的预处理,更符合现实情况。
步骤S103,基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。
通过图表示学习模型得到异构网络中每个节点的表示向量后,利用获得的表示向量进行下游链接预测,也即判断待预测环状RNA节点与疾病节点对之间的关联预测得分。关联预测得分表示环状RNA节点与疾病节点对之间存在链接的可能性,。本实施例通过对应的两个表示向量的内积作为环状RNA节点与疾病节点对之间的关联预测得分,将目标环状RNA节点表示为u,将目标疾病节点表示为v,将u-v的关联预测得分表示为yu,v,则有:
其中,表示异构网络输出的环状RNA节点的表示向量,/>表示异构网络输出的疾病节点的表示向量,φ表示内积运算。
进一步地,基于间隔损失函数计算环状RNA-疾病的关联预测得分的预测损失;将预测损失表示为则有:
其中,vi表示从噪声分布Pn(v)中所采样的节点,即执行的负采样节点。
将所述预测损失和正则化损失之和确定为图表示学习模型的总损失,基于所述总损失指导图表示学习模型的训练。将总损失表示为则有:
其中,λ2是一个超参,控制正则化项的大小。
结合图表示学习和深度学习方法,不仅利用了已知的环状RNA、疾病以及环状RNA-疾病之间的关联关系,还充分考虑了同样可能参与该过程的其它生物分子的之间的关联关系,能够处理更丰富的输入信息和更大规模的数据集。
本实施例通过上述方案,基于环状RNA及相关信息构建环状RNA的异构网络,所述异构网络包括环状RNA节点和疾病节点;将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。如此,通过图表示学习模型学习异构网络中各个节点的表示向量,再基于环状RNA节点和疾病节点的表示向量的内积确定关联预测得分,提高了异构网络构建的灵活性,使得图表示学习模型能获得更丰富的节点表示,提高了环状RNA-疾病预测的准确性。
进一步地,为实现上述目的,本发明还提供一种基于图表示学习的环状RNA-疾病关联预测装置,具体地,参见6,图6是本发明基于图表示学习的环状RNA-疾病关联预测装置第一实施例的功能模块示意图,所述装置包括:
构建模块10,用于基于环状RNA及相关信息构建环状RNA的异构网络;
学习模块20,用于将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;
预测模块30,用于基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。
进一步地,所述构建模块包括:
相关信息获取单元,用于从公开的数据集中获取构建环状RNA的异构网络所需的相关信息,所述相关信息包括RNA与疾病的关联关系、环状RNA的相关生物分子及相互作用关系、环状RNA序列和宿主基因;
添加单元,用于基于环状RNA序列计算环状RNA序列之间的序列相似度在对应的环状RNA节点之间添加第一边,基于疾病的疾病语义相似度在对应的疾病节点之间添加第二边,以获得异构网络。
进一步地,所述相关信息获取单元包括:
第一获取子单元,用于从RNADisease数据库分别获取环状RNA、miRNA与疾病之间的疾病关联关系;
第二获取子单元,用于基于RNAInter数据库提取与环状RNA有直接相互作用关系的相关生物分子,并提取环状RNA与相关生物分子之间的相互作用关系,所述相关生物分子包括miRNA、RNA结合蛋白、转铁蛋白、化合物;
第三获取子单元,用于基于circBase数据库获取环状RNA序列和宿主基因。
进一步地,所述添加单元包括:
序列相似度计算子单元,用于将不同长度的环状RNA序列进行可逆变换投影成相同长度的RNA序列向量,基于皮尔逊相关系数计算相同长度的RNA序列向量之间的序列相似度;
第一阈值确定子单元,用于将所有序列相似度的平均值确定为第一阈值,在序列相似度大于第一阈值的两个环状RNA序列对应的环状RNA节点之间添加第一边;
语义相似度计算子单元,用于计算组成疾病名称的各个单词向量的单词向量相似性,对获得的单词向量相似性进行累加去平均后获得对应的两个疾病名称的疾病语义相似度;
第二阈值确定子单元,用于基于所有疾病语义相似性的平均值确定为第二阈值,在相似性大于第二阈值的两个疾病名称对应的疾病节点之间添加对应的第二边。
进一步地,所述学习模块包括:
注意力分数获得单元,用于通过所述异构相互注意力模块获得异构网络中每个目标节点的注意力分数;
信息向量获得单元,用于通过所述异构信息传递模块获得异构网络中每个目标节点的信息向量;
表示向量获得单元,用于通过所述信息聚合模块将目标节点的注意力分数与信息向量进行聚合,获得对应目标节点的表示向量。
进一步地,所述注意力分数获得单元包括:
映射子单元,用于通过异构相互注意力模块将异构网络中目标节点的一元组关系的终点映射至Query向量,将所述一元组关系的起点映射至Key向量;
注意力分数获得子单元,用于基于所述Query向量、所述Key向量、投影矩阵以及参数矩阵确定每一组关系类型的注意力分数;
转化子单元,用于对各种关系类型的注意力分数进行归一化转化,获得对应目标节点的注意力分数。
进一步地,所述信息向量获得单元包括:
信息传递获得子单元,用于将异构网络中目标节点的一元组关系的起点的表示向量进行线性变换,并与依赖于同一组关系类型的参数化投影矩阵相乘获得单头的信息传递;
拼接子单元,用于将所述一元组关系中所有的单头的信息传递进行拼接获得所述目标节点的信息向量。
进一步地,所述表示向量获得单元包括:
聚合子单元,用于基于注意力分数对信息进行聚合,获得目标节点在每一层的新的信息向量;
线性投影子单元,用于将所述新的信息向量进行线性投影获得线性投影向量,并获得所述线性投影向量的非线性激活函数结果;
残差拼接子单元,用于将所述非线性激活函数结果与前一层的表示向量进行残差拼接,获得目标节点在对应层的表示向量;
将相乘子单元,用于将异构网络中每一层输出的表示向量相乘,获得所述目标节点最终的表示向量。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于图表示学习的环状RNA-疾病关联预测程序,所述基于图表示学习的环状RNA-疾病关联预测程序被处理器运行时实现如上所述的基于图表示学习的环状RNA-疾病关联预测方法的步骤,在此不再赘述。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于图表示学习的环状RNA-疾病关联预测方法,其特征在于,所述方法包括:
基于环状RNA及相关信息构建环状RNA的异构网络,所述异构网络包括环状RNA节点和疾病节点;
将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;
基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。
2.根据权利要求1所述的方法,其特征在于,所述基于环状RNA及相关信息构建环状RNA的异构网络包括:
从公开的数据集中获取构建环状RNA的异构网络所需的相关信息,所述相关信息包括RNA与疾病的关联关系、环状RNA的相关生物分子及相互作用关系、环状RNA序列和宿主基因;
基于环状RNA序列计算环状RNA序列之间的序列相似度在对应的环状RNA节点之间添加第一边,基于疾病的疾病语义相似度在对应的疾病节点之间添加第二边,以获得异构网络。
3.根据权利要求2所述的方法,其特征在于,所述从公开的数据集中获取构建环状RNA的异构网络所需的相关信息包括:
从RNADisease数据库分别获取环状RNA、miRNA与疾病之间的疾病关联关系;
基于RNAInter数据库提取与环状RNA有直接相互作用关系的相关生物分子,并提取环状RNA与相关生物分子之间的相互作用关系,所述相关生物分子包括miRNA、RNA结合蛋白、转铁蛋白、化合物;
基于circBase数据库获取环状RNA序列和宿主基因。
4.根据权利要求2所述的方法,其特征在于,所述基基于环状RNA序列计算环状RNA序列之间的序列相似度在对应的环状RNA节点之间添加第一边,基于疾病的疾病语义相似度在对应的疾病节点之间添加第二边,以获得异构网络包括:
将不同长度的环状RNA序列进行可逆变换投影成相同长度的RNA序列向量,基于皮尔逊相关系数计算相同长度的RNA序列向量之间的序列相似度;
将所有序列相似度的平均值确定为第一阈值,在序列相似度大于第一阈值的两个环状RNA序列对应的环状RNA节点之间添加第一边;
计算组成疾病名称的各个单词向量的单词向量相似性,对获得的单词向量相似性进行累加去平均后获得对应的两个疾病名称的疾病语义相似度;
基于所有疾病语义相似性的平均值确定为第二阈值,在相似性大于第二阈值的两个疾病名称对应的疾病节点之间添加对应的第二边。
5.根据权利要求1所述的方法,其特征在于,所述图表示学习模型包括异构相互注意力模块、异构信息传递模块和信息聚合模块;
所述将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量包括:
通过所述异构相互注意力模块获得异构网络中每个目标节点的注意力分数;
通过所述异构信息传递模块获得异构网络中每个目标节点的信息向量;
通过所述信息聚合模块将目标节点的注意力分数与信息向量进行聚合,获得对应目标节点的表示向量。
6.根据权利要求5所述的方法,其特征在于,所述通过所述异构相互注意力模块获得异构网络中每个目标节点的注意力分数包括:
通过异构相互注意力模块将异构网络中目标节点的一元组关系的终点映射至Query向量,将所述一元组关系的起点映射至Key向量;
基于所述Query向量、所述Key向量、投影矩阵以及参数矩阵确定每一组关系类型的注意力分数;
对各种关系类型的注意力分数进行归一化转化,获得对应目标节点的注意力分数。
7.根据权利要求5所述的方法,其特征在于,所述通过异构信息传递模块获得异构网络中每个目标节点的信息向量包括:
将异构网络中目标节点的一元组关系的起点的表示向量进行线性变换,并与依赖于同一组关系类型的参数化投影矩阵相乘获得单头的信息传递;
将所述一元组关系中所有的单头的信息传递进行拼接获得所述目标节点的信息向量。
8.根据权利要求5所述的方法,其特征在于,所述通过信息聚合模块将目标节点的注意力分数与信息向量进行聚合,获得对应目标节点的表示向量包括:
基于注意力分数对信息进行聚合,获得目标节点在每一层的新的信息向量;
将所述新的信息向量进行线性投影获得线性投影向量,并获得所述线性投影向量的非线性激活函数结果;
将所述非线性激活函数结果与前一层的表示向量进行残差拼接,获得目标节点在对应层的表示向量;
将异构网络中每一层输出的表示向量相乘,获得所述目标节点最终的表示向量。
9.一种基于图表示学习的环状RNA-疾病关联预测装置,其特征在于,包括:
构建模块,用于基于环状RNA及相关信息构建环状RNA的异构网络;
学习模块,用于将异构网络中各个节点的特征随机初始化后输入图表示学习模型,通过所述图表示学习模型按预设流程学习各个节点的表示向量;
预测模块,用于基于环状RNA节点的表示向量和疾病节点的表示向量的内积确定为对应环状RNA与疾病的关联预测得分。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于图表示学习的环状RNA-疾病关联预测程序,所述基于图表示学习的环状RNA-疾病关联预测程序被处理器运行时实现如权利要求1-8中任一项所述的方法的步骤。
CN202311316888.5A 2023-10-11 2023-10-11 基于图表示学习的环状rna-疾病关联预测方法 Active CN117393143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311316888.5A CN117393143B (zh) 2023-10-11 2023-10-11 基于图表示学习的环状rna-疾病关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311316888.5A CN117393143B (zh) 2023-10-11 2023-10-11 基于图表示学习的环状rna-疾病关联预测方法

Publications (2)

Publication Number Publication Date
CN117393143A true CN117393143A (zh) 2024-01-12
CN117393143B CN117393143B (zh) 2024-06-25

Family

ID=89440261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311316888.5A Active CN117393143B (zh) 2023-10-11 2023-10-11 基于图表示学习的环状rna-疾病关联预测方法

Country Status (1)

Country Link
CN (1) CN117393143B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232789A1 (zh) * 2020-05-21 2021-11-25 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN114093425A (zh) * 2021-11-29 2022-02-25 湖南大学 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN114613437A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种基于异构图的miRNA与疾病关联预测方法及系统
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法
CN114999635A (zh) * 2022-06-20 2022-09-02 桂林理工大学 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
CN115394377A (zh) * 2022-10-08 2022-11-25 华中师范大学 一种基于多任务学习的异质图卷积网络的药物重定位模型
CN115798598A (zh) * 2022-11-16 2023-03-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
CN115798730A (zh) * 2022-11-18 2023-03-14 中南大学 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
CN115995293A (zh) * 2022-11-18 2023-04-21 齐鲁工业大学 一种环状rna和疾病关联预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232789A1 (zh) * 2020-05-21 2021-11-25 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN114093425A (zh) * 2021-11-29 2022-02-25 湖南大学 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN114613437A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种基于异构图的miRNA与疾病关联预测方法及系统
CN114999635A (zh) * 2022-06-20 2022-09-02 桂林理工大学 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法
CN115394377A (zh) * 2022-10-08 2022-11-25 华中师范大学 一种基于多任务学习的异质图卷积网络的药物重定位模型
CN115798598A (zh) * 2022-11-16 2023-03-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
CN115798730A (zh) * 2022-11-18 2023-03-14 中南大学 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
CN115995293A (zh) * 2022-11-18 2023-04-21 齐鲁工业大学 一种环状rna和疾病关联预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN HUANG: "MEAHNE: miRNA–Disease Association Prediction Based on Semantic Information in a Heterogeneous Network", LIFE, 11 October 2022 (2022-10-11) *
JUNYI LI: "PmDNE: Prediction of miRNA-Disease Association Based on Network Embedding and Network Similarity Analysis", BIOMED RESEARCH INTERNATIONAL, 31 December 2020 (2020-12-31) *
LI PENG: "Predicting CircRNA-Disease Associations via Feature Convolution Learning With Heterogeneous Graph Attention Network", IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS, vol. 27, no. 6, 30 June 2023 (2023-06-30) *

Also Published As

Publication number Publication date
CN117393143B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
CN106528610A (zh) 一种基于路径张量分解的知识图谱表示学习方法
CN113378913B (zh) 一种基于自监督学习的半监督节点分类方法
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN108804565B (zh) 一种基于知识表示学习的协同矩阵分解方法
WO2023071592A1 (zh) 面向超大搜索空间的网络结构搜索方法、系统及介质
CN117992805B (zh) 基于张量积图融合扩散的零样本跨模态检索方法、系统
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN115952424A (zh) 一种基于多视图结构的图卷积神经网络聚类方法
CN116383422A (zh) 一种基于锚点的无监督跨模态哈希检索方法
CN114999635A (zh) 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
CN115131605A (zh) 一种基于自适应子图的结构感知图对比学习方法
CN116010615A (zh) 实体的对齐方法、装置、电子设备及计算机存储介质
CN113887698B (zh) 基于图神经网络的整体知识蒸馏方法和系统
CN114254117A (zh) 一种基于数据增强和自适应负采样技术的知识图谱推理方法
CN117393143B (zh) 基于图表示学习的环状rna-疾病关联预测方法
CN116595343B (zh) 基于流形排序学习的在线无监督跨模态检索方法及系统
CN116304213B (zh) 基于图神经网络的rdf图数据库子图匹配查询优化方法
CN112132326A (zh) 一种基于随机游走度惩罚机制的社交网络好友预测方法
CN112071362B (zh) 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法
CN113077003A (zh) 基于图采样的图注意力网络归纳学习方法
CN111192627B (zh) 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法
CN113506593B (zh) 一种面向大规模基因调控网络的智能推断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant