CN112837752A - 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法 - Google Patents

一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法 Download PDF

Info

Publication number
CN112837752A
CN112837752A CN202110141774.6A CN202110141774A CN112837752A CN 112837752 A CN112837752 A CN 112837752A CN 202110141774 A CN202110141774 A CN 202110141774A CN 112837752 A CN112837752 A CN 112837752A
Authority
CN
China
Prior art keywords
network
gene
layer
diffusion
depressive disorder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110141774.6A
Other languages
English (en)
Other versions
CN112837752B (zh
Inventor
李敏
项炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110141774.6A priority Critical patent/CN112837752B/zh
Publication of CN112837752A publication Critical patent/CN112837752A/zh
Application granted granted Critical
Publication of CN112837752B publication Critical patent/CN112837752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,该挖掘方法主要包括以下步骤:一、构建多类型基因关联网络;二、构建标准化的多层基因网络;三、激发抑郁障碍基因驱动的多层基因网络散动力学过程;四、挖掘抑郁障碍基因驱动的多层基因网络扩散动力学特征。该挖掘方法能够有效融合不同类型的生物分子网络,并从各种多样化的生物分子网络中挖掘有效的疾病基因特征,从而更有效的识别抑郁障碍相关基因。

Description

一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖 掘方法
技术领域
本发明属于生物信息学分析领域,涉及基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法。
背景技术
抑郁症已成为当今社会的一种常见病,严重影响患者的生活质量,抑郁症与相关基因的功能失调密切相关,但全基因组关联研究等传统方法通常难以对抑郁症基因进行精确定位。由于生物医学实验成本高、时间周期长,因此通过开发计算方法挖掘抑郁障碍基因特征,从而识别抑郁障碍相关基因对于抑郁障碍的机制研究、预防、诊断和治疗都非常的重要。
随着蛋白质相互作用网络等生物分子网络数据快速累积,基于生物分子网络的基因特征挖掘算法成为遗传关联研究的前沿。相同疾病的致病基因,由于其功能上的相关性,在生物分子网络中趋向于聚集,因此基于网络传播的算法成为一种有效策略,例如,带重启的随机游走,异构网络随机游走,多重网络随机游走等;基于现代高通量实验技术的快速发展,各种不同类型的生物分子网络数据的快速增长,这些生物分子网络数据的有效利用将有助于更有效的挖掘抑郁障碍基因特征;传统的基于聚合网络随机游走的算法可以减少网络不完全性的影响,但它可能失去单个网络的结构特征;独立数据源的排位聚合方法利用了单个网络的特性,但忽略了不同类型网络/层之间的关系;多重图框架考虑了不同类型的网络,但网络层之间的相互作用太强烈。异构网络有助于整合多源异构关联数据,但如何从异构网络中提取有用信息来应对特定的疾病仍是一个挑战;因此,如何有效融合这些不同类型的生物分子网络,如何从这些多样化的生物分子网络中挖掘有效的抑郁障碍等疾病基因特征,从而更有效的识别抑郁障碍相关基因,仍是待研究的重要问题。
发明内容
(一)要解决的技术问题
基于此,本发明公开了一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法(后文简称为DDSM),该方法能有效融合不同类型的生物分子网络,并从各种多样化的生物分子网络中挖掘有效的抑郁障碍基因特征,从而更有效的识别抑郁障碍相关基因,经过本发明实验可知,该方法的网络建模和动力学激发过程都是特别适合于抑郁障碍相关基因特征的挖掘。
(二)技术方案
本发明公开了一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,该基因特征挖掘方法包括以下步骤:
步骤1:将多种类型的生物数据建模转换成基因关联网络:计算人类基因表达谱的皮尔逊系数,获取每个基因最相似的k个邻居,构建稀疏化的k近邻基因共表达网络;通过疾病相似性网络和疾病基因关联,计算基因语义相似性网络;
步骤2:将所述基因关联网络中的k近邻基因共表达网络、基因语义相似性网络和多类型的蛋白质物理相互作用网络中对应相同基因的节点相互连接,构建多层基因网络的邻接矩阵,实现多网络融合;通过多层基因网络的邻接矩阵的列归一化,计算多层基因网络的扩散矩阵;
步骤3:依据抑郁障碍基因驱动的多层基因网络扩散动力学方程,将抑郁障碍的已知致病基因作为扩散源,激发抑郁障碍基因驱动的多层基因网络扩散动力学过程,计算多层基因网络中每个节点的状态在扩散过程中的扩散特征。
步骤4:通过计算多层基因网络中对应相同基因的网络节点的所述扩散特征的几何均值,获得综合的抑郁障碍基因特征;依据综合的抑郁障碍基因特征优选抑郁障碍相关基因。
进一步的,步骤1中具体包括:
步骤1.1:获取抑郁障碍及各种相关疾病已知的致病基因数据、疾病表型关联注释数据、人类表型本体数据以及基因表达数据;将多种类型的数据转换成基因关联网络,包括基因共表达网络和基于疾病基因关联的基因语义相似性网络;
基因关联网络的计算方法如下:为将基因表达谱数据应用到基因特征挖掘中,计算人类基因表达谱基因之间的皮尔逊系数
Figure BDA0002929179690000031
Figure BDA0002929179690000032
其中
Figure BDA0002929179690000033
表示基因表达矩阵X的第i行的均值,获取每个基因最相似的k个邻居,构建稀疏化的k近邻基因共表达网络及共表达矩阵;为将疾病语义数据应用到基因特征挖掘中,通过疾病相似性网络和疾病基因关联,计算基因语义相似性网络,计算方法为:
Figure BDA0002929179690000041
其中d1i表示与基因g1关联的疾病,d2j表示与基因g2关联的疾病;n表示与基因g1关联的疾病数量;m表示与基因g2关联的疾病数量;Sim(d1i,d2j)表示疾病d1i和疾病d2j之间的相似性或者关联。
3.根据权利要求2所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,其特征在于,所述步骤1.1后还包括步骤1.2:获取多类型的蛋白质物理相互作用网络,所蛋白质物理相互作用网络包括调控网络、代谢网络、信号传导网络、蛋白质复合物网络、蛋白质激酶网络、高通量二元相互作用网络、文献验证的蛋白质相互作用网络的一种或者多种。
进一步的,步骤2中具体包括:
步骤2.1:为实现多网络融合,将M个基因网络中对应相同基因的节点相互连接起来,构建多层基因网络的邻接矩阵,其邻接矩阵表示为A=Aintra+Ainter∈RNM×NM,Aintra表示独立网络层的超矩阵,Ainter表示层间网络超矩阵,N表示各网络层中的基因数目;独立网络层的超矩阵定义为,
Figure BDA0002929179690000042
其中A(α)表示α网络层的邻接矩阵;层间网络超矩阵定义为,
Figure BDA0002929179690000051
其中AL∈RM×M表示网络层连接矩阵,I∈RN×N为单位矩阵,
Figure BDA0002929179690000052
表示克罗内克积;
步骤2.2:通过对多层基因网络的邻接矩阵的列归一化,计算多层基因网络的扩散矩阵,扩散矩阵的每个元素值的计算方法为:Wij=Aij/∑iAij;其中,Aij为矩阵A的元素值。
进一步的,步骤3中具体包括:
步骤3.1:抑郁障碍基因驱动的多层基因网络扩散动力学方程定义为,
Figure BDA0002929179690000053
其中抑郁障碍基因设为扩散源,yi(t)表示在t时刻多层网络节点i的状态,其中i=1~NM;Wij作为网络节点之间的扩散系数;其向量化表示为,
Figure BDA0002929179690000054
其中L=D-W为多层基因网络的拉普拉斯矩阵,D为对角矩阵,对角元素Dii=∑jWij
Figure BDA0002929179690000055
Figure BDA0002929179690000056
Figure BDA0002929179690000057
表示在t时刻α网络层中对应基因g的节点的状态,其中g=1~N;
步骤3.2:依据定义的多层网络扩散动力学方程,将抑郁障碍的已知致病基因作为扩散源,激发抑郁障碍基因驱动的多层基因网络扩散动力学过程,计算多层基因网络中每个节点的状态随时间的演化过程。
进一步的,步骤4中具体包括:
步骤4.1:依据抑郁障碍基因驱动的多层基因网络扩散动力学过程中网络节点的状态随时间的演化行为,提取扩散过程中的峰值特征
Figure BDA0002929179690000061
和峰值时间
Figure BDA0002929179690000062
并通过
Figure BDA0002929179690000063
计算抑郁障碍基因驱动的多层基因网络中节点的扩散特征;
步骤4.2:基于抑郁障碍基因驱动的多层网络节点扩散特征的量值,计算多层基因网络中对应相同基因的网络节点的扩散特征的几何均值,获得综合的抑郁障碍基因特征,计算公式为
Figure BDA0002929179690000064
其中g=1~N;最后,依据综合的抑郁障碍基因特征优选抑郁障碍相关基因。
在另外一方面,本发明还公开了一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘系统,包括:
至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述任一项所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法。
在另外一方面,本发明还公开了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一项所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法。
(三)有益效果
本发明的上述技术方案具有如下优点,该方法将多种类型的数据转换成基因关联网络,通过多层网络融合多个类型的基因关联网络,通过列归一化计算多层基因网络的扩散矩阵,将抑郁障碍基因作为扩散源,激发抑郁障碍基因驱动的多层基因网络扩散动力学过程,挖掘抑郁障碍基因特征,通过多层网络节点扩散特征的几何均值构建综合的基因特征,从而更有效的挖掘抑郁症相关基因。在真实的数据集上的实验结果表明,与多个现有方法相比,本方法挖掘的抑郁障碍基因特征具有更强的鉴别能力,其网络建模和动力学激发过程能够很好地应用于各个基因之间相关性强的抑郁障碍基因的特征挖掘工作。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明挖掘方法DDSM的流程示意图;
图2为在采用不同控制集策略时本发明挖掘方法DDSM和RWRH、CHN、RWRMP、RWRMG和RWRDRS的性能指标比较图。
具体实施方式
下面将结合附图和实施例对本发明进行清楚、完整地描述,同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,本发明提供了一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,包括以下步骤:
步骤1:构建多类型基因关联网络
将多种类型的生物数据建模转换成基因关联网络:计算人类基因表达谱的皮尔逊系数,获取每个基因最相似的k个邻居,构建稀疏化的k近邻基因共表达网络;通过疾病相似性网络和疾病基因关联,计算基因语义相似性网络;
步骤1中具体包括:
步骤1.1:获取抑郁障碍及各种相关疾病已知的致病基因数据、疾病表型关联注释数据、人类表型本体数据以及基因表达数据;将多种类型的数据转换成基因关联网络,包括基因共表达网络和基于疾病基因关联的基因语义相似性网络;
基因关联网络的计算方法如下:为将基因表达谱数据应用到基因特征挖掘中,计算人类基因表达谱基因之间的皮尔逊系数
Figure BDA0002929179690000081
Figure BDA0002929179690000082
其中
Figure BDA0002929179690000083
表示基因表达矩阵X的第i行的均值,Xip表示基因表达矩阵X第i行第p列的元素值,获取每个基因最相似的k个邻居,构建稀疏化的k近邻基因共表达网络及共表达矩阵;为将疾病语义数据应用到基因特征挖掘中,通过疾病相似性网络和疾病基因关联,计算基因语义相似性网络,计算方法为:
Figure BDA0002929179690000084
其中d1i表示与基因g1关联的疾病,d2j表示与基因g2关联的疾病;n表示与基因g1关联的疾病数量;m表示与基因g2关联的疾病数量;Sim(d1i,d2j)表示疾病d1i和疾病d2j之间的相似性或者关联;
步骤1.2:获取多类型的蛋白质物理相互作用网络(例如:调控网络、代谢网络、信号传导网络、蛋白质复合物网络、蛋白质激酶网络、高通量二元相互作用网络和/或文献验证的蛋白质相互作用网络);
步骤2:构建标准化的多层基因网络
将所述基因关联网络中的k近邻基因共表达网络、基因语义相似性网络和多类型的蛋白质物理相互作用网络中对应相同基因的节点相互连接,构建多层基因网络的邻接矩阵,实现多网络融合;通过多层基因网络的邻接矩阵的列归一化,计算多层基因网络的扩散矩阵;
步骤2中具体包括:
步骤2.1:为实现多网络融合,将M个基因网络中对应相同基因的节点相互连接起来,构建多层基因网络的邻接矩阵,其邻接矩阵表示为A=Aintra+Ainter∈RNM×NM,Aintra表示独立网络层的超矩阵,Ainter表示层间网络超矩阵,N表示各网络层中的基因数目;独立网络层的超矩阵定义为,
Figure BDA0002929179690000091
其中A(α)表示α网络层的邻接矩阵;层间网络超矩阵定义为,
Figure BDA0002929179690000092
其中AL∈RM×M表示网络层连接矩阵,I∈RN×N为单位矩阵,
Figure BDA0002929179690000093
表示克罗内克积;
步骤2.2:通过对多层基因网络的邻接矩阵的列归一化,计算多层基因网络的扩散矩阵,扩散矩阵的每个元素值的计算方法为:Wij=Aij/∑iAij;其中,Aij为矩阵A的元素值。
步骤3:激发抑郁障碍基因驱动的多层基因网络散动力学过程
依据抑郁障碍基因驱动的多层基因网络扩散动力学方程,将抑郁障碍的已知致病基因作为扩散源,激发抑郁障碍基因驱动的多层基因网络扩散动力学过程,计算多层基因网络中每个节点的状态在扩散过程中的扩散特征;
步骤3中具体包括:
步骤3.1:抑郁障碍基因驱动的多层基因网络扩散动力学方程定义为,
Figure BDA0002929179690000101
其中抑郁障碍基因设为扩散源,yi(t)表示在t时刻多层网络节点i的状态,其中i=1~NM;Wij作为网络节点之间的扩散系数;其向量化表示为,
Figure BDA0002929179690000102
其中L=D-W为多层基因网络的拉普拉斯矩阵,D为对角矩阵,对角元素Dii=∑jWij
Figure BDA0002929179690000103
Figure BDA0002929179690000104
Figure BDA0002929179690000105
表示在t时刻α网络层中对应基因g的节点的状态,其中g=1~N;
步骤3.2:依据定义的多层网络扩散动力学方程,将抑郁障碍的已知致病基因作为扩散源,激发抑郁障碍基因驱动的多层基因网络扩散动力学过程,计算多层基因网络中每个节点的状态随时间的演化过程;
步骤4:挖掘抑郁障碍基因驱动的多层基因网络扩散动力学特征
通过计算多层基因网络中对应相同基因的网络节点的扩散特征的几何均值,获得综合的抑郁障碍基因特征;依据综合的抑郁障碍基因特征优选抑郁障碍相关基因。
步骤4中具体包括:
步骤4.1:依据抑郁障碍基因驱动的多层基因网络扩散动力学过程中网络节点的状态随时间的演化行为,提取扩散过程中的峰值特征
Figure BDA0002929179690000111
和峰值时间
Figure BDA0002929179690000112
并通过
Figure BDA0002929179690000113
计算抑郁障碍基因驱动的多层基因网络中节点的扩散特征;
步骤4.2:基于抑郁障碍基因驱动的多层网络节点扩散特征的量值,计算多层基因网络中对应相同基因的网络节点的扩散特征的几何均值,获得综合的抑郁障碍基因特征,计算公式为
Figure BDA0002929179690000114
其中g=1~N;最后,依据综合的抑郁障碍基因特征优选抑郁障碍相关基因;
为了体现本发明的优点,在另外一个实施例中,还进一步通过实验验证本发明方法的有效性,本发明通过收集抑郁障碍及相关疾病基因数据、疾病表型数据、表型本体数据、基因表达数据以及多类型的蛋白质物理相互作用数据,对本方法的性能进行综合评估:
(1)数据准备:通过OMIM数据库(https://omim.org/)获取抑郁症等疾病基因数据;通过HPO数据库获取疾病表型注释数据和表型本体数据;通过GTex获取基因表达数据;然后,构建基因语义相似性网络和基因共表达网络;通过文献获取多类型的蛋白质物理相互作用数据(https://science.sciencemag.org/content/suppl/2015/02/18/ 347.6224.1257601.DC1);
(2)评价策略:采用留一验证,每次将一个已知的疾病基因关联作为阳性测试集,其它作用训练集;采用ALI控制集和WG控制集;ALI对于阳性测试集的每个基因,选择与其在相同染色体上距离最近并且不属于训练集的99个基因作为控制集;WG将训练集和阳性测试集之外的所有基因作为控制集;
(3)评价指标:将AUROC和AUPRC指标作为预测性能的评估指标;AUROC,又称为AUC,是接收着工作特性曲线(ROC)下的面积,已被广泛用于全面衡量预测算法的全局性能,其中ROC曲线是以真阳性率TPR(又称召回率、敏感性)为纵坐标,以假阳性率FPR为横坐标的性能曲线;AUPRC是精度-召回率曲线(PRC)下的面积,其中PRC曲线以精度为纵坐标,以召回率为横坐标;
(4)评价结果
从图2可以看出,无论在ALI控制集下还是在WG控制集下,本方法DDSM的AUROC值和AUPRC值都优于RWRH、CHN、RWRMP、RWRMG和RWRDRS等其它方法的结果;这表明本方法通过多类型的基因关联网络融合和抑郁障碍基因驱动的多层基因网络扩散动力学过程,能够更有效的挖掘抑郁障碍基因特征,从而获得更强的识别抑郁障碍基因的能力。
另外需要说明的是,上述本发明的基因特征挖掘方法可以作为软件程序或者计算机指令在非暂态计算机可读存储介质中执行或者在带有存储器和处理器的控制系统中对大量数据进行批量执行,且其计算程序简单快速。在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,其特征在于,该基因特征挖掘方法包括以下步骤:
步骤1:将多种类型的生物数据建模转换成基因关联网络:计算人类基因表达谱的皮尔逊系数,获取每个基因最相似的k个邻居,构建稀疏化的k近邻基因共表达网络;通过疾病相似性网络和疾病基因关联,计算基因语义相似性网络;
步骤2:将所述基因关联网络中的k近邻基因共表达网络、基因语义相似性网络和多类型的蛋白质物理相互作用网络中对应相同基因的节点相互连接,构建多层基因网络的邻接矩阵,实现多网络融合;通过多层基因网络的邻接矩阵的列归一化,计算多层基因网络的扩散矩阵;
步骤3:依据抑郁障碍基因驱动的多层基因网络扩散动力学方程,将抑郁障碍的已知致病基因作为扩散源,激发抑郁障碍基因驱动的多层基因网络扩散动力学过程,计算多层基因网络中每个节点的状态在扩散过程中的扩散特征。
步骤4:通过计算多层基因网络中对应相同基因的网络节点的所述扩散特征的几何均值,获得综合的抑郁障碍基因特征;依据综合的抑郁障碍基因特征优选出抑郁障碍相关基因。
2.根据权利要求1所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,其特征在于,步骤1中具体包括:
步骤1.1:获取抑郁障碍及各种相关疾病已知的致病基因数据、疾病表型关联注释数据、人类表型本体数据以及基因表达数据;将多种类型的数据转换成基因关联网络,包括基因共表达网络和基于疾病基因关联的基因语义相似性网络;
基因关联网络的计算方法如下:为将基因表达谱数据应用到基因特征挖掘中,计算人类基因表达谱基因之间的皮尔逊系数
Figure FDA0002929179680000021
Figure FDA0002929179680000022
其中
Figure FDA0002929179680000023
表示基因表达矩阵X的第i行的均值,Xip表示基因表达矩阵X第i行第p列的元素值,获取每个基因最相似的k个邻居,构建稀疏化的k近邻基因共表达网络及共表达矩阵;为将疾病语义数据应用到基因特征挖掘中,通过疾病相似性网络和疾病基因关联,计算基因语义相似性网络,计算方法为:
Figure FDA0002929179680000024
其中d1i表示与基因g1关联的疾病,d2j表示与基因g2关联的疾病;n表示与基因g1关联的疾病数量;m表示与基因g2关联的疾病数量;Sim(d1i,d2j)表示疾病d1i和疾病d2j之间的相似性或者关联。
3.根据权利要求2所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,其特征在于,所述步骤1.1后还包括步骤1.2:获取多类型的蛋白质物理相互作用网络,所述蛋白质物理相互作用网络包括调控网络、代谢网络、信号传导网络、蛋白质复合物网络、蛋白质激酶网络、高通量二元相互作用网络、文献验证的蛋白质相互作用网络的一种或者多种。
4.根据权利要求1或2所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,其特征在于,步骤2中具体包括:
步骤2.1:为实现多网络融合,将M个基因网络中对应相同基因的节点相互连接起来,构建多层基因网络的邻接矩阵,其邻接矩阵表示为A=Aintra+Ainter∈RNM×NM,Aintra表示独立网络层的超矩阵,Ainter表示层间网络超矩阵,N表示各网络层中的基因数目;独立网络层的超矩阵定义为,
Figure FDA0002929179680000031
其中A(α)表示α网络层的邻接矩阵;层间网络超矩阵定义为,
Figure FDA0002929179680000032
其中AL∈RM×M表示网络层连接矩阵,I∈RN×N为单位矩阵,
Figure FDA0002929179680000033
表示克罗内克积;
步骤2.2:通过对多层基因网络的邻接矩阵的列归一化,计算多层基因网络的扩散矩阵,扩散矩阵的每个元素值的计算方法为:Wij=Aij/∑iAij;其中,Aij为矩阵A的元素值。
5.根据权利要求4所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,其特征在于,步骤3中具体包括:
步骤3.1:抑郁障碍基因驱动的多层基因网络扩散动力学方程定义为,
Figure FDA0002929179680000034
其中抑郁障碍基因设为扩散源,yi(t)表示在t时刻多层网络节点i的状态,其中i=1~NM;Wij作为网络节点之间的扩散系数;其向量化表示为,
Figure FDA0002929179680000041
其中L=D-W为多层基因网络的拉普拉斯矩阵,D为对角矩阵,对角元素Dii=∑jWij
Figure FDA0002929179680000042
Figure FDA0002929179680000043
Figure FDA0002929179680000044
表示在t时刻α网络层中对应基因g的节点的状态,其中g=1~N;
步骤3.2:依据定义的多层网络扩散动力学方程,将抑郁障碍的已知致病基因作为扩散源,激发抑郁障碍基因驱动的多层基因网络扩散动力学过程,计算多层基因网络中每个节点的状态随时间的演化过程。
6.根据权利要求1或5所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法,其特征在于,步骤4中具体包括:
步骤4.1:依据抑郁障碍基因驱动的多层基因网络扩散动力学过程中网络节点的状态随时间的演化行为,提取扩散过程中的峰值特征
Figure FDA0002929179680000045
和峰值时间
Figure FDA0002929179680000046
并通过
Figure FDA0002929179680000047
计算抑郁障碍基因驱动的多层基因网络中节点的扩散特征;
步骤4.2:基于抑郁障碍基因驱动的多层网络节点扩散特征的量值,计算多层基因网络中对应相同基因的网络节点的扩散特征的几何均值,获得综合的抑郁障碍基因特征,计算公式为
Figure FDA0002929179680000048
其中g=1~X;最后,依据综合的抑郁障碍基因特征优选抑郁障碍相关基因。
7.一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘系统,其特征在于,包括:
至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一项所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一项所述的基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法。
CN202110141774.6A 2021-02-02 2021-02-02 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法 Active CN112837752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110141774.6A CN112837752B (zh) 2021-02-02 2021-02-02 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141774.6A CN112837752B (zh) 2021-02-02 2021-02-02 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法

Publications (2)

Publication Number Publication Date
CN112837752A true CN112837752A (zh) 2021-05-25
CN112837752B CN112837752B (zh) 2022-03-04

Family

ID=75931542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141774.6A Active CN112837752B (zh) 2021-02-02 2021-02-02 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法

Country Status (1)

Country Link
CN (1) CN112837752B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450872A (zh) * 2021-07-02 2021-09-28 南昌大学 磷酸化位点特异激酶的预测方法
CN114010194A (zh) * 2021-11-03 2022-02-08 瑞尔明康(杭州)医疗科技有限公司 生物特征信息获取方法、装置及抑郁症评估装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040115701A1 (en) * 2002-08-30 2004-06-17 Comings David E Method for risk assessment for polygenic disorders
US20100273153A1 (en) * 2006-11-29 2010-10-28 Boris Tabakoff Genetic diagnosis of depression
CN102841985A (zh) * 2012-08-09 2012-12-26 中南大学 一种基于结构域特征的关键蛋白质识别方法
CN105893731A (zh) * 2015-01-19 2016-08-24 大道安康(北京)科技发展有限公司 一种基因健康网络表达测定体系的构建方法
US20180330824A1 (en) * 2017-05-12 2018-11-15 The Regents Of The University Of Michigan Individual and cohort pharmacological phenotype prediction platform

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040115701A1 (en) * 2002-08-30 2004-06-17 Comings David E Method for risk assessment for polygenic disorders
US20100273153A1 (en) * 2006-11-29 2010-10-28 Boris Tabakoff Genetic diagnosis of depression
CN102841985A (zh) * 2012-08-09 2012-12-26 中南大学 一种基于结构域特征的关键蛋白质识别方法
CN105893731A (zh) * 2015-01-19 2016-08-24 大道安康(北京)科技发展有限公司 一种基因健康网络表达测定体系的构建方法
US20180330824A1 (en) * 2017-05-12 2018-11-15 The Regents Of The University Of Michigan Individual and cohort pharmacological phenotype prediction platform

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIN ZENG ET AL.: "A deep learning framework for identifying essential proteins based on protein-protein interaction network and gene expression data", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
郁?等: "基于双层耦合网的表型-基因关联分析与预测", 《电子科技大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450872A (zh) * 2021-07-02 2021-09-28 南昌大学 磷酸化位点特异激酶的预测方法
CN113450872B (zh) * 2021-07-02 2022-12-02 南昌大学 磷酸化位点特异激酶的预测方法
CN114010194A (zh) * 2021-11-03 2022-02-08 瑞尔明康(杭州)医疗科技有限公司 生物特征信息获取方法、装置及抑郁症评估装置

Also Published As

Publication number Publication date
CN112837752B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
JP6609355B2 (ja) 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
CN107545151B (zh) 一种基于低秩矩阵填充的药物重定位方法
CN112837752B (zh) 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN114420203A (zh) 一种用于预测转录因子-靶基因相互作用的方法及模型
KR20160042825A (ko) 패러다임 약물 반응 네트워크
CN111540405A (zh) 一种基于快速网络嵌入的疾病基因预测方法
Lei et al. Inferring metabolite-disease association using graph convolutional networks
CN116525116B (zh) 一种心源性休克实时风险预警监测系统、设备及可存储介质
Yan et al. BiRWDDA: a novel drug repositioning method based on multisimilarity fusion
Jin et al. SADR: self-supervised graph learning with adaptive denoising for drug repositioning
CN118522444B (zh) 基于多模态协同表示学习的piRNA-疾病关联的识别方法
Halsana et al. Denseppi: A novel image-based deep learning method for prediction of protein–protein interactions
US20240112751A1 (en) Copy number variation (cnv) breakpoint detection
Sun et al. DeepdlncUD: Predicting regulation types of small molecule inhibitors on modulating lncRNA expression by deep learning
CN109147936B (zh) 基于深度学习的非编码rna与疾病之间关联的预测方法
CN117577214A (zh) 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法
CN117457064A (zh) 基于图结构自适应的药物-药物相互作用预测方法及装置
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN114822685A (zh) 基于孪生网络的疾病相关性预测方法
Alqubati et al. Machine learning and deep learning-based approaches on various biomarkers for Alzheimer’s disease early detection: A review
WO2023150898A1 (en) Method for identifying chromatin structural characteristic from hi-c matrix, non-transitory computer readable medium storing program for identifying chromatin structural characteristic from hi-c matrix
US20230207052A1 (en) Rare variant polygenic risk scores
Zhang et al. Discovering senile dementia from brain MRI using Ra-DenseNet
Yu et al. scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant