CN113921084B - 疾病相关非编码rna调控轴多维靶向预测方法及系统 - Google Patents

疾病相关非编码rna调控轴多维靶向预测方法及系统 Download PDF

Info

Publication number
CN113921084B
CN113921084B CN202111518674.7A CN202111518674A CN113921084B CN 113921084 B CN113921084 B CN 113921084B CN 202111518674 A CN202111518674 A CN 202111518674A CN 113921084 B CN113921084 B CN 113921084B
Authority
CN
China
Prior art keywords
network
disease
genes
mirna
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111518674.7A
Other languages
English (en)
Other versions
CN113921084A (zh
Inventor
孙宇
官方霖
严江伟
申忱
李慧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu Hospital of Shandong University
Original Assignee
Qilu Hospital of Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu Hospital of Shandong University filed Critical Qilu Hospital of Shandong University
Priority to CN202111518674.7A priority Critical patent/CN113921084B/zh
Publication of CN113921084A publication Critical patent/CN113921084A/zh
Application granted granted Critical
Publication of CN113921084B publication Critical patent/CN113921084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种疾病相关非编码RNA调控轴多维靶向预测方法及系统,属于基于机器学习的生物信息处理技术领域,利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;基于构建的蛋白‑蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;在确定的枢纽基因中,获取关键蛋白编码标志物;利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。本发明可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的lncRNA‑miRNA‑mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子标志物。

Description

疾病相关非编码RNA调控轴多维靶向预测方法及系统
技术领域
本发明涉及基于机器学习的生物信息处理技术领域,具体涉及一种基于优化的XGBoost算法和多组学数据整合分析的疾病相关非编码RNA调控轴多维靶向预测方法及系统。
背景技术
基因表达是将来自基因的遗传信息合成功能性基因产物的过程,该过程受到多个维度的精确调控和复杂相互作用的影响,例如基因突变、转录因子、非编码RNA和甲基化等。这种多层次的监管网络使多组学整合成为表征表型复杂生物学机制的重要方法。
高通量测序技术和多组学技术的出现,推动了大量多组学数据的产生,它们不仅包括具有不同数据特征的不同数据,也包括不同类型的多组学数据集和分布特点分析,与个体组学数据在阐明疾病的生物学机制方面的局限性相比,多组学数据具有更强的互补效应。因此,揭示分子不同组学多维度之间的复杂关系,对于全面深度研究疾病的生物学机制具有重要意义。目前,仍缺乏分析多组学多维度数据之间复杂关系有效的方法,是生物学数据解释和基础研究的瓶颈。
先前的多项研究表明:miRNA、mRNA或lncRNA是多种生物过程和疾病发展的重要调节因子,鉴于lncRNAs调控基因的机制以及miRNA靶向基因与疾病之间的关系,希望获得更多关于与疾病相关的lncRNA-miRNA-mRNA调控轴的信息,以提供更多的参考和证据来阐明疾病分子机制。尽管已经开发了许多用于预测疾病相关ncRNA的方法,例如RWR、RWRHLD、LncRDNetFlow和LncPriCNet,但仍然无法将lncRNA-miRNA-mRNA调控轴识别为一个完整的功能模块。
发明内容
本发明的目的在于提供一种疾病相关非编码RNA调控轴多维靶向预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种疾病相关非编码RNA调控轴多维靶向预测方法,包括:
利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
在确定的枢纽基因中,获取关键蛋白编码标志物;
利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
优选的,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源RNA网络。
优选的,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk 数据库预测得到lncRNA-miRNA网络和miRNA-靶基因网络。
优选的,利用竞争性内源RNA网络提取了包含关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络。
优选的,根据提取的所述非编码RNA调控轴网络中每个RNA分子彼此间的双荧光素酶报告基因结果,确定所述RNA分子的靶向生物学关系。
优选的,对多维组学数据通过权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。
优选的,对筛选出的差异表达基因和共表达基因进行富集分析,基于构建的蛋白-蛋白相互作用PPI网络,确定枢纽基因的组成。
优选的,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值。
优选的,所述多维组学数据包括基因组数据、转录组数据和甲基化数据。
第二方面,本发明提供一种疾病相关非编码RNA调控轴多维靶向预测系统,包括:
筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
确定模块,用于基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;
预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
本发明有益效果:
提出机器学习导向的多组学数据整合分析方法,基于优化的XGBoost算法通过量化模型中的每个基因获取关键的蛋白质编码生物标志物;
确定了与妊娠糖尿病相关的 MALAT1-hsa-miR-144-3p-IRS1调控网络轴;
提高了预测疾病相关lncRNA-miRNA-mRNA调控网络的可靠性,为涉及复杂疾病的非编码调控网络的机制研究提供了有用信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的疾病相关非编码RNA调控轴多维靶向预测方法流程图。
图2为本发明实施例所述的训练集数据的ROC曲线示意图。
图3为本发明实施例所述的测试集数据的ROC曲线示意图。
图4为本发明实施例所述的对预测结果进行RT-qPCR 验证结果示意图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本实施例1提供一种全新优化的XGBoost算法和多组学数据整合分析在复杂疾病的内源性竞争非编码RNA调控网络中的分析应用,具体分为以下几个步骤:
第一步:数据采集与预处理。通过对至少三个维度的组学数据(如,基因组、转录组和甲基化数据)进行相应的生物信息学分析前预处理,并进行权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。对筛选出来的结果进行GO和KEGG的富集分析,并构建蛋白-蛋白相互作用(PPI)网络,最终确定枢纽基因的组成。
本实施例1中,在进行差异表达分析时,会得到很多的差异表达基因,这些基因如果只是按照基因名进行处理,很难找到这些基因之间的关系规律。高通量的数据的分析,可以得到很多候选结果。但是如果只是把结果进行平铺,不利于发现其内部的本质联系。因此,本实施例1中使用了富集分析技术以更清楚的了解这些基因的功能。可以把富集分析理解为在把很零零碎碎的东西,通过一个整体来反应出来,类似于从微观到宏观的变化。
利用富集分析,可以把很多看着杂乱的差异基因总结出一个比较整体反应事件发生的概述性的句子。例如:TP53信号通路和胃癌的发生有关。而不是说BAX、BID、ABL1、ATM、BCL2、BOK、CDKN1A这7个基因和胃癌的发生有关系。
其中,GO和KEGG就是基于不同的分类思想而储存的基因相关功能的数据库。
GO数据库,全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物过程(biological process, BP)。利用GO数据库,就可以得到目标基因在CC、MF和BP三个层面上主要和什么有关。
KEGG数据库:除了对基因本身功能的注释,基因会参与人体的各个通路,基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。其实通路数据库有很多,类似于wikipathway,reactome都是相关的通路数据库。
其实GO和KEGG是两个数据库,里面有每个基因相关的功能信息,而富集分析就是一个把这些功能进行进行整合计算的算法。GO和KEGG是基础,而富集是过程,最后得到的结果就是整合后的宏观的结果。
第二步:基于优化的机端梯度提升算法(XGBoost算法)在确定的枢纽基因中寻找关键的蛋白编码标志物,并进行权重赋值。
如果boost算法每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gradient boosting),XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,XGBoost算法是采用分步前向加性模型,只不过在每次迭代中生成弱学习器后不再需要计算一个系数,XGBoost算法通过优化结构化损失函数(加入了正则项的损失函数,可以起到降低过拟合的风险)来实现弱学习器的生成,并且XGBoost算法没有采用搜索方法,而是直接利用了损失函数的一阶导数和二阶导数值,并通过预排序、加权分位数等来提高算法的性能。
本实施例1中,提供优化的机器学习集成分类算法XGBoost,并评估了XGBoost算法中每个基因的重要性。XGBoost算法公式如下:
Figure 792881DEST_PATH_IMAGE001
其中,
Figure 424851DEST_PATH_IMAGE002
表示目标函数,
Figure 764827DEST_PATH_IMAGE003
表示样本数量,
Figure 747827DEST_PATH_IMAGE004
表示第
Figure 143036DEST_PATH_IMAGE005
次迭代建立的树模型的结构,
Figure 878780DEST_PATH_IMAGE006
表示自变量,
Figure 904505DEST_PATH_IMAGE007
表示二阶导,
Figure 171538DEST_PATH_IMAGE008
表示一阶导,
Figure 58854DEST_PATH_IMAGE009
表示模型复杂度,
Figure 399836DEST_PATH_IMAGE010
表示控制叶子数量的参数,
Figure 658779DEST_PATH_IMAGE011
表示叶节点的数量,
Figure 600059DEST_PATH_IMAGE012
表示控制L1正则化惩罚项的参数,
Figure 337071DEST_PATH_IMAGE013
表示模型参数,
Figure 798140DEST_PATH_IMAGE014
表示控制L2正则化惩罚项的参数。
此外,支持向量机(SVM)、随机森林(RF)和来自 scikit-learn的决策树(TREE)的三个机器学习模型也可用于同样的集成分类验证,通过对比可知,优化的XGBoost算法比上述三个算法的可靠性更高(即AUC值更高)。
第三步:利用多组学数据整合分析得到的差异表达miRNA或lncRNA,结合StarBase数据库和miRWalk 数据库所预测到的lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源网络,并提取包含关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络。
本实施例1中,最后在人群样本或动物模型中,采集血液或疾病相关组织样本,对预测的关键lncRNA-miRNA-mRNA调控网络的关键候选分子进行相应的实验验证,只有当预测的调控轴中每个RNA分子的表达变化具有统计学显着差异,且彼此间的双荧光素酶报告基因结果确诊了它们的靶向生物学关系时,才认为预测的调控网络得到了验证。
综上,本实施例1中,提出的机器学习导向的多组学数据整合分析方法,预测了可靶向的疾病相关 lncRNA-miRNA-mRNA调控轴。基于优化的XGBoost算法通过量化模型中的每个基因以获取关键蛋白质编码生物标志物,为预测疾病相关lncRNA-miRNA-mRNA调控网络提供了一种新的可靠的解决方案。
实施例2
本实施例2中,提供一种疾病相关非编码RNA调控轴多维靶向预测系统,包括:
筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
确定模块,用于基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;
预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
本实施例2中,利用上述的系统,实现了复杂疾病相关非编码RNA调控轴的多维靶向预测方法,包括:
利用筛选模块,基于多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
利用确定模块,基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
利用获取模块,在确定的枢纽基因中,获取关键蛋白编码标志物;
利用预测模块,基于构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
具体的,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源网络。
其中,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk 数据库预测得到lncRNA-miRNA网络和miRNA-靶基因网络。
利用竞争性内源网络提取了包含关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络。
预测的所述RNA调控轴网络中每个非编码RNA分子的表达变化具有统计学显著差异,且彼此间的双荧光素酶报告基因结果确定了所述非编码RNA分子的靶向生物学关系。
本实施例2中,通过对基因组、转录组和甲基化数据三个维度的组学数据进行相应的生物信息学分析前预处理,并进行权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。
然后,对筛选出来的差异表达基因和共表达基因进行GO和KEGG的富集分析,并构建蛋白-蛋白相互作用PPI网络,最终确定了关键枢纽基因的组成。
其中,本实施例2中,基于优化XGBoost算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值。
本实施例2中,优化的XGBoost算法公式如下:
Figure 916399DEST_PATH_IMAGE001
其中,
Figure 892446DEST_PATH_IMAGE002
表示目标函数,
Figure 370831DEST_PATH_IMAGE003
表示样本数量,
Figure 201253DEST_PATH_IMAGE004
表示第
Figure 474103DEST_PATH_IMAGE005
次迭代建立的树模型的结构,
Figure 829123DEST_PATH_IMAGE006
表示自变量,
Figure 907937DEST_PATH_IMAGE007
表示二阶导,
Figure 592865DEST_PATH_IMAGE008
表示一阶导,
Figure 36616DEST_PATH_IMAGE009
表示模型复杂度,
Figure 929531DEST_PATH_IMAGE010
表示控制叶子数量的参数,
Figure 749719DEST_PATH_IMAGE011
表示叶节点的数量,
Figure 102203DEST_PATH_IMAGE012
表示控制L1正则化惩罚项的参数,
Figure 231702DEST_PATH_IMAGE013
表示模型参数,
Figure 607320DEST_PATH_IMAGE014
表示控制L2正则化惩罚项的参数。
实施例3
如图1所示,本实施例3中,提供一种基于优化的机器学习XGBoost算法的可多维靶向妊娠期糖尿病相关的非编码RNA调控轴预测方法,该方法实施主要包括以下三个步骤:
第一步:通过多组学生物信息学数据库筛选潜在的差异生物标志物;
具体步骤包括:通过GEO数据库下载疾病相关的基因组、转录组和甲基化数据。如,下载了与妊娠期糖尿病相关的转录组数据(GSE154377 、GSE150621)、表达谱数据(GSE87295)以及甲基化数据(GSE88929),并且基因表达综合 (GEO) 数据库中获取了lncRNA谱数据(GSE112168)。
将上述数据经过预处理以保留差异表达基因、甲基化基因和 miRNA的合适数据。根据t-SNE算法和相关矩阵分析结果,保留妊娠期糖尿病组与对照组差异显著的样本。
因此,本实施例3中,从GSE154377的134个样本中,选择了49个相关样本,包括32个妊娠期糖尿病样本和17个对照样本;GSE112168包括6个妊娠期糖尿病样品和6个对照样品;共筛选了来自GSE150621的8个样品,包括5个妊娠期糖尿病样品和 3个对照样品。
使用R统计软件中的DESeq2包筛选差异表达miRNA和差异表达基因(DEG)。使用R统计软件中的limma包,保留了GSE87295中的7个样品,包括5个妊娠期糖尿病样品和2个对照样品。在GSE88929的两个数据集(A和B)中,选择了样本较多的数据集B,包括23个妊娠期糖尿病样本和45个对照样本。使用R统计软件中的ChAMP包筛选差异甲基化位置(DMP)。使用R统计软件中的WGCNA包基于GSE154377数据(满足WGCNA的最小样本量要求)进行基因表达矩阵和共表达分析,以提取疾病相关模块中的共表达基因。通过R统计软件中的ggVennDiagram包,将WGCNA中差异表达的生物标志物和共表达的基因分为两组,基因上调组和基因下调组。
第二步:基于全新优化的机器学习XGBoost算法和多组学数据库机器学习模型,寻找关键的生物标志分子(即蛋白编码标志物)。
具体步骤包括:
通过GO数据库富集分析的差异生物标志物的生物学相关功能,主要包括细胞成分、生物过程和分子功能;通过蛋白质-蛋白质相互作用(PPI)网络的构建基于疾病相关关键蛋白调控通路,使用STRING数据库构建蛋白-蛋白(PPI)相关作用网络,然后使用在Cytoscape 软件中使用CentiScaPe2.2插件。
通过机器学习算法获取关键蛋白生物标志物,本实施例3中,采用优化的机器学习集成分类算法XGBoost。
XGBoost算法公式如下:
Figure 716352DEST_PATH_IMAGE001
其中,
Figure 188922DEST_PATH_IMAGE002
表示目标函数,
Figure 974475DEST_PATH_IMAGE003
表示样本数量,
Figure 86657DEST_PATH_IMAGE004
表示第
Figure 310965DEST_PATH_IMAGE005
次迭代建立的树模型的结构,
Figure 575724DEST_PATH_IMAGE006
表示自变量,
Figure 282911DEST_PATH_IMAGE007
表示二阶导,
Figure 898700DEST_PATH_IMAGE008
表示一阶导,
Figure 661120DEST_PATH_IMAGE009
表示模型复杂度,
Figure 29653DEST_PATH_IMAGE010
表示控制叶子数量的参数,
Figure 484905DEST_PATH_IMAGE011
表示叶节点的数量,
Figure 322411DEST_PATH_IMAGE012
表示控制L1正则化惩罚项的参数,
Figure 576937DEST_PATH_IMAGE013
表示模型参数,
Figure 613026DEST_PATH_IMAGE014
表示控制L2正则化惩罚项的参数。
此外,另外三个机器学习模型也用于验证上述这些枢纽基因,包括支持向量机(SVM)、随机森林(RF)和来自 scikit-learn的决策树。如图2、图3所示,分别为训练集数据和预测集数据的ROC曲线示意图,计算ROC 曲线 (AUC) 下的面积和准确性以评估不同的机器学习模型。性能最佳的机器学习模型中最重要的生物标志物由每个蛋白质编码生物标志物的重要性决定。
本步骤使用的所有源代码均已上传至GitHub软件项目托管平台。
第三步:提取获得关键的lncRNA-miRNA-mRNA网络调控分子。
具体步骤包括:
使用R统计软件中的DESeq2包筛选差异表达的miRNA或lncRNA。如果没有差异表达的lncRNA数据,可以使用StarBase数据库2.0版搜索可能调控差异表达的miRNA或lncRNA。
然后,根据StarBase数据库2.0版(标准:clipExpNum>10)预测的相互作用关系,利用差异表达的miRNAs或lncRNAs构建竞争性内源网络。
通过使用 miRWalk 数据库,按照以下标准预测差异表达的 miRNA 的靶基因:p-value = 0.01,“positions” =3UTR,以及 TargetScan数据库或miRDB数据库=1. PPI网络中的hub基因与目的基因进行交集,得到疾病相关基因。
最后,结合lncRNA-miRNA网络和miRNA-靶基因网络,通过Cytoscape构建竞争性内源网络。
在所有构建的调控轴中,包含预测的风险蛋白编码生物标志物在最佳机器学习模型中的调控轴被选为我们管道的主要结果,并且可以转发给用户进行后续的实验验证。如果有多个调控轴,则根据每个轴中包含的预测基因的重要性,将调控轴的关键程度按降序排列。
本实施例3中,最后在人群样本或动物模型中,对预测的关键lncRNA-miRNA-mRNA调控分子进行了实验验证。
具体步骤包括:在人群样本或动物模型中,采集血液或疾病相关组织样本,对预测的关键lncRNA-miRNA-mRNA调控分子进行实验验证,只有当预测的调控轴中每个RNA分子的表达变化具有统计学显着差异时,才认为预测的调控网络已经初步验证。
考虑到胎盘作为妊娠重要组织,推测其在妊娠期糖尿病的发病机制中起着重要作用,因此,招募了5 名GDM 患者和 5名糖耐量正常对照的胎盘组织,对预测结果进行RT-qPCR 验证,用2–ΔΔCT(livak)法计算基因表达变化,结果如图4所示。
综上,本实施例3中,提出的基于机器学习导向的多组学数据整合分析方法,以预测可靶向的疾病相关 lncRNA-miRNA-mRNA调控轴。基于优化的XGBoost算法通过量化模型中的每个基因以发现最重要的蛋白质编码生物标志物。可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的lncRNA- miRNA- mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子标志物。首次确定了与妊娠糖尿病相关的 MALAT1-hsa-miR-144-3p-IRS1调控网络轴。
综上所述,本发明实施例所述的疾病相关非编码RNA调控轴多维靶向预测方法及系统,可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的lncRNA-miRNA-mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子标志物。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,包括:
利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
基于构建的蛋白-蛋白相互作用PPI网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
在确定的枢纽基因中,获取关键蛋白编码标志物;其中,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值;
所述极端梯度提升算法如下公式所示:
Figure 427149DEST_PATH_IMAGE001
其中,
Figure 460965DEST_PATH_IMAGE002
表示目标函数,
Figure 172569DEST_PATH_IMAGE003
表示样本数量,
Figure 224707DEST_PATH_IMAGE004
表示第
Figure 301247DEST_PATH_IMAGE005
次迭代建立的树模型的结构,
Figure 884676DEST_PATH_IMAGE006
表示自变量,
Figure 822807DEST_PATH_IMAGE007
表示二阶导,
Figure 745763DEST_PATH_IMAGE008
表示一阶导,
Figure 242473DEST_PATH_IMAGE009
表示模型复杂度,
Figure 313197DEST_PATH_IMAGE010
表示控制叶子数量的参数,
Figure 304287DEST_PATH_IMAGE011
表示叶节点的数量,
Figure 144067DEST_PATH_IMAGE012
表示控制L1正则化惩罚项的参数,
Figure 313142DEST_PATH_IMAGE013
表示模型参数,
Figure 543266DEST_PATH_IMAGE014
表示控制L2正则化惩罚项的参数;
利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络;其中,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源RNA网络。
2.根据权利要求1所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk数据库预测得到lncRNA-miRNA网络和miRNA-靶基因网络。
3.根据权利要求1或2所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,根据提取的所述非编码RNA调控轴网络中每个RNA分子彼此间的双荧光素酶报告基因结果,确定所述RNA分子的靶向生物学关系。
4.根据权利要求1所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,对多维组学数据通过权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。
5.根据权利要求4所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,对筛选出的差异表达基因和共表达基因进行富集分析,基于构建的蛋白-蛋白相互作用PPI网络,确定枢纽基因的组成。
6.根据权利要求3所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,所述多维组学数据包括基因组数据、转录组数据和甲基化数据。
7.一种基于如权利要求1-6任一项所述的疾病相关非编码RNA调控轴多维靶向预测方法的疾病相关非编码RNA调控轴多维靶向预测系统,其特征在于,包括:
筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
确定模块,用于基于构建的蛋白-蛋白相互作用PPI网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;其中,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值;
预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络;其中,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源RNA网络。
CN202111518674.7A 2021-12-13 2021-12-13 疾病相关非编码rna调控轴多维靶向预测方法及系统 Active CN113921084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111518674.7A CN113921084B (zh) 2021-12-13 2021-12-13 疾病相关非编码rna调控轴多维靶向预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111518674.7A CN113921084B (zh) 2021-12-13 2021-12-13 疾病相关非编码rna调控轴多维靶向预测方法及系统

Publications (2)

Publication Number Publication Date
CN113921084A CN113921084A (zh) 2022-01-11
CN113921084B true CN113921084B (zh) 2022-03-08

Family

ID=79248980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111518674.7A Active CN113921084B (zh) 2021-12-13 2021-12-13 疾病相关非编码rna调控轴多维靶向预测方法及系统

Country Status (1)

Country Link
CN (1) CN113921084B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547417B (zh) * 2022-10-18 2023-05-26 南方医科大学南方医院 一种疾病lncRNA-转录因子-靶基因层级调控网络的构建方法和应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391962A (zh) * 2017-09-05 2017-11-24 武汉古奥基因科技有限公司 基于多组学分析基因或位点对疾病调控关系的方法
CN107679367A (zh) * 2017-09-20 2018-02-09 湖南大学 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法
CN111462820A (zh) * 2020-03-31 2020-07-28 浙江科技学院 基于特征筛选和集成算法的非编码rna预测方法
CN113377765A (zh) * 2021-07-09 2021-09-10 深圳华大基因科技服务有限公司 一种多组学数据分析系统及其数据转换方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657895B2 (en) * 2016-05-03 2023-05-23 Institute For Systems Biology Methods for identifying treatment targets based on multiomics data
CN109637588B (zh) * 2018-12-29 2022-07-15 北京百迈客生物科技有限公司 一种基于全转录组高通量测序构建基因调控网络的方法
US11908547B2 (en) * 2019-05-08 2024-02-20 X Development Llc Methods and compositions for governing phenotypic outcomes in plants
CN112391470A (zh) * 2020-11-11 2021-02-23 广东医科大学 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391962A (zh) * 2017-09-05 2017-11-24 武汉古奥基因科技有限公司 基于多组学分析基因或位点对疾病调控关系的方法
CN107679367A (zh) * 2017-09-20 2018-02-09 湖南大学 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法
CN111462820A (zh) * 2020-03-31 2020-07-28 浙江科技学院 基于特征筛选和集成算法的非编码rna预测方法
CN113377765A (zh) * 2021-07-09 2021-09-10 深圳华大基因科技服务有限公司 一种多组学数据分析系统及其数据转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Construction of a Competitive Endogenous RNA Network for Pancreatic Adenocarcinoma Based on Weighted Gene Co-expression Network Analysis and a Prognosis Model;Jing Wang et.al;《Frontiers in Bioengineering and Biotechnology》;20200528;第8卷;第1-13页 *
基于多组学数据和网络模型的复杂疾病靶标预测及药物基因组学研究;李杰;《中国博士学位论文全文数据库 医药卫生科技辑》;20180815;第E079-3页 *

Also Published As

Publication number Publication date
CN113921084A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
Caudai et al. AI applications in functional genomics
CN111161793B (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
EP2864919B1 (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CN112183837A (zh) 一种基于自编码模型的miRNA与疾病关联关系预测方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN113921084B (zh) 疾病相关非编码rna调控轴多维靶向预测方法及系统
Feng et al. Multi-omics data fusion via a joint kernel learning model for cancer subtype discovery and essential gene identification
CN112086199A (zh) 基于多组学数据的肝癌数据处理系统
Liang et al. m6A-Maize: weakly supervised prediction of m6A-carrying transcripts and m6A-affecting mutations in maize (Zea mays)
Thibodeau et al. CoRE-ATAC: A deep learning model for the functional classification of regulatory elements from single cell and bulk ATAC-seq data
CN110211634B (zh) 一种多组学数据联合分析的方法
Wang et al. Discovery and validation of gene classifiers for endocrine-disrupting chemicals in zebrafish (danio rerio)
CN117616505A (zh) 用于使用指纹分析将化合物与生理状况相关联的系统和方法
CN108959843B (zh) 靶向rna的化学小分子药物计算机筛选方法
Wibowo et al. XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection
Muhammad et al. Gvdeepnet: Unsupervised deep learning techniques for effective genetic variant classification
Hwang et al. Big data and deep learning for RNA biology
CN118114125B (zh) 基于增量学习的miRNA及其异构体家族信息识别方法
CN116631572B (zh) 基于人工智能的急性心肌梗死临床决策支持系统及设备
Souza et al. Toxicogenomics and Toxicoinformatics: Supporting Systems Biology in the Big Data Era
Sun et al. Prediction of miRNAs and diseases association based on sparse autoencoder and MLP
Valavanis et al. Intelligent identification of biomarkers for the study of obstructive nephropathy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20220111

Assignee: Xinlipu (Shandong) Biotechnology Co.,Ltd.

Assignor: QILU HOSPITAL OF SHANDONG University

Contract record no.: X2023980037776

Denomination of invention: Multidimensional targeted prediction method and system for disease related non coding RNA regulatory axis

Granted publication date: 20220308

License type: Common License

Record date: 20230710