CN113921084B - 疾病相关非编码rna调控轴多维靶向预测方法及系统 - Google Patents
疾病相关非编码rna调控轴多维靶向预测方法及系统 Download PDFInfo
- Publication number
- CN113921084B CN113921084B CN202111518674.7A CN202111518674A CN113921084B CN 113921084 B CN113921084 B CN 113921084B CN 202111518674 A CN202111518674 A CN 202111518674A CN 113921084 B CN113921084 B CN 113921084B
- Authority
- CN
- China
- Prior art keywords
- network
- disease
- genes
- mirna
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种疾病相关非编码RNA调控轴多维靶向预测方法及系统,属于基于机器学习的生物信息处理技术领域,利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;基于构建的蛋白‑蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;在确定的枢纽基因中,获取关键蛋白编码标志物;利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。本发明可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的lncRNA‑miRNA‑mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子标志物。
Description
技术领域
本发明涉及基于机器学习的生物信息处理技术领域,具体涉及一种基于优化的XGBoost算法和多组学数据整合分析的疾病相关非编码RNA调控轴多维靶向预测方法及系统。
背景技术
基因表达是将来自基因的遗传信息合成功能性基因产物的过程,该过程受到多个维度的精确调控和复杂相互作用的影响,例如基因突变、转录因子、非编码RNA和甲基化等。这种多层次的监管网络使多组学整合成为表征表型复杂生物学机制的重要方法。
高通量测序技术和多组学技术的出现,推动了大量多组学数据的产生,它们不仅包括具有不同数据特征的不同数据,也包括不同类型的多组学数据集和分布特点分析,与个体组学数据在阐明疾病的生物学机制方面的局限性相比,多组学数据具有更强的互补效应。因此,揭示分子不同组学多维度之间的复杂关系,对于全面深度研究疾病的生物学机制具有重要意义。目前,仍缺乏分析多组学多维度数据之间复杂关系有效的方法,是生物学数据解释和基础研究的瓶颈。
先前的多项研究表明:miRNA、mRNA或lncRNA是多种生物过程和疾病发展的重要调节因子,鉴于lncRNAs调控基因的机制以及miRNA靶向基因与疾病之间的关系,希望获得更多关于与疾病相关的lncRNA-miRNA-mRNA调控轴的信息,以提供更多的参考和证据来阐明疾病分子机制。尽管已经开发了许多用于预测疾病相关ncRNA的方法,例如RWR、RWRHLD、LncRDNetFlow和LncPriCNet,但仍然无法将lncRNA-miRNA-mRNA调控轴识别为一个完整的功能模块。
发明内容
本发明的目的在于提供一种疾病相关非编码RNA调控轴多维靶向预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种疾病相关非编码RNA调控轴多维靶向预测方法,包括:
利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
在确定的枢纽基因中,获取关键蛋白编码标志物;
利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
优选的,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源RNA网络。
优选的,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk 数据库预测得到lncRNA-miRNA网络和miRNA-靶基因网络。
优选的,利用竞争性内源RNA网络提取了包含关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络。
优选的,根据提取的所述非编码RNA调控轴网络中每个RNA分子彼此间的双荧光素酶报告基因结果,确定所述RNA分子的靶向生物学关系。
优选的,对多维组学数据通过权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。
优选的,对筛选出的差异表达基因和共表达基因进行富集分析,基于构建的蛋白-蛋白相互作用PPI网络,确定枢纽基因的组成。
优选的,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值。
优选的,所述多维组学数据包括基因组数据、转录组数据和甲基化数据。
第二方面,本发明提供一种疾病相关非编码RNA调控轴多维靶向预测系统,包括:
筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
确定模块,用于基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;
预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
本发明有益效果:
提出机器学习导向的多组学数据整合分析方法,基于优化的XGBoost算法通过量化模型中的每个基因获取关键的蛋白质编码生物标志物;
确定了与妊娠糖尿病相关的 MALAT1-hsa-miR-144-3p-IRS1调控网络轴;
提高了预测疾病相关lncRNA-miRNA-mRNA调控网络的可靠性,为涉及复杂疾病的非编码调控网络的机制研究提供了有用信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的疾病相关非编码RNA调控轴多维靶向预测方法流程图。
图2为本发明实施例所述的训练集数据的ROC曲线示意图。
图3为本发明实施例所述的测试集数据的ROC曲线示意图。
图4为本发明实施例所述的对预测结果进行RT-qPCR 验证结果示意图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本实施例1提供一种全新优化的XGBoost算法和多组学数据整合分析在复杂疾病的内源性竞争非编码RNA调控网络中的分析应用,具体分为以下几个步骤:
第一步:数据采集与预处理。通过对至少三个维度的组学数据(如,基因组、转录组和甲基化数据)进行相应的生物信息学分析前预处理,并进行权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。对筛选出来的结果进行GO和KEGG的富集分析,并构建蛋白-蛋白相互作用(PPI)网络,最终确定枢纽基因的组成。
本实施例1中,在进行差异表达分析时,会得到很多的差异表达基因,这些基因如果只是按照基因名进行处理,很难找到这些基因之间的关系规律。高通量的数据的分析,可以得到很多候选结果。但是如果只是把结果进行平铺,不利于发现其内部的本质联系。因此,本实施例1中使用了富集分析技术以更清楚的了解这些基因的功能。可以把富集分析理解为在把很零零碎碎的东西,通过一个整体来反应出来,类似于从微观到宏观的变化。
利用富集分析,可以把很多看着杂乱的差异基因总结出一个比较整体反应事件发生的概述性的句子。例如:TP53信号通路和胃癌的发生有关。而不是说BAX、BID、ABL1、ATM、BCL2、BOK、CDKN1A这7个基因和胃癌的发生有关系。
其中,GO和KEGG就是基于不同的分类思想而储存的基因相关功能的数据库。
GO数据库,全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物过程(biological process, BP)。利用GO数据库,就可以得到目标基因在CC、MF和BP三个层面上主要和什么有关。
KEGG数据库:除了对基因本身功能的注释,基因会参与人体的各个通路,基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。其实通路数据库有很多,类似于wikipathway,reactome都是相关的通路数据库。
其实GO和KEGG是两个数据库,里面有每个基因相关的功能信息,而富集分析就是一个把这些功能进行进行整合计算的算法。GO和KEGG是基础,而富集是过程,最后得到的结果就是整合后的宏观的结果。
第二步:基于优化的机端梯度提升算法(XGBoost算法)在确定的枢纽基因中寻找关键的蛋白编码标志物,并进行权重赋值。
如果boost算法每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gradient boosting),XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,XGBoost算法是采用分步前向加性模型,只不过在每次迭代中生成弱学习器后不再需要计算一个系数,XGBoost算法通过优化结构化损失函数(加入了正则项的损失函数,可以起到降低过拟合的风险)来实现弱学习器的生成,并且XGBoost算法没有采用搜索方法,而是直接利用了损失函数的一阶导数和二阶导数值,并通过预排序、加权分位数等来提高算法的性能。
本实施例1中,提供优化的机器学习集成分类算法XGBoost,并评估了XGBoost算法中每个基因的重要性。XGBoost算法公式如下:
其中,表示目标函数,表示样本数量,表示第次迭代建立的树模型的结构,表示自变量,表示二阶导,表示一阶导,表示模型复杂度,表示控制叶子数量的参数,表示叶节点的数量,表示控制L1正则化惩罚项的参数,表示模型参数,表示控制L2正则化惩罚项的参数。
此外,支持向量机(SVM)、随机森林(RF)和来自 scikit-learn的决策树(TREE)的三个机器学习模型也可用于同样的集成分类验证,通过对比可知,优化的XGBoost算法比上述三个算法的可靠性更高(即AUC值更高)。
第三步:利用多组学数据整合分析得到的差异表达miRNA或lncRNA,结合StarBase数据库和miRWalk 数据库所预测到的lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源网络,并提取包含关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络。
本实施例1中,最后在人群样本或动物模型中,采集血液或疾病相关组织样本,对预测的关键lncRNA-miRNA-mRNA调控网络的关键候选分子进行相应的实验验证,只有当预测的调控轴中每个RNA分子的表达变化具有统计学显着差异,且彼此间的双荧光素酶报告基因结果确诊了它们的靶向生物学关系时,才认为预测的调控网络得到了验证。
综上,本实施例1中,提出的机器学习导向的多组学数据整合分析方法,预测了可靶向的疾病相关 lncRNA-miRNA-mRNA调控轴。基于优化的XGBoost算法通过量化模型中的每个基因以获取关键蛋白质编码生物标志物,为预测疾病相关lncRNA-miRNA-mRNA调控网络提供了一种新的可靠的解决方案。
实施例2
本实施例2中,提供一种疾病相关非编码RNA调控轴多维靶向预测系统,包括:
筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
确定模块,用于基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;
预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
本实施例2中,利用上述的系统,实现了复杂疾病相关非编码RNA调控轴的多维靶向预测方法,包括:
利用筛选模块,基于多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
利用确定模块,基于构建的蛋白-蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
利用获取模块,在确定的枢纽基因中,获取关键蛋白编码标志物;
利用预测模块,基于构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
具体的,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源网络。
其中,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk 数据库预测得到lncRNA-miRNA网络和miRNA-靶基因网络。
利用竞争性内源网络提取了包含关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络。
预测的所述RNA调控轴网络中每个非编码RNA分子的表达变化具有统计学显著差异,且彼此间的双荧光素酶报告基因结果确定了所述非编码RNA分子的靶向生物学关系。
本实施例2中,通过对基因组、转录组和甲基化数据三个维度的组学数据进行相应的生物信息学分析前预处理,并进行权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。
然后,对筛选出来的差异表达基因和共表达基因进行GO和KEGG的富集分析,并构建蛋白-蛋白相互作用PPI网络,最终确定了关键枢纽基因的组成。
其中,本实施例2中,基于优化XGBoost算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值。
本实施例2中,优化的XGBoost算法公式如下:
其中,表示目标函数,表示样本数量,表示第次迭代建立的树模型的结构,表示自变量,表示二阶导,表示一阶导,表示模型复杂度,表示控制叶子数量的参数,表示叶节点的数量,表示控制L1正则化惩罚项的参数,表示模型参数,表示控制L2正则化惩罚项的参数。
实施例3
如图1所示,本实施例3中,提供一种基于优化的机器学习XGBoost算法的可多维靶向妊娠期糖尿病相关的非编码RNA调控轴预测方法,该方法实施主要包括以下三个步骤:
第一步:通过多组学生物信息学数据库筛选潜在的差异生物标志物;
具体步骤包括:通过GEO数据库下载疾病相关的基因组、转录组和甲基化数据。如,下载了与妊娠期糖尿病相关的转录组数据(GSE154377 、GSE150621)、表达谱数据(GSE87295)以及甲基化数据(GSE88929),并且基因表达综合 (GEO) 数据库中获取了lncRNA谱数据(GSE112168)。
将上述数据经过预处理以保留差异表达基因、甲基化基因和 miRNA的合适数据。根据t-SNE算法和相关矩阵分析结果,保留妊娠期糖尿病组与对照组差异显著的样本。
因此,本实施例3中,从GSE154377的134个样本中,选择了49个相关样本,包括32个妊娠期糖尿病样本和17个对照样本;GSE112168包括6个妊娠期糖尿病样品和6个对照样品;共筛选了来自GSE150621的8个样品,包括5个妊娠期糖尿病样品和 3个对照样品。
使用R统计软件中的DESeq2包筛选差异表达miRNA和差异表达基因(DEG)。使用R统计软件中的limma包,保留了GSE87295中的7个样品,包括5个妊娠期糖尿病样品和2个对照样品。在GSE88929的两个数据集(A和B)中,选择了样本较多的数据集B,包括23个妊娠期糖尿病样本和45个对照样本。使用R统计软件中的ChAMP包筛选差异甲基化位置(DMP)。使用R统计软件中的WGCNA包基于GSE154377数据(满足WGCNA的最小样本量要求)进行基因表达矩阵和共表达分析,以提取疾病相关模块中的共表达基因。通过R统计软件中的ggVennDiagram包,将WGCNA中差异表达的生物标志物和共表达的基因分为两组,基因上调组和基因下调组。
第二步:基于全新优化的机器学习XGBoost算法和多组学数据库机器学习模型,寻找关键的生物标志分子(即蛋白编码标志物)。
具体步骤包括:
通过GO数据库富集分析的差异生物标志物的生物学相关功能,主要包括细胞成分、生物过程和分子功能;通过蛋白质-蛋白质相互作用(PPI)网络的构建基于疾病相关关键蛋白调控通路,使用STRING数据库构建蛋白-蛋白(PPI)相关作用网络,然后使用在Cytoscape 软件中使用CentiScaPe2.2插件。
通过机器学习算法获取关键蛋白生物标志物,本实施例3中,采用优化的机器学习集成分类算法XGBoost。
XGBoost算法公式如下:
其中,表示目标函数,表示样本数量,表示第次迭代建立的树模型的结构,表示自变量,表示二阶导,表示一阶导,表示模型复杂度,表示控制叶子数量的参数,表示叶节点的数量,表示控制L1正则化惩罚项的参数,表示模型参数,表示控制L2正则化惩罚项的参数。
此外,另外三个机器学习模型也用于验证上述这些枢纽基因,包括支持向量机(SVM)、随机森林(RF)和来自 scikit-learn的决策树。如图2、图3所示,分别为训练集数据和预测集数据的ROC曲线示意图,计算ROC 曲线 (AUC) 下的面积和准确性以评估不同的机器学习模型。性能最佳的机器学习模型中最重要的生物标志物由每个蛋白质编码生物标志物的重要性决定。
本步骤使用的所有源代码均已上传至GitHub软件项目托管平台。
第三步:提取获得关键的lncRNA-miRNA-mRNA网络调控分子。
具体步骤包括:
使用R统计软件中的DESeq2包筛选差异表达的miRNA或lncRNA。如果没有差异表达的lncRNA数据,可以使用StarBase数据库2.0版搜索可能调控差异表达的miRNA或lncRNA。
然后,根据StarBase数据库2.0版(标准:clipExpNum>10)预测的相互作用关系,利用差异表达的miRNAs或lncRNAs构建竞争性内源网络。
通过使用 miRWalk 数据库,按照以下标准预测差异表达的 miRNA 的靶基因:p-value = 0.01,“positions” =3UTR,以及 TargetScan数据库或miRDB数据库=1. PPI网络中的hub基因与目的基因进行交集,得到疾病相关基因。
最后,结合lncRNA-miRNA网络和miRNA-靶基因网络,通过Cytoscape构建竞争性内源网络。
在所有构建的调控轴中,包含预测的风险蛋白编码生物标志物在最佳机器学习模型中的调控轴被选为我们管道的主要结果,并且可以转发给用户进行后续的实验验证。如果有多个调控轴,则根据每个轴中包含的预测基因的重要性,将调控轴的关键程度按降序排列。
本实施例3中,最后在人群样本或动物模型中,对预测的关键lncRNA-miRNA-mRNA调控分子进行了实验验证。
具体步骤包括:在人群样本或动物模型中,采集血液或疾病相关组织样本,对预测的关键lncRNA-miRNA-mRNA调控分子进行实验验证,只有当预测的调控轴中每个RNA分子的表达变化具有统计学显着差异时,才认为预测的调控网络已经初步验证。
考虑到胎盘作为妊娠重要组织,推测其在妊娠期糖尿病的发病机制中起着重要作用,因此,招募了5 名GDM 患者和 5名糖耐量正常对照的胎盘组织,对预测结果进行RT-qPCR 验证,用2–ΔΔCT(livak)法计算基因表达变化,结果如图4所示。
综上,本实施例3中,提出的基于机器学习导向的多组学数据整合分析方法,以预测可靶向的疾病相关 lncRNA-miRNA-mRNA调控轴。基于优化的XGBoost算法通过量化模型中的每个基因以发现最重要的蛋白质编码生物标志物。可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的lncRNA- miRNA- mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子标志物。首次确定了与妊娠糖尿病相关的 MALAT1-hsa-miR-144-3p-IRS1调控网络轴。
综上所述,本发明实施例所述的疾病相关非编码RNA调控轴多维靶向预测方法及系统,可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的lncRNA-miRNA-mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子标志物。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,包括:
利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
基于构建的蛋白-蛋白相互作用PPI网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
在确定的枢纽基因中,获取关键蛋白编码标志物;其中,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值;
所述极端梯度提升算法如下公式所示:
其中,表示目标函数,表示样本数量,表示第次迭代建立的树模型的结构,表示自变量,表示二阶导,表示一阶导,表示模型复杂度,表示控制叶子数量的参数,表示叶节点的数量,表示控制L1正则化惩罚项的参数,表示模型参数,表示控制L2正则化惩罚项的参数;
利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络;其中,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源RNA网络。
2.根据权利要求1所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk数据库预测得到lncRNA-miRNA网络和miRNA-靶基因网络。
3.根据权利要求1或2所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,根据提取的所述非编码RNA调控轴网络中每个RNA分子彼此间的双荧光素酶报告基因结果,确定所述RNA分子的靶向生物学关系。
4.根据权利要求1所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,对多维组学数据通过权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。
5.根据权利要求4所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,对筛选出的差异表达基因和共表达基因进行富集分析,基于构建的蛋白-蛋白相互作用PPI网络,确定枢纽基因的组成。
6.根据权利要求3所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,所述多维组学数据包括基因组数据、转录组数据和甲基化数据。
7.一种基于如权利要求1-6任一项所述的疾病相关非编码RNA调控轴多维靶向预测方法的疾病相关非编码RNA调控轴多维靶向预测系统,其特征在于,包括:
筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
确定模块,用于基于构建的蛋白-蛋白相互作用PPI网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;其中,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值;
预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的lncRNA-miRNA-mRNA调控轴网络;其中,基于差异表达miRNA或lncRNA,结合lncRNA-miRNA网络和miRNA-靶基因网络,构建竞争性内源RNA网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111518674.7A CN113921084B (zh) | 2021-12-13 | 2021-12-13 | 疾病相关非编码rna调控轴多维靶向预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111518674.7A CN113921084B (zh) | 2021-12-13 | 2021-12-13 | 疾病相关非编码rna调控轴多维靶向预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113921084A CN113921084A (zh) | 2022-01-11 |
CN113921084B true CN113921084B (zh) | 2022-03-08 |
Family
ID=79248980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111518674.7A Active CN113921084B (zh) | 2021-12-13 | 2021-12-13 | 疾病相关非编码rna调控轴多维靶向预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113921084B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115547417B (zh) * | 2022-10-18 | 2023-05-26 | 南方医科大学南方医院 | 一种疾病lncRNA-转录因子-靶基因层级调控网络的构建方法和应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391962A (zh) * | 2017-09-05 | 2017-11-24 | 武汉古奥基因科技有限公司 | 基于多组学分析基因或位点对疾病调控关系的方法 |
CN107679367A (zh) * | 2017-09-20 | 2018-02-09 | 湖南大学 | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 |
CN109033748A (zh) * | 2018-08-14 | 2018-12-18 | 齐齐哈尔大学 | 一种基于多组学的miRNA功能识别方法 |
CN111462820A (zh) * | 2020-03-31 | 2020-07-28 | 浙江科技学院 | 基于特征筛选和集成算法的非编码rna预测方法 |
CN113377765A (zh) * | 2021-07-09 | 2021-09-10 | 深圳华大基因科技服务有限公司 | 一种多组学数据分析系统及其数据转换方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657895B2 (en) * | 2016-05-03 | 2023-05-23 | Institute For Systems Biology | Methods for identifying treatment targets based on multiomics data |
CN109637588B (zh) * | 2018-12-29 | 2022-07-15 | 北京百迈客生物科技有限公司 | 一种基于全转录组高通量测序构建基因调控网络的方法 |
US11908547B2 (en) * | 2019-05-08 | 2024-02-20 | X Development Llc | Methods and compositions for governing phenotypic outcomes in plants |
CN112391470A (zh) * | 2020-11-11 | 2021-02-23 | 广东医科大学 | 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 |
-
2021
- 2021-12-13 CN CN202111518674.7A patent/CN113921084B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391962A (zh) * | 2017-09-05 | 2017-11-24 | 武汉古奥基因科技有限公司 | 基于多组学分析基因或位点对疾病调控关系的方法 |
CN107679367A (zh) * | 2017-09-20 | 2018-02-09 | 湖南大学 | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 |
CN109033748A (zh) * | 2018-08-14 | 2018-12-18 | 齐齐哈尔大学 | 一种基于多组学的miRNA功能识别方法 |
CN111462820A (zh) * | 2020-03-31 | 2020-07-28 | 浙江科技学院 | 基于特征筛选和集成算法的非编码rna预测方法 |
CN113377765A (zh) * | 2021-07-09 | 2021-09-10 | 深圳华大基因科技服务有限公司 | 一种多组学数据分析系统及其数据转换方法 |
Non-Patent Citations (2)
Title |
---|
Construction of a Competitive Endogenous RNA Network for Pancreatic Adenocarcinoma Based on Weighted Gene Co-expression Network Analysis and a Prognosis Model;Jing Wang et.al;《Frontiers in Bioengineering and Biotechnology》;20200528;第8卷;第1-13页 * |
基于多组学数据和网络模型的复杂疾病靶标预测及药物基因组学研究;李杰;《中国博士学位论文全文数据库 医药卫生科技辑》;20180815;第E079-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113921084A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Caudai et al. | AI applications in functional genomics | |
CN111161793B (zh) | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 | |
EP2864919B1 (en) | Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques | |
CN115171779B (zh) | 基于图注意力网络和多组学融合的癌症驱动基因预测装置 | |
CN112183837A (zh) | 一种基于自编码模型的miRNA与疾病关联关系预测方法 | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN111913999B (zh) | 基于多组学与临床数据的统计分析方法、系统和存储介质 | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
CN113921084B (zh) | 疾病相关非编码rna调控轴多维靶向预测方法及系统 | |
Feng et al. | Multi-omics data fusion via a joint kernel learning model for cancer subtype discovery and essential gene identification | |
CN112086199A (zh) | 基于多组学数据的肝癌数据处理系统 | |
Liang et al. | m6A-Maize: weakly supervised prediction of m6A-carrying transcripts and m6A-affecting mutations in maize (Zea mays) | |
Thibodeau et al. | CoRE-ATAC: A deep learning model for the functional classification of regulatory elements from single cell and bulk ATAC-seq data | |
CN110211634B (zh) | 一种多组学数据联合分析的方法 | |
Wang et al. | Discovery and validation of gene classifiers for endocrine-disrupting chemicals in zebrafish (danio rerio) | |
CN117616505A (zh) | 用于使用指纹分析将化合物与生理状况相关联的系统和方法 | |
CN108959843B (zh) | 靶向rna的化学小分子药物计算机筛选方法 | |
Wibowo et al. | XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection | |
Muhammad et al. | Gvdeepnet: Unsupervised deep learning techniques for effective genetic variant classification | |
Hwang et al. | Big data and deep learning for RNA biology | |
CN118114125B (zh) | 基于增量学习的miRNA及其异构体家族信息识别方法 | |
CN116631572B (zh) | 基于人工智能的急性心肌梗死临床决策支持系统及设备 | |
Souza et al. | Toxicogenomics and Toxicoinformatics: Supporting Systems Biology in the Big Data Era | |
Sun et al. | Prediction of miRNAs and diseases association based on sparse autoencoder and MLP | |
Valavanis et al. | Intelligent identification of biomarkers for the study of obstructive nephropathy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20220111 Assignee: Xinlipu (Shandong) Biotechnology Co.,Ltd. Assignor: QILU HOSPITAL OF SHANDONG University Contract record no.: X2023980037776 Denomination of invention: Multidimensional targeted prediction method and system for disease related non coding RNA regulatory axis Granted publication date: 20220308 License type: Common License Record date: 20230710 |