CN113539360A - 一种基于相关性优化和免疫富集的lncRNA特征识别方法 - Google Patents

一种基于相关性优化和免疫富集的lncRNA特征识别方法 Download PDF

Info

Publication number
CN113539360A
CN113539360A CN202110825103.1A CN202110825103A CN113539360A CN 113539360 A CN113539360 A CN 113539360A CN 202110825103 A CN202110825103 A CN 202110825103A CN 113539360 A CN113539360 A CN 113539360A
Authority
CN
China
Prior art keywords
correlation
lncrna
mrna
value
immune
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110825103.1A
Other languages
English (en)
Other versions
CN113539360B (zh
Inventor
高美虹
尚学群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110825103.1A priority Critical patent/CN113539360B/zh
Publication of CN113539360A publication Critical patent/CN113539360A/zh
Application granted granted Critical
Publication of CN113539360B publication Critical patent/CN113539360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于相关性优化和免疫富集的lncRNA特征识别方法,旨在识别参与免疫调控的lncRNA特征:首先,对信使RNA(mRNA)和长非编码RNA(lncRNA)之间的直接相关性进行分析,获得直接相关系数;然后,对mRNA和lncRNA之间的偏相关性进行分析,获得偏相关系数;其次,对相关性进行综合分析,将直接相关系数和偏相关系数进行融合,获得优化后的相关系数;最后,根据优化后的相关系数和免疫基因集进行GSEA富集分析,获得免疫相关的lncRNA特征。本发明对直接相关和偏相关进行融合,将融合后的相关性用于免疫富集分析,使得免疫相关的lncRNA特征鉴定的准确度更高。

Description

一种基于相关性优化和免疫富集的lncRNA特征识别方法
技术领域
本发明属于生物医学技术领域,具体涉及一种lncRNA特征识别方法。
背景技术
长非编码RNA(lncRNA)是指长度大于200个核苷酸的RNA分子,与其它RNA相比,lncRNA有着较低的表达值和保守性,刚开始被误认为是转录噪声。近年来,越来越多的lncRNA被鉴定出来,GENECODE数据库(v22)已经注释出了14286个lncRNA。研究表明,lncRNA参与许多重要的调控过程,且和癌症的发生息息相关。免疫相关的lncRNA特征的识别,有助于我们在分子水平对其发病机制进行研究。相关性分析是一种常见的RNA表达数据分析方法,常被用来分析mRNA和lncRNA之间的相互关联程度。mRNA与lncRNA之间的相关性分直接相关和间接相关两种,对应的相关系数为直接相关系数和偏相关系数。Pearson相关性和Spearman相关性计算的均是直接相关系数,偏相关系数是在直接相关的基础上,消除影响因素后的净相关程度。相关系数可以作为排序得分,从而进行功能富集分析。GSEA是常用的富集分析方法,其基本原理如下:首先,进行基因排序,形成一个排好序的基因列表;然后,分析基因集的富集情况;其次,计算基因集的ES值;最后,对基因集的ES值进行显著性检验及多重假设检验,从而计算出显著富集的基因集。
直接相关性计算方法Pearson和Spearman虽然可以在一定程度上拟合mRNA和lncRNA之间的表达相关性,但它们均存在一定的局限性。对于Pearson相关性来说:当存在一个非常远的离群点时,Pearson相关性不能客观地表示相关性的大小;当变量之间的相关性很复杂时(不是简单的线性相关),即使它们之间的相关程度很高,Pearson相关性的数值也可能为0;对于Spearman相关性来说:必须假设数据是从正态分布中成对获得的;数据至少在逻辑范围内时等距的。此外,mRNA和lncRNA的作用关系不一定是直接相关的,也可能是偏相关的。mRNA与lncRNA的表达情况可能会受肿瘤纯度的影响,为了消除这个影响,必须对mRNA和lncRNA在肿瘤纯度上的偏相关性进行计算。综上,基于现有相关性计算方法存在的缺陷,有必要对其进行优化,将直接相关性和偏相关性进行融合,获得优化后的相关系数,并将这个系数用于免疫富集分析,从而获得免疫相关的lncRNA特征。
发明内容
为了克服现有技术的不足,本发明提供了一种基于相关性优化和免疫富集的lncRNA特征识别方法,旨在识别参与免疫调控的lncRNA特征:首先,对信使RNA(mRNA)和长非编码RNA(lncRNA)之间的直接相关性进行分析,获得直接相关系数;然后,对mRNA和lncRNA之间的偏相关性进行分析,获得偏相关系数;其次,对相关性进行综合分析,将直接相关系数和偏相关系数进行融合,获得优化后的相关系数;最后,根据优化后的相关系数和免疫基因集进行GSEA富集分析,获得免疫相关的lncRNA特征。本发明对直接相关和偏相关进行融合,将融合后的相关性用于免疫富集分析,使得免疫相关的lncRNA特征鉴定的准确度更高。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:计算mRNA和lncRNA之间的直接相关系数;
步骤2:计算mRNA和lncRNA之间的偏相关系数;
步骤3:根据mRNA和lncRNA之间直接相关系数和偏相关系数,对相关性进行优化,确定mRNA和lncRNA之间优化后的相关系数;
步骤4:将优化后的相关系数作为富集分数,在免疫基因集上进行富集分析,获得免疫相关的lncRNA特征。
进一步地,所述计算mRNA和lncRNA之间的直接相关系数,具体步骤如下:
步骤1-1:计算mRNA和lncRNA之间的Pearson相关性,第m个mRNA和第l个lncRNA之间的Pearson相关系数定义如下:
Figure BDA0003173470310000021
其中函数E用于计算变量的数学期望;P(m,l)的取值范围为[-1,1],取值为负数表示负相关,取值为正数表示正相关,P(m,l)的绝对值越大,表示m和l之间的Pearson相关性越强;
步骤1-2:计算mRNA和lncRNA之间的Spearman相关性,第m个mRNA和第l个lncRNA之间的Spearman相关系数定义如下:
Figure BDA0003173470310000022
其中r表示样本数目,d表示m与l之间秩的差异;S(m,l)的取值范围为[-1,1],取值为负数表示负相关,取值为正数表示正相关,S(m,l)的绝对值越大,表示m和l之间的Spearman相关性越强;
步骤1-3:将Pearson相关性和Spearman相关性进行结合,获得最终的直接相关性,第m个mRNA和第l个lncRNA之间的直接相关系数定义如下:
C(m,l)=αP(m,l)+(1-α)S(m,l)
其中α的范围为[-1,1];C(m,l)的取值范围为[-1,1],C(m,l)取值为负数表示负相关,取值为正数表示正相关,C(m,l)的绝对值越大,表示m和l之间的直接相关性越强。
进一步地,所述计算mRNA和lncRNA之间的偏相关系数,具体步骤如下:
步骤2-1:计算样本的肿瘤纯度,肿瘤纯度用TP表示,其中TP∈{t1,t2,...,tr},ti表示第i个样本的肿瘤纯度,ti的范围为[0,1],ti的值越大,表示样本的肿瘤纯度越高,样本总数为r;
步骤2-2:计算mRNA和lncRNA之间基于肿瘤纯度TP的偏相关系数,第m个mRNA与第l个lncRNA在肿瘤纯度t处的偏相关系数定义如下:
Figure BDA0003173470310000031
其中,C(m,l)表示m与l间的直接相关系数,C(m,t)表示m与t间的直接相关系数,C(t,l)表示t与l间的直接相关系数;PC(m,l)(t)的取值范围为[-1,1],PC(m,l)(t)取值为负数表示负相关,取值为正数表示正相关,PC(m,l)(t)的绝对值越大,表示m与l之间的偏相关性越强。
进一步地,所述对mRNA和lncRNA之间的相关性进行优化,确定mRNA和lncRNA之间优化后的相关系数,公式表示如下:
第m个mRNA和第l个lncRNA在肿瘤纯度t处优化后的相关系数定义如下:
Figure BDA0003173470310000032
其中β的范围为[-1,1];O(m,l)(t)的取值范围为[-1,1],O(m,l)(t)取值为负数表示负相关,取值为正数表示正相关,O(m,l)(t)的绝对值越大,表示m和l之间优化和的相关性越强。
进一步地,所述步骤4的具体步骤如下:
步骤4-1:对优化后的相关性进行过滤,即对优化后的相关系数O(m,l)(t)在θ处进行过滤,获得最终的相关系数O(m,l)(t,θ),其对应的系数矩阵为OML(t,θ),矩阵OML(t,θ)的每一行或每一列中至少有一个值大于等于θ;θ表示过滤的阈值,取值范围为[0,1];
步骤4-2:进行GSEA富集分析,从OML(t,θ)矩阵中获得若干lncRNA相关的mRNA类,将这些mRNA类和对应的系数进行排序,根据排序得分在免疫路径上进行GSEA富集分析,获得lncRNA在免疫路径上的富集情况:
步骤4-3:对富集分析结果进行过滤,据富集分数和p值获得免疫相关的lncRNA路径对的score得分,其定义如下:
Figure BDA0003173470310000041
其中,E(l,w)表示lncRNA l在免疫路径w上的富集分数,p表示富集分析的显著性水平,lncRNES(l,w)的取值范围为[-1,1],根据阈值对lncRNES(l,w)进行筛选,默认的筛选阈值为γ,即选择绝对值大于γ的lncRNES(l,w)所对应的lncRNA特征为免疫相关的lncRNA特征。
进一步地,所述α=0.5,β=0.5,θ=0.5,γ=0.995。
本发明的有益效果如下:
1.本发明对直接相关性进行了优化,消除了现有直接相关性计算方法所存在的局限;
2.本发明对直接相关和偏相关进行融合,将融合后的相关性用于免疫富集分析,使得免疫相关的lncRNA特征鉴定的准确度更高。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为了解决现有相关性计算方法存在的缺陷及免疫相关的lncRNA特征识别的准确率不高的问题,本发明提供了一种基于相关性优化和免疫富集的lncRNA特征识别方法。主要解决了以下两个技术问题:一是解决了直接相关性计算不准确的问题,将Pearson相关性和Spearson进行结合,消除了它们各自的缺陷,二是解决了免疫相关的lncRNA特征识别不准确的问题,将直接相关性和偏相关性进行融合,并将融合后的相关性用于免疫富集分析,使得识别的免疫相关lncRNA特征的准确率更高。
如图1所示,一种基于相关性优化和免疫富集的lncRNA特征识别方法,包括如下步骤:
步骤1:直接相关性计算:计算mRNA和lncRNA之间的直接相关系数;
步骤2:偏相关性计算:计算mRNA和lncRNA之间的偏相关系数;
步骤3:相关性优化:根据mRNA和lncRNA之间直接相关系数和偏相关系数,对相关性进行优化,确定mRNA和lncRNA之间优化后的相关系数;
步骤4:免疫相关的lncRNA特征识别:将优化后的相关系数作为富集分数,在免疫基因集上进行富集分析,获得免疫相关的lncRNA特征。
进一步地,所述计算mRNA和lncRNA之间的直接相关系数,具体步骤如下:
步骤1-1:计算mRNA和lncRNA之间的Pearson相关性,第m个mRNA和第l个lncRNA之间的Pearson相关系数定义如下:
Figure BDA0003173470310000051
其中函数E用于计算变量的数学期望;P(m,l)的取值范围为[-1,1],取值为负数表示负相关,取值为正数表示正相关,P(m,l)的绝对值越大,表示m和l之间的Pearson相关性越强;
步骤1-2:计算mRNA和lncRNA之间的Spearman相关性,第m个mRNA和第l个lncRNA之间的Spearman相关系数定义如下:
Figure BDA0003173470310000052
其中r表示样本数目,d表示m与l之间秩的差异;S(m,l)的取值范围为[-1,1],取值为负数表示负相关,取值为正数表示正相关,S(m,l)的绝对值越大,表示m和l之间的Spearman相关性越强;
步骤1-3:将Pearson相关性和Spearman相关性进行结合,获得最终的直接相关性,第m个mRNA和第l个lncRNA之间的直接相关系数定义如下:
C(m,l)=αP(m,l)+(1-α)S(m,l)
其中α的范围为[-1,1],缺省值为0.5;C(m,l)的取值范围为[-1,1],C(m,l)取值为负数表示负相关,取值为正数表示正相关,C(m,l)的绝对值越大,表示m和l之间的直接相关性越强。
进一步地,所述计算mRNA和lncRNA之间的偏相关系数,具体步骤如下:
步骤2-1:计算样本的肿瘤纯度,肿瘤纯度用TP表示,其中TP∈{t1,t2,...,tr},ti表示第i个样本的肿瘤纯度,ti的范围为[0,1],ti的值越大,表示样本的肿瘤纯度越高,样本总数为r;
步骤2-2:计算mRNA和lncRNA之间基于肿瘤纯度TP的偏相关系数,第m个mRNA与第l个lncRNA在肿瘤纯度t处的偏相关系数定义如下:
Figure BDA0003173470310000061
其中,C(m,l)表示m与l间的直接相关系数,C(m,t)表示m与t间的直接相关系数,C(t,l)表示t与l间的直接相关系数;PC(m,l)(t)的取值范围为[-1,1],PC(m,l)(t)取值为负数表示负相关,取值为正数表示正相关,PC(m,l)(t)的绝对值越大,表示m与l之间的偏相关性越强。
进一步地,所述对mRNA和lncRNA之间的相关性进行优化,确定mRNA和lncRNA之间优化后的相关系数,当偏相关系数大于等于0.7时,认为偏相关发挥主要调控作用,优化后的相关系数等于偏相关系数,当偏相关系数大于等于0.3小于0.7时,认为直接相关和偏相关共同发挥调控作用,优化后的相关系数由直接相关系数和偏相关系数融合得到,当偏相关系数小于0.3时,认为偏相关基本不发挥调控作用,优化后的相关系数等于直接相关系数,第m个mRNA和第l个lncRNA在肿瘤纯度t处优化后的相关系数定义如下:
Figure BDA0003173470310000062
其中β的范围为[-1,1],缺省值为0.5;O(m,l)(t)的取值范围为[-1,1],O(m,l)(t)取值为负数表示负相关,取值为正数表示正相关,O(m,l)(t)的绝对值越大,表示m和l之间优化和的相关性越强。
进一步地,所述步骤4的具体步骤如下:
步骤4-1:对优化后的相关性进行过滤,即对优化后的相关系数O(m,l)(t)在θ处进行过滤,获得最终的相关系数O(m,l)(t,θ),其对应的系数矩阵为OML(t,θ),矩阵OML(t,θ)的每一行或每一列中至少有一个值大于等于θ;θ表示过滤的阈值,取值范围为[0,1],缺省值为0.5;
步骤4-2:进行GSEA富集分析,从OML(t,θ)矩阵中获得若干lncRNA相关的mRNA类,将这些mRNA类和对应的系数进行排序,根据排序得分在免疫路径上进行GSEA富集分析,获得lncRNA在免疫路径上的富集情况:
步骤4-3:对富集分析结果进行过滤,据富集分数和p值获得免疫相关的lncRNA路径对的score得分,其定义如下:
Figure BDA0003173470310000071
其中,E(l,w)表示lncRNA l在免疫路径w上的富集分数,p表示富集分析的显著性水平,lncRNES(l,w)的取值范围为[-1,1],根据阈值对lncRNES(l,w)进行筛选,默认的筛选阈值为0.995,即选择绝对值大于0.995的lncRNES(l,w)所对应的lncRNA特征为免疫相关的lncRNA特征。
具体实施例:
本发明采用了TCGA数据库中的癌症表达数据(mRNA表达数据与lncRNA表达数据)进行实验,用R程序和perl脚本对其进行分析,获得最终的免疫相关的lncRNA特征,具体如下:
E1:对TCGA中的33种癌症表达数据进行直接相关性分析,确定它们的直接相关系数,这一过程具体如下:
E1-1:用perl脚本从癌症的表达数据中提取mRNA表达数据和lncRNA表达数据,获得19814个mRNA和14826个lncRNA的表达情况,用R软件的edger包对mRNA表达数据和lncRNA表达数据进行标准化处理,并将标准化后的表达矩阵用于Pearson相关性计算,获得mRNA和lncRNA之间的Pearson相关性矩阵,矩阵的大小是19814行14826列;
E1-2:用perl脚本从癌症的表达数据中提取mRNA表达数据和lncRNA表达数据,获得19814个mRNA和14826个lncRNA的表达情况,用R软件的edger包对mRNA表达数据和lncRNA表达数据进行标准化处理,并将标准化后的表达矩阵用于Spearman相关性计算,获得mRNA和lncRNA之间的Spearman相关性矩阵,矩阵的大小是19814行14826列;
E1-3:将Pearson相关性和Spearman相关性进行融合,获得最终的直接相关性矩阵,矩阵的大小是19814行14826列。
E2:根据肿瘤纯度和直接相关性,计算mRNA和lncRNA之间基于肿瘤纯度的偏相关性,这一过程具体如下:
E2-1:获得癌症中每个样本的肿瘤纯度,这些样本与mRNA表达矩阵和lncRNA表达矩阵中的样本为同一批样本;
E2-2:计算mRNA和lncRNA之间基于肿瘤纯度的偏相关系数,获得偏相关性矩阵,矩阵的大小是19814行14826列。
E3:根据直接相关性矩阵和偏相关性矩阵,获得优化后的相关性矩阵,矩阵的大小是19814行14826列。
E4:根据优化后的相关性和17个免疫路径上的基因集,进行GSEA富集分析,获得免疫相关的lncRNA,这一过程具体如下:
E4-1:对优化后的相关性进行过滤,过滤的阈值为0.5,即过滤后的相关性矩阵中,每一行和每一列中至少有一个数的绝对值大于等于0.5;
E4-2:对过滤后的相关系数按lncRNA相关的mRNA的相关系数的大小进行排序,将这个排序得分和17个免疫路径上的基因集作为输入,进行GSEA富集分析;
E4-3:对GSEA富集分析的结果进行过滤,获得免疫相关的lncRNA特征,对于33种癌症,各获得了一系列免疫相关的lncRNA特征,分析发现,这些免疫相关的lncRNA特征在免疫细胞中有着更高的表达,这证明我们识别的免疫相关的lncRNA特征有着较高的准确性。

Claims (6)

1.一种基于相关性优化和免疫富集的lncRNA特征识别方法,其特征在于,包括以下步骤:
步骤1:计算mRNA和lncRNA之间的直接相关系数;
步骤2:计算mRNA和lncRNA之间的偏相关系数;
步骤3:根据mRNA和lncRNA之间直接相关系数和偏相关系数,对相关性进行优化,确定mRNA和lncRNA之间优化后的相关系数;
步骤4:将优化后的相关系数作为富集分数,在免疫基因集上进行富集分析,获得免疫相关的lncRNA特征。
2.根据权利要求1所述的一种基于相关性优化和免疫富集的lncRNA特征识别方法,其特征在于,所述计算mRNA和lncRNA之间的直接相关系数,具体步骤如下:
步骤1-1:计算mRNA和lncRNA之间的Pearson相关性,第m个mRNA和第l个lncRNA之间的Pearson相关系数定义如下:
Figure FDA0003173470300000011
其中函数E用于计算变量的数学期望;P(m,l)的取值范围为[-1,1],取值为负数表示负相关,取值为正数表示正相关,P(m,l)的绝对值越大,表示m和l之间的Pearson相关性越强;
步骤1-2:计算mRNA和lncRNA之间的Spearman相关性,第m个mRNA和第l个lncRNA之间的Spearman相关系数定义如下:
Figure FDA0003173470300000012
其中r表示样本数目,d表示m与l之间秩的差异;S(m,l)的取值范围为[-1,1],取值为负数表示负相关,取值为正数表示正相关,S(m,l)的绝对值越大,表示m和l之间的Spearman相关性越强;
步骤1-3:将Pearson相关性和Spearman相关性进行结合,获得最终的直接相关性,第m个mRNA和第l个lncRNA之间的直接相关系数定义如下:
C(m,l)=αP(m,l)+(1-α)S(m,l)
其中α的范围为[-1,1];C(m,l)的取值范围为[-1,1],C(m,l)取值为负数表示负相关,取值为正数表示正相关,C(m,l)的绝对值越大,表示m和l之间的直接相关性越强。
3.根据权利要求2所述的一种基于相关性优化和免疫富集的lncRNA特征识别方法,其特征在于,所述计算mRNA和lncRNA之间的偏相关系数,具体步骤如下:
步骤2-1:计算样本的肿瘤纯度,肿瘤纯度用TP表示,其中TP∈{t1,t2,...,tr},ti表示第i个样本的肿瘤纯度,ti的范围为[0,1],ti的值越大,表示样本的肿瘤纯度越高,样本总数为r;
步骤2-2:计算mRNA和lncRNA之间基于肿瘤纯度TP的偏相关系数,第m个mRNA与第l个lncRNA在肿瘤纯度t处的偏相关系数定义如下:
Figure FDA0003173470300000021
其中,C(m,l)表示m与l间的直接相关系数,C(m,t)表示m与t间的直接相关系数,C(t,l)表示t与l间的直接相关系数;PC(m,l)(t)的取值范围为[-1,1],PC(m,l)(t)取值为负数表示负相关,取值为正数表示正相关,PC(m,l)(t)的绝对值越大,表示m与l之间的偏相关性越强。
4.根据权利要求3所述的一种基于相关性优化和免疫富集的lncRNA特征识别方法,其特征在于,所述对mRNA和lncRNA之间的相关性进行优化,确定mRNA和lncRNA之间优化后的相关系数,公式表示如下:
第m个mRNA和第l个lncRNA在肿瘤纯度t处优化后的相关系数定义如下:
Figure FDA0003173470300000022
其中β的范围为[-1,1];O(m,l)(t)的取值范围为[-1,1],O(m,l)(t)取值为负数表示负相关,取值为正数表示正相关,O(m,l)(t)的绝对值越大,表示m和l之间优化和的相关性越强。
5.根据权利要求4所述的一种基于相关性优化和免疫富集的lncRNA特征识别方法,其特征在于,所述步骤4的具体步骤如下:
步骤4-1:对优化后的相关性进行过滤,即对优化后的相关系数O(m,l)(t)在θ处进行过滤,获得最终的相关系数O(m,l)(t,θ),其对应的系数矩阵为OML(t,θ),矩阵OML(t,θ)的每一行或每一列中至少有一个值大于等于θ;θ表示过滤的阈值,取值范围为[0,1];
步骤4-2:进行GSEA富集分析,从OML(t,θ)矩阵中获得若干lncRNA相关的mRNA类,将这些mRNA类和对应的系数进行排序,根据排序得分在免疫路径上进行GSEA富集分析,获得lncRNA在免疫路径上的富集情况:
步骤4-3:对富集分析结果进行过滤,据富集分数和p值获得免疫相关的lncRNA路径对的score得分,其定义如下:
Figure FDA0003173470300000031
其中,E(l,w)表示lncRNAl在免疫路径w上的富集分数,p表示富集分析的显著性水平,lncRNES(l,w)的取值范围为[-1,1],根据阈值对lncRNES(l,w)进行筛选,默认的筛选阈值为γ,即选择绝对值大于γ的lncRNES(l,w)所对应的lncRNA特征为免疫相关的lncRNA特征。
6.根据权利要求5所述的一种基于相关性优化和免疫富集的lncRNA特征识别方法,其特征在于,所述α=0.5,β=0.5,θ=0.5,γ=0.995。
CN202110825103.1A 2021-07-21 2021-07-21 一种基于相关性优化和免疫富集的lncRNA特征识别方法 Active CN113539360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110825103.1A CN113539360B (zh) 2021-07-21 2021-07-21 一种基于相关性优化和免疫富集的lncRNA特征识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110825103.1A CN113539360B (zh) 2021-07-21 2021-07-21 一种基于相关性优化和免疫富集的lncRNA特征识别方法

Publications (2)

Publication Number Publication Date
CN113539360A true CN113539360A (zh) 2021-10-22
CN113539360B CN113539360B (zh) 2023-03-31

Family

ID=78100779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110825103.1A Active CN113539360B (zh) 2021-07-21 2021-07-21 一种基于相关性优化和免疫富集的lncRNA特征识别方法

Country Status (1)

Country Link
CN (1) CN113539360B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016092444A1 (en) * 2014-12-10 2016-06-16 Koninklijke Philips N.V. Methods and systems to generate noncoding-coding gene co-expression networks
CN106202992A (zh) * 2016-07-11 2016-12-07 东南大学 一种长链非编码rna的高通量芯片处理及分析流程控制方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能
CN107022622A (zh) * 2017-05-04 2017-08-08 河海大学常州校区 一种基于长链非编码rna的分子标记物鉴定方法
CN108319814A (zh) * 2018-01-29 2018-07-24 中国科学院生物物理研究所 基于染色体空间相互作用预测长非编码rna生物学功能的方法
CN110343724A (zh) * 2018-04-02 2019-10-18 北京大学 用于筛选和鉴定功能性lncRNA的方法
CN111028887A (zh) * 2019-12-04 2020-04-17 电子科技大学 一种ncRNA协同竞争网络识别方法和装置
CN111192637A (zh) * 2019-12-27 2020-05-22 上海派森诺生物科技股份有限公司 一种lncRNA鉴定和表达定量的分析方法
CN111424082A (zh) * 2019-01-09 2020-07-17 上海中医药大学附属龙华医院 lncRNA-SNHG6基因在制备治疗骨肉瘤的药物中的用途
CN112233796A (zh) * 2020-10-15 2021-01-15 杭州慕谷科技有限公司 一种在早期肝癌中免疫增强的分子亚型的研究方法
CN112309496A (zh) * 2020-11-10 2021-02-02 西北工业大学 一种基于rna表达值和二级结构的相关性融合方法
CN112750497A (zh) * 2021-01-11 2021-05-04 湖南大学 一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016092444A1 (en) * 2014-12-10 2016-06-16 Koninklijke Philips N.V. Methods and systems to generate noncoding-coding gene co-expression networks
CN106202992A (zh) * 2016-07-11 2016-12-07 东南大学 一种长链非编码rna的高通量芯片处理及分析流程控制方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能
CN107022622A (zh) * 2017-05-04 2017-08-08 河海大学常州校区 一种基于长链非编码rna的分子标记物鉴定方法
CN108319814A (zh) * 2018-01-29 2018-07-24 中国科学院生物物理研究所 基于染色体空间相互作用预测长非编码rna生物学功能的方法
CN110343724A (zh) * 2018-04-02 2019-10-18 北京大学 用于筛选和鉴定功能性lncRNA的方法
CN111424082A (zh) * 2019-01-09 2020-07-17 上海中医药大学附属龙华医院 lncRNA-SNHG6基因在制备治疗骨肉瘤的药物中的用途
CN111028887A (zh) * 2019-12-04 2020-04-17 电子科技大学 一种ncRNA协同竞争网络识别方法和装置
CN111192637A (zh) * 2019-12-27 2020-05-22 上海派森诺生物科技股份有限公司 一种lncRNA鉴定和表达定量的分析方法
CN112233796A (zh) * 2020-10-15 2021-01-15 杭州慕谷科技有限公司 一种在早期肝癌中免疫增强的分子亚型的研究方法
CN112309496A (zh) * 2020-11-10 2021-02-02 西北工业大学 一种基于rna表达值和二级结构的相关性融合方法
CN112750497A (zh) * 2021-01-11 2021-05-04 湖南大学 一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GULDEN OLGUN ET AL: "Discovering lncRNA mediated sponge interactions in breast cancer molecular subtypes", 《BMC GEOMICS》 *
MEIHONG GAO ET AL: "Comprehensive analyses of correlation and survival reveal informative lncRNA prognostic signatures in colon cancer", 《WORLD JOURNAL OF SURGICAL ONCOLOGY》 *
YONGSHENG LI ET AL: "Pan-cancer characterization of immune-related lncRNAs identifies potential oncogenic biomarkers", 《NATURE COMMUNICATIONS》 *
杨宇明 等: "lncRNA HOTAIR及肿瘤标志物联合检测与肺癌病理分期的相关性研究", 《中华全科医学》 *

Also Published As

Publication number Publication date
CN113539360B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
TW202032440A (zh) 用於建構機器學習模型的特徵選取方法、裝置及設備
CN106295246A (zh) 找到与肿瘤相关的lncRNA并预测其功能
CN109872776B (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN110085283B (zh) 一种基于miRNA靶基因预测以及相关表达分析进行ceRNA预测的方法
CN114708910B (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN103678954B (zh) 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
CN111584006A (zh) 基于机器学习策略的环形rna识别方法
CN112927757A (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
CN112309496B (zh) 一种基于rna表达值和二级结构的相关性融合方法
CN113539360B (zh) 一种基于相关性优化和免疫富集的lncRNA特征识别方法
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
US20140058682A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
CN115527610B (zh) 一种单细胞组学数据的聚类分析方法
CN117037905A (zh) 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
US20140019062A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
TW202121223A (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN116364179A (zh) 结直肠癌预后标志物筛选系统及方法、结直肠癌预后风险评估系统
CN115595370A (zh) 一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置
CN111091867B (zh) 基因变异位点筛选方法及系统
CN114062305A (zh) 基于近红外光谱和1D-In-Resnet网络的单籽粒品种鉴定方法及系统
CN110097922B (zh) 基于在线机器学习的Hi-C接触矩阵中层级式TADs差异分析方法
Gong et al. Interpretable single-cell transcription factor prediction based on deep learning with attention mechanism
CN109817337B (zh) 一种单个疾病样本通路激活度的评估方法及相似疾病区分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant