CN108427865B - 一种预测LncRNA和环境因素关联关系的方法 - Google Patents

一种预测LncRNA和环境因素关联关系的方法 Download PDF

Info

Publication number
CN108427865B
CN108427865B CN201810209311.7A CN201810209311A CN108427865B CN 108427865 B CN108427865 B CN 108427865B CN 201810209311 A CN201810209311 A CN 201810209311A CN 108427865 B CN108427865 B CN 108427865B
Authority
CN
China
Prior art keywords
lncrna
environmental factors
environmental factor
environmental
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810209311.7A
Other languages
English (en)
Other versions
CN108427865A (zh
Inventor
周杰
徐展良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810209311.7A priority Critical patent/CN108427865B/zh
Publication of CN108427865A publication Critical patent/CN108427865A/zh
Application granted granted Critical
Publication of CN108427865B publication Critical patent/CN108427865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种预测LncRNA和环境因素关联关系的方法,包括:S1、根据已知的LncRNA‑环境因素关联关系网络的邻接矩阵,分别计算出LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE;S2、把KL和KE通过拉普拉斯算子进行归一化;S3、在LncRNA空间和环境因素空间中分别定义成本函数,通过最小化该成本函数,分别得到LncRNA空间和环境因素空间的最优分类器;S4、将得到的两种最优分类器转化为统一空间的分类器,用于计算LncRNA‑环境因素关联关系的概率,根据概率对LncRNA‑环境因素关联关系进行排名,概率值越高说明该LncRNA‑环境因素的关联关系越强。所述方法有效解决了生物实验方法的盲目性、成本高问题,对生物学家的实验研究起到了指导的作用。

Description

一种预测LncRNA和环境因素关联关系的方法
技术领域
本发明涉及生物信息学领域,具体涉及一种预测LncRNA和环境因素关联关系的方法。
背景技术
生物个体的先天本性和后天发展出来的行为习惯的不同主要是由遗传和环境的差异造成的。生物学家普遍认为,表型变异不是单纯由遗传或环境的差异产生,而是由两者的相互作用共同影响的;表型和疾病是由遗传因素(genetic factors,GFs)和环境因素(environmental factors,EFs)的复杂相互作用决定的。如今人们普遍认为,几乎所有的疾病都是由个体的遗传因子与其环境暴露之间复杂的相互作用引起的。例如,癌症、心脏病、阿尔茨海默病和糖尿病等人类疾病均是由GFs和EFs之间复杂的相互作用引起的。
根据分子生物学的中心法则,遗传信息主要存储于DNA序列中。遗传信息从DNA转录成RNA,再从RNA翻译成蛋白质。RNA是DNA序列与其编码蛋白质之间的中间体。基因组序列分析表明,人类基因组中,编码蛋白质的序列占DNA序列的比例不到2%,其余约98%的DNA序列都不编码蛋白质。因此,由DNA转录的RNA中,绝大多数为不编码蛋白质的RNA。生物学中将不编码蛋白质的RNA称为非编码RNA(non-coding RNAs,ncRNAs)。在ncRNA中,长度在200-100000nt之间的ncRNA分子被称为长非编码RNA(Long non-coding RNA,LncRNA)。LncRNA占总RNA的比例可达4%-9%。分子生物学研究表明,LncRNA占总RNA的比例随着生物体复杂性的增加而增加。作为ncRNAs的一个重要子集,LncRNAs最近被确定为最大的具有显著多样化的RNA家族之一,并且已经成为不同物种基因组信息的重要组成部分。近年研究表明,LncRNA参与了X染色体沉默、染色体修饰和基因组修饰、转录激活、转录干扰、核内运输等过程,同时在细胞增殖分化、染色质重塑、表观遗传调控、基因组剪接、转录、翻译等许多重要生物过程中发挥着至关重要的作用。LncRNA是一类重要的调控生命过程的ncRNA,它在多层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达。LncRNA被认为主要参与mRNA调控,并参与调节发育和疾病。在某些疾病中LncRNAs也被确定为药物靶点或预后因素。然而,由于LncRNA的调控网络复杂,其调控的潜在机制仍然不清楚。大多数LncRNAs的功能仍然未知,需要进一步的探索研究。
然而,与基因和miRNA相比,利用生物信息学方法以及计算方法研究与疾病有关的LncRNA和EFs之间的关联关系却相对较少。Zhou等人设计了RWREFD(基于重启随机游走模型的LncRNA-EF关联关系预测模型)预测与疾病相关的LncRNA-EFs关联关系并开发了一个LncRNA-EFs关联关系数据库:LncEnvironmentDB,这是一个基于Web的数据库,旨在为LncRNA和EF提供全面的资源平台。Zhou和Shi设计了一个基于二分网络和资源转移的方法来预测LncRNA-EFs的关联关系,预测的结果覆盖了更多被实验证实的LncRNA-EFs的关联关系。存储LncRNA-EFs关联关系数据库已经被建立起来,越来越多LncRNA和环境因素的联系被实验所证实,因此,基于这些可用的生物数据发明有效的计算方法来预测潜在的LncRNA和环境因素之间的联系就显得非常重要。
发明内容
本发明的目的是针对现有技术的不足,提供了一种预测LncRNA和环境因素关联关系的方法,所述方法基于半监督学习方法设计了预测LncRNA-环境因素关联关系的拉普拉斯正则化最小二乘法分类器,能更准确地预测出LncRNA和环境因素的关联关系,并且可以大规模地一次预测出多对LncRNA-环境因素之间关联关系的概率。
本发明的目的可以通过如下技术方案实现:
一种预测LncRNA和环境因素关联关系的方法,所述方法包括以下步骤:
S1、根据已知的LncRNA-环境因素关联关系网络的邻接矩阵,分别计算出LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE;
S2、把LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE通过拉普拉斯算子进行归一化;
S3、在LncRNA空间和环境因素空间中分别定义成本函数,通过最小化该成本函数,分别得到LncRNA空间和环境因素空间的最优分类器;
S4、将步骤S3得到的两种最优分类器转化为统一空间的分类器,用于计算LncRNA-环境因素关联关系的概率,根据概率对LncRNA-环境因素关联关系进行排名,概率值越高说明该LncRNA-环境因素的关联关系越强。
进一步地,步骤S1的具体过程为:基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建LncRNA的高斯相互作用属性核相似矩阵KL,首先,每一个LncRNA的IP(Interaction Profile)表示在已知的LncRNA-环境因素关联关系网络中的一个二进制向量编码,‘1’代表存在关联关系,‘0’代表不存在关联关系,对于一个给定的LncRNAli,它的IP(li)被定义为LncRNA-环境因素关联关系的邻接矩阵A的第i列,如果已知LncRNAli和环境因素ej之间存在关联,则A(i,j)为1,否则为0;然后,计算每个LncRNA对,即LncRNAli和LncRNAlj之间的高斯相互作用属性核相似性:
KL(li,lj)=exp(-γl||IP(li)-IP(lj)||2)
Figure BDA0001596747970000031
其中,γl用于控制高斯相互作用属性核相似性的频宽,它表示基于新的频宽参数γ'l的正规化的高斯相互作用属性核相似性频宽,γ'l取值为1;nl表示LncRNA的数量;KL表示LncRNA的高斯相互作用属性核相似矩阵,元素KL(li,lj)表示LncRNAli和LncRNAlj的高斯相互作用属性核相似性;
同样地,基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建环境因素的高斯相互作用属性核相似矩阵KE:
KE(ei,ej)=exp(-γe||IP(ei)-IP(ej)||2)
Figure BDA0001596747970000032
其中,γe表示基于新频宽参数γ'e的正规化的高斯相互作用核相似性频宽;ne表示环境因素的数量;KE表示环境因素的高斯相互作用属性核相似矩阵,元素KE(ei,ej)表示环境因素ei和环境因素ej的高斯相互作用属性核相似性。
进一步地,为了提高LncRNA相关的预测精度,将得到的LncRNA相似信息进行logistic函数转换,经过转换得到的LncRNA相似信息记为SL:
Figure BDA0001596747970000033
其中,c=-15,d=log(9999);
根据环境因素的化学性质构造环境因素之间的化学结构相似性矩阵E,E的第i行、第j列元素E(i,j)表示环境因素i和j之间的化学结构相似性分数,通过环境因素之间的化学结构相似性矩阵E和高斯相互作用属性核相似矩阵KE,构建环境因素相似矩阵SE:
Figure BDA0001596747970000041
其中,ew代表两种环境因素关联关系信息在SE中的权重参数;
使用拉普拉斯算子将SL和SE进行归一化,公式如下:
Figure BDA0001596747970000042
其中,DL和DE是对角矩阵,DL(i,i)和DE(i,i)分别表示SL和SE第i行的总和。
进一步地,步骤S3中,LncRNA空间的最小化成本函数为:
Figure BDA0001596747970000043
环境因素空间的最小化成本函数为:
Figure BDA0001596747970000044
其中||·||F代表弗罗贝尼乌斯范数;ηL和ηE是权重参数,取值为1;通过计算目标函数的导数来解这两个最优化问题,分别得到LncRNA空间和环境因素空间的最优分类器如下:
FL*=SL(SL+ηL·LL·SL)-1AT
FE*=SE(SE+ηE·LE·SE)-1A。
进一步地,将步骤S3得到的两种最优分类器FL*和FE*通过一个加权操作转化为统一空间的分类器:
F*=lw·FL*T+(1-lw)·FE*
其中,参数lw代表LncRNA空间和环境因素空间在整合分类函数中的权重系数,F*是一个概率矩阵,大小为nl*ne,代表预测的LncRNA-环境因素的关联关系网络,最后,利用这个矩阵计算LncRNA-环境因素关联关系概率,根据概率对LncRNA-环境因素关联关系排名,概率值越高说明该LncRNA-环境因素的关联关系越强。
本发明与现有技术相比,具有如下优点和有益效果:
本发明采用半监督学习方法,通过引入高斯相互作用属性核相似性和拉普拉斯正则化最小二乘法分类器,利用已知的LncRNA与环境因素关联关系网络的拓扑结构,有效利用顶点和边蕴含的信息,训练最优分类器;作为一种全局测量方法,本发明对所有可能相关的LncRNA和环境因素的关联关系进行了优先级排序,这对生物学家的实验研究能够起到指导的作用,生物学家可以针对关联关系概率较大的LncRNA和环境因素对进行试验测试,避免了盲目的测试,大大减少了工作量。
附图说明
图1为本发明实施例预测LncRNA和环境因素关联关系方法的流程图。
图2为使用本发明方法预测得到的LncRNA和环境因素关联关系与使用其他方法预测得到的LncRNA和环境因素关联关系的ROC曲线和AUC值对比示意图。
图3为使用本发明方法预测得到的LncRNA和环境因素关联关系网络的度分布示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种预测LncRNA和环境因素关联关系的方法,所述方法的流程图如图1所示,包括以下步骤:
S1、根据已知的LncRNA-环境因素关联关系网络的邻接矩阵,分别计算出LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE;
S2、把LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE通过拉普拉斯算子进行归一化;
S3、在LncRNA空间和环境因素空间中分别定义成本函数,通过最小化该成本函数,分别得到LncRNA空间和环境因素空间的最优分类器;
S4、将步骤S3得到的两种最优分类器转化为统一空间的分类器,用于计算LncRNA-环境因素关联关系的概率,根据概率对LncRNA-环境因素关联关系进行排名,概率值越高说明该LncRNA-环境因素的关联关系越强。
其原理是通过引入高斯相互作用属性核相似性和拉普拉斯正则化最小二乘法分类器,利用已知的LncRNA-环境因素关联关系网络的拓扑信息,以及蕴藏在网络中的顶点和边的信息,训练最优分类器,从而计算LncRNA与环境因素之间的相关性。本实施例是一种全局测量方法,能对所有可能相关的LncRNA和环境因素的关联关系进行优先级排序,对生物学家的实验研究起到指导的作用,生物学家可以针对关联关系概率较大的LncRNA和环境因素对进行试验测试,避免了盲目的测试,大大减少了工作量。
本实施例需要的数据从LncEnvironmentDB数据库中下载得到,该数据库包含5649个LncRNA-环境因素之间的关联关系,其中包含820个LncRNA和209种环境因素。
根据上面的数据,具体实施包括以下步骤:
步骤1、构建LncRNA-环境因素关联网络的邻接矩阵A。
步骤2、基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建LncRNA的高斯相互作用属性核相似矩阵KL,首先,每一个LncRNA的IP(Interaction Profile)表示在已知的LncRNA-环境因素关联关系网络中的一个二进制向量编码,‘1’代表存在关联关系,‘0’代表不存在关联关系,对于一个给定的LncRNAli,它的IP(li)被定义为LncRNA-环境因素关联关系的邻接矩阵A的第i列,如果已知LncRNAli和环境因素ej之间存在关联,则A(i,j)为1,否则为0;然后,计算每个LncRNA对,即LncRNAli和LncRNAlj之间的高斯相互作用属性核相似性:
KL(li,lj)=exp(-γl||IP(li)-IP(lj)||2)
Figure BDA0001596747970000061
其中,γl用于控制高斯相互作用属性核相似性的频宽,它表示基于新的频宽参数γ'l的正规化的高斯相互作用属性核相似性频宽,γ'l取值为1;nl表示LncRNA的数量;KL表示LncRNA的高斯相互作用属性核相似矩阵,元素KL(li,lj)表示LncRNAli和LncRNAlj的高斯相互作用属性核相似性;
同样地,基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建环境因素的高斯相互作用属性核相似矩阵KE:
KE(ei,ej)=exp(-γe||IP(ei)-IP(ej)||2)
Figure BDA0001596747970000062
其中,γe表示基于新频宽参数γ'e的正规化的高斯相互作用核相似性频宽;ne表示环境因素的数量;KE表示环境因素的高斯相互作用属性核相似矩阵,元素KE(ei,ej)表示环境因素ei和环境因素ej的高斯相互作用属性核相似性。
步骤3、为了提高LncRNA相关的预测精度,将得到的LncRNA相似信息进行logistic函数转换,经过转换得到的LncRNA相似信息记为SL:
Figure BDA0001596747970000071
其中,c=-15,d=log(9999);
根据环境因素的化学性质构造环境因素之间的化学结构相似性矩阵E,E的第i行、第j列元素E(i,j)表示环境因素i和j之间的化学结构相似性分数,通过环境因素之间的化学结构相似性矩阵E和高斯相互作用属性核相似矩阵KE,构建环境因素相似矩阵SE:
Figure BDA0001596747970000072
其中,ew代表两种环境因素关联关系信息在SE中的权重参数;
使用拉普拉斯算子将SL和SE进行归一化,公式如下:
Figure BDA0001596747970000073
其中,DL和DE是对角矩阵,DL(i,i)和DE(i,i)分别表示SL和SE第i行的总和。
步骤4、在LncRNA空间和环境因素空间中分别定义成本函数,通过最小化该成本函数,分别得到LncRNA空间和环境因素空间的最优分类器,其中LncRNA空间的最小化成本函数为:
Figure BDA0001596747970000074
环境因素空间的最小化成本函数为:
Figure BDA0001596747970000075
其中||·||F代表弗罗贝尼乌斯范数;ηL和ηE是权重参数,取值为1;通过计算目标函数的导数来解这两个最优化问题,分别得到LncRNA空间和环境因素空间的最优分类器如下:
FL*=SL(SL+ηL·LL·SL)-1AT
FE*=SE(SE+ηE·LE·SE)-1A。
步骤5、,将得到的两种最优分类器FL*和FE*通过一个加权操作转化为统一空间的分类器:
F*=lw·FL*T+(1-lw)·FE*
其中,参数lw代表LncRNA空间和环境因素空间在整合分类函数中的权重系数,F*是一个概率矩阵,大小为nl*ne,代表预测的LncRNA-环境因素的关联关系网络,最后,利用这个矩阵计算LncRNA-环境因素关联关系概率,根据概率对LncRNA-环境因素关联关系排名,概率值越高说明该LncRNA-环境因素的关联关系越强。
通过留一验证对本实施例预测LncRNA和环境因素关联关系的方法进行性能评估,在留一验证中,5949个LncRNA-环境因素之间的关联关系中,依次去掉其中一个并将它当作测试样例,剩余的作为训练集。如果测试样例的排名高于特定阈值,则可以认为对该测试LncRNA-环境因素进行正确的预测。用ROC曲线下面的面积(AUC)定量评估本实施例所述方法的性能,从图2可以看出,利用留一验证法,通过本方法预测得到的LncRNA和环境因素关联关系的ROC曲线优于用其他方法得到的LncRNA-环境因素关联关系的ROC曲线,本方法预测得到的LncRNA-环境因素关联关系的AUC为0.9096,其他方法预测得到的LncRNA和环境因素关联关系的AUC为0.7732。
图3表明通过本方法预测得到的LncRNA和环境因素关联关系网络的度分布符合幂律分布,显示了生物网络的一般特征,说明通过本方法预测得到的LncRNA和环境因素关联关系网络不是随机网络,具有生物学意义。通过本方法预测得到的LncRNA和环境因素关联关系的网络拓扑特征参数如表1所示:
Figure BDA0001596747970000081
Figure BDA0001596747970000091
表1
从表1可以看出,通过本方法预测得到的LncRNA和环境因素关联关系网络显示出短的特征路径长度,一个连通分支,低的直径和密度,表明与其他生物网络一样具有小世界和无标度性以及模块化结构,另外,通过本方法预测得到的LncRNA和环境因素关联关系网络具有较高的集中度,平均邻居数,全局效率和中心点优势;这表明通过本方法预测得到的LncRNA和环境因素关联关系网络中存在重要性更高的结点或边,即使部分网络损坏,网络的其他部分仍可以连通。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (4)

1.一种预测LncRNA和环境因素关联关系的方法,其特征在于,所述方法包括以下步骤:
S1、根据已知的LncRNA-环境因素关联关系网络的邻接矩阵,分别计算出LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE;
为了提高LncRNA相关的预测精度,将得到的LncRNA相似信息进行logistic函数转换,经过转换得到的LncRNA相似信息记为SL:
Figure FDA0003468435940000011
其中,c=-15,d=log(9999);KL(li,lj)为一对LncRNA,即LncRNAli和LncRNAlj之间的高斯相互作用属性核相似性;
根据环境因素的化学性质构造环境因素之间的化学结构相似性矩阵E,E的第i行、第j列元素E(i,j)表示环境因素i和j之间的化学结构相似性分数,通过环境因素之间的化学结构相似性矩阵E和高斯相互作用属性核相似矩阵KE,构建环境因素相似矩阵SE;
使用拉普拉斯算子将SL和SE进行归一化,公式如下:
Figure FDA0003468435940000012
其中,DL和DE是对角矩阵;
S2、把LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE通过拉普拉斯算子进行归一化;
S3、在LncRNA空间和环境因素空间中分别定义成本函数,通过最小化该成本函数,分别得到LncRNA空间和环境因素空间的最优分类器;
S4、将步骤S3得到的两种最优分类器转化为统一空间的分类器,用于计算LncRNA-环境因素关联关系的概率,根据概率对LncRNA-环境因素关联关系进行排名,概率值越高说明该LncRNA-环境因素的关联关系越强。
2.根据权利要求1所述的一种预测LncRNA和环境因素关联关系的方法,其特征在于,步骤S1的具体过程为:基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建LncRNA的高斯相互作用属性核相似矩阵KL,首先,每一个LncRNA的IP表示在已知的LncRNA-环境因素关联关系网络中的一个二进制向量编码,‘1’代表存在关联关系,‘0’代表不存在关联关系,对于一个给定的LncRNAli,它的IP(li)被定义为LncRNA-环境因素关联关系的邻接矩阵A的第i列,如果已知LncRNAli和环境因素ej之间存在关联,则A(li,ej)为1,否则为0;然后,计算每个LncRNA对,即LncRNAli和LncRNAlj之间的高斯相互作用属性核相似性:
Figure FDA0003468435940000021
Figure FDA0003468435940000022
其中,γl用于控制高斯相互作用属性核相似性的频宽,它表示基于新的频宽参数γ′l的正规化的高斯相互作用属性核相似性频宽,γ′l取值为1;nl表示LncRNA的数量;KL表示LncRNA的高斯相互作用属性核相似矩阵,元素KL(li,lj)表示LncRNAli和LncRNAlj的高斯相互作用属性核相似性;对于一个给定的LncRNAlj,IP(lj)为LncRNA-环境因素关联关系的邻接矩阵A的第j列;
同样地,基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建环境因素的高斯相互作用属性核相似矩阵KE:
KE(ei,ej)=exp(-γe‖IP(ei)-IP(ej)‖2)
Figure FDA0003468435940000031
其中,γe表示基于新频宽参数γ′e的正规化的高斯相互作用核相似性频宽;ne表示环境因素的数量;KE表示环境因素的高斯相互作用属性核相似矩阵,元素KE(ei,ej)表示环境因素ei和环境因素ej的高斯相互作用属性核相似性。
3.根据权利要求2所述的一种预测LncRNA和环境因素关联关系的方法,其特征在于,步骤S3中,LncRNA空间的最小化成本函数为:
Figure FDA0003468435940000032
环境因素空间的最小化成本函数为:
Figure FDA0003468435940000033
其中||·||F代表弗罗贝尼乌斯范数;ηL和ηE是权重参数,取值为1;通过计算目标函数的导数来解这两个最优化问题,分别得到LncRNA空间和环境因素空间的最优分类器如下;
FL*=SL(SL+ηL·LL·SL)-1AT
FE*=SE(SE+ηE·LE·SE)-1A。
4.根据权利要求3所述的一种预测LncRNA和环境因素关联关系的方法,其特征在于,将步骤S3得到的两种最优分类器FL*和FE*通过一个加权操作转化为统一空间的分类器:
F*=lw·FL*T+(1-lw)·FE*
其中,参数lw代表LncRNA空间和环境因素空间在整合分类函数中的权重系数,F*是一个概率矩阵,大小为nl*ne,代表预测的LncRNA-环境因素的关联关系网络,最后,利用这个矩阵计算LncRNA-环境因素关联关系概率,根据概率对LncRNA-环境因素关联关系排名,概率值越高说明该LncRNA-环境因素的关联关系越强。
CN201810209311.7A 2018-03-14 2018-03-14 一种预测LncRNA和环境因素关联关系的方法 Active CN108427865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810209311.7A CN108427865B (zh) 2018-03-14 2018-03-14 一种预测LncRNA和环境因素关联关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810209311.7A CN108427865B (zh) 2018-03-14 2018-03-14 一种预测LncRNA和环境因素关联关系的方法

Publications (2)

Publication Number Publication Date
CN108427865A CN108427865A (zh) 2018-08-21
CN108427865B true CN108427865B (zh) 2022-04-22

Family

ID=63158482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810209311.7A Active CN108427865B (zh) 2018-03-14 2018-03-14 一种预测LncRNA和环境因素关联关系的方法

Country Status (1)

Country Link
CN (1) CN108427865B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782945B (zh) * 2019-10-22 2023-07-18 长沙学院 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法
CN110942803A (zh) * 2019-11-22 2020-03-31 中南林业科技大学 一种LncRNA和环境因素关联关系的高效预测方法
CN110910953B (zh) * 2019-11-28 2022-09-13 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法
CN112837753B (zh) * 2021-02-07 2022-07-22 中国科学院新疆理化技术研究所 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693369A (zh) * 2011-03-24 2012-09-26 上海聚类生物科技有限公司 一种基于基因序列表达分析的LncRNA发掘方法
CN106934252A (zh) * 2017-03-08 2017-07-07 华南理工大学 一种三方网络资源传播方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799796A (zh) * 2011-05-24 2012-11-28 上海聚类生物科技有限公司 一种LncRNA与mRNA关联分析的方法
US20170091382A1 (en) * 2015-09-29 2017-03-30 Yotta Biomed, Llc. System and method for automating data generation and data management for a next generation sequencer
US10984891B2 (en) * 2016-08-05 2021-04-20 The Regents Of The University Of California Methods for global RNA-chromatin interactome discovery

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693369A (zh) * 2011-03-24 2012-09-26 上海聚类生物科技有限公司 一种基于基因序列表达分析的LncRNA发掘方法
CN106934252A (zh) * 2017-03-08 2017-07-07 华南理工大学 一种三方网络资源传播方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A computational frame and resource for understanding the lncRNA-environmental factorassociations and prediction of environmental factors implicated in diseases;Meng Zhou;《Molecular BioSystems》;20140930;第3264-3271页 *
Gaussian interaction profile kernels for predicting drug–target interaction;Twan van Laarhoven;《BIOINFORMATICS》;20110904;第3036-3043页 *
Heterogeneous Network Model to Infer Human Disease-Long Intergenic Non-Coding RNA Associations;Gamage Upeksha Ganegoda;《IEEE TRANSACTIONS ON NANOBIOSCIENCE》;20150331;第175-183页 *
Prediction of Disease-Related Interactions between MicroRNAs and Environmental Factors Based on a Semi-Supervised Classifier;Xing Chen等;《PLoS One》;20120831;第8卷(第7期);第1-10页、图1-5 *

Also Published As

Publication number Publication date
CN108427865A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
Liu et al. PEDLA: predicting enhancers with a deep learning-based algorithmic framework
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN111933212B (zh) 一种基于机器学习的临床组学数据处理方法及装置
CN112183837A (zh) 一种基于自编码模型的miRNA与疾病关联关系预测方法
Meng et al. lncRNA-LSTM: prediction of plant long non-coding RNAs using long short-term memory based on p-nts encoding
Chakraborty et al. Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture
Dou et al. Accurate identification of RNA D modification using multiple features
El-Attar et al. Deep Learning Model to Detect Diabetes Mellitus Based on DNA Sequence.
TW202121223A (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
US20230410941A1 (en) Identifying genome features in health and disease
US12060578B2 (en) Systems and methods for associating compounds with physiological conditions using fingerprint analysis
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
CN113921084B (zh) 疾病相关非编码rna调控轴多维靶向预测方法及系统
EP4356382A1 (en) Methods and systems for associating cellular constituents with a cellular process of interest
WO2022266256A1 (en) Methods and systems for associating cellular constituents with a cellular process of interest
CN113764031A (zh) 一种跨组织/物种rna中n6甲基腺苷位点的预测方法
Muhammad et al. Gvdeepnet: Unsupervised deep learning techniques for effective genetic variant classification
Liu et al. Prediction of exosomal piRNAs based on deep learning for sequence embedding with attention mechanism
CN116631572B (zh) 基于人工智能的急性心肌梗死临床决策支持系统及设备
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法
Alam et al. Unveiling the Potential Pattern Representation of RNA 5-Methyluridine Modification Sites through a Novel Feature Fusion Model Leveraging Convolutional Neural Network and Tetranucleotide Composition
Fadhil et al. Classification of Cancer Microarray Data Based on Deep Learning: A Review
Miller et al. Exploring neural network models for LncRNA sequence identification
Nambiar et al. FUN-PROSE: A deep learning approach to predict condition-specific gene expression in fungi
US20240194303A1 (en) Contrastive systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant