CN108319818A

CN108319818A - 一种预测影响长非编码rna生物学功能的snp位点的方法

Info

Publication number: CN108319818A
Application number: CN201810122529.9A
Authority: CN
Inventors: 陈小伟; 范珍; 陈润生
Original assignee: Institute of Biophysics of CAS
Current assignee: Institute of Biophysics of CAS
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2018-07-24
Anticipated expiration: 2038-02-07
Also published as: CN108319818B

Abstract

本发明公开了一种预测影响长非编码RNA生物学功能的SNP位点的方法。本发明首先建立了长非编码RNA所包含的RNA结合蛋白能够识别的特异的motif序列的识别及显著性评价方法，然后基于此方法对位于这些特定序列中的SNP位点所产生的影响进行评价。利用此方法可以发现对长非编码RNA生物学功能产生重要影响的SNP位点，为实验人员提供可靠的功能研究线索，也为长非编码RNA的临床应用提供指导。

Description

一种预测影响长非编码RNA生物学功能的SNP位点的方法

技术领域

本发明涉及分子生物学、功能基因组学和生物信息学领域，更具体涉及一种预测影响长非编码RNA生物学功能的SNP位点的方法。

背景技术

2001年人类基因组草图的发布是人类基因组计划成功的里程碑事件，开启了功能基因组研究的序幕。基因组中蕴含的大量基因和功能元件有待于进一步的识别和研究。2012年，DNA元件百科全书计划(ENCODE)公布了一批研究数据，数据显示人类基因上约75％的区域能够发生转录，而能够编码蛋白质的编码区只占人类基因组的不到3％，预示着人类基因组的转录产物中含有大量的未知的非编码RNA。早在1989年，文献中第一次报道了一种全新的非编码RNA----长非编码RNA。长非编码RNA(long noncoding RNA，lncRNA)是一类长度大于200个核苷酸并且不具有编码蛋白质能力的核糖核酸。由于受到当时技术条件的限制，长非编码RNA的发现和研究进展非常缓慢。随着高通量检测技术(例如基因芯片技术和高通量测序技术)的发展和进步，2007年文献首次报道长非编码RNA系统发现的工作，由此开始了长非编码RNA系统发现和研究的序幕。据GENCODE计划最新公布的数据，人类长非编码RNA的数目已达27,908条。根据长非编码RNA相对于附近蛋白编码基因所在的基因组位置关系，大致可以将其分为以下五类：外显子型lncRNA、内含子型lncRNA、反义型lncRNA、反向型lncRNA和基因间型lncRNA。

lncRNA的数量巨大超出了绝大多数科学家的预期，其生物学功能的研究逐渐成为生命科学研究的热点，经过近十年的研究积累，生物学家已经对lncRNA发挥生物学功能的作用机制有了初步的认识。首先，lncRNA可以作为诱饵通过与其他分子相结合，阻断其他分子与其靶标的结合，进而影响其他分子的原有功能。例如，lncRNA与mRNA竞争性结合miRNA，阻断了miRNA与mRNA的结合，进而间接影响了mRNA的表达。linc-RoR是一个长非编码RNA，能够跟胚胎干细胞分化相关核心转录因子Oct4、Sox2和Nanog竞争性结合miR-145，阻止miR-145对Oct4等基因的调控，linc-RoR与转录因子和miRNA共同构成了一个调控环路调控胚胎干细胞的状态；其次，lncRNA可以作为脚手架，将生物大分子关联起来形成复合物，例如长非编码RNA HOTAIR能够跟PRC2结合，同时又能跟LSD1/CoREST/REST复合物结合，PRC2具有组蛋白甲基转移酶活性，能够催化H3K27发生三甲基化，从而沉默基因的转录，而LSD1具有去甲基化酶的活性，能够催化H3K4去甲基化。HOTAIR作为脚手架分子将两种不同的染色质修饰复合物关联起来共同沉默基因的表达；第三，lncRNA作为向导，带领蛋白质复合物到特定的细胞位置行使功能。例如，受p53调控的长非编码RNA lincRNA-p21。lincRNA-p21能够抑制p53依赖的转录应答。lincRNA-p21能够跟hnRNP-K相互作用，进而把hnRNP-K引导到特定的基因组位置去抑制基因的表达。

人们对lncRNA的作用机制有了初步认识的同时，也在研究lncRNA与疾病的关系。到目前为止，lncRNA与肿瘤、代谢疾病、神经退行性疾病、精神疾病、心血管疾病和自身免疫疾病的发生发展都有明确的报道，HOTAIR是从HOX基因位点转录出来的一个lncRNA，它与很多种肿瘤密切相关。2010年，Howard Y.Chang实验室发现HOTAIR在乳腺癌的原发灶和转移灶中表达显著上升，因此，HOTAIR在肿瘤组织中的表达水平可以用来预测肿瘤的转移。在上皮肿瘤细胞中过表达HOTAIR，改变了PRC2的靶向目标，影响了H3K27的甲基化以及相应基因的表达，增强了肿瘤细胞侵袭和迁移能力。2011年，研究人员发现HOTAIR在结肠癌组织中的表达水平要高于癌旁组织，而且HOTAIR的高表达与结肠癌的肝转移显著相关。结合患者的临床资料，还发现HOTAIR表达水平高的患者预后较差。前列腺癌是另一个备受关注的疾病，在前列腺癌组织中发现了很多组织特异性的长非编码RNA，例如PCA3/DD3、PCGEM1、PCAT-1、PRNCR1等。此外，在神经母细胞瘤、乳腺癌、胶质瘤、结直肠癌、神经退行性疾病中也发现了相关的长非编码RNA，例如aHIF、ANRIL、Oct4-pg、PTENP1和BC200等。这些研究表明lncRNA在疾病的发生发展过程中起到了至关重要的作用。

2001年，人类基因组草图发布，发布的基因组序列是单倍体序列，没有遗传变异的注释。为了发现不同个体基因组之间的差异和研究表型多样化产生的原因，人们展开了大量工作来发现个体之间遗传变异。2007年，人类第一个个体的完整基因组图谱发布，即克莱格·文特尔本人的基因组，随后詹姆斯·沃森的基因组图谱也发布出来。后来，一个中国汉族人和一个非洲的尼日利亚人的基因组序列也陆续发表出来。随着二代测序技术的出现并不断成熟，人类基因组测序所需的时间和成本都显著减少。2012年，千人基因组计划完成了1,092个个体的基因组测序工作，其中包含97个来自中国北京的汉族人。到目前为止，通过比较不同个体的基因组序列，在人类基因组上发现的SNP位点多达2500万个。SNP是一种广泛存在的基因组变异方式。SNP是指某个人群的正常个体中，在基因组DNA的单个碱基对位置上存在不同的碱基的情况。通常认为SNP的出现是由基因组DNA的突变引起的。人的基因组DNA有30亿个碱基对，在同一个位置发生两次甚至三次突变的可能性极低，因此，SNP位点通常都是二态(有两个等位)。人类基因组DNA中平均每67个碱基就有1个SNP位点。但是这些SNP位点在基因组上并不是均匀分布，编码蛋白质的外显子区的SNP位点密度比其他区域低。不在蛋白质编码区的SNP虽然不会改变蛋白质的序列，但是可能通过其他的方式对基因产生影响。

基因组上的长非编码基因区存在大量的SNP，这些SNP可能通过改变长非编码RNA的序列、结构和表达水平进而影响长非编码RNA的生物学功能。很多长非编码基因的转录受到转录因子的调控，位于启动子区的SNP位点可能影响转录因子的结合，从而影响长非编码基因的转录。例如，SNP位点rs944289是甲状腺癌的一个易感位点，它位于一个长非编码基因PTCSC3的启动子区的CEBPA和CEBPB的转录因子结合位点处。该位点碱基发生突变后影响了转录因子的结合，进而影响了PTCSC3的转录。染色体空间相互作用研究技术的不断进步，使得研究人员能够获取更加精细的染色体空间相互作用图谱。基因组上的增强子在空间上与基因的启动子区有相互作用，预示着该增强子对基因可能存在远程调控。远程调控元件中的SNP位点可能通过影响空间相互作用进而对基因的表达调控产生影响。RNA分子上存在的修饰目前已经超过100种，这些修饰可能影响RNA分子的活性、细胞定位和稳定性，进而可能与疾病相关联。m6A是RNA分子上分布最广泛的修饰。以往的研究发现，RNA分子上发生m6A修饰的区域含有一段保守序列RRACH。近期发表的m6A-seq数据也证实了这一发现。m6A修饰的生物学功能有待于进一步的研究。已有研究报道发现有些蛋白质能够选择性的结合含有m6A修饰的RNA分子，进而影响RNA的稳定性和生命周期。

基因组上绝大部分区域是非编码区，非编码区包含大量的SNP位点，这些位点可能对非编码基因的表达和非编码RNA的序列及结构产生影响。SNP位点只涉及到一个碱基的改变，目前还无法衡量一个碱基改变后所产生的影响。

发明内容

本发明的目的在于提供一种预测对长非编码RNA产生重要影响的SNP位点的方法，为长非编码RNA的生物学功能研究和临床应用提供指导。

为了解决上述技术问题，本发明提供了一种预测影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点的方法。

本发明提供的预测影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点的方法包括如下步骤：

(1)收集整理长非编码RNA数据，构建长非编码RNA数据集；

(2)收集人类基因组SNP位点的注释数据，通过比较SNP位点和长非编码基因的基因组定位，识别位于长非编码基因区的SNP位点；将所述长非编码RNA数据集中的长非编码RNA序列上的所述SNP位点对应的碱基替换为突变后的碱基，构建得到SNP位点碱基突变后的长非编码RNA数据集；

(3)收集RNA结合蛋白的注释数据，构建RNA结合蛋白的motif数据集；

所述motif数据集中包括motif序列，所述motif序列为RNA结合蛋白能够特异识别的RNA序列；

(4)基于极值分布对所述motif序列与所述长非编码RNA数据集中的每个长非编码RNA上的目标序列的相似程度进行评价，得到每个长非编码RNA打分最高的目标序列与所述motif序列相似程度的显著性水平p，并选择显著性水平p低于阈值的长非编码RNA作为SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA；

所述目标序列是指位于所述长非编码RNA序列上且与所述motif序列长度相等的RNA序列；

假设某长非编码RNA序列长度为N；所述motif序列长度为L，那么在该长非编码RNA序列上就会得出(N-L+1)个目标序列；

(5)基于极值分布对所述motif序列与所述SNP位点碱基突变后的长非编码RNA数据集中的长非编码RNA上的目标序列的相似程度进行评价，得到每个长非编码RNA打分最高的目标序列与所述motif序列相似程度的显著性水平p，并选择相似程度的显著性水平低于阈值的长非编码RNA作为SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA；

(6)比较所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA和所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA，得到所述影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点。

上述方法中，所述步骤(1)中，所述收集整理长非编码RNA数据，构建长非编码RNA数据集的方法包括如下步骤：

A、收集长非编码RNA的注释数据，得到长非编码RNA数据集；

B、过滤所述长非编码RNA数据集中没有实验证据支持、注释数据不一致的长非编码RNA，得到过滤后的长非编码RNA数据集；

C、去除所述过滤后的长非编码RNA数据集中的冗余，得到所述长非编码RNA数据集。

所述步骤A中，从公开发表的文献“Cabili等，Integrative annotation of humanlarge intergenic noncoding RNAs reveals global properties and specificsubclasses.2011.Genes Dev 25:1915-27”和GENCODE公共数据库(公开GENCODE公共数据库的文献如下：GENCODE.Harrow等，GENCODE:the reference human genome annotationfor The ENCODE Project.Genome Research.2012.22:1760-74.，GENCODE公共数据库的查询网址如下：http://www.gencodegenes.org/)中收集长非编码RNA的注释数据；所述注释数据包括名称、基因组定位和序列信息。

所述步骤C中，利用数据集间的交叉注释、序列相似性比对和基因组定位的方法去除所述过滤后的长非编码RNA数据集中的冗余，使序列相似度大于95％且基因组位置重叠度大于95％。

上述方法中，所述步骤(2)中，从dbSNP公共数据库(https://www.ncbi.nlm.nih.gov/projects/SNP/)中收集人类基因组SNP位点注释数据，通过比较SNP位点和长非编码基因的基因组定位，识别位于长非编码基因区的SNP位点；所述注释数据包括基因组定位和基因型信息。

上述方法中，所述步骤(3)中，从公开发表的文献“Ray等，A compendium of RNA-binding motifs for decoding gene regulation.Nature.499:172-177.”中获取人类RNA结合蛋白的注释数据；所述注释数据包括名称、motif序列和motif序列的位置权重矩阵。

上述方法中，通常选取0.05作为阈值。阈值选取的越小(即越严格)，预测的结果越少。本发明中阈值具体设定为0.05。

上述方法中，所述步骤(4)和步骤(5)中，以所述长非编码RNA数据集中的任意一个长非编码RNA为例，将其记作长非编码RNA甲，对所述motif序列与所述长非编码RNA甲上的目标序列的相似程度进行评价，得到所述长非编码RNA甲打分最高的目标序列与所述motif序列相似程度的显著性水平p的方法包括如下步骤：

1)针对长非编码RNA甲，构建10000条与所述长非编码RNA甲序列长度相同的随机序列；所述长非编码RNA甲序列长度为N；所述motif序列长度为L；所述N大于等于L；

2)针对每一条随机序列，分别计算(N-L+1)个目标序列与所述motif序列的相似度打分，分别得到(N-L+1)个目标序列与所述motif序列的相似度打分，将最高的相似度打分记作S_max；

所述目标序列是指位于所述随机序列上且与所述motif序列长度相等的RNA序列；

所述目标序列与所述motif序列的相似度打分S的计算公式如下：

其中，是目标序列第j个位置上的碱基与motif序列的相似度打分；

所述目标序列第j个位置上的碱基与motif序列的相似度打分的计算方法如下：对于序列长度为L的目标序列，位于第j个位置的碱基i与motif序列的相似度打分W_i，j的计算公式如下：

其中，i为A、G、C、U；j为1、2、3、……，L；f_i，j是motif序列第j个位置的碱基i出现的频率，P_i是碱基i在人类基因组中出现的频率；

3)同理，按照步骤2)中的方法，计算其他随机序列的最高的相似度打分，共得到10000个最高的相似度打分，并计算所述10000个最高的相似度打分的平均值，将所述平均值记作

4)按照如下公式估计极值分布的参数μ和β：

其中，为S_max的标准差；γ为欧拉-马歇罗尼常数；

5)基于极值分布，按照如下公式计算长非编码RNA甲打分最高的目标序列与所述motif序列相似程度的显著性水平p：

其中，S为长非编码RNA甲所对应的所有目标序列中与motif序列的相似度打分最高者的打分；

同理，得到所述长非编码RNA数据集中的其他长非编码RNA打分最高的目标序列与motif序列相似程度的显著性水平p。

上述方法中，所述步骤(6)中，“比较所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA和所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA，得到所述影响RNA结合蛋白结合位点的SNP位点”的方法如下：

属于所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA但不属于所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA的长非编码RNA上的SNP位点即为对所述RNA结合蛋白结合位点有显著影响的SNP位点；

不属于所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA但属于所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA的长非编码RNA上的SNP位点即为所述RNA结合蛋白能够产生新的结合位点的SNP位点。

在本发明的具体实施例中，所述RNA结合蛋白为人类RNA结合蛋白，具体为TARDBP，按照上述方法预测到的SNP位点碱基突变前的RNA结合蛋白TARDBP的靶标长非编码RNA具体如表1所示；预测到的SNP位点碱基突变后的RNA结合蛋白TARDBP的靶标长非编码RNA具体如表2所示。对RNA结合蛋白TARDBP的结合位点有显著影响的SNP位点具体如表4所示，RNA结合蛋白TARDBP能够产生新的结合位点的SNP位点具体如表3所示。这些SNP位点对长非编码RNA的生物学功能可能产生重要的影响。

长非编码RNA发挥生物学功能通常需要借助特定的碱基序列，例如长非编码RNA所包含的RNA结合蛋白能够识别的特异的motif序列。本发明提供了预测影响RNA结合蛋白结合位点的SNP位点的方法，这些SNP位点更有可能对长非编码RNA生物学功能产生重大影响。本发明提供的方法首先建立了长非编码基因相关的特定序列的识别及显著性评价方法，然后基于此方法对SNP位点所产生的影响进行评价。利用此方法可以发现对长非编码RNA生物学功能产生重要影响的SNP位点，为实验人员提供可靠的功能研究线索。

具体实施方式

为了使发明的技术方案和优点更加清楚明白，以下结合实施例对本发明进行进一步说明。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下述实施例中的Motif序列是指序列(氨基酸序列、DNA序列或RNA序列)中局部的保守区域，或者是一组序列中共有的一小段序列模式。一般情况下是指有可能具有分子功能、结构性质或家族成员相关的任何序列模式。

实施例1、对长非编码RNA产生重要影响的SNP位点的获得方法

一、构建长非编码RNA完备数据集

1、收集整理长非编码RNA数据

从公开发表的文献“Cabili等，Integrative annotation of human largeintergenic noncoding RNAs reveals global properties and specificsubclasses.2011.Genes Dev25:1915-27”和GENCODE公共数据库(公开GENCODE公共数据库的文献如下：GENCODE.Harrow等，GENCODE:the reference human genome annotation forThe ENCODE Project.Genome Research.2012.22:1760-74.，GENCODE公共数据库的查询网址如下：http://www.gencodegenes.org/)中收集长非编码RNA的注释数据，包括名称、基因组定位、序列等信息，得到长非编码RNA数据集。

2、对长非编码RNA数据集进行过滤

从长非编码RNA数据集中过滤掉没有实验证据支持、注释数据不一致的长非编码RNA，得到过滤后的长非编码RNA数据集。

3、去除长非编码RNA数据集之间的冗余序列

利用数据集间的交叉注释、序列相似性比对和基因组定位的方法去除数据集之间的冗余，使序列相似度大于95％且基因组位置重叠度大于95％，得到去除冗余后的数据。

4、将去除冗余后的数据汇总，构建得到完备的长非编码RNA数据集。该数据集包括明确的长非编码RNA名称、基因组定位和序列信息。

二、构建SNP位点碱基突变后的长非编码RNA数据集

1、从dbSNP公共数据库(https://www.ncbi.nlm.nih.gov/projects/SNP/)获取人类基因组SNP位点注释数据，包括基因组定位、基因型等信息。

2、通过比较SNP位点和长非编码基因的基因组定位，识别位于长非编码基因区的SNP位点。

3、在长非编码RNA序列上，将SNP位点处的碱基替换成突变后的碱基，构建得到SNP位点碱基突变后的长非编码RNA数据集。

三、构建RNA结合蛋白的motif数据集

从公开发表的文献“Ray等，A compendium of RNA-binding motifs fordecoding gene regulation.Nature.499:172-177.”中，获取人类RNA结合蛋白的注释数据，包括名称、motif序列、motif序列的位置权重矩阵，构建得到RNA结合蛋白的motif数据集。例如，对于RNA结合蛋白TARDBP共有1个motif序列。

四、构建motif序列与目标序列相似度打分系统

1、定义碱基相似度打分公式

如果motif序列的长度为L，那么对于长度为L的目标序列(目标序列的长度要大于等于motif序列的长度)，位于第j个位置的碱基i与motif序列的相似度打分w_i，j的计算公式为：

其中，i为A、G、C、U；j为1、2、3、……，L；f_i，j是motif序列第j个位置的碱基i出现的频率，来自motif序列的位置权重矩阵，motif序列的位置权重矩阵包含了每个位置上所有四种碱基的频率，可从步骤三中公开发表的文献中获取；Pi是碱基i在人类基因组中出现的频率，具体计算方法如下：首先数一下人类基因组总共有多少个碱基，然后再数一下四种碱基分别有多少个，用四种碱基的个数分别除以人类基因组碱基总数，即分别得到四种碱基在人类基因组中出现的频率。

2、定义motif序列与目标序列的相似度打分公式

Motif序列与目标序列的相似度打分LOD scoreS的计算公式为：

其中，是目标序列第j个位置上的碱基与motif的相似度打分。

五、基于极值分布构建RNA结合蛋白的motif序列与长非编码RNA上的目标序列相似程度评价体系

1、对于motif序列长度为L的RNA结合蛋白，可以在序列长度为N的长非编码RNA上计算(N-L+1)个目标序列与motif序列的相似度打分，其中最高打分的分布近似于Gumbel分布。例如，序列长度为5的长非编码RNA(如ATCGC)上，可计算3个目标序列为：ATC、TCG和CGC与长度为3的motif序列的相似度打分。

2、针对步骤一中的完备的长非编码RNA数据集中每条长非编码RNA，分别构建10000条与之序列长度相同的随机序列。以长非编码RNA数据集中的任一条长非编码RNA为例，将其记作长非编码RNA甲，构建10000条与长非编码RNA甲序列长度相同的随机序列。对于每一条长度为N随机序列，按照步骤1中的方法可以得到N-L+1个目标序列与motif序列的相似度打分，S_max为最高打分，可以视为极值分布的一次抽样。

3、对所有的随机序列按照步骤2的方法可以得到10000个最高打分，并计算10000个最高打分的平均值，将其记作

4、估计极值分布的参数μ和β：

其中，为S_max的标准差，γ为欧拉-马歇罗尼常数。

5、基于极值分布，按照如下公式计算长非编码RNA甲打分最高的目标序列与motif序列相似程度的显著性水平p：

其中，S为长非编码RNA甲所有目标序列中与motif序列相似度打分最高者的打分。

6、按照上述步骤1-5中的方法，计算长非编码RNA数据集中的其他长非编码RNA打分最高的目标序列与motif序列相似程度的显著性水平p。

7、设定阈值，筛选相似程度的显著性水平低于阈值的长非编码RNA作为RNA结合蛋白的靶标。通常选取0.05作为阈值，阈值选取的越小(即越严格)，预测的结果越少。本发明中阈值具体设定为0.05。

以RNA结合蛋白TARDBP为例，基于上述步骤1-7中的方法，在长非编码RNA数据集(SNP位点碱基突变前的长非编码RNA)中筛选得到RNA结合蛋白TARDBP的靶标长非编码RNA，具体预测结果如表1所示。

表1、SNP位点碱基突变前TARDBP靶标长非编码RNA预测结果

六、基于极值分布构建RNA结合蛋白的motif序列与SNP位点碱基突变后的长非编码RNA上的目标序列相似程度评价体系

以RNA结合蛋白TARDBP为例，按照步骤四和步骤五建立的方法，在SNP位点碱基突变后的长非编码RNA数据集中筛选得到RNA结合蛋白TARDBP的靶标长非编码RNA，具体预测结果如表2所示。

表2、SNP位点碱基突变后TARDBP靶标长非编码RNA预测结果

七、对长非编码RNA产生重要影响的SNP位点的获得

比较步骤五和步骤六中的SNP位点碱基突变前后的RNA结合蛋白TARDBP靶标长非编码RNA的预测结果，发现对RNA结合蛋白TARDBP的结合位点有显著影响的SNP位点(表4，SNP位点碱基突变前，存在于表1中TARDBP的靶标lncRNA，而SNP位点突变后，不再是表2中的TARDBP的靶标lncRNA上的SNP位点，由于SNP位点，使TARDBP的结合位点消失)以及能够产生新的结合位点的SNP位点(表3，SNP位点碱基突变前，不存在于表1中TARDBP的靶标lncRNA，而SNP位点突变后，存在于表2中的TARDBP的靶标lncRNA上的SNP位点，由于SNP突变，使TARDBP出现了新的结合位点)。这些SNP位点对长非编码RNA的生物学功能可能产生重要的影响。

表3、SNP位点碱基突变后增加的TARDBP结合位点的SNP位点

表4、SNP位点碱基突变后TARDBP结合位点缺失的SNP位点

Claims

1.一种预测影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点的方法，包括如下步骤：

(1)收集整理长非编码RNA数据，构建长非编码RNA数据集；

2.根据权利要求1所述的方法，其特征在于：以所述长非编码RNA数据集中的任意一个长非编码RNA为例，将其记作长非编码RNA甲，对所述motif序列与所述长非编码RNA甲上的目标序列的相似程度进行评价，得到所述长非编码RNA甲打分最高的目标序列与所述motif序列相似程度的显著性水平p的方法包括如下步骤：

4)按照如下公式估计极值分布的参数μ和β：

其中，σS_max为S_max的标准差；γ为欧拉-马歇罗尼常数；

3.根据权利要求1或2所述的方法，其特征在于：所述步骤(6)中，“比较所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA和所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA，得到所述影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点”的方法如下：属于所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA但不属于所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA的长非编码RNA上的SNP位点为对所述RNA结合蛋白结合位点有显著影响的SNP位点。

4.根据权利要求1或2所述的方法，其特征在于：所述步骤(6)中，“比较所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA和所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA，得到所述影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点”的方法如下：不属于所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA但属于所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA的长非编码RNA上的SNP位点即为所述RNA结合蛋白能够产生新的结合位点的SNP位点。

5.根据权利要求1-4中任一所述的方法，其特征在于：所述步骤(1)中，所述收集整理长非编码RNA数据，构建长非编码RNA数据集的方法包括如下步骤：

A、收集长非编码RNA的注释数据，得到长非编码RNA数据集；

6.根据权利要求5所述的方法，其特征在于：所述步骤A中，所述注释数据包括名称、基因组定位和序列信息。

7.根据权利要求5所述的方法，其特征在于：所述步骤C中，利用数据集间的交叉注释、序列相似性比对和基因组定位的方法去除所述过滤后的长非编码RNA数据集中的冗余，使序列相似度大于95％且基因组位置重叠度大于95％。

8.根据权利要求1-7中任一所述的方法，其特征在于：所述步骤(2)中，所述注释数据包括基因组定位和基因型信息。

9.根据权利要求1-8中任一所述的方法，其特征在于：所述步骤(3)中，所述注释数据包括名称、motif序列和motif序列的位置权重矩阵。

10.根据权利要求1-9中任一所述的方法，其特征在于：所述阈值为005。