CN105975809A - 一种影响rna剪接的snv检测方法 - Google Patents
一种影响rna剪接的snv检测方法 Download PDFInfo
- Publication number
- CN105975809A CN105975809A CN201610318326.8A CN201610318326A CN105975809A CN 105975809 A CN105975809 A CN 105975809A CN 201610318326 A CN201610318326 A CN 201610318326A CN 105975809 A CN105975809 A CN 105975809A
- Authority
- CN
- China
- Prior art keywords
- snv
- detection method
- sequence
- splice site
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种影响RNA剪接的SNV检测方法,包括以下步骤:1)根据SNP文件的位点信息和基因组序列信息,提取突变前后该位点上下游100bp的序列和反向互补序列;2)用步骤1)提取的序列,基于最大熵原理、马尔科夫模型、人工神经网络三种不同的方法分别预测剪接位点;3)根据三种方法的预测评分结果进行整合,筛选对RNA剪接产生影响的SNV。本发明通过整合这三种方法,以SNV数据作为输入,来预测突变前后RNA剪接的变化,获得影响RNA剪接的SNV,有效的提高预测的准确性,为生物实验和临床研究提供参考。
Description
技术领域
本发明属于基因信息数据处理领域,特别是涉及到一种影响RNA剪接的SNV检测方法。
背景技术
RNA剪接是在前体mRNA中,删除内含子连接外显子,生成成熟mRNA的过程。RNA剪接是基因调控中的一个重要部分。调控RNA剪接的机制很复杂,涉及许多RNA结合蛋白。剪接过程需要识别外显子内含子的边界。发生在外显子内含子边界的SNV,可导致RNA剪接发生改变,影响mRNA的有效翻译,导致人类疾病的发生。因此,研究SNV对RNA剪接的影响至关重要。
大多数真核生物中,内含子的5’端边界或donor剪接位点通常包含二核苷酸GT,而内含子的3’端边界或acceptor剪接位点通常包含二核苷酸AG。除了这些二聚体,一个富含嘧啶的区域通常出现在acceptor剪接位点AG之前,剪接分支点在acceptor上游~30nt的区域。
目前,有许多用于识别剪接位点的软件,例如,gene finders,HumanSplicing Finder。这要求我们提高剪接位点预测准确性,同时也给我们提供了一个整合不同算法的软件来预测剪接位点的机会,使得我们能够准确的预测SNV对RNA剪接的影响。
发明内容
有鉴于此,本发明提出一种影响RNA剪接的SNV检测方法,预测突变前后RNA剪接的变化,获得影响RNA剪接的SNV,有效的提高预测的准确性,为生物实验和临床研究提供参考。
为达到上述目的,本发明的技术方案是这样实现的:一种影响RNA剪接的SNV检测方法,包括以下步骤:
1)根据SNP文件的位点信息和基因组序列信息,提取突变前后该位点上下游100bp的序列和反向互补序列;
2)用步骤1)提取的序列,基于最大熵原理、马尔科夫模型、人工神经网络三种不同的方法分别预测剪接位点;
3)根据三种方法的预测评分结果进行整合,筛选对RNA剪接产生影响的SNV。
进一步的,步骤2)所述的基于最大熵原理预测剪接位点的方法是使用Maxentscan软件进行计算。
进一步的,步骤2)所述的基于马尔科夫模型预测剪接位点的方法是使用GeneSplicer软件进行计算。
进一步的,步骤2)所述的基于人工神经网络预测剪接位点的方法是使用NetGene2软件进行计算。
进一步的,步骤3)对三种方法的得分情况整合生成剪接位点评估表,然后进行筛选。
相对于现有技术,本发明所述的一种影响RNA剪接的SNV检测方法具有以下优势:
本发明整合不同算法的软件来预测剪接位点的机会,MaxEntScan、GeneSplicer、NetGene2分别是基因最大信息熵、马尔科夫模型、人工神经网络三个不同的方法预测剪接位点的软件,本发明通过整合这三个软件以SNV数据作为输入,来预测突变前后RNA剪接的变化,获得影响RNA剪接的SNV,有效的提高预测的准确性,为生物实验和临床研究提供参考。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的流程示意图。
图2为本发明的输入文件实例。
图3为本发明的MaxEntScan预测donor site实例。
图4为本发明的GeneSplicer预测实例。
图5为本发明的NetGene2预测结果实例。
图6为本发明的结果文件格式。
具体实施方式
需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
本发明的方法原理:
本发明预测SNV对RNA剪接的影响,整合了三个基于不同算法预测RNA剪接位点的软件,以SNV信息的文件作为输入,提取突变前后发生SNV的位点上下游100bp的序列和它们的方向互补序列预测剪接位点,从而,得到突变前后DNA正链和负链RNA剪接位点的变化信息。
首先,提取序列,本发明不仅提取了基因组中无突变发生时正常的序列片段作为对照,还提取了这些序列的反向互补序列,本发明可以预测出突变位点的相反链的RNA剪接现象是否收到影响。
然后,预测剪接位点,用上面描述的方法提取的序列,作为三个软件的输入(其中Maxentscan需要做滑窗处理)。需要强调的是,Maxentscan,Genesplicer,NetGene2这三个软件分别是基于最大熵原理、马尔科夫模型、人工神经网络三个不同的方法来预测剪接位点的。本发明整合了这三个软件可以提高预测的准确性,降低假阳性率。
最后,根据三个软件的评分结果,筛选对RNA剪接产生影响的SNV。
下面结合附图作详细说明:
(1)提取序列
本发明的输入文件为常见的SNP文件,如图2所示。根据SNP的位点信息和基因组序列信息,提取突变前后该位点上下游100bp的序列和反向互补序列。
(2)计算剪接位点得分
MaxEntScan软件,预测donor site要求输入9bp的序列(3个核苷酸位于外显子中,6个核苷酸位于内含子中),预测acceptor site需要输入23bp的序列(20个核苷酸位于内含子中,3个核苷酸位于外显子中)。本软件采用滑窗处理201bp长度的序列,作为输入计算MaxEntScan得分,结果如图3所示。结果文件是两列的txt文件,第一列为序列,第二列为得分,得分越高的位点是真实的剪接位点的可能性越高。
GeneSplicer软件是基于马尔科夫模型预测剪接位点的软件,它的输出结果如图4所示。结果为4列的文件,前两列分别为剪接位点的在序列5’和3’的位置,第三列为剪接位点的预测得分,第四列,为预测的置信度,第五列为剪接位点的类型(donor或acceptor)。
NetGene2是基于人工神经网络预测剪接位点得分的软件。结果文件如图5所示。第一条序列没有预测出剪接位点,而第二条序列的5’端开始的第102个核苷酸位置为donor位点,并且置信度为0.34。
(3)整合结果
对三个软件的得分情况整合生成剪接位点评估表,如图6所示。前四列分别为SNP的信息(染色体号、位置、突变前碱基、突变后碱基),中间几列MaxEntScan,GeneSplicer,NetGene2三个软件就突变前后RNA剪接位点的预测得分,最后一列是整合三个软件分析后的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种影响RNA剪接的SNV检测方法,其特征在于,包括以下步骤:
1)根据SNP文件的位点信息和基因组序列信息,提取突变前后该位点上下游100bp的序列和反向互补序列;
2)用步骤1)提取的序列,基于最大熵原理、马尔科夫模型、人工神经网络三种不同的方法分别预测剪接位点;
3)根据三种方法的预测评分结果进行整合,筛选对RNA剪接产生影响的SNV。
2.根据权利要求1所述的一种影响RNA剪接的SNV检测方法,其特征在于,步骤2)所述的基于最大熵原理预测剪接位点的方法是使用Maxentscan软件进行计算。
3.根据权利要求1所述的一种影响RNA剪接的SNV检测方法,其特征在于,步骤2)所述的基于马尔科夫模型预测剪接位点的方法是使用GeneSplicer软件进行计算。
4.根据权利要求1所述的一种影响RNA剪接的SNV检测方法,其特征在于,步骤2)所述的基于人工神经网络预测剪接位点的方法是使用NetGene2软件进行计算。
5.根据权利要求1所述的一种影响RNA剪接的SNV检测方法,其特征在于,步骤3)对三种方法的得分情况整合生成剪接位点评估表,然后进行筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610318326.8A CN105975809A (zh) | 2016-05-13 | 2016-05-13 | 一种影响rna剪接的snv检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610318326.8A CN105975809A (zh) | 2016-05-13 | 2016-05-13 | 一种影响rna剪接的snv检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105975809A true CN105975809A (zh) | 2016-09-28 |
Family
ID=56992028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610318326.8A Pending CN105975809A (zh) | 2016-05-13 | 2016-05-13 | 一种影响rna剪接的snv检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975809A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529211A (zh) * | 2016-11-04 | 2017-03-22 | 成都鑫云解码科技有限公司 | 变异位点的获取方法及装置 |
CN108319818A (zh) * | 2018-02-07 | 2018-07-24 | 中国科学院生物物理研究所 | 一种预测影响长非编码rna生物学功能的snp位点的方法 |
CN111370055A (zh) * | 2020-03-05 | 2020-07-03 | 中南大学 | 内含子保留预测模型建立方法及其预测方法 |
CN113838522A (zh) * | 2021-09-14 | 2021-12-24 | 浙江赛微思生物科技有限公司 | 一种基因突变位点影响剪接可能性的评估处理方法 |
CN115579060A (zh) * | 2022-12-08 | 2023-01-06 | 国家超级计算天津中心 | 基因位点检测方法、装置、设备及介质 |
CN116070157A (zh) * | 2023-01-13 | 2023-05-05 | 东北林业大学 | 基于级联森林和双流结构的circRNA识别方法 |
-
2016
- 2016-05-13 CN CN201610318326.8A patent/CN105975809A/zh active Pending
Non-Patent Citations (3)
Title |
---|
BETH HELLEN: "《NGRL:Splice Site Tools-A Comparative Analysis Report》", 30 November 2009 * |
廖娟: ""脆性X综合征致病基因FMR1一个新的外显子及其鉴定"", 《中国优秀硕士学位论文全文数据库-医药卫生科技辑》 * |
柳晓龙: ""基于单核苷酸变异的等位基因选择性剪切模型研究"", 《中国优秀硕士学位论文全文数据库-基础科学辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529211A (zh) * | 2016-11-04 | 2017-03-22 | 成都鑫云解码科技有限公司 | 变异位点的获取方法及装置 |
CN108319818A (zh) * | 2018-02-07 | 2018-07-24 | 中国科学院生物物理研究所 | 一种预测影响长非编码rna生物学功能的snp位点的方法 |
CN108319818B (zh) * | 2018-02-07 | 2018-12-07 | 中国科学院生物物理研究所 | 一种预测影响长非编码rna生物学功能的snp位点的方法 |
CN111370055A (zh) * | 2020-03-05 | 2020-07-03 | 中南大学 | 内含子保留预测模型建立方法及其预测方法 |
CN113838522A (zh) * | 2021-09-14 | 2021-12-24 | 浙江赛微思生物科技有限公司 | 一种基因突变位点影响剪接可能性的评估处理方法 |
CN115579060A (zh) * | 2022-12-08 | 2023-01-06 | 国家超级计算天津中心 | 基因位点检测方法、装置、设备及介质 |
CN116070157A (zh) * | 2023-01-13 | 2023-05-05 | 东北林业大学 | 基于级联森林和双流结构的circRNA识别方法 |
CN116070157B (zh) * | 2023-01-13 | 2024-04-16 | 东北林业大学 | 基于级联森林和双流结构的circRNA识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975809A (zh) | 一种影响rna剪接的snv检测方法 | |
Berv et al. | Genomic signature of an avian Lilliput effect across the K-Pg extinction | |
Barley et al. | The challenge of species delimitation at the extremes: diversification without morphological change in Philippine sun skinks | |
Bourke et al. | The double-reduction landscape in tetraploid potato as revealed by a high-density linkage map | |
CN105956415A (zh) | 一种影响rna剪接的snv检测系统 | |
Cheema et al. | Computational approaches and software tools for genetic linkage map estimation in plants | |
Tavares et al. | DNA barcode detects high genetic structure within Neotropical bird species | |
Humphreys et al. | The evolutionary reality of higher taxa in mammals | |
CN109346130A (zh) | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 | |
Fan et al. | Estimating species trees using approximate Bayesian computation | |
Brace et al. | The colonization history of British water vole (Arvicola amphibius (Linnaeus, 1758)): origins and development of the Celtic fringe | |
AU2016355983A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN106874704A (zh) | 一种基于线性模型的基因共调控网络中关键调控子识别方法 | |
CN105279369A (zh) | 一种基于二代测序的冠心病遗传风险评估方法 | |
Schumer et al. | An evaluation of the hybrid speciation hypothesis for Xiphophorus clemenciae based on whole genome sequences | |
CN106485096A (zh) | 基于双向随机游走和多标签学习的miRNA‑环境因子关系预测方法 | |
Sedghifar et al. | The spatial mixing of genomes in secondary contact zones | |
Grandke et al. | Advantages of continuous genotype values over genotype classes for GWAS in higher polyploids: a comparative study in hexaploid chrysanthemum | |
Wu et al. | High cryptic species diversity is revealed by genome-wide polymorphisms in a wild relative of banana, Musa itinerans, and implications for its conservation in subtropical China | |
Yang et al. | Detecting recent positive selection with a single locus test bipartitioning the coalescent tree | |
Michaeli et al. | Automated cleaning and pre-processing of immunoglobulin gene sequences from high-throughput sequencing | |
Krupitsky et al. | Phylogeny, species delimitation and biogeography of the endemic Palaearctic tribe Tomarini (Lepidoptera: Lycaenidae) | |
CN108172296A (zh) | 一种数据库的建立方法和遗传疾病的风险预测方法 | |
Turkiewicz et al. | Population genetic analysis of Plasmodium knowlesi reveals differential selection and exchange events between Borneo and Peninsular sub-populations | |
Lawson et al. | Darwin's finches: a model of landscape effects on metacommunity dynamics in the Galápagos Archipelago |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination |