CN110689928A - 用于预测基因组变异对前mRNA剪接的影响的系统和方法 - Google Patents
用于预测基因组变异对前mRNA剪接的影响的系统和方法 Download PDFInfo
- Publication number
- CN110689928A CN110689928A CN201910612239.7A CN201910612239A CN110689928A CN 110689928 A CN110689928 A CN 110689928A CN 201910612239 A CN201910612239 A CN 201910612239A CN 110689928 A CN110689928 A CN 110689928A
- Authority
- CN
- China
- Prior art keywords
- splice acceptor
- acceptor site
- branch point
- candidate variant
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000000694 effects Effects 0.000 title claims abstract description 62
- 108020004999 messenger RNA Proteins 0.000 title claims abstract description 59
- 108020005067 RNA Splice Sites Proteins 0.000 claims abstract description 152
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 75
- 230000007918 pathogenicity Effects 0.000 claims abstract description 21
- 239000002773 nucleotide Substances 0.000 claims description 80
- 125000003729 nucleotide group Chemical group 0.000 claims description 80
- 230000001717 pathogenic effect Effects 0.000 claims description 62
- 238000011144 upstream manufacturing Methods 0.000 claims description 41
- 238000012216 screening Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000002238 attenuated effect Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- 230000035772 mutation Effects 0.000 description 41
- 239000000370 acceptor Substances 0.000 description 35
- 102000004169 proteins and genes Human genes 0.000 description 34
- 238000003860 storage Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 12
- 230000002939 deleterious effect Effects 0.000 description 12
- 108091092195 Intron Proteins 0.000 description 11
- 102100020948 Growth hormone receptor Human genes 0.000 description 9
- 230000004913 activation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 102000007981 Ornithine carbamoyltransferase Human genes 0.000 description 6
- 101710113020 Ornithine transcarbamylase, mitochondrial Proteins 0.000 description 6
- 230000001594 aberrant effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000037436 splice-site mutation Effects 0.000 description 6
- 108700024394 Exon Proteins 0.000 description 5
- 150000001413 amino acids Chemical class 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 230000004064 dysfunction Effects 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 108700028369 Alleles Proteins 0.000 description 4
- 102100023231 Lysosomal alpha-mannosidase Human genes 0.000 description 4
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 102100032248 Dysferlin Human genes 0.000 description 3
- 102100029492 Glycogen phosphorylase, muscle form Human genes 0.000 description 3
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 3
- 101001016184 Homo sapiens Dysferlin Proteins 0.000 description 3
- 101000700475 Homo sapiens Glycogen phosphorylase, muscle form Proteins 0.000 description 3
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 3
- 230000004075 alteration Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006378 damage Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000002028 premature Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 2
- 102100021645 Complex I assembly factor ACAD9, mitochondrial Human genes 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 2
- 208000037150 Dysferlin-related limb-girdle muscular dystrophy R2 Diseases 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 208000017359 Hereditary sensory and autonomic neuropathy type 4 Diseases 0.000 description 2
- 101100515518 Homo sapiens MYO15A gene Proteins 0.000 description 2
- 101000585635 Homo sapiens Unconventional myosin-XV Proteins 0.000 description 2
- 101710135169 Lysosomal alpha-mannosidase Proteins 0.000 description 2
- 101150098365 MYO15A gene Proteins 0.000 description 2
- 102100032543 Phosphatidylinositol 3,4,5-trisphosphate 3-phosphatase and dual-specificity protein phosphatase PTEN Human genes 0.000 description 2
- 101710132081 Phosphatidylinositol 3,4,5-trisphosphate 3-phosphatase and dual-specificity protein phosphatase PTEN Proteins 0.000 description 2
- 102100029836 Unconventional myosin-XV Human genes 0.000 description 2
- 229960005305 adenosine Drugs 0.000 description 2
- 201000009563 autosomal recessive limb-girdle muscular dystrophy type 2B Diseases 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 231100000895 deafness Toxicity 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 239000000122 growth hormone Substances 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 208000037584 hereditary sensory and autonomic neuropathy Diseases 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000126 in silico method Methods 0.000 description 2
- 239000003446 ligand Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000001700 mitochondrial membrane Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 108010033419 somatotropin-binding protein Proteins 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- VMSLCPKYRPDHLN-UHFFFAOYSA-N (R)-Humulone Chemical compound CC(C)CC(=O)C1=C(O)C(CC=C(C)C)=C(O)C(O)(CC=C(C)C)C1=O VMSLCPKYRPDHLN-UHFFFAOYSA-N 0.000 description 1
- FMFKNGWZEQOWNK-UHFFFAOYSA-N 1-butoxypropan-2-yl 2-(2,4,5-trichlorophenoxy)propanoate Chemical compound CCCCOCC(C)OC(=O)C(C)OC1=CC(Cl)=C(Cl)C=C1Cl FMFKNGWZEQOWNK-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 101150003270 Agxt gene Proteins 0.000 description 1
- 108010033918 Alanine-glyoxylate transaminase Proteins 0.000 description 1
- 241000010972 Ballerus ballerus Species 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 101710141475 Complex I assembly factor ACAD9, mitochondrial Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 102100040998 Conserved oligomeric Golgi complex subunit 6 Human genes 0.000 description 1
- 101150083642 DYSF gene Proteins 0.000 description 1
- 108090000620 Dysferlin Proteins 0.000 description 1
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 208000014094 Dystonic disease Diseases 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 108060002716 Exonuclease Proteins 0.000 description 1
- 102000004678 Exoribonucleases Human genes 0.000 description 1
- 108010002700 Exoribonucleases Proteins 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 102000004366 Glucosidases Human genes 0.000 description 1
- 108010056771 Glucosidases Proteins 0.000 description 1
- 102000007390 Glycogen Phosphorylase Human genes 0.000 description 1
- 108010046163 Glycogen Phosphorylase Proteins 0.000 description 1
- 208000032000 Glycogen storage disease due to muscle glycogen phosphorylase deficiency Diseases 0.000 description 1
- 206010018462 Glycogen storage disease type V Diseases 0.000 description 1
- 108010051696 Growth Hormone Proteins 0.000 description 1
- 206010053759 Growth retardation Diseases 0.000 description 1
- 101000677550 Homo sapiens Complex I assembly factor ACAD9, mitochondrial Proteins 0.000 description 1
- 101000748957 Homo sapiens Conserved oligomeric Golgi complex subunit 6 Proteins 0.000 description 1
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 108091027974 Mature messenger RNA Proteins 0.000 description 1
- 102000008109 Mixed Function Oxygenases Human genes 0.000 description 1
- 108010074633 Mixed Function Oxygenases Proteins 0.000 description 1
- 208000000475 Mohr-Tranebjaerg syndrome Diseases 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 101150029918 PYGM gene Proteins 0.000 description 1
- 108010058514 Phosphate-Binding Proteins Proteins 0.000 description 1
- 102000006335 Phosphate-Binding Proteins Human genes 0.000 description 1
- 208000004777 Primary Hyperoxaluria Diseases 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 102000004278 Receptor Protein-Tyrosine Kinases Human genes 0.000 description 1
- 108090000873 Receptor Protein-Tyrosine Kinases Proteins 0.000 description 1
- 102000000395 SH3 domains Human genes 0.000 description 1
- 108050008861 SH3 domains Proteins 0.000 description 1
- 101100277345 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) DDP1 gene Proteins 0.000 description 1
- 102100038803 Somatotropin Human genes 0.000 description 1
- 108010068542 Somatotropin Receptors Proteins 0.000 description 1
- 101150064104 TIMM8A gene Proteins 0.000 description 1
- 108091000117 Tyrosine 3-Monooxygenase Proteins 0.000 description 1
- 102000048218 Tyrosine 3-monooxygenases Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 201000008333 alpha-mannosidosis Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 201000008696 deafness-dystonia-optic neuronopathy syndrome Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 208000010118 dystonia Diseases 0.000 description 1
- 230000000632 dystonic effect Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 102000013165 exonuclease Human genes 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 102000054767 gene variant Human genes 0.000 description 1
- 201000004534 glycogen storage disease V Diseases 0.000 description 1
- 210000002288 golgi apparatus Anatomy 0.000 description 1
- 108091008039 hormone receptors Proteins 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008863 intramolecular interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011005 laboratory method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 201000006938 muscular dystrophy Diseases 0.000 description 1
- 230000000508 neurotrophic effect Effects 0.000 description 1
- 230000037434 nonsense mutation Effects 0.000 description 1
- 208000034814 nonsyndromic genetic hearing loss Diseases 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 235000007682 pyridoxal 5'-phosphate Nutrition 0.000 description 1
- 239000011589 pyridoxal 5'-phosphate Substances 0.000 description 1
- 102000027426 receptor tyrosine kinases Human genes 0.000 description 1
- 108091008598 receptor tyrosine kinases Proteins 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 108010060800 serine-pyruvate aminotransferase Proteins 0.000 description 1
- 210000001324 spliceosome Anatomy 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开一般性地涉及用于预测基因组变异对前mRNA剪接的影响的方法和系统。该方法包括接收基因转录物的至少一种候选变体的基因组位置信息和基因转录物的坐标信息;基于基因转录物的坐标信息和至少一种候选变体的基因组位置信息将至少一种候选变体分类为剪接受体位点区域和分支位点区域之一;基于来自至少一种候选变体的分类的分类区域评估至少一种候选变体对前mRNA剪接的影响;基于评估的至少一种候选变体对前mRNA剪接的影响来预测至少一种候选变体的致病性。
Description
相关申请的交叉引用和优先权
本申请要求2018年7月7日在印度提交的申请号为201821025433、发明名称为“用于预测基因组变异对前mRNA剪接的影响的系统和方法”的印度完整说明书的优先权。
技术领域
本文的公开内容一般性地涉及mRNA剪接,并且更具体地,涉及预测基因组变异对前mRNA剪接的影响。
背景技术
RNA剪接是从前mRNA切割内含子(introns)并与外显子缝合在一起以形成最终核苷酸序列的过程,该最终核苷酸序列是编码蛋白质的mRNA序列。在这方面,分支点(branckpoint,BP)选择和剪接位点(splice site,SS)选择是RNA剪接的关键步骤,但许多流行的剪接分析工具不对该机制进行建模。如果在内含子的主要分支点附近存在突变,则该分支点可能变得不可用。
分支点预测的现有方法使用湿实验室(wet lab)技术和计算机模拟(in-silico)方法。湿实验室技术耗时且劳动强度大,而涉及支持向量机算法或机器学习工具的现有计算模型基于许多假设,这些假设妨碍准确预测。已经实施了各种计算方法来促进准确的分支点预测,并且已经在体内/体外测试了预测的分支点,但是大多数模型建立在假定的假设之上,这些假设不会导致分支点的准确预测。通常,对引起疾病的突变的研究主要限于编码外显子、内含子-外显子连接和目的基因的启动区域。
发明内容
本公开的实施例提供技术改进作为本发明人在传统系统中认识到的一个或多个上述技术问题的解决方案。例如,在一个实施例中,提供了一种处理器实施的用于预测基因组变异对前mRNA剪接的影响的方法。该方法包括接收基因转录物的至少一种候选变体的基因组位置信息和基因转录物的坐标信息。该方法进一步包括基于基因转录物的坐标信息和至少一种候选变体的基因组位置信息将至少一种候选变体分类为剪接受体位点区域和分支位点区域之一。该方法进一步包括基于来自至少一种候选变体的分类的分类区域,评估至少一种候选变体对前mRNA剪接的影响。在本文中,评估至少一种候选变体对前mRNA剪接的影响包括:使用MaxEnt分数,鉴定分类区域内由于所述至少一个候选变体而导致的天然剪接受体位点的弱化,并确定由于弱化的天然剪接受体位点而正在创建新剪接受体位点区域,并且响应于确定正在创建新剪接受体位点区域,使用PWM评估器评估分类区域中鉴定的天然分支点的强度。该方法进一步包括基于评估的至少一种候选变体对前mRNA剪接的影响来预测至少一种候选变体的致病性。
在另一个实施例中,提供了用于预测基因组变异对前mRNA剪接的影响的系统。该系统包括存储指令的存储器和耦合到存储器的一个或多个硬件处理器,其中,一个或多个硬件处理器由指令配置为:接收基因转录物的至少一种候选变体的基因组位置信息和基因转录物的坐标信息。所述一个或多个硬件处理器进一步配置为基于基因转录物的坐标信息和至少一种候选变体的基因组位置信息将至少一种候选变体分类为剪接受体位点区域和分支位点区域之一。所述一个或多个硬件处理器进一步配置为基于来自至少一种候选变体的分类的分类区域评估至少一种候选变体对前mRNA剪接的影响,其中,评估至少一种候选变体对前mRNA剪接的影响包括:鉴定分类区域内由于所述至少一个候选变体而导致的天然剪接受体位点的弱化,并确定由于弱化的天然剪接受体位点而正在创建新剪接受体位点区域,并且响应于确定正在创建新剪接受体位点区域,使用PWM评估器评估分类区域中鉴定的天然分支点的强度。所述一个或多个硬件处理器进一步配置为基于评估的至少一种候选变体对前mRNA剪接的影响来预测至少一种候选变体的致病性。
在又一个实施例中,提供了一种或多种非暂时性机器可读信息存储介质。所述一个或多个非暂时性机器可读信息存储介质包括一个或多个指令,当由一个或多个硬件处理器执行时,所述一个或多个指令使得接收基因转录物的至少一种候选变体的基因组位置信息和基因转录物的坐标信息。进一步包括基于基因转录物的坐标信息和至少一种候选变体的基因组位置信息将至少一种候选变体分类为剪接受体位点区域和分支位点区域之一。进一步包括基于来自至少一种候选变体的分类的分类区域评估至少一种候选变体对前mRNA剪接的影响。在本文中,评估至少一种候选变体对前mRNA剪接的影响包括:鉴定分类区域内由于所述至少一个候选变体而导致的天然剪接受体位点的弱化,并确定由于弱化的天然剪接受体位点而正在创建新剪接受体位点区域,并且响应于确定正在创建新剪接受体位点区域,使用PWM评估器评估分类区域中鉴定的天然分支点的强度。进一步包括基于评估的至少一种候选变体对前mRNA剪接的影响来预测至少一种候选变体的致病性。
本领域技术人员应当理解,本文的任何框图表示体现本主题的原理的说明性系统的概念视图。类似地,应当理解,任何流程图、流程框图、状态转换图、伪代码(pseudo code)等表示可以基本上在计算机可读介质中表示并且由计算装置或处理器执行的各种过程,无论是否明确地示出了计算装置或处理器。
附图说明
包含在本公开中并构成本公开的一部分的附图示出了示例性实施例,并且与说明书一起用于说明所公开的原理。
图1示出了根据本公开的实施例的实施用于预测基因组变异对前mRNA剪接的影响的系统102的网络环境。
图2是示出了根据本公开的实施例的用于预测基因组变异对前mRNA剪接的影响的方法的流程图。
图3A-图3C示出了根据本公开的实施例的用于预测基因组变异对前mRNA剪接的影响的分析流程。
图4示出了根据本公开的实施例的用于预测基因组变异对前mRNA剪接的影响的系统的框图。
具体实施方式
参照附图对示例实施例进行描述。在附图中,附图标记中的最左侧的数字标识首次出现参考标号的图。在任何方便的地方,在整个附图中使用相同的附图标记来表示相同或相似的部分。虽然在本文中描述了所公开原理的示例和特征,但是在不脱离所公开实施例的精神和范围的情况下,改进、适应性修改或其他实施方式是可能的。旨在将以下详细描述仅视为示例性的,当其包含在说明书中时其真实范围和精神由权利要求指示。
用于研究致病性BPS突变的研究之一提供了与其他基部分支点相比在腺苷分支点中引起更严重的剪接缺陷。分支点中的突变损害了套索形成并且可能导致内含子的异常剪接,导致基因功能障碍。套索是在mRNA加工时去除内含子过程中形成的套索形结构。已显示分支位点的突变导致异常剪接,这反过来可导致疾病表型。在临床中使用下一代测序(NGS)诊断和筛查疾病的爆炸性增长可能受益于能够可靠地鉴定分支位点中可能解释疾病的突变的方法。由于缺乏足够大的已知高信度分支位点的“黄金数据集”,这些工具的开发受到了阻碍。
剪接形成了前mRNA成熟过程的关键部分,因为内含子的准确切除和外显子的连接对于真核基因表达是必需的。在剪接期间,在将成熟mRNA转运至细胞质用于翻译之前,通过细胞核内的剪接体除去部分前mRNA。取决于组织定位和发育阶段,前mRNA被不同剪接,导致选择性转录,即来自同一基因的不同蛋白质的表达。超过70%的编码人类基因的蛋白质是可变剪接的,并且已经提出可变剪接是哺乳动物表型复杂性演变的主要原因。
外显子跳跃是剪接突变的最常见结果,然后激活隐蔽的5'和3'剪接位点(5'SS和3'SS)。外显子跳跃是由于在没有可用于促进剪接的替代分支点的情况下天然剪接受体位点的破坏或自然分支点的废除。高效剪接需要内含子内至少三个主要信号,即5'剪接位点,3'剪接位点和分支点序列。内含子和外显子中的称为剪接增强子和沉默子的辅助序列共同起作用以决定剪接是组成型的还是替代性的。内含子的5'末端称为剪接供体位点,内含子的3'末端称为剪接受体位点。
与原型序列的差异与选择性转录物产生相关。在构建假外显子的高等真核生物的情况下,内含子内这种共有序列的出现是相当普遍的,表明存在剪接边界但不足以调节正确的剪接。3'末端的特征在于存在剪接受体位点、上游分支点序列和紧随分支点序列后的聚嘧啶束。基于四个主要标准定义分支点:在内含子的3'剪接末端附近,分支点序列之后是聚嘧啶束,在分支点序列和3'剪接位点之间消耗'AG'二核苷酸,以及分支点主要是腺嘌呤。因此,从已知人类基因转录物的现有数据库的候选变体中选择和准确预测分支点变体和剪接位点变体是最重要和具有挑战性的。
本公开的各种实施例提供了用于基于MaxEnt工具和位置权重矩阵(PositionWeight Matrix,PWM)评估器预测基因组变异对前mRNA剪接的影响的方法和系统,其具有在资源受限环境中使用的高精度。所公开的系统包括变体流水线,其在资源受限环境中实时工作或在CPU上接近实时地工作。所公开的系统和方法提供了预测基因组变异对前mRNA剪接的影响的解决方案。参照图1至图4,相对于所表示的图示详细描述了上述用于预测基因组变异对前mRNA剪接的影响的系统和方法。
现在参考附图,更具体地说,参见图1至图4,在图中示出了优选的实施例,并且这些实施例在以下用于预测基因组变异对前mRNA剪接的影响的示例性系统和方法的背景下进行描述,在这些附图中,相似的参考符号在整个附图中始终表示相应的特征。
这里,系统102可以接收输入,例如,经由多个设备和/或机器104-1,104-2......104-N(在下文中统称为设备104)的输入。设备104的示例可以包括但不限于便携式计算机、个人数字助理、手持设备、实施设备的VR相机、配备用于接收和存储输入和输出的存储设备。在一个实施例中,设备104可以包括能够捕获和存储数据的设备。设备104通过网络106通信地耦接到系统102,并且能够将数据发送到系统102。
在一种实施方式中,网络106可以是无线网络、有线网络或其结合。网络106可以实现为不同类型网络中的一种,例如内联网、局域网、广域网、因特网等。网络106可以是专用网络或共享网络。共享网络表示使用各种协议彼此进行通信的不同类型网络的关联,例如,超文本传输协议(HTTP)、传输控制协议/网际协议(TCP/IP)、无线应用协议(WAP)等。此外,网络106可以包括各种网络设备,包括路由器、网桥、服务器、计算设备、存储设备等。
设备104可以经由网络106向系统102发送输入。使系统102预测基因组变异对前mRNA剪接的影响。在一个实施例中,系统102可以实施在计算设备110中。计算设备110的示例可以包括但不限于台式个人计算机(PC)、笔记本电脑、膝上型电脑、便携式计算机、智能手机、平板电脑等。系统102还可以与数据储存库112相关联以存储输入、数据集和输出/结果。另外或可替代地,数据储存库112可以被配置为存储在预测基因组变异对前mRNA剪接的影响期间产生的数据和/或信息。数据存储库112可以配置在外部并且可通信地耦接到实施系统102的计算设备110。或者,数据存储库112可以配置在系统102内。
在一个实施方案中,所公开的系统102使得能够预测基因组变异对前mRNA剪接的影响,从而导致预测致病性的高准确性,并基于可以挽救正常剪接的替代分支点的可用性来确定分支点变体及其致病性。用于预测基因组变异对前mRNA剪接的影响的方法的管道的示例性表示显示并参考图3A-3C进一步描述。
现在参考图2,根据本公开的一些实施方案,描述了用于预测基因组变异对前mRNA剪接的影响的方法200的流程图。可以在计算机可执行指令的一般上下文中描述方法200。通常,计算机可执行指令可以包括执行特定功能或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构、过程、模块、功能等。方法200还可以在分布式计算环境中实施,其中功能由通过通信网络链接的远程处理设备执行。描述方法200的顺序不旨在被解释为限制,并且可以以任何顺序组合任何数量的所描述的方法框以实现方法200或替代方法。此外,方法200可以以任何合适的硬件、软件、固件或其组合来实现。在一个实施例中,流程图中描绘的方法200可以由系统执行,例如,图1的系统102。在示例性实施方案中,系统102可以体现在示例性计算机系统中,例如计算机系统102。下面将参考图3A-3C更详细地解释图2的方法200。
参考图2,在图示的实施方案中,方法200在202起始,其中对应于人类基因组的指定版本的基因组的参照等位基因和替代等位基因被接收。完全含有变体的至少一种候选转录物从已知人基因转录物的现有数据库获得(本文中,称为至少一种变体)。每个转录物表示为一组一个或多个非重叠区间,其中每个区间由四个特征表示,其包括存在转录物的染色体、区间的起始基因组坐标、区间的结束基因组坐标,和存在转录物的链(正向或反向)。
在204,基于基因转录物的坐标信息和至少一种候选变体的基因组位置信息,将至少一种候选变体分类为发生在剪接受体位点区域和分支位点区域之一中。此外,所述至少一种候选变体被分类为在基因转录物的天然内含子-外显子剪接受体接头下游的3个核苷酸上游15个核苷酸之间的基因组坐标中发生的剪接受体位点区域,和分类为在基因转录物的天然剪接受体接头上游50个核苷酸至15个核苷酸之间的基因组坐标中发生的分支位点区域。在此处,核苷酸和nt互换使用。
在206处,基于来自至少一种候选变体的分类的分类区域评估至少一种候选变体对前mRNA剪接的影响。归因于至少一种候选变体,通过使用MaxEnt得分,通过测定归因于弱化的天然剪接受体位点而产生新的剪接受体位点区域,通过鉴定分类区域中天然剪接受体位点的弱化来进行评估。此后,响应于确定正在创建新的拼接受体位点区域,使用位置权重矩阵(PWM)评估器在分类区域中鉴定的天然分支点的强度。MaxEnt是用于计算剪接受体位点的强度或弱化的已知剪接位点强度确定工具,其中,所述MaxEnt工具基于在受影响的天然剪接受体位点区域的所述至少一个候选变体的效果分配MaxEnt得分。在一个示例性实施方案中,可用的MaxEntScan工具用于计算规范剪接位点和隐藏剪接位点的剪接受体位点评分,所述规范剪接位点是天然存在的剪接位点或天然剪接位点受体区域,所述隐藏剪接位点是由突变激活的剪接位点。
使用实验确定的人类分支位点生成PWM评估器。在一个示例性实施方案中,使用实验确定的59,359个人分支位点(10mer)产生PWM,基于外切核糖核酸酶消化和RNA-seq鉴定。在所述示例实施方案中,通过仅选择在分支点处具有“A”的序列作为位置权重矩阵(PWM)的训练集来利用一组分支点位点。在所述示例性实施方案中,选择'A'作为分支点,因为以'C'/'T'/G作为分支点的分支点具有非常低的中值分数,而已知的A具有最高值,表明根据对于本实施方案产生的PWM具有朝向作为分支点的“A”的选择性并且理想地将PWM评分限制为“A”。因此,使用已知的'A'作为分支点构建了PWM。(m*n)的PWM矩阵通过以“A”作为分支点比对实验确定的59,359个人分支位点(10mer)得以创建。在本实施方案中,创建(10*4)的矩阵。然后将比对用于计算10mer的每个位置处的每个核苷酸的频率,然后将每个核苷酸的频率转换为对数几率得分。
在所述示例性实施方案中,来自Gencode数据库v19的18,171个规范转录物的1,775,131个独特内含子被鉴定并用两侧被编码外显子包围的过滤标准提取。所有内含子中每个核苷酸(A,T,C,G)的频率用于归一化训练组分支点中碱基的原始频率。如上所述,归一化的频率被转换为对数几率得分以产生最终PWM。基于以“A”为分支点对已知分支位点得到的分支位点得分。计算分布的第一个四分位数,并将其用作将位点分类为高可信度分支位点的阈值。在示例性实施方案中,测定的阈值是1.46。此外,从人类基因组中提取从每个内含子的3'末端上游10至50个碱基的40mer内含子序列,并扫描得到高于分支点阈值的10mer序列。
在208,基于所评估的至少一种候选变体对前mRNA剪接的影响来预测至少一种候选变体的致病性。参考图3A-3C进一步详细描述了进一步的评估和预测至少一种候选变体的致病性。
现在参考图3A-3C,其示出了用于预测前mRNA剪接的致病性的方法的分析管道。在本文,设计分析管道以将变体分类为致病性或非致病性。根据本实施方案的分析方法遵循由图3A-3C表示的逐步管道。在一个实施方案中,筛选紧密接近的变体,即规范剪接受体区上游多达15个核苷酸,以产生新的隐藏受体位点或产生新的分支位点。如果创建了分支位点,则启动合适的下游剪接受体位点扫描。如果变体正在创建剪接受体,则使用PWM评估器扫描合适的上游分支位点。如果变体破坏规范剪接受体并且规范分支位点不受影响,则筛选合适的替代下游剪接受体。如果一个新的规范剪接受体被预测位于规范剪接受体部位的下游,则使用PWM工具筛选实验证明的分支点。管道的详细逐步过程在图3A-3C中描述。
现在参考图3A,其中接收变体302,例如,至少一种候选变体,其中接收对应于人基因组的指定版本的基因组位置信息、参考等位基因和替代等位基因。完全含有变体的至少一种候选转录物从已知人基因转录物的现有数据库获得(本文中,称为至少一种变体)。每个转录物表示为一组一个或多个非重叠区间,其中每个区间由四个特征表示,其包括存在转录物的染色体、区间的起始基因组坐标、区间的结束基因组坐标,和存在转录物的链(正向或反向)。基于基因组坐标将至少一种候选变体分类为在剪接影响区域中发生。在304处,在基因转录物的天然内含子-外显子剪接受体接头下游的3个核苷酸上游的15个核苷酸之间的基因组坐标中发生的区域被分类为剪接受体位点。在306处,确定天然剪接受体位点的弱化,并且换句话说,确定分类的至少一种候选变体影响天然剪接受体位点(天然3'SS)。在308,检查分类的至少一个候选变体以创建新的'AG',其是新的3'SS,从而弱化使用MaxEnt得分确定的天然3'SS。响应于确定的剪接受体位点的弱化,即天然3'SS的弱化,检查至少一个候选变体是否天然分支点足够或分支到块C。换句话说,在310处,确定在前mRNA剪接期间活动的新剪接受体位点区域的15个核苷酸至50个核苷酸的序列范围内存在或不存在天然分支点。此后,天然分支点的强度使用PWM评估器并基于天然分支点的评估强度鉴定所述至少一个候选变体为致病(312);或者使用PWM评估器筛选替代分支点,并基于替代分支点(314)的评估强度预测至少一个候选为致病性进行评估。本文的状态包括破坏的天然剪接受体位点区域或未破坏的天然剪接受体位点区域。在316处,基于所确定的状态将至少一种候选变体预测为致病性或非致病性(318)。
现在参考图3B,在连接器B处,基于基因组坐标将至少一个候选变体分类为出现在分支位点区域中。在320处,在基因转录物的天然剪接受体接头上游50个核苷酸至15个核苷酸之间具有基因组坐标的区域被分类为分支位点。在322处,确定天然剪接受体位点的弱化,并且换句话说,确定分类的至少一种候选变体正在影响天然3'SS。在324处,检查分类的至少一种候选变体以创建新的'AG',其是新的3'SS,从而使用MaxEnt得分确定响应于新3'SS的创建而弱化天然3'SS。响应于确定的剪接受体的弱化,筛选天然分支点或替代分支点。在326,通过确定新的剪接受体位点上游序列范围50个核苷酸至15个核苷酸中替代分支点的存在,评价所述至少一个候选变体对分支位点被创建的新剪接受体位点的作用。在328,如果没有替代分支点被确定,所述至少一种变体被分类为致病性,在338,如果发现一个替代分支点,所述至少一个候选变体被预测为非致病性。
在330,通过在天然剪接受体位点上游具有50个核苷酸至15个核苷酸的序列范围内筛选天然分支点并在332处使用PWM评估器确定分支位点的强度确定水平来评估至少一个候选变体对分支位点没有产生新剪接受体位点的影响。在此,归因于影响筛选的天然分支点的至少一个候选变体,确定强度水平。在334处,基于所确定的分支位点的强度水平,预测至少一种候选变体是致病性的。在336处,基于在天然剪接受体位点区域上游50个核苷酸至15个核苷酸的序列范围内筛选的替代分支点,将至少一种候选变体预测为致病性或非致病性(338)。
现在参考图3C,在连接器C处,通过顺序执行340、342和344处的步骤来评估至少一个候选变体对剪接受体位点区域不创建新剪接受体位点的影响。在340处,至少一个候选变体对天然分支点的影响被确定,并使用PWM评估器基于所确定的影响鉴定天然分支位点的强度水平。在342处,对于在至少一个候选变体的上游具有50个核苷酸和下游具有50个核苷酸的序列范围内的替代剪接受体位点区域进行筛选,并且比较替代剪接受体位点区域和弱化的天然剪接受体位点区域的强度。在344处,确定被创建的新分支点的存在并且执行新分支点和天然分支点的强度的比较。进一步基于340,在346处,将至少一种变体候选预测为非致病性变体(348),或基于天然剪接受体位点区域上游50个核苷酸至15个核苷酸的序列中筛选的替代分支点(360),将至少一种变体候选预测为致病变体(350)或非致病变体(364)。
进一步基于342,预测至少一种候选变体为非致病性(348),或确定在mRNA剪接期间有活性的剪接受体位点区域15个核苷酸至50个核苷酸的序列范围内进一步存在天然分支点(352),然后比较具有预定阈值的天然分支点的强度。并且,基于比较,预测至少一种候选变体为致病性(350)。进一步基于344,基于在替代剪接受体位点上游50个核苷酸至15个核苷酸的序列范围内筛选的替代分支点,预测至少一种候选变体为致病性(354)或非致病性(356)。此外,基于新分支点和天然分支点的强度的比较,将至少一种候选变体预测为非致病性的(364)。如果不是,则确定在mRNA剪接期间有活性的剪接受体位点区域上游15个核苷酸至50个核苷酸范围内存在天然分支点,并且此后确定具有预定阈值的天然分支点的强度(354)。基于确定的天然分支点的存在和具有预定阈值的天然分支点的强度的比较,所述至少一个候选变体被预测为致病性(362)或非致病性(364)。
根据本实施方案,本系统和方法的重点是鉴定以随机序列给出的BP并评估鉴定的BP在内含子剪接的功能性结果中的作用。此外,本实施方案的焦点是使用PWM和MaxEnt得分的组合来预测评估的BP对致病性的影响。有许多工具可以预测分支点,但主要缺点是它在预测BP时需要巨量的输入数据,如聚吡啶环区信息、实际的剪接受体位点和到剪接受体位点区域的距离,这限制了这些工具预测以随机序列给出的分支点。本系统和方法清楚地区分BP和SS,并基于来自单个组件的组合输出来评估变体。
验证和结果
使用以下实施例验证了预测基因组变异对前mRNA剪接的影响的方法的结果。应当理解,本文讨论的实施例仅用于解释的目的,而不是限制本主题的范围。此外,测试结果显示了预测基因组变异对前mRNA剪接的影响的具体实例,并且决不应被解释为可通过所述方法形成的唯一方法。
在一个示例性实施方案中,公开了用于预测基因组变异对前mRNA剪接的影响的系统和方法。在本实施方案中,考虑了基于外切核糖核酸酶消化和RNA序列鉴定的最近实验确定的59,359个人分支位点(10mer)。该数据集提供了用于训练高精度推定的BPS预测模型(10)的一个全面的数据集。本实施例利用这组分支点位点,仅选择分支点处具有“A”的序列作为位置权重矩阵(PWM)评估器的训练集。这是因为我们的目标是创建和评估可用作常规变体注释方案的一部分的工具,以便为进一步的临床解释提供高置信度注释。参数,例如BPS距离内含子3'剪接末端(上游-15至-50核苷酸)的距离,确保BPS(分支点序列)是所有转录物中内含子区域的一部分,并选择基于来自训练集的PWM中前25%得分设置阈值,以提高分析方法的准确性。比较其他现有预测工具的结果,如HSF(人剪接查找器)、SVM(支持向量机)、BP查找器、机器学习预测工具的输出以及实验证明的BPS突变,以证明我们提出的模型的准确性。
基于PWM的根据本实施方案描述的分析方法成功地鉴定了3个Clinvar注释的有害突变病例(表1)在高可信分支点数据集中列出的已知分支点中的致病性的作用,如下所述。本分析成功地证实了实验已知的变体病例,其引起归因于隐藏的剪接位点和分支点的激活而引起的剪接偏差。对各种已知变体进行实验。
实施例1-OTC:在一个实施方案中,在基于Clinvar的鸟氨酸氨基甲酰基转移酶编码基因(OTC)的变体筛选作为破坏规范剪接受体位点时检测到内含子9中的变体C>G。在规范剪接受体接头下游(在外显子区域中)的25个碱基处鉴定了替代的剪接受体位点(MaxEnt:8.30)。规范的分支点(得分:2.80),即鉴定的隐藏剪接受体上游29个碱基被认为是合适的。规范的剪接受体的失活和隐藏受体位点的激活已经在PCR的帮助下进行了实验验证,并且已证明剪接中产生的偏差导致蛋白质中异常的50个氨基C末端序列,导致高氨酸激素危象(hyperammoneamic crisis)。对应于OTC的值如表1所示。
实施例2-MAN2B1:在另一个实施方案中,在甘露糖苷酶α类2B成员1基因(MAN2B1)的内含子14中发现T>C转换,破坏了规范剪接受体位点。当规范剪接受体丧失时,一个隐藏的分支位点被激活,并且也发生规范化3'剪接位点下游31nt处隐藏剪接受体的活化(MaxEnt:4.78),导致外显子15的第一31nt的缺失,由于引入终止密码子,导致移码突变,导致蛋白质的成熟前终止(表1)。借助于RT-PCR,已经证实了规范3'剪接受体位点的破坏和导致部分外显子缺失的隐藏剪接位点的激活。总之,分析方法显示了揭示α-甘露糖苷酶缺乏的原因之一的潜力。
表1
实验揭示了一些发现案例。在本文中,揭示了归因于已知的致病候选变体的剪接偏差背后的原因,并且这种情况被归类为发现案例。
实施例3–丙氨酸-乙醛酸和丝氨酸-丙酮酸转氨酶(AGXT):在示例性实施方案中,通过筛选AGXT基因变体,A>G突变在内含子5被发现。由于所述变体位于规范剪接受体位点,其先前被分类为剪接位点突变,尽管变体的作用和对剪接偏差的特定影响尚未定义。作为变异的结果(MaxEnt:4.01>-3.94),内含子5的规范剪接受体位点被破坏。由于天然剪接受体位点的破坏,规范剪接受体位点下游28核苷酸的隐藏剪接受体位点(MaxEnt:5.01)被激活。此外,在筛选隐藏剪接受体的合适分支位点时,发现潜在的分支位点,即隐藏剪接受体位点上游的35个碱基。总之,在所提出的模型的基础上,可以观察到归因于突变,原始剪接受体位点被破坏,并且隐藏剪接受体以及隐藏分支点被激活到规范剪接位点和规范分支点的下游(表2)。作为SNP的结果,形成的所得蛋白长392个氨基酸,失去9个氨基酸,即核心区域中的整个β链。缺失的蛋白区域形成蛋白的活性位点和同型二聚体界面的一部分,并且对于吡哆醛5'磷酸结合是必需的。因此,归因于SNP引起的缺失是高度有害的,因为它导致蛋白功能障碍。基于与导致异常剪接的合适分支位点的替代剪接受体的发生可以得出一个假设。归因于剪接破坏的转录物的预先终止可能是原发性高草酸尿症的原因。
实施例4-肌球蛋白XVA(MYO15A):在另一个实施方案中,在筛选MYO15A基因的内含子49时发现破坏规范剪接受体位点的有害变体G>A。作为变体的结果,在规范剪接受体接头处激活隐藏的分支位点(得分:1.92)。适合于隐藏的分支位点的隐藏剪接受体位点在规范剪接受体下游27nt(外显子区域;MaxEnt:7.13)被激活,所述规范剪接受体可能造成部分外显子50跳跃或完整外显子50跳跃可能发生,作为使用内含子50的较强剪接受体位点(MaxEnt:8.93)用于剪接的结果。归因于规范剪接受体破坏和剪接后果的剪接偏差可能是非综合征性遗传性耳聋的原因。产生的剪接偏差不会导致蛋白框的破坏,但会改变对肽配体与富含脯氨酸的配体如SH3蛋白结合必需的蛋白区域。蛋白中的SH3结构域对于分子内相互作用是必需的,导致酶的适当调节以及介导多蛋白复合物组装。因此,即使蛋白框不受影响,蛋白的基本活性区域被改变也导致截短的或非功能性蛋白。总之,分析方法成功揭示了内含子变体对MYO15A基因内含子49剪接的影响以及由此产生的致病性背后的假设。
实施例5-生长激素受体(GHR):在另一个示例性实施方案中,通过筛选生长激素受体的内含子8鉴定重新解释的病例,剪接受体变体(G>C)。位于剪接受体位点的变体(AG>AC)破坏规范剪接受体(MaxEnt:5.55>-2.52),导致特发性身材矮小。已经报道了GHR的两种不同变体转录物,一种完全跳过外显子9,另一种部分缺失外显子9。外显子9部分缺失的转录物归因于规范剪接受体下游(24nt)的隐藏剪接位点的激活而形成。已经报道了剪接变体的出现,但其形成背后的原因尚未阐明。隐藏剪接受体位点(即在外显子区域)的剪接强度大于规范剪接受体位点,并且感兴趣的变体破坏规范剪接受体位点,导致异常剪接,导致归因于蛋白过早成熟终止的非功能性蛋白。该变体已经与规范剪接受体的破坏和外显子9跳跃关联起来,其表明下游隐藏剪接受体未用于剪接。但是基于使用分析模型和实验证据得出的假设,GHR-(1-279)(剪接变体),即归因于隐藏剪接受体位点的激活而形成的,与规范转录本一样高表达,因此经由规范剪接受体的破坏,下游隐藏剪接受体可能会被激活而不是选择内含子10的导致外显子9跳跃的破坏的规范剪接受体位点(表2)。作为变体结果的GHR的蛋白产物在从GHR切割后形成生长激素结合蛋白(GHBP)的一部分的蛋白部分失去8个氨基酸。因此,从蛋白中删除这样的必需区域将导致蛋白功能失调,并且可能是变体有害性背后的原因。总之,该分析方法成功地重新解释了有害变体(G>C)在GHR内含子8剪接和导致生长激素不敏感的致病性中的作用。
表2
在一个实施方案中,研究了由预测的分支位点变体产生的发现。在本文中,实验已知的病例:基于PWM的方法以及公认的剪接位点强度确定工具(MaxEnt)在实验确定的导致致病性的分支点变体(NTKR1,DYSF,TH)的病例下进行测试。分析方法的输出完全反映了实验发现。
实施例6-神经营养性受体酪氨酸激酶1(NTRK1):在一个实施方案中,基于预测的分支点变体的输出,在NTRK1(神经营养性酪氨酸激酶受体家族)基因的情况下,推定的分支位点序列,剪接受体位点上游31个碱基,用有害变体T>A筛选。在突变后,分支位点评分显著降低,5.70>3.17(表3),并且激活了隐藏剪接受体位点。突变后得到的剪接产物包括插入内含子(137bp)片段,这归因于使用上游隐藏剪接受体位点。因此,T>A分支位点突变的作用已被证明是先天性对具有无汗症的疼痛不敏感(CIPA)的主要原因并且分析方法成功确定了这一点。
实施例7-Dysferlin(DYSF):在另一个实施方案中,通过筛选,鉴定了DYSF基因内含子31中的有害突变(A>G)。根据分支位点得分的变化,发现该变体破坏了分支位点(表3)。有害突变A>G已通过实验验证破坏了分支点,导致套索形成失败并跳过dysferlin基因的外显子32,导致隐性遗传的2B型肢带型肌营养不良症(LGMD2B)和远端表现的肌营养不良症。
实施例8-酪氨酸羟化酶(TH):在又一个示例性实施方案中,基于PWM的方法鉴定了在TH的内含子11中含有有害变体T>A的推定的分支位点。已经证明,有害变体通过跳过外显子12导致可变剪接,导致最终蛋白产物中不存在32个氨基酸,使其无功能,或使用导致异常剪接的隐藏的分支位点或通过导致另外12个氨基酸掺入的部分剪接内含子保留(mRNA中36个核苷酸),使蛋白质无功能。作为该变体的结果,预测的分支位点的分支位点得分显著降低(表3)。已经证明酪氨酸羟化酶(TH)基因中的分支位点突变(T>A),内含子11的分支点上游两个碱基,导致异常的蛋白产物,导致严重的锥体外系运动障碍。使用本方法也验证了导致内含子保留的可变剪接。
基因 | BP位置 | 序列 | 得分 |
NTRK1 | 156843392 | GCCC[T>A]GACCT | 5.701>3.174 |
DYSF | 71817308 | CCACTC[A>G]CTC | 5.568>破坏 |
TH | 2180717 | GGGC[T>A]GATGC | 4.206>1.679 |
表3
在一个实施方案中,验证了引起剪接偏差导致外显子跳跃的分支点的破坏。
实施例9-肌肉相关的糖原磷酸化酶(PYGM):在又一示例性实施方案中,从预测的PYGM基因的有害分支点变体,在分支点序列“TCCCTGACAG”,即内含子3剪接受体位点上游26个碱基,发现有害点突变A>G。该内含子突变A>G已通过实验证明导致外显子4的跳跃,导致McArdle疾病(17)。基于来自天然和突变样品的扩增的PCR产物,包括了外显子4的保留,并且将变体分类为剪接受体位点突变,但没有解决分支位点的作用。基于提出的分析方法和获得的分支位点强度的分数,外显子4跳跃的理论被假设为归因于规范分支点的破坏(4.43至空),其在规范化剪接受体上游26个碱基(表4)。由于变体与规范剪接受体的接近度是上游26个碱基,因此不太可能影响剪接位点强度,因此可以假设变体是分支位点突变。总之,分析方法能够将实验验证的剪接突变确定和分类为分支点突变。
实施例10-线粒体膜8A异位酶(TIMM8A):在又一示例性实施方案中,在假定分支位点“TTTGTGATTC”中具有最高得分3.40的有害变体被鉴定为位于内部线粒体膜8异位酶(TIMM8A)基因的唯一内含子中剪接受体位点上游的23个碱基,TIMM8A/DDP1基因功能障碍导致Mohr-Tranebjaerg综合征或耳聋/张力障碍综合征,在TIMM8A外显子的编码区存在各种错义和无义突变的证据。最近发现内含子变体A>C引起X连锁肌张力障碍性耳聋。TIMM8A中的内含子变体已被证明可能归因于剪接偏差而导致蛋白功能障碍。在分支点破坏方面尚未讨论拼接偏差背后的原因。基于从预测工具获得的分支点得分,很明显拼接偏差归因于分支点破坏(表3)。总之,基于分支位点得分的改变(3.40>空),能将证实的内含子变体分类为分支点突变。
基因 | BP位置 | 序列 | 得分 |
PYGM | 64525847 | TCCCTG[A>G]CAG | 4.430>破坏 |
TIMM8A | 100601671 | TTTGTG[A>C]TTC | 3.401>破坏 |
表4
根据本实施方案,基于PWM的分析方法被设计用于筛选变体,所述变体是在任何给定的序列中以“A”为分支点的推定的分支位点,并确定分支位点中的突变对内含子剪接的作用。如在前述病例研究中观察到的,本实施方案的PWM能够鉴定靠近内含子末端的推定分支位点。此外,PWM的潜力与通过其他工具鉴定的实验已知的分支位点进行了交叉检查,结果准确匹配。详细讨论的研究的病例揭示了已知分支点突变的成功鉴定,并且还导致对某些病例的重新解释,指明导致病理状况的剪接的推测作用背后的原因。
上面讨论的实施例的基础是根据本实施例生成的PWM矩阵。所述PWM采用含有腺苷作为分支点(branch point)的分支位点(branch site)10mer序列的数据集创建的。PWM能够鉴定内含子端(intronic end)附近的假定分支位点。PWM的潜力用其他工具确定的实验已知的分支位点进行交叉检查,结果准确匹配。本方法的分析法是专注于筛查以“A”为分支点的分支位点内的变体并研究所述变体对剪接的影响以及所产生的致病性。如所观察到的,这些实例成功地鉴定了已知的分支点突变,并且还产生了对某些情形的重新解释,这表明了剪接导致病理状况的推测效应背后的原因。变体筛选后的输入数据集显示COL4A5基因中的特定分支点变体,推测其为剪接位点变体,但基于来自所创建的PWM的突变之前和之后获得的分支位点的分数,表明它是破坏分支位点的分支点突变。通过Clinvar.vcf筛选人类基因组中推定的分支位点变体成功地鉴定出了20例具有有害变体(致病性/可能致病性)作为分支位点突变(表5)和20个有害变体作为剪接位点突变(表6)。采用额外的过滤,即在突变前和后分支位点得分/剪接位点接受体得分的显着变化,以便选出由于变体受到严重影响的分支点/剪接位点。
表5
在20例潜在的分支点突变中,成功鉴定出了三例已知的(即经实验验证的)分支点突变和发现的两例引起推定分支位点中剪接畸变。
表6
与内含子/外显子连接的上游15nt内的变体筛选一起,确认了2例经试验证明的鸟氨酸氨甲酰基转移酶(OTC),甘露糖苷酶alpha类2B成员1(MAN2B1),其中变体破坏了规范剪接接受体体位点导致隐蔽激剪接接受体位点和隐蔽分支位点的激活。三例已知的分支位点突变和两例已知的剪接位点突变证实了分析模型在鉴定内含子中潜在分支位点(NTRK1,DYSF,TH;OTC,MAN2B1)的效力,而两例发现的分支位点突变和剪接位点突变(PYGM,TIMM8A;AGXT,MYO15A)证实了分析方法模型在基于隐蔽分支点或隐蔽剪接位点的激活将内含子变体分类为分支点或剪接位点变体的效力。分析方法也测试了阴性组,即破坏分支点但没有导致致病性的分支点变体,这表明尽管PWM工具鉴定的预测分支点正在被破坏,但仍有替代分支点通过能够进行内含子的正常剪接而补偿所述破坏。因此,所述分析方法成功地确定了分支点变体并基于可以挽救正常剪接的替代分支点的可用性来确定它们的致病性。
如在本实施例中观察到的,本系统和方法经证明成功的鉴定了引起分支点破坏的变体并导致在该位点产生新的剪接接受体(寡聚高尔基体复合物6的组分(COG6),葡萄糖苷酶alpha酸性(GAA),在该位点处)。这还成功鉴定了由于变体而在规范的剪接接受体位点处产生新的分支点时,规范位点下游的推定的剪接接受体位点。总共鉴定了40种具有作为分支位点或剪接位点突变的效力的变体,并且借助于设计的工具预测了它们在引起剪接畸变中的作用。据观察,很少有突变不影响蛋白质的框架,而是非常有害的,对于这些情况检查了蛋白质结构和功能等属性。观察到对于AGXT、Acyl-CoA脱氢酶家族成员9(ACAD9)、GHR、MYO15A,虽然单核苷酸多态性(SNP)没有引起蛋白质的框架变化,但它导致蛋白质活性位点的部分缺失,影响或停止了导致疾病的功能。还注意到,对于预测了外显子跳跃或部分外显子缺失的某些情况,如磷酸酶和张力蛋白同源物(PTEN),则蛋白质被截短或蛋白质活性位点的缺失使其无功能。总之,影响蛋白质翻译框架的SNP导致致病性最可能是由于截短的蛋白质产物,并且不影响蛋白质翻译框架的SNP由于蛋白质的核心区域被改变而导致致病性。将筛选推定的分支点突变而获得的数据集与已鉴定的推定分支点的人类剪接因子数据集进行比较,并还与已鉴定的分支点变体预测结果进行比较,这证实了基于PWM的分析模型对于分支点预测和研究由于分支位点突变或剪接位点突变导致的剪接畸变是可靠的。
因此,基于PWM的方法经设计用于筛选任何给定序列中以‘A’作为分支点的推定分支位点的变体,并确定分支位点中的变体对内含子剪接的影响。
本系统和方法的所述实施例能够鉴定分支点变体,并与确定剪接位点的各个方面的其他已建立工具一起,成功的为突变的后果提供更详细的生物学解释。此外,使用本发明的实施方案鉴定的发现例具有揭示已知致病性病症背后原因的强大潜力,并为治疗开发提供基础。内含子中的推定分支点或剪接位点变体的预测可以为使用外显子跳跃技术鉴定可能的基于基因型的疗法提供基础(表7)。
表7
通过人剪接发现者(HSF)预测的分支点
*:经Mercer等人确认的分支点。
---:由其他工具和目前感兴趣的工具预测的相同分支点
已鉴定的BP:经其他工具预测/确认的分支点
预测的替代BP:经现有预测工具预测的具有更高潜力的分支点
图4是用于实施与本公开一致的实施例的示例性计算机系统401的框图。计算机系统401可以单独实施或者与系统102(图1)的部件组合实施。计算机系统401的变体可用于实施本公开中包括的装置。计算机系统401可以包括中央处理单元(“CPU”或“硬件处理器”)402。硬件处理器402可以包括至少一个数据处理器,用于执行程序部件,该程序部件用于执行用户或系统生成的请求。处理器可以包括诸如集成系统(总线)控制器、存储器管理控制单元、浮点单元、图形处理单元、数字信号处理单元等专用处理单元。处理器可以包括微处理器,例如AMD AthlonTM、DuronTM或OpteronTM、ARM应用、嵌入式或安全处理器、IBMPowerPCTM、Intel的核(Core)、ItaniumTM、XeonTM、CeleronTM或其他处理器系列。处理器902可以使用大型机架构、分布式处理器架构、多核架构、并行架构、网格架构或其他架构实现。一些实施例可以利用诸如专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)等嵌入式技术。
处理器402可以经由I/O接口403与一个或多个输入/输出(I/O)装置通信。I/O接口403可以采用通信协议/方法,例如但不限于,音频、模拟、数字、单声道、RCA、立体声、IEEE-1394、串行总线、通用串行总线(USB)、红外、PS/2、BNC、同轴、组件、复合、数字视频接口(DVI)、高清多媒体接口(HDMI)、RF天线、S-Video、VGA、IEEE 402.11a/b/g/n/x、蓝牙、蜂窝(例如,码分多址(CDMA)、高速分组接入(HSPA+)、全球移动通信系统(GSM)、长期演进(LTE)、WiMax等)等。
使用I/O接口403,计算机系统401可以与一个或多个I/O装置通信。例如,输入设备404可以是天线、键盘、鼠标、操纵杆、(红外)遥控器、摄像头、读卡器、传真机、加密狗、生物鉴定读卡器、麦克风、触摸屏、触摸板、轨迹球、传感器(例如,加速度计、光传感器、GPS、陀螺仪、接近传感器等)、触控笔、扫描仪、存储设备、收发器、视频设备/源、遮阳板等。
输出设备405可以是打印机、传真机、视频显示器(例如,阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、等离子体等)、音频扬声器等。在一些实施例中,收发器406可以设置为与处理器402连接。收发器可以促进各种类型的无线传输或接收。例如,收发器可以包括可操作地连接到收发器芯片(例如,Texas Instruments WiLink WL1283、BroadcomBCM4750IUB8、Infineon Technologies X-Gold 618-PMB9800等)的天线,提供IEEE802.11a/b/g/n、蓝牙、FM、全球定位系统(GPS)、2G/3G HSDPA/HSUPA通信等。
在一些实施例中,处理器402可以设置为经由网络接口407与通信网络408通信。网络接口407可以与通信网络408通信。网络接口可以采用连接协议,包括但不限于直接连接、以太网(例如,双绞线10/100/1000Base T)、传输控制协议/网际协议(TCP/IP)、令牌环、IEEE 402.11a/b/g/n/x等。通信网络408可以包括但不限于直接互连、局域网(LAN)、广域网(WAN)、无线网络(例如,使用无线应用协议)、因特网等。使用网络接口407和通信网络408,计算机系统401可以与设备409和410通信。这些设备可以包括但不限于个人计算机、服务器、传真机、打印机、扫描仪、诸如蜂窝电话、智能电话(例如,苹果iPhone、黑莓手机、基于安卓的手机等)等各种移动设备、平板电脑、电子书阅读器(Amazon Kindle、Nook等)、膝上型电脑、笔记本、游戏机(Microsoft Xbox、Nintendo DS、Sony PlayStation,等)等。在一些实施例中,计算机系统401本身可以包含这些设备中的一个或多个。
在一些实施例中,处理器402可以设置为经由存储接口412与一个或多个存储设备(例如,RAM 713、ROM 714等)通信。存储接口可以连接到存储设备,包括但不包括限制内存驱动器、可移动磁盘驱动器等,采用连接协议,例如串行高级技术附件(SATA)、集成驱动电子设备(IDE)、IEEE-1394、通用串行总线(USB)、光纤信道、小型计算机系统接口(SCSI)等。内存驱动器还可以包括磁鼓(drum)、磁盘驱动器、磁光驱动器、光盘驱动器、独立盘冗余阵列(RAID)、固态存储器设备、固态驱动器等。存储设备的变体可用于实现例如本公开中使用的任何数据库。
存储设备可以存储程序或数据库部件的集合,包括但不限于操作系统416、用户界面应用程序417、用户/应用程序数据418(例如,本公开中讨论的任何数据变量或数据记录)等。操作系统416可以促进计算机系统401的资源管理和操作。操作系统的示例包括但不限于Apple Macintosh OS X、Unix、类Unix系统发行版(例如,Berkeley SoftwareDistribution(BSD)、FreeBSD、NetBSD、OpenBSD等)、Linux发行版(例如,Red Hat、Ubuntu、Kubuntu等)、IBM OS/2、Microsoft Windows(XP、Vista/7/8等)、Apple iOS、GoogleAndroid、Blackberry OS等。用户界面417可以通过文本或图形设施促进程序部件的显示、执行、交互、操纵或操作。例如,用户界面可以在可操作地连接到计算机系统401的显示系统上提供计算机交互界面元素,例如光标、图标、复选框、菜单、滚动条、窗口、小部件等。可以采用图形用户界面(GUI),包括但不限于Apple Macintosh操作系统的Aqua、IBM OS/2、Microsoft Windows(例如,Aero、Metro等)、Unix X-Windows、Web界面库(例如,ActiveX、Java、Javascript、AJAX、HTML、Adobe Flash等)等。
在一些实施例中,计算机系统401可以存储用户/应用程序数据418,诸如本公开中描述的数据、变量、记录等。这些数据库可以实现为容错、关系、延展性的、安全的数据库,例如Oracle或Sybase。或者,可以使用诸如阵列、散列、链表、结构化文本文件(例如,XML)、表或作为面向对象的数据库(例如,使用ObjectStore、Poet、Zope等)等标准化数据结构来实现这些数据库。这些数据库可以合并或有时在本公开上文讨论的各种计算机系统中分布。应该理解,任何计算机或数据库部件的结构和操作可以以任何工作组合进行组合、合并或分布。
另外,在一些实施例中,服务器、发送或接收的消息和指令可以来自硬件,包括驻留在云实现中的操作系统和程序代码(即,应用程序代码)。此外,应该注意,本文提供的一个或多个系统和方法可以适用于基于云的实现。例如,在一些实施例中,所公开的方法中使用的一些或全部数据可以源自任何云计算平台或存储在任何云计算平台上。
书面描述描述了本文的主题,以使得本领域的任何技术人员能够进行和使用这些实施例。主题实施例的范围由权利要求限定,并且可以包括本领域技术人员想到的其它改进。如果这些其它改进具有与权利要求的字面语言相同的相似要素,或者如果它们包括与权利要求的字面语言无实质区别的类似要素,则这样的其它改进被确定为在权利要求书的范围内。
要理解的是,保护的范围扩展到这样的程序,并且除了其中具有消息的计算机可读装置之外,这样的计算机可读存储装置包含程序代码装置,用于当程序在服务器或移动装置或任何合适的可编程装置上运行时实现该方法的一个或多个步骤。硬件设备可以是任何种类的可以被编程的设备,包括例如,任何种类的计算机,如服务器或个人计算机等、或其任何组合。该装置还可以包括以下装置:其可以是例如硬件装置,如专用集成电路(ASIC)、现场可编程门阵列(FPGA),或者硬件和软件装置的组合,例如,ASIC和FPGA、或者存储有软件模块的至少一个存储器和至少一个微处理器。因此,该装置可以包括硬件装置和软件装置。可以用硬件和软件来实现本文描述的方法实施例。该设备还可以包括软件装置。可备选地,实施例可以在不同的硬件设备上实现,例如,使用多个CPU。
本文的实施例可以包括硬件和软件元素。以软件实现的实施例包括但不限于固件、常驻软件、微代码等。本文描述的各种模块执行的功能可以在其它模块中或其它模块的组合中实现。为了描述的目的,计算机可用介质或计算机可读介质可以是任何能够包括、存储、通信、传播或传输供指令执行系统、装置或设备使用或与其结合使用的程序的装置。
图示说明的步骤是为了解释所示的示例性实施例,并且应该预期当前技术发展将改变执行特定功能的方式。为了说明而不是限制,本文给出这些示例。此外,为了便于描述,功能构建块的边界在本文中已被任意定义。只要适当地执行指定的功能和其关系,就可以定义备选边界。基于本文包含的教导,备选方案(包括本文描述的方案的等同物、扩展、变化、差异等)对相关领域的技术人员而言是显而易见的。这些备选方案落入所公开实施例的范围和精神内。此外,词语“包括(comprising)”、“具有”、“包含”和“包括(including)”以及其它类似形式旨在意义上等同并且是开放性的,因为这些词语中的任何一个之后的一个或多个项目不是意味着是这个项目或这些项目的详尽列表,或者意味着仅限于列出的一个项目或多个项目。还必须注意的是,除非上下文另外明确指出,否则如本文和所附权利要求中所使用的,单数形式“一”、“一个”和“该”包括复数参考。
此外,可以在实施与本公开一致的实施例中利用一个或多个计算机可读存储介质。计算机可读存储介质指其上可以存储处理器可读的信息或数据的任何类型的物理存储器。因此,计算机可读存储介质可以存储用于由一个或多个处理器执行的指令,包括用于使处理器执行与本文描述的实施例一致的步骤或阶段的指令。术语“计算机可读介质”应该被理解为包括有形物品并排除载波和瞬态信号,即非瞬态的。示例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD ROM、DVD、闪存驱动器、磁盘以及任何其它已知的物理存储介质。
旨在将本公开和示例仅视为示例性的,具有所公开的实施例的真实范围和精神。
Claims (15)
1.一种处理器实施的方法,包括:
接收基因转录物的至少一种候选变体的基因组位置信息和所述基因转录物的坐标信息;
基于所述基因转录物的所述坐标信息和所述基因组位置信息将所述至少一种候选变体分类为剪接受体位点区域和分支位点区域之一;
基于来自所述至少一种候选变体的分类的分类区域,评估所述至少一种候选变体对前mRNA剪接的影响,其中,所述评估所述至少一种候选变体对前mRNA剪接的影响包括:
使用MaxEnt分数,鉴定所述分类区域中由于所述至少一个候选变体而导致的天然剪接受体位点的弱化;
确定由于弱化的天然剪接受体位点而正在创建新剪接受体位点区域;以及
响应于确定正在创建新剪接受体位点区域,使用位置权重矩阵PWM评估器评估所述分类区域中鉴定的天然分支点的强度;以及
基于评估的所述至少一种候选变体对所述前mRNA剪接的影响,预测所述至少一种候选变体的致病性。
2.根据权利要求1所述的处理器实施的方法,其中,所述至少一个候选变体被分类为
出现在剪接受体位点区域中,所述剪接受体位点区域具有基因转录物的天然内含子-外显子剪接受体连接的上游15个核苷酸至下游3个核苷酸之间的基因组坐标,以及
出现在分支位点区域中,所述分支位点区域具有基因转录物的天然剪接受体连接的上游50个核苷酸至15个核苷酸之间的基因组坐标。
3.根据权利要求1所述的处理器实施的方法,其中,所述MaxEnt分数是用于计算剪接受体位点的强度或弱化的剪接位点强度确定工具,并且其中,基于所述至少一种候选变体对受影响的天然剪接受体位点区域的影响来分配所述MaxEnt分数。
4.根据权利要求1所述的处理器实施的方法,其中,使用实验确定的人工分支位点生成所述PWM评估器,其中,生成所述PWM评估器包括:
对于具有“A”的10mer将确定的人类分支位点过滤为分支点;
对齐过滤的分支位点以计算过滤的分支位点中10mer的每个位置处的每个核苷酸的频率;
使用背景频率对10mer的每个位置处的每个核苷酸归一化计算的频率;以及
使用归一化的频率构造(m*n)矩阵以获得PWM,并且其中,构造(m*n)矩阵包括将每个归一化的频率转换为对数概率值,并且使用对数概率值将(m*n)矩阵构造成PWM。
5.根据权利要求4所述的处理器实施的方法,其中,生成的PWM评估器基于阈值分数评估分支点的强度,并且其中,使用针对具有“A”作为分支点的分支位点获得的多个分支位点分数来确定阈值分数。
6.根据权利要求1所述的处理器实施的方法,其中,评估所述至少一个候选变体对正在创建新剪接受体位点的剪接受体位点区域的影响的步骤包括:
确定在前mRNA剪接过程中新剪接受体位点区域的15个核苷酸至50个核苷酸的序列范围内是否存在天然分支点,以及
基于确定的天然分支点是否存在,
使用PWM评估器评估天然分支点的强度,并基于评估的天然分支点的强度将至少一种候选变体鉴定为致病性;或者
使用PWM评估器筛选备选分支点,并基于备选分支点的评估的强度预测至少一个候选物为致病性。
其中,所述方法还包括:
在备选分支点不存在期间,
确定天然剪接受体位点区域的状态,其中,所述状态包括破坏性天然剪接受体位点区域或非破坏性天然剪接受体位点区域;以及
基于确定的状态预测至少一种候选变体为致病性或非致病性。
7.根据权利要求1所述的处理器实施的方法,其中,评估所述至少一个候选变体对没有正在创建新剪接受体位点的剪接受体位点区域的影响的步骤包括:
确定至少一个候选变体对天然分支点的影响,并基于确定的影响使用PWM评估器鉴定天然分支位点的强度水平;
在具有至少一个候选变体的上游50个核苷酸和下游50个核苷酸的序列范围内筛选备选剪接受体位点区域并进行备选剪接受体位点区域和弱化的天然剪接受体位点区域的强度的比较;以及
确定正在创建的新分支点存在并执行新分支点和天然分支点的强度的比较,
其中,所述方法还包括:
基于鉴定的天然分支位点的强度水平,
将至少一种候选变体鉴定为非致病性的;或者
基于在上游50个核苷酸至15个核苷酸到天然剪接受体位点区域的序列中的筛选的备选分支点,将至少一种变体候选物鉴定为致病性或非致病性。
其中,所述方法还包括:
基于备选剪接受体位点区域和弱化的天然剪接受体位点的强度的比较:
预测至少一种候选变体为非致病性;或者
在mRNA剪接期间,确定在15个核苷酸至50个核苷酸到剪接受体位点区域的序列范围内存在天然分支点并将天然分支点的强度与预定阈值进行比较,其中基于确定的存在和比较,
基于在备选剪接受体位点的上游50个核苷酸至15个核苷酸的序列范围内筛选的备选分支点预测至少一种候选变体为致病性或非致病性。
8.根据权利要求7所述的处理器实施的方法,还包括基于新分支点和天然分支点的强度的比较,
预测至少一种候选变体为非致病性;或者
在前mRNA剪接期间确定在上游15个核苷酸至50个核苷酸到剪接受体位点区域的范围内存在天然分支点并将天然分支点的强度与预定阈值进行比较。
9.根据权利要求7所述的处理器实施的方法,基于确定的天然分支点的存在以及天然分支点的强度与预定阈值的比较,预测所述至少一种候选变体为致病性或非致病性。
10.根据权利要求1所述的处理器实施的方法,其中,评估所述至少一个候选变体对正在创建新剪接受体位点的分支位点的影响的步骤包括:
确定在具有新剪接受体位点的上游50个核苷酸至15个核苷酸的序列范围内存在备选分支点;以及
基于备选分支点的存在,预测至少一种变体为致病性或非致病性。
11.根据权利要求1所述的处理器实施的方法,其中,评估所述至少一个候选变体对没有正在创建新剪接受体位点的分支位点的影响的步骤包括:
在具有天然剪接受体位点的上游50个核苷酸至15个核苷酸的序列范围内筛选天然分支点;以及
使用PWM评估器确定分支位点的强度水平,其中,确定强度水平是由于至少一个候选变体影响筛选的天然分支点,
其中,所述方法还包括:
根据确定的分支位点强度水平,
预测至少一种候选变体为致病性;或者
基于在天然剪接受体位点区域的上游50个核苷酸至15个核苷酸的序列范围内筛选的备选分支点,预测至少一种候选变体为致病性或非致病性。
12.一种系统,包括:
存储器,存储指令;
一个或多个硬件处理器,耦合到存储器,其中,所述一个或多个硬件处理器由指令配置为:
接收基因转录物的至少一种候选变体的基因组位置信息和基因转录物的坐标信息;
基于基因转录物的坐标信息和所述至少一种候选变体的基因组位置信息将所述至少一种候选变体分类为剪接受体位点区域和分支位点区域之一;
基于来自所述至少一种候选变体的分类的分类区域评估所述至少一种候选变体对前mRNA剪接的影响,其中,所述评估所述至少一种候选变体对前mRNA剪接的影响包括:
使用MaxEnt分数,鉴定分类区域内由于所述至少一个候选变体而导致的天然剪接受体位点的弱化;
确定由于弱化的天然剪接受体位点而正在创建新剪接受体位点区域;以及
使用位置权重矩阵PWM评估器评估分类区域中鉴定的天然分支点的强度,以响应于确定正在创建新剪接受体位点区域;以及
基于评估的所述至少一种候选变体对前mRNA剪接的影响来预测所述至少一种候选变体的致病性。
13.根据权利要求12所述的系统,其中,所述至少一个候选变体被分类为
出现在剪接受体位点区域中,所述剪接受体位点区域具有基因转录物的天然内含子-外显子剪接受体连接的上游15个核苷酸至下游3个核苷酸之间的基因组坐标,以及
出现在分支位点区域中,所述分支位点区域具有基因转录物的天然剪接受体连接的上游50个核苷酸至15个核苷酸之间的基因组坐标,
其中,评估所述至少一个候选变体对正在创建新剪接受体位点的剪接受体位点区域的影响包括:
确定在前mRNA剪接过程中新剪接受体位点区域的15个核苷酸至50个核苷酸的序列范围内是否存在天然分支点,以及基于确定的天然分支点是否存在,
使用PWM评估器评估天然分支点的强度,并基于评估的天然分支点的强度将至少一种候选变体鉴定为致病性;或者
使用PWM评估器筛选备选分支点,并基于备选分支点的评估的强度预测至少一个候选变体为致病性,
其中,在备选分支点不存在期间,所述一个或多个硬件处理器还由指令配置为:
确定天然剪接受体位点区域的状态,其中,所述状态包括破坏性天然剪接受体位点区域或非破坏性天然剪接受体位点区域;以及
基于确定的状态预测至少一种候选变体为致病性或非致病性。
14.根据权利要求12所述的系统,其中评估所述至少一个候选变体对没有正在创建新剪接受体位点的剪接受体位点区域的影响包括:
确定至少一个候选变体对天然分支点的影响,并基于确定的影响使用PWM评估器鉴定天然分支位点的强度水平;
在具有至少一个候选变体的上游50个核苷酸和下游50个核苷酸的序列范围内筛选备选剪接受体位点区域并进行备选剪接受体位点区域和弱化的天然剪接受体位点区域的强度的比较;以及
确定正在创建的新分支点存在并执行新分支点和天然分支点的强度的比较,
其中,基于鉴定的天然分支位点的强度水平,所述一个或多个硬件处理器还由指令配置为:
将至少一种候选变体鉴定为非致病性的;或者
基于在上游50个核苷酸至15个核苷酸到天然剪接受体位点区域的序列中的筛选的备选分支点,将至少一种候选变体鉴定为致病性或非致病性。
其中,基于备选剪接受体位点区域和弱化的天然剪接受体位点的强度的比较,所述一个或多个硬件处理器还由指令配置为:
预测至少一种候选变体为非致病性;或者
在mRNA剪接期间,确定在15个核苷酸至50个核苷酸到剪接受体位点区域的序列范围内存在天然分支点并将天然分支点的强度与预定阈值进行比较。
基于新分支点和天然分支点的强度的比较,所述一个或多个硬件处理器还由指令配置为:
预测至少一种候选变体为非致病性;或者
在mRNA剪接期间,确定在上游15个核苷酸至50个核苷酸到剪接受体位点区域的范围内存在天然分支点并将天然分支点的强度与预定阈值进行比较,
进一步包括基于确定的存在和比较,基于在备选剪接受体位点的上游50个核苷酸至15个核苷酸的序列范围内筛选的备选分支点预测至少一种候选变体为致病性或非致病性,
其中,基于确定的天然分支点的存在以及天然分支点的强度与预定阈值的比较,所述一个或多个硬件处理器还由指令配置为:
预测所述至少一种候选变体为致病性或非致病性。
15.根据权利要求12所述的系统,其中评估所述至少一个候选变体对正在创建新剪接受体位点的分支位点的影响的步骤包括:
确定在具有新剪接受体位点的上游50个核苷酸至15个核苷酸的序列范围内存在备选分支点;以及
基于备选分支点的存在,预测至少一种变体为致病性或非致病性。
其中,所述一个或多个硬件处理器还由指令配置为:
评估所述至少一个候选变体对没有正在创建新剪接受体位点的分支位点的影响包括:
在具有天然剪接受体位点的上游50个核苷酸至15个核苷酸的序列范围内筛选天然分支点;以及
使用PWM评估器确定分支位点的强度水平,其中,确定强度水平是由于至少一个候选变体影响筛选的天然分支点,
其中,基于确定的分支位点强度水平,其中,所述一个或多个硬件处理器还由指令配置为:
预测至少一种候选变体为致病性;或者
基于在天然剪接受体位点区域的上游50个核苷酸至15个核苷酸的序列范围内筛选的备选分支点,预测至少一种候选变体为致病性或非致病性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201821025433 | 2018-07-07 | ||
IN201821025433 | 2018-07-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110689928A true CN110689928A (zh) | 2020-01-14 |
Family
ID=67184885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910612239.7A Pending CN110689928A (zh) | 2018-07-07 | 2019-07-08 | 用于预测基因组变异对前mRNA剪接的影响的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200152288A1 (zh) |
EP (1) | EP3745406A1 (zh) |
JP (1) | JP7453754B2 (zh) |
CN (1) | CN110689928A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035272A (zh) * | 2021-03-08 | 2021-06-25 | 深圳市新合生物医疗科技有限公司 | 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 |
CN113241123A (zh) * | 2021-04-19 | 2021-08-10 | 西安电子科技大学 | 一种融合多种特征识别增强子及其强度的方法、系统 |
CN113838522A (zh) * | 2021-09-14 | 2021-12-24 | 浙江赛微思生物科技有限公司 | 一种基因突变位点影响剪接可能性的评估处理方法 |
CN115691662A (zh) * | 2022-11-08 | 2023-02-03 | 温州谱希医学检验实验室有限公司 | 基于变构概率对近视/高度近视相关snp风险的排序方法和系统 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6931860B2 (ja) * | 2019-02-08 | 2021-09-08 | 株式会社Zenick | mRNA前駆体の解析方法、情報処理装置、コンピュータプログラム |
KR102204509B1 (ko) * | 2020-09-21 | 2021-01-19 | 주식회사 쓰리빌리언 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
WO2022203704A1 (en) * | 2021-03-26 | 2022-09-29 | Genome International Corporation | A unified portal for regulatory and splicing elements for genome analysis |
CN113215248B (zh) * | 2021-06-25 | 2022-04-22 | 中国人民解放军空军军医大学 | 一种感音神经性耳聋相关的myo15a基因突变检测试剂盒 |
US20230410941A1 (en) * | 2022-03-24 | 2023-12-21 | Genome International Corporation | Identifying genome features in health and disease |
CN115579060B (zh) * | 2022-12-08 | 2023-04-04 | 国家超级计算天津中心 | 基因位点检测方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130096838A1 (en) * | 2011-06-10 | 2013-04-18 | William Fairbrother | Gene Splicing Defects |
CN103732747A (zh) * | 2011-08-01 | 2014-04-16 | 巴斯夫植物科学有限公司 | 鉴定和分离导致转录增强的终止子序列的方法 |
US20140199698A1 (en) * | 2013-01-14 | 2014-07-17 | Peter Keith Rogan | METHODS OF PREDICTING AND DETERMINING MUTATED mRNA SPLICE ISOFORMS |
US20170240900A1 (en) * | 2013-12-16 | 2017-08-24 | Syddansk Universitet | Ras exon 2 skipping for cancer treatment |
WO2017220315A1 (en) * | 2016-06-22 | 2017-12-28 | Universite Du Luxembourg | Means and methods for treating parkinson's disease |
-
2019
- 2019-07-05 EP EP19184695.5A patent/EP3745406A1/en active Pending
- 2019-07-05 US US16/504,184 patent/US20200152288A1/en active Pending
- 2019-07-08 CN CN201910612239.7A patent/CN110689928A/zh active Pending
- 2019-07-08 JP JP2019126722A patent/JP7453754B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130096838A1 (en) * | 2011-06-10 | 2013-04-18 | William Fairbrother | Gene Splicing Defects |
CN103732747A (zh) * | 2011-08-01 | 2014-04-16 | 巴斯夫植物科学有限公司 | 鉴定和分离导致转录增强的终止子序列的方法 |
US20140199698A1 (en) * | 2013-01-14 | 2014-07-17 | Peter Keith Rogan | METHODS OF PREDICTING AND DETERMINING MUTATED mRNA SPLICE ISOFORMS |
US20170240900A1 (en) * | 2013-12-16 | 2017-08-24 | Syddansk Universitet | Ras exon 2 skipping for cancer treatment |
WO2017220315A1 (en) * | 2016-06-22 | 2017-12-28 | Universite Du Luxembourg | Means and methods for treating parkinson's disease |
Non-Patent Citations (1)
Title |
---|
XUEQIU JIAN: "In silico tools for splicing defect prediction - A survey from the viewpoint of end-users", 《GENET MED》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035272A (zh) * | 2021-03-08 | 2021-06-25 | 深圳市新合生物医疗科技有限公司 | 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 |
CN113035272B (zh) * | 2021-03-08 | 2023-09-05 | 深圳市新合生物医疗科技有限公司 | 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 |
CN113241123A (zh) * | 2021-04-19 | 2021-08-10 | 西安电子科技大学 | 一种融合多种特征识别增强子及其强度的方法、系统 |
CN113241123B (zh) * | 2021-04-19 | 2024-02-02 | 西安电子科技大学 | 一种融合多种特征识别增强子及其强度的方法、系统 |
CN113838522A (zh) * | 2021-09-14 | 2021-12-24 | 浙江赛微思生物科技有限公司 | 一种基因突变位点影响剪接可能性的评估处理方法 |
CN115691662A (zh) * | 2022-11-08 | 2023-02-03 | 温州谱希医学检验实验室有限公司 | 基于变构概率对近视/高度近视相关snp风险的排序方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3745406A1 (en) | 2020-12-02 |
US20200152288A1 (en) | 2020-05-14 |
JP2020038621A (ja) | 2020-03-12 |
JP7453754B2 (ja) | 2024-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689928A (zh) | 用于预测基因组变异对前mRNA剪接的影响的系统和方法 | |
Peltzer et al. | EAGER: efficient ancient genome reconstruction | |
Li et al. | RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome | |
US9817944B2 (en) | Systems and methods for analyzing sequence data | |
EP3139297B1 (en) | Malware determination device, malware determination system, malware determination method, and program | |
Schmitz et al. | Fact or fiction: updates on how protein-coding genes might emerge de novo from previously non-coding DNA | |
US20150066378A1 (en) | Identifying Possible Disease-Causing Genetic Variants by Machine Learning Classification | |
US10748185B2 (en) | Method for identifying bundled software and apparatus therefor | |
Li et al. | LeafCutter: annotation-free quantification of RNA splicing | |
Kuo et al. | Illuminating the dark side of the human transcriptome with TAMA Iso-Seq analysis | |
Zhang et al. | Sprites: detection of deletions from sequencing data by re-aligning split reads | |
Kroon et al. | Detecting dispersed duplications in high-throughput sequencing data using a database-free approach | |
CN107480468B (zh) | 基因样本分析方法及电子设备 | |
WO2013140313A1 (en) | Surprisal data reduction of genetic data for transmission, storage, and analysis | |
KR102072288B1 (ko) | GANs을 이용한 보안 로그 데이터의 이상 탐지 방법 및 이를 수행하는 장치들 | |
US20190265954A1 (en) | Apparatus and method for assisting discovery of design pattern in model development environment using flow diagram | |
US9223569B1 (en) | Automatic software catalog content creation based on bio-inspired computing prediction | |
Lin et al. | MapCaller–An integrated and efficient tool for short-read mapping and variant calling using high-throughput sequenced data | |
CN112908412A (zh) | 用于复合杂合变异致病证据适用性的方法、设备和介质 | |
Li et al. | Gene function prediction based on genomic context clustering and discriminative learning: an application to bacteriophages | |
Yang et al. | Scavenger: A pipeline for recovery of unaligned reads utilising similarity with aligned reads | |
Wilentzik et al. | A statistical framework for revealing signaling pathways perturbed by DNA variants | |
Marschall et al. | Sensitive long-indel-aware alignment of sequencing reads | |
EP3872640B1 (en) | Information creation device, information creation method, and information creation program | |
García-Olivares et al. | Benchmarking of human Y-chromosomal haplogroup classifiers with whole-genome and whole-exome sequence data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |