CN112086128A - 一种适用于Sequel测序的三代全长转录组测序结果分析方法 - Google Patents
一种适用于Sequel测序的三代全长转录组测序结果分析方法 Download PDFInfo
- Publication number
- CN112086128A CN112086128A CN202010823703.XA CN202010823703A CN112086128A CN 112086128 A CN112086128 A CN 112086128A CN 202010823703 A CN202010823703 A CN 202010823703A CN 112086128 A CN112086128 A CN 112086128A
- Authority
- CN
- China
- Prior art keywords
- transcripts
- transcript
- sequence
- analysis
- software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 25
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 23
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000008488 polyadenylation Effects 0.000 claims abstract description 9
- 238000011222 transcriptome analysis Methods 0.000 claims abstract description 8
- 108091046869 Telomeric non-coding RNA Proteins 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 102000004169 proteins and genes Human genes 0.000 claims description 13
- 229910003460 diamond Inorganic materials 0.000 claims description 12
- 239000002299 complementary DNA Substances 0.000 claims description 9
- 108700026244 Open Reading Frames Proteins 0.000 claims description 6
- 230000000692 anti-sense effect Effects 0.000 claims description 6
- 102100026560 Filamin-C Human genes 0.000 claims description 5
- 101000913557 Homo sapiens Filamin-C Proteins 0.000 claims description 5
- 108020005198 Long Noncoding RNA Proteins 0.000 claims description 4
- 241000894007 species Species 0.000 claims description 4
- 108091026890 Coding region Proteins 0.000 claims description 3
- 101100264654 Enterobacteria phage T4 y12A gene Proteins 0.000 claims description 3
- 102000001708 Protein Isoforms Human genes 0.000 claims description 3
- 108010029485 Protein Isoforms Proteins 0.000 claims description 3
- 235000003434 Sesamum indicum Nutrition 0.000 claims description 3
- 244000000231 Sesamum indicum Species 0.000 claims description 3
- 238000010230 functional analysis Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000003556 assay Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000010008 shearing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241000206602 Eukaryota Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108091036407 Polyadenylation Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000012398 clinical drug development Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,包括如下步骤:步骤一,测序数据过滤步骤;步骤二,测序数据比对步骤;步骤三,转录本注释步骤;步骤四,ORF预测步骤;步骤五,转录本功能注释步骤;步骤六,融合基因分析步骤;步骤七,LncRNA预测步骤;步骤八,可变剪切分析步骤;步骤九,可变多聚腺苷酸化分析步骤。本发明的运行速度更快,且与常用的matchannot软件相比对转录本的注释更加精细,更加便于分析转录本的类型。
Description
技术领域
本发明涉及基因检测领域,具体涉及适用于Sequel测序平台的三代全长有参转录组分析方法。
背景技术
转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。真核生物的蛋白编码基因在3’末端有一段poly(A)尾,所以对于真核生物,提取总RNA后,可以用带有polyT的反转录引物,将RNA序列反转录成cDNA,再以cDNA为模板,制备全长cDNA文库,构建好的文库用Sequel测序仪进行测序。
测序后的数据需要进行生物信息学分析,获取样品的转录本结构信息,推断生物学意义。通常一个样品可以获得数百万个测序reads,之前的分析方法存在计算机资源消耗大、运行时间慢等缺点。同时,不断的出现新的分析方法和软件,现有的全长转录组分析流程需要优化和补充。
发明内容
为了克服现有技术的上述缺陷,本发明的目的在于提供一种适用于Sequel测序平台的三代全长转录组分析方法。
为了实现本发明的目的,所采用的技术方案是:
一种适用于Sequel测序平台的三代全长转录组分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用pacbio官方的isoseq3流程对原始数据进行处理:
使用ccs程序对下机的subreads进行处理,得到每个零模波导孔的一致性序列CCS;
使用lima程序对一致性序列进行接头识别,得到全长序列FL;
使用isoseq3 refine程序对全长序列进行嵌合去除和polyA识别,得到全长非嵌合序列FLNC;
使用isoseq3 cluster对全长非嵌合序列进行聚类,得到去冗余的高质量转录本HQ isoform;
步骤二,测序数据比对步骤:
使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余:
首先从基因组数据库中下载对应物种的参考基因组;
将高质量序列比对到参考基因组上;
根据转录本在基因组上的剪切模式,将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并,作为样品识别到的转录本;
步骤三,转录本注释步骤:
使用SQUANTI2将合并后的转录本与参考转录本注释进行比较,具体为:
将两种转录本的位置和剪切模式进行比较;
步骤四,ORF预测步骤:
使用Transdecoder软件对转录本进行ORF预测,具体是:
使用TransDecoder.LongOrfs识别转录本序列中的长度大于300的ORF结构;
对识别的ORF进行Swissprot同源序列比对和Pfam结构域预测,作为ORF结果可信度的一个判断依据;
使用TransDecoder.Predict对ORF进行检验,每个转录本保留最优的ORF结果,得到相应的CDS和蛋白质序列;
步骤五,转录本功能注释步骤:
对预测得到的转录本蛋白质序列进行功能分析,具体是:
使用diamond软件将转录本比对NR数据库,获得同源蛋白信息;
使用blast2go软件,根据NR注释结果,提取GO注释;
使用diamond软件将转录本比对到KEGG数据库,然后使用kobas预测转录本的KEGG编号;
使用diamond软件将转录本比对到eggNOG数据库,获得转录本的直系同源信息;
使用diamond软件将转录本比对到SwissPort数据库,获得转录本的SwissProt同源蛋白信息;
步骤六,融合基因分析步骤:
用cDNA_Cupcake软件包进行融合基因分析:
从转录本与基因组比对结果中挑选出不完全匹配基因后,分别比对到基因组多个位置的转录本,作为融合基因位点;
步骤七,LncRNA预测步骤:
使用CPC进行LncRNA预测,具体是:
从SQUANTI2结果中挑选出Genic、intergenic、antisense的转录本;
使用CPC对挑选出来的转录本进行编码潜能预测,识别潜在的lncRNA序列;
步骤八,可变剪切分析步骤:
使用SpliceGrapher软件进行分析可变剪切分析;
步骤九,可变多聚腺苷酸化分析步骤:
使用TAPIS进行可变多聚腺苷酸化分析。
在本发明的一个优选实施例中,所述步骤三的比较为根据转录本与参考基因注释的重叠、链方向是否一致、剪切模式是否相同及是否覆盖多个基因区域,将合并后的转录本分成FSM、ISM、NIC、NNC、Genic、intergenic、antisense七种类型。
在本发明的一个优选实施例中,所述步骤六的不完全匹配是指转录本不能完整匹配基因,但是可以分段匹配到基因组不同的位置。
在本发明的一个优选实施例中,所述步骤七的编码潜能预测具体为CPC首先预测转录本的开放阅读框,将预测到的开放阅读框对于的编码序列与Uniprot进行同源性比对,根据比对结果建立模型,对转录本进行编码潜能打分,把分值低于0的作为预测到的潜在lncRNA序列。
在本发明的一个优选实施例中,所述步骤八的可变剪切分析具体是SpliceGrapher将同一个基因的转录本进行两两比较,根据外显子剪切位点的不同,识别Intron Retention、Skipped Exon、Alt.5’、Alt.3’四种类型的可变剪切。
在本发明的一个优选实施例中,所述步骤九的可变多聚腺苷酸化分析具体是:TAPIS根据输入的全长非嵌合序列,调用gmap比对基因组,根据序列比对的位置,对转录本的终止位点进行识别,对于距离小于5bp的终止位点进行合并,选择reads数大于等于2的作为识别到的APA位点。
本发明的有益效果在于:
本发明的运行速度更快,且与常用的matchannot软件相比对转录本的注释更加精细,更加便于分析转录本的类型。
附图说明
图1为本发明的pacbio CCS示意图。
图2为本发明的CCS序列类型分布示意图。
图3为本发明的不同类型的转录本序列长度分布示意图。
图4为本发明的转录本在不同的数据库中注释数目分布图。
图5为本发明的基因的转录本可变剪切可视化图。
图6为本发明的FLNC终止位点在基因组上分布图。
具体实施方式
一种适用于Sequel测序平台的三代全长转录组分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用pacbio官方的isoseq3流程对原始数据进行处理:
使用ccs程序对下机的subreads进行处理,得到每个零模波导孔的一致性序列CCS,具体如图1所示,pacbio CCS(一致性序列)精确性值分布,主要分布在0.99左右,说明测序结果经过处理后质量非常高;
使用lima程序对一致性序列进行接头识别,得到全长序列FL,具体如图2所示,图中full length non chimeric with PolyA(全长非嵌合、含有PolyA)的序列占绝大部分,说结果中的有效序列比对较高;
使用isoseq3 refine程序对全长序列进行嵌合去除和polyA识别,得到全长非嵌合序列FLNC;
使用isoseq3 cluster对全长非嵌合序列进行聚类,得到去冗余的高质量转录本HQ isoform,具体参见图4,转录本在不同的数据库中注释数目分布图,可以看到在五种数据库中注释到信息的转录本比例较高,方便鉴别转录本的功能;
步骤二,测序数据比对步骤:
使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余:
首先从基因组数据库中下载对应物种的参考基因组;
将高质量序列比对到参考基因组上;
根据转录本在基因组上的剪切模式,将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并,作为样品识别到的转录本;
步骤三,转录本注释步骤:
使用SQUANTI2将合并后的转录本与参考转录本注释进行比较,具体为:
将两种转录本的位置和剪切模式进行比较(根据转录本与参考基因注释的重叠、链方向是否一致、剪切模式是否相同及是否覆盖多个基因区域),将合并后的转录本分成FSM、ISM、NIC、NNC、Genic、intergenic、antisense七种类型;
步骤四,ORF预测步骤:
使用Transdecoder软件对转录本进行ORF预测,具体是:
使用TransDecoder.LongOrfs识别转录本序列中的长度大于300的ORF结构,具体如图3所示,图中不同类型的转录本序列长度分布,可以看出长度大部分在1k以上,说明能检测到更多的长序列;
对识别的ORF进行Swissprot同源序列比对和Pfam结构域预测,作为ORF结果可信度的一个判断依据;
使用TransDecoder.Predict对ORF进行检验,每个转录本保留最优的ORF结果,得到相应的CDS和蛋白质序列;
步骤五,转录本功能注释步骤:
对预测得到的转录本蛋白质序列进行功能分析,具体是:
使用diamond软件将转录本比对NR数据库,获得同源蛋白信息;
使用blast2go软件,根据NR注释结果,提取GO注释;
使用diamond软件将转录本比对到KEGG数据库,然后使用kobas预测转录本的KEGG编号;
使用diamond软件将转录本比对到eggNOG数据库,获得转录本的直系同源信息;
使用diamond软件将转录本比对到SwissPort数据库,获得转录本的SwissProt同源蛋白信息;
步骤六,融合基因分析步骤:
用cDNA_Cupcake软件包进行融合基因分析:
从转录本与基因组比对结果中挑选出不完全匹配(不完全匹配指的是转录本不能完整匹配基因,但是可以分段匹配到基因组不同的位置)、分别比对到基因组多个位置的转录本,作为融合基因位点;
步骤七,LncRNA预测步骤:
使用CPC进行LncRNA预测,具体是:
从SQUANTI2结果中挑选出Genic、intergenic、antisense的转录本;
使用CPC对挑选出来的转录本进行编码潜能预测(CPC首先预测转录本的开放阅读框,将预测到的开放阅读框对于的编码序列与Uniprot进行同源性比对,根据比对结果建立模型,对转录本进行编码潜能打分,把分值低于O的作为预测到的潜在lncRNA),识别潜在的lncRNA序列;
步骤八,可变剪切分析步骤:
使用SpliceGrapher软件进行分析可变剪切分析(SpliceGrapher将同一个基因的转录本进行两两比较,根据外显子剪切位点的不同,识别Intron Retention、SkippedExon、Alt.5’、Alt.3’四种类型的可变剪切),输出的图如图5所示,基因的转录本可变剪切可视化图,便于直观的分析转录本剪切方式和位置;
步骤九,可变多聚腺苷酸化分析步骤:
使用TAPIS进行可变多聚腺苷酸化分析(TAPIS根据输入的全长非嵌合序列,调用gmap比对基因组,根据序列比对的位置,对转录本的终止位点进行识别,对于距离小于5bp的终止位点进行合并,选择reads数大于等于2的作为识别到的APA位点,如图6所示,FLNC终止位点在基因组上分布,可以看到基因有很多的终止位点,说明基因有多样的APA位点。
Claims (6)
1.一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,包括如下步骤:
步骤一,测序数据过滤步骤:
使用pacbio官方的isoseq3流程对原始数据进行处理:
使用ccs程序对下机的subreads进行处理,得到每个零模波导孔的一致性序列CCS;
使用lima程序对一致性序列进行接头识别,得到全长序列FL;
使用isoseq3 refine程序对全长序列进行嵌合去除和polyA识别,得到全长非嵌合序列FLNC;
使用isoseq3 cluster对全长非嵌合序列进行聚类,得到去冗余的高质量转录本HQisoform;
步骤二,测序数据比对步骤:
使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余:
首先从基因组数据库中下载对应物种的参考基因组;
将高质量序列比对到参考基因组上;
根据转录本在基因组上的剪切模式,将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并,作为样品识别到的转录本;
步骤三,转录本注释步骤:
使用SQUANTI2将合并后的转录本与参考转录本注释进行比较,具体为:
将两种转录本的位置和剪切模式进行比较;
步骤四,ORF预测步骤:
使用Transdecoder软件对转录本进行ORF预测,具体是:
使用TransDecoder.LongOrfs识别转录本序列中的长度大于300的ORF结构;
对识别的ORF进行Swissprot同源序列比对和Pfam结构域预测,作为ORF结果可信度的一个判断依据;
使用TransDecoder.Predict对ORF进行检验,每个转录本保留最优的ORF结果,得到相应的CDS和蛋白质序列;
步骤五,转录本功能注释步骤:
对预测得到的转录本蛋白质序列进行功能分析,具体是:
使用diamond软件将转录本比对NR数据库,获得同源蛋白信息;
使用blast2go软件,根据NR注释结果,提取GO注释;
使用diamond软件将转录本比对到KEGG数据库,然后使用kobas预测转录本的KEGG编号;
使用diamond软件将转录本比对到eggNOG数据库,获得转录本的直系同源信息;
使用diamond软件将转录本比对到SwissPort数据库,获得转录本的SwissProt同源蛋白信息;
步骤六,融合基因分析步骤:
用cDNA_Cupcake软件包进行融合基因分析:
从转录本与基因组比对结果中挑选出不完全匹配基因后,分别比对到基因组多个位置的转录本,作为融合基因位点;
步骤七,LncRNA预测步骤:
使用CPC进行LncRNA预测,具体是:
从SQUANTI2结果中挑选出Genic、intergenic、antisense的转录本;
使用CPC对挑选出来的转录本进行编码潜能预测,识别潜在的lncRNA序列;
步骤八,可变剪切分析步骤:
使用SpliceGrapher软件进行分析可变剪切分析;
步骤九,可变多聚腺苷酸化分析步骤:
使用TAPIS进行可变多聚腺苷酸化分析。
2.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤三的比较为根据转录本与参考基因注释的重叠、链方向是否一致、剪切模式是否相同及是否覆盖多个基因区域,将合并后的转录本分成FSM、ISM、NIC、NNC、Genic、intergenic、antisense七种类型。
3.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤六的不完全匹配是指转录本不能完整匹配基因,但是可以分段匹配到基因组不同的位置。
4.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤七的编码潜能预测具体为CPC首先预测转录本的开放阅读框,将预测到的开放阅读框对于的编码序列与Uniprot进行同源性比对,根据比对结果建立模型,对转录本进行编码潜能打分,把分值低于0的作为预测到的潜在lncRNA序列。
5.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤八的可变剪切分析具体是SpliceGrapher将同一个基因的转录本进行两两比较,根据外显子剪切位点的不同,识别Intron Retention、Skipped Exon、Alt.5’、Alt.3’四种类型的可变剪切。
6.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤九的可变多聚腺苷酸化分析具体是:TAPIS根据输入的全长非嵌合序列,调用gmap比对基因组,根据序列比对的位置,对转录本的终止位点进行识别,对于距离小于5bp的终止位点进行合并,选择reads数大于等于2的作为识别到的APA位点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010823703.XA CN112086128B (zh) | 2020-08-14 | 2020-08-14 | 一种适用于Sequel测序的三代全长转录组测序结果分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010823703.XA CN112086128B (zh) | 2020-08-14 | 2020-08-14 | 一种适用于Sequel测序的三代全长转录组测序结果分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112086128A true CN112086128A (zh) | 2020-12-15 |
CN112086128B CN112086128B (zh) | 2024-05-10 |
Family
ID=73729755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010823703.XA Active CN112086128B (zh) | 2020-08-14 | 2020-08-14 | 一种适用于Sequel测序的三代全长转录组测序结果分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112086128B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627967A (zh) * | 2022-03-15 | 2022-06-14 | 北京基石生命科技有限公司 | 一种精确注释三代全长转录本的方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020064792A1 (en) * | 1997-11-13 | 2002-05-30 | Lincoln Stephen E. | Database for storage and analysis of full-length sequences |
US20040106566A1 (en) * | 2002-05-17 | 2004-06-03 | Shi-Lung Lin | RNA-splicing and processing-directed gene silencing and the relative applications thereof |
CN105389481A (zh) * | 2015-12-22 | 2016-03-09 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
CN106650254A (zh) * | 2016-12-16 | 2017-05-10 | 武汉菲沙基因信息有限公司 | 一种基于转录组测序数据检测融合基因的方法 |
US20180157787A1 (en) * | 2016-10-19 | 2018-06-07 | Pacific Biosciences Of California, Inc. | Coding genome reconstruction from transcript sequences |
CN110055317A (zh) * | 2019-04-29 | 2019-07-26 | 中国农业科学院作物科学研究所 | 小麦远缘杂交后代小片段易位系中发掘外源功能候选基因的方法 |
US20190311785A1 (en) * | 2013-03-15 | 2019-10-10 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
US20190318807A1 (en) * | 2016-10-26 | 2019-10-17 | The Joan & Irwin Jacobs Technion-Cornell Institute | Systems and methods for ultra-fast identification and abundance estimates of microorganisms using a kmer-depth based approach and privacy-preserving protocols |
CN111161797A (zh) * | 2019-12-31 | 2020-05-15 | 北京百迈客生物科技有限公司 | 一种基于三代测序检测多样本量比较转录组分析方法 |
CN111269909A (zh) * | 2018-12-04 | 2020-06-12 | 深圳华大基因科技服务有限公司 | 一种转录组建库的方法、试剂和应用 |
CN111312331A (zh) * | 2020-03-27 | 2020-06-19 | 武汉古奥基因科技有限公司 | 一种利用二代和三代转录组测序数据的基因组注释方法 |
CN111424069A (zh) * | 2020-04-21 | 2020-07-17 | 中国水产科学研究院 | 适用于三代测序技术检测人长链非编码rna的样品处理方法 |
CN111445947A (zh) * | 2020-03-27 | 2020-07-24 | 武汉古奥基因科技有限公司 | 利用三代全长转录组的高原多倍体鱼类基因组注释方法 |
-
2020
- 2020-08-14 CN CN202010823703.XA patent/CN112086128B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020064792A1 (en) * | 1997-11-13 | 2002-05-30 | Lincoln Stephen E. | Database for storage and analysis of full-length sequences |
US20040106566A1 (en) * | 2002-05-17 | 2004-06-03 | Shi-Lung Lin | RNA-splicing and processing-directed gene silencing and the relative applications thereof |
US20190311785A1 (en) * | 2013-03-15 | 2019-10-10 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
CN105389481A (zh) * | 2015-12-22 | 2016-03-09 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
US20180157787A1 (en) * | 2016-10-19 | 2018-06-07 | Pacific Biosciences Of California, Inc. | Coding genome reconstruction from transcript sequences |
US20190318807A1 (en) * | 2016-10-26 | 2019-10-17 | The Joan & Irwin Jacobs Technion-Cornell Institute | Systems and methods for ultra-fast identification and abundance estimates of microorganisms using a kmer-depth based approach and privacy-preserving protocols |
CN106650254A (zh) * | 2016-12-16 | 2017-05-10 | 武汉菲沙基因信息有限公司 | 一种基于转录组测序数据检测融合基因的方法 |
CN111269909A (zh) * | 2018-12-04 | 2020-06-12 | 深圳华大基因科技服务有限公司 | 一种转录组建库的方法、试剂和应用 |
CN110055317A (zh) * | 2019-04-29 | 2019-07-26 | 中国农业科学院作物科学研究所 | 小麦远缘杂交后代小片段易位系中发掘外源功能候选基因的方法 |
CN111161797A (zh) * | 2019-12-31 | 2020-05-15 | 北京百迈客生物科技有限公司 | 一种基于三代测序检测多样本量比较转录组分析方法 |
CN111312331A (zh) * | 2020-03-27 | 2020-06-19 | 武汉古奥基因科技有限公司 | 一种利用二代和三代转录组测序数据的基因组注释方法 |
CN111445947A (zh) * | 2020-03-27 | 2020-07-24 | 武汉古奥基因科技有限公司 | 利用三代全长转录组的高原多倍体鱼类基因组注释方法 |
CN111424069A (zh) * | 2020-04-21 | 2020-07-17 | 中国水产科学研究院 | 适用于三代测序技术检测人长链非编码rna的样品处理方法 |
Non-Patent Citations (3)
Title |
---|
TMOBACZ DORA等: "Transcriptome-wide survey of pseudorabies virus using next and third-generation sequencing platforms", SCIENTIFIC DATA, pages 1 - 13 * |
夏丽飞 等: "基于PacBio 平台的紫娟茶树全长转录组分析", 基因组学与应用生物学, vol. 39, no. 6, pages 2646 - 2658 * |
张宁;尹美强;谭青青;温银元;王玉国;王金荣;: "苦参转录组SSR位点及基因功能注释分析", 江苏农业科学, no. 07, pages 49 - 52 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627967A (zh) * | 2022-03-15 | 2022-06-14 | 北京基石生命科技有限公司 | 一种精确注释三代全长转录本的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112086128B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210217490A1 (en) | Method, computer-accessible medium and system for base-calling and alignment | |
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
Kan et al. | Gene structure prediction and alternative splicing analysis using genomically aligned ESTs | |
CN104762402B (zh) | 超快速检测人类基因组单碱基突变和微插入缺失的方法 | |
US8428882B2 (en) | Method of processing and/or genome mapping of diTag sequences | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
WO2017143585A1 (zh) | 对分隔长片段序列进行组装的方法和装置 | |
US20130317755A1 (en) | Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly | |
CN110692101A (zh) | 用于比对靶向的核酸测序数据的方法 | |
CN109994154A (zh) | 一种单基因隐性遗传疾病候选致病基因的筛选装置 | |
CN114743594A (zh) | 一种用于结构变异检测的方法、装置和存储介质 | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
KR20220076444A (ko) | 유전체 서열 내의 변이 후보를 분류하는 방법 및 장치 | |
CN112086128B (zh) | 一种适用于Sequel测序的三代全长转录组测序结果分析方法 | |
CN110648722A (zh) | 新生儿遗传病患病风险评估的装置 | |
Forsberg et al. | CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data | |
CN111785319B (zh) | 基于差异表达数据的药物重定位方法 | |
JP2014530629A5 (zh) | ||
Cristiano et al. | On the identification of long non-coding rnas from RNA-Seq | |
Kan et al. | UTR reconstruction and analysis using genomically aligned EST sequences. | |
EP4025706A1 (en) | Methods of analyzing genetic variants based on genetic material | |
CN113528631B (zh) | 一种ngs测序中样本质量预测方法及系统 | |
KR102404947B1 (ko) | 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치 | |
KR102030055B1 (ko) | 바이러스별 특이적 단백질 서열 추출 방법 | |
Bhuiyan | Prioritizing genes with functionally distinct splice isoforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |