CN112086128A - 一种适用于Sequel测序的三代全长转录组测序结果分析方法 - Google Patents

一种适用于Sequel测序的三代全长转录组测序结果分析方法 Download PDF

Info

Publication number
CN112086128A
CN112086128A CN202010823703.XA CN202010823703A CN112086128A CN 112086128 A CN112086128 A CN 112086128A CN 202010823703 A CN202010823703 A CN 202010823703A CN 112086128 A CN112086128 A CN 112086128A
Authority
CN
China
Prior art keywords
transcripts
transcript
sequence
analysis
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010823703.XA
Other languages
English (en)
Other versions
CN112086128B (zh
Inventor
沈立
姜丽荣
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Personal Gene Technology Co ltd
Original Assignee
Nanjing Personal Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Personal Gene Technology Co ltd filed Critical Nanjing Personal Gene Technology Co ltd
Priority to CN202010823703.XA priority Critical patent/CN112086128B/zh
Publication of CN112086128A publication Critical patent/CN112086128A/zh
Application granted granted Critical
Publication of CN112086128B publication Critical patent/CN112086128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,包括如下步骤:步骤一,测序数据过滤步骤;步骤二,测序数据比对步骤;步骤三,转录本注释步骤;步骤四,ORF预测步骤;步骤五,转录本功能注释步骤;步骤六,融合基因分析步骤;步骤七,LncRNA预测步骤;步骤八,可变剪切分析步骤;步骤九,可变多聚腺苷酸化分析步骤。本发明的运行速度更快,且与常用的matchannot软件相比对转录本的注释更加精细,更加便于分析转录本的类型。

Description

一种适用于Sequel测序的三代全长转录组测序结果分析方法
技术领域
本发明涉及基因检测领域,具体涉及适用于Sequel测序平台的三代全长有参转录组分析方法。
背景技术
转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。真核生物的蛋白编码基因在3’末端有一段poly(A)尾,所以对于真核生物,提取总RNA后,可以用带有polyT的反转录引物,将RNA序列反转录成cDNA,再以cDNA为模板,制备全长cDNA文库,构建好的文库用Sequel测序仪进行测序。
测序后的数据需要进行生物信息学分析,获取样品的转录本结构信息,推断生物学意义。通常一个样品可以获得数百万个测序reads,之前的分析方法存在计算机资源消耗大、运行时间慢等缺点。同时,不断的出现新的分析方法和软件,现有的全长转录组分析流程需要优化和补充。
发明内容
为了克服现有技术的上述缺陷,本发明的目的在于提供一种适用于Sequel测序平台的三代全长转录组分析方法。
为了实现本发明的目的,所采用的技术方案是:
一种适用于Sequel测序平台的三代全长转录组分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用pacbio官方的isoseq3流程对原始数据进行处理:
使用ccs程序对下机的subreads进行处理,得到每个零模波导孔的一致性序列CCS;
使用lima程序对一致性序列进行接头识别,得到全长序列FL;
使用isoseq3 refine程序对全长序列进行嵌合去除和polyA识别,得到全长非嵌合序列FLNC;
使用isoseq3 cluster对全长非嵌合序列进行聚类,得到去冗余的高质量转录本HQ isoform;
步骤二,测序数据比对步骤:
使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余:
首先从基因组数据库中下载对应物种的参考基因组;
将高质量序列比对到参考基因组上;
根据转录本在基因组上的剪切模式,将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并,作为样品识别到的转录本;
步骤三,转录本注释步骤:
使用SQUANTI2将合并后的转录本与参考转录本注释进行比较,具体为:
将两种转录本的位置和剪切模式进行比较;
步骤四,ORF预测步骤:
使用Transdecoder软件对转录本进行ORF预测,具体是:
使用TransDecoder.LongOrfs识别转录本序列中的长度大于300的ORF结构;
对识别的ORF进行Swissprot同源序列比对和Pfam结构域预测,作为ORF结果可信度的一个判断依据;
使用TransDecoder.Predict对ORF进行检验,每个转录本保留最优的ORF结果,得到相应的CDS和蛋白质序列;
步骤五,转录本功能注释步骤:
对预测得到的转录本蛋白质序列进行功能分析,具体是:
使用diamond软件将转录本比对NR数据库,获得同源蛋白信息;
使用blast2go软件,根据NR注释结果,提取GO注释;
使用diamond软件将转录本比对到KEGG数据库,然后使用kobas预测转录本的KEGG编号;
使用diamond软件将转录本比对到eggNOG数据库,获得转录本的直系同源信息;
使用diamond软件将转录本比对到SwissPort数据库,获得转录本的SwissProt同源蛋白信息;
步骤六,融合基因分析步骤:
用cDNA_Cupcake软件包进行融合基因分析:
从转录本与基因组比对结果中挑选出不完全匹配基因后,分别比对到基因组多个位置的转录本,作为融合基因位点;
步骤七,LncRNA预测步骤:
使用CPC进行LncRNA预测,具体是:
从SQUANTI2结果中挑选出Genic、intergenic、antisense的转录本;
使用CPC对挑选出来的转录本进行编码潜能预测,识别潜在的lncRNA序列;
步骤八,可变剪切分析步骤:
使用SpliceGrapher软件进行分析可变剪切分析;
步骤九,可变多聚腺苷酸化分析步骤:
使用TAPIS进行可变多聚腺苷酸化分析。
在本发明的一个优选实施例中,所述步骤三的比较为根据转录本与参考基因注释的重叠、链方向是否一致、剪切模式是否相同及是否覆盖多个基因区域,将合并后的转录本分成FSM、ISM、NIC、NNC、Genic、intergenic、antisense七种类型。
在本发明的一个优选实施例中,所述步骤六的不完全匹配是指转录本不能完整匹配基因,但是可以分段匹配到基因组不同的位置。
在本发明的一个优选实施例中,所述步骤七的编码潜能预测具体为CPC首先预测转录本的开放阅读框,将预测到的开放阅读框对于的编码序列与Uniprot进行同源性比对,根据比对结果建立模型,对转录本进行编码潜能打分,把分值低于0的作为预测到的潜在lncRNA序列。
在本发明的一个优选实施例中,所述步骤八的可变剪切分析具体是SpliceGrapher将同一个基因的转录本进行两两比较,根据外显子剪切位点的不同,识别Intron Retention、Skipped Exon、Alt.5’、Alt.3’四种类型的可变剪切。
在本发明的一个优选实施例中,所述步骤九的可变多聚腺苷酸化分析具体是:TAPIS根据输入的全长非嵌合序列,调用gmap比对基因组,根据序列比对的位置,对转录本的终止位点进行识别,对于距离小于5bp的终止位点进行合并,选择reads数大于等于2的作为识别到的APA位点。
本发明的有益效果在于:
本发明的运行速度更快,且与常用的matchannot软件相比对转录本的注释更加精细,更加便于分析转录本的类型。
附图说明
图1为本发明的pacbio CCS示意图。
图2为本发明的CCS序列类型分布示意图。
图3为本发明的不同类型的转录本序列长度分布示意图。
图4为本发明的转录本在不同的数据库中注释数目分布图。
图5为本发明的基因的转录本可变剪切可视化图。
图6为本发明的FLNC终止位点在基因组上分布图。
具体实施方式
一种适用于Sequel测序平台的三代全长转录组分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用pacbio官方的isoseq3流程对原始数据进行处理:
使用ccs程序对下机的subreads进行处理,得到每个零模波导孔的一致性序列CCS,具体如图1所示,pacbio CCS(一致性序列)精确性值分布,主要分布在0.99左右,说明测序结果经过处理后质量非常高;
使用lima程序对一致性序列进行接头识别,得到全长序列FL,具体如图2所示,图中full length non chimeric with PolyA(全长非嵌合、含有PolyA)的序列占绝大部分,说结果中的有效序列比对较高;
使用isoseq3 refine程序对全长序列进行嵌合去除和polyA识别,得到全长非嵌合序列FLNC;
使用isoseq3 cluster对全长非嵌合序列进行聚类,得到去冗余的高质量转录本HQ isoform,具体参见图4,转录本在不同的数据库中注释数目分布图,可以看到在五种数据库中注释到信息的转录本比例较高,方便鉴别转录本的功能;
步骤二,测序数据比对步骤:
使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余:
首先从基因组数据库中下载对应物种的参考基因组;
将高质量序列比对到参考基因组上;
根据转录本在基因组上的剪切模式,将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并,作为样品识别到的转录本;
步骤三,转录本注释步骤:
使用SQUANTI2将合并后的转录本与参考转录本注释进行比较,具体为:
将两种转录本的位置和剪切模式进行比较(根据转录本与参考基因注释的重叠、链方向是否一致、剪切模式是否相同及是否覆盖多个基因区域),将合并后的转录本分成FSM、ISM、NIC、NNC、Genic、intergenic、antisense七种类型;
步骤四,ORF预测步骤:
使用Transdecoder软件对转录本进行ORF预测,具体是:
使用TransDecoder.LongOrfs识别转录本序列中的长度大于300的ORF结构,具体如图3所示,图中不同类型的转录本序列长度分布,可以看出长度大部分在1k以上,说明能检测到更多的长序列;
对识别的ORF进行Swissprot同源序列比对和Pfam结构域预测,作为ORF结果可信度的一个判断依据;
使用TransDecoder.Predict对ORF进行检验,每个转录本保留最优的ORF结果,得到相应的CDS和蛋白质序列;
步骤五,转录本功能注释步骤:
对预测得到的转录本蛋白质序列进行功能分析,具体是:
使用diamond软件将转录本比对NR数据库,获得同源蛋白信息;
使用blast2go软件,根据NR注释结果,提取GO注释;
使用diamond软件将转录本比对到KEGG数据库,然后使用kobas预测转录本的KEGG编号;
使用diamond软件将转录本比对到eggNOG数据库,获得转录本的直系同源信息;
使用diamond软件将转录本比对到SwissPort数据库,获得转录本的SwissProt同源蛋白信息;
步骤六,融合基因分析步骤:
用cDNA_Cupcake软件包进行融合基因分析:
从转录本与基因组比对结果中挑选出不完全匹配(不完全匹配指的是转录本不能完整匹配基因,但是可以分段匹配到基因组不同的位置)、分别比对到基因组多个位置的转录本,作为融合基因位点;
步骤七,LncRNA预测步骤:
使用CPC进行LncRNA预测,具体是:
从SQUANTI2结果中挑选出Genic、intergenic、antisense的转录本;
使用CPC对挑选出来的转录本进行编码潜能预测(CPC首先预测转录本的开放阅读框,将预测到的开放阅读框对于的编码序列与Uniprot进行同源性比对,根据比对结果建立模型,对转录本进行编码潜能打分,把分值低于O的作为预测到的潜在lncRNA),识别潜在的lncRNA序列;
步骤八,可变剪切分析步骤:
使用SpliceGrapher软件进行分析可变剪切分析(SpliceGrapher将同一个基因的转录本进行两两比较,根据外显子剪切位点的不同,识别Intron Retention、SkippedExon、Alt.5’、Alt.3’四种类型的可变剪切),输出的图如图5所示,基因的转录本可变剪切可视化图,便于直观的分析转录本剪切方式和位置;
步骤九,可变多聚腺苷酸化分析步骤:
使用TAPIS进行可变多聚腺苷酸化分析(TAPIS根据输入的全长非嵌合序列,调用gmap比对基因组,根据序列比对的位置,对转录本的终止位点进行识别,对于距离小于5bp的终止位点进行合并,选择reads数大于等于2的作为识别到的APA位点,如图6所示,FLNC终止位点在基因组上分布,可以看到基因有很多的终止位点,说明基因有多样的APA位点。

Claims (6)

1.一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,包括如下步骤:
步骤一,测序数据过滤步骤:
使用pacbio官方的isoseq3流程对原始数据进行处理:
使用ccs程序对下机的subreads进行处理,得到每个零模波导孔的一致性序列CCS;
使用lima程序对一致性序列进行接头识别,得到全长序列FL;
使用isoseq3 refine程序对全长序列进行嵌合去除和polyA识别,得到全长非嵌合序列FLNC;
使用isoseq3 cluster对全长非嵌合序列进行聚类,得到去冗余的高质量转录本HQisoform;
步骤二,测序数据比对步骤:
使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余:
首先从基因组数据库中下载对应物种的参考基因组;
将高质量序列比对到参考基因组上;
根据转录本在基因组上的剪切模式,将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并,作为样品识别到的转录本;
步骤三,转录本注释步骤:
使用SQUANTI2将合并后的转录本与参考转录本注释进行比较,具体为:
将两种转录本的位置和剪切模式进行比较;
步骤四,ORF预测步骤:
使用Transdecoder软件对转录本进行ORF预测,具体是:
使用TransDecoder.LongOrfs识别转录本序列中的长度大于300的ORF结构;
对识别的ORF进行Swissprot同源序列比对和Pfam结构域预测,作为ORF结果可信度的一个判断依据;
使用TransDecoder.Predict对ORF进行检验,每个转录本保留最优的ORF结果,得到相应的CDS和蛋白质序列;
步骤五,转录本功能注释步骤:
对预测得到的转录本蛋白质序列进行功能分析,具体是:
使用diamond软件将转录本比对NR数据库,获得同源蛋白信息;
使用blast2go软件,根据NR注释结果,提取GO注释;
使用diamond软件将转录本比对到KEGG数据库,然后使用kobas预测转录本的KEGG编号;
使用diamond软件将转录本比对到eggNOG数据库,获得转录本的直系同源信息;
使用diamond软件将转录本比对到SwissPort数据库,获得转录本的SwissProt同源蛋白信息;
步骤六,融合基因分析步骤:
用cDNA_Cupcake软件包进行融合基因分析:
从转录本与基因组比对结果中挑选出不完全匹配基因后,分别比对到基因组多个位置的转录本,作为融合基因位点;
步骤七,LncRNA预测步骤:
使用CPC进行LncRNA预测,具体是:
从SQUANTI2结果中挑选出Genic、intergenic、antisense的转录本;
使用CPC对挑选出来的转录本进行编码潜能预测,识别潜在的lncRNA序列;
步骤八,可变剪切分析步骤:
使用SpliceGrapher软件进行分析可变剪切分析;
步骤九,可变多聚腺苷酸化分析步骤:
使用TAPIS进行可变多聚腺苷酸化分析。
2.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤三的比较为根据转录本与参考基因注释的重叠、链方向是否一致、剪切模式是否相同及是否覆盖多个基因区域,将合并后的转录本分成FSM、ISM、NIC、NNC、Genic、intergenic、antisense七种类型。
3.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤六的不完全匹配是指转录本不能完整匹配基因,但是可以分段匹配到基因组不同的位置。
4.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤七的编码潜能预测具体为CPC首先预测转录本的开放阅读框,将预测到的开放阅读框对于的编码序列与Uniprot进行同源性比对,根据比对结果建立模型,对转录本进行编码潜能打分,把分值低于0的作为预测到的潜在lncRNA序列。
5.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤八的可变剪切分析具体是SpliceGrapher将同一个基因的转录本进行两两比较,根据外显子剪切位点的不同,识别Intron Retention、Skipped Exon、Alt.5’、Alt.3’四种类型的可变剪切。
6.如权利要求1所述的一种适用于Sequel测序平台的三代全长转录组分析方法,其特征在于,所述步骤九的可变多聚腺苷酸化分析具体是:TAPIS根据输入的全长非嵌合序列,调用gmap比对基因组,根据序列比对的位置,对转录本的终止位点进行识别,对于距离小于5bp的终止位点进行合并,选择reads数大于等于2的作为识别到的APA位点。
CN202010823703.XA 2020-08-14 2020-08-14 一种适用于Sequel测序的三代全长转录组测序结果分析方法 Active CN112086128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010823703.XA CN112086128B (zh) 2020-08-14 2020-08-14 一种适用于Sequel测序的三代全长转录组测序结果分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010823703.XA CN112086128B (zh) 2020-08-14 2020-08-14 一种适用于Sequel测序的三代全长转录组测序结果分析方法

Publications (2)

Publication Number Publication Date
CN112086128A true CN112086128A (zh) 2020-12-15
CN112086128B CN112086128B (zh) 2024-05-10

Family

ID=73729755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010823703.XA Active CN112086128B (zh) 2020-08-14 2020-08-14 一种适用于Sequel测序的三代全长转录组测序结果分析方法

Country Status (1)

Country Link
CN (1) CN112086128B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627967A (zh) * 2022-03-15 2022-06-14 北京基石生命科技有限公司 一种精确注释三代全长转录本的方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020064792A1 (en) * 1997-11-13 2002-05-30 Lincoln Stephen E. Database for storage and analysis of full-length sequences
US20040106566A1 (en) * 2002-05-17 2004-06-03 Shi-Lung Lin RNA-splicing and processing-directed gene silencing and the relative applications thereof
CN105389481A (zh) * 2015-12-22 2016-03-09 武汉菲沙基因信息有限公司 一种三代全长转录组中可变剪切体的检测方法
CN106650254A (zh) * 2016-12-16 2017-05-10 武汉菲沙基因信息有限公司 一种基于转录组测序数据检测融合基因的方法
US20180157787A1 (en) * 2016-10-19 2018-06-07 Pacific Biosciences Of California, Inc. Coding genome reconstruction from transcript sequences
CN110055317A (zh) * 2019-04-29 2019-07-26 中国农业科学院作物科学研究所 小麦远缘杂交后代小片段易位系中发掘外源功能候选基因的方法
US20190311785A1 (en) * 2013-03-15 2019-10-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US20190318807A1 (en) * 2016-10-26 2019-10-17 The Joan & Irwin Jacobs Technion-Cornell Institute Systems and methods for ultra-fast identification and abundance estimates of microorganisms using a kmer-depth based approach and privacy-preserving protocols
CN111161797A (zh) * 2019-12-31 2020-05-15 北京百迈客生物科技有限公司 一种基于三代测序检测多样本量比较转录组分析方法
CN111269909A (zh) * 2018-12-04 2020-06-12 深圳华大基因科技服务有限公司 一种转录组建库的方法、试剂和应用
CN111312331A (zh) * 2020-03-27 2020-06-19 武汉古奥基因科技有限公司 一种利用二代和三代转录组测序数据的基因组注释方法
CN111424069A (zh) * 2020-04-21 2020-07-17 中国水产科学研究院 适用于三代测序技术检测人长链非编码rna的样品处理方法
CN111445947A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用三代全长转录组的高原多倍体鱼类基因组注释方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020064792A1 (en) * 1997-11-13 2002-05-30 Lincoln Stephen E. Database for storage and analysis of full-length sequences
US20040106566A1 (en) * 2002-05-17 2004-06-03 Shi-Lung Lin RNA-splicing and processing-directed gene silencing and the relative applications thereof
US20190311785A1 (en) * 2013-03-15 2019-10-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN105389481A (zh) * 2015-12-22 2016-03-09 武汉菲沙基因信息有限公司 一种三代全长转录组中可变剪切体的检测方法
US20180157787A1 (en) * 2016-10-19 2018-06-07 Pacific Biosciences Of California, Inc. Coding genome reconstruction from transcript sequences
US20190318807A1 (en) * 2016-10-26 2019-10-17 The Joan & Irwin Jacobs Technion-Cornell Institute Systems and methods for ultra-fast identification and abundance estimates of microorganisms using a kmer-depth based approach and privacy-preserving protocols
CN106650254A (zh) * 2016-12-16 2017-05-10 武汉菲沙基因信息有限公司 一种基于转录组测序数据检测融合基因的方法
CN111269909A (zh) * 2018-12-04 2020-06-12 深圳华大基因科技服务有限公司 一种转录组建库的方法、试剂和应用
CN110055317A (zh) * 2019-04-29 2019-07-26 中国农业科学院作物科学研究所 小麦远缘杂交后代小片段易位系中发掘外源功能候选基因的方法
CN111161797A (zh) * 2019-12-31 2020-05-15 北京百迈客生物科技有限公司 一种基于三代测序检测多样本量比较转录组分析方法
CN111312331A (zh) * 2020-03-27 2020-06-19 武汉古奥基因科技有限公司 一种利用二代和三代转录组测序数据的基因组注释方法
CN111445947A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用三代全长转录组的高原多倍体鱼类基因组注释方法
CN111424069A (zh) * 2020-04-21 2020-07-17 中国水产科学研究院 适用于三代测序技术检测人长链非编码rna的样品处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TMOBACZ DORA等: "Transcriptome-wide survey of pseudorabies virus using next and third-generation sequencing platforms", SCIENTIFIC DATA, pages 1 - 13 *
夏丽飞 等: "基于PacBio 平台的紫娟茶树全长转录组分析", 基因组学与应用生物学, vol. 39, no. 6, pages 2646 - 2658 *
张宁;尹美强;谭青青;温银元;王玉国;王金荣;: "苦参转录组SSR位点及基因功能注释分析", 江苏农业科学, no. 07, pages 49 - 52 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627967A (zh) * 2022-03-15 2022-06-14 北京基石生命科技有限公司 一种精确注释三代全长转录本的方法

Also Published As

Publication number Publication date
CN112086128B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
US20210217490A1 (en) Method, computer-accessible medium and system for base-calling and alignment
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
Kan et al. Gene structure prediction and alternative splicing analysis using genomically aligned ESTs
CN104762402B (zh) 超快速检测人类基因组单碱基突变和微插入缺失的方法
US8428882B2 (en) Method of processing and/or genome mapping of diTag sequences
CN109767810B (zh) 高通量测序数据分析方法及装置
WO2017143585A1 (zh) 对分隔长片段序列进行组装的方法和装置
US20130317755A1 (en) Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
CN109994154A (zh) 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN114743594A (zh) 一种用于结构变异检测的方法、装置和存储介质
CN111180013B (zh) 检测血液病融合基因的装置
KR20220076444A (ko) 유전체 서열 내의 변이 후보를 분류하는 방법 및 장치
CN112086128B (zh) 一种适用于Sequel测序的三代全长转录组测序结果分析方法
CN110648722A (zh) 新生儿遗传病患病风险评估的装置
Forsberg et al. CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data
CN111785319B (zh) 基于差异表达数据的药物重定位方法
JP2014530629A5 (zh)
Cristiano et al. On the identification of long non-coding rnas from RNA-Seq
Kan et al. UTR reconstruction and analysis using genomically aligned EST sequences.
EP4025706A1 (en) Methods of analyzing genetic variants based on genetic material
CN113528631B (zh) 一种ngs测序中样本质量预测方法及系统
KR102404947B1 (ko) 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
KR102030055B1 (ko) 바이러스별 특이적 단백질 서열 추출 방법
Bhuiyan Prioritizing genes with functionally distinct splice isoforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant