CN111312331B - 一种利用二代和三代转录组测序数据的基因组注释方法 - Google Patents
一种利用二代和三代转录组测序数据的基因组注释方法 Download PDFInfo
- Publication number
- CN111312331B CN111312331B CN202010226474.3A CN202010226474A CN111312331B CN 111312331 B CN111312331 B CN 111312331B CN 202010226474 A CN202010226474 A CN 202010226474A CN 111312331 B CN111312331 B CN 111312331B
- Authority
- CN
- China
- Prior art keywords
- generation
- genome
- transcriptome
- sequence
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Abstract
本发明涉及基因组注释技术领域,提供一种利用二代和三代转录组测序数据的基因组注释方法。本发明的方法包括下述步骤:步骤1:将三代全长转录组测序序列比对到目标基因组,得到各编码基因的初始结构信息;步骤2:将二代转录组测序短序列比对到目标基因组,从比对文件中提取内含子剪切位点信息;步骤3:结合各编码基因的初始结构信息和内含子剪切位点信息,获得各编码基因的最终结构信息。本发明既能充分利用三代转录组无须拼接即可得到全长转录本序列从而准确性高的优点,又能充分考虑二代转录组测序数据能够提供大量的内含子剪切位点证据的优点,大大提高了基因组注释的准确性和效率。
Description
技术领域
本发明涉及基因组注释技术领域,涉及一种真核生物全基因组编码基因结构的注释方法,特别是涉及一种利用二代和三代转录组测序数据的基因组注释方法。
背景技术
一般全基因组序列组装完毕之后,需要对其蛋白编码基因的结构进行预测。预测通常综合采用三种策略:从头预测、基于近缘物种的序列同源性进行预测以及基于转录组数据的预测。由于转录组是一个物种所表达基因的最直接的证据,因此基于转录组数据的预测结果被认为是最可信的,在整合所有策略的预测结果得到最终基因集的时候该策略所给的权重一般也是最高的。
基于转录组数据预测编码基因的方法中,比较有代表性的有PASA、tophat+cufflinks、hisat2+stringtie等。二代和三代转录组测序数据都可以作为PASA的输入。三代全长转录组因为无须组装即可得到转录本的全长序列,具有准确可靠的优点。通常三代数据可以直接输入给PASA,二代数据则需先用组装软件如Trinity组装后才能输入。而tophat+cufflinks和hisat2+stringtie则比较相似,都是基于二代测序的预测策略,前者可以将测序的短序列比对到基因组上,而后者可以将比对结果信息提取出来从而达到预测编码基因的目的。这两种策略的优点是能充分利用二代测序数据提供的信息,但不能直接利用三代测序数据。PASA的缺点则是不能充分利用二代测序数据所能提供的大量内含子位置信息,且速度较慢。
可见,现有的基因组注释方法各有优缺点,但都无法同时利用二代和三代测序的优点,对基因组预测的精度和效率都不够高。而且随着测序技术的进步,使得每个物种可以利用的二代和三代转录组数据越来越多,如何充分利用这些数据得到更为可靠的预测结果成为迫切需要解决的难题。
发明内容
针对现有技术存在的问题,本发明提供一种利用二代和三代转录组测序数据的基因组注释方法,能够同时利用二代和三代转录组测序数据的优点,大大提高基因组注释的准确性和效率。
本发明的技术方案为:
一种利用二代和三代转录组测序数据的基因组注释方法,其特征在于,包括下述步骤:
步骤1:将三代全长转录组测序序列比对到目标基因组,得到各编码基因的初始结构信息;
步骤2:将二代转录组测序短序列比对到目标基因组,从比对文件中提取内含子剪切位点信息;
步骤3:结合各编码基因的初始结构信息和内含子剪切位点信息,获得各编码基因的最终结构信息。
进一步的,所述步骤1包括下述步骤:
步骤1.1:预测三代全长转录组测序序列的蛋白编码序列:对三代全长转录组测序序列进行分析得到全长非嵌合序列,预测全长非嵌合序列可能的蛋白编码序列;
步骤1.2:将蛋白编码序列比对到目标基因组:将预测得到的所有蛋白编码序列比对到目标基因组,获得比对结果文件;
步骤1.3:提取外显子序列并重新比对回目标基因组:根据比对结果文件及基因组文件提取各外显子序列,将各外显子序列比对回目标基因组,得到各编码基因的初始结构信息。
本发明的有益效果为:
(1)本发明综合利用二代和三代转录组测序数据对基因组进行注释,既能充分利用三代转录组无须拼接即可得到全长转录本序列从而准确性高的优点,又能充分考虑二代转录组测序数据碱基水平的错误率很低同时通量很高从而比对回基因组能够提供大量的内含子剪切位点证据的优点,大大提高了基因组注释的准确性。
(2)本发明的大部分步骤都能并行进行,不需使用mysql数据库,可操作性强,大大提高了基因组注释的效率。
附图说明
图1为本发明的利用二代和三代转录组测序数据的基因组注释方法的原理图。
具体实施方式
下面将结合附图和具体实施方式,对本发明作进一步描述。
本实施例中,使用本发明的基因组注释方法对高原鱼类全基因组基因结构进行注释。如图1所示,本发明的利用二代和三代转录组测序数据的基因组注释方法,包括下述步骤:
步骤1:将三代全长转录组测序序列比对到目标基因组,得到各编码基因的初始结构信息,具体包括下述步骤:
步骤1.1:预测三代全长转录组测序序列的蛋白编码序列:对三代全长转录组测序序列进行分析得到全长非嵌合序列(FLNC),预测全长非嵌合序列可能的蛋白编码序列。
其中,使用TransDecoder预测全长FLNC的蛋白编码区域,具体步骤如下:
1)提取FLNC序列中最长的开放阅读框(ORF)
TransDecoder.LongOrfs-t target_transcripts.fasta
可以通过-m参数设置ORF的最小长度,一般ORF长度越小,假阳性率会越高,默认值是100。
2)通过Blast对Swissprot蛋白库搜索已知蛋白
blastp-query transdecoder_dir/longest_orfs.pep\
-db uniprot_sprot.fasta-max_target_seqs 1\
-outfmt 6-evalue 1e-5-num_threads 10>blastp.outfmt6
3)预测潜在的蛋白编码区域
TransDecoder.Predict-t target_transcripts.fasta--retain_blastp_hitsblastp.outfmt6
步骤1.2:将蛋白编码序列比对到目标基因组:将预测得到的所有蛋白编码序列比对到目标基因组,获得比对结果文件,具体为:
1)使用blat软件将预测的CDS序列比对到基因组,获得psl格式的比对结果文件
blat genome_seq.fasta CDS_seq.fasta test.psl
2)使用blat2gff(http://eugenes.org/gmod/tandy/blat2gff.pl)将psl格式的比对结果文件转换成gff格式
blat2gff test.psl test.gff
步骤1.3:提取外显子序列并重新比对回目标基因组:根据比对结果文件及基因组文件提取各外显子序列,将各外显子序列比对回目标基因组,得到各编码基因的初始结构信息,具体为:
1)使用GeMoMa根据gff格式的比对结果文件和基因组文件提取各外显子序列
java–jar GeMoMa-1.5.3.jar CLI Extractor a=test.gffg=genome_seq.fasta
生成cds-parts.fasta文件
2)对基因组序列建库
makeblastdb-dbtype nucl-in genome_seq.fasta-logfile formatdb.log
3)使用tblastn将各外显子序列比对到基因组
tblastn-outfmt"6std sallseqid score nident positive gaps ppos qframesframe qseq sseq qlen slen salltitles"–db genome_seq.fasta–out test.bla–evalue 1
步骤2:将二代转录组测序短序列比对到目标基因组,从比对文件中提取内含子剪切位点信息,具体为:
1)构建hisat2索引
hisat2-build genome_seq.fasta genome
2)利用hisat2索引将二代转录组测序短序列比对到基因组
Hisat2–x test-1reads1.fq-2reads2.fq|samtools view–bS>hisat2.bam
3)从比对结果中提取内含子剪切位点信息
java-jar GeMoMa-1.5.3.jar CLI ERE c=true s=FR_UNSTRANDED m=hisat2.bam
步骤3:结合各编码基因的初始结构信息和内含子剪切位点信息,获得各编码基因的最终结构信息,具体为:
java-jar GeMoMa-1.5.3.jar CLI GeMoMa t=test.bla tg=genome_seq.fastac=cds-parts.fasta i=introns.gff得到最终的结果文件predicted_annotation.gff
本发明充分利用了三代转录组无须拼接即可得到全长转录本序列从而准确性高的优点,又充分考虑了二代转录组测序数据提供的大量内含子剪切位点证据,大大提高了基因组注释的准确性。而且本发明的大部分步骤都能并行进行,不需使用mysql数据库,可操作性强,大大提高了基因组注释的效率。
显然,上述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。上述实施例仅用于解释本发明,并不构成对本发明保护范围的限定。基于上述实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等,均落在本发明要求的保护范围内。
Claims (1)
1.一种利用二代和三代转录组测序数据的基因组注释方法,其特征在于,包括下述步骤:
步骤1:将三代全长转录组测序序列比对到目标基因组,得到各编码基因的初始结构信息;
步骤2:将二代转录组测序短序列比对到目标基因组,从比对文件中提取内含子剪切位点信息;
步骤3:结合各编码基因的初始结构信息和内含子剪切位点信息,获得各编码基因的最终结构信息;
所述步骤1包括下述步骤:
步骤1.1:预测三代全长转录组测序序列的蛋白编码序列:对三代全长转录组测序序列进行分析得到全长非嵌合序列,预测全长非嵌合序列的蛋白编码序列;
步骤1.2:将蛋白编码序列比对到目标基因组:将预测得到的所有蛋白编码序列比对到目标基因组,获得比对结果文件;
步骤1.3:提取外显子序列并重新比对回目标基因组:根据比对结果文件及基因组文件提取各外显子序列,将各外显子序列比对回目标基因组,得到各编码基因的初始结构信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226474.3A CN111312331B (zh) | 2020-03-27 | 2020-03-27 | 一种利用二代和三代转录组测序数据的基因组注释方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226474.3A CN111312331B (zh) | 2020-03-27 | 2020-03-27 | 一种利用二代和三代转录组测序数据的基因组注释方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111312331A CN111312331A (zh) | 2020-06-19 |
CN111312331B true CN111312331B (zh) | 2022-05-24 |
Family
ID=71162402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010226474.3A Active CN111312331B (zh) | 2020-03-27 | 2020-03-27 | 一种利用二代和三代转录组测序数据的基因组注释方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312331B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397149B (zh) * | 2020-11-11 | 2023-06-09 | 天津现代创新中药科技有限公司 | 无参考基因组序列的转录组分析方法及系统 |
CN112687343A (zh) * | 2020-12-31 | 2021-04-20 | 杭州柏熠科技有限公司 | 基于纳米孔测序的广谱病原微生物及耐药分析系统 |
CN114627967A (zh) * | 2022-03-15 | 2022-06-14 | 北京基石生命科技有限公司 | 一种精确注释三代全长转录本的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984879A (zh) * | 2014-03-14 | 2014-08-13 | 中国科学院上海生命科学研究院 | 一种测定待测基因组区域表达水平的方法及系统 |
CN105389481A (zh) * | 2015-12-22 | 2016-03-09 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
CN106498070A (zh) * | 2016-11-17 | 2017-03-15 | 中国科学院华南植物园 | 一种基于基因组LoF位点筛查间接关联猕猴桃种性的方法 |
CN106650254A (zh) * | 2016-12-16 | 2017-05-10 | 武汉菲沙基因信息有限公司 | 一种基于转录组测序数据检测融合基因的方法 |
CN107180166A (zh) * | 2017-04-21 | 2017-09-19 | 北京希望组生物科技有限公司 | 一种基于三代测序的全基因组结构变异分析方法和系统 |
CN107784199A (zh) * | 2017-10-18 | 2018-03-09 | 中国科学院昆明植物研究所 | 一种基于总dna测序结果的细胞器基因组筛选方法 |
CN109295198A (zh) * | 2018-09-03 | 2019-02-01 | 安吉康尔(深圳)科技有限公司 | 用于检测遗传性疾病基因变异的方法、装置及终端设备 |
CN110136776A (zh) * | 2019-05-15 | 2019-08-16 | 深圳大学 | 一种从低质量核糖体印迹数据预测基因编码框的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108441576B (zh) * | 2018-04-24 | 2019-05-07 | 中国农业科学院作物科学研究所 | 大豆抗炸荚主效QTLqPD05及其定位方法和应用 |
-
2020
- 2020-03-27 CN CN202010226474.3A patent/CN111312331B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984879A (zh) * | 2014-03-14 | 2014-08-13 | 中国科学院上海生命科学研究院 | 一种测定待测基因组区域表达水平的方法及系统 |
CN105389481A (zh) * | 2015-12-22 | 2016-03-09 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
CN106498070A (zh) * | 2016-11-17 | 2017-03-15 | 中国科学院华南植物园 | 一种基于基因组LoF位点筛查间接关联猕猴桃种性的方法 |
CN106650254A (zh) * | 2016-12-16 | 2017-05-10 | 武汉菲沙基因信息有限公司 | 一种基于转录组测序数据检测融合基因的方法 |
CN107180166A (zh) * | 2017-04-21 | 2017-09-19 | 北京希望组生物科技有限公司 | 一种基于三代测序的全基因组结构变异分析方法和系统 |
CN107784199A (zh) * | 2017-10-18 | 2018-03-09 | 中国科学院昆明植物研究所 | 一种基于总dna测序结果的细胞器基因组筛选方法 |
CN109295198A (zh) * | 2018-09-03 | 2019-02-01 | 安吉康尔(深圳)科技有限公司 | 用于检测遗传性疾病基因变异的方法、装置及终端设备 |
CN110136776A (zh) * | 2019-05-15 | 2019-08-16 | 深圳大学 | 一种从低质量核糖体印迹数据预测基因编码框的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111312331A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111312331B (zh) | 一种利用二代和三代转录组测序数据的基因组注释方法 | |
US10777304B2 (en) | Compressing, storing and searching sequence data | |
Iseli et al. | ESTScan: a program for detecting, evaluating, and reconstructing potential coding regions in EST sequences. | |
EP2304649B1 (en) | Frame based video matching | |
Chou et al. | DNA sequence quality trimming and vector removal | |
JP6586514B2 (ja) | オーディオ処理の方法、装置及び端末 | |
CN109118420B (zh) | 水印识别模型建立及识别方法、装置、介质及电子设备 | |
CN104036187A (zh) | 计算机病毒类型确定方法及其系统 | |
US20150248430A1 (en) | Efficient encoding and storage and retrieval of genomic data | |
Gao et al. | Single-molecule real-time (SMRT) isoform sequencing (Iso-Seq) in plants: the status of the bioinformatics tools to unravel the transcriptome complexity | |
JP2022120024A (ja) | オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN112908410B (zh) | 一种基于snakemake流程的正选择基因的检测方法和系统 | |
CN111192632B (zh) | 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置 | |
Zhao et al. | Multitrans: an algorithm for path extraction through mixed integer linear programming for transcriptome assembly | |
KR20220060843A (ko) | 머신러닝과 시그니처 매칭을 결합한 문서형 악성코드 탐지 장치 및 방법 | |
CN113360957B (zh) | 一种主控为sm2246en的固态硬盘的密码提取方法 | |
US20140121986A1 (en) | System and method for aligning genome sequence | |
Nascimento et al. | A web-based bioinformatics interface applied to the GENOSOJA Project: Databases and pipelines | |
CN111445949A (zh) | 利用纳米孔测序数据的高原多倍体鱼类基因组注释方法 | |
CN104239748A (zh) | 考虑失配的碱基序列对准系统及方法 | |
CN111445947A (zh) | 利用三代全长转录组的高原多倍体鱼类基因组注释方法 | |
Yu et al. | Comprehensive evaluation of protein-coding sORFs prediction based on a random sequence strategy | |
Chen et al. | Seqoptics: A protein sequence clustering method | |
CN106997407B (zh) | 基于趋势拟合的风资源场景缩减方法 | |
Goel et al. | Boundary Exon Prediction in Human Sequences Using External Information Sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230406 Address after: No. 303, 3rd Floor, Building 9, Youyou Industrial Park, Yazhou Bay Science and Technology City, Yazhou District, Sanya City, Hainan Province, 572025 Patentee after: Sanya Boruiyuan Technology Co.,Ltd. Address before: 430070 floor 15, block B, incubation building, Wuhan University of technology, No. 122 Luoshi Road, Hongshan District, Wuhan City, Hubei Province Patentee before: WUHAN GOOAL GENE TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |