CN105389481B - 一种三代全长转录组中可变剪切体的检测方法 - Google Patents

一种三代全长转录组中可变剪切体的检测方法 Download PDF

Info

Publication number
CN105389481B
CN105389481B CN201510970066.8A CN201510970066A CN105389481B CN 105389481 B CN105389481 B CN 105389481B CN 201510970066 A CN201510970066 A CN 201510970066A CN 105389481 B CN105389481 B CN 105389481B
Authority
CN
China
Prior art keywords
sequence
generations
overall length
length transcript
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510970066.8A
Other languages
English (en)
Other versions
CN105389481A (zh
Inventor
刘红芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Feisha Genomics Medicine Co ltd
Original Assignee
Wuhan Frasergen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Frasergen Co Ltd filed Critical Wuhan Frasergen Co Ltd
Priority to CN201510970066.8A priority Critical patent/CN105389481B/zh
Publication of CN105389481A publication Critical patent/CN105389481A/zh
Application granted granted Critical
Publication of CN105389481B publication Critical patent/CN105389481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种三代全长转录组中可变剪切体的检测方法,包括对原始环状测试序列进行去接头合并,形成单分子转录本序列,并筛选出三代全长转录本序列;将三代全长转录本序列对比至参考基因组序列,筛选出与参考基因组序列的覆盖率和相似度均大于预设阈值的三代全长转录本序列;对筛选出的三代全长转录本序列进行剪切假阳性过滤以及DNA污染过滤;对过滤后的三代全长转录本序列进行基因注释以及可变剪切体注释。本发明中提及的三代测序技术所具有的超长读长足以覆盖绝大多数RNA,采用SMRT测序转录组不需组装就能够得到全长转录本序列,利用三代转录组测序能有效获取基因的剪切结构并且能够构建更加完善的基因模型注释。

Description

一种三代全长转录组中可变剪切体的检测方法
技术领域
本发明涉及基因检测技术领域,具体涉及一种三代全长转录组中可变剪切体的检测方法。
背景技术
目前已有的转录本与基因组比对软件GMAP(GMAP:一种序列比对软件)能够直接输出flnc(flnc:非嵌合型的全长转录本)的基因模型gff文件(gff:一种对碱基序列特征进行描述的数据格式),但是对比结果是针对每条序列的比对信息,若直接用此结果作为基因注释结果存在过多的假阳性及重复:1)整体上的覆盖度及比对率无法保证剪切位点的准确性,而三代测序获取的转录本中存在的错误大部分为缺失插入(indel),外显子边界附近的indel极易造成剪切位点的定位错误;2)由于基因的多次表达,许多序列会对应到同一基因模型,基因注释结果中存在大量冗余。
与参考基因组的注释结果比对并合并的软件Cufflinks能将两组注释结果进行比较,能找出相对于参考序列reference注释equal(表示与参考序列已经注释的基因一致的基因)、novel(表示与参考序列已经注释的基因比较后,发现为新基因)、contained(表示与参考序列中已经注释的基因相比,包含在已注释基因中,但是序列长度短于已经注释的基因)等的基因或者isoform(可变剪切体),contained中包含相对reference有5’或者3’缺失的基因结构,由于Isoseq(三代转录组测序的流程称作Isoseq)实验过程能保证3’的完整性,所以3’缺少外显子对应的也是个新的isoform(可变剪切体),而5’外显子缺失很可能为实验过程中的分解导致,因此contained部分中即存在novel的,也存在非全长的,而cuffdiff本身没有将其区分开。
发明内容
本发明所要解决的技术问题是提供一种三代全长转录组中可变剪切体的检测方法,能够克服现有技术中的缺点。
本发明解决上述技术问题的技术方案如下:
本发明提供了一种三代全长转录组中可变剪切体的检测方法,包括:
S1、采用SMRT流程对原始环状测试序列进行去接头合并,形成单分子转录本序列,并从所述单分子转录本序列中筛选出三代全长转录本序列;
S2、利用二代测序数据对筛选出的三代全长转录本序列进行纠错;
S3、将纠错后的三代全长转录本序列对比至参考基因组序列,筛选出与参考基因组序列对比的覆盖率和相似度均大于预设阈值的三代全长转录本序列;
S4、对筛选出的三代全长转录本序列进行剪切假阳性过滤以及DNA污染过滤;
S5、将过滤后的三代全长转录本序列进行基因注释以及可变剪切体注释。
本发明的有益效果为:三代测序的超长读长完全覆盖绝大多数RNA,采用SMRT测序技术对转录组进行测序不需要组装就能够得到全长转录组序列,利用三代转录组测序能有效获取基因的剪切结构并且能够构建更加完善的基因模型注释,对于基因剪切模式比较复杂的物种,三代转录测序优势更加突出;对三代全长转库本序列进行剪切假阳性过滤以及DNA污染过滤,完善基因模型注释,提高基因模型的可信度,得到精准的基因模型。
在上述技术方案的基础上,还可以作如下改进。
进一步的,所述预设阈值为90%。
进一步的,所述步骤S4中对筛选出的三代全长转录本序列进行剪切假阳性过滤具体包括:
解析三代全长转录本序列中cDNA序列的方向,将cDNA序列中为反向方向或者无法确定序列方向的多外显子转录本序列筛除;
从未被筛除的多外显子转录本序列中筛选出内含子为GT-AG结构的序列,当多外显子转录本序列的内含子不为GT-AG结构,且不被二代测序数据支持时,筛除该多外显子转录本序列。
所述进一步的有益效果为:通过多种方式对多外显子转录本序列进行假阳性过滤,使得到的序列数据可靠性更高。
进一步的,所述步骤S4中对筛选出的三代全长转录本序列进行DNA污染过滤具体包括:
挑选出未被基因注释的单外显子比对序列,判断所述单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的A或者T,若有,则对该单外显子比对序列进行DNA污染过滤。
所述进一步的有益效果为:对三代全长转录本序列进行DNA污染过滤,进一步的提高序列数据的精度。
进一步的,所述判断单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的A或者T具体包括:
以单外显子比对序列在参考基因组序列上匹配的起始位点为中心分别取其上下游各30bp,共60bp,以及以单外显子比对序列在参考基因组序列上匹配的终止位点为中心分别取其上下游各30bp,共60bp;
以15bp为kmer大小,将起始位点对应的60bp以及终止位点对应的60bp划分为92个kmer;
统计每个kmer中的碱基T或者碱基A的数目,并筛选出所有kmer中碱基T或者碱基A的最多数目m,定义m/15为该单外显子比对序列的A/T丰度;
若单外显子比对序列的A/T丰度达到80%,则判定单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的碱基A或者碱基T,否则,没有富集的碱基A或碱基T。
进一步的,所述步骤S5之后还包括:
S6、根据三代全长转录本序列的基因注释以及可变剪切体注释,将单外显子序列重叠或者多外显子序列所有剪切位点一致的三代全长转录本序列认定为同一基因模型;
S7、对同一基因模型进行去冗余及假阳性过滤。
进一步的,所述步骤S7具体包括:
判断同一基因模型是否存在5’端缺失,若是,则将该三代全长转录本序列筛除;
若基因模型中只有一条smart序列,且该序列的所有内含子不被二代测序数据支持,则将该条序列筛除;
同一基因模型保留最长的一条三代全长转录本序列。
所述进一步的有益效果为:对同一基因模型进一步去冗余及假阳性过滤,去除基因注释结果中存在的大量冗余。
所述步骤S7之后还包括:
将去冗余及假阳性过滤后的三代全长转录本序列与参考基因组序列的已注释基因位点重叠度达到20%的序列认定为同一基因下的转录本序列;
将三代全长转录本序列与参考基因组序列的已注释基因位点的重叠度小于20%的序列认定为新基因序列;
将三代全长转录本序列与参考基因组序列的已注释基因位点的重叠度大于20%,但基因方向不一致的序列认定为新基因序列;
将三代全长转录本序列与参考基因组序列的已注释基因位点相比,出现3’剪切位点发生改变或者出现新的内含子或者出现新的外显子的序列认定为新同源异构体序列。
进一步的,将新基因序列以及新同源异构体序列添加到参考基因组序列中,以完善基因模型注释。
附图说明
图1为本发明实施例1的一种三代全长转录组中可变剪切体的检测方法流程图;
图2为实施例1的整个检测过程流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1、一种三代全长转录组中可变剪切体的检测方法。以下结合图1和图2对本实施例进行说明。
参见图1,S1、采用SMRT流程对原始环状测试序列进行去接头合并,形成单分子转录本序列,并从所述单分子转录本序列中筛选出三代全长转录本序列。
具体的,使用SMTR_Analysis IsoSeq流程,对原始环状测序序列进行去接头处理,并将去接头后的测序序列进行合并,形成高质量单分子转录本序列,并从单分子转录本序列中筛选出三代全长转录本序列。
S2、利用二代测序数据对筛选出的三代全长转录本序列进行纠错。
具体的,可参见图2,利用已有的二代测序数据对步骤S1中筛选出的三代全长转录本序列进行纠错,具体过程为:将三代全长转录本序列与以已有的二代测序数据进行比对,若存在基因位点不能匹配,则用二代测序数据中的基因位点数据代替三代全长转录本序列相应基因位点的数据,完成三代全长转录本序列的纠错处理。
S3、将纠错后的三代全长转录本序列对比至参考基因组序列,筛选出与参考基因组序列对比的覆盖率和相似度均大于预设阈值的三代全长转录本序列。
具体的,将步骤S2中进行纠错处理后的三代全长转录本序列与参考基因组序列进行比对,根据比对情况可以将三代全长转录本序列分为五种类型,分别为unmap(完全比对不到基因组的序列),split_mapping(序列两端分别比对到基因组不同的片段上),multiple_bestalign(序列在基因组上有比对效果完全相同的多处比对),low_pidalign(序列在基因组上有比对上的片段,但是覆盖度或者相似度低于90),high_pidalign(比对质量最好的序列结果),并筛选出类型为high_pidalign的序列。其中,将与参考基因组序列对比的覆盖率和相似度均大于预设阈值的三代全长转录本序列认定为high_pidalign类型。在本实施例中,预设阈值为90%。
S4、对筛选出的三代全长转录本序列进行剪切假阳性过滤以及DNA污染过滤。
对筛选出的三代全长转录本序列进行假阳性过滤的具体方法为:解析cDNA(cDNA为mRNA反转后得到的DNA序列)序列的方向,将cDNA序列中为反向方向或者无法确定序列方向的多外显子转录本序列筛除。另外,从未被筛除的多外显子转录本序列中筛选出内含子为GT-AG结构的序列,当序列的内含子不为GT-AG结构,而为其它的内含子结构且该内含子结构不被已有的二代测序数据支持时,筛除该多外显子转录本序列。
对筛选出的三代全长转录本序列进行DNA污染过滤的具体方法为:挑选出未被基因注释的单外显子比对序列,判断所述单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的碱基A或者碱基T,若有,则对该单外显子比对序列进行DNA污染过滤。其中,判断单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的碱基A或者碱基T具体包括:以单外显子比对序列在参考基因组序列上匹配的起始位点为中心分别取其上下游各30bp,共60bp,以及以单外显子比对序列在参考基因组序列上匹配的终止位点为中心分别取其上下游各30bp,共60bp;以15bp为kmer大小,将起始位点对应的60bp以及终止位点对应的60bp划分为92个kmer;
统计每个kmer中的碱基T或者碱基A的数目,并筛选出所有kmer中碱基T或者碱基A的最多数目m,定义m/15为该单外显子比对序列的A/T丰度;若单外显子比对序列的A/T丰度达到80%,则判定单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的碱基A或者碱基T,否则,没有富集的碱基A或碱基T。
S5、将过滤后的三代全长转录本序列进行基因注释以及可变剪切体注释。
具体的,对三代全长转录本序列进行假阳性过滤以及DNA污染过滤后,对过滤后的三代全长转录本序列进行基因注释以及可变剪切体注释,主要注释三代全长转录本序列的可剪切位点以及可变剪切体结构。
另外,根据三代全长转录本序列的基因注释以及可变剪切体注释,将单外显子序列重叠或者多外显子序列所有剪切位点一致的三代全长转录本序列认定为同一基因模型;对同一基因模型进行去冗余及假阳性过滤。具体去冗余及假阳性过滤的具体过程为:判断同一基因模型是否存在5’端缺失,若是,则将该三代全长转录本序列筛除;若基因模型中只有一条smart序列,且该序列的所有内含子不被二代测序数据支持,则将该条序列筛除;同一基因模型保留最长的一条三代全长转录本序列。
将去冗余及假阳性过滤后的三代全长转录本序列与参考基因组序列的已注释基因位点重叠度达到20%的序列认定为同一基因下的转录本序列;将三代全长转录本序列与参考基因组序列的已注释基因位点的重叠度小于20%的序列认定为新基因序列;将三代全长转录本序列与参考基因组序列的已注释基因位点的重叠度大于20%,但基因方向不一致的序列认定为新基因序列;将三代全长转录本序列与参考基因组序列的已注释基因位点相比,出现3’剪切位点发生改变或者出现新的内含子或者出现新的外显子的序列认定为新同源异构体序列。最后,将判断出来的新基因序列以及新同源异构体序列添加到参考基因组序列中,以完善基因模型注释。
下面以大豆混合组织测试为例,对本实施例提供的检测方法进一步进行说明。
对大豆混合组织测序,建立两个文库,0.6~2.5kb,>1.5kb(kb:一千个碱基序列),分别存储长度不同的两种待测三代全长转录组序列,采用PACBIO RSII(三代测序仪名称)分别测序16个cell和7个cell(cell指的是PacBio测序仪中上机的芯片),下机数据为h5格式二进制文件。使用SMRT analysis软件中的RS_Subreads,RS_ReadsofInsert和RS_Isoseq三个pipeline子流程对测序数据进行质控,了解测序数据产量精度及长度信息,并获取一致性单分子全长转录本序列FLNC,本实施例中,RS_Subreads设置参数为:minSubReadLength=100,readScore=0.75;RS_ReadsofInsert设置参数为:minFullPasses=1,minPredictedAccuracy=0,由于与参考基因组序列比对之后会进行比对质量筛选,这里对数据的精度没有要求。23个cell共获取548459条FLNC序列。获取三代全长转录本序列后,通过与参考基因组序列的比对获取每个三代全长转录本序列基因的剪切结构,完善reference annotation(参考基因注释信息),具体分析过程如下:
1、采用proovread软件对三代全长转录本序列纠错,获得更高精度的全长转录本序列。输入为二代fastq(一种碱基序列数据格式)及三代转录本fasta/fastq数据,选用untrimmed(指原始下机数据未经过后续处理)的输出结果进行后续分析(若没有二代数据,可忽略此步骤)。
2、采用软件GMAP将三代全长转录本序列比对至基因组,并对比对结果进行分类,使用perl脚本3.gmap2genome.pl实现,其中默认highquality比对参数为coverage>=90%,identity>=90%。输入包括query、reference(待测三代测序数据为query,参考基因组序列为reference)的fasta序列及已注释或二代比对获得的junction信息。
3、对多外显子序列进行剪切位点假阳性过滤,单外显子序列进行DNA污染过滤。
4、将过滤后的三代转录本序列进行基因注释及可变剪切体结构注释。实现方法为perl脚本4.splice_annv2.pl,实现对基因结构去假阳性及去冗余。
通过上述分析,我们共检测到35899个loci,其中32017为已注释的loci(基因),3882个新基因;共检测到64659个unique isoform(单一的可变剪切体),其中35687个为已注释的,28972个为新的。在101个基因检测到10个以上的isoform(可变剪切体)。
本发明提供的一种三代全长转录组可变剪切体的检测方法,三代测序的超长读长完全覆盖绝大多数RNA,采用SMRT测序技术对转录组进行测序不需要组装就能够得到全长转录组序列,利用三代转录组测序能有效获取基因的剪切结构并且能够构建更加完善的基因模型注释,对于基因剪切模式比较复杂的物种,三代转录测序优势更加突出;对三代全长转库本序列进行剪切假阳性过滤以及DNA污染过滤,完善基因模型注释,提高基因模型的可信度,得到精准的基因模型。在基因比对的基础上,进行剪切位点的假阳性过滤以及DNA污染过滤,对剪切位点信息进行一系列严格的筛选,完善基因模型注释,提高基因模型的可信度,得到精准的基因模型。
另外,在基因结构注释时,对同一基因模型进行去冗余和假阳性过滤,考虑FLNC序列中3’端完整,而5’端可能不完整的特征,对5’端缺失进行过滤,排除实验过程造成的序列的非全长性,提高基因模型的准确度。
在本说明书的描述中,参考术语“实施例一”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体方法、装置或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、方法、装置或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种三代全长转录组中可变剪切体的检测方法,其特征在于,包括:
S1、采用SMRT流程对原始环状测试序列进行去接头合并,形成单分子转录本序列,并从所述单分子转录本序列中筛选出三代全长转录本序列;
S2、利用二代测序数据对筛选出的三代全长转录本序列进行纠错;
S3、将纠错后的三代全长转录本序列对比至参考基因组序列,筛选出与参考基因组序列对比的覆盖率和相似度均大于预设阈值的三代全长转录本序列;
S4、对筛选出的三代全长转录本序列进行剪切假阳性过滤以及DNA污染过滤;
S5、将过滤后的三代全长转录本序列进行基因注释以及可变剪切体注释;
S6、根据三代全长转录本序列的基因注释以及可变剪切体注释,将单外显子序列重叠或者多外显子序列所有剪切位点一致的三代全长转录本序列认定为同一基因模型;
S7、对同一基因模型进行去冗余及假阳性过滤;
将去冗余及假阳性过滤后的三代全长转录本序列与参考基因组序列的已注释基因位点重叠度达到20%的序列认定为同一基因下的转录本序列;
将三代全长转录本序列与参考基因组序列的已注释基因位点的重叠度小于20%的序列认定为新基因序列;
将三代全长转录本序列与参考基因组序列的已注释基因位点的重叠度大于20%,但基因方向不一致的序列认定为新基因序列;
将三代全长转录本序列与参考基因组序列的已注释基因位点相比,出现3’剪切位点发生改变或者出现新的内含子或者出现新的外显子的序列认定为新同源异构体序列。
2.如权利要求1所述的三代全长转录组中可变剪切体的检测方法,其特征在于,所述预设阈值为90%。
3.如权利要求1所述的三代全长转录组中可变剪切体的检测方法,其特征在于,所述步骤S4中对筛选出的三代全长转录本序列进行剪切假阳性过滤具体包括:
解析三代全长转录本序列中cDNA序列的方向,将cDNA序列中为反向方向或者无法确定序列方向的多外显子转录本序列筛除;
从未被筛除的多外显子转录本序列中筛选出内含子为GT-AG结构的序列,当多外显子转录本序列的内含子不为GT-AG结构,且不被二代测序数据支持时,筛除该多外显子转录本序列。
4.如权利要求1所述的三代全长转录组中可变剪切体的检测方法,其特征在于,所述步骤S4中对筛选出的三代全长转录本序列进行DNA污染过滤具体包括:
挑选出未被基因注释的单外显子比对序列,判断所述单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的碱基A或者碱基T,若有,则对该单外显子比对序列进行DNA污染过滤。
5.如权利要求4所述的三代全长转录组中可变剪切体的检测方法,其特征在于,所述判断单外显子比对序列在参考基因组序列上对应位置的上下游是否有富集的碱基A或者碱基T具体包括:
以单外显子比对序列在参考基因组序列上匹配的起始位点为中心分别取其上下游各30bp,共60bp,以及以单外显子比对序列在参考基因组序列上匹配的终止位点为中心分别取其上下游各30bp,共60bp;
以15bp为kmer大小,将起始位点对应的60bp以及终止位点对应的60bp划分为92个kmer;
统计每个kmer中的碱基T或者碱基A的数目,并筛选出所有kmer中碱基T或者碱基A的最多数目m,定义m/15为该单外显子比对序列的A/T丰度;
若单外显子比对序列的A/T丰度达到80%,则判定单外显子比对序列在参考基因组序列上对应位置的上下游有富集的碱基A或者碱基T,否则,没有富集的碱基A或碱基T。
6.如权利要求1所述的三代全长转录组中可变剪切体的检测方法,其特征在于,所述步骤S7具体包括:
判断同一基因模型是否存在5’端缺失,若是,则将该三代全长转录本序列筛除;
若基因模型中只有一条smart序列,且该序列的所有内含子不被二代测序数据支持,则将该条序列筛除;
同一基因模型保留最长的一条三代全长转录本序列。
7.如权利要求6所述的三代全长转录组中可变剪切体的检测方法,其特征在于,将新基因序列以及新同源异构体序列添加到参考基因组序列中,以完善基因模型注释。
CN201510970066.8A 2015-12-22 2015-12-22 一种三代全长转录组中可变剪切体的检测方法 Active CN105389481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510970066.8A CN105389481B (zh) 2015-12-22 2015-12-22 一种三代全长转录组中可变剪切体的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510970066.8A CN105389481B (zh) 2015-12-22 2015-12-22 一种三代全长转录组中可变剪切体的检测方法

Publications (2)

Publication Number Publication Date
CN105389481A CN105389481A (zh) 2016-03-09
CN105389481B true CN105389481B (zh) 2018-06-29

Family

ID=55421761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510970066.8A Active CN105389481B (zh) 2015-12-22 2015-12-22 一种三代全长转录组中可变剪切体的检测方法

Country Status (1)

Country Link
CN (1) CN105389481B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688727B (zh) * 2016-08-05 2020-07-14 深圳华大基因股份有限公司 生物序列聚类和全长转录组中转录本亚型识别方法和装置
CN106650254B (zh) * 2016-12-16 2018-11-20 武汉菲沙基因信息有限公司 一种基于转录组测序数据检测融合基因的方法
CN107256335A (zh) * 2017-06-02 2017-10-17 肖传乐 一种基于全局种子打分优选的三代测序序列比对方法
CN107229842A (zh) * 2017-06-02 2017-10-03 肖传乐 一种基于局部图的三代测序序列校正方法
EP3766075A1 (en) * 2018-03-14 2021-01-20 Koninklijke Philips N.V. System and method using local unique features to interpret transcript expression levels for rna sequencing data
CN111445947A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用三代全长转录组的高原多倍体鱼类基因组注释方法
CN111445949A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用纳米孔测序数据的高原多倍体鱼类基因组注释方法
CN111312331B (zh) * 2020-03-27 2022-05-24 武汉古奥基因科技有限公司 一种利用二代和三代转录组测序数据的基因组注释方法
CN111863128B (zh) * 2020-06-23 2023-09-22 深圳大学 一种基因可变剪切分析方法
CN111524548B (zh) * 2020-07-03 2020-10-23 至本医疗科技(上海)有限公司 用于检测igh重排的方法、计算设备和计算机存储介质
CN112086128B (zh) * 2020-08-14 2024-05-10 南京派森诺基因科技有限公司 一种适用于Sequel测序的三代全长转录组测序结果分析方法
CN112201307A (zh) * 2020-09-23 2021-01-08 温州医科大学 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法
CN112397149B (zh) * 2020-11-11 2023-06-09 天津现代创新中药科技有限公司 无参考基因组序列的转录组分析方法及系统
CN114627967A (zh) * 2022-03-15 2022-06-14 北京基石生命科技有限公司 一种精确注释三代全长转录本的方法
CN115331736B (zh) * 2022-07-20 2023-07-25 佛山科学技术学院 基于文本匹配延伸高通量测序基因的拼接方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1583016A2 (en) * 2004-03-30 2005-10-05 Hitachi Software Engineering Co., Ltd. Data processing and display method for gene expression analysis system and gene expression analysing system
CN101137991A (zh) * 2005-02-11 2008-03-05 智明基因有限责任公司 验证dna测序数据的计算机实施的方法和基于计算机的系统
CN102066548A (zh) * 2008-06-23 2011-05-18 株式会社日立高新技术 单分子实时测序装置、核酸分析装置和单分子实时测序方法
CN103984879A (zh) * 2014-03-14 2014-08-13 中国科学院上海生命科学研究院 一种测定待测基因组区域表达水平的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030027137A1 (en) * 2000-03-29 2003-02-06 Chen J. Don Novel nuclear receptor corepressor molecules and uses therefor
US9062091B2 (en) * 2012-02-15 2015-06-23 Pacific Biosciences Of California, Inc. Polymerase enzyme substrates with protein shield

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1583016A2 (en) * 2004-03-30 2005-10-05 Hitachi Software Engineering Co., Ltd. Data processing and display method for gene expression analysis system and gene expression analysing system
CN101137991A (zh) * 2005-02-11 2008-03-05 智明基因有限责任公司 验证dna测序数据的计算机实施的方法和基于计算机的系统
CN102066548A (zh) * 2008-06-23 2011-05-18 株式会社日立高新技术 单分子实时测序装置、核酸分析装置和单分子实时测序方法
CN103984879A (zh) * 2014-03-14 2014-08-13 中国科学院上海生命科学研究院 一种测定待测基因组区域表达水平的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Real-Time DNA Sequencing from Single Polymerase Molecules;John Eid等;《Science》;20090102;第323卷;第133-138页 *
Single-molecule real-time transcript sequencing facilitates common wheat genome annotation and grain transcriptome research;Lingli Dong等;《BMC Genomics》;20151209;第1-13页 *

Also Published As

Publication number Publication date
CN105389481A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
CN105389481B (zh) 一种三代全长转录组中可变剪切体的检测方法
Venturini et al. Leveraging multiple transcriptome assembly methods for improved gene structure annotation
Heather et al. High-throughput sequencing of the T-cell receptor repertoire: pitfalls and opportunities
CN104164479B (zh) 杂合基因组处理方法
CN107615283B (zh) 用于二倍体基因组组装和单倍型序列重建的方法、软件和系统
Wächter et al. Proposal for a subdivision of the family Psathyrellaceae based on a taxon-rich phylogenetic analysis with iterative multigene guide tree
CN104657628A (zh) 基于Proton的转录组测序数据的比较分析方法和系统
Song et al. Rascaf: improving genome assembly with RNA sequencing data
CN108830044B (zh) 用于检测癌症样本基因融合的检测方法和装置
WO2017143585A1 (zh) 对分隔长片段序列进行组装的方法和装置
CN104298892A (zh) 基因融合的检测装置和方法
CN106650254B (zh) 一种基于转录组测序数据检测融合基因的方法
CN107784201B (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
CN110189796A (zh) 一种绵羊全基因组重测序分析方法
CN111584006A (zh) 基于机器学习策略的环形rna识别方法
CN109994154A (zh) 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN116312780B (zh) 靶向基因二代测序数据体细胞突变检测方法、终端及介质
CN111326212A (zh) 一种结构变异的检测方法
CN113362889A (zh) 基因组结构变异注释方法
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN110021352A (zh) 一种基于miRBase数据库的植物有参的miRNA数据分析方法
CN109979528A (zh) 一种单细胞免疫组库测序数据的分析方法
CN112086131B (zh) 一种重测序数据库中假阳性变异位点的筛选方法
CN111180013B (zh) 检测血液病融合基因的装置
CN108642568B (zh) 一种家犬全基因组低密度品种鉴定专用snp芯片设计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190107

Address after: Room 101, C2 Building, 555 Pioneer Road, Dayun Town, Jiashan County, Jiaxing City, Zhejiang Province, 314000

Patentee after: JIAXING FRASERGEN INFORMATION Co.,Ltd.

Address before: 430075 Guanggu Biological City B8, 666 High-tech Avenue, Donghu Development Zone, Wuhan City, Hubei Province

Patentee before: WUHAN FRASERGEN INFORMATION CO.,LTD.

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A detection method of variable shear in third generation full-length transcriptome

Effective date of registration: 20210922

Granted publication date: 20180629

Pledgee: Wuhan area branch of Hubei pilot free trade zone of Bank of China Ltd.

Pledgor: JIAXING FRASERGEN INFORMATION Co.,Ltd.

Registration number: Y2021420000097

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20180629

Pledgee: Wuhan area branch of Hubei pilot free trade zone of Bank of China Ltd.

Pledgor: JIAXING FRASERGEN INFORMATION Co.,Ltd.

Registration number: Y2021420000097

TR01 Transfer of patent right

Effective date of registration: 20240622

Address after: 430000 Guanggu No.777, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee after: Wuhan Feisha genomics Medicine Co.,Ltd.

Country or region after: China

Address before: Room 101, C2 Building, 555 Pioneer Road, Dayun Town, Jiashan County, Jiaxing City, Zhejiang Province, 314000

Patentee before: JIAXING FRASERGEN INFORMATION Co.,Ltd.

Country or region before: China