CN104182657A - 一种高通量转录组测序数据的分析方法 - Google Patents

一种高通量转录组测序数据的分析方法 Download PDF

Info

Publication number
CN104182657A
CN104182657A CN201410422973.4A CN201410422973A CN104182657A CN 104182657 A CN104182657 A CN 104182657A CN 201410422973 A CN201410422973 A CN 201410422973A CN 104182657 A CN104182657 A CN 104182657A
Authority
CN
China
Prior art keywords
gene
link
node
sequence
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410422973.4A
Other languages
English (en)
Other versions
CN104182657B (zh
Inventor
王月兰
倪受庸
刘劲松
邓彦
庞启波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Huasheng Gene Data Technology Co ltd
Original Assignee
JIANGSU TODAYSOFT TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU TODAYSOFT TECHNOLOGY Co Ltd filed Critical JIANGSU TODAYSOFT TECHNOLOGY Co Ltd
Priority to CN201410422973.4A priority Critical patent/CN104182657B/zh
Publication of CN104182657A publication Critical patent/CN104182657A/zh
Application granted granted Critical
Publication of CN104182657B publication Critical patent/CN104182657B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息技术领域,尤其涉及一种高通量转录组测序数据的分析方法。所述分析方法更加有效准确的分析样本当前的基因转录情况,其在分析过程中通过Burrows-Wheeler变换方法定位后,再通过Hash表进行了二次定位。本发明通过WGA加Hashalignment的方法给出了一种更加可靠有效的高通量转录组测序数据的分析方法。

Description

一种高通量转录组测序数据的分析方法
技术领域
本发明属于生物信息技术领域,尤其涉及一种高通量转录组测序数据的分析方法。
背景技术
随着新一代高通量测序技术的快速发展,建立在高通量测序基础上的转录组测序技术已成为目前从全基因组水平研究基因表达和转录组分析的重要手段.转录水平的调控是生物体最主要的调控方式.在深度测序技术出现之前,高通量测定不同基因转录水平的主要手段是基因芯片,它可以对不同组织或不同发育阶段的基因表达差异和模式进行分析,而RNA-Seq技术最基本的应用也是检测基因的表达水平,它对同一样品深度测序可以捕获低表达的基因,而对大量样品同时测序可以获得样品之间的表达差异。与基因芯片数据比较,RNA测序得到的是数字化的表达信号,无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段,具有灵敏度高、分辨率高和应用范围广等优势。除此之外, 研究人员还可以获得转录本表达丰度、转录起始位点和可变剪切等重要信息。所以,建立在高通量测序基础上的转录组研究已经逐步取代基因芯片技术成为目前从全基因组水平研究基因表达的主流方法。
在对基因组进行测序时,基因组被切割成很多小片段,通过复制、碱基辨识等步骤,我们可以获得这些短序列的碱基序列(测序序列)。然而在切割基因组后,我们无法知道各个测序序列的相对位置。如果没有参考基因组,就只能通过装配技术来得到所测的基因组。如果有一个已被测得的基因组作为参照,这就是一个相对容易的重测序问题。现在我们在生物学研究、个体化医疗中面临的测序问题,绝大部分是或可以近似转化为重测序问题。在重测序问题中,我们要寻找每一个测序序列在参考基因组上的位置或坐标,我们称之为测序序列定位。例如,通过将转录组的测序序列定位至参考基因组序列来测量不同种类的RNA的含量;或者通过将转录组的测序序列定位至参考基因组序列来探测mRNA可变剪切的模式等。
通常的高通量测序数据的定位(Mapping)方法,主要有基于哈氏表(hash)的方法和基于Burrows-Wheeler变换的方法。基于哈氏表(hash)的方法只能处理定长的序列数据,适用于参考序列较短的;如果序列太长(如人的全基因组序列),则需要很大的计算机内存,处理速度也很慢。优点是较好地支持容错率。基于Burrows-Wheeler变换的方法能处理变长的序列数据,但不能支持较大的容错率,否则将丧失速度优势。
由于测序仪器自身的测序误差,实际的高通量测序数据往往有很多的噪声,这就给正确的定位带来很大的困扰。
对于真核基因组情况将更加复杂,由于真核基因是断裂基因,由内含子和外显子构成,转录机制更加复杂。mRNA是按照特定的转录机制由外显子序列拼接而成,也就是说一条转录组测序数据(Read)定位在基因组参考序上可能是不连续的片段,这就为正确定位测序数据、基因转录水平、可变剪接以及基因融合带来更大的难度。
发明内容
本发明目的在于针对现有技术的不足,提供一种高通量转录组测序数据的分析方法,更加有效准确的分析样本当前的基因转录情况,其在分析过程中通过Burrows-Wheeler变换方法定位后,再通过Hash表进行了二次定位。
在本发明的一个实施方案中,所述分析方法的具体步骤如下,实施流程图见附图1:
(1)WGA  Alignment方法:获得RNA-Seq的原始数据后,将转录组测序数据以可变长度和步长切成短片段,将转录组测序数据以可变长度和步长切成短片段,并应用Burrows-Wheeler变换方法定位到参考基因组序列上,匹配允许1个碱基的错配,并设定最大允许查找定位的数目,设定有效值1-50;可变长度默认值为30,步长默认值为5,所述可变长度与步长可以根据实际Reads的长度来确定,Reads长度越长,可变长度及步长可以设定得越大,以提高运行效率,步长设定为可变长度的1/6为佳;
(2)对匹配上的测序数据分为节点和数据链,基于参考基因组mRNA注释信息以及匹配度打分进行滤除不可靠节点和数据链,具体步骤如下:
(a)Node确定:将基因组上有Reads覆盖的连续区域定为一个Node,根据设定的覆盖深度保留符合条件的Node,可分别已知基因区最小Read覆盖深度和非已知基因区最小Read覆盖深度,默认值分别为1和4。根据不同测序数据质量可以进行调整,测序深度越大,设定得最小Read覆盖深度以滤除噪声。
(b)Link确定:
I.载入所有形成Link的reads,也就是指单条Read分别定位到基因组的不连续两段以上区域;
II.进行峰值处理,依据聚类分析结果给出Link的起始位置(参考文献1),并根据如下规则进行修正:当Reads覆盖度大于10,以超过50%形成Link的Reads的起始位置进行修正;当Reads覆盖度小于10,以超过70%形成Link的Reads的起始位置进行修正(实施案例见附图12);
III.依据进行基因注释信息和GT-AG法则进行Link起始位置修正,去除边缘可变剪接Nodes的影响,对边缘1-3bp碱基进行exon与exon剪接接头检查,去除重复碱基定位的误差;
VI.小Gap Link的检测:设定最小exon间碱基数目为6,低于6bp的Gap最为删除变异处理,而大于6bp的Gap定义为Gap Link。
(c)Chain确定:连续的Node及Link定义为一个Chain。
I.根据Node及连接Node的Link,给出所有可能的不重复的基因Chain。
II.根据基因注释信息,找出基因区域内的所有可能的基因Chain。找出基因间区域的所有的新基因Chain。
III.滤除不可靠基因Chain:相似基因Chain、重叠基因Chain以及融合基因chain(该基因Chain覆盖区域跨越两个以上基因的区域)按各自规则依次进行滤除。
相似基因Chain滤除规则:序列相似度大于80%的基因进行相似基因Chain检查,将相似基因间的相同基因Chain进行合并,保留不同的基因Chain。
重叠基因Chain滤除规则:如果重叠部分和某一基因的mRNA完全匹配 则直接划分到这一基因 如果没有完全匹配的 则比较所在chain和各个基因的mRNA匹配的长度,基因Chain定位到匹配长度最长的基因。
融合基因Chain滤除规则:对于相邻近基因只保留相同模板链上相同方向的基因融合Chain;重叠基因间的融合基因Chain滤除,根据覆盖度拆分定位到对应的基因上;滤除相同染色体上覆盖范围大于10000的融合基因Chain;支持多基因间融合查找。
(3)切割所有匹配的参考基因组序列构成新的有效的重构参考序列,应用hash表进行二次定位,以此提高匹配准确度及速度;
拼接参考序的步骤如下,实施见附图2:
(a)    以所有基因组注释基因的mRNA,有Reads覆盖的生成基因chain的序列为基本参考序列;
(b)   设定提取序列初始长度为100,再动态计算平均Reads长度值后替换;
(c)    从基本参考序列中分别取exon与exon的接头序列、基因Chain的Node与Node间的连接序列,长度等于提取序列长度;去重复追加到重构参考基因组序列,并记录在原始基因组中位置以备还原定位;
(d)   从基本参考序列中分别取exon中间序列、基因Chain的Node中间序列,去重复存为重构参考基因组序列,并记录在原始基因组中的位置以备还原定位;
(e)    拼接序列时尽量减少重复序段的干扰,根据exon长度以及Node长度调整提取序列的大小;
(f)    在重构参考基因组序列中进行去重处理,以降低参考序列大小,提高运行速度;
(g)   对测序样本用Hash Alignment方法对重构参考基因组序列进行匹配,可设定最小匹配长度以及最低相似度,默认设置为12及85%;
(4)对Reads匹配结果重新定位到原始参考基因组序列上,重复步骤(2),确定Nodes、Link以及Chain,基于基因组注释mRNA信息以及数据链各exon间连接度找到新的mRNA可变剪切,基因融合和新基因,并给出基因表达水平、变异情况的统计信息;
(5) 基因Chain和Nodes进行分层展示,并根据不同Node、Link类型给出不同颜色分类标识,见附图3、附图5-12,具体规则如下:
分层展示原则:与已知mRNA吻合的基因显示在第一层;发生可变剪辑变异的Node、独立的新Link放在第二层;重叠基因区域的按照前两个原则顺序分层显示。
颜色分类标识定义如下:
已知基因Nodes:与已知基因exon完全吻合。紫色横线标识,见附图3。
已知基因Link:与已知基因的mRNA剪接方式相吻合的Link。用紫色连接线标识,连线上方数字为形成该Link的Reads数目,见附图3。
新Node(Novel Node):该Node与任何已知注释基因的exon区域没有重叠区域,蓝色标识。
新Link(Novel Link):连接Link的至少一个Node是新Node;连接Link的至少一个Node的连接位置与已知基因exon位置有差异。用蓝色连线标识,连线上方数字为形成该Link的Reads数目,见附图5-6。
融合Link(Fusion Link):两个不同基因见发生可变剪接的Link,不直接标识,只在数据报表中给出Link的起始位置,点击报表可以在基因Chain的显示图中给出定位区域。见附图7。
可变剪接(Alternative Splicing):与已知mRNA的exon不完全重合的,至少有一端与exon的位置有差异,用桔黄色连线标识,见附图5,附图8。
可变转录起始(Alternative Transcript Start):与mRNA第一个exon不完全重合的Node,用灰色横线标识,见附图9
可变转录终止(Alternative Transcript Stop):与mRNA最后一个exon不完全重合的Node,用灰色横线标识,见附图6,附图10
插入Node(Insertion):在基因内与已知exon没有任何重叠的Node,并且没有完全跨越相邻的两个exon,用红色横线标识,见附图8。
通读(Read Through):跨越两相邻基因间区域的Node,用灰色横线标识,见附图11。
内含子包容(Intron Retention):扩越基因mRNA两个已知相邻exon的Node,用红色横线标识,见附图12。
非mRNA的Node:除了mRNA之外的RNA的Node,包括miscRNA, ncRNA等,用绿色横线标识,见附图6。
(6)生成各类基因数据报表,并建立索引,实现快速定位,见附图3和附图4展示。
数据报表包括每个Nodes、Link的染色体定位信息、基因信息、Reads覆盖深度、形成Link的Reads数目、Pair-End Reads通过形成Link的数目、已近Node的类型、Isoform和蛋白质的NCBI识别号,可直接链接到NCBI网站查看mRNA和蛋白质的详细信息。
数据报表(附图4)与基因Chain展示(附图3)实现关联定位,可直接定位到需要查看的基因、Nodes、Link以及Chain,也可根据基因名字、染色体位置和基因序列直接进行搜索。
附图说明
图1:本发明高通量转录组测序数据的分析方法的流程图
图2:本发明重构参考序方法示意图
图3:本发明转录组测序数据分析结果显示图,C部分为基因Chain显示,其中A为已知Node(紫色),B为已知Link(紫色),该图显示的为获得的一条已知基因Chain(紫色),D部分为基因注释信息显示,其中G为基因区域,H为exon,该基因有6个mRNA,E部分为参考基因组的整体显示,双击可定位到相应基因区域,F部分为Reads覆盖深度显示。
图4:本发明转录组测序数据分析结果报告图
图5: 本发明发现新Link(Novel Link)及可变剪接(Alternative Splicing)示例,图中三个标注为A的Node为可变剪接(桔黄色),标注为B的Link为新Link(蓝色)。标注为C的为已知Node(紫色),标注为D的为已知Link(紫色)
图6:本发明发现新Link及MiscRNA示例,图中标注为A的三个Node是MiscRNA的Node(绿色),标注为B的Link是新Link(蓝色),标注为C的Link是已知Link(紫色),标注为D的Node是可变转录终止Node(灰色)。
图7:本发明发现融合Link(Fusion Link)示例,图中A区域中大斜线的区域为融合Link的定位,B区域第一条记录给出了融合Link发生的起始位置(Start, End)、染色体(Chr)、基因(Gene)、形成该Link的Reads数目(Link Number)等信息。
图8:本发明发现插入Node(Insertion)示例,图中标注为A的Node为插入Node(红色),标注为B的Node为可变剪接(桔黄色),因为两个Node中间是不连续的。标注为C的两个Link为新Link(蓝色),标注为D的Link为已知Link(紫色),标注为E的Node为已知Node(紫色)。 
图9:本发明发现可变转录起始(Alternative Transcript Start)示例,图中标注为A的Node为可变转录起始(灰色),标注为B的Link为已知Link(紫色),标注为C的Node为已知Node(紫色)。
图10:本发明发现可变转录终止(Alternative Transcript Stop)示例,图中标注为A的Node为可变转录终止(灰色),标注为B的Link为已知Link(紫色),标注为C的Node为已知Node(紫色)。
图11:本发明发现通读(Read Through)示例,图中标注为A的Node为通读(灰色),标注为B的Node是YOS1基因的可变剪接(桔黄色),标注为C的Node是PTP3基因的已知Node(紫色)。
图12:本发明发现内含子包容(Intron Retention)示例以及滤噪示例,图中标注为A的Node是内含子包容(红色),标注为B的Node为可变剪接(桔黄色),标注为C的Node为已知Node,标注为D的为已知Link。依据本文步骤2中对Link起止位置的进行了修正,给出了正确的Link,并给出了同时存在的可变剪接及内含子包容。
具体实施方式
下面将结合附图以及进一步的详细说明来举例说明本发明。需要指出的是,以下说明仅仅是对本发明要求保护的技术方案的举例说明,并非对这些技术方案的任何限制。本发明的保护范围以所附权利要求书记载的内容为准。
术语解释
在本发明中所述“Read”是指高通量测序得到的一条序列。
在本发明中所述“Node”是指reads定位到参考序后由连续的reads构成的结点。
在本发明中所述“Link”是指reads覆盖到两个以上node形成的连接。
在本发明中所述“Chain”是指由nodes及经过nodes的link形成的链。
在本发明中所述“Reads覆盖度”是指定位到参考序的连续区域上Read的数目。
实施例1
为使本发明的目的、技术方案和优点更为清楚,本发明用一套实际的人的高通量转录组测序数据为例进行数据分析:
1.      样本数据Illumina20由Illummina测序仪完成测序,转成fasta数据格式大小为3.29G,平均测序深度为30。
2.      以人的GRCh37.p5基因组序列作为参考序构建Index,序列文件大小为2.73G。
3.      依照表1设置参数,依照发明内容中的步骤1,以WGA比对测试样本Illumina20与人的参考基因组序列,匹配得到样本序列在参考序中的最佳匹配位置。
4.      依据发明内容中的步骤2的方法,确定所有Node,Link以及Chain,去除不可靠link以及不可靠Chain。结果在表2中给出。
5.      依据发明内容中的步骤3描述方法,根据获得可靠Chain,拼接得到Hash alignment 方法的参考序,序列文件大小为85.5M。
6.      依据发明内容中的步骤4描述方法,对测试样本对新拼接得到的参考序进行Hash alignment,比对参数见表1.
7.      依据发明内容中的步骤5描述方法,将比对结果重新定位到人的原始参考基因组序列上。
8.      再次依据发明内容中的步骤2的方法,确定所有Node,Link以及Chain,去除不可靠link以及不可靠Chain。结果在表2中给出。
9.      基于基因组注释mRNA信息以及数据链各exon间连接度找到新的mRNA可变剪切,基因融合和新基因。
10.  依据发明内容中的步骤6描述方法,用不同颜色标识各类Node,Link以及Chain,进行分层展示,快速查找及定位。
11.  统计基因表达情况,变异情况,以及新基因的情况。
12.  结果显示见表2
13.  结果评价:
尽管WGA方法可以快速实现测试样本序列的快速定位,仅用了66分钟,也能找到可靠的Node,Link 以及Chain,但根据与Hash alignment结果比较可以明显看出,经过重新构建的基因组参考序,找到的Node总数较WGA方法减少了近1/3,但却可以获得相近的Link数,说明并没有因为参考序列的大幅减少而丢失可靠的Link。同时找到基因Chain不到WGA方法的一半,而获得的表达基因数目与实验情况基本吻合,同时融合基因定位比较合理,可见WGA方法获得的基因Chain受Nodes数目较大影响,有很大的孤立的基因Chain存在,而找到的47,627基因虽然没有给出详细划分,但人的基因总数目在3万左右,可以推测其中多数为孤立Node的或者单一Link都成Chain的新基因,可靠性不高。因此可以清楚地确定尽管Hash方法以牺牲适度的时间换取了基因表达情况分析的可靠度,本发明通过WGA加Hash alignment的方法给出了一种更加可靠有效的高通量转录组测序数据的分析方法。
表1 参数设置
表2 WGA及Hash分析结果比较
参考文献
1 肖宇,于剑,基于近邻传播算法的半监督聚类,软件学报,2008,19(11):2803-2813
本发明内容仅仅举例说明了要求保护的一些具体实施方案,其中一个或更多个技术方案中所记载的技术特征可以与任意的一个或多个技术方案相组合,这些经组合而得到的技术方案也在本申请保护范围内,就像这些经组合而得到的技术方案已经在本发明公开内容中具体记载一样。

Claims (4)

1.一种高通量转录组测序数据的分析方法,其特征在于,其在分析过程中通过Burrows-Wheeler变换方法定位后,再通过Hash表进行了二次定位。
2.根据权利要求1所述的分析方法,其特征在于,所述分析方法的具体步骤如下:
(1)WGA  Alignment方法:获得RNA-Seq的原始数据后,将转录组测序数据以可变长度和步长切成短片段,将转录组测序数据以可变长度和步长切成短片段,并应用Burrows-Wheeler变换方法定位到参考基因组序列上,匹配允许1个碱基的错配,并设定最大允许查找定位的数目;所述可变长度与步长可以根据实际Reads的长度来确定;
(2)对匹配上的测序数据分为节点和数据链,基于参考基因组mRNA注释信息以及匹配度打分进行滤除不可靠节点和数据链,
(3)切割所有匹配的参考基因组序列构成新的有效的重构参考序列,应用hash表进行二次定位,以此提高匹配准确度及速度;
(4)对Reads匹配结果重新定位到原始参考基因组序列上,重复步骤(2),确定Nodes、Link以及Chain,基于基因组注释mRNA信息以及数据链各exon间连接度找到新的mRNA可变剪切,基因融合和新基因,并给出基因表达水平、变异情况的统计信息;
(5)基因Chain和Nodes进行分层展示,并根据不同Node、Link类型给出不同颜色分类标识,
(6)生成各类基因数据报表,并建立索引,实现快速定位。
3.根据权利要求2所述的分析方法,其特征在于,所述步骤(2)中,具体步骤如下:
(a)Node确定:将基因组上有Reads覆盖的连续区域定为一个Node,根据设定的基覆盖Coverage;
(b)Link确定:
I.载入所有形成Link的reads,也就是指单条Read分别定位到基因组的不连续两段以上区域;
II.进行峰值处理,依据聚类分析结果给出Link的起始位置,并根据如下规则进行修正:当Reads覆盖度大于10,以超过50%形成Link的Reads的起始位置进行修正;当Reads覆盖度小于10,以超过70%形成Link的Reads的起始位置进行修正; 
III.依据进行基因注释信息和GT-AT法则进行Link起始位置修正,去除边缘可变剪接Nodes的影响,对边缘1-3bp碱基进行exon与exon剪接接头检查,去除重复碱基定位的误差;
VI.小Gap Link的检测:设定最小exon间碱基数目为6,低于6bp的Gap最为删除变异处理,而大于6bp的Gap定义为Gap Link;
(c)Chain确定:连续的Node及Link定义为一个Chain;
I.根据Node及连接Node的Link,给出所有可能的不重复的基因Chain;
II.根据基因注释信息,找出基因区域内的所有可能的基因Chain;找出基因间区域的所有的新基因Chain;
III.滤除不可靠基因Chain:相似基因Chain、重叠基因Chain以及融合基因chain(该基因Chain覆盖区域跨越两个以上基因的区域)按各自规则依次进行滤除;
相似基因Chain滤除规则:序列相似度大于80%的基因进行相似基因Chain检查,将相似基因间的相同基因Chain进行合并,保留不同的基因Chain;
重叠基因Chain滤除规则:如果重叠部分和某一基因的mRNA完全匹配 则直接划分到这一基因 如果没有完全匹配的 则比较所在chain和各个基因的mRNA匹配的长度,基因Chain定位到匹配长度最长的基因;
融合基因Chain滤除规则:对于相邻近基因只保留相同模板链上相同方向的基因融合Chain;重叠基因间的融合基因Chain滤除,根据覆盖度拆分定位到对应的基因上;滤除相同染色体上覆盖范围大于10000的融合基因Chain;支持多基因间融合查找。
4. 根据权利要求2所述的分析方法,其特征在于,所述步骤(3)中,具体步骤如下:
以所有基因组注释基因的mRNA,有Reads覆盖的生成基因chain的序列为基本参考序列;
设定提取序列初始长度为100,再动态计算平均Reads长度值后替换;
从基本参考序列中分别取exon与exon的接头序列、基因Chain的Node与Node间的连接序列,长度等于提取序列长度;去重复追加到重构参考基因组序列,并记录在原始基因组中位置以备还原定位;
从基本参考序列中分别取exon中间序列、基因Chain的Node中间序列,去重复存为重构参考基因组序列,并记录在原始基因组中的位置以备还原定位;
拼接序列时尽量减少重复序段的干扰,根据exon长度以及Node长度调整提取序列的大小;
在重构参考基因组序列中进行去重处理,以降低参考序列大小,提高运行速度;
对测序样本用Hash Alignment方法对重构参考基因组序列进行匹配,可设定最小匹配长度以及最低相似度,默认设置为12及85%。
CN201410422973.4A 2014-08-26 2014-08-26 一种高通量转录组测序数据的分析方法 Expired - Fee Related CN104182657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410422973.4A CN104182657B (zh) 2014-08-26 2014-08-26 一种高通量转录组测序数据的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410422973.4A CN104182657B (zh) 2014-08-26 2014-08-26 一种高通量转录组测序数据的分析方法

Publications (2)

Publication Number Publication Date
CN104182657A true CN104182657A (zh) 2014-12-03
CN104182657B CN104182657B (zh) 2015-09-09

Family

ID=51963692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410422973.4A Expired - Fee Related CN104182657B (zh) 2014-08-26 2014-08-26 一种高通量转录组测序数据的分析方法

Country Status (1)

Country Link
CN (1) CN104182657B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794371A (zh) * 2015-04-29 2015-07-22 深圳华大基因研究院 检测逆转座子插入多态性的方法和装置
CN106980777A (zh) * 2017-04-10 2017-07-25 重庆邮电大学 基于相似基因比例的基因家族关系判定方法
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN107828857A (zh) * 2017-11-23 2018-03-23 南宁科城汇信息科技有限公司 一种转录组测序及RNAseq数据分析方法
CN109033752A (zh) * 2018-08-13 2018-12-18 上海科穹生物信息技术有限公司 一种基于长读长测序的多基因融合检测方法
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409099A (zh) * 2011-11-29 2012-04-11 浙江大学 一种利用测序技术分析猪乳腺组织基因表达差异的方法
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
US20130316915A1 (en) * 2010-10-13 2013-11-28 Aaron Halpern Methods for determining absolute genome-wide copy number variations of complex tumors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130316915A1 (en) * 2010-10-13 2013-11-28 Aaron Halpern Methods for determining absolute genome-wide copy number variations of complex tumors
CN102409099A (zh) * 2011-11-29 2012-04-11 浙江大学 一种利用测序技术分析猪乳腺组织基因表达差异的方法
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794371A (zh) * 2015-04-29 2015-07-22 深圳华大基因研究院 检测逆转座子插入多态性的方法和装置
CN104794371B (zh) * 2015-04-29 2018-02-09 深圳华大生命科学研究院 检测逆转座子插入多态性的方法和装置
CN106980777A (zh) * 2017-04-10 2017-07-25 重庆邮电大学 基于相似基因比例的基因家族关系判定方法
CN106980777B (zh) * 2017-04-10 2019-12-31 重庆邮电大学 基于相似基因比例的基因家族关系判定方法
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN107828857A (zh) * 2017-11-23 2018-03-23 南宁科城汇信息科技有限公司 一种转录组测序及RNAseq数据分析方法
CN109033752A (zh) * 2018-08-13 2018-12-18 上海科穹生物信息技术有限公司 一种基于长读长测序的多基因融合检测方法
CN109033752B (zh) * 2018-08-13 2021-09-17 杭州锘崴信息科技有限公司 一种基于长读长测序的多基因融合检测方法
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN111653313B (zh) * 2020-05-25 2022-07-29 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法

Also Published As

Publication number Publication date
CN104182657B (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
CN104182657B (zh) 一种高通量转录组测序数据的分析方法
Luebeck et al. AmpliconReconstructor integrates NGS and optical mapping to resolve the complex structures of focal amplifications
Ku et al. Single-cell chromatin immunocleavage sequencing (scChIC-seq) to profile histone modification
Peng et al. IDBA-tran: a more robust de novo de Bruijn graph assembler for transcriptomes with uneven expression levels
An et al. OnTAD: hierarchical domain structure reveals the divergence of activity among TADs and boundaries
Benelli et al. Discovering chimeric transcripts in paired-end RNA-seq data by using EricScript
Niu et al. RCP: a novel probe design bias correction method for Illumina Methylation BeadChip
Kumar et al. Comparative assessment of methods for the fusion transcripts detection from RNA-Seq data
Hebestreit et al. Detection of significantly differentially methylated regions in targeted bisulfite sequencing data
Jeffries Algorithms for alignment of mass spectrometry proteomic data
Xu et al. An image-based multi-label human protein subcellular localization predictor (i locator) reveals protein mislocalizations in cancer tissues
Zickmann et al. MSProGene: integrative proteogenomics beyond six-frames and single nucleotide polymorphisms
Jimenez et al. Mass spectrometry-based proteomics: from cancer biology to protein biomarkers, drug targets, and clinical applications
CN110289047B (zh) 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
Zhang et al. PASSion: a pattern growth algorithm-based pipeline for splice junction detection in paired-end RNA-Seq data
Liu et al. Single-cell differential splicing analysis reveals high heterogeneity of liver tumor-infiltrating T cells
CN108021788A (zh) 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置
CN108949970A (zh) 基于多组学的宫颈癌特征获取方法和系统
Wang et al. Computational methods and correlation of exon-skipping events with splicing, transcription, and epigenetic factors
Rebbeck et al. Gene expression signatures of individual ductal carcinoma in situ lesions identify processes and biomarkers associated with progression towards invasive ductal carcinoma
Sunpaweravong et al. Clonal relationship of synchronous head and neck cancer and esophageal cancer assessed by single nucleotide polymorphism-based loss of heterozygosity analysis
Barann et al. Manananggal-a novel viewer for alternative splicing events
Lal et al. A gene expression profile test to resolve head & neck squamous versus lung squamous cancers
Faust et al. Integrating morphologic and molecular histopathological features through whole slide image registration and deep learning
Abebe et al. A pipeline of programs for collecting and analyzing group II intron retroelement sequences from GenBank

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 224007 Jiangsu Province Economic and Technological Development Zone Yancheng City hope Avenue Road No. 5 Jiangsu Wahson Hengye Technology Co. Ltd.

Applicant after: JIANGSU TODAYSOFT TECHNOLOGY Co.,Ltd.

Address before: 224007 Jiangsu Province Economic and Technological Development Zone Yancheng City hope Avenue Road No. 5 Jiangsu Wahson Hengye Technology Co. Ltd.

Applicant before: JIANGSU TODAYSOFT TECHNOLOGY Co.,Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: JIANGSU TODAYSOFT TECHNOLOGY CO., LTD. TO: JIANGSU HUASHENG HENGYE TECHNOLOGY CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 224007 Jiangsu Province Economic and Technological Development Zone Yancheng City hope Avenue Road No. 5 Jiangsu Wahson Hengye Technology Co. Ltd.

Patentee after: JIANGSU HUASHENG GENE DATA TECHNOLOGY Co.,Ltd.

Address before: 224007 Jiangsu Province Economic and Technological Development Zone Yancheng City hope Avenue Road No. 5 Jiangsu Wahson Hengye Technology Co. Ltd.

Patentee before: JIANGSU TODAYSOFT TECHNOLOGY Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: High-flux transcriptome sequencing data analysis method

Effective date of registration: 20190929

Granted publication date: 20150909

Pledgee: Yancheng Dongfang Financing Guarantee Co.,Ltd.

Pledgor: JIANGSU HUASHENG GENE DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2019990000295

PE01 Entry into force of the registration of the contract for pledge of patent right
PP01 Preservation of patent right

Effective date of registration: 20191112

Granted publication date: 20150909

PP01 Preservation of patent right
PD01 Discharge of preservation of patent

Date of cancellation: 20221112

Granted publication date: 20150909

PD01 Discharge of preservation of patent
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150909

CF01 Termination of patent right due to non-payment of annual fee