CN111696629B - 一种rna测序数据的基因表达量计算方法 - Google Patents

一种rna测序数据的基因表达量计算方法 Download PDF

Info

Publication number
CN111696629B
CN111696629B CN202010603775.3A CN202010603775A CN111696629B CN 111696629 B CN111696629 B CN 111696629B CN 202010603775 A CN202010603775 A CN 202010603775A CN 111696629 B CN111696629 B CN 111696629B
Authority
CN
China
Prior art keywords
sequence
sequencing
gene
quality
transcript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010603775.3A
Other languages
English (en)
Other versions
CN111696629A (zh
Inventor
邹权
孙善文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010603775.3A priority Critical patent/CN111696629B/zh
Publication of CN111696629A publication Critical patent/CN111696629A/zh
Application granted granted Critical
Publication of CN111696629B publication Critical patent/CN111696629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种RNA测序数据的基因表达量的计算方法,仅需要两个非专业性的参数就可以自动地生成基于alignment‑based和alignment‑free的基因表达量,可以在提高基因表达量的定量精度的同时方便用户与其他的研究结果进行横向地比较;此外,本发明可以同时适用于定量化已发表的公开RNA‑seq数据和用户自己新测序得到的数据,避免了用户需要掌握和使用不同的软件来处理不同类型数据的困扰,节省用户大量的时间和精力。

Description

一种RNA测序数据的基因表达量计算方法
技术领域
本发明属于基因表达数据分析技术领域,具体涉及一种RNA测序数据基因表达量计算方法。
背景技术
对基因表达数据进行分析是分子生物学的核心手段,近年来,随着高通量测序技术的发展,RNA-seq技术成为了测定基因表达量的主要手段,海量的原始RNA-seq数据得到了积累,这些公开的数据对于研究者而言具有十分重要的意义。然而,将原始RNA-seq序列读段(reads)转化为定量化的基因表达数据这一过程涉及了很多的专业软件,例如序列的质量控制,序列的比对和组装等。这些软件的使用需要一定的生物信息学背景和编程知识,这给使用RNA-seq数据带来了一定的门槛。因此,很多研究学者都视图降低这一门槛,目前的工具有两种,一种是对公开的RNA-seq数据进行收集和处理,提供整合的基因表达定量数据库,该方法的缺点是需要花费大量的人力和物力,因此主要集中在生物医疗方面的RNA-seq数据,此外,该方法具有一定的时滞性,通常没有囊括最新发表的数据;另一种是提供软件服务,允许用户直接对符合其研究兴趣的RNA-seq数据进行下载和定量化,然而,这种方法仍然涉及了很多专业的参数和技术性细节需要用户花费时间学习和设置;另外以上两种方法都只允许用户利用公开发表的RNA-seq数据,不能帮助他们对自己的测序数据进行定量化,再者,目前主要存在两种基于RNA-seq定量基因表达量的方案:依赖参考序列对比(alignment-based)或者不依赖参考序列比对(alignment-free),两种方案各有优缺点;目前不论是整合的数据库或者是软件服务都只采用了一种方案,这一方面可能会降低RNA-seq技术的准确性,另一方面也给横向比较基因的表达量带来了障碍。
发明内容
针对现有技术中的上述不足,本发明提供的RNA测序数据的基因表达量计算方法解决了上述背景技术中的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种RNA测序数据的基因表达量计算方法,包括以下步骤:
S1、获取RNA测序数据,并对其序列进行质量检测,判断序列质量是否合格;
若是,则进入步骤S3;
若否,则进入步骤S2;
S2、对质量检测不合格的序列进行修剪,进入步骤S3;
S3、根据测序对象的通用名或科学命名,获取对应的参考基因组、参考转录组及注释数据,进入步骤S4;
S4、基于注释数据,提取参考基因组及参考转录组中基因和转录本之间的对应关系;
S5、基于基因和转录本之间的对应关系,计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现测序对象的基因表达量的计算。
进一步地,所述步骤S1中,RNA测序数据包括用户构建的测序数据和公开的测序数据;
当获取的RNA测序数据为公开的测序数据时,将其转换成FASTQ格式文本,FASTQ格式文本保存有测序序列及其测序质量得分信息,用于对公开的测序数据的序列进行质量检测。
进一步地,所述步骤S1中,对序列进行质量检测包括测序质量检测和测序接头检测,当测序质量检测不合格或测序接头检测不合格时,序列的质量检测不合格;
进行测序质量检测时,基于测序质量得分信息,当序列中存在测序质量小于设定阈值的碱基或该序列子集的平均测序质量小于设置阈值时,测序质量检测不合格;
进行测序接头检测时,当序列中有超过设定阈值的读段含有测序接头时,测序接头检测不合格。
进一步地,进行测序接头检测时,检测的测序接头包括illumina 3端接头、illumina5端接头、illuminauniversal接头、Nextera Transposase Sequence接头和SOLiD接头。
进一步地,所述步骤S2中,对质量检测不合格的序列进行修剪包括去除序列中低于设定阈值的碱基或去除超过设定阈值的测序接头;
进一步地,所述步骤S4中,在基因和转录本之间的对应关系中,一个基因对应一个或多个转录本。
进一步地,所述步骤S5具体为:
A1、基于基因和转录本之间的对应关系,利用HISAT2将质量合格的序列或修剪后的序列对比到参考基因组中对其进行定位,将其保存并转化为BAM格式;
A2、利用StringTie将BAM格式的序列组装成转录本,并以GTF格式保存;
A3、基于GTF格式文本及基因和转录本之间的对应关系,利用alignment-based方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算。
进一步地,所述步骤A3中,基于GTF格式文本,质量合格的序列或修剪后的序列在转录组水平上的表达量的计算公式为:
Count转录本=coverage*length/read_len
式中,Count转录本是转录本的数量,即基因表达量,coverage为转录本的覆盖度,length为转录本的长度,read_len为序列读段的平均长度;
基于基因和转录本之间的对应关系,质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:
Count基因=∑(Count转录本)
式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。
进一步地,所述步骤S5具体为:
B1、基于基因和转录本之间的对应关系,利用Salmon将质量合格的序列或修剪后的序列伪对比到参考转录组,将其保存为quant.sf格式纯文本;
B2、基于quant.sf格式纯文本,利用alignment-free方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算。
进一步地,所述步骤B2中,将quant.sf格式纯文本转换为csv格式,得到质量合格的序列或修剪后的序列在转录组水平上的表达量;
所述质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:
Count基因=∑(Count转录本)
式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。
本发明的有益效果为:
本发明提供的RNA测序数据的基因表达量的计算方法,仅需要两个非专业性的参数就可以自动地生成基于alignment-based和alignment-free的基因表达量,可以在提高基因表达量的定量精度的同时方便用户与其他的研究结果进行横向地比较;此外,本发明可以同时适用于定量化已发表的公开RNA-seq数据和用户自己新测序得到的数据,避免了用户需要掌握和使用不同的软件来处理不同类型数据的困扰,节省用户大量的时间和精力。
附图说明
图1为本发明提供的RNA测序数据的基因表达量计算方法流程图。
图2为本发明提供的用户处理公开的RNA-seq数据时所需要输入的命令和参数参考示意图。
图3为本发明提供的检测序列的测序质量的参考示意图。
图4为本发明提供的处理用户自己的RNA-seq测序数据时所需要输入的命令和参数参考示意图。
图5为本发明提的利用注释数据得到的基因和转录本之间的对应关系参考示意图。
图6为本发明提供的利用StringTie将已定位的序列(BAM格式)组装成转录本后得到的GTF格式文件参考示意图。
图7为本发明提供的使用了alignment-based方案得到的基因在基因水平上和转录组水平上的表达量参考示意图。
图8为本发明提供的利用Salmon将质量检测合格的或修剪过的序列伪比对到参考转录组后得到的quant.sf文件参考示意图。
图9为本发明提供的使用了alignment-free方案得到的基因在基因水平上和转录组水平上的表达量参考示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,一种RNA测序数据的基因表达量计算方法,包括以下步骤:
S1、获取RNA测序数据,并对其序列进行质量检测,判断序列质量是否合格;
若是,则进入步骤S3;
若否,则进入步骤S2;
S2、对质量检测不合格的序列进行修剪,进入步骤S3;
S3、根据测序对象的通用名或科学命名,获取对应的参考基因组、参考转录组及注释数据,进入步骤S4;
S4、基于注释数据,提取参考基因组及参考转录组中基因和转录本之间的对应关系;
S5、基于基因和转录本之间的对应关系,计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现测序对象的基因表达量的计算。
本实施例的步骤S1中,RNA测序数据包括用户构建的测序数据和公开的测序数据;
当获取的RNA测序数据为公开的测序数据时,其被打包压缩成SRA格式,需将其转换成FASTQ格式文本,FASTQ格式文本保存有测序序列及其测序质量得分信息,用于对公开的测序数据的序列进行质量检测;当获取的RNA测序数据为用户构建的测序数据时,直接就是FASTQ格式文本。
另外,当RNA测序数据为公开的测序数据,即RNA-seq数据时,需指定获取码,且将获取的RNA-seq数据转换成FASTQ格式文本时,获取对应序列的测序类型,测序类型包括双端序列和单端序列,后续序列修剪及对比和组装等过程都需确定该序列的测序类型。具体的,从Sequence Read Archive(SRA)下载获取RNA-seq数据,下载过程中需要用户指定所下载数据的获取码(accession)如图2所示,这里的获取码可以是来自某个具体的RNA-seq数据,也可以是来自某个生物样本(通常包括几个RNA-seq数据),或者是来自某个生物项目(通常包括几个生物样本);下载的数据以二分类的形式保存,随后被转换为FASTQ格式,以文本的形式保存测序序列及其测序质量的得分信息,在数据转换过程中,自动获取序列的测序类型,即双端序列(paired-end)或者单端测序(sing-end);
在本实施例的步骤S1中,对序列进行质量检测包括测序质量检测和测序接头检测,当测序质量检测不合格或接头检测不合格时,序列的质量检测不合格。
进行测序质量检测时,基于测序质量得分信息,当序列中存在测序质量小于设定阈值的碱基或该序列子集的平均测序质量小于设置阈值时,测序质量检测不合格;
进行测序接头检测时,当序列中有超过设定阈值的读段含有测序接头时,测序接头检测不合格。
其中,测序质量小于设定阈值的碱基为低质量的碱基,当设定阈值为20时,每个碱基的测序质量如图3(a)所示,序列子集的平均测序质量小于设置阈值时认为序列子集普遍低质量,当设定阈值为20时,序列子集的质量分数分布如图3(b)所示。进行测序接头检测时,检测的测序接头包括illumina 3端接头、illumina5端接头、illuminauniversal接头、Nextera Transposase Sequence接头和SOLiD接头,对其在序列中出现的频率进行检测,当有超过10%的读段(read)含有测序接头时,则测序接头检测不合格。
本实施例的步骤S2中,对质量检测不合格的序列进行修剪包括去除序列中低于设定阈值的碱基或去除超过设定阈值的测序接头;当RNA测序数据为用户构建的测序数据时,还需要在此步骤指定序列的测序类型(如图4所示)。
本实施例的步骤S3中,用户需要指定其研究对象的通用名或者科学命名(图2、图4),然后下载其对应的最新参考基因组、参考转录组和注释数据,下载后的参考基因组数据分散在各个染色体上后被合并为一个整体。
本实施例的步骤S4中,注释数据主要是对基因组的功能进行注释,其中包含了编码基因和其转录组信息,因此能够根据注释数据,提取到基因和转录本之间的对应关系,且通常一个基因对应一个或多个转录本(如图5所示)。
本实施例的步骤S5中,采用依赖参考序列比对(alignment-based)和不依赖参考序列比对(alignment-free)两种方案进行基因表达量的计算,当使用alignment-based方法计算时,上述步骤S5具体为:
A1、基于基因和转录本之间的对应关系,利用HISAT2将质量合格的序列或修剪后的序列对比到参考基因组中对其进行定位,将其保存并转化为BAM格式;
其中,定位对比后的序列被保存为SAM格式,然后被转化为BAM格式;
A2、利用StringTie将BAM格式的序列组装成转录本,并以GTF格式保存;
其中,GTF格式文本含有转录本数量的间接评估(即coverage覆盖度值,图6倒数第三列)和转录本的起始和终止位置(二者之差为转录本的长度,图6第四和第五列);
A3、基于GTF格式文本及基因和转录本之间的对应关系,利用alignment-based方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算。
步骤A3中,基于GTF格式文本,质量合格的序列或修剪后的序列在转录组水平上的表达量的计算公式为:
Count转录本=coverage*length/read_len
式中,Count转录本是转录本的数量,即基因表达量,coverage为转录本的覆盖度,length为转录本的长度,read_len为序列读段的平均长度;
基于基因和转录本之间的对应关系,质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:
Count基因=∑(Count转录本)
式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。
将不同测序序列中的基因表达量和转录本表达量进行汇总和合并,将序列的名称作为sample变量(图7)以标注数据的来源。
当采用alignment-free方法进行基因表达量的计算时,上述步骤S5具体为:
B1、基于基因和转录本之间的对应关系,利用Salmon将质量合格的序列或修剪后的序列伪对比到参考转录组,将其保存为quant.sf格式纯文本;
其中,quant.sf格式纯文本中含有基因在转录组水平上表达量的评估(即NumRead值,图8;
B2、基于quant.sf格式纯文本,利用alignment-free方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算。
其中,将quant.sf格式纯文本转换为csv格式,得到质量合格的序列或修剪后的序列在转录组水平上的表达量;
所述质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:
Count基因=∑(Count转录本)
式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。
将不同测序序列中的基因表达量和转录本表达量进行汇总和合并,将序列的名称作为sample变量(图9)以标注数据的来源。
本发明实施例中提供的alignment-free方案和alignment-based方案得到的结果可能会在具体探测到的表达基因和基因的表达量上有所差异,可以考虑将这两种方案得到的结果进行整合以提高RNA-seq分析的准确率(accuracy)和敏感度(sensitivity)。
本发明的有益效果为:
本发明提供的RNA测序数据的基因表达量的计算方法,仅需要两个非专业性的参数就可以自动地生成基于alignment-based和alignment-free的基因表达量,可以在提高基因表达量的定量精度的同时方便用户与其他的研究结果进行横向地比较;此外,本发明可以同时适用于定量化已发表的公开RNA-seq数据和用户自己新测序得到的数据,避免了用户需要掌握和使用不同的软件来处理不同类型数据的困扰,节省用户大量的时间和精力。

Claims (8)

1.一种RNA测序数据的基因表达量计算方法,其特征在于,包括以下步骤:
S1、获取RNA测序数据,并对其序列进行质量检测,判断序列质量是否合格;
若是,则进入步骤S3;
若否,则进入步骤S2;
S2、对质量检测不合格的序列进行修剪,进入步骤S3;
S3、根据测序对象的通用名或科学命名,获取对应的参考基因组、参考转录组及注释数据,进入步骤S4;
S4、基于注释数据,提取参考基因组及参考转录组中基因和转录本之间的对应关系;
S5、基于基因和转录本之间的对应关系,计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现测序对象的基因表达量的计算;
当使用依赖参考序列对比方法进行基因表达量计算时,所述步骤S5具体为:
A1、基于基因和转录本之间的对应关系,利用HISAT2将质量合格的序列或修剪后的序列对比到参考基因组中对其进行定位,将其保存并转化为BAM格式;
A2、利用StringTie将BAM格式的序列组装成转录本,并以GTF格式保存;
A3、基于GTF格式文本及基因和转录本之间的对应关系,利用alignment-based方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算;
当使用不依赖参考序列对比方法进行基因表达量计算时,所述步骤S5具体为:
B1、基于基因和转录本之间的对应关系,利用Salmon将质量合格的序列或修剪后的序列伪对比到参考转录组,将其保存为quant.sf格式纯文本;
B2、基于quant.sf格式纯文本,利用alignment-free方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算。
2.根据权利要求1所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S1中,RNA测序数据包括用户构建的测序数据和公开的测序数据;
当获取的RNA测序数据为公开的测序数据时,将其转换成FASTQ格式文本,FASTQ格式文本保存有测序序列及其测序质量得分信息,用于对公开的测序数据的序列进行质量检测。
3.根据权利要求2所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S1中,对序列进行质量检测包括测序质量检测和测序接头检测,当测序质量检测不合格或测序接头检测不合格时,序列的质量检测不合格;
进行测序质量检测时,基于测序质量得分信息,当序列中存在测序质量小于设定阈值的碱基或该序列子集的平均测序质量小于设定阈值时,测序质量检测不合格;
进行测序接头检测时,当序列中有超过设定阈值的读段含有测序接头时,测序接头检测不合格。
4.根据权利要求3所述的RNA测序数据的基因表达量计算方法,其特征在于,进行测序接头检测时,检测的测序接头包括illumina 3端接头、illumina5端接头、illuminauniversal接头、NexteraTransposase Sequence接头和SOLiD接头。
5.根据权利要求3所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S2中,对质量检测不合格的序列进行修剪包括去除序列中低于设定阈值的碱基或去除超过设定阈值的测序接头。
6.根据权利要求1所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S4中,在基因和转录本之间的对应关系中,一个基因对应一个或多个转录本。
7.根据权利要求1所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤A3中,基于GTF格式文本,质量合格的序列或修剪后的序列在转录组水平上的表达量的计算公式为:
Count转录本=coverage*length/read_len
式中,Count转录本是转录本的数量,即基因表达量,coverage为转录本的覆盖度,length为转录本的长度,read_len为序列读段的平均长度;
基于基因和转录本之间的对应关系,质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:
Count基因=∑(Count转录本)
式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。
8.根据权利要求1所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤B2中,将quant.sf格式纯文本转换为csv格式,得到质量合格的序列或修剪后的序列在转录组水平上的表达量;
所述质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:
Count基因=Σ(Count转录本)
式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。
CN202010603775.3A 2020-06-29 2020-06-29 一种rna测序数据的基因表达量计算方法 Active CN111696629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010603775.3A CN111696629B (zh) 2020-06-29 2020-06-29 一种rna测序数据的基因表达量计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010603775.3A CN111696629B (zh) 2020-06-29 2020-06-29 一种rna测序数据的基因表达量计算方法

Publications (2)

Publication Number Publication Date
CN111696629A CN111696629A (zh) 2020-09-22
CN111696629B true CN111696629B (zh) 2023-04-18

Family

ID=72484302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010603775.3A Active CN111696629B (zh) 2020-06-29 2020-06-29 一种rna测序数据的基因表达量计算方法

Country Status (1)

Country Link
CN (1) CN111696629B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409889A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) 一种sgRNA的靶标活性预测方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100797022B1 (ko) * 2006-11-24 2008-01-22 한국생명공학연구원 기능정보 융합과 mas활용을 위한 통합 유전마커시스템 ssr-fmm 과 이를 이용한 육종 방법
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN108388772A (zh) * 2018-01-26 2018-08-10 佛山科学技术学院 一种利用文本比对分析高通量测序基因表达水平的方法
CN110684830A (zh) * 2019-10-11 2020-01-14 深圳吉因加医学检验实验室 一种石蜡切片组织rna分析方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013055822A2 (en) * 2011-10-11 2013-04-18 Life Technologies Corporation Systems and methods for analysis and interpretation of nucleic acid sequence data
US10385394B2 (en) * 2013-03-15 2019-08-20 The Translational Genomics Research Institute Processes of identifying and characterizing X-linked disorders
US10579661B2 (en) * 2013-05-20 2020-03-03 Southern Methodist University System and method for machine learning and classifying data
US9085776B2 (en) * 2013-08-13 2015-07-21 Plant Response Biotech S.L. Method for enhancing drought tolerance in plants
CN103902852B (zh) * 2014-03-21 2017-03-22 深圳华大基因科技有限公司 基因表达的定量方法及装置
CN105624156B (zh) * 2014-11-04 2021-07-16 清华大学 含有反向sineb2重复序列的人工非编码rna及其在增强靶蛋白翻译中的用途
CA2911002C (en) * 2015-11-04 2016-11-29 Travis Wilfred BANKS High throughput method of screening a population for members comprising mutations(s) in a target sequence using alignment-free sequence analysis
CN107766696A (zh) * 2016-08-23 2018-03-06 武汉生命之美科技有限公司 基于RNA‑seq数据的真核生物可变剪接分析方法和系统
CN107368704A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN110021346B (zh) * 2018-01-09 2023-06-30 上海交通大学医学院附属瑞金医院 基于RNAseq数据的基因融合与突变检测方法及系统
JP7209334B2 (ja) * 2018-09-18 2023-01-20 国立大学法人東京工業大学 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置
CN110585197B (zh) * 2019-09-26 2023-02-17 上海交通大学 多巴胺受体拮抗剂泰尔登在治疗急性髓系白血病中的应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100797022B1 (ko) * 2006-11-24 2008-01-22 한국생명공학연구원 기능정보 융합과 mas활용을 위한 통합 유전마커시스템 ssr-fmm 과 이를 이용한 육종 방법
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN108388772A (zh) * 2018-01-26 2018-08-10 佛山科学技术学院 一种利用文本比对分析高通量测序基因表达水平的方法
CN110684830A (zh) * 2019-10-11 2020-01-14 深圳吉因加医学检验实验室 一种石蜡切片组织rna分析方法

Also Published As

Publication number Publication date
CN111696629A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN105886616B (zh) 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
CN107103205A (zh) 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
CN111081315B (zh) 一种同源假基因变异检测的方法
CN111243663B (zh) 一种基于模式增长算法的基因变异检测方法
CN103984879A (zh) 一种测定待测基因组区域表达水平的方法及系统
Djebali et al. Bioinformatics pipeline for transcriptome sequencing analysis
CN110993023A (zh) 复杂突变的检测方法及检测装置
CN111696629B (zh) 一种rna测序数据的基因表达量计算方法
CN111180013B (zh) 检测血液病融合基因的装置
CN109545283B (zh) 一种基于序列模式挖掘算法的系统发生树构建方法
CN110570901B (zh) 一种基于测序数据进行ssr分型的方法及系统
WO2020115580A1 (en) System and method for promoter prediction in human genome
CN111292806B (zh) 一种利用纳米孔测序的转录组分析方法
US20240120026A1 (en) Method and device for extracting somatic mutations from single-cell transcriptome sequencing data
CN110164504B (zh) 二代测序数据的处理方法、装置及电子设备
CN117059173A (zh) 一种拷贝数变异精确断裂点识别的方法及其应用
CN112397148A (zh) 序列比对方法、序列校正方法及其装置
CN114898803A (zh) 突变检测分析的方法、设备、可读介质及装置
CN114566215A (zh) 一种双端成对的剪接位点预测方法
CN110684830A (zh) 一种石蜡切片组织rna分析方法
JP5344670B2 (ja) 遺伝子発現解析方法、遺伝子発現解析装置、および遺伝子発現解析プログラム
Zeng et al. Detection and characterization of ribosome-associated long noncoding RNAs
JP2021515569A (ja) Rnaシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法
CN116070157B (zh) 基于级联森林和双流结构的circRNA识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant