CN104504302B

CN104504302B - Rna测序数据处理的方法和装置

Info

Publication number: CN104504302B
Application number: CN201410724856.3A
Authority: CN
Inventors: 陈利群; 姜晓雪; 郭阳; 周婷婷
Original assignee: Beijing Polytron Technologies Inc
Current assignee: Beijing Polytron Technologies Inc
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2018-02-02
Anticipated expiration: 2034-12-02
Also published as: CN104504302A

Abstract

本发明公开了一种RNA测序数据的处理方法和装置。该方法包括获取RNA测序数据的文件路径；根据RNA测序数据的文件路径获取包含RNA测序数据的测序数据文件；获取用于对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；输出RNA测序数据中满足查询条件的筛选结果。通过根据用户输入的感兴趣查询条件对RNA测序数据进行查询，为RNA测序数据的多样化筛选及分析提供了便利，从而使得处理结果更多样化，信息更全面，更具有指导价值。

Description

RNA测序数据处理的方法和装置

技术领域

本发明涉及测序数据处理领域，具体而言，涉及一种RNA测序数据的处理方法和装置。

背景技术

由于高通量测序技术具有通量高、成本低、数据信息量大的优点，越来越多的生物学研究人员选择采用高通量测序的方法作为一种研究的手段。然而，测序所得的数据是海量的，各大测序公司纷纷推出各种处理方法供用户选择，但现有技术中的测序数据的处理方法存在处理效率低下(只能针对单一样本进行分析)、输出结果单一、无法进行多样化分析的缺陷。

因此，急需建立一种能够对测序数据进行多样化分析的方法，以提供更准确、更全面的分析结果。

发明内容

本发明旨在提供一种RNA测序数据的处理方法和装置，以改善现有的处理方法所得结果单一、信息不全等缺陷。

为了实现上述目的，根据本发明的一个方面，提供了一种RNA测序数据的处理方法，方法包括：获取RNA测序数据的文件路径；根据RNA测序数据的文件路径获取包含RNA测序数据的测序数据文件；获取用于对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；输出RNA测序数据中满足查询条件的筛选结果。

进一步地，通过如下任意一种方式获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表：方式一：通过应用界面提供的输入框接收用户输入的基因名称列表；方式二：确定基因名称列表对应的列表保存地址，根据列表保存地址读取并导入基因名称列表；方式三：根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表，其中，基因名称的筛选条件包括如下任意一个或多个信息：样品表达量、差异比较组以及基因功能。

进一步地，在通过方式三获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下：当基因名称的筛选条件至少包括样品表达量时，根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表的步骤包括：获取用户输入样品的RPKM阈值或FPKM阈值，根据样品的RPKM阈值或FPKM阈值，从测序数据文件中筛选得到满足样品的RPKM阈值或FPKM阈值的基因名称列表。

进一步地，在通过方式三获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下：当基因名称的筛选条件至少包括差异比较组时，根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表的步骤包括：获取用户输入的比较样品组的log₂fold change阈值和q值阈值，根据比较样品组的log₂fold change阈值和q值阈值，从测序数据文件中筛选得到满足比较样品组的log₂fold change阈值和q值阈值的基因名称列表。

进一步地，在通过方式三获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下：当基因名称的筛选条件至少包括基因功能时，根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表的步骤包括：获取用户输入包括如下任意一个或多个基因功能信息：GO ID号、GO注释库中的关键词、KEGG ID号以及KEGG注释库中的关键词；根据一个或多个功能信息，从测序数据文件中筛选得到满足一个或多个基因功能信息的基因名称列表。

进一步地，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，方法还包括：根据用户输入的提取基因的基因信息标签，获取测序数据文件中符合基因名称列表中的基因的基因信息标签；其中，基因信息标签包括基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析和基因富集。

进一步地，在基因信息标签为基因功能注释的情况下，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，方法还包括：获取用户输入的用于提取基因的如下任意一种或多种基因功能注释：基因长度、NR、NT、KEGG、Swissprot、PFAM和GO的功能注释；根据基因名称列表和一种或多种基因功能注释，从测序数据文件中查询得到满足基因名称列表和基因功能注释的筛选结果。

进一步地，在基因信息标签为基因分子标记的情况下，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，方法还包括：获取用户输入的用于提取基因的如下任意一种或多种基因分子标记：SSR、SNP和INDEL；根据基因名称列表和一种或多种基因分子标记，从测序数据文件中查询得到满足基因名称列表和基因分子标记的筛选结果。

进一步地，在基因信息标签为基因序列的情况下，其中，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，方法还包括：获取用户输入的用于提取基因的如下任意一种或多种基因序列：转录本序列、单基因簇序列和CDS序列；根据基因名称列表和一种或多种基因序列，从测序数据文件中查询得到满足基因名称列表和基因序列的筛选结果。

进一步地，在基因信息标签为基因富集的情况下，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，方法还包括：获取用户输入的用于提取基因的如下任意一种或多种基因富集：GO富集和KEGG富集；根据基因名称列表和一种或多种基因富集，从测序数据文件中查询得到满足基因名称列表和基因富集的筛选结果。

根据本发明的另一方面，提供了一种RNA测序数据的处理装置，该装置包括：路径模块：用于获取RNA测序数据的文件路径；访问模块：用于根据RNA测序数据的文件路径获取包含RNA测序数据的测序数据文件；获取模块：用于获取对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；查询模块：用于根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；以及输出模块：用于输出RNA测序数据中满足查询条件的筛选结果。

进一步地，获取模块包括如下任意一个获取子模块：第一获取子模块：用于通过应用界面提供的输入框接收用户输入的基因名称列表；第二获取子模块：用于确定基因名称列表对应的列表保存地址，并根据列表保存地址读取并导入基因名称列表；第三获取子模块：用于根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表，其中，基因名称的筛选条件包括如下任意一个或多个信息：样品表达量、差异比较组以及基因功能。

进一步地，第三获取子模块还包括样品表达量筛选单元，样品表达量筛选单元包括：第一获取子单元，用于获取用户输入样品的RPKM阈值或FPKM阈值；以及第一筛选子单元，用于根据样品的RPKM阈值或FPKM阈值，从测序数据文件中筛选得到满足样品的RPKM阈值或FPKM阈值的基因名称列表。

进一步地，第三获取子模块还包括差异比较组筛选单元，差异比较组单元包括：第二获取子单元，用于获取用户输入的比较样品组的log₂fold change阈值和q值阈值，以及第二筛选子单元，用于根据比较样品组的log₂fold change阈值和q值阈值，从测序数据文件中筛选得到满足比较样品组的log₂fold change阈值和q值阈值的基因名称列表。

进一步地，第三获取子模块还包括基因功能筛选单元，基因功能单元包括：第三获取子单元，用于获取用户输入包括如下任意一个或多个基因功能信息：GO ID号、GO注释库中的关键词、KEGG ID号以及KEGG注释库中的关键词；以及第三筛选子单元，用于根据一个或多个功能信息，从测序数据文件中筛选得到满足一个或多个基因功能信息的基因名称列表。

进一步地，在第三获取模块之后，装置还包括基因信息标签模块，基因信息标签模块包括：基因信息标签接收子模块：用于接收用户输入的如下至少一种基因信息标签：基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析和基因富集；以及基因信息标签获取子模块：用于获取测序数据文件中符合基因名称列表中的基因的基因信息标签。

进一步地，基因信息标签接收子模块还包括如下至少一种提取单元：基因功能注释提取单元：用于提取基因名称列表中的基因的长度、NR、NT、KEGG、Swissprot、PFAM和GO中的任意一种功能注释；基因表达量提取单元：用于提取基因名称列表中的基因的表达量；基因分子标记提取单元：用于提取基因名称列表中的基因的SSR、SNP和INDEL分子标记；基因序列提取单元：用于提取基因名称列表中的基因的转录本序列、单一基因序列和CDS序列；基因差异分析提取单元：用于提取基因名称列表中的基因的差异表达信息；基因富集提取单元：用于提取基因名称列表中的基因的GO富集和KEGG富集。

应用本发明的技术方案，通过获取RNA测序数据的文件路径；然后根据RNA测序数据的文件路径访问测序数据文件，获取包含RNA测序数据的测序数据文件，其中，通过测序数据文件保存包含RNA测序数据的测序数据文件；接着获取对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；之后根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；最后，输出RNA测序数据中满足查询条件的筛选结果。本发明的上述处理方法，通过根据用户输入的感兴趣的一种或多种查询条件对RNA测序数据进行查询，为RNA测序数据的多样化筛选及分析提供了便利，从而使得处理得到的结果更多样化，信息更全面，更具有指导价值。该处理方法对RNA测序数据的处理操作简单，既方便客户自行查询，又能满足客户多样化的处理需求。通过提供多样化的基因属性信息，为测序数据的多样化筛选及分析提供了便利，从而使得处理得到的结果更加多样化，处理效率更高，所得到的信息更全面，更具有指导价值。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明一种优选的实施例中基因测序数据处理装置的结构示意图；

图2是根据本发明一种优选的实施例中基因测序数据处理方法的流程图；以及

图3是根据本发明另一种优选实施例中基因测序数据处理方法的详细流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

术语解释

SNP(single nucleotide polymorphism)代表单核苷酸多态性；

INDEL(insert and deletion)代表插入缺失；

SSR(Simple Sequence Repeat)代表简单重复序列；

CDS(Coding Sequence)代表编码序列；

RPKM(Per Kilo-base per Million)代表每百万读段中来自于某基因每千碱基长度的读段数；

FPKM(Per Kilobase of exon model per Million mapped reads)代表每一百万个比对上的读段中比对到外显子的每一千个碱基上的读段个数；

NR(Non-redundant protein sequences)代表非冗余蛋白质序列；

NT(Nucleotide acid sequence)代表核苷酸序列；

GO(Gene Ontology)代表基因本体论，在本发明中作为基因注释的数据库用；

Unigene代表单基因簇；

KEEG(Kyoto Encyclopedia of Genes and Genomes)代表京都基因与基因组百科全书，也是一种数据库；

Swissprot是一个能够对基因进行注释的数据库；

PFAM是本领域常用的一个蛋白质数据库。上述词语均为本领域的常规术语。

Log₂foldchange和Qvalue是用来计算基因差异表达的一种科学计算式，为本领域常规的计算方式。Log₂foldchange可译为差异倍数的以二为底的对数值，Qvalue译为矫正后的偏离零假设的概率值。

图1是根据本发明实施例的RNA测序数据的处理装置的结构示意图。如图1所示，该处理装置包括：路径模块：用于获取RNA测序数据的文件路径；访问模块：用于根据RNA测序数据的文件路径获取包含RNA测序数据的测序数据文件；获取模块：用于获取对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；查询模块：用于根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；以及输出模块：用于输出RNA测序数据中满足查询条件的筛选结果。

采用本发明的RNA测序数据的处理装置，通过路径模块获取RNA测序数据的文件路径；然后访问模块根据RNA测序数据的文件路径访问测序数据文件，获取包含RNA测序数据的测序数据文件，其中，通过测序数据文件保存包含RNA测序数据的测序数据文件；接着获取模块获取对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；之后查询模块根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；最后，输出模块输出RNA测序数据中满足查询条件的筛选结果。本发明的上述处理装置，通过根据用户输入的感兴趣的一种或多种查询条件对RNA测序数据进行查询，为RNA测序数据的多样化筛选及分析提供了便利，从而使得处理得到的结果更多样化，信息更全面，更具有指导价值。该处理装置对RNA测序数据的处理操作简单，既方便客户自行查询，又能满足客户多样化的查询需求。

根据本发明的上述实施例，在执行上述获取模块时通过如下任意一个获取子模块获取对测序数据文件进行筛选处理的查询条件中的基因名称列表：第一获取子模块：用于通过应用界面提供的输入框接收用户输入的基因名称列表；第二获取子模块：用于确定基因名称列表对应的列表保存地址，并根据列表保存地址读取并导入基因名称列表；第三获取子模块：用于根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表，其中，基因名称的筛选条件包括如下任意一个或多个信息：样品表达量、差异比较组以及基因功能。

上述实施例中，第一获取子模块能够通过应用界面提供的输入框接收用户输入的基因名称列表；第二获取子模块能够通过确定的基因名称列表对应的列表保存地址，并根据列表保存地址读取并导入基因名称列表；第三获取子模块通过根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表，具体地，预先确定的基因名称的筛选条件包括如下任意一个或多个信息：样品表达量、差异比较组以及基因功能。通过至少提供上述三种获取子模块，满足了用户获取查询条件的多样化的需求。

在本发明的上述实施例中，根据预先确定的筛选条件的不同，当上述预先确定的筛选条件为样品表达量时，上述第三获取子模块还包括样品表达量筛选单元，其中，样品表达量筛选单元包括：第一获取子单元，用于获取用户输入样品的RPKM阈值或FPKM阈值；以及第一筛选子单元，用于根据样品的RPKM阈值或FPKM阈值，从测序数据文件中筛选得到满足样品的RPKM阈值或FPKM阈值的基因名称列表。

上述实施例中，当预先确定的筛选条件为样品表达量时，上述第三获取子模块通过样品表达量筛选单元的第一获取单元获取用户输入样品的RPKM阈值或FPKM阈值，然后利用第一筛选单元根据样品的RPKM阈值或FPKM阈值，从测序数据文件中筛选得到满足样品的RPKM阈值或FPKM阈值的基因名称列表。样品表达量筛选单元为方便用户根据感兴趣的样品的表达量来进行筛选基因名称列表。

在本发明的上述实施例中，根据预先确定的筛选条件的不同，当上述预先确定的筛选条件为差异比较组时，上述第三获取子模块还包括差异比较组筛选单元，其中，差异比较组单元包括：第二获取子单元，用于获取用户输入的比较样品组的log₂foldchange阈值和q值阈值，以及第二筛选子单元，用于根据比较样品组的log₂foldchange阈值和q值阈值，从测序数据文件中筛选得到满足比较样品组的log₂foldchange阈值和q值阈值的基因名称列表。

上述实施例中，当预先确定的筛选条件为差异比较组时，上述第三获取子模块通过差异比较组筛选单元的第二获取子单元获取用户输入的比较样品组的log₂foldchange阈值和q值阈值，然后通过第二筛选子单元根据比较样品组的log₂foldchange阈值和q值阈值，从测序数据文件中筛选得到满足比较样品组的log₂foldchange阈值和q值阈值的基因名称列表。差异比较组单元为方便用户根据关注的样品比较组的差异来进行筛选得到基因名称列表。

在本发明的上述实施例中，当上述预先确定的筛选条件为基因序列时，上述第三获取子模块还包括基因功能筛选单元，其中，基因功能筛选单元包括：第三获取子单元，用于获取用户输入包括如下任意一个或多个基因功能信息：GO ID号、GO注释库中的关键词、KEGGID号以及KEGG注释库中的关键词；以及第三筛选子单元，用于根据一个或多个功能信息，从测序数据文件中筛选得到满足一个或多个基因功能信息的基因名称列表。

上述实施例中，第三获取子模块利用基因功能筛选单元的第三获取子单元获取用户输入包括如下任意一个或多个基因功能信息：GO ID号、GO注释库中的关键词、KEGG ID号以及KEGG注释库中的关键词；然后利用第三筛选子单元根据上述一个或多个基因功能信息，从测序数据文件中筛选得到满足一个或多个基因功能信息的基因名称列表。基因功能筛选单元便于用户根据特定的基因功能信息从RNA测序数据文件中筛选得到基因名称列表。

在本发明的上述实施例中，在执行第三获取模块之后，上述装置还包括基因信息标签模块，基因信息标签模块包括：基因信息标签接收子模块：用于接收用户输入的如下至少一种基因信息标签：基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析和基因富集；以及基因信息标签获取子模块：用于获取测序数据文件中符合基因名称列表中的基因的基因信息标签。

上述实施例中，基因信息标签模块中的基因信息标签接收子模块接收用户输入的如下至少一种基因信息标签：基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析和基因富集，然后执行基因信息标签获取子模块，获取测序数据文件中符合基因名称列表中的基因的基因信息标签。通过在执行第三获取模块之后执行基因信息标签模块，便于用户根据自己感兴趣的基因信息标签作为查询条件，从RNA测序数据文件中查询得到符合基因信息标签的筛选结果，从而得到感兴趣的输入结果。

在上述实施例中，根据基因信息标签接收子模块接收的用户输入的基因信息标签的不同，上述基因信息标签接收子模块还包括如下至少一种提取单元：基因功能注释提取单元：用于提取基因名称列表中的基因的长度、NR、NT、KEGG、Swissprot、PFAM和GO中的任意一种功能注释；基因表达量提取单元：用于提取基因名称列表中的基因的表达量；基因分子标记提取单元：用于提取基因名称列表中的基因的SSR、SNP和INDEL分子标记；基因序列提取单元：用于提取基因名称列表中的基因的转录本序列、单一基因序列(单基因簇序列)和CDS序列；基因差异分析提取单元：用于提取基因名称列表中的基因的差异表达信息；基因富集提取单元：用于提取基因名称列表中的基因的GO富集和KEGG富集。

其中，基因功能注释提取单元能够提取基因名称列表中的基因的长度、NR、NT、KEGG、Swissprot、PFAM和GO中的任意一种功能注释；基因表达量提取单元能够提取基因名称列表中的基因的表达量；基因分子标记提取单元能够提取基因名称列表中的基因的SSR、SNP和INDEL分子标记；基因序列提取单元能够提取基因名称列表中的基因的转录本序列、单一基因序列(单基因簇序列)和CDS序列；基因差异分析提取单元能够提取基因名称列表中的基因的差异表达信息；基因富集提取单元能够提取基因名称列表中的基因的GO富集和KEGG富集。上述提取单元的多样化选择，使得客户可以根据自己所需随意选择一种或多种基因信息标签，从而得到感兴趣的基因信息标签。

图2是根据本发明实施例的RNA测序数据的处理方法的流程图。图3是根据本发明实施例的RNA测序数据的处理方法的详细流程图。如图2和图3所示，该处理方法包括如下步骤：获取RNA测序数据的文件路径；根据RNA测序数据的文件路径访问测序数据文件，获取包含RNA测序数据的测序数据文件，其中，通过测序数据文件保存包含RNA测序数据的测序数据文件；获取用于对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；输出RNA测序数据中满足查询条件的筛选结果。

采用本发明的RNA测序数据的处理方法，通过获取RNA测序数据的文件路径；然后根据RNA测序数据的文件路径访问测序数据文件，获取包含RNA测序数据的测序数据文件，其中，通过测序数据文件保存包含RNA测序数据的测序数据文件；接着获取对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；之后根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；最后，输出RNA测序数据中满足查询条件的筛选结果。本发明的上述处理方法，通过根据用户输入的感兴趣的一种或多种查询条件对RNA测序数据进行查询，为RNA测序数据的多样化筛选及分析提供了便利，从而使得处理得到的结果更多样化，信息更全面，更具有指导价值。该处理方法对RNA测序数据的处理操作简单，既方便客户自行查询，又能满足客户多样化的处理需求。

在上述实施例中，获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表的方式包括如下任意一种方式：方式一：通过应用界面提供的输入框接收用户输入的基因名称列表；方式二：确定基因名称列表对应的列表保存地址，根据列表保存地址读取并导入基因名称列表；方式三：根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表。

上述实施例中，方式一便于用户直接手动输入或粘贴的方式直接输入感兴趣的基因名称或基因名称列表；方式二方便用户在已经有感兴趣的基因名称的列表时，采用直接导入的基因名称列表文件保存地址的方式进行获取。其中，基因名称列表文件为txt格式文本，且每个基因一行。方式三中，基因名称的筛选条件包括如下任意一个或多个信息：样品表达量、差异比较组以及基因功能。当根据样品表达量、差异比较组或基因功能设定筛选条件时，将得到相应筛选条件的基因名称列表。当上述所有筛选条件都选择时，则得到满足所有筛选条件的基因名称列表。

上述实施例中，在通过方式三获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下，当基因名称的筛选条件至少包括样品表达量时，根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表的步骤包括：获取用户输入样品的RPKM阈值或FPKM阈值，根据样品的RPKM阈值或FPKM阈值，从测序数据文件中筛选得到满足样品的RPKM阈值或FPKM阈值的基因名称列表。

上述实施例中，当基因名称的筛选条件至少包括样品表达量时，从测序数据文件中筛选得到基因名称列表的步骤包括：通过获取用户输入样品的RPKM阈值或FPKM阈值，根据样品的RPKM阈值或FPKM阈值，从测序数据文件中筛选得到满足样品的RPKM阈值或FPKM阈值的基因名称列表，这样可以根据客户输入的样品及样品的表达量进行筛选基因名称列表。比如，选择第一批样品和第二批样品，并且第一批样品的RPKM值为0.5，第二批样品的FPKM为0.5，则可以筛选得到这两个样品中FPKM值均大于0.5的基因名称列表。

上述实施例中，在通过方式三获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下，当基因名称的筛选条件至少包括差异比较组时，根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表的步骤包括：获取用户输入的比较样品组的log₂fold change阈值和q值阈值，根据比较样品组的log₂foldchange阈值和q值阈值，从测序数据文件中筛选得到满足比较样品组的log₂fold change阈值和q值阈值的基因名称列表。

上述实施例中，通过获取用户输入的比较样品组的log₂fold change阈值和q值阈值，根据比较样品组的log₂fold change阈值和q值阈值，从测序数据文件中筛选得到满足比较样品组的log₂fold change阈值和q值阈值的基因名称列表。这样便于客户根据感兴趣的差异比较组，设置特定的筛选数值进行筛选得到存在差异表达的基因名称列表。比如，用户可以通过勾选比较组，输入log₂fold change大于3，q值小于0.0001的筛选阈值，便可输出在该比较组中log₂fold change大于3，q value小于0.0001的基因名称列表。

上述实施例中，在通过方式三获取用于对测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下，当基因名称的筛选条件至少包括基因功能时，根据预先确定的基因名称的筛选条件，从测序数据文件中筛选得到基因名称列表的步骤包括：获取用户输入包括如下任意一个或多个基因功能信息：GO ID号、GO注释库中的关键词、KEGG ID号以及KEGG注释库中的关键词；根据一个或多个功能信息，从测序数据文件中筛选得到满足一个或多个基因功能信息的基因名称列表。

在上述实施例中，通过获取用户输入包括如下任意一个或多个基因功能信息：GOID号、GO注释库中的关键词、KEGG ID号以及KEGG注释库中的关键词；根据一个或多个功能信息，从测序数据文件中筛选得到满足一个或多个基因功能信息的基因名称列表。这样便于客户挑选功能相关的基因名称列表，其中的筛选条件可以是感兴趣的GO ID或KEGG ID，也可以是基因功能的关键词，例如，输入“膜”，则可以筛选得到测序数据中基因功能的描述中还有这个关键词的基因的名称列表。

在上述实施例中，如果在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，上述方法还包括：根据用户输入的提取基因的基因信息标签，获取测序数据文件中符合基因名称列表中的基因的基因信息标签；其中，基因信息标签包括基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析和基因富集。

具体地，根据所欲基因信息标签的不同，上述获取测序数据文件中符合基因名称列表中的基因的基因信息标签的步骤也略有调整。

上述实施例中，在基因信息标签为基因功能注释的情况下，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，上述方法还包括根据用户输入的提取基因的如下任意一种或多种基因功能注释的基因信息标签：基因长度、NR、NT、KEGG、Swissprot、PFAM和GO的功能注释；根据基因名称列表和一种或多种基因功能注释，从测序数据文件中查询得到满足基因名称列表和基因功能注释的筛选结果。通过筛选不同数据文件的基因功能注释，可以提取任何上述基因的功能注释结果。

上述实施例中，在基因信息标签为基因分子标记的情况下，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，上述方法还包括根据用户输入的提取基因的如下任意一种或多种基因分子标记的基因信息标签：SSR、SNP和INDEL；根据基因名称列表和一种或多种基因分子标记，从测序数据文件中查询得到满足基因名称列表和基因分子标记的筛选结果。通过筛选不同的分子标记，可以提取基因名称列表中的基因的上述任一种分子标记。

上述实施例中，在基因信息标签为基因序列的情况下，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，上述方法还包括根据用户输入的提取基因的如下任意一种或多种基因序列的基因信息标签：转录本序列、单基因簇序列和CDS序列；根据基因名称列表和一种或多种基因序列，从测序数据文件中查询得到满足基因名称列表和基因序列的筛选结果。通过筛选基因不同结构的序列，可以提取基因名称列表中的基因的不同结构的序列信息。

上述实施例中，在基因信息标签为基因富集的情况下，在获取到用于对测序数据文件进行筛选处理的查询条件中的基因名称列表之后，上述方法还包括根据用户输入的提取基因的如下任意一种或多种基因富集的基因信息标签：GO富集和KEGG富集；根据基因名称列表和一种或多种基因富集，从测序数据文件中查询得到满足基因名称列表和基因富集的筛选结果。通过筛选GO富集或KEGG富集，可以提取基因名称列表中的基因的不同数据文件的富集信息。

下面结合图3，以水稻RNA测序数据为例来详细说明本发明的处理方法。首先，执行处理结果文件保存地址确定步骤，以提供每次处理的结果输出位置；然后执行通过获取RNA测序数据的文件路径步骤，然后根据RNA测序数据的文件路径获取包含RNA测序数据的测序数据文件，接着通过如下三种方式之一获取到的对测序数据文件进行查询的基因名称列表：通过应用界面提供的输入框接收用户输入的基因名称列表、确定已知基因名称列表对应的保存低至，根据保存地址读取并导入基因名称列表或者根据预定筛选条件，从RNA测序数据文件中筛选得到的基因名称列表，比如，通过筛选基因表达的RPKM值大于0.5的样品1中的基因进行筛选得到的基因名称列表；然后通过提取基因信息标签步骤提取包括基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析以及基因富集中至少一种的基因信息标签，比如，通过提取基因中的INDEL和SNP分子标记的信息标签；然后根据所获得的待查询的样品1中表达量RPKM值大于0.5的基因名称列表和INDEL、SNP基因标签信息作为查询条件，执行查询步骤，从测序数据文件中查询得到满足上述查询条件的筛选结果，最后输出样品1中表达量RPKM值大于0.5的基因中的INDEL和SNP分子标记。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：采用本发明的RNA测序数据的处理方法，通过获取RNA测序数据的文件路径；然后根据RNA测序数据的文件路径访问测序数据文件，获取包含RNA测序数据的测序数据文件，其中，通过测序数据文件保存包含RNA测序数据的测序数据文件；接着获取对测序数据文件进行筛选处理的查询条件，查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；之后根据查询条件从测序数据文件中查询得到RNA测序数据中满足查询条件的筛选结果；最后，输出RNA测序数据中满足查询条件的筛选结果。本发明的上述处理方法，通过根据用户输入的感兴趣的一种或多种查询条件对RNA测序数据进行查询，为RNA测序数据的多样化筛选及分析提供了便利，从而使得处理得到的结果更多样化，信息更全面，更具有指导价值。该处理方法对RNA测序数据的处理操作简单，既方便客户自行查询，又能满足客户多样化的处理需求。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种RNA测序数据的处理方法，其特征在于，所述方法包括：

获取RNA测序数据的文件路径；

根据所述RNA测序数据的文件路径获取包含所述RNA测序数据的测序数据文件；

获取用于对所述测序数据文件进行筛选处理的查询条件，所述查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；

根据所述查询条件从所述测序数据文件中查询得到所述RNA测序数据中满足所述查询条件的筛选结果；

输出所述RNA测序数据中满足所述查询条件的筛选结果；

其中，通过如下任意一种方式获取用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表：

方式一：通过应用界面提供的输入框接收用户输入的所述基因名称列表；

方式二：确定所述基因名称列表对应的列表保存地址，根据所述列表保存地址读取并导入所述基因名称列表；

方式三：根据预先确定的基因名称的筛选条件，从所述测序数据文件中筛选得到所述基因名称列表，其中，所述基因名称的筛选条件包括如下任意一个或多个信息：样品表达量、差异比较组以及基因功能；

在获取到用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表之后，所述方法还包括：

根据用户输入的提取基因的基因信息标签，获取所述测序数据文件中符合所述基因名称列表中的基因的所述基因信息标签；其中，所述基因信息标签包括基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析和基因富集。

2.根据权利要求1所述的方法，其特征在于，在通过方式三获取用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下：

当所述基因名称的筛选条件至少包括样品表达量时，根据预先确定的基因名称的筛选条件，从所述测序数据文件中筛选得到所述基因名称列表的步骤包括：

获取用户输入样品的RPKM阈值或FPKM阈值，

根据所述样品的RPKM阈值或FPKM阈值，从所述测序数据文件中筛选得到满足所述样品的RPKM阈值或FPKM阈值的基因名称列表。

3.根据权利要求1所述的方法，其特征在于，在通过方式三获取用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下：

当所述基因名称的筛选条件至少包括差异比较组时，根据预先确定的基因名称的筛选条件，从所述测序数据文件中筛选得到所述基因名称列表的步骤包括：

获取用户输入的比较样品组的log₂fold change阈值和q值阈值，

根据所述比较样品组的log₂fold change阈值和q值阈值，从所述测序数据文件中筛选得到满足所述比较样品组的log₂fold change阈值和q值阈值的基因名称列表。

4.根据权利要求1所述的方法，其特征在于，在通过方式三获取用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表的情况下：

当所述基因名称的筛选条件至少包括基因功能时，根据预先确定的基因名称的筛选条件，从所述测序数据文件中筛选得到所述基因名称列表的步骤包括：

获取用户输入包括如下任意一个或多个基因功能信息：GO ID号、GO注释库中的关键词、KEGG ID号以及KEGG注释库中的关键词；

根据所述一个或多个基因功能信息，从所述测序数据文件中筛选得到满足所述一个或多个基因功能信息的基因名称列表。

5.根据权利要求1所述的方法，其特征在于，在所述基因信息标签为基因功能注释的情况下，在获取到用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表之后，所述方法还包括：

获取用户输入的用于提取基因的如下任意一种或多种基因功能注释：基因长度、NR、NT、KEGG、Swissprot、PFAM和GO的功能注释；

根据所述基因名称列表和所述一种或多种基因功能注释，从所述测序数据文件中查询得到满足所述基因名称列表和所述基因功能注释的筛选结果。

6.根据权利要求1所述的方法，其特征在于，在所述基因信息标签为基因分子标记的情况下，在获取到用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表之后，所述方法还包括：

获取用户输入的用于提取基因的如下任意一种或多种基因分子标记：SSR、SNP和INDEL；

根据所述基因名称列表和所述一种或多种基因分子标记，从所述测序数据文件中查询得到满足所述基因名称列表和所述基因分子标记的筛选结果。

7.根据权利要求1所述的方法，其特征在于，在所述基因信息标签为基因序列的情况下，其中，在获取到用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表之后，所述方法还包括：

获取用户输入的用于提取基因的如下任意一种或多种基因序列：转录本序列、单基因簇序列和CDS序列；

根据所述基因名称列表和所述一种或多种基因序列，从所述测序数据文件中查询得到满足所述基因名称列表和所述基因序列的筛选结果。

8.根据权利要求1所述的方法，其特征在于，在所述基因信息标签为基因富集的情况下，在获取到用于对所述测序数据文件进行筛选处理的查询条件中的基因名称列表之后，所述方法还包括：

获取用户输入的用于提取基因的如下任意一种或多种基因富集：GO富集和KEGG富集；

根据所述基因名称列表和所述一种或多种基因富集，从所述测序数据文件中查询得到满足所述基因名称列表和所述基因富集的筛选结果。

9.一种RNA测序数据的处理装置，其特征在于，所述装置包括：

路径模块：用于获取RNA测序数据的文件路径；

访问模块：用于根据所述RNA测序数据的文件路径获取包含所述RNA测序数据的测序数据文件；

获取模块：用于获取对所述测序数据文件进行筛选处理的查询条件，所述查询条件至少包括如下任意一种或多种条件：包含至少一个基因名称的基因名称列表以及至少一个样本的基因信息标签；

查询模块：用于根据所述查询条件从所述测序数据文件中查询得到所述RNA测序数据中满足所述查询条件的筛选结果；以及

输出模块：用于输出所述RNA测序数据中满足所述查询条件的筛选结果；

其中，所述获取模块包括如下任意一个获取子模块：

第一获取子模块：用于通过应用界面提供的输入框接收用户输入的所述基因名称列表；

第二获取子模块：用于确定所述基因名称列表对应的列表保存地址，并根据所述列表保存地址读取并导入所述基因名称列表；

第三获取子模块：用于根据预先确定的基因名称的筛选条件，从所述测序数据文件中筛选得到所述基因名称列表，其中，所述基因名称的筛选条件包括如下任意一个或多个信息：样品表达量、差异比较组以及基因功能；

在所述第三获取模块之后，所述装置还包括基因信息标签模块，所述基因信息标签模块包括：

基因信息标签接收子模块：用于接收用户输入的如下至少一种基因信息标签：基因功能注释、基因表达量、基因分子标记、基因序列、基因差异分析和基因富集；以及

基因信息标签获取子模块：用于获取所述测序数据文件中符合所述基因名称列表中的基因的所述基因信息标签。

10.根据权利要求9所述的装置，其特征在于，所述第三获取子模块还包括样品表达量筛选单元，所述样品表达量筛选单元包括：

第一获取子单元，用于获取用户输入样品的RPKM阈值或FPKM阈值；以及

第一筛选子单元，用于根据所述样品的RPKM阈值或FPKM阈值，从所述测序数据文件中筛选得到满足所述样品的RPKM阈值或FPKM阈值的基因名称列表。

11.根据权利要求9所述的装置，其特征在于，所述第三获取子模块还包括差异比较组筛选单元，所述差异比较组单元包括：

第二获取子单元，用于获取用户输入的比较样品组的log₂fold change阈值和q值阈值，以及

第二筛选子单元，用于根据所述比较样品组的log₂fold change阈值和q值阈值，从所述测序数据文件中筛选得到满足所述比较样品组的log₂fold change阈值和q值阈值的基因名称列表。

12.根据权利要求9所述的装置，其特征在于，所述第三获取子模块还包括基因功能筛选单元，所述基因功能单元包括：

第三获取子单元，用于获取用户输入包括如下任意一个或多个基因功能信息：GO ID号、GO注释库中的关键词、KEGG ID号以及KEGG注释库中的关键词；以及

第三筛选子单元，用于根据所述一个或多个功能信息，从所述测序数据文件中筛选得到满足所述一个或多个基因功能信息的基因名称列表。

13.根据权利要求9所述的装置，其特征在于，所述基因信息标签接收子模块还包括如下至少一种提取单元：

基因功能注释提取单元：用于提取所述基因名称列表中的基因的长度、NR、NT、KEGG、Swissprot、PFAM和GO中的任意一种功能注释；

基因表达量提取单元：用于提取所述基因名称列表中的基因的表达量；

基因分子标记提取单元：用于提取所述基因名称列表中的基因的SSR、SNP和INDEL分子标记；

基因序列提取单元：用于提取所述基因名称列表中的基因的转录本序列、单一基因序列和CDS序列；

基因差异分析提取单元：用于提取所述基因名称列表中的基因的差异表达信息；

基因富集提取单元：用于提取所述基因名称列表中的基因的GO富集和KEGG富集。