CN115605613A

CN115605613A - Rna信息的数据处理方法

Info

Publication number: CN115605613A
Application number: CN202180035148.7A
Authority: CN
Inventors: 上原裕也; 矢岛琴美; 井上高良; 大矢直树
Original assignee: Kao Corp
Current assignee: Kao Corp
Priority date: 2020-05-14
Filing date: 2021-05-14
Publication date: 2023-01-13
Also published as: EP4151728A4; US20230197195A1; EP4151728A1; JP2021182386A; WO2021230380A1

Abstract

本发明提供一种在对由源自受试者的分泌物得到的RNA信息进行分析的情况下，用于进行有效的标准化处理的RNA信息的数据处理。一种数据处理方法，其中，用于将从多个受试者采集的分泌物作为生物试样，并对从其得到的RNA表达信息进行分析，并且，具备以下的a)～d)的工序：a)将检测对象RNA中表达量为零或视为零的RNA判断为不能检测，对可检测的RNA的数量进行计数，对各试样求出可检测的RNA相对于检测对象RNA的总数的比率1(TD值)的工序；b)将试样中的比率1小于设定在5～29％的范围内的阈值的试样排除，选择分析对象试样的工序；c)根据所选择的分析对象试样的RNA表达信息，对每个检测对象RNA，求出其表达量比零或视为零的表达量多的试样数相对于全部分析对象试样数的比率2(SD值)的工序；d)将检测对象RNA中比率2小于设定在81～99％的范围内的阈值的RNA排除，将除此以外的RNA作为分析对象提取其表达信息的工序。

Description

RNA信息的数据处理方法

技术领域

本发明涉及来自人的分泌物中的RNA信息的数据处理方法。

背景技术

近年来，开发了通过生物试样中的DNA、RNA等核酸的分析来研究人的生物体内的当前进而将来的生理状态的技术。使用了核酸的分析具有如下优点：确立了综合性的分析方法，通过一次的分析得到丰富的信息，以及基于与单核苷酸多态性、RNA功能等相关的大量的研究报告，分析结果的功能性的关联容易。报道了来自生物体的核酸能够从血液等体液、分泌物、组织等中提取，但最近报告了通过将皮肤表面脂质(skin surface lipids；SSL)中含有的RNA作为生物体的分析用的试样使用，能够从SSL检测表皮、汗腺、毛囊和皮脂腺的标记基因(专利文献1)。

对在细胞中表达的RNA序列进行直接定量的RNA序列(RNA-Seq)分析，是在使用信号强度比的微阵列中能够进行定量困难的低表达基因的检测，能够取得高精度的表达谱，因此是目前备受瞩目的分析法。在基因表达分析中，确定试样中的特定RNA的浓度和/或相对或绝对的量，对特定的RNA进行定量化(定量)，但在该情况下，期望精度高、具有再现性的方法。但是，在从不同个体采集的生物试样中，生物试样或分析过程中有时会产生依赖的表达谱的偏差，因此未必能够直接比较特定的RNA的数量。因此，为了在来自2个以上不同个体的生物试样中良好地比较特定的RNA的数量，对试样间的RNA的数量实施标准化。

在RNA-seq分析中，使用在基因的表达量的定量中被映射到基因组中的序列读取的数量。因此，在标准化中，使用了作为使用总读取数的校正法的RPM；Reads Per Millionreads mapped(非专利文献1)、RLE；Relative Log Expression(非专利文献2)等。基于RLE的标准化安装于用于进行被称为DESeq2的一系列基因表达量分析的分析方法。

但是，从皮脂或唾液这样的分泌物采集的RNA、特别是从SSL采集的RNA的信息的缺损值多，偏差多，因此，如果进行与其它RNA的信息相同的数据处理，则即使之后进行了机器学习等统计处理，有时也会在精度、再现性方面产生问题。

现有技术文献：

专利文献1：国际公开公报第2018/008319号

非专利文献1：信息处理学会研究报告，Vol.2013-BIO-33(9)：1-3非专利文献2：Genome Biol,2014,15(12)：550

发明内容

本发明涉及以下的1)～3)。

1)一种数据处理方法，其中，用于将从多个受试者采集的分泌物作为生物试样，并对从其得到的RNA表达信息进行分析，并且，具备以下的a)～d)的工序：

a)将检测对象RNA中表达量为零或视为零的RNA判断为不能检测，对可检测的RNA数进行计数，对各试样求出可检测的RNA数相对于检测对象RNA的总数的比率1(TD值)的工序；

b)将试样中比率1小于设定在5～29％的范围内的阈值的试样排除，选择分析对象试样的工序；

c)根据所选择的分析对象试样的RNA表达信息，对每个检测对象RNA，求出其表达量比零或视为零的表达量多的试样数相对于全部分析对象试样数的比率2(SD值)的工序；

d)将检测对象RNA中比率2小于设定在81～99％的范围内的阈值的RNA排除，将除此以外的RNA作为分析对象提取其表达信息的工序。

2)一种RNA表达值的校正方法，其中，对通过1)的方法提取的RNA表达信息的总数进行标准化。

3)一种RNA分析用数据集，其中，用于执行1)的数据处理方法或2)的校正方法的程序、记录该程序的信息记录介质、执行该程序的计算装置、以及通过该数据处理方法或校正方法而得到。

附图说明

图1是各受试者中的Log₂(normalized count+1)值的箱线图。

具体实施方式

本发明涉及一种RNA信息的数据处理方法，其在将源自受试者的分泌物作为生物试样，对从其得到的RNA信息进行分析的情况下，用于进行有效的标准化处理。

本发明人等对将SSL中所含的RNA的表达状态作为序列信息、进行用于利用于各种统计学方法的表达值的标准化时的使用数据进行了研究，结果发现，通过将成为数据分析对象试样的选择标准的阈值和成为数据分析对象基因的选择标准的阈值设定为特定范围并提取RNA信息，能够进行有效的标准化处理。

根据本发明，在RNA表达信息中缺损值或偏差多的生物试样中，在对来源于多个试样的RNA表达谱进行比较的情况下，能够进行有效的标准化处理，能够进行基于RNA信息的精度高、再现性高的统计分析。

在本发明的方法中，作为成为分析对象的“RNA”，只要是来自生物体的RNA即可，可以是总RNA、mRNA、rRNA、tRNA、非编码RNA(non-coding RNA)中的任一种，但优选为mRNA。

本发明的方法中使用的生物试样是源自受试者的分泌物，具体而言，可以举出含有皮脂、唾液、鼻涕、眼泪、汗、尿、精液、阴道液、羊水、乳汁、粪便等的试样。其中，本发明的方法应用于RNA信息的缺损多、偏差多的皮肤表面脂质(SSL)是有效的。

“皮肤表面脂质(SSL)”是指存在于皮肤表面的脂溶性组分，有时也称为皮脂。通常，SSL主要含有位于皮肤的皮脂腺等外分泌腺分泌的分泌物，以覆盖皮肤表面的薄层的形式存在于皮肤表上。SSL包含在皮肤细胞中表达的RNA。在此，“皮肤”只要没有特别限定，是包含角质层、表皮、真皮、毛囊、以及汗腺、皮脂腺和其它腺等组织的区域的总称。

在来自受试者的皮肤的SSL的采集中，可以采用用于从皮肤的SSL的回收或除去的所有手段。优选使用SSL吸收性原材料、SSL粘接性原材料、或从皮肤擦去SSL的器具。作为SSL吸收性原材料或SSL粘接性原材料，只要是与SSL具有亲和性的原材料就没有特别限定，例如可以举出聚丙烯、纸浆等。作为来自皮肤的SSL的采集顺序的更详细的例子，可以举出：使SSL吸收到吸油纸、吸油膜等片状原材料的方法；使SSL与玻璃板、胶带等粘接的方法；利用刮刀、刮片等将SSL摩擦而回收的方法等。为了提高SSL的吸附性，也可以使用预先含有脂溶性高的溶剂的SSL吸收性原材料。另一方面，SSL吸收性原材料如果含有水溶性高的溶剂、水分，则SSL的吸附受到阻碍，因此优选水溶性高的溶剂、水分的含量少。SSL吸收性原材料优选在干燥的状态下使用。作为采集SSL的皮肤的部位，没有特别限定，可以举出头、脸、颈、躯干、手脚等身体的任意部位的皮肤，优选皮脂的分泌多的部位，例如头或脸的皮肤，更优选脸的皮肤。

从受试者采集的含RNA的SSL可以保存一定期间。为了极力抑制所含有的RNA的分解，采集的SSL优选在采集后尽可能迅速地在低温条件下保存。该含RNA的SSL保存的温度条件为0℃以下即可，优选为-20±20℃～-80±20℃，更优选为-20±10℃～-80±10℃，进一步优选为-20±20℃～-40±20℃，进一步优选为-20±10℃～-40±10℃，进一步优选为-20±10℃，进一步优选为-20±5℃。该含RNA的SSL在该低温条件下的保存的期间没有特别限定，优选为12个月以下，例如为6小时以上且12个月以下，更优选为6个月以下，例如为1天以上且6个月以下，进一步优选为3个月以下，例如为3天以上且3个月以下。

本发明的方法中，RNA的表达信息的取得方法没有特别限定，例如可以举出通过逆转录将试样中含有的RNA转换为cDNA后，通过测定该cDNA或其扩增产物来取得。作为测定表达水平的手段，可以举出DNA芯片、DNA微阵列、RNA-Seq等，优选为RNA-Seq。

在使用微阵列分析的情况下，通过信号强度比对RNA的表达量进行定量，在RNA-seq分析中，通过被映射到基因组中的序列读取的数量(读取计数值)进行定量。

本发明的方法包括取得RNA的表达量的信息的工序，作为RNA的表达量，包括得到上述的定量的序列读取的数量(读取计数值)的工序，在该工序之后，将该RNA的表达量的数据保存在服务器或计算机的记录介质中，将其输入到计算机中，根据输入的数据，通过将本发明的数据的处理安装在计算机中的程序来执行。

在本发明的RNA信息的数据处理方法中，通过设定成为数据分析对象试样的选择标准的阈值和成为数据分析对象基因的选择标准的阈值，提取分析对象RNA的表达信息，进行标准化。

如后述的实施例所示，关于来自受试者的试样中的RNA表达量数据(基于RNA-Seq的读取计数值)，对成为数据分析对象的试样(受试者)的选择标准和成为数据分析对象的基因的选择标准进行了以下的研究。

作为数据分析对象的试样(j)的选择指标使用按每个试样由下式求出的TD_j值。TD值是检测到的目标(Targets Detected)，相当于基因检测率(％)。

在此，检测对象基因数的总和是指在RNA的表达分析中判断为理论上可检测的基因的总和，根据所使用的RNA表达分析方法适当确定即可。在后述的实施例的序列方法(AmpliSeq)的情况下，基于多重PCR的引物对数来决定。

另外，可检测的基因数可通过从检测对象基因数的总和中减去不能检测的基因数而算出。在此，不能检测的基因数量是指表达为零或视为零的基因的数量。

另一方面，在成为数据分析对象的基因(i)的选择中，使用按每个基因由下式求出的SD_i值。SD值为检测到的试样(Samples Detected)，对于使用了TD值的选择后的数据分析对象试样的RNA表达量数据的各基因，是能够检测到来自该基因的RNA表达的试样的比例(检测试样率)。在此，所谓能够检测到RNA表达，是指能够越过零或视为零的量而检测到表达。

然后，将TD_j值为0％、小于20％以及小于30％的试样(受试者)排除，选择除此以外的试样(受试者)作为数据分析对象试样(受试者)，接着将SD_i值小于70％、小于80％、小于90％以及小于100％的基因排除，选择除此以外的基因作为数据分析对象基因，对于这些基因所提取的RNA表达量数据，通过DESeq2(Love MI et al.Genome Biol.2014)进行标准化处理，验证了对正态分布的近似的程度。其结果，将TD值为0％、小于20％或小于30％的试样排除，将SD值小于80％、小于90％或小于100％的基因排除，由此在利用DESeq2的标准化中显示出能够更近似于正态分布的可能性。

然而，在该情况下，分析对象试样数表示在将TD值小于20％的试样排除的情况下能够分析的试样能够确保8成左右，另一方面，在将TD值小于30％的试样排除的情况下减少至6成左右。另外，关于分析对象基因数，在除去了SD值小于90％的基因的情况下，能够分析的基因不到2成，但在除去了SD值小于100％的基因的情况下，显示减少至百分之几。

因此，在本发明中，将表达量为零或视为零的RNA判断为不能检测而对可检测的RNA的数量进行计数，针对各试样求出可检测的RNA相对于检测对象RNA的总数的比率1(TD值)(工序a)，将该比率1小于设定在5～29％的范围内的阈值的试样排除，在选择了分析对象试样的基础上(工序b)，针对上述选择出的试样，针对每个检测对象RNA，求出RNA的表达量比零或视为零的表达量多的试样的数量相对于全部分析对象试样数的比率2(SD值)(工序c)，将该比率2小于设定在81～99％的范围内的阈值的RNA排除，将除此以外的RNA作为分析对象提取其表达信息(工序d)，由此在其后的标准化处理中能够有效地进行标准化。

在工序a中，作为表达量为零或视为零的RNA，可以通过测定单元适当决定，例如，在RNA-seq分析中，可以举出读取计数值小于20、优选小于15、更优选小于10的RNA。

在工序b的分析对象试样的选择中，从有效的标准化的观点出发，将能够检测的RNA相对于检测对象RNA的总数的比率1的阈值设定为5％以上，优选为10％以上，更优选为15％以上，进一步优选为18％以上。另一方面，从确保标准化后的分析中的分析对象试样数的观点出发，将比率1的阈值设定为29％以下，优选为27％以下，更优选为25％以下，进一步优选为23％以下。另外，比率1的阈值在5～29％的范围内适当设定，优选设定在10～27％的范围内，更优选设定在15％～25％的范围内，进一步优选设定在18～23％的范围内。比率1的阈值更优选设为20％。

在工序c中，针对每个检测对象RNA，计算相对于全部分析对象试样数的表达量比零或视为零的表达量多的试样的数量的比率2(SD值)。在此，视为零的表达量是指，例如在RNA-seq分析中，读取计数值小于5，优选小于3，更优选小于1。在本发明中，作为比率2(SD值)，优选使用相对于全部分析对象试样数的、表达量多于零的试样数(在RNA-seq分析中，读取计数值大于0的试样数)的比率。

另外，在工序d的分析对象RNA的选择中，从有效的标准化的观点出发，将RNA的表达量比零或视为零的表达量多的试样的数量相对于全部试样数的比率2的阈值设定为81％以上，但优选为84％以上，更优选为87％以上。另一方面，从确保标准化后的分析中的分析对象基因数的观点出发，比率2的阈值设定为99％以下，但优选为96％以下，更优选为93％以下。另外，比率2的阈值在81～99％的范围内适当设定，优选设定在84～96％的范围内，更优选设定在87～93％的范围内。比率2的阈值更优选设为90％。

在工序b的比率1的阈值低时提高工序d的比率2的阈值是为了有效的标准化而优选的。在工序d的比率2的阈值低时提高工序b的比率1的阈值是为了有效的标准化而优选的。

这样，通过对提取出的分析对象RNA的表达信息的总数进行标准化，能够进行与正态分布近似的有效的RNA表达值的校正。

在该情况下使用的标准化法没有特别限制，例如除了前述的RPM法、RLE法以外，还可以采用FPKM(fragments per kilobase of exon per million reads mapped)法、RPKM(reads per kilobase of exon per million reads mapped)、TPM(transcripts permillion)法、TMM(Trimmed mean of M values)法等，优选使用RLE法。RLE法被安装在用于进行被称为DESeq2的一系列基因表达量分析的分析方法中。

用于对上述的RNA表达信息进行分析的数据处理方法及校正方法可以使用计算机(计算装置)来进行。即，本发明能够提供用于执行上述方法的计算装置、用于使该计算机执行上述方法的程序以及记录有该程序的计算机可读取的信息记录介质。进而，本发明能够提供通过上述数据处理方法得到的RNA分析用的数据集。另外，本发明也能够输入用于上述数据处理的比率1、比率2、或者阈值等信息来进行数据处理，或者也能够通过计算来选择妥当的比率1、比率2、阈值。

本发明的计算装置具有用于输入从受试者采集的试样得到的RNA表达信息的单元，按照用于执行本发明的数据处理方法和校正方法的程序，包括从上述的分析对象试样的选择工序、分析对象基因的选择工序、分析对象基因的RNA表达信息的提取工序以及该RNA表达信息的标准化的工序中选择的1个以上的工序。

作为记录用于执行本发明的数据处理方法及校正方法的程序的计算机可读取的信息记录介质，例如可以举出磁盘、光盘、磁光盘、闪存等。需要说明的是，在本发明中，计算机可读取也包括经由电力通信线路等传输的情况。

以下示出本发明的方式和优选的实施方式。

＜1＞一种数据处理方法，其中，用于将从多个受试者采集的分泌物作为生物试样，并对从其得到的RNA表达信息进行分析，并且，具备以下的a)～d)的工序，

＜2＞如＜1＞所述的方法，其中，分泌物为皮肤表面脂质。

＜3＞如＜1＞或＜2＞所述的方法，其中，工序a)的RNA的表达量的信息为基于RNA-Seq的读取计数值。

＜4＞如＜1＞～＜3＞中任一项的方法，其中，工序a)的表达量为零或视为零的RNA为基于RNA-seq的读取计数值小于20、优选小于15、更优选小于10的RNA。

＜5＞如＜1＞～＜4＞中任一项的方法，其中，在工序b)中，将比率1的阈值设定为优选为10％以上、更优选为15％以上、进一步优选为18％以上、且优选为27％以下、更优选为25％以下、进一步优选为23％以下、或者优选为10～27％的范围内、更优选为15％～25％的范围内、进一步优选为18～23％的范围内。

＜6＞如＜1＞～＜4＞中任一项的方法，其中，在工序b)中，将比率1的阈值设定为20％。

＜7＞如＜1＞～＜6＞中任一项的方法，其中，将工序c)的表达量视为零的表达量为，基于RNA-seq的读取计数值小于5，优选小于3，更优选小于1。

＜8＞如＜1＞～＜6＞中任一项的方法，其中，工序c)的表达量比零或视为零的表达量多的试样是基于RNA-seq的读取计数值比0多的试样。

＜9＞如＜1＞～＜8＞中任一项的方法，其中，在工序d)中，将比率2的阈值设定为优选84％以上、更优选87％以上、且优选96％以下、更优选93％以下、或优选设定在84～96％的范围内、更优选87～93％的范围内。

＜10＞如＜1＞～＜8＞中任一项的方法，其中，在工序d)中，将比率2的阈值设定为90％。

＜11＞一种RNA表达值的校正方法，其中，对通过＜1＞～＜10＞中任一项方法提取的RNA的表达信息的总数进行标准化。

＜12＞＜11＞的方法，其中，通过RLE法进行标准化。

＜13＞一种程序，其中，用于执行用于对＜1＞～＜12＞中任一项所述的RNA表达信息进行分析的数据处理方法或校正方法。

＜14＞一种信息记录介质，其特征在于，记录有＜13＞的程序。

＜15＞一种计算装置，其中，包括：从由＜13＞的程序执行的分析对象试样的选择工序、分析对象基因的选择工序、分析对象基因的RNA表达信息的提取工序和分析对象基因的RNA信息的标准化的计算工序中选择的至少1个以上的工序。

＜16＞一种RNA分析用数据集，其中，通过用于对＜1＞～＜12＞中任一项所述的RNA表达信息进行分析的数据处理方法而得到。

[实施例]

以下，基于实施例对本发明进行更详细的说明，但本发明并不限定于此。

实施例1从SSL提取的RNA表达数据的标准化

1)SSL采集

从42名健康人(20～59岁女性)的全脸使用吸油膜回收皮脂后，将该吸油膜转移到小瓶中，在-80℃下保存约1个月直到用于RNA提取。

2)RNA制备及测序

将上述1)的吸油膜切成适当的大小，使用QIAzol Lysis Reagent(Qiagen)，按照附属的操作手册提取RNA。以提取的RNA为基础，使用SuperScript VILO cDNA合成试剂盒(SuperScript VILO cDNA Synthesis kit)(Life Technologies Japan株式会社)在42℃下进行90分钟的逆转录，进行cDNA的合成。逆转录反应的引物使用附属于试剂盒的随机引物。从得到的cDNA中，通过多重PCR制备含有来源于20802基因的DNA的文库。多重PCR是使用Ion AmpliSeq转录组人基因表达试剂盒(Ion AmpliSeq Transcriptome Human GeneExpression Kit)(Life Technologies Japan株式会社)，在[99℃、2分钟→(99℃、15秒→62℃、16分钟)×20个循环→4℃、保持(Hold)]的条件下进行的。将得到的PCR产物用AmpureXP(Beckman Coulter株式会社)纯化后，进行缓冲液的重构、引物序列的消化、适配器连接(adapter ligation)和纯化、扩增，制备文库。将制备的文库装载到Ion 540Chip，使用IonS5/XL系统(Life Technologies Japan株式会社)测序。

3)数据分析

在上述2)中测定的源自受试者的RNA表达量数据(读取计数值)中，研究数据分析对象受试者的选择标准和数据分析对象基因的选择标准。作为数据分析对象受试者的选择标准，使用Torrent Suite(Life Technologies Japan株式会社)中计算出的检测到的目标(Targets Detected)(TD)的值，将针对每个受试者计算出的TD_j的阈值设定为0、20和30％，将小于阈值的受试者从分析对象中排除，将除此以外的受试者选择为数据分析对象受试者。作为数据分析对象基因的提取标准，使用了TD的数据分析对象受试者选择后的RNA表达量数据的各基因中，使用读取计数值超过0的受试者的百分比(检测到的试样(SamplesDetected)，SD)，将每个检测对象基因计算出的SD_i的阈值设定为70、80、90及100％，将小于阈值的基因从分析对象中排除，选择除此以外的基因作为数据分析对象基因。选择数据分析对象受试者，接着提取所选择的数据分析对象基因的表达信息后，使用DESeq2的方法计算对标准化后的读取计数值(normalized count值)加上整数1得到的底2的对数值(Log2(normalized count+1)值)。图1表示各受试者中的Log2(normalized count+1)值的箱线图。

在此，受试者j(j＝1～n的整数，n为受试者数)中的TD_j、基因i(i＝1～m的整数，m为检测对象基因数)中的SD_i的值如下计算。

4)最佳选择标准的设定

对于在上述3)中计算出的Log2(normalized count+1)值，计算出中值的方差，其结果是，随着TD值或SD值的阈值的增加，中值的方差减少到0.1以下(表1，粗体字)。另外，还确认到伴随TD值和SD值的阈值的增加，协同的中值的方差的减少。因此，示出了通过使用了TD值和SD值的数据分析对象受试者和数据分析对象基因的选择，能够使利用DESeq2进行标准化后的各受试者的中值一致。但是，在排除了TD值小于20％的受试者的情况下，可分析的受试者减少到约83％，另一方面，在将TD值小于30％的受试者排除的情况下，可分析的受试者减少到约64％(表2)。由于需要确保标准化后的分析中的分析对象受试者数，因此示出了优选将TD值20％设定为数据分析对象受试者的选择中的阈值(表2，粗体字)。另外，在排除SD值小于90％的基因的情况下，可分析的基因约为16％，另一方面，在排除SD值小于100％的基因的情况下，可分析的基因减少至2％或6％(表3)。由于需要确保标准化后的分析中的分析对象基因数，因此示出了优选将SD值90％设定为数据分析对象基因的选择中的阈值(表3，粗体字)。

[表1]

[表2]

NA：不适用(对象外)

[表3]

NA：不适用(对象外)。

Claims

1.一种数据处理方法，其中，

所述数据处理方法用于将从多个受试者采集的分泌物作为生物试样，并对从其得到的RNA表达信息进行分析，并且，具备以下的a)～d)的工序：

a)将检测对象RNA中表达量为零或视为零的RNA判断为不能检测，对可检测的RNA数进行计数，对各试样求出可检测的RNA数相对于检测对象RNA的总数的比率1的工序，其中，将比率1设为TD值；

c)根据所选择的分析对象试样的RNA表达信息，对每个检测对象RNA，求出其表达量比零或视为零的表达量多的试样数相对于全部分析对象试样数的比率2的工序，其中，将比率2设为SD值；

2.根据权利要求1所述的方法，其中，

分泌物为皮肤表面脂质。

3.根据权利要求1或2所述的方法，其中，

工序a)的RNA的表达量的信息为基于RNA-Seq的读取计数值。

4.根据权利要求1～3中任1项所述的方法，其中，

工序a)的表达量为零或视为零的RNA为基于RNA-seq的读取计数值小于10的RNA。

5.根据权利要求1～4中任一项所述的方法，其中，

在工序b)中，将比率1的阈值设定为20％。

6.根据权利要求1～5中任1项所述的方法，其中，

工序c)的表达量比零或视为零的表达量多的试样是RNA-seq的读取计数值比0多的试样。

7.根据权利要求1～6中任一项所述的方法，其中，

在工序d)中，将比率2的阈值设定为90％。

8.一种RNA表达值的校正方法，其中，

对通过权利要求1～7中任一项所述的方法提取的RNA的表达信息的总数进行标准化。

9.一种程序，其中，

用于执行用于对权利要求1～8中任一项所述的RNA表达信息进行分析的数据处理方法或校正方法。

10.一种信息记录介质，其特征在于，

记录有权利要求9所述的程序。

11.一种计算装置，其中，

包括：从由权利要求9所述的程序执行的分析对象试样的选择工序、分析对象基因的选择工序、分析对象基因的RNA表达信息的提取工序和分析对象基因的RNA信息的标准化的计算工序中选择的至少1个以上的工序。

12.一种RNA分析用数据集，其中，

通过用于对权利要求1～8中任1项所述的RNA表达信息进行分析的数据处理方法而得到。