CN106709267A

CN106709267A - 数据获取方法及装置

Info

Publication number: CN106709267A
Application number: CN201710062575.XA
Authority: CN
Inventors: 宋驰
Original assignee: Wuhan Yossi Technology Services Ltd
Current assignee: Wuhan Yossi Technology Services Ltd
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2017-05-24

Abstract

本发明实施例提供一种数据获取方法及装置，属于数据处理领域。其中，所述方法包括：从待测样品中获取基因在所述待测样品中的表达情况；基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果；通过从所述待测样品中获取基因在该待测样品中的表达情况，再基于所述基因的表达情况以及预先创建好的二分类模型，从而来对所述待测样品进行检测，以获取所述待测样品的检测结果，通过该方法可以提高数据获取的准确性与便捷性，使得对所述待测样品的检测可以更加准确和便捷。

Description

数据获取方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据获取方法及装置。

背景技术

目前，癌症诊断方法一般有组织活检、血清肿瘤标志物检测以及液态活检。组织活检是对肿瘤组织进行病理分析，即从患者体内切取、钳取或穿刺等取出病变组织，进行诊断。但是组织活检方法需要患者进行手术从肿瘤上取样切片，这给患者带来很大痛苦，并且不能频繁进行。而且传统活检往往只能对单一器官进行检测，局限性也非常大，不适合在常规体检时使用。更严重的是，从肿瘤上切片提取组织会对肿瘤进一步刺激，容易激发癌细胞的快速增长。

血清肿瘤标志物检测是指对肿瘤细胞发生和增殖的过程中，由肿瘤细胞产生或者是机体对肿瘤细胞反应而产生的一类物质进行检测，其主要成分是蛋白质，即肿瘤标志物。而液态活检是指通过抽取少量血液来分析肿瘤信息。而血清肿瘤标志物的主要成分是蛋白质。这些蛋白往往在正常细胞内也有表达，表达情况不稳定。某些肿瘤标志物在某些生理情况下或某些良性疾病也可以异常升高，从而导致假阳性出现；肿瘤标志物受多种非肿瘤因素影响，吸烟、酗酒、服用药物也可能导致肿瘤标志物升高；肿瘤标志物正常并不能排除肿瘤发生的可能，有的肿瘤从始至终肿瘤标记物都不会升高，有的肿瘤标志物在早期正常，疾病发展到一定程度才会升高。

液态活检是通过抽取少量血液来分析肿瘤信息。通常采用CTC(循环肿瘤细胞)、ctDNA(循环肿瘤DNA/circulatingtumor DNA)及外泌体等检测方法，通过非侵入性的取样方式获得肿瘤信息。其中CTC是实体瘤释放到外周血中的循环肿瘤细胞，其检出率低，CTCs是非常罕见的，因此从血液中捕获CTCs技术难度极高；CTC特异性低，病人个体化差异大，根据肿瘤的类型、病期和其他因素，CTCs可能带着不同的分子变异，即使同一患者也具有异质性。ctDNA是肿瘤细胞释放到外周血中的DNA，ctDNA来源复杂，个体差异大，不同患者具有的突变不一样，难以有统一的检测标准；不能反映不依赖基因突变的肿瘤类型,例如蛋白翻译后修饰，表观遗传调控导致的肿瘤等。

因此，如何通过对血小板RNA的提取，以对获得的数据进行处理，提高数据获取的准确性与便捷性，从而可以更容易检测出病人的病变情况，以提高疾病诊断的准确性与便捷性。

发明内容

有鉴于此，本发明实施例的目的在于提供一种数据获取方法及装置，其能够提高数据获取的准确性与便捷性。

第一方面，本发明实施例提供了一种数据获取方法，所述方法包括：从待测样品中获取基因在所述待测样品中的表达情况；基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果。

第二方面，本发明实施例提供了一种数据获取装置，所述装置包括：第一获取模块，用于从待测样品中获取基因在所述待测样品中的表达情况；检测模块，用于基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果。

本发明实施例的有益效果是：

本发明实施例提供一种数据获取方法及装置，通过从所述待测样品中获取基因在该待测样品中的表达情况，再基于所述基因的表达情况以及预先创建好的二分类模型，从而来对所述待测样品进行检测，以获取所述待测样品的检测结果，通过该方法可以提高数据获取的准确性与便捷性，使得对所述待测样品的检测可以更加准确和便捷。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一种可应用于本申请实施例中的电子设备的结构框图；

图2为本发明第一实施例提供的一种数据获取方法的流程图；

图3为本发明第二实施例提供的一种数据获取方法的流程图；

图4为本发明第三实施例提供的一种数据获取装置的结构框图。

图标：400-电子设备；101-存储器；102-存储控制器；103-处理器；104-外设接口；105-输入输出单元；106-音频单元；107-显示单元；100-数据获取装置；110-第一获取模块；120-检测模块；130-比对模块；140-第二获取模块；150-筛选模块；160-创建模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1示出了一种可应用于本申请实施例中的电子设备400的结构框图。电子设备400可以包括数据获取装置100、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单元106、显示单元107。

所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单元106、显示单元107各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据获取装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述数据获取装置100的操作系统(operating system，OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如所述数据获取装置100包括的软件功能模块或计算机程序。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中，或者由处理器103实现。

处理器103可能是一种集成电路芯片，具有信号的处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

输入输出单元105用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元105可以是，但不限于，鼠标和键盘等。

音频单元106向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

显示单元107在所述电子设备400与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元107可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器103进行计算和处理。

所述外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

输入输出单元105用于提供给用户输入数据实现用户与处理终端的交互。所述输入输出单元105可以是，但不限于，鼠标和键盘等。

可以理解的，图1所示的结构仅为示意，电子设备400还可以包括比图1中所示更多或更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

第一实施例

请参照图2，图2为本发明第一实施例提供的一种数据获取方法的流程图，所述方法具体包括如下步骤：

步骤S110：从待测样品中获取基因在所述待测样品中的表达情况。

首先将从生物体中提取的血液样本作为待测样品，该待测样品可以为患癌样品或非患癌样品。再从待测样品中提取出血小板，血小板的提取方法在本实施例中不做特备要求，以可以提取出血小板即可，例如，进行血细胞离心后分离出血小板。

再从分离出的血小板中提取出RNA，RNA的提取方法在本实施例中也不做特别的限定，以可以提取出RNA即可，例如，结合MACS磁珠分选和小分子RNA分离试剂盒提取RNA。利用RNA建库试剂盒构建mRNA文库，其构建方法与DNA文库的构建方法相同，其构建文库的目的是为了使生物的遗传信息以稳定的重组体形式贮存起来，以便于以后使用过程中直接调用。

将提取出的RNA进行测序得到多个碱基序列，该碱基序列可通过第二代测序平台输出。为了保证测序结果的质量以及避免一些重复序列的干扰，去除一些低质量的序列，例如，去除含有测序接头的序列，从而保留高质量的序列。再将该测序获得的碱基序列与参考基因组进行比对，该参考基因组可以为人类参考基因组或动物参考基因组，在本实施例中，该参考基因组为人类参考基因组。另外，作为一种实施方式，该比对过程可以利用现有的比对软件进行，如Bowtie2、STAR等软件，从而获得SAM格式的比对结果，该SAM格式的比对结果中存储有比对后获得的比对信息。可以理解的，该比对结果包括碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息。

当然，还可以使用其他的比对软件以及比对结果的表示方式，以能将待测基因的多个短序列与参考基因组进行比对并获得表示比对结果的比对信息为宜。

基于所述碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息，获取每个基因在所述待测样品中的相对丰度，也就是，获取每个RNA在所述待测样品中的相对丰度。

为了避免对待测样品的检测结果的干扰，需要去除所述待测样品中的线粒体与Y染色体，以便获得更加准确的检测结果。

另外还需要将每个基因在待测样品中的相对丰度转换CPM(count per million)计数，以便消除待测样品的测序数据量对基因的表达定量的干扰，该表达定量可以理解为，表达是指基因是否有转录出RNA，定量就是对转录出的RNA的相对丰度的计算，从而就可从待测样品中获取基因在所述待测样品的表达情况，该表达情况是指基因是否有转录出RNA以及转录出的RNA的相对丰度。

步骤S120：基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果。

基于所述基因在所述待测样品中的表达情况，以及预先创建好的二分类模型，然后对所述待测样品进行检测，获得所述待测样品的检测结果。该二分类模型的创建是基于从多个健康人和多个患癌病人的血液中提取的RNA，使用机器学习算法，例如，支持向量机分类器，其软件包可为libSVM，来创建的二分类模型，则将待测样品基于该二分类模型进行检测，即可检测出该待测样品为患癌样品或非患癌样品了，并且通过该二分类模型的检测，其检测的准确性可为96％左右。

第二实施例

请参照图3，图3为本发明第二实施例提供的一种数据获取方法的流程图，所述方法具体包括如下步骤：

步骤S210：将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列与参考基因组进行比对，获取比对结果，其中，所述比对结果包括所述碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息。

首先将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列进行质控，获取高质量的所述碱基序列，其具体的获取方法可参照第一实施例中步骤S110的获取方法，在此不再描述。将获取到的高质量的所述碱基序列与所述参考基因组进行比对，获取比对结果。其中，所述比对结果包括所述碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息。在本实施例中，该相互对照的多个样品可以为相互对照的多个患癌样品与多个非患癌样品，其RNA的提取与第一实施例中步骤S110中RNA的提取方法一致，另外，其碱基序列与参考基因组进行比对，获取比对结果的方法与第一实施例中步骤S110中的比对方法一致，所以，为了描述的简洁，在此不再过多赘述。

步骤S220：基于所述比对结果，获得每个所述样品中的所述基因的表达情况。

基于步骤S210中获取的所述碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息，从而可获得每个所述样品中基因的表达情况，其具体过程也可参照第一实施例中步骤S110的具体过程，在此不再过多赘述。

步骤S230：基于获得的所述多个样品中的所述基因的表达情况，筛选出所述多个样品中的差异表达基因。

首先获取所述多个样品中所述基因的表达情况，其获取方法可参照第一实施例步骤S110中叙述的方法，在这不再赘述。

由于在细胞增值、分化及对外界刺激反应过程中，可伴随某些特殊基因的表达，从而可以通过比较细胞在不同状态及不同分化阶段基因表达的差异，从而可以发现与细胞分化/生长相关的基因，通过比较不同细胞或不同基因在基因表达上的差异，即可发现发生病变的细胞，从而预测一些疾病的发生，例如癌症。在本实施例中，可基于获取的所述多个样品中的所述基因的表达情况以及差异表达基因的筛选条件，也就是分别将患癌样品与非患癌样品中的差异表达基因筛选出来，其中，该差异表达基因的筛选方法有多种，例如，Wilcoxon秩和校验法、Bonferroni修正法、SAM算法等多种方法。在本实施例中，可直接使用edgeR软件包实现差异表达基因的筛选，其筛选条件为FDR<0.00005，其中，FDR为差异率，计算公式为FDR＝筛选出差异表达基因中的假阳性基因个数/筛选出差异表达基因的个数。

步骤S240：基于获得的所述差异表达基因在所述多个样品中的表达情况，创建所述二分类模型。

首先获取所述差异表达基因在所述多个样品中的表达情况，其获取方法也可参照第一实施例中步骤S110的相关个、获取方法，在此不再赘述；再基于获得的所述差异表达基因在所述多个样品中的表达情况以及支持向量机分类器，其软件包可以使用libSVM，从而创建所述二分类模型。该二分类模型用于对所述获取的待测样品进行检测，从而可以预测出该待测样品是否为患癌样品，并且其预测的准确性可为96％左右。

步骤S250：从待测样品中获取基因在所述待测样品中的表达情况。

步骤S260：基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果。

第三实施例

请参照图4，图4为本发明第三实施例提供的一种数据获取装置100的结构框图，所述数据获取装置100具体包括：

第一获取模块110，用于从待测样品中获取基因在所述待测样品中的表达情况。

检测模块120，用于基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果。

比对模块130，用于将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列与参考基因组进行比对，获取比对结果，其中，所述比对结果包括所述碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息。作为一种实施方式，所述比对模块130包括质控子模块和比对子模块。

其中，质控子模块，用于将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列进行质控，获取高质量的所述碱基序列。

比对子模块，用于将获取到的高质量的所述碱基序列与所述参考基因组进行比对，获取比对结果。

第二获取模块140，用于基于所述比对结果，获得每个所述样品中的所述基因的表达情况。

筛选模块150，用于基于获得的所述多个样品中的所述基因的表达情况，筛选出所述多个样品中的差异表达基因。作为一种实施方式，所述筛选模块150包括第一获取子模块和筛选子模块。

其中，第一获取子模块，用于获取所述多个样品中的所述基因的表达情况。

筛选子模块，用于基于获取的所述多个样品中的所述基因的表达情况以及差异表达基因的筛选条件，筛选出所述多个样品中的差异表达基因。

创建模块160，用于基于获得的所述差异表达基因在所述多个样品中的表达情况，创建所述二分类模型。作为一种实施方式，所述创建模块160包括第二获取子模块和创建子模块。

其中，第二获取子模块，用于获取所述差异表达基因在所述多个样品中的表达情况。

创建子模块，用于基于获得的所述差异表达基因在所述多个样品中的表达情况以及支持向量机分类器，创建所述二分类模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本发明实施例提供一种数据获取方法及装置，通过从所述待测样品中获取基因在该待测样品中的表达情况，再基于所述基因的表达情况以及预先创建好的二分类模型，从而来对所述待测样品进行检测，以获取所述待测样品的检测结果，通过该方法可以提高数据获取的准确性与便捷性，使得对所述待测样品的检测可以更加准确和便捷。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种数据获取方法，其特征在于，所述方法包括：

从待测样品中获取基因在所述待测样品中的表达情况；

基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述从待测样品中获取基因的表达情况与表达量的步骤之前，所述方法还包括：

将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列与参考基因组进行比对，获取比对结果，其中，所述比对结果包括所述碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息；

基于所述比对结果，获得每个所述样品中的所述基因的表达情况；

基于获得的所述多个样品中的所述基因的表达情况，筛选出所述多个样品中的差异表达基因；

基于获得的所述差异表达基因在所述多个样品中的表达情况，创建所述二分类模型。

3.根据权利要求2所述的方法，其特征在于，基于获得的所述多个样品中的所述基因的表达情况，筛选出所述多个样品中的差异表达基因，包括：

获取所述多个样品中的所述基因的表达情况；

基于获取的所述多个样品中的所述基因的表达情况以及差异表达基因的筛选条件，筛选出所述多个样品中的差异表达基因。

4.根据权利要求2所述的方法，其特征在于，所述将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列与参考基因组进行比对，获取比对结果，包括：

将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列进行质控，获取高质量的所述碱基序列；

将获取到的高质量的所述碱基序列与所述参考基因组进行比对，获取比对结果。

5.根据权利要求2所述的方法，其特征在于，基于获得的所述差异表达基因在所述多个样品中的表达情况，创建所述二分类模型，包括：

获取所述差异表达基因在所述多个样品中的表达情况；

基于获得的所述差异表达基因在所述多个样品中的表达情况以及支持向量机分类器，创建所述二分类模型。

6.一种数据获取装置，其特征在于，所述装置包括：

第一获取模块，用于从待测样品中获取基因在所述待测样品中的表达情况；

检测模块，用于基于所述基因的表达情况以及预先创建好的二分类模型，对所述待测样品进行检测，获取所述待测样品的检测结果。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

比对模块，用于将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列与参考基因组进行比对，获取比对结果，其中，所述比对结果包括所述碱基序列在所述参考基因组上的比对信息以及所述基因在所述参考基因组上的位置信息；

第二获取模块，用于基于所述比对结果，获得每个所述样品中的所述基因的表达情况；

筛选模块，用于基于获得的所述多个样品中的所述基因的表达情况，筛选出所述多个样品中的差异表达基因；

创建模块，用于基于获得的所述差异表达基因在所述多个样品中的表达情况，创建所述二分类模型。

8.根据权利要求7所述的装置，其特征在于，所述筛选模块包括：

第一获取子模块，用于获取所述多个样品中的所述基因的表达情况；

9.根据权利要求7所述的装置，其特征在于，所述比对模块包括：

质控子模块，用于将从相互对照的多个样品中提取的RNA进行测序得到的碱基序列进行质控，获取高质量的所述碱基序列；

10.根据权利要求7所述的装置，其特征在于，所述创建模块包括：

第二获取子模块，用于获取所述差异表达基因在所述多个样品中的表达情况；